旅游研究院大数据挖掘与分析科研平台建设方案

发布时间：2020-07-20 11:57:06 作者：guxiaodou002
来源：网络阅读：2050

一. 背景

一.1 数据挖掘和大数据分析行业背景和发展趋势

移动互联网、电子商务以及社交媒体的快速发展使得企业需要面临的数据量成指数增长。根据 IDC 《数字宇宙》(Digital Universe)研究报告显示，2020 年全球新建和复制的信息量已经超过 40ZB，是2015年的12倍;而中国的数据量则会在2020年超过8ZB，比2015年增长22倍。数据量的飞速增长带来了大数据技术和服务市场的繁荣发展。IDC亚太区(不含日本)最新关于大数据和分析(BDA)领域的市场研究表明，大数据技术和服务市场规模将会从2012年的5.48亿美元增加到2017年的23.8亿美元，未来5年的复合增长率达到34.1%。该市场涵盖了存储、服务器、网络、软件以及服务市场。数据量的增长是一种非线性的增长速度。

据IDC分析报道，最近一年来，亚太区出现了越来越广泛的大数据和分析领域的应用案例。在中国，从互联网企业，到电信、金融、政府这样的传统行业，都开始采用各种大数据和分析技术，开始了自己的大数据实践之旅;应用场景也在逐渐拓展，从结构化数据的分析，发展到半结构化、非结构化数据的分析，尤其是社交媒体信息分析受到用户的更多关注。用户们开始评估以Hadoop、数据库一体机以及内存计算技术为代表的大数据相关新型技术。

最新调研结果显示，提高竞争优势，降低成本以及吸引新的客户是中国用户对大数据项目最期望的三大回报。目前现有的大数据项目主要集中在业务流程优化以及提高客户满意度方面的应用。IDC发现很多用户希望大数据能够为企业带来业务创新，并且开始使用高级分析的解决方案以管理复杂的数据环境。过去一年中用户对社交数据的收集和分析应用的关注度增加明显。未来，地理位置信息分析将会增长迅速，这也会推动用户对大数据安全和隐私管理的关注。在亚太区，澳大利亚和新加坡的用户对大数据的相关投资主要在咨询服务方面，更关注如何根据新的最佳实践需求设计和实施方案。中国和印度在大数据领域的硬件投资则非常明显，更倾向于数据中心相关的基础架构的投资。

在传统的数据分析与商业数据挖掘中，人们通常遵循二八原则。也就是任务20%的用户提供了80%的价值，因此利用优势资源用户对于少数用户的服务。随着互联网的发展，越来越多的低价值用户进入到商业体系中，这部分用户成为商业企业竞争的目标。比如电商行业，大量顾客都是传统意义上的低价值客户，数据表明对于这部分用户价值的挖掘可以改变二八原则，甚至可达到价值的几乎均匀分布。并且由于计算技术的发展，对于大数据的分析也成为了可能。

一.2 旅游行业开展大数据分析及应用的意义

旅游行业有行业广、规模大、移动性强的特点，因此更加依赖大数据。当前，旅游业也在“新常态”下迎来了升级的挑战和变革的机遇，新常态对于一般的经济部门是经济速度放慢、人均GDP增速减小，很多传统行业在调整结构，但新常态对旅游行业却是速度加快的。旅游大数据的解决之道，在于整合国内多途径的大数据源，形成旅游大数据生态，为国内旅游业提供大数据解决方案，促进旅游业的转型升级。

一.3 数据挖掘与大数据分析科研平台建设的必要性

数据挖掘与大数据分析是以计算机基础为基础，以挖掘算法为核心，紧密面向行业应用的一门综合性学科。其主要技术涉及概率论与数理统计、数据挖掘、算法与数据结构、计算机网络、并行计算等多个专业方向，因此该学科对于科研平台具有较高的专业要求。科研平台不仅要提供基础的编程环境，还要提供大数据的运算环境以及用于科学研究的实战大数据案例。这些素材的准备均需完整的科研平台作为支撑。

目前，在我国高校的专业设置上与数据挖掘与大数据分析相关的学科专业包括：计算机科学与技术、信息管理与信息系统、统计学、经济、金融、贸易、生物信息、旅游以及公共卫生等。这些专业的在使用科研平台时的侧重点各不相同，使用人员层次水平也不相同，对算法的使用也不相同，因此，需要建设一个便利、操作简易、算法全面、可视化的大数据科研平台是非常有必要的。

二. 数据挖掘与大数据分析科研平台总体规划

二.1 科研平台规划

科研平台建设的基本原则是科研为主，同时为教学实验提供部分计算资源及安全资源，系统在授权范围内共享科研系统的计算资源，提高教学实验的真实性。

项目的总体架构如图1所示。

旅游研究院大数据挖掘与分析科研平台建设方案

图1.总体架构图

系统整体由千兆核心交换机作为核心节点，并以两个千兆接入交换机作为科研与实验环境的交换节点。科研环境由我司开发的商业Hadoop集群为基础，上层集成便于操作的大数据科研应用系统，集成10TB大数据案例集及可拖拽的数据算法和可视化算法。

二.2 科研平台功能规划

本科研平台针对数据挖掘有大数据分析研究内容，兼顾科研与教学的需求，既能满足科研工作中对大数据分析高性能平台要求也具有教学实验平台简单易用的特点。

1) 大数据资源规划

内置商业级数据资源，按常见科研分类规划数据资源，可以直接用于科学研究，具有数据资源授权管控功能。

2) 大数据分析功能规划

建设以商业版Hadoop为核心的大数据分析平台，系统提供MapReduce以及Spark等大数据挖掘功能。系统具有完整的管理调度功能。

3) 硬件资源功能规划

系统具有24个Intel Xeon E5 CPU计算能力，提供超过40TB的存储能力以及1T以上的内存，可满足1000任务共时计算内能，方便扩充。

三. 数据挖掘与大数据分析科研平台建设方案

三.1 大数据科研平台设备架构

旅游研究院大数据挖掘与分析科研平台建设方案

图3.设备架构

三.1.1 主节点和备份主节点

主节点负责整个分布式大数据平台的运行。主节点始终在内存中保存整个文件系统的目录结构，每个目录有哪些文件，每个文件有哪些分块及每个分块保存在哪个计算上，用于处理读写请求。同时，主节点还负责将作业分解成子任务，并将这些子任务分配到各个计算节点上。备份主节点在主节点发生故障时承担主节点的各种任务，使得分布式大数据平台仍然能够正常运行。

三.1.2 管理节点

管理节点用于管理整个分布式大数据平台，可进行节点安装、配置、服务配置等，提供网页窗口界面提高了系统配置的可见度，而且降低了集群参数设置的复杂度。

三.1.3 接口节点

终端用户通过接口节点连接和使用分布式大数据平台，提交任务并获得结果，并可以用其他数据分析工具做进一步处理，与外界进行数据交互(如连接关系型数据库)。

三.1.4 计算节点

分布式大数据平台包含了多个计算节点。计算节点是系统中真正存储数据和做数据运算的节点。每个计算节点周期性地和主节点通信，还时不时和客户端代码以及其他计算节点通信。计算节点还维护一个开放的socket服务器，让客户端代码和其他计算节点通过它可以读写数据，这个服务器还会汇报给主节点。

三.2 大数据科研平台底层架构

大数据科研平台低层架构以我司自主研发的商业版Hadoop为基础架构，包含和大数据分析、数据挖掘、机器学习等功能模块，并以HDFS以及Hbase作为存储基础。

旅游研究院大数据挖掘与分析科研平台建设方案

图2. 软件架构

三.2.1 分布式持久化数据存储——HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。

三.2.2 分布式实时数据库——HBase

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于BigTable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

三.2.3 分布式资源调度管理——YARN

Yarn是Hadoop2.0的MapReduce 框架。YARN分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager 将各个资源部分(计算、内存、带宽等)精心安排给基础 NodeManager(YARN 的每节点代理)。ResourceManager 还与 ApplicationMaster 一起分配资源，与 NodeManager 一起启动和监视它们的基础应用程序。在此上下文中，ApplicationMaster 承担了以前的 TaskTracker 的一些角色，ResourceManager 承担了 JobTracker 的角色。

三.2.4 交互式SQL引擎——Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

三.2.5 内存计算——Spark

Spark是UC Berkeley AMP实验室所开源的类Hadoop MapReduce的通用的并行计算框架。Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce算法。

三.3 科研平台的功能

三.3.1 科研项目管理

在科研平台中，科研计算是以计算项目来保存的，包括了计算项目建立、计算项目维护、计算项目设计、计算项目运行和结果可视化等几个环节。从技术角度来说，计算项目中也包括了算法组件、算法流程和数据集，一旦设计完后，就可用于计算，后期还可以调整算法和基于新的数据资源进行计算。

计算项目完成后，可以训练出算法模型，在新的计算项目中使用已经训练好的模型进行数据的预测，形成一次训练多次使用的算法实现。

三.3.2 平台内置数据集

在科研工作中，如何获取到海量高质量大数据资源是最大的难点。目前在互联网等渠道是很难找到科研工作所需的数据源，尤其是经过数据清洗和治理后的高质量数据。

数据超市平台利用以下模式，通过外部的资源，为高校的科研工作提供优质数据资源：

1)通过商务合作的模式，直接与数据所有权拥有者进行灵活的商务沟通，获得科研的数据使用授权;

2)邀请行业内优质的第三方数据服务提供商入驻数据超市平台;

3)通过数据采集的方式，经过数据寻源、采集、治理、清洗后，引入具有公开版权的数据资源;

所有引入数据都会经过数据工程师的严格审核，保证数据的清洁和质量，可以直接用于数据计算。

如平台内置的专利数据，包括了国内近2000万各类商业数据，并且不断更新，可以直接用于旅游各方面的科学研究。有别区目前行业提供的数据库，数据超市直接提供了原始的数据，可以打通其他的行业数据，用于深层次的数据分析和经济预测。