产品与解决方案

解决方案

大数据解决方案
发布日期:2017/08/22

大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

从开发人员角度看,大数据和以往的数据库技术、数据仓库技术是不同的,他代表以Hadoop、Spark为首的一系列新技术。

这类技术的显著特点是:分布式、内存计算。

分布式:简单的说,分布式就是将复杂的、费时的任务拆分为多个细小的任务,并行处理。这里的任务就包含了数据采集、数据存储、数据处理。

内存计算:实质上就是CPU直接从内存而非硬盘上读取数据,并对数据进行计算、分析。内存计算非常适合处理海量的数据,以及需要实时获得结果的数据。比如可以将一个企业近十年几乎所有的财务、营销、市场等各方面的数据一次性地保存在内存里,并在此基础上进行数据的分析。

数据挖掘:大数据的核心实际上还应该包括数据挖掘技术,这是一个和统计学联系紧密的技术,粗略的划分为分类、聚类、预测、关联四大类,可从大量的、不完全的、模糊的数据中利用数学方法,提取出潜在的规律或知识。


大数据平台要求

大数据的能力分为数据采集、数据存储、数据计算或处理、数据挖掘、数据展现五个方面。

数据采集:需要对于海量数据、实时数据的采集能力,这是数据利用的第一步。

数据存储:对应大数据特点,需要大容量、高容错、高效率的存储能力,这是数据利用的基础。

数据计算:需要强大、廉价、快速的数据处理货计算能力,强大对应大数据的量大、类型多,廉价对应大数据的价值密度低,快速对应大数据的速度快,这是大数据能够发展的关键。

数据挖掘:要能够全角度、多方位的立体分析挖掘数据价值,应用好数据挖掘才能将数据转化为价值,这是数据利用的核心。


企业大数据解决方案从数据处理流程上分为数据采集层、数据存储层、数据计算层、数据挖掘层、数据展现层,每一层解决大数据所需的关键难题。其中标黄的部分是传统数据处理技术。

数据采集层:

数据采集技术分为实时采集和定时采集,实时采集采用Oracle GoldenGate等工具,实时增量采集数据,保证数据的及时性;定时采集采用SAP Data Services等工具相结合的方式,定时抽取数据,主要用于大批量、非实时性数据。加入kettle、sqoop等分布式ETL工具,丰富多样化数据抽取服务,同时加入整合实时数据的kafka服务,处理大量实时数据。

数据存储层:

数据存储区在传统oracle的基础上,加入分布式文件系统、分布式列式数据库、内存文件系统、内存数据库、全文搜索等模块。其中,分布式文件系统ceph由于拥有数据分布均衡,并行化度高等特性,所以用于存储非结构化数据;分布式文件系统Hdfs由于拥有极佳的扩展性和兼容性,用于存储其他结构化数据;列式存储数据库hbase主要用于存储特定需求的海量数据,以供运算查询等服务。

数据计算层:

计算层采用标准SQL查询、全文搜索、交互分析Spark、实时数据处理Streaming、离线批处理、图计算Graph X等技术,对结构化数据、非结构化数据、实时数据、大批量数据进行数据计算处理。

核心计算方式spark内存计算引擎的优势:

  • 轻量级快速处理。
  • 易于使用,Spark支持多语言。
  • 支持复杂查询。
  • 实时的流处理。
  • 可以与Hadoop和已存Hadoop数据整合。
  • 可以与Hive整合 

数据挖掘层:采用Spark_Mllib、R、Mhout等分析工具,依据模型分析引擎创建模型、算法库。由模型算法库对模型进行训练,生成模型实例,最后依据模型实例进行实时决策及离线决策。

数据展现层:提供门户展现、数据图表、电子邮件、办公软件等多种数据分析方式,在展现途径上可支持大屏幕、电脑桌面、移动终端等。


数据展现:多途径、直观、丰富的数据展现形式是数据的外在形象,这是数据应用的亮点,是能够得到用户认可的窗口。

以上是对于大数据平台需要解决的问题,必须具备的能力,数据提出的要求。

随着高性能计算机、海量数据的存储和管理的流程的不断优化,技术能够解决的问题终将不会成为问题。