物联网与后勤保障
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.6 大数据技术

2.6.1 概念介绍

研究机构Gartner对大数据给出了定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

随着云时代的来临,大数据也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百甚至数千的计算机分配工作。

大数据需要特殊的技术,以有效地处理大量的能容忍较长时间延时的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

2.6.2 原理及特点

大数据特性最早的提出者是麦塔集团(META Group,现为高德纳)分析师道格·莱尼(Doug Laney),他在研究报告《3D数据管理:控制数据数量、速度及种类》中指出,“数据激增的挑战和机遇是三维的,不仅仅在我们通常所理解的数据量(Volume)层面,还包括数据进出的速度(Velocity)以及数据种类范围(Variety)”。此后,研究者纷纷从特性角度去分析和理解大数据,并对这种“3V”的观点加以丰富。例如,IBM商业价值研究院在《分析:大数据在现实世界中的应用》报告中提出应增加准确性(Veracity);弗雷斯特研究公司(Forrester Research)分析师布莱恩·霍普金斯(Brian Hopkins)和鲍里斯·埃韦尔松(Boris Evelson)认为应增加易变性(Variability)等。其中国际数据公司(International Data Corporation,IDC)的观点最为权威,也得到了研究者的广泛认同,该公司在《从混沌中提取价值》报告中提出了大数据的“6V”特征,即数据容量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、商业价值高(Value)、类型多变(Variability)、数据准确(Veracity)。下面对大数据的几个重要特性具体介绍。

(1)数据容量大(Volume)。也称数据体量巨大。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等,各方研究者虽然对大数据量的统计和预测结果并不完全相同,但一致认为数据量将急剧增长。

(2)数据类型繁多(Variety)。即数据类型多样。从生成类型上分为交易数据、交互数据、传感数据;从数据来源上分为社交媒体、传感器数据、系统数据;从数据格式上分为文本、图片、音频、视频、光谱等;从数据关系上分为结构化、半结构化、非结构化数据;从数据所有者分为公司数据、政府数据、社会数据等。

(3)处理速度快(Velocity)。数据的增长速度快,以及要求数据访问、处理、交付等速度快。数据创建、处理和分析的速度持续加快,其原因是数据创建的实时性属性,以及需要将流数据结合到业务流程和决策过程中的要求。速度影响数据时延——从数据创建或获取到数据可以访问的时间差。目前,数据以传统系统不可能达到的速度在产生、获取、存储和分析。对于对时间敏感的流程(例如,实时欺诈监测或多渠道“即时”营销),某些类型的数据必须实时地分析,以对业务产生价值。

(4)商业价值高(Value)。大数据价值巨大。大数据能够通过规模效应将低价值密度的数据整合为高价值、作用巨大的信息资产。例如,美国社交网站Facebook有10亿用户,网站对这些用户信息进行分析后,广告商可根据结果精准投放广告。对广告商而言,10亿用户的数据价值上千亿美元。

(5)类型多变(Variability)。大数据具有多层结构。弗雷斯特研究公司分析师布赖恩·霍普金斯和鲍里斯·埃韦尔松指出,大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。

(6)数据准确(Veracity)。也称真实性,包括可信性、真伪性、来源和信誉的有效性和可审计性等子特征。一方面,对于网络环境下如此大量的数据需要采取措施确保其真实性、客观性,这是大数据技术与业务发展的迫切需求;另一方面,通过大数据分析,真实地还原和预测事物的本来面目也是大数据未来发展的趋势。IBM商业价值研究院在发布的《分析:大数据在现实世界中的应用》报告中指出,追求高数据质量是一项重要的大数据要求和挑战,但是,即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性,例如,天气、经济或者客户最终的购买决定。不确定性的确认和规划的需求是大数据的一个维度,这是随着需要更好地了解不确定性而引入的维度。

2.6.3 应用现状

1. 数据战略

(1)大数据全球战略布局全面升级。发达国家期望通过建立大数据竞争优势,巩固和加强领先地位。美国作为大数据发展的发源地和创新的引领者,最早正式发布国家大数据战略。继美国之后,全球各国家、组织都纷纷在大数据战略推进方面积极行动,各国的大数据发展战略形成以下特点:一是政府全力推动,同时引导市场力量共同推进大数据发展;二是推动大数据在政用、商用和民用领域的全产业链覆盖;三是重视数据资源的开放和管理的同时,全力抓好数据安全问题。

(2)中国加快构建大数据战略体系。中国敏锐地把握了大数据的兴起及发展趋势。在短短几年内,大数据迅速成为我国社会各领域关注的热点。为促进大数据发展,加快建设数据强国,中国政府制定了一系列发展大数据的战略性政策。2015年8月,国务院发布《促进大数据发展行动纲要》,提出全面推进中国大数据发展和应用,加快建设数据强国;同年10月,中共中央十八届五中全会将“大数据”写入会议公报并升格为国家战略;2016年3月,国家在出台的“十三五”规划纲要中再次明确大数据作为基础性战略资源的重大价值,要加快推动相关研发、应用及治理。2017年1月,《大数据产业发展规划(2016—2020年)》正式发布,全面制订了“十三五”期间的大数据产业发展计划。

(3)地区大数据发展格局初步形成。在《促进大数据发展行动纲要》发布之前,广东、上海、贵州等地率先启动了大数据地方政策的先行先试。而在《促进大数据发展行动纲要》发布后,各地政府加快跟进,全国31个省份均出台了大数据相关政策文件。经过不断的探索与实践,地区大数据发展的梯次格局初步显现。北京、广东、上海等东部沿海地区产业基础完善、人才优势明显,成为发展的核心地区;而地处西部欠发达地区的贵州、重庆等地区,通过战略创新形成先发优势,政府积极实施政策引导,引进大数据相关产业、资本与人才,也在区域竞争格局中占据一席之地。

2. 数据资源

(1)数据总量爆炸式增长。根据国际数据公司(IDC)《数字宇宙报告》,2020年以前全球数据量保持40%以上的指数增长速度,大约每两年翻一番。

(2)数据成为核心生产资料。与农业时代的土地、资源、劳动力,工业时代的技术、资本不同的是,数据是人类自己创造的全新的生产资料。在互联网没有出现之前,数据就已经存在,但互联网的发展才使数据流动和利用变得更为容易。数据用于记录、反馈和提升互动体验,过往杂乱、无用、静态的数据因为流动而变得鲜活,数据拥有了生命,能够用于量化决策与预测。发掘数据价值的技术成本降低,数据可以用在全局流程及价值优化,并且实现真正的数据业务化,产生新的社会经济价值。

(3)判断数据价值成为数据管理的核心能力。数据总量的爆炸性增长也给存储、分析和使用大数据带来挑战。据统计,当下世界各大公司存储的数据中充斥着半数以上的价值模糊的暗数据,在总体中的占比能够达到52%;此外还有大约33%的历史数据处在难以发掘的尴尬处境,或者是失去了时效性,或者是难以进行二次利用以及价值含量过低。因此,除数据总量构成的挑战以外,大数据自身所包含的模糊性、时效性以及冗杂性,都对海量数据的价值挖掘能力提出了更高的诉求。因此,迫切需要开发者与决策者加快对大数据处理技术和分析能力的研究进程。

3. 数据流动

跨境数据流推动全球化进入新阶段。麦肯锡全球研究院(MGI)发布《数字全球化:新时代的全球性流动》(Digital Globalization:The New Era of Global FIows)报告提出,“在全球商品流动趋缓、跨境资本流动出现下滑的趋势下,全球化并没有因此而逆转或停滞。相反,因为跨境数据流的飙升,全球化进入了全新的发展阶段”。

面对开放数据所能带来的巨大潜能,中国也正推动全国范围的数据开放。构建交易平台成为促进数据流通的主要举措。数据交易平台是数据交易行为的重要载体,可以促进数据资源整合、规范交易行为、降低交易成本、增强数据流动性。近年来成立并投入运营的有北京大数据交易服务平台、贵阳大数据交易所、长江大数据交易所、东湖大数据交易平台、西咸新区大数据交易所和河北大数据交易中心、哈尔滨数据交易中心、江苏大数据交易中心、上海大数据交易中心以及浙江大数据交易中心。

4. 数据产业

大数据产业核心层将保持每年40%的增长速度。目前大数据产业的统计口径尚未建立,对于中国大数据产业的规模,各个研究机构均采取间接方法估算。通常认为,大数据产业核心层主要是指围绕大数据采集、存储、管理和挖掘等环节所形成的产业链条。中国大数据行业仍处于快速发展期,据中国信通院(CAICT)数据显示,2017—2022年大数据核心产业还有着40%左右的高增长空间。

2.6.4 发展趋势

1. 大数据和开源

Apache Hadoop、Spark和其他开源应用程序已经成为大数据技术空间的主流,而且这种趋势似乎可能会持续下去。一项调查发现,近60%的企业于2019年底采用Hadoop集群投入生产。根据调研机构Forrester公司的报告,Hadoop的使用量每年增长32.9%。专家表示,近些年,许多企业扩大对Hadoop和NoSQL技术的使用,并寻找加快大数据处理的途径,许多人寻求能够让实时访问和响应数据的技术。

2. 内存技术

内存技术是企业正在研究加速大数据处理的技术之一。在传统数据库中,数据存储在配备有硬盘驱动器或固态驱动器(SSD)的存储系统中。而内存技术可以将数据存储在RAM中,并且存取速度要快很多倍。Forrester公司的一份报告预测,内存数据结构市场规模每年将增长29.2%。

3. 机器学习

随着大数据分析能力的进步,一些企业已经开始投资机器学习。机器学习是人工智能的一个分支,其重点在于允许计算机在没有明确编程的情况下学习新事物。换句话说,它分析现有的大数据存储库以得出改变应用程序行为的结论。当今最先进的机器学习和人工智能系统正在超越传统的基于规则的算法,以创建理解、学习、预测、自主操作系统。

4. 预测分析

预测分析与机器学习密切相关。实际上,机器学习系统经常为预测分析软件提供引擎。在大数据分析的早期,企业正在回顾其数据,看看发生了什么,然后他们开始使用分析工具来调查为什么发生这些事情,而预测分析则更进一步,可以使用大数据分析来预测未来会发生什么。

5. 大数据智能应用程序

企业使用机器学习和人工智能技术的另一种方式是创建智能应用程序。这些应用程序通常包含大数据分析,分析用户以前的行为,以提供个性化和更好的服务。现在人们非常熟悉的一个例子是当前推动许多电子商务和娱乐应用程序的推荐引擎。

6. 智能安全

许多企业也将大数据分析纳入其安全战略中。组织的安全日志数据提供了有关过去的网络攻击的宝贵信息,企业可以使用这些信息来预测、预防和减轻未来的攻击。因此,一些组织正在将其安全信息和事件管理(SIEM)软件与Hadoop等大数据平台进行整合。其他公司正在转向采用安全厂商提供的服务,其产品包含大数据分析功能。

7. 物联网

物联网也可能对大数据产生相当大的影响。随着新设备和应用程序的上线运行,企业将会体验到比以往更快的数据增长。许多企业需要新技术和系统,以便能够处理和理解来自物联网部署的大量数据。

8. 边缘计算

一种可以帮助企业处理物联网大数据的新技术是边缘计算。在边缘计算中,大数据分析与物联网设备和传感器非常接近,而不是在数据中心或云端。对于企业来说,这提供了一些重要的好处:网络数据流量较少,可以提高性能,并节省云计算成本。它允许组织删除只在有限的时间内具有价值的物联网数据,减少存储和基础设施成本。边缘计算还可以加快分析过程,使决策者能够比以前更快地采取行动。

9. 自助服务

随着聘请行业专家的成本不断上升,许多组织可能正在寻找工具,让普通工作人员能够满足大数据分析需求。IDC公司此前曾预测,可视化数据发现工具的增长速度将比商业智能(BI)市场的增长速度快2.5倍,在2018年,对推动终端用户自助服务的投资已成为所有企业的需求。一些供应商已经推出了具有“自助服务”功能的大数据分析工具。随着大数据分析越来越融入企业各个部门的人员工作中,IT部门可能会越来越少地参与到此过程中。