大数据侦查法治化研究(山东大学数据法学丛书)
上QQ阅读APP看书,第一时间看更新

第4章 《大数据侦查概述》:大数据的特征与运用

“大数据侦查”作为大数据时代在侦查学、诉讼法学领域新近诞生的一个名词,其内涵与外延目前尚未形成通说,在概念界定方面依然存在诸多争议。根据笔者对侦查人员、技术人员、法制工作者、刑辩律师以及专家学者的调研访谈结果来看,大家对“大数据侦查”的理解各异,存在不一样的解读。所以要想对大数据侦查法治化进行系统研究,首先应对“大数据侦查”的基本内容进行明晰,梳理大数据的发展历程,厘定大数据侦查的基本概念,归纳大数据侦查的外在特征及实践样态,在此基础上再对大数据侦查的实践价值和理论基础展开深入分析,从而实现对“大数据侦查”的祛魅,为大数据侦查法治化研究奠定坚实基础。

随着高新技术与信息数据的高速发展,人类生活场域逐步迈入现实与虚拟融汇的“二元空间”[2]。信息凭借互联网的高效传递,进一步打破了时空的限制。网络化、数字化、智能化叠加交融发展,世界正被逐步塑造成为无缝连接、即时互动、分布共享的信息共同体。[3]因应世界经济高速发展,科技进步显著加快,互联网络已经无处不在,成为社会生活不可缺少的一部分。当虚拟社会与现实社会彼此交融,信息的传输将越来越依赖于数字媒介。也正因此,越来越多的信息数据正在集聚,并呈指数级增长,从而实现了由“IT(信息技术)时代”向“DT(数据)时代”的迈进,“大数据”自然孕育其中。从这个意义上来看,大数据的确开启了一次新的时代转型,它对我们的生活方式以及看待世界的角度都产生了巨大影响,越来越多的变革与创新将基于大数据而不断涌现。

一、概念界定

在很长一段时间内,“数据”与“信息”这两个词往往相伴而生,甚至常常会被用来替换使用,但实际上二者之间是有区别的。“数据”一般被认作未被加工的事实或观察的结果,它既可以是数字、文字、符号,也可以是声音、图片、视频,是一个物理性、抽象性的概念,用来反映客观事物的原始素材;而“信息”则是在原始素材基础上所要表达的主观见之于客观的内容,是一个逻辑性与观念性的概念,通过对数据进行解释从而赋予其具体而实际的意义。质言之,数据是信息的载体,信息是数据的内涵,二者不可分离。如果说人类文明与社会进步依托于知识的积累与升级,那么知识就是沉淀并与已有人类知识库进行结构化的有价值信息,而有价值的信息又得益于客观数据的加工处理。在这个意义上来看,数据当中蕴含着信息,创造着知识,推动着时代变革。

如今立身于大数据时代,显然这一次时代变革与“大数据”息息相关。然而究竟何为“大数据”,目前尚无统一定义,基于不同视角存在着多种解读,在现阶段它仍然是一个可以进行多元化认知的开放性概念。如果单纯从数据层面来看,大数据仅是一个海量的数据集合[4];但若基于专业技术的视角,大数据又是一种包括了数据处理与智能分析的专业技术方法[5];假若进一步上升到价值高度,大数据则更加强调海量数据背后的价值与规律[6]。在我国2014年发布的《大数据白皮书》中,围绕“资源、技术、应用”三个维度对大数据作出了如下描述:“大数据是具有体量大、结构多样、时效强等特征的数据;处理大数据需采用新型计算架构和智能算法等新技术;大数据的应用强调以新的理念应用于辅助决策、发现新的知识,更强调在线闭环的业务流程优化。”[7]从这样一段表述也可以看出,我们对“大数据”这一概念的理解,不应仅仅局限于字面意义之“大”,更要关注其内涵价值之“新”,它既是一种新资源,又是一种新技术,更是一种新理念、新思路、新模式。

首先,大数据是一种新资源。作为海量的数据集合,已有人将大数据比作信息时代的巨大金矿,美国联邦政府更是于2012年就将大数据视作“未来的新石油”,并将“大数据战略”上升到了国家意志层面,认为未来国家的核心资产是对数据的占有与控制。[8]当大数据成为宝贵的新资源,“数据主权”的概念也便应运而生。单就数据本身而言,从形式类型上,它又可以分为结构化数据和非结构化数据,但不管基于何种形式,数据本质上都是对信息数字化的记录。作为一种对客观世界进行量化和记录的结果,大数据表示的是过去,关注的却是未来。作为记录信息的载体,数据是知识的来源,也是分析判断与科学决策的重要依据。在大数据时代背景下,数据的激增为人类智识的增长创造了前所未有的契机与动力。如今我们完全可以通过数据的收集、交换、整合与分析,发现新的知识,创造新的价值,实现由“大数据”向“大知识”“大智慧”“大发展”的演进[9],大数据俨然已成为各方争相占有的资源。

其次,大数据是一种新技术。伴随着高新技术的发展,社会也发生着翻天覆地的变化。特别是计算机、互联网的普及,社会已经不再局限于单一的物理空间,更多的信息传递在虚拟空间中交互发生。在万物皆互联、互联皆计算的“普适计算”下,也便意味着“有计算即有数据”,大数据技术应运而生。从技术层面来看,国际数据中心的学者认为,大数据技术描述了一个技术与体系的新时代,被设计为通过高速捕获、发现以及分析技术从大规模多样化的数据中来提取其价值。[10]这样一种新技术,使得时空更加贯通,可以基于既往预测未来。甚至有学者曾经断言,93%的人类行为是可以通过大数据来预测的。[11]且不论“93% ”这一概率的准确与否,大数据之于分析预测的重大推动作用确是毋庸置疑的。而这种强大的分析预测能力除了得益于海量数据集合的客观存在,更在于其在数据收集、提取、挖掘、分析以及呈现等各个环节所提供的强大技术支撑,显然大数据不应仅仅理解为海量数据集合,它还是一种新兴的前沿技术。

最后,大数据更是一种新理念、新思路、新模式。数据作为科学的量度、知识的来源,更是我们学术研究,乃至政策制定的重要依据。对于大数据的认知,我们除了要初步了解其数据体量、分析技术,还应当转换传统视角,树立起一种新的思维模式、思考路径。大数据的影响,如同四个世纪前人类发明了显微镜一样。显微镜把人类对自然界的观察和测量水平推进到了“细胞”的级别,给人类社会带来了历史性的进步和革命。[12]而大数据将成为我们下一个观察人类自身社会行为的“显微镜”和检测大自然的“仪表盘”。[13]这种视角的转换,将深刻影响人们的行为模式、国家的治理模式以及社会的发展模式。大数据之所以能够开启一次时代变革,显然它的影响是全方位的,而其中最关键的就是对于人们认知理念、思维方式乃至社会运行模式带来的巨大改变。大数据已经远远跳脱出一般意义上的数据集合或技术手段概念,它更是一种新理念、新思路、新模式。

二、核心特征

从古至今,人类发展历程中大致经历了三次重大革命,第一次是农业革命,使人类从采集活动走向种植生活;第二次是工业革命,使人类从畜力耕作走向机械生产;第三次则是当前正在进行的信息革命,将使人类从物理生态走向智能生态。[14]基于人类的信息化革命进程,我们又可将其划分为三个时代,即计算机时代、互联网时代和大数据时代。[15]计算机时代,主要解决了信息的机器可读化和数据的可计算化问题;互联网时代,则主要解决信息传递和信息服务的问题;在二者的基础上,我们正在进入一个崭新的历史阶段——大数据时代。以此为时代背景,数据不仅“多源”(产生及获取渠道的多样性)而且“异构”(分析及运用形式的丰富性),其价值得到了前所未有的开发与利用。在这一过程中,大数据彰显着鲜明的核心特征。当前业界普遍认为大数据具有四项核心特征,并将其概括为“4V特性”。

第一,数量大(Volume)。数据的存储单位有B、KB、MB、GB、TB、PB、EB、ZB、YB等依次递增,大数据语境下的数据量通常至少是以TB(1TB=1024GB)作为基础单位进行计算衡量。之所以会有如此大量的数据存在,与计算机、互联网的普及密不可分。在信息网络高度发达的今天,数据正在以一种超乎想象的速度爆发式增长。根据联合国早期的研究报告显示,全球的大数据存量从2005年的150EB,增长到了2010年的1200EB,并预计将以40%的年增长率继续增长,到2020年全球的数据量将会达到35ZB,这意味着在最近两年内产生的数据量相当于人类之前所有数据量的总和。[16]显然,当前全球的数据量总和已经远超预期。以美国国家安全局的数据收集为例,其每六个小时产生的数据量就相当于美国国会图书馆藏书信息的总量。再直观一点,每1EB的信息量相当于14亿中国人人手阅读一本500余页的书籍的信息量。可以说,我们已经置身于一个数据无处不在的时代,每个行为人既是数据的创造者、所有者,同时也是数据的享用者,数据总量仍在不断增加。

第二,类型多(Variety)。关于数据的类型,因为划分标准不同,所以会存在多种不同分类。如根据数据层次进行划分,可以分为原始数据(自愿提供的数据、被观测的数据)、二次数据(被推断的数据,包括特征数据及总量数据)、三次数据(深加工的数据);根据数据内容进行划分,可以分为行为数据(指依赖于用户的某些行为,并在行为的过程中或是作为行为的结果而产生的数据,例如搜索信息、浏览痕迹、位置信息等)、非行为数据(指不依赖于用户的某个具体行为而固有的数据。例如姓名、血型、籍贯、住址等)。[17]当然,最常见的分类还是依据数据属性,可以分为结构化数据和非结构化数据。结构化数据的格式较为统一,更易于存储、处理和查询;非结构化数据则没有统一的结构属性,增加了存储、处理和查询的难度。然而,进入到大数据时代,以图片、音频、视频等为代表的非结构化数据要远远多于结构化数据,其增长速度是结构化数据的10倍到50倍,占到数据总量的75%以上。[18]单就非结构化数据而言,随着网络信息技术的更迭发展,图片、音频、视频等在存储格式上也日益多样化,这也进一步展现出大数据类型多这一核心特征。

第三,速度快(Velocity)。大数据时代更加强调数据的智能性、流动性和实时性。面对如此浩繁、复杂的数据集合,如果还是以传统的思维和技术进行分析,势必将被时代淘汰。对数据的快速处理是大数据的又一个典型特征。以百度为例,其在2012年左右的数据总量已经接近1000PB,存储网页数量近1万亿,每天大约要处理60亿次搜索请求、数十PB的数据量。[19]数据不是静止的,而是流动的,其价值的发挥往往依赖于信息的交互共享。尤其是在一个数据爆发式增长的时代,数据传递、处理、分析的效率显得更加重要。这种速度的提升不仅依赖于处理器等硬件设备的更新升级,还有赖于对数据搜集、数据挖掘、数据分析、数据运用等信息系统的优化,通过不断改进完善算法,从而提升整体运行效率。因此,进入大数据时代,云计算、人工智能推动了计算能力的再次升级,数据的分析速度更加快捷高效。

第四,价值高(Value)。关于大数据的价值特征,实际上存在很多不一样的解读,目前大多数学者习惯将其概括为“价值密度低”[20]。其实不然,这种“价值密度低”的表述主要还是针对指数级增长的数据总量而言的,认为急剧增长的数据体量会稀释有价值的信息,从而造成价值密度的降低。这种判断是基于一种不现实的假定,认为有价值的信息量相对固定,那么随着数据总量的爆发式增长,自然会出现“分子不变而分母增加”的“价值稀释”的现象,导致在海量数据集合中提取有价值信息的难度大大提高。但实际情况并非如此,如果我们回到“数据—信息—知识—智慧”的DIKW(D-Da-ta, I-Information, K-Knowledge, W-Wisdom)金字塔数据分析框架[21]下重新审视,有价值的信息不可能是固定不变的,数据总量的扩充、数据类型的丰富、数据分析速率的提升,都将极大促进更多有价值信息的发现和提取,形成更多知识结晶,进而凝结更多人类智慧。所以当我们基于充分利用数据、榨取更多信息规律的立场进行思考时,应当承认大数据在推动社会发展进步过程中的高价值。

三、发展运用

从历史梳理维度来看,大数据的发展运用可以追溯到2011年,该年度全球知名咨询公司麦肯锡(McKinsey & Company)发布了一份关于大数据的详尽报告《Big Data: The next frontier for innova-tion, competition, and productivity》,在这份报告中首次提出了“大数据”的概念。时至如今,在短短十几年的时间里,大数据已经被世界各国、社会各界广泛熟知并被予以高度重视。

目前,主流通说认为2013年是世界大数据的发展元年。在2013年前后,美国、日本、欧洲等国家和地区先后制定了一系列国家政策来支持发展大数据,并将其上升到国家战略高度或者纳入国家发展计划行列。以美国为例,其已经积累了较为丰富的“数据治国”经验,积极倡导大数据平台建设,实现了数据库间的对接,并以此为基础通过数据分析,制定相应的社会管理政策。比如,美国国家交通管理局通过“循数管理与数据发布”的形式,促进社会监督与群言群策。除了政府部门致力于大数据发展以外,涵盖了商业、工业、农业、医疗、教育等各个领域的相关主体同样对大数据这座待开发的宝藏充满了高涨的热情,例如运用大数据进行商业精准营销,以大数据助推工业现代化,通过大数据进行环境监测,借助大数据实现智慧医院、智慧校园建设等,均卓有成效。

我国同样高度重视大数据发展。在2014年3月份的政府工作报告中,首次写入了“大数据”,提出要“赶超先进,引领未来产业发展”。[22]2015年8月,国务院出台《促进大数据发展行动纲要》,将大数据定位为推动经济转型发展的新动力、重塑国家竞争优势的新机遇、提升政府治理能力的新途径,倡导大力推动数据开放共享,实现信息资源整合。[23]2016年3月,发展大数据正式上升为国家战略,被写入到“十三五”规划纲要当中,并将大数据定位为“基础性战略资源”。[24]2017年10月,党的十九大提出推动大数据与实体经济深度融合;同年12月,中央政治局就国家实施大数据战略进行集体学习,强调加快建设数字中国。随着国家大数据战略的实施,围绕数据展开的法治建设也在不断推进,为了规范数据处理活动,保障数据安全,促进数据开发利用,保护个人、组织的合法权益,维护国家主权、安全和发展利益,继《中华人民共和国网络安全法》之后,我国在2021年又相继颁布实施了《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》,构建起了涉数据法律规范的“三驾马车”。由此也可以想见,在未来很长的一段时间里,围绕大数据进行的一系列技术革新、产业发展、制度完善以及法治建设等都将同步推进,大数据势必将更加广泛地运用于社会各个领域。

当然,通过对国内外大数据发展脉络的梳理可以看到,大数据在产业发展、经济创新、社会管理等领域的推动作用显著。实际上除此之外,大数据对于维护社会安定有序、捍卫公平正义同样起着至关重要的作用,特别是在刑事司法领域内,将对“打击犯罪与保障人权”产生深远影响。2013年著名的美国波士顿马拉松爆炸案,正是基于这10TB的大数据分析,最终确定了犯罪嫌疑人。[25]在国内外一系列重大疑难案件的侦破过程中,同样有着大数据的重要身影,且发挥着越来越重要的作用。置身于大数据时代,每一个体的一言一行都将被数字化记录下来,甚至主观层面的想法、习惯、爱好等也都可以通过大数据分析得以预判。因此,对于刑事案件而言,大数据所蕴含的价值并不仅仅表现为对已发案件线索、证据的发现与固定,还表现为对未发案件进行预警预防,维护社会安定有序,从而实现对刑事犯罪的综合治理。本书接下来就将重点聚焦于刑事司法领域(尤其是侦查领域),重点探讨大数据对传统侦查体系的冲击和改变,并以此为基础探寻大数据运用于侦查实践所引发的一系列相关法律问题,进而深入探究大数据侦查法治化的实现路径。