1.2 什么是大数据
1.2.1 大数据
“大数据”(Big Data)包含了“海量数据”的含义,而且在内容上超越了海量数据。IDC认为,某项技术要想成为大数据技术,首先它必须是成本可承受的,其次它必须满足四个“V”判据中的两个,四个判据分别为:多样性(Variety),是指数据应包含结构化的和非结构化的数据;价值(Value),是指具有潜在价值但价值密度低的数据;体量(Volume),是指聚合在一起供分析的数据量必须是非常庞大的;速度(Velocity),是指数据处理的速度必须很快[8]。
大数据并不仅仅指作为处理对象的数据之量级不断增大,而是对一种新的数据(信息)搜集、处理和应用模式的描述[9]。因此,本书认为,大数据是指伴随着可作为处理对象的数据外延不断扩大,依靠物联网、云计算等新的数据搜集、传输和处理模式的一种新型数据挖掘和应用模式。大数据是指一种新的模式,更为贴切的表述应为“大数据模式”。后续章节中均以“大数据”来代指该概念。
1.2.2 个人数据
人类在生产生活中产生大量数据。对于数据的定义,目前分歧不大,普遍公认的是:能够通过设备(如计算机)自动处理、记录的信息,可以是数字、文字、图像,也可以是计算机代码。而对于个人数据,则有较大分歧,代表性定义如下:
1981年,欧洲理事会于斯特拉斯堡通过的《有关个人数据自动化处理的个人保护协定》(Convention for the Protection of Indi viduals with Regard to Automatic Processing of Personal Data)对个人数据的定义给欧洲各国相关法律的制定提供了基础。该协定规定个人数据是指已识别或可识别的个人相关的任何信息。
1998年英国制定的《数据保护法案》(Data Protection Act)中就“个人数据”做出的界定是:个人数据是指有关一个活着的自然人的数据组合,通过这些数据或者将这些数据与使用者占有的其他数据相结合,可以辨识该人,个人数据还包括有关该人的任何观点的表述和在涉及该人时使用者或他人的意图。
冰岛的《个人数据保护法》(Personal Data Act)中对“个人数据”的定义为:任何与已识别或可识别的自然人相关的信息,即可以直接或间接地追溯到特定的个人(包括在世的和离世的人)的信息。
日本的《个人信息保护法》(個人情報保護法)把“个人数据”界定为:个人数据指与生存着的个人有关的信息中因包含姓名、出生年月以及其他内容而可以识别出特定个人的部分。
中国香港特别行政区则将个人数据定义为:个人资料指符合以下说明的任何资料——直接或间接与一名在世的个人有关。
我国在个人数据的法律规制方面,并未制定专门的针对个人数据的法律。而从世界各国的相关法律对个人数据的定义而言,主要有两个要点,其一是个人数据的主体,其二是信息与个人的相关性。目前各国对个人数据的主体界定的差异主要在于其是否包含离世的个人,而在个人相关性方面则较为统一,即有助于识别个人的任何数据。
就本书的研究内容和目的而言,上述各法律对个人数据的定义具有一定参考作用,但并非完全等同于本书的研究对象。本书所指的个人数据主要是电子化数据,可能是原始数据,也可能是被加工后的个人数据集合。因此,本书所指的“个人数据”概念为:
个人数据主要是人们在各类私人活动中产生的电子化数据,既包括结构化数据,也包括非结构化数据[10]。本书所指的个人数据不包括脱离信息物理设施的数据[11]。通过个人数据,能辨识特定的行为个体。
1.2.3 个人数据与个人信息
从各国的法律及标准来看,大多没有对二者进行特别区分,“个人数据”与“个人信息”经常被混用。日本《个人信息保护法》明确规定个人数据是存储于数据库中的个人信息。从研究文献来看,二者也经常被混用。国内有的文献甚至直接用“个人数据信息”一词。
无论从技术角度,还是中文语义角度,二者都是有区别的。“数据”更强调能被设备自动化处理,而“信息”更强调内容的传递性。尤其随着信息技术的迅速发展,二者的语义差别越来越明显。因此,在研究大数据环境下的隐私问题时,“个人数据”概念的使用更为准确。但是,由于不少法律原文使用“个人信息”,后文中还会尊重原文,使用该词。
1.2.4 隐私规制
隐私是一个发展的概念,不同的国家、民族,甚至不同的个体,在不同的历史发展阶段,对其都有不同的认识。一般来说,隐私是指“一种与公共利益、群体利益无关,当事人不愿他人知道或他人不便知道的信息,当事人不愿他人干涉或他人不便干涉的个人私事,以及当事人不愿他人侵入或他人不便侵入的个人领域”[12]。
规制是指为实现某些社会经济目标,采用各种直接的具有法律约束力的限制、约束、规范手段,而对市场经济中的经济主体做出的规制行动和措施。其目的在于维持正当的市场经济秩序,限制市场势力,提高市场资源配置效率,提升全社会福利,保护大多数公众的利益不受少数人的侵犯[13]。
隐私规制不是简单的隐私保护,也不是产业规制,而是指为了实现产业创新与隐私保护的协调发展,遏制隐私泄露的外部性,减少个人数据交易的市场失灵,政府对市场中经济主体采取的相关限制措施。