
●全球史理论与方法 Dacura平台
——历史研究的数据收集和知识提取新途径[136]
[美]彼得·比勒金、[爱]罗布·布伦南、[英]托马斯·柯里、[爱]凯文·费尼、[英]皮耶特·弗朗索瓦、
[美]彼得·特钦、[英]哈维·怀特豪斯
(纪子凡 译)
摘要随着计算机科技的进步,我们可以解决历史学家在收集和评估基于互联网的海量数据时遭遇到的各类问题。作为范例,本文介绍Dacura数据维护平台。它被用来协助历史研究者从互联网或者其他数据源收集、分析、维护高质量数据。Dacura使用语义知识图谱技术将数据表示为复杂的、相互关联的知识,在不需要查询表的情况下,允许快速搜索和检索特定数据。Dacura使各种工具的生产自动化,以帮助非专业人士逐步构建高质量的知识库,并从大量数据源里将数据整合进它的知识综合维护模型中。Dacura平台所具有的这些特性,为用户快捷地收集和自动分析来自互联网的资源提供了新的途径。本文将为读者提供一个Dacura平台实际操作的范例:这一平台如何应用于填充和管理Seshat数据库。
关键词数据采集 RDF三元组 数据库本体论 数据库元模型数据管理
当前计算机技术的发展为学者们提供了新的途径,以对来自互联网的数据进行收集、储存和检索,这为历史科学领域里进行文献综述以及数据收集方法的转型提供了可能。作为一个数据综合维护平台,Dacura系统突出地反映了这一发展趋势的三个方面:第一,它是一种基于知识图谱的数据模型,从而区别于标准的用行与列表达的数据结构。第二,使用网络本体语言(Web Ontology Language,OWL)对数据进行定义。第三,具有基于语义推理的自动处理进程,以筛选掉成千上万与研究议题不相关或者准确度存疑的在线和数据库点击量。Ducara的建立与Seshat数据库处于伴生关系,后者的组建旨在协调量化历史和考古学数据,以此用统计方法对历史动态模型进行测试。[137]以下我们将提供具体的范例来介绍Dacura和Seshat数据库,以说明上面述及的计算机科学的进步从哪些方面能够惠及历史研究工作。
对于史学研究者来说,未经审核的数据过剩是一个基本问题,而Dacura平台旨在为学者们提供解决方案。举例来说,假设研究者打算收集量化数据来回答某个特定问题,比如夏威夷岛上的人口增长是否先于1500年左右国家的出现,一个简易的人口压力模型就能作出预测。[138]如果仅仅在谷歌搜索引擎输入“古代夏威夷人口”,将会得到接近25万个搜索结果(其中一些涉及现代人口统计数据),而且也没有简单省力的方法去弄清楚,搜索引擎提供的这么多有关古代夏威夷的信息中,哪些信息是他需要的,哪些信息是可靠的(例如,“古代夏威夷人口”的维基百科页面仅仅提供了估算数据,而且明显地源于单一的信息源,而无法明确地鉴别数据来源本身就是一个严重的问题)。如果这个研究者代之以谷歌学术,检索的结果数量会减少到大约16.5万条,尽管她可以指望结果的质量更好,不过鉴别这些论文和学术专著是否与她的问题旨趣直接相关,仍然是个令人生畏的工作。甚至使用JSTOR,这一质量有保证的数据库,也将提供大约6万篇论文给研究者的筛选工作制造障碍。
上述例子表明目前史学研究者所面临的一个中心问题,互联网和出版资源的开放获取为史学工作者感兴趣的任何研究议题,提供了丰富的信息和材料。然而这些信息没有质量保证,即便是有质量保障的信息源(比如同行评议的开源出版物),信息量也是过剩的。因此对于研究者来说,希望出现这样一种工具:允许研究者建立自己高质量的、结构化的数据集,为研究者提供解决问题所需要的材料。这种工具要求一种层级结构的(本体)设计,从而让研究者可以较为容易地挖掘出与他们的研究直接相关的检索结果。这个检索工具应该能精确对结果进行索引,研究者检索夏威夷人口的估算值时——正如我们虚构的研究者试图尝试的那样——不仅可以检索到所有与夏威夷人口估算有关的结果,同时也不会检索到与研究题目不相关的其他统计数据和地点信息。简言之,这样的检索工具必须能够应用集成的词库或词库集作为基本的检索程序的一部分。
除此之外,还有不少检索工具能够提供这种功能:进行跨领域快速检索特定的、高质量的信息。仅就考古学领域的检索工具(它的第一位创建者是一名考古学家)而言,eHRAF(Human Relations Area Files;hraf.yale.edu)就是业内的一个典范。它提供两个文件档案库(分别是民族志档案和考古学档案),使用高精确度的本体——世界文化概览和考古传统概览(the Outline of World Cultures and Outline of Archaeologi cal Traditions),以及丰富的词库集——文化史料概览(the Outline of CulturalMaterials)。因此eHRAF可以从来自将近45万页的考古、民族志原始和二手史料中实现句段检索,能够使用层级结构和布尔搜索策略,轻易地实现信息的搜索和重构。这些检索结果是具体的,并具有极高的质量和专门性,研究者也可以对之进行数量管理。然而,其检索结果的范围仅限于eHRAF数据库囊括的资料。eHRAF之所以能够提供如此高质量的信息检索,是因为其进行了广泛的信息预处理,拥有博士学位的考古学家对每个文档,甚至每个段落都用本体进行了编码。简要来说,该平台提供的简易的高质量信息搜索和检索,其背后却要求巨大的工作量。这一方面意味着eHRAF平台数据扩充比较缓慢;另一方面平台必须要向用户收费。
tDAR(the Digital Archaeologi cal Record; www.tdar.org)平台则是另一个检索工具,像前述的eHRAF一样,它也可以提供迅捷的、特定的、高质量的跨领域信息检索服务。包括原始数据集、shapefiles格式的文件和其他类似的数据资料,都能够在tDAR平台上获得,它们被基本的本体组织起来。不同于eHRAF平台,这些信息不是由tDAR的运营人员处理的(尽管他们会进行审核以确保进程的正确性),而主要依赖个体研究者,由他们向平台提交处理好的元数据结构。[139]这一特点令 tDAR 平台中的信息、档案、文献的数量能相对快速地增长,用户也能够免费使用tDAR平台的信息检索功能,不过为了鼓励提供文献,平台还是会收取少许费用。然而,因为用户提供数据本体和索引,致使材料的细节和精确度存在差异,这意味着搜索的结果可能无法包含所有相关的文档信息。此外,和eHRAF一样,这个平台可供检索的信息也局限在平台数据集中。
Open Context(www.opencontext.org)则是类似于 tDAR 的另一个优秀数据库,不过它有一些附加功能,让数据库的检索范围超越了考古学领域。与tDAR类似,考古数据的使用需要一些费用。但不同于 tDAR,OC平台的编辑者同资源贡献者会一起创建元数据、清理数据以便在网络上发布,而数据资源自身的意义会在这一过程中得到双方的评估;换言之,并不是所有数据都会在平台公开发布,只有那些接受过同行评审、有广泛应用前景的数据才会被发布。一旦与Open Context对接,数据资源就通过关联数据标准(Linked Data standards)[140]与互联网上的数据实现链接。这使得Open Context平台的检索范围超出了档案库的数据,从而克服了eHRAF和tDAR两大平台的局限,同时同行审核又对那些由Open Context直接贡献的信息提供了质量保证,不过审核流程中的信息是基于OC 平台的,而非直接链接到的原始信息源,我们认为这是一个较为严重的局限。
我们在这里介绍的,即是比上述三种平台(当然还有许多其他优秀的数据库项目和数据储存平台可供征引介绍)更具有综合性的解决方案:Dacura(dacura.cs.tcd.ie)。这一平台可以跨领域检索特定的高质量信息,它是集数据收集、评估、整理和输出为一体的综合平台,也是Seshat数据库(seshatdatabank.info)的管理系统,后者的功能、特性我们会在另文详述。通过大数据研究的多种新方案的协同开发和运作,Dacura平台在持续的问题和缺陷发现机制的运行中获得助益,并汇集和解决了大量复杂的历史信息检索、收集过程中面临的问题和需求,因此可以作为一个优秀的研究资源,惠及学院派的史学工作者。
知识图谱技术在诸如谷歌和脸谱等互联网企业的海量和多样信息资源——企业内部会对之加以综合处理和管理——的管理和结构化中,发挥着越来越大的作用。传统的基于表格和行列排列组合的SQL储存解决方案已经不能胜任企业管理的复杂信息的结构及其蕴含的语义,也无法呈现事物间的复杂关系。然而对于数据来说,除了体量庞大和具有技术实力的企业外,知识图谱技术的使用仍然需要专门且难度较高的技术门槛。Dacura设计的目标便是开辟一条路径,让历史研究者不需要掌握大量的专业知识就可以使用知识图谱技术。Dacura通过以下两个方面来实现这些目标,即它可以自动运行诸多数据——它们来自该平台设置的语义分析模块——的收集和综合处理软件,同时也为用户提供简易的操作工具和界面——而不需要了解隐藏在背后的技术原理。
本文并非旨在为Dacura平台打小广告,毋宁说我们是通过介绍Dacura来进一步阐明一种收集、评估和检索来自互联网和任何一批大数据资源(得益于计算机技术的进步)的途径和方法。我们确信这将为历史科学带来影响深远的冲击。
Dacura平台
Dacura是一个数据综合处理平台。它的设计目的在于,协助历史学者利用丰富的语义知识图谱来建立并管理高质量的数据库。[141]“简明易用”即是该平台创设的一个基础性理念——史学工作者可以对意图收集的数据结构自行定义。该平台运用这些信息结构来进一步支持用户发现、收集、过滤、校正、精炼和分析源于互联网的数据,进而整理出高质量的信息。以下这些具体和详细的信息需要研究者提供给 Dacura以开启自动处理的进程:学者与他们研究议题相关的基本信息实体(比如“夏威夷”)的定义;它们的具体内容和特征(如人口估算值)、数据类型和每个属性的计量单位(如数值型)、与数据组内部以及数据集其他实体的关系(如夏威夷位于波利尼西亚)。
这一工具的优势之一在于,它能够界定学者意图获取的信息或数据的结构。所有历史科学家都清楚,在史料被使用之前,其属性和有效性应该受到适度质疑。由于Dacura在执行一次搜索命令以前,处理进程要求所需数据的一些基本、精确的属性参数。因此这一运作逻辑鼓励研究者们仔细思考以下问题:当他们展开数据收集工作以前,所需的数据、史料的本质是什么?同时他们采用什么样的视野和方法来提出自己的问题?这样的准备工作为历史学家节省了时间和精力,而辨明有用的信息来源通常也是历史研究中最为困难的任务。Dacura简明和友好的用户交互界面(下文会展开说明)令明确数据界限的工作流程容易起来,同时由于Dacura提供一种灵活的搜索结构,搜索进程能够动态适应,会随着数据被审视的方式以及聚焦的问题相应地产生变化。
Dacura可以把研究者界定的数据集的结构编译为一种语义网络本体结构。这种本体结构根据万维网联盟(W3C,互联网国际标准的主要制定者)的网络本体语言(OWL)标准制式进行编码。作为一种丰富而灵活的本体语言标准,OWL可以令广泛而多样的约束条件和推理规则被研究者指定到数据收集进程中去,如一个城镇的人口不应该比它所在地区的人口更为庞大。因而与非结构化的自然语言字符串——它们是驱动大多数搜索引擎的结果——形成对比,高度体系化和精确化界定出的本体结构的数据集,其属性参数能够被计算机充分利用,从而为研究者获取特征更为鲜明的检索结果。由此,史学研究者输入和界定的信息结构及其属性参数越丰富,Dacura系统对数据的自动收集和用以分析、优化和管理数据工具的生成也就越容易。
Dacura平台的运行还基于一种语义网络技术。其核心内容是一种资源描述框架(Resource Description Framework,RDF),是一种三元数据库结构(不是那种二维的行与列组成的电子表格),呈现为类似“夏威夷处于波利尼西亚”“夏威夷拥有岛屿”或是“波利尼西亚拥有岛屿”这样的主谓宾句式结构(subject-predicate-object structure)[142]。这种主谓宾句式结构可以被理解为节点—边—属性(nodes-edges-properties)这样的语义结构,形成一种呈现和储存数据信息的三维视图表格。RDF作为三元存储图形数据结构能够实现无索引的链接,每一个主谓宾句式词串可以直接链接到对应的主谓宾三元组合中去,不需要索引查找。结合上文提及的“夏威夷人口”这一假设的问题语境,波利尼西亚、夏威夷和岛屿这些关键词会被全部链接起来,使得系统不需要索引搜索就可以确定夏威夷是波利尼西亚群岛中的一个。
Dacura平台运用OWL本体来确保语义推理过程中的质量管理以及数据收集工作的正常进行;具体来说,如果上文提及的三元组合存在冲突,Dacura会将之识别出来并作为一个冲突项加以标记以供研究者进一步评估。[143]Dacura被设计成在开放关联数据的原则下生产和使用数据。这一设计理念让以下活动变得更为便利:比如从现有的结构化信息资源里输入信息,通过数据集之间的互通以扩充研究者管理的数据集,这里的互通是经由关联数据链接到公共数据资源(如DBpedia或维基数据,它是维基百科的关联数据版本),同时那些由Dacura组织起来的数据集也能通过类似的方式简易地关联起来。我们在Youtube视频网站上提供了Dacura链接不同资源的视频范例。[144]Dacura平台的一个核心功能即数据收集,包括通过关联数据采集数据,而且作为系统工作流的一部分,平台会通过自动和人工的方式对数据的质量进行评估。因此Dacura不仅能够快捷和便利地收集信息,也能够对信息的质量进行评定。
Dacura平台的工作流把数据的创建和管理分为四个阶段,如图1所示。第一个阶段是数据的收集:确定用于填充研究者数据集的高质量信息的来源。Dacura支持多种方式进行数据收集:它可以在公共数据资源识别出与学者研究相关的数据,也可以部署自动代理进行互联网搜索,再到通过人工力量对信息来源做进一步规范。这套系统的目标在于尽可能大地实现处理进程的自动化,而识别和界定信息来源是为了扩充学者数据集的需要。在这个阶段,系确的信息来源,可以用于扩充数据的属性和关系,即那些研究者已经在数据规范中加以定义的属性和关系。

图1 Dacura平台数据处理的四个流程
Dacura数据创建和管理进程的第二个步骤是知识提取。这个阶段会从收集的数据来源中提取出精确的信息,并将之纳入研究者的数据规范所需要的结构中去。尽管自然语言处理和其他的人工智能技术仍然在持续发展,但它们还是很容易出错,因而在通常情况下为了保证数据的高质量,投入一些人力来过滤程序误报也是必需的。Dacura 平台采用的工具在筛选、过滤、改进、注释和链接候选信息记录等方面,支持人工用户和自主代理产出知识报告;换言之,信息来源里包含有相关知识的权威解释,并通过链接到网络数据而得到更广泛的扩充。
Dacura数据处理进程的第三个阶段或许是为保证数据质量最为重要的阶段:专家分析。Dacura平台的一大长处便是聚焦数据质量,基于自动代理工具和人工处理确保收集来的数据在准确度和完整性上符合研究者先前提供给平台的数据规范要求。平台首先通过基于语义一致性和有效性测试技术的自动处理工具,对收集来的原始数据加以处理,将不同数据指向并合并到一个综合解释中去,该解释体现了自动处理工具对权威数据——它们准确地反映了真实的状况——最精确的预估。这些综合解释进一步由领域专家——就像本文假设的对夏威夷人口问题感兴趣的学者——来评估,这一步骤允许专家校正讹误继而确认专家意见与自动处理工具之间的不一致。专家们可以编纂具有个人色彩的数据解释(比如特别指明只有某个特定的信息来源是可信的),并在数据集上把这条解释覆盖上去,进而创建一个自定义的数据集,以呈现他们对某些数据的看法。
至于Seshat平台的领域专家,由该平台的管理团队负责征集,主要根据他们在需要评估的相关领域内的出版记录。这些专家都具有相应学术领域的博士学位,相当一部分有学院派的工作背景。专家也会被定期评估,以辨别出经常输入与采集到的数据有讹误的那些人。有人可能会认为通过征询来建立一个专家库似乎不那么有效率,但是我们在Seshat数据库公开的名单中[145],可以看到目前作为志愿者参与数据评估的专家们的工作质量。本文撰写时数据库的专家数量为77名,而这些志愿专家们的专业领域的覆盖范围表明,将专家评估整合到像Dacura平台这样的数据收集系统是十分可行的。大部分采用了Dacura平台的项目,可能不会有Seshat数据库这般囊括了广阔的学术视野和范围,唯一需要对数据进行评估的专家,可能就是研究者自己。
最后,Dacura支持各类输出工具让数据能够以不同格式输出到第三方平台。Dacura发布了它作为一种关联数据格式的管理数据,所以其他的用户和平台,如上文述及的 Open Context,能够毫无困难地访问它。Dacura还提供SPARQL终端——一种针对RDF的查询语言——支持数据的复杂过滤和提取。这便允许智能应用程序以一种之前难以想见的方式实现与数据的交互。对于个人用户来说,Dacura平台能够生成图表、表格、地图和其他的可视化工具,为用户提供便于理解数据的可视化呈现方式。以图表或其他输出方式呈现的数据,可以浏览、检索和选定,令用户能够访问其中与他们的研究主题最为贴合的一部分数据。Dacura还可以实现数据集或它们的子项以更为广泛的数据格式输出,从而用于外部分析,其中包括地理信息系统以及诸如SPSS或者R语言的统计格式。
Dacura的实施:Seshat数据库的元数据模型
作为Dacura在研究实践中发挥作用的范例,图2向读者展示了元数据模型如何被运用到Seshat全球史数据库(Global Histori cal Databank)。[146]Seshat数据库(seshatdatabank.info)的目的是组建一个全面而综合的知识体系,这些知识包括人类历史以及史前史,以实证检验有关文化演变的假说,包括宗教、仪式、战争、农业或者其他变量在社会复杂化进程中扮演的角色。迄今为止,Seshat数据库已经被用于区分出一种单一的复杂性维度,可以用来解释人类社会组织中大约四分之三的变化[147];此外它还被用于论证轴心时代贯穿于欧亚大陆的社会政治转型的假说[148],超过了1000年的时间跨度。运用适当的统计学技术来考察这类时间尺度较大的问题需要有效和可靠的数据;这也是说,数据能够反映学者们对问题的定义,同时数据在不同案例中以同样的标准被度量。
当Seshat数据库在计划筹建阶段时,正处于开发状态的Dacura被认为对Seshat来说是一个绝佳的数据处理平台。两支团队决定协同开发Dacura和Seshat平台,令双方实现信息共享。由于计算机科学家和历史学家以往不会一同开展工作,所以Dacura和Seshat两大平台的研究团队之间的合作证明跨学科研究能够取得丰硕的成果,当然前提是Dacura团队的计算机专家能够了解历史学家的需求,同时Seshat研究团队也能够理解三元数据结构在收集和管理数据层面的可能性和局限性。
Seshat的运行环境基于两个基本信息:位置信息(Location)和持续时段(Duration)。具体来说,位置信息是地球表面上任意一个点或者多边形区域,其实体被定义为“领域”(Territory)。Seshat定义了三级结构的领域实体(在Seshat升级后可能实现更多层级结构)。

图2 Seshat的元数据模型:全球史数据库
(1)自然地理区域(Natural-Geographic Areas,NGA),它指的是一种大约100×100千米的相邻区域,其中包含有相当均一的生态环境区域。
(2)生物群落(Biomes),指的是一种具有连续性的生物圈或是拥有相似气候条件的区域。
(3)世界性区域(World Regions),它可能是指像民族国家、地区政权或是能以其他特定标准识别的预定义实体。
一个“持续时段”可以设定为一个单个日期或一个时间段。添加一个持续时段到领域实体层级中去,便可以产生两个有时间限制的实体之一:人口,指在一个确定的时间段内生活在某个特定领域内的一批人类群体;历史事件,它被定义为在一个确定的时间段内、在某个特定领域内发生的事件。
Seshat数据库能够为特定研究问题提供人口和历史事件的实体类。对于人口,目前有以下几种实体类。
(1)传统,它被定义为人类群体“分享相似的日常生活实践、技术以及社会政治组织,它们在一个相对大的区域空间内呈现出连续性,并且在一段相对较长的时期里保持了延续性”[149]。对于这个实体类来说,考古学传统概览(the Outline of Archaeologi cal Traditions,下文简称OAT)[150]为平台的案例选择提供了通用的抽样范围;同时,文化资料概览(the Outline of CulturalMaterials,以下简称OCM)[151]为数据编码提供了词库。
(2)文化群体,它指的是一类人群,他们共享一套规范、信仰、行为、价值、态度等。对于这个实体类来说,主要的抽样范围来自世界文化概览(the Outline of World Cultures,以下简称OWC),词库同样来自OCM。
(3)政治组织,它指的是基于相似的政府管理形成的独立的政治性联合体。这里有一个用于具体研究项目而创建的实体类范例。图尔钦等人撰写的论文向读者展示了一个由30个案例组成的样本,这些案例根据社会政治组织和地理区域的特点被挑选出来。[152]OCM为这个实体类提供了主要的词库。
(4)聚落,这个实体类的物理空间以及物质设施范围很广,其规模大小和复杂程度的跨度涵盖了临时性营地以及大都市。由于能够被编码的聚落范围庞大,该实体没有界定抽样范围。主要的词库来源仍然是OCM。
(5)认同群体,具有相同的归属感的一群人。跟政治组织类似,这个实体类也是为特定的研究项目创建的,它的抽样也具有随机性的特征。[153]对于这一实体,没有正式的词库,不过OCM在一些特定领域也被使用。
(6)语言群体,它是指使用同一种语言的群体。这一实体类使用的抽样范围是民族语言志平台(Ethnologue,www.ethnologue.com),但是它也没有正式的词库(同样,OCM在一些特定领域也被使用)。
此外,子类层级也能够被添加到实体类中去,以为研究者提供属性更多的数据集。图3便显示了为上述提及的实体类创建的实体子类。
“历史事件”实体则明显地包含近乎无限可能的实体类和子类。故而为了维持一些历史事件实体的秩序结构,DBpedia(mappings.dbpedia.org/server/ontology/classes/)中的事件实体作为基本的本体得到了使用。正如图2显示的,目前实体类中的事件实体包括:
(1)群体内部冲突,诸如战争、决斗、分封等类似事件。
(2)社会—自然性灾害,如饥荒或瘟疫。
(3)自然灾害,如干旱、洪水、虫害、火山爆发等。
(4)社会崩坏。
(5)交接仪式,如婚礼、加冕、启动仪式等活动。
(6)社会运动,包括像移民这种身体迁移活动,还有诸如复兴性运动、千禧主义、罢工等社会性运动。
(7)技术性事件,如发明、发现、技术创新等。

图3 人口实体的细节,展示了当前的实体类和子类
Seshat的内容获取:Dacura的工作流
作为历史学家如何应用Dacura获取数据集的范例,图4为读者展示了传统的实体类数据,如何通过Dacura填充到Seshat数据库中去。图中矩形之内的流程完全可以实现自动化,而矩形之外的区域需要把自动分析和专家评估结合起来,确保Seshat数据的有效性和可靠性。我们可以看到,矩形顶部的处理流程,人口这个实体是由领域范围内的持续时段所定义的。人口实体的特征会通过 OAT 的词库被分配到传统实体类之中。然后,数据挖掘的工作流会启动自动搜索的进程,根据OCM词库在互联网搜索文化领域的相关信息。在这个节点,研究者也可以使用 Dacura检索互联网或者印刷材料获取文化领域的数据。Dacura会在特定的文化领域收集信息,在图4所示的范例中,我们用考古学数据作为例子,系统会对比DBpedia中的数据,以确定关联的数据是否需要纳入其他来源的数据,并且通过自动分析程序评估数据的一致性。前后矛盾的数据(如存在语义矛盾或数值冲突的数据)会输出给研究文化群体或文化领域的研究者和专家做进一步评估。这些研究者或领域专家要么会为文化领域确定一个规范值,要么在冲突无法解决时,给出一个非规范值。不管怎么说,所有收集过来的数据都会囊括进 Seshat数据库,并且被标记为规范值或者非规范值,其他研究者可以检索到这些值并对之加以修正或扩展它们的解释。规范数值同时也会输出到 DBpedia以协助其他的研究者以及未来的搜索。

图4 通过Dacura将考古传统实体类导入Seshat的工作流程
研究者也可以输入自己的数据,包括图片、媒体和shapefile格式文件。数据合并的处理流程可允许其他研究者通过关联数据来访问这些共享文件,令之可以被广泛使用。更为重要的意义在于,那些被整合进Seshat或由Dacura生成的数据集中的其他数据,其质量能够不断得到提升,这正是归功于Dacura允许研究者对先前合并的数据进行评注和再评估。换句话说,Dacura不仅可以用于创建和管理巨量数据集,也能确保数据质量能够持续不断地得到提升。
使用Seshat数据库:从Dacura输出数据
到了这一步,关切夏威夷人口估值的研究者便能够通过 Seshat 数据库——或是其本身利用Dacura生成的数据集——来迅速地获得精确并且可以溯源的人口数据。她可以通过Dacura来开启Seshat数据库[154],接着在操作界面中选取夏威夷的自然地理区域模块,然后选取她所感兴趣的某个历史时期的夏威夷居住人口的政治组织子级,之后再选择人口这个变量。我们在Youtube上传了一部视频供读者参考。[155]在这个案例中,这位学者获得的有关人口的数据源自Seshat数据库,这个数据是我们上文述及的Dacura数据收集和评估进程的产物。但是我们的研究者还能够使用Dacura创建新本体,以引导她进行更具个性化的搜索,正如我们在上文提到的视频中揭示的那样。
无论是在Seshat平台还是其运用Dacura从其他来源获取的数据,我们的学者都能获得各种类型的结果输出。正如前文述及的那样,Dacura会将数据集作为关联数据发布,并使用 SPARQL 进行输出。SPARQL 是一种RDF的查询语言,后者能够生成文档和原始数据集,还有像图表、表格、地图之类的其他可视化信息。另外一点对史学工作者也至关重要,即SPARQL与GeoSPARQL能够协同运行,这得以让SPARQL数据集整合进入采用了OGC(Open Geospatial Consortium,开放地理空间信息联盟)查询标准(比如GML、WKT等)的地理信息系统中去。此外,Dacura平台上生成的原始文本、媒体或数字数据,也能够被浏览、搜索和挑选,研究者可以访问对研究最有价值的那部分文本、图片、媒体或数据集。Dacura还能够收集或输入的材料——或是它们的子级——以更多格式导出来支持进一步的外部分析。例如,研究者可能会想把有关人口估算值的数据输出到统计分析平台。那么Dacura将会生成逗号分割文件(comma-delimited file),这个文件能够被直接传输到电子表格或是统计数据软件包,如此一来研究者就可以使用任何数据分析的方法,来解答自己的问题。图5展示了一个有关夏威夷人口估算值的简单线性图表,它的生成有赖于Dacura和Seshat平台的数据输出功能,生成了一个 CSV 文件,并使用 Excel 制作了一张图表。
我们这位研究者最初问题的答案是,夏威夷的人口增长确实先于这座岛屿上第一个国家政权的产生,这也正如人口压力模型预测的那样。就答案本身来说,这算不上是个令人印象深刻的结果(实际上或许也是个非常简单化的结论[156]),但是考虑到我们的研究者通过Dacura平台的处理进程,可以在几分钟里收集数据,同时对它们的质量抱有信心,而且还可以访问与之相关的所有附加数据,不能不说是一次令人叹服的研究之旅。

图5 1200—1700年夏威夷大岛的人口变化
结论
互联网为历史学家提供了大量的信息,然而现状却是,这些信息经常太过丰富,而且缺少质量监控。Dacura便是旨在解决这些问题而被设计开发出来的。它提供一种便捷的、质量有保证的途径,帮助史学工作者在互联网上收集信息,同时提供一个可供管理的质量控制体系。Dacura具有的精心设计的本体(dacura.scss.tcd.ie/ontologies/dacura-130317.ttl),进而使研究者能够简易地定义和检索到与他们的研究直接相关的信息。Dacura的一体化词库和RDF三元存储结构让用户不需要使用在结果中进行跨领域的详细索引,如此一来,有关给定主题的所有信息,甚至那些相关性不那么明显或作为相关索引的信息,都可以被用户检索到。此外,Dacura提供的用于输出的数据格式非常广泛,从文本到可视化形式再到表格。Dacura虽然不是唯一可用的数据收集和管理程序,但是因为它与Seshat数据库一同被开发出来,因而它为新兴的基于计算机技术的历史和考古数据处理提供了一个独特模型。
从这个角度来说,Dacura展现了一系列可应用于历史学研究的重要新工具。正如肯特在他最近发表的论文中指出的那样,“(历史学家以及)考古学家在获取、管理和分析大量且差异巨大的数据过程中,日益面临挑战”[157]。Dacura平台的问世为这一系列挑战提供了数种解决方案。具体来说,Dacura平台嵌入了(1)一个基于 RDF 三元存储的语义知识图谱技术,同时运用了(2)网络本体语言(OWL)来进行数据定义,它还嵌入了(3)语义推理模块,该模块是自动进行数据评估的基础,以及(4)它按照关联数据标准实现结果输出。
通过OWL数据定义和知识图谱技术,历史学家可以把收集到的海量数据,以快捷和简易的方式将那些对既定研究主题最为重要的信息精减和筛选出来,并且可以让这些数据以多样的格式输出。语义推理模块为用户提供了一种迅捷的数据评估以及可持续管理的机制。关联数据标准制式下,Dacura允许研究者随时访问那些经由其他学者收集来和评估过的数据。
另外,在像Dacura这样的平台上,计算机科学领域最近取得的新进展,也为那些非历史学领域的学者提供了可用和精确的历史数据。长期以来,那些有关文化稳定和变迁的时空记录,以及人类社会成功或者失败的实践案例,在考古学和历史学学科之外没有得到广泛应用,这是令许多史学工作者倍感沮丧的事情。不过这也没什么好惊讶的,因为对于外行来说,历史数据和材料很难获取也很难理解。[158]然而,像Dacura这样的平台,它们通过自动化方式对历史数据进行收集、评估,对经过检验的精确的历史学数据进行检索,从而为经济学家、政治学家、生态学家、地理学家以及大众提供了一种获取数据途径和模型,让他们得以探索人类历史长河中累积下来的丰富而宝贵的历史记录。
致谢
本文作者向参加了于2015年5月4日至6日在圣塔菲研究所举办的工作坊的与会者表示感谢,在这次工作坊上与会者们讨论了有关数据收集以及高质量信息整合的各种需要,以及Seshat元数据模型的开发事宜。我们还要感谢Dacura平台的研究团队、博士后工作站人员、顾问人员以及专家团队,他们作出了巨大贡献。此外,我们的合作伙伴为我们撰写这篇论文提供了无比宝贵的协助。更多具体信息,也请读者登录 Seshat 的网页(www.seshatdatabank.info)查看公示的详细清单,包括私人捐赠、合作者、专家、顾问以及他们擅长的专业领域。最后,我们向匿名评审专家致以感谢,正是他们深富洞见的评审意见令我们能够更好地提升论文的质量和水准。
(作者彼得·比勒金[Peter N.Peregrine],劳伦斯大学人类学系,圣塔菲研究所;罗布·布伦南[Rob Brennan],都柏林大学三一学院,统计学和计算机科学学院 ADAPT&知识与数据工程项目组;托马斯·柯里[Thomas Currie],埃克塞特大学生命科学系;凯文·费尼[Kevin Feeney],都柏林大学三一学院,计算机科学与统计学院,知识与数据工程项目组;皮耶特·弗朗索瓦[Pieter François],赫特福德大学人文学院,牛津大学认知与发展人类学研究所;彼得·特钦[Peter Turchin],康涅狄格大学生态与进化生物学系;哈维·怀特豪斯[Harvey Whitehouseg],牛津大学认知与发展人类学研究所。译者纪子凡,南京大学历史学院硕士研究生)