
●全球史理论与方法 全球史的宏观显微镜:Seshat全球史数据库的方法论梳理[107]
[英]皮耶特·弗朗索瓦、[美]J.G.曼宁、[英]哈维·怀特豪斯、[爱尔兰]罗布·布伦南、[英]托马斯·柯里、[爱]凯文·费尼、[美]彼得·特钦
(闵超 译)
摘要本文介绍了“Seshat全球史数据库”项目及其所基于的方法论,以及它作为历史学者与其他人文学者一种研究工具的潜力。Seshat是一个综合性数据集,涵盖了自新石器时代以来人类文化演进的数据。本文详细描述了如何运用Seshat方法和平台来研究长时段尺度下的重要问题,同时让用户能够深入钻研细节、将每个数据点置于历史与史学编纂的情景之中。因此,Seshat为长时段历史研究提供了一个以严格方法论为基础的平台,本文也提倡人文与社科学者参与到基于数据驱动的长时段历史研究中来。本文认为,Seshat提供了一个急需的基础设施,在此之上,不同技能和学科背景的学者能够协同从长时段尺度分析过往历史。除了论及理论与方法论的支撑,本文还通过三个研究案例证明了Seshat的潜力。每一个案例都围绕着一系列长期存在的研究议题与史学争议,而Seshat的引入被认为有望彻底改变我们对这些议题的理解。
关键词数据采集方法论 数据提取 全球史
引言
Seshat是古埃及司掌知识、写作与书记的神。她被刻画为在纸卷上书写的形象,尽管我们可能永远无法知晓她在写什么。在我们仅有的关于她的画像中,从观察者的角度来看,她的纸卷非常稀薄。当然,我们仍然无法停止想象Seshat在写什么。从她执掌的两大职责(记录时间的流逝与丈量土地)来看,我们很容易想象那张纸卷上可能包含着各种数据,从小块土地的庄稼收成,到按人名排布的税赋收入,再到建造与维修寺庙的开销。简言之,我们可以想象这幅纸卷提供了一种方式来测量古埃及社会在任何给定时间点上的健康状态,并且将它们在不同尺度上与具体数据相连。当然,这种想象具有现代色彩。在数字人文领域,在不同尺度的分析中获取相应的历史数据,对此类工具的需求正在激增。例如,蒂姆·希契科克(Tim Hitchcock)将这种工具界定为“宏观显微镜”(macroscope):“一种可视化工具,既允许在数十亿数据点的情境中,又能够在深度钻取到最小范围时,将单一的数据点可视化出来。”[108]
本文介绍的“Seshat 全球史数据库”正是这样一种“宏观显微镜”,同时也是我们对Seshat的纸卷进行了现代化、全球性的想象。[109]Seshat将会成为一个综合性数据集,涵盖新石器时代以来人类文明演进的历史,以及用于审视与分析这些数据的一套优秀的方法体系。因此,Seshat是一个非常有力的工具,可以应对长时段尺度下的重要问题,同时让用户能够深入钻研、将每个数据点置于史学与历史背景之中。Seshat为用户提供一套严谨的方法体系来真正从事长时段的历史研究。本文也认为人文与社科学者有必要参与到基于数据驱动的长时段历史研究工作中。本文详细阐述Seshat的方法论,供读者研究、使用与指正。它为真正的跨学科工作打造了一个框架,融合了历史学、考古学、社会科学、演化研究与计算机科学。我们还认为,Seshat提供了一个新颖方法,在同一个框架中将宏观与微观层面的分析连接起来,为应对相关挑战提供了新方法,并且为理解这些重要问题贡献了绵薄之力。
本文首先解释了Seshat如何广泛适合于数字人文与长时段历史研究。其次,本文总结Seshat作为“宏观显微镜”面临的主要挑战,以及这些挑战如何直接影响Seshat的架构。接着,本文在不同的抽象层面来介绍Seshat。首先,展示Seshat作为平台用于当前以及未来的课题研究。第二,阐述Seshat方法论如何与聚焦于社会复杂性演化的项目联系起来。最后,展示三个简短的案例,详细说明如何在不同的分析尺度上将Seshat应用于诸多问题的研究。因此,本文遵循从宏观到微观的思路,恰如显微镜的放大过程。
数字人文与长时段历史
计算能力的可用性与易用性的不断增长,正在从根本上改变历史学科。[110]其中最显著的变化在于,历史学家可以获得日益丰富的历史数据集,整合、连接与共享这些数据集愈加便捷,以及各种新颖的(对于人文学者而言)分析与可视化方法越来越流行,其中包括远距离阅读、统计与空间分析、数学与计算建模。[111]“数字化”的兴起促使历史学家进入新的研究领域,离开以往熟知的以档案、文本、数据库为研究对象,并与相对较短的时间尺度和相对较小的空间尺度相关联的微观历史研究。“数字化”也导致了历史学家研究方式的根本转变。单打独斗的学者正在转向协同工作,不同的合作者带来不同的技能组合,既包括领域知识与细读文本的技巧,也包括整合与解析的技能。
计算能力与“数字化”对历史研究带来的根本影响,最明显地体现在使(相当)长时段历史变革研究得到了复兴。尽管当历史学家拥抱“大历史”和“深度历史”,书写“人类史”,或者拥抱定义尚未成熟的“长时段历史”时,准确的时间尺度会有变化,但可以肯定的是,历史学家已经开始拥抱比以往更长的时间尺度了。[112]虽然最近对研究长时段历史的热情呼吁,与切实从事此类研究的文献数量的丰富程度并不匹配,但毫无疑问,关于此类研究的价值、方法论以及面临挑战的讨论已然开启。支持者的期待胜似天高。例如,大卫·阿米蒂奇(David Armitage)的《历史学宣言》中,将长时段历史研究视为历史学家在公众辩论中重获权威声音、向当权者说出真相,从而重建历史学科影响力的途径。[113]虽然他们提出这一愿景时激情满怀,但是如何实现仍然不甚清晰,也正是这一细节的缺失最终导致了后续的相关争论。[114]
只要一天没有明确的方法体系对长时段历史进行研究,支持者与质疑者之间的争论就不会有进展。只要一天没有统一标准对不同时代的时间序列进行结构化,如新石器时代、轴心时代或者现代,就不会有多少历史学家主动参与长时段历史的研究。只要一天没有一个连接宏观与微观层面分析的框架,历史学家就会担心从事长时段历史研究在某种程度上只是出于对科学或者社会科学研究的嫉妒,相对于人文学者擅长的在数十年实践中所具备的深度阅读与反常阅读等技能,高级统计模型所代表的技能也无法适用于发现意义。在对宏大、长期与全球化的追寻中是否存在“微小”的空间?这种疑问也伴随着对“转向”的疲惫感。这种与“数字化”“全球化”的转向交织在一起的“长时段历史研究”,比起曾经同样盛行的“文化的”“语言的”“空间的”转向,是否具有更长的持久力?此类善意的批评在方法论上极大地启发了Seshat的建立。具体而言,Seshat的方法体系致力于解决以下挑战:
●我们如何确保在 Seshat 这样的“宏观显微镜”下实施多种尺度的分析?
●我们如何确保Seshat不只是产生外表有趣的可视化产品,而且容许用户参与重要的史学研究问题及其长期存在的争论?
●我们如何确保Seshat不只适用于现有的争论,而且有助于提出新的问题?
●我们如何确保Seshat不只揭露关联性与影响,而且能够提出真正的解释?
●我们如何确保Seshat既能将我们的知识用可视化的方式呈现出来,同样也能帮助我们理解知识与数据集之间的距离?
●我们如何确保跨学科研究在实践中并不只是人文学者对社会科学课题的浅尝辄止?
●我们如何确保Seshat在信息上的优势与历史学家的核心任务关联起来:即解释随着时间出现的变化?
●我们如何保持对通用模型、区域模型的需求,以及具体的时空历史数据这二者之间的平衡?
●我们如何在海量数据和有大量合作者的情况下保证数据质量?
Seshat的原理与架构
Seshat并非唯一或第一个聚焦于历史大数据的研究基础设施项目。在为数不少的基础设施项目中,很多令人印象深刻,它们有各自独特与互补的原理和方法论,各自解决不同的用户需求。例如,在历史数据的体量方面,欧洲数字图书馆项目(Europeana project)和HathiTrust数字图书馆项目收集了惊人数量的历史数据。其他项目或者平台欢迎个体研究者贡献他们自己的数据集,帮助提供数据管理需求(如tDAR数字考古记录项目),或者提供连接不同历史地理数据集的平台(如信息历史编纂模块项目Sy MoGIH)。引人注目的“历史信息协作分析项目”CHIA与关联的“世界历史数据库项目”的目标,即是整合聚焦于过去500年历史的现有数据集(http://www.chia.pitt.edu/; http://www.dataverse.pitt.edu/)。最后,人类关系地区档案HRAF项目虽然建立于1949年,但仍然独树一帜。它致力于整合大量的人种志数据,通过一个良好的主题分类体系提供数据访问接口,为有兴趣于跨文化研究的用户提供增值内容。同样地,Seshat针对具体而多样的用户需求,提供了一个独特的方法体系,下文将详细介绍。据我们所知,最近只有位于温哥华的宗教历史数据库项目与Seshat具有大致相似的目标,不过前者采用了不同的方式并且只是聚焦于宗教这一子领域。
Seshat响应了用历史学与考古学数据来严格地检验理论的呼吁,致力于成为实现这一目标的首要阵地。对历史学家来说,使用Seshat意味着研究实践的一次重要转变。目前,大多数史学研究致力于在深度讨论现有历史编纂的基础上提出新的解释。史学专家的核心任务主要落实于借鉴、支持、修正或者挑战现有解释。历史学家被冠以如下标志:在理论与数据之间发掘全新联系,提出更多或者更有说服力的解释,强调对全新档案材料的使用或者对材料来源更加全面的掌握,应用更复杂的类比方法,或者对历史资料更好的阅读分析。Seshat使得我们能够绕过这一逻辑。通过运用科学方法,Seshat的主要目标并非一定是增加某个额外的解释,而是淘汰掉无法立足于实证基础之上的现有解释。Seshat让我们能够指出现有理论中有限的解释效力,从而将它们替换为具有更大解释效力的其他理论。通过减少理论的数量,我们的目标在于就某个或者某几个更强解释临时达成新共识,直至新的数据或者新的分析类型再次重启对这个共识的构建过程。
Seshat为理论上的动因变量存储数据,以便对与诸多群体相关的不同单元进行分析。[115]在一个研究项目的初期阶段,这些变量及其假设与预测被整合在一起,因而变量在数据分析开始之前就被宣布。[116]分析单元包括政治组织、准政治组织、次级政治组织、自然地理区域(NGAs,面积大约100×100千米,具有相对统一的环境)、城市、宗教传统,以及允许高度自由的利益群体如军队、贸易公司或者宗教派别。分析单元的最初名单有可能进一步增加。Seshat中所有数据都是在时间和空间上可以查询的,因此可以将不同分析单元的数据关联起来。在时间上,可查询数据的最小时间单位是1年;在空间上,所有数据将被存储到地理信息系统的数据文件,以点、线或者面(如从事某种宗教仪式的政治组织或者地区的边界)的形式存在。这就使得某些功能成为可能,例如,抽取出一张数据表格,其中包含了某个政治组织存在年限中每一年的数百个变量,同时将这个数据连接到该政治组织在那一年的地理位置。因此,当充分放大Seshat时,数据可以显示在单年、单个地理位置的粒度上。当充分缩小Seshat时,时间范围从新石器时代跨度到现代,地理范围则是全球视域。当使用Seshat分析长时段或者大地理范围的数据时,最大的挑战是保证不同变量在不同时段或者地理区域的分析单元上可以进行同步操作。这一问题通过在一个项目生命周期的早期阶段反复调整变量和数据而得以解决。[117]另一个主要挑战是确保Seshat在数据丰富或者缺乏的不同时期与地区同等适用。通过各种途径的调试,Seshat在数据缺乏的时期与地区仍然能够成功查询到数据,并且保证将其与数据丰富的时期或地区的比较具有意义。第一,Seshat数据模型对某个属性或特征的存在、缺失或未知的状态,在统计分析中被同等视为有价值的信息。第二,Seshat允许某个基本变量被其他更易于观测的(多个)指标“近似代理”。这种方法所导致的一定程度的冗余性也是一种设计上的特色。对于某个潜在的变量,即便某些“代理变量”由于缺乏信息无法被编码,通常情况下其他的“代理变量”也有可能被观测。这种信息可以用到统计分析中来推测潜在变量,甚至在很多数据缺失的情况下也有可行性。因此,只要有关于某些“代理变量”的某些数据,我们仍然有可能合成一个时间序列来反映我们希望研究的那个基本变量的变化。只要有一些“代理变量”是明确的,基于现代统计分析的方法,如多重插补法,我们就可以对历史变量的动态进行有效推理。
每一个变量产生三种类型的数据。第一,每个变量有一个机器可读的编码,最常见的情况是一个数字或者“空值/非空/不确定/无数据”。这个机器可读的编码可以反映数据的不确定程度(如领域专家不确定某个特征出现的具体日期,但是一致同意它在某个时间区间出现过)和学者对数据及其解释的分歧程度。第二,每个变量有一个简短的文字描述,解释编码,衡量不确定性与分歧的程度,为读者提供必要的上下文信息与历史背景。总的来说,这些文字描述可以被视为百科全书的条目,以结构化的形式向读者介绍政治组织或者考古聚落。因此,这些文本以结构化的方式总结了非常巨量的史料,使得读者可以了解有关政治组织、考古聚落、自然地理区域等知识,或者相反地,更好地理解知识中的空白点。第三,这些数据拥有一系列指向文献(学术专著与论文,通常是二手或者三手文献)的脚注,读者可以通过参考最近的研究成果来更深入地理解每个数据点的产生情境。由于数据将会定期增加以反映新的状态,描述性的文本和脚注也会反映我们对Seshat任一分析单元的整体理解的变化。
数据通过三种方式上载到 Seshat。第一,数据可以由历史学家、考古学家或者宗教研究学者等领域专家直接上载。每一个数据点最终将接收来自不止一位领域专家的输入。描述性文本的一项重要功能就是反映不同领域专家之间的赞同、质疑或者争论。专家还为一些“明显的”编码赋予权威性,这些编码不存在学术争议但是无法找到任何历史依据(如我们在军事技术部分为新石器时代火药流行的变量编码为“缺失”)。第二,可以通过文献轻易识别的数据由研究助理上载,然后由一个或多个领域专家来通过、增补、认证或者拒绝。第三,我们开发出许多数据工具来帮助专家和研究助理更加迅速地填充数据属性。[118]这些工具将会成为Seshat不可分割的一部分,尤其是能够查询大量数据集如 JSTOR、GoogleBooks 的网络爬虫,它们获取的段落或者网页最有可能包含关于某个变量的有用信息。将这些工具整合进Seshat环境,专家和研究助理可以迅速取舍大量历史文献。通过记录哪些资料对每个变量有用、哪些是噪声,这一选择过程背后的算法将会逐渐得到改善。
虽然Seshat在本质上是一个数字人文与社会科学项目,但Seshat有意识地在研究过程的所有阶段拥抱计算力与计算机科学。这种对计算机科学持续的投入,并非通过在研究过程的每一步中采用某种特定技术的零散方式,而是将Seshat建于Dacura数据维护平台的基础之上。[119]Dacura为构建用于数据采集、数据存储、数据查询与导出、数据分析与可视化的Seshat集成环境提供了一个平台。此数据库自身就是利用了关联数据/RDF技术的三元存储库。用于促进数据采集过程的数据工具将会被集成到Seshat环境中。不同类型的Seshat用户也被设置了具体的工作环境,可以为编辑、领域专家、研究助理以及志愿者提供服务。能够反映研究过程的所有元数据都被获取、分析和用来改善数据采集过程。例如,在数字工具的帮助下,可以实现针对每个变量评估采集数据的质量。掌握这些评估指标对调整那些产生低质量数据的程序或者算法至关重要。Seshat数据可以通过多种输出形式来获取,包括表格形式以及可浏览的、维基风格的、基于文本的网页数据版本。表格形式的数据便于用户统计分析与可视化数据,而文本形式的数据则允许以探索为特点的阅读与浏览,因此适合一种更加宽松随意的研究过程。最后,因为Seshat使用关联数据技术,其中的数据可以被连接到或是具有不同分析单元、或是使用不同颗粒度的其他数据库。[120]因此,Seshat数据可以轻易连接到外部数据集,并且作为切入点进入其他历史数据库中。
社会复杂性的演化
Seshat目前正在被用于测试一系列研究问题以及相关的假设与预测。目前使用Seshat的项目聚焦在:社会复杂性的演化,现代最伟大的经济增长与政治稳定背后有可能的历史根源,以及轴心时代的宗教在解释社会不平等上扮演的角色等问题。[121]在本节,我们主要关注研究社会复杂性演化的项目,因为这一项目进展最快因而非常适合阐明如何从一个整体研究问题转变到具体的数据搜集策略。
在过去的数十年里,有很多理论被提出来解释“人类的超社会性”(human ultrasociality)——我们与在遗传上无关的个体进行协作的能力。很多理论倾向于将资源基础作为社会复杂性演化背后的主要动力。其他一些理论关注战争起到的作用,一些理论则仍旧强调宗教在产生社会凝聚力上扮演的角色。仍然缺乏系统的实证研究来检测这些理论解释的有效性。借助Seshat数据,我们想通过系统核对的历史与考古学数据,比较以上每个理论的解释效力。为此,我们选择了涵盖社会复杂性、资源、战争以及宗教的超过600个理论变量。对每一个变量,每一年的数据都收集起来,尽可能追溯久远。例如,科尼亚(Konya)平原采集到超过9000年的数据。其他地区,如冰岛,时间序列则短很多。因为对这类研究问题最大的解释力来自对时间变化的研究,这个项目并未在时间维度上折中,而是以收集尽可能长的时间序列数据为目标。根据具体的研究问题,也有可能限定时间范围。为了在资助这项研究的经费周期范围内达到一个令人满意的地理覆盖范围,我们集中精力收集分布广泛的样本数据,基于大概30个自然地理区域,覆盖超过400个历史上的政治组织。对其中的每一个自然地理区域,为其间出现或者统治过的每一个政治组织或者古代子文化收集整个生命周期的数据。在选择这30个自然地理区域时主要考虑两个参数。第一,将地球分为10个大型的全球领域(如北美洲、印度次大陆),其中每个领域中挑选3个自然地理区域。第二,在这3个自然地理区域中,有一个很早就产生社会复杂性,有一个产生社会复杂性的历史很短,最后一个社会复杂性的历史居中。由此产生的30个自然地理区域包含了像埃及、美索不达米亚、黄河中游河谷等社会复杂性悠久的区域,也包含了像冰岛这样具有非常短暂建国历史的区域。对于具有长期社会复杂性的自然地理区域来说,我们需要平均编码30个政治组织。对于社会复杂性相对形成较晚的地区,我们需要编码的政治组织较少,大约4—5个。[122]总体来说,这30个时间序列表示了非常大的数据集,使得我们可以用严格的统计方法检测假设与预测任务。
以上段落详细说明了一个项目如何充分利用Seshat的基础设施来采集数据,以下章节则主要解释“为什么”而非“如何”的问题,并且提供借助Seshat能够更好理解的三个问题案例。特别地,我们将重点关注为什么需要获取在不同时间尺度上可查询、大规模、结构化的数据集,以及这又如何使得研究者能够自信地并个性化地参与到重要的史学争论研究中。这三个案例研究共同展示了Seshat在不同时间与空间尺度的史学研究中起到的重要作用。
检验经济增长演化与政治稳定性的理论
上述重要研究争议的第一个例子具有长时段与全球性特征,它关注的是现今经济表现中巨大不平等性以及国家统治有效性的历史根源。理解这些问题的差异性产生的原因,是社会科学与人文学科最重要的学术谜团之一。尽管对相关的经验模式已经达成广泛共识(哪些国家富裕和稳定,哪些国家贫穷、政治不稳定),如何解释这些模式背后的因果机制存在着巨大争议。传统上,经济学家强调资本积累与技术进步,以及影响积累与创新的政策与激励因素。近些年,注意点转移到了制度框架。一些经济学家认为经济增长与物质改善只能通过发展出包容性的制度来促使广泛的人群参与到经济与政治活动中才能实现。特定制度的历史发展能产生深远的影响。[123]
另外,有人认为地理位置对经济发展具有直接的作用,如疾病负担等机制。[124]还有人则强调生物地理条件对现有财富的间接作用,而不同地区中农业革命的时机在其中起到中介作用。[125]最近,经济学家从当前人口的祖先成分中获得了对这些问题的新认识。特别地,斯波拉奥尔和瓦齐亚格强调了现代社会中长期阻碍创新扩散的历史根源。[126]以上这些方法都有一个共同的特点,即它们都通过回顾过去来解释当今社会的经济表现和治理有效性中的不平等问题。
现代演化理论为思考经济问题提供了一种新思路。解释事物随时间的变化(以及历史数据)是这种思路的核心。现代演化理论还可以作为一个统一的框架,使得我们能够整合有关政治与经济发展的不用视角,设计针对竞争性假说的实证检验。政治与经济发展是紧密相关的,它们可以被视作同一个深度结构化过程的两种不同表现,即建立稳定的国家和繁荣的经济需要大量的人力在超大尺度上进行协作。人类在大量具有个体基因差异的种群之间开展合作(称为“超社会性”)[127],如此规模在自然界中的其他地方并未出现。一个关键问题是规范与制度的文化演进。它体现于高层级社会组织的收益与低层级单元负载的成本之间的平衡。然而,这种认识提出一些更重要的问题:这些制度如何随时间发展?政治制度优先于还是跟随于经济制度的改变?哪些生态和历史因素有助于超社会机制的根本发展?在何种程度上成功的政治与经济系统具有统一的特征?这些制度又是如何传播的?
很多理论声称可以解释经济增长和政治稳定,但是它们当中哪个是正确的(或者哪些假定理论的组合能够为观察到的模式提供最佳解释)却缺乏共识。以一种更加严谨和系统的方法在有关经济表现的竞争性理论中作出裁定,正是Seshat的价值所在。我们迄今还未对长期政治与经济发展的更多理论进行全面的检验,因为尚缺乏合适数量与质量的数据。在过去,主要有两个问题限制采用 Seshat式的方法。第一个问题是使用现代国家作为地理单元,而这些国家可能与历史上合适的分析单元并不相关,这一问题掣肘了以往的实证研究。例如,在估计历史 GDP的数据库中,有一个空间分析的单元是安格斯·麦迪逊(AngusMaddison)构建的USSR。这种地理划分对沙皇俄国在18世纪成为强国之前的历史时期分析很不方便。
第二个问题是如何处理时间。现有的数据库受制于多种因素。一些最好的人种志资源(如“标准跨文化样本”“eHRAF世界文明”)是截面数据且缺乏时间深度,而有关制度的良好数据则常常局限在现代社会(如“政治风险服务”数据库只回溯到1980年代)。然而为了理解长期稳定与动荡的因果机制,我们需要系统的、长时段的动态数据,这样的数据告诉我们社会的方方面面如何随着时间而改变。尝试克服这些问题的资源局限于考古数据(如 eHRAF考古数据库),或者是由感兴趣于检验特定理论(如“第四政体”)的社会科学家所构建。这些数据能够产生有价值的洞见,但是可被编码的样例数量或时间跨度是有限的。除此之外,这些社会科学家并不是他们所编码的社会的研究专家,所以他们的数据库未能反映出历史学专家掌握的最前沿知识。全文数据集HRAF也有相似的局限,它要求研究者自己给变量编码。一些勇敢的社会科学家已经尝试在他们的分析中包含深度的历史。例如,科敏等人调查了15世纪(以及在此之前的,大约1世纪与公元前1000年)的技术发展如何影响了现代国家的财富。[128]汤普森和萨库瓦看向更远的公元前8000年。[129]这些作者尝试从深度历史中寻求现代经济增长的根源,这值得赞扬。但是,从公元前8000年到公元前1000年,或者更甚从1世纪到15世纪的跨越,是巨大的。在这期间,很多有趣的历史事件发生过,但是便于分析这些进展的可行的数据库从前一直是缺乏的。
Seshat将令研究者能够比较多种竞争性理论能在多大程度上预测世界上众多不同地区(以及跨越众多不同历史时期)的真实历史社会的运行轨迹。与竞争性理论作出的预测相比,那些数据不足以支持的理论将会失去它们的吸引力。并且随着反面实证证据的积累,它们将会被淘汰。因此,在Seshat的帮助下,我们对当今经济表现与治理有效性中不平等问题的理解,将会建立在更加坚固的基础之上。
在全球历史情境中定位埃及历史
第二个争论是关于如何在更广泛地域(甚至全球性)的历史情境中定位埃及。这个争论具有更具体的时间框架和地理范围。在历史领域中,埃及一直占有不同寻常的位置。文献中记载的大都是宽泛的文化描述,而非其他方面,如埃及农业的制度分析或者古埃及王朝经济模型的建立。[130]不论我们将埃及文明划分到非洲、地中海还是近东,由于古埃及学研究普遍不愿涉及更广的领域(也有重要的例外情况),在宏观历史方面的重要问题仍然有待讨论。文化的发展已经遗留下可观的历史变迁轨迹而长期未有解释说明。例如,传统上,整个公元前1000年埃及都被外来部族统治,这段时期是一直被忽略的。庆幸的是这种情况已经在改变。诚然埃及由于其主要环境引擎被隔离于地中海地区,尼罗河的洪水在东非季风降雨的影响下受制于频繁的变化,这是由多个气候学原因造成的。[131]尼罗河洪水,而非国王,才是埃及真正的独裁者。但是埃及、近东与地中海世界之间的互动,既复杂又重要,并且在很多情况下是埃及文明内部重要变化的推动者(如两个明显的例子就是公元前17—前16世纪的希克索斯王朝,以及公元前4世纪晚期到公元前1世纪末的希腊统治王朝)。
为了着手回答埃及在更广的地域和全球历史语境中的位置这个问题,我们需要获取某些现存的历史数据,这些数据的形式非常不同于目前大多数研究中所使用的数据:统治家族年代组织,或者公元前3世纪埃及祭司曼内托(Manetho)所建立的一代代王朝。Seshat项目在一系列广泛的变量上,通过聚合所有已知的数据来源,使得我们能够精确地质疑传统的年表,或者提出一些新的问题。王朝的年表能否被一种新型的、有说服力的年表数据所替代?是否可能通过合并不同的时间尺度引入一种更加动态的年表?因为Seshat将不同专家的工作整合到一个框架中,我们有可能分析不同变量之间的因果关系,并将埃及置于世界文明的框架之内,从而易于在不同时间和空间上比较不同的文明。我们将会首次在相同的时间尺度上,将埃及与古典世界或者其他地方进行同步比较。这将使得历史学家能够提出比较历史学中非常重要的问题。例如,埃及人在公元前4世纪是否比同时代的雅典人情况更糟?这是一个重要的问题,也许是古代世界的比较历史学研究中最重要的问题之一——制度在经济表现中起到了怎样的作用?一个政治体系中的民众是否比另一个中的境遇更好?这个关于古代世界的问题,近年来获得了加倍的重视。几乎所有这种关注目光都聚焦在古典世界上。这归结到一个制度议题上:希腊社会,尤其是雅典社会,是否创造出了更广泛的财富,即他们的财富分布是否比非民主制度统治的社会更加均衡?这是否反过来导致了更加巨大、持久、真实的经济增长?宗教与官僚组织是否起到阻碍社会发展的作用?气候突变与疾病又怎样呢?
随着Seshat为理解埃及历史提供的潜在价值越来越显著,有人会问为什么这种方法以前没有尝试成功过。是什么因素阻碍了这种方法在以前的实施?最重要的原因在于,如同其他领域的人文研究一样,埃及历史研究领域基于文本,而这些文本涵盖了语言演化的四个阶段与三种不同手迹,跨度从埃及文明的起源到罗马统治时期,常常难于阅读。这就导致了针对埃及历史的特定历史时期或者阶段的不同研究专长。对长时段变迁的评估常常交由考古学家,而他们的工作通常隔离于擅长研究语言的传统历史学家。而且,非常好的考古学结果也常常未被融合进关于埃及的历史学叙述中。毋庸讳言,理解历史随时间的改变可以是隐蔽的,或者,只是被这些基于文本的方法所遗漏了。
目前已有大量的数据被导入Seshat数据库中,这些数据涵盖从新石器时代到奥斯曼土耳其帝国时期所有出现过或者统治过埃及的政治组织。因此,就其本质而言,Seshat厘清了我们知道什么、不知道什么以及学者仍在讨论什么,并且突出了哪些证据有问题、哪些有争议等。了解关于这些政治组织的已知和未知的全景图,尤其是通过比较其他地方的数据,促使我们从全新的角度思考因果关系。这些数据的初步分析结果将会对设置崭新的研究议程具有价值。因为这些议程连接着历史学家与他们解释历史随时间变迁的核心任务,而非用“长时段历史”的最新学术潮流来更新现有的解释,所以不同于其他的研究范式转变。通过组合来自社会经济、政治与农业领域的众多变量,Seshat项目已经展现出全面改写埃及历史的潜力。当把这些数据与其他文明,如中国,关联起来的时候,就形成了我们对数千年的古代埃及历史全部已知和未知的数据,促使历史学家重新思考埃及为什么以及如何展示出在更广泛的全球情境中的重要性。研究结果将会使我们能够在诸如国王、财政机构与社会之间描绘出全新的联系,并且辨识埃及为建立政治平衡而采取的独特措施。
历史语境中的宗教理论模式
第三个案例证明了Seshat利用历史数据验证社会科学理论的有用性。这些数据常常是关于宗教上或者时间上绑定的群体中发生的特定行为。这个案例表明Seshat并不是将所有数据聚合从而降低到政治组织整体上的、一般趋势的层面。因此,它突出了“小”数据的至关重要,即数据的具体情境在理解历史关键进程时的重要性,因而代表了一个放大显示的宏观视野。
长期以来研究者已经认识到,参与集体的宗教仪式可以增强群体的凝聚力,但社会科学家仍然只是刚刚开始理解宗教活动如何产生这些影响以及背后的原因。在这一领域,实证研究中最富有成效的新进展之一被称为“宗教模式理论”,或者简称“模式理论”。[132]这一理论认为集体的宗教仪式在频率与情感方面,倾向聚集在两个极端附近:即他们要么高度惯例化而相对低度情感化(高频度、低情感化,或者简称为“HFLA”),要么很少实施而高度情感化(低频度、高情感化,或者简称为“LFHA”)。
HFLA的宗教仪式常常构成大型组织的核心实践,如世界宗教或者流行运动。因为信条和方案是高度惯例化的,它们就形成了人们该相信什么、怎样行动的常识,以便成为群体中的一个良好成员。这些知识存储在“语义记忆”,即有点抽象的模式的一种集合,它的组成包括群体的信仰体系以及一组针对独特实践的一般程式脚本。这些脚本与模式代表了作为属群成员而非特定个体的行动者与信仰者,因此促成某种形式的群体结盟,这被称为“认同”。这种认同本质上是脱离个性的。因为群体的认同标志遵奉于教义之中,它们可以通过天才的演说者与大量多少有些神圣的文字而被轻易传播。这种信仰体系可以在正统思想中变得确定起来,而正统思想则或多或少通过层级与中央集权的结构得到系统的维护。因此,HFLA的宗教仪式与一系列心理的与社会的其他特征相连,包括群体认同,快速传播,教义的标准化,对无授权创新的制裁,以及从上至下控制的大型中央系统。这一组特征被称为“虔诚教义模式”,但是它并不局限于宗教群体,最近发现许多大型世俗群体同样具有这些特征。[133]
LFHA的宗教仪式常见于小型的传统社会,比如以艰苦的开端为形态。包含创伤或者痛苦考验的宗教仪式,被认为增强了一种同一性的切身之感,这被称为与群体的“融合”。与“认同”的去个性化效果形成对比的是,融合的个体在群体突显时有一种近乎强烈的自主意识:他们的确认为自己因群体而得到强化,反过来,也相信他们也让群体更强大。“融合”盛行于面对面的小型群体中,他们都曾经历过焦虑的体验。这种情况与家族群体中的血缘关系有关联,但也存在于军事单位、体育队伍、帮派以及其他拥有强烈的共同命运感的地方群体中。“融合”被认为来源于共享特别重要的、改变生活的事件。这些经历定义了作为一个人究竟是谁,并且当与他人共享时,似乎打破了个人与社会自我的界限。因此,与“认同”不同的是,“融合”根植于情景记忆而非语义记忆中。那些塑造了个人自我的截然不同的事件,被认为也塑造了群体,如此这般,这些独特的经历对两者都起到决定作用。当人们以这种方式与群体融合起来时,他们将任何针对群体的威胁理解为对本人的攻击,这促使他们愿意不顾一切为保护群体成员而战斗。关于焦虑仪式对情景记忆与社会凝聚的影响,早期研究倾向关注小型社会的宗教仪式,这被称为“宗教信仰的意象模式”。[134]但是与“教条模式”相似的是,这些意象实践也被发现于高度融合的世俗群体中,尤其是那些卷入危险的族间冲突的群体。有观点认为,焦虑仪式为何在交战部落和现代军队中十分常见的原因,正在于它们能将军事单位融合在一起,创造出更加积极主动的战士。最近关于传统力量与叛乱群体的研究支持这一观点。
有关模式理论的很多研究已经聚焦于记忆形成过程与族群一致、社会组织模式相互连接的直接机制。但是这一理论同样提出了终极因果问题:LFHA与HFLA宗教仪式的作用机制是什么?它们如何在不同群体的历史中出现而又消失?是否存在青睐其中一种或者两者皆可的选择性压力?这些问题已被意外的实证发现所间或揭开。例如,针对来自世界范围内74个当代文明的超过645个宗教仪式的细致分析表明,随着农业程度的增加,LFHA的宗教仪式变得越来越不常见。[135]这一发现促成一个假说:“融合”在本地群体争夺稀缺资源的简单社会中尤为重要。形成对照的是,在生产可贮存的农业剩余产品的大型社会中,文化演进更青睐于跟HFLA的宗教仪式相关联的包容性身份标识。通过调查中东一系列文明遗迹从狩猎到农耕的过渡过程,以及宗教仪式的频率与情绪引发方式,我们已经发现很多证据来支持这些预测。但是,Seshat的创建令我们能够提出和回答更多关于社会复杂性演化过程中宗教仪式所起作用的问题。如HFLA宗教仪式在大型中央集权的政治组织兴起之前、期间还是之后出现?具有LFHA的军队是否比缺少它们的军队更加成功?结合HFLA与LFHA仪式的宗教是否比只有HFLA仪式的宗教存在时间更长?一旦上传到Seshat的数据量达到一个临界值,越来越多的此类问题将会变得可以回答。
在这里,通过量化许多政治组织和宗教在长时段里的变化模式,我们只对统计上可以回答的问题感兴趣。但是这并不意味着我们使用粗糙或者现成的数据。实际上,只有当数据的粒度足够细、足够精确时,我们才能恰当地回答这些问题。例如,从焦虑仪式上采集到的数据,常常与很小的群体有关,它们与全体政治组织有着复杂、变化的联系。找到这些关联对我们的分析至关重要。例如,如果我们只知道某个政治组织拥有LFHA的宗教仪式,这对我们来说毫无用处。除非我们准确地了解到哪些群体在实施这些宗教仪式,在什么规模上,频率如何等。所以,我们量化历史的策略依赖于定性史学研究的信度和深度,正如它也依赖于样本政治组织和时段的统计效力。
将定性与定量的维度完全整合进一个数据集里,是一项艰巨的事业。它需要具有极大专业技能差异的研究人员在前所未有的规模上进行深度的合作。Seshat项目首次正式为解决这个问题提供了一种方法论框架和技术基础。虽然项目取得了一些进展,并已经在历史学和社会科学之间建立起令人瞩目的协同工作,但是大量学者之间更深入的合作对于充分完善本数据库仍是必不可少的。此外,对于如此规模的项目来说,它还面临着更多的挑战。这些挑战包括找到更多稳健的方法来处理缺失数据,更好理解编码可靠性的问题,设计更复杂的方法来描述数据不确定性与专家分歧的层级。由于这些挑战涉及人文数据及其解释的核心观点,成功应对这些挑战将有赖于人文学者的参与程度。本文非常赞成需要将不同的专业技能整合进一个共享的基础设施中。最重要的是,本文呼吁更多的历史学者与人文学者继续加入这项工作,让Seshat也成为他们的家园,为广大的研究社群提供更丰富的、公开获取的数据集,以此用新方式探索过去的历史。数据驱动的长时段历史研究需要更多人的参与。
致谢
本研究受到约翰·邓普顿基金会项目“人类平等主义的轴心时代宗教与Z曲线”、三兴基金会授予演化研究所的项目“现代世界的深层根基:经济增长与政治稳定的文化演进”、英国经济和社会研究理事会授予牛津大学的项目“宗教仪式、社群与冲突”(编号RES-060-25-0085)、欧盟地平线2020研究与创新计划项目(编号644055[ALIGNED,www.aligned-project.eu])的资助。我们感谢本组研究助理、博士后研究员、咨询顾问与专家的贡献。此外,我们得到了来自合作者的宝贵协助。私人捐助者、合作伙伴、专家与咨询顾问的完整名单与他们的各自专长领域,请参见Seshat网站。
通讯作者皮耶特·弗朗索瓦,他撰写了本文的初稿并对文章整体的道德问题负责。作者还要向亚历山大·奥可那博士(爱尔兰都柏林城市大学计算学院ADAPT中心)为他在关联开放数据部分的投入表示感谢。
(作者皮耶特·弗朗索瓦[Pieter François],赫特福德大学,牛津大学;J.G.曼宁[J.G.Manning],耶鲁大学;哈维·怀特豪斯[Harvey Whitehouse],牛津大学;罗布·布伦南[Rob Brennan],都柏林大学三一学院;托马斯·柯里[Thomas Currie],埃克塞特大学,彭林校区;凯文·费尼[Kevin Feeney],都柏林大学三一学院;彼得·特钦[Peter Turchin],康涅狄格大学。译者闵超,南京大学信息管理学院博士研究生)