DeepMind新AI可解译古希腊铭文、年代和地理位置

Google旗下人工智能研究机构DeepMind,开发出会识别古希腊文本的人工智能Ithaca,而且Ithaca不仅能够识别古希腊文本,还能恢复损坏铭文上的文本,识别来源位置,甚至是估算铭文被创建的年代。

Ithaca恢复文本的准确率达62%,并且能以71%准确率识别来源位置,而且能精确的估算铭文年代,范围限缩到30年间,历史学家已经使用Ithaca重新评估希腊历史的重要时期。

历史学家通过古时候的文本,了解过去的文明,早在2500年前,希腊人就开始在石头、陶器和金属上书写,记录租约、法律、历法和神谕等各种内容,历史学家可以通过这些文本,知地道中海地区以前发生的大小事。

这些历史铭文在近几个世纪以来,不少已经遭到搬移和破坏,现代的年代测定技术,又无法运用在这些材料上,使得铭文解读困难且耗耗时日。因此DeepMind与威尼斯卡大众卡里大学合作,开发出用于解译这些铭文的人工智能Ithaca,Ithaca取名自荷马奥德赛中希腊岛屿的名字,创建在DeepMind文本恢复系统Pythia之上。

Ithaca使用来自非营利性组织帕卡德人文学院,全世界最大的希腊铭文数字资料集进行训练,DeepMind提到,自然语言处理模型通常使用多字词进行训练,因为字词出现的顺序、位置,以及之间的关系,提供了额外的含义和上下文信息。

不过,因为历史学家有兴趣使用Ithaca分析的铭文多数已经损坏,而且丢失大区块的文本,所以DeepMind为了使模型仍然可用,除了使用多字词训练之外,也使用单词来训练,Ithaca模型核心的稀疏自注意力机制,会平行评估这两个输入,并根据需要用于预测铭文。

DeepMind也提供多种视觉辅助工具,让历史学家更容易解读Ithaca的输出,Ithaca会输出多个文本恢复假设,供历史学家以专业知识进行选择,当地理位置归因上,Ithaca会当地图上显示可能的分布几率,来显示其不确定性,而且通过显示多个可能的区域几率,也能够让历史学家了解这些区域在古代,可能存在潜当地理关联。

Ithaca在追溯铭文年代时,会产生公元前800年到公元800年,以十年为单位的预测日期分布,这使得历史学家可以利用模型可视化结果,提供更可信的判断。Ithaca还会使用常见的计算机视觉技术,凸显对预测结果贡献最大的输入,借由显示不同颜色强度,突出显示影响Ithaca对缺失文本、位置和日期做出预测的单词。

Ithaca协助修复文本的能力极佳,与研究人员合作的历史学家,在单独修复古代文本的时候,具有25%的准确度,但在使用Ithaca后,修复文本的准确度达到72%,这个结果凸显了人机合作的潜力,能更好地推进历史解释,并创建历史事件的相对年代。

通过Ithaca的帮助,目前历史学家不认为重要的雅典法令,是在苏格拉底和伯里克里斯等名人生活的年代所制定。长期以来,人们一主动得这些法令是在公元前446/445年前制定的,但是经Ithaca的分析,新的证据表示这些法令制定是在公元前420年代。尽管年份差异不大,但是对历史学家理解古代雅典政治史却非常重要。

DeepMind与Google云计算和Google Arts & Culture合作,推出Ithaca免费交互版本,并且进一步开源程序代码、预训练模型,以及交互式Colaboratory笔记本,与研究人员、教育者和博物馆工作人员,共享这些研究成果。

发表评论