首页 > 资讯 > 综合 > 正文
2023-12-06 11:07

人工智能正在让历史文本变得触手可及——从手稿到象形文字

Ancient writing on old book | Representatio<em></em>nal image | Commons

你是否曾经很难看清你购物清单上“胡萝卜”和“土豆”之间潦草的字迹?很快,人工智能(AI)可能会提供帮助。

在过去的十年里,研究人员一直在逐渐研究如何教计算机阅读手写文件。与大多数机器学习一样,向计算机输入训练数据:在这种情况下,是手写图像和文字细节。然后,它学习每页上的标记如何对应字母。它知道那个半圆是一个“c”,那个短的垂直笔划是一个“i”,因此它可能是你在购物清单上写的“大米”。

它是如何做到这一点的,没有人确切知道——机器学习通常是一个黑盒子。但它似乎至少可以部分地学习哪些字符可能按顺序出现,从而确定您不太可能想要购买“qvjx”,无论这个单词看起来多么像。

这项技术已经应用于许多国家和时期的笔迹,从中世纪的手稿到19世纪的日记(如果还没有21世纪的购物清单),语言从拉丁语到古法语再到希伯来语。

因为这项技术是在图像分析的基础上工作的,理论上它适用于任何文字,从埃及象形文字到铜板。在最初的发展十年之后,手写文本识别(HTR)技术发展的一些真正令人兴奋的结果正在变得清晰起来。

人工智能的存档应用

其一,它使获取知识的途径民主化。手稿的数字化使得许多图书馆的藏书只需点击一个按钮就可以访问(尽管存在网络犯罪)。但是,只有在一些特定的大学里才能得到的长时间训练,仍然需要阅读他们所说的内容(而一些剧本,比如Beneventan,甚至有让研究生咬牙切齿的力量)。

HTR有能力产生一个相当精确的,机器可读的手稿版本,或多或少只需点击一个按钮。如果语言对用户来说仍然是一个障碍,那么可以对抄本进行机器翻译,并提供一个可行的英语(或法语,或中文)版本,与手稿一起。

这些过程所提供的大量数据将对学术产生重大影响。许多中世纪的手稿自中世纪以来就没有人读过了。在过去,主要问题(如《贝奥武夫》等基础作品的创作日期)往往是通过最微小的数据片段(如单个拼写)来解决的。我们现在开始考虑用包含数万个拼写的数据集来回答这类问题:使用HTR,即使不是数百万个,也将是数十万个。我们得到的答案会不一样。

超出了标准

HTR可以生成的数据也更丰富。在过去的五千年里,中世纪文本的表现从根本上受到印刷机和电脑键盘的限制。

一些中世纪的抄写员使用三种不同形式的“s”,但所有的“s”都被转录成键盘上熟悉的蛇状“s”。标点符号,比如可怜的“标点符号”(看起来有点像倒分号),不得不现代化,让人看不见。

由于HTR基于视觉识别技术,它可以识别任意数量的字母形式,而不仅仅是qwerty键盘上的100多个字母形式,并且比习惯于将所有四种形式的“s”复制为“s”的人类更准确地复制它们。

我在都柏林三一学院(Trinity College Dublin)的新试点项目安桑德(Ansund)的目标是,实现1150年以前最早的书面英语的这些潜在应用。

Ansund的目标是利用HTR建立一个详尽的、开放获取的古英语文本数字语料库,第一次转录所有幸存的古英语,并且以无与伦比的细节水平。我们特别兴奋地看到我们发现了多少新的字母形式,并收集了关于古英语单词划分的第一批实质性数据(抄写员并不总是在我们可能期望的地方加空格)。

安桑德是三一学院众多旨在利用新技术增加手稿获取机会的项目之一,其他项目还包括三一图书中心(Trinity Centre for the Book),该中心专注于图书写作和分享的历史。虚拟三位一体图书馆已经数字化了60多份手稿,并于本周启动了中世纪手稿的多种生活研讨会。

在过去的一年里,人工智能的伦理和危险受到了重要的关注,但它使我们的文化遗产变得清晰易懂的能力也值得关注。不久的将来,它甚至可以确保你能够破解你混乱的购物清单。

马克·福克纳,医学副教授瓦尔文学和主任,三一中心的书,都柏林三一学院

本文转载自The Co在知识共享许可下的对话。阅读原文。


还读:阿克巴尔的波斯语《摩诃婆罗多》外文采用了印度的手抄本世界各地的脚本