据日媒报道,日本国立国会图书应用基于AI技术的文字识别软件对古文书进行解读,并取得成果。
截至目前,馆藏的8万册(件)江户时期古文书图像已全部被识别成文字,解读结果已通过“下一代数字图书馆”平台面向公众免费开放。这款AI软件应用了Transformer等自然语言处理领域最先进的模型,经过灌装大量的异体字训练数据集,可识别各种不规则手写字体,对于字迹模糊、难以辨认的文字,能够根据上下文自动推断出来,而无须人工干预,识别准确率高达90%以上。
利用AI软件解读古文书
日本约有数十亿件左右的古代手写体文献尚未完成解读整理工作,大多散落在民间,面临着损毁危险。为了方便公众对家中存藏的古文书进行解读,日本凸版印刷株式会社开发了一款手机应用程序“Fuminoha”,应用AI-OCR文字识别技术对古文书进行扫描解读,支持对图片中的手写文字进行检测和识别,正式版预计将于本月底上市。
利用Fuminoha软件解读古文书