为甲骨文研究插上科技的翅膀 带你揭秘3000年前的那个王朝


    甲骨文是商朝王室用于占卜记事而篆刻在龟甲和兽骨上的符号,距今约有3600多年的历史,是迄今为止中国发现的年代最早的成熟文字系统,对专家学者研究商代历史、文字发展史、中华文明起源具有极高的历史价值、文化价值和艺术价值。
    自殷商甲骨文出土以来,现已发现分布在海内外的甲骨约16万片,共有单字4300多个,但目前取得共识的破译字仅1500多个,还余下三分之二的未释字,甲骨文考释工作任重而道远。
    近日,CCTV-9纪录频道通过一部人文历史系列纪录片《甲骨王朝》,从文化疆域、社会生活、占卜制度、生产科技等多个方面,揭开了商王朝的神秘面纱,还原了商王朝的历史面貌,也近距离地向观众展示了一段“特别的”甲骨文的考释工作。
    
    央视纪录片《甲骨王朝》视频画面
    一片甲骨惊天下 科技破解古文字蕴藏的文化密码
    甲骨文破译的难点在于,经历了数千年的岁月,商代社会与现代社会差异巨大,文字的形体、意义、读音都发生了剧烈的变化,加上甲骨残断、拓片不清、语料缺乏等诸多因素,通过人工破译甲骨文的难度大、耗时长。
    同时,甲骨文独体字中象形字占多数,并且“一字多形、一字多义”情况很多,辨识难度极大,工作十分繁重。如下面一组甲骨文:
    
    甲骨文“龟”,出自《汉语词典》(黄扬主编)
    其实,上面的甲骨文都是同一个字,“龟”。在已破译的甲骨文中,龟字有多种书写方式——正视的、侧视的;四只脚的、六只脚的……可谓五花八门,形态各异。甲骨文的研究真是既有趣又充满挑战。
    要攻克甲骨文破译这一学界的超级难题,新技术的跨界融合提供了新的思路。首都师范大学甲骨文研究中心莫伯峰教授联手华为云AI工程师团队,借助云计算、AI及大数据等技术力量打造了一系列提升甲骨文考释效率的方案:基于华为云ModelArts一站式AI开发平台等服务,双方共同打造了甲骨文字形匹配、甲骨文语义推理两个AI模型,从字形和语义的角度来辅助甲骨文的研究工作。
    字形匹配模型 AI洞悉文字变迁的规律
    甲骨拓片所呈现的内容可以理解为一篇记录远古时期祭祀、征伐、气象、田游、卜梦等活动的短文。大至国家兴衰,小至个人命运,都能在甲骨拓片中找出丝丝线索。因此,用“一个文字就是一段历史”来形容甲骨文一点儿也不夸张。可是,未考释的文字,对应的是一段历史的空白。面对着穿越数千年而来的不会说话的象形文字,考释工作该从何处着手?
    
    央视纪录片《甲骨王朝》视频画面
    在早期,文字的变迁主要是基于字形逐渐演变的。相邻朝代中,字形的变化通常有迹可循。沿着文字发展的脉络进行字形对比,是甲骨学家重要的破译方法。
    
    央视纪录片《甲骨王朝》视频画面
    为帮助未考释的甲骨文揭开神秘面纱,莫伯峰教授与华为云AI工程师一起打造了字形匹配模型,通过检索与单个甲骨文字符字形相似的金文字符,来帮助实现甲骨文的破译。
    将大量甲骨文与金文录入到计算机系统后,华为云AI工程师利用神经网络等技术,训练出帮助识别甲骨文的字形匹配模型,让AI掌握从甲骨文到金文再到现代文的文字发展规律,并模拟专家的破译思路。“机器识别与人的识别效果非常接近”,莫伯峰教授这样说道。同时,模型推理出的关于甲骨文-金文的匹配结果,往往能给甲骨学家们一些关于字形演变的新思考。
    
    首都师范大学甲骨文研究中心莫伯峰教授
    然而,对甲骨文考释而言,能够从文字相似度的角度来破译的未释字数量相对有限,字形匹配模型的应用能解决的问题仅为冰山一角。剩余的“文化密码”,也许需要一个全新的破解思路。
    语义推理模型 帮助推理文字的AI界“福尔摩斯”
    让AI学习专家在古文字考释中常见的“辞例归纳法”,是该项目中的另一项创新。所谓“辞例归纳”,意即根据上下文语境推理出某个字或某词组的含义。比如当我们使用计算机和手机的联想输入法,只要输入一些内容,就能自动预测接下来可能会搭配的文字,这种预测其实就是根据语境和辞例归纳出来的,也就是机器的“辞例归纳”。
    为让AI与人类一样具备识文断句、上下文理解及推理能力,在模型构建环节,华为云AI工程师以8亿字的《四库全书》作为语料,结合通假字、同音字等古文规则,培养人工智能的语感,同时也能让人工智能系统化地学习汉朝至清乾隆时期的中国古典文化。
    团队以已经具有成熟释文文本的战国楚竹书《上博简》(1-9)中的2103个字作为测试对象,随机遮蔽某个文字,并让模型预测遮蔽处的文字含义。语义推理模型可以在备选字符中为遮蔽处推选出五个可能的正确选项,有效地帮助专家缩窄探索范围。
    
    央视纪录片《甲骨王朝》视频画面
    为甲骨研究注入新活力 华为云在路上
    正确理解一片甲骨刻辞的内涵,并不仅仅取决于其中的所有文字是否可识,更重要的是能否读懂刻辞内容。接下来,华为云AI工程师一方面计划引入华为云盘古大模型,基于其优秀的泛化能力,解决甲骨文研究领域知识和数据不足的瓶颈问题。另一方面计划构建关于甲骨文的知识图谱,承载既有的研究成果,用图网络的形式展示甲骨拓片所蕴藏的丰富信息,从更高维度的视角来推动甲骨文的研究。
    华为云人工智能领域总裁贾永利表示,新兴技术让学界专家得以将人类经验与计算机自然语言相结合。通过AI对甲骨文研究的赋能,早期文明史的探索步伐将迈上新的台阶,蕴藏在珍贵文物中的优秀传统文化将能更好地实现创新性发展。
    
    华为云人工智能领域总裁贾永利
    未来,华为云将进一步携手各领域专家学者,深入多学科交叉行业,积极探索更多人工智能的落地形式,为伙伴及开发者创造无限的可能。