×

大语言模型与战国文字研究

hqy hqy 发表于2025-07-18 23:10:14 浏览3 评论0百度已收录

抢沙发发表评论

来源:【中国社会科学网】

人工智能辅助古文字研究,是学科未来的发展趋势,目前已涌现不少成果,如甲骨缀合产品“缀多多”“知微缀”、铜器断代产品“吉金识辨”等。在战国文字研究领域,文字资料丰富,有大量古书文献,非常适合引入大语言模型进行长文本理解任务,使出土文献中的文本和思想价值得到更好的传播与弘扬。

开源大语言模型的优势

在古籍整理领域,已有训练大语言模型的先例,主要有直接训练(如“AI太炎”)和模型微调(如“荀子古籍大语言模型”“AI九思”等)两种实现路径。自DeepSeek引发热议以来,各大企业纷纷发布开源模型,模型微调能快速适用于包括战国文字资料整理在内的不同专业场景。在战国文字研究领域,开源大语言模型的优势主要有以下三点。

一是预先优化的特性。早在2021年,莫伯峰已尝试利用谷歌的BERT模型进行战国文字资料的文本归纳,但效果不太理想。如今,国内主流的大语言模型大多针对中文的分词和表达习惯作了改进,并引入了大量中文互联网语料,其汉语理解和表达能力得到大幅提升。笔者尝试向DeepSeek提问,提供上博简《鲁邦大旱》中文本,交由模型进行句读并解释大意,模型断读为“鲁邦大旱。哀公谓孔子:‘子不为我图之?’孔子答曰:‘邦大旱,毋乃失诸刑与德乎?’”DeepSeek不仅句读准确,还能翻译大意并作思想分析,若经过专业数据集的微调,便可以处理更加复杂的战国文字问题。

二是更低的训练成本。大语言模型的性能取决于参数规模和训练数据量。战国文字资料的文本量有限,不足以为模型提供全面的语言能力训练,还需要引入古籍和大量现代汉语语料来提升模型的语言能力。战国文字毕竟属于“冷门绝学”,投入的资源有限。可以通过调用大语言模型快速构建训练数据集,如解读楚简文本并生成结构化数据和知识图谱,自动提取人地族名等信息,减少人力标注的时间和精力。DeepSeek等大语言模型相比以往费用大大降低,还可以用来“蒸馏”出适合战国文字研究规模的模型,节省设备投入,缓解经费压力。学者也可以将更多精力集中在构建知识库、模型微调等任务上,在较短时间内取得更好的成果。

三是更好的推理能力。大语言模型在之前就已经引入了思维链技术。思维链是指模型将复杂问题拆解成相对简单清晰的子问题,最终整合到提示词中来引导自身生成更为准确的答案。DeepSeek这样的推理模型会将这个过程显性地展示出来。思维链与古文字考释中的“辞例推勘法”高度契合。例如,面对难以辨识的战国文字,模型可以轻而易举地通过检索知识库找到相似语料,借助思维链推敲上下文语义逻辑,或是归纳相似材料的交集,锁定合理答案。相比以往需要学者多年熟读古书和反复检索,大语言模型具有极大的效率优势。

推进战国文字开源数据集建设

开源大语言模型是一套优质“厨具”,接下来就是如何准备上等的“食材”了。运用战国文字材料训练语言模型仍存在一些瓶颈。一是缺乏高质量语料。战国文字语料长期由各单位自己手工制作,大多含有缺乏统一规范的符号和简号,并混排了古文字图片。二是模型处理通假字的表现尚可提高。DeepSeek对较简单的通假用例已能正确解读,但仍有不足。比如,《左传》昭公七年“乃筑台于章华之上,阙为石郭,陂汉,以象帝舜。罢弊楚国,以间陈、蔡”,由于模型缺乏对战国文字通假知识的理解,未能将“间”字读破成“县”,而是理解成了“离间”的意思。战国文字存在大量通假、异写、讹写甚至同义换读等情况,对于大语言模型的文本理解能力提出了更高要求。因此,制作一系列开源数据集成为紧迫的任务。目前来看,至少还有以下三类数据集亟待建设。

一是字符数据集。许多战国文字的隶定字未经Unicode编码,过去学术界通常制作图片字插入文档中,这样形成的文档很难用于模型训练。并且,不同的人常针对同一个字造了大同小异的图片,这样模型在解析图片时就容易视其为两个不同的字,使得本就数据不足的样本还被进一步分散。因此,有必要为战国文字制作专用字库。图片字大多是生僻字,还需要标注这些字的结构信息,通过汉字结构特征数据来强化模型对生僻字的感知能力。

二是语料数据集。在战国文字字库的基础上,可以着手将战国文字的语料转化为结构化数据集。针对战国文献中广泛存在的标注符号(如“”标注通假、“〈〉”标识讹误),建议采用两个阶段的数据处理策略:第一阶段提供无标注纯净文本,通过无干扰语义建模使模型掌握基础文言理解能力;第二阶段注入带标注监督信号 (如将“〈〉”转换为[讹误]标签),从而设计序列标注任务以训练模型识别通假映射(古音通转规则)与字形讹变规律(部件形变路径)的能力。

三是字词关系数据集。构建通假字资源库能够有效提高大语言模型识别通假字的能力。除通假关系外,战国文字语料中还可以定义出异体关系、正讹关系、同形关系、同义换读关系等,两个字之间能否形成某种关系,还需要大量的前置条件。比如,“浴”字作为“谷”字的异体字时,是专造用来表示“山谷”这个含义的,这组关系主要是战国时楚地的用字习惯。表示“沐浴”的“浴”则是其他时代和地域另外造的字,它与表示“山谷”的“浴”是一组没有时空交集的同形字。这样一组字词关系的数据至少应包含发生关系的两个字的键值对、关系的定义、作用的词义范畴、时代和地域范围、用例等。如果将战国文字中的这些字词关系整理成数据集,模型理解战国文献的能力将大大提高,甚至可能借助庞大的知识系统提出创新性的解读。

在这个大变革的时代,也许还应考虑战国文字这样的“冷门绝学”能为人工智能做些什么?大语言模型在生成对话的过程中总是难免出现“幻觉”问题(即不准确内容)。在引用古籍原文时,“幻觉”会导致大语言模型出现张冠李戴或胡编乱造的现象,给学习者带来误导。语料越冷门,模型就越容易出现幻觉。出土战国文献的文本相较古籍更为冷僻,这样一来,模型生成的知识对于不了解传统文化的爱好者可能会造成误导,似是而非的文本在互联网中进一步传播,也会大大增加文化普及的工作量和复杂程度。“幻觉”虽然很难被消除,但仍可以通过检索增强生成(Retrieval-Augmented Generation,RAG)和调整专业领域知识的权重得到改善,因此也更需要从业者付出时间来整理高质量的数据集。想独立完成高质量的整理任务是很困难的。有必要发挥群体的力量,依托现成的开源社区来营造古文字的开源生态。我们可以先发布一系列较为粗糙的数据集,寄希望于后来者踩在先驱者的肩膀上,在已有开源数据集的基础上不断完善和迭代。开源开放是大语言模型未来的潮流,这股潮流也将润及战国文字研究领域。

(本文系国家社科基金重大项目“战国文字研究大数据云平台建设”(21&ZD307)阶段性成果)

(作者系中山大学古文字研究所研究员;中山大学中国语言文学系教授)

来源:《中国社会科学报》2025年7月18日第3178期

作者:林焕泽 范常喜

本文来自【中国社会科学网】,仅代表作者观点。全国党媒信息公共平台提供信息发布传播服务。

ID:jrtt