2019年11月29日,由北京语言大学语言资源高精尖创新中心和北京语言大学语言智能研究院共同举办的汉语句法语义分析暨汉语篇章结构语料库建设研讨会在北京语言大学举行。对汉语句法语义结构的描述形式,和基于其的深加工语料库是当前汉语句法语义分析所依赖的重要语言资源。由北京语言大学荀恩东教授主持的北京市语言资源高精尖创新中心科研项目“句法语义分析及其应用开发”自2017年立项以来,在理论研究、系统研发和资源建设方面已取得显著成果。来自清华大学、北京大学、哈尔滨工业大学,南京师范大学、百度公司的十余位专家莅临研讨会。与会专家涵盖语言学、计算机科学、标准化工作等多个领域,集聚一堂为句法语义分析和篇章结构语料库建设把脉问诊。语言资源高精尖创新中心常务副主任杨尔弘教授主持了会议。

杨尔弘教授主持研讨会
荀恩东教授首先介绍了本次研讨会的初衷,并对汉语意合图的表示与构建进行了理念上的描述和报告。荀恩东教授围绕在做汉语句法语义分析中的得到的收获,以及项目团队在汉语意合图的表示与构建中得到的成果进行阐述及汇报。

荀恩东教授介绍块依存理念与资源建设流程
荀恩东教授表示,北语语智院团队希望能够从基础理论到实际应用中不断探索,目前在应用层面不断打磨。荀恩东教授还提出,汉语的语义结构适合使用意合图进行表征,以意合图为中枢,对应用场景做关联。
当前,语义表示是语言信息处理乃至整个人工智能的核心问题。好的表示方法应符合三个标准:语义表示符合语言规律,是根基;语义表达方式应该符合逻辑框架,体现为可计算性;语义表示在场景中应可以灵活转换。过去,语言学界、计算机学界对知识工程,尤其是语义场景中的应用,缺乏关注。为此,荀教授及其团队围绕语义分析任务进行了树库建设。目前该树库已经达到千万字量级。目前,荀教授团队对于句法语义分析的核心思路为将数据转化成块依存图结构,帮助进行信息抽取和信息校对;利用意合图导出事件图谱、事理图谱等。
对于语言智能应遵从的研究理念,荀恩东教授表示语言学对智能应用的指导还是应该回归认知的理据性、语义的先决性、句法的限制性、韵律的和谐性和语用的选定性。当前的研究应该从这几个基本点出发。当前知识图谱为代表的知识工程面临诸多问题,例如三元组无法表征复杂结构,缺少对事件的一致性描述,缺少用于数据获取的通用工具,没有标准化构建流程等等。由此荀教授希望团队的研究可以从静态图谱转化到动态图谱,并且构建了从静态图谱到动态图谱的架构。
随后几位团队成员分别针对基于篇章的句法结构树库1.0,基于篇章的句法结构树库2.0以及汉语分析平台演示进行了汇报。



课题组成员卢露、钱青青、王贵荣介绍资源建设、标注方法和分析平台
针对荀恩东教授及其团队的工作,与会专家展开了热烈的讨论。与会专家均高度赞扬了荀恩东教授团队工作的开创性和扎实程度。北京大学詹卫东教授认为该项目基本的工作是表示,特别是关于“块”的表示,并提示课题组高可用度的语义表示的困难性,也提及了动态图谱和生成词库论的相同之处。清华大学李涓子教授对句法结构树和意合图之间的映射关系进行了点评,并给出了完善建议。北京语言大学特聘教授长江学者冯胜利教授对课题工作中韵律与事件关系表示了浓厚的兴趣,并指出结构分析在口语分析中面临巨大挑战。哈尔滨工业大学刘挺教授曾经提出了事理图谱概念,并进行了大规模资源建设。他认为难以对语义进行固定描述,需要和场景关联,应该寻找某种通用的语义存在。北京大学穗志方教授赞同刘挺教授的提议,基于其在医学知识图谱建设中的经验,建议结合具体落地任务进行意合图的建设。南京师范大学曲维光教授和百度公司吴华博士分别针对缺省如何系统表示和语义的明确定义提出建议。中国标准化研究院王海涛研究员则期待针对国家标准的领域进行实践。哈尔滨工业大学前党委书记,北京语言大学名誉教授李生认为NLP的重难点都在语义上,句法结构在一定程度上能够解决语义的问题,但需要进一步证明;北京语言大学信息科学学院名誉院长宋柔教授则希望动态图谱能尽快落实,展示工作效果及特色。
最后,中国中文信息学会名誉理事长北京语言大学特聘教授、语言智能研究院名誉院长李生教授和北京语言大学信息科学学院名誉院长宋柔教授对本次研讨会进行了总结。两位专家都指出,当前语义问题是研究的难点和重点,如何将意合图和块依存图更好地结合,起到更好的作用,找到自己的优势是当下亟需解决的问题。并勉力课题组发挥计算机科学和语言学相结合的团队优势,深耕语言结构和语义、语用的结构描写,集中力量建设一批有用、好用,经得起时间和实践检验的语言资源,切实推动语言智能发展、落地。

北京大学詹卫东教授发言

清华大学李涓子教授发言
北京语言大学语言智能研究院
2019年12月2日