×

特别报道|《数据分析与知识发现》2024年3月荐读

hqy hqy 发表于2025-02-26 10:20:24 浏览14 评论0百度已收录

抢沙发发表评论

本文摘自图情新文,点击最下方阅读原文了解更多。

基于本地大语言模型和提示工程的材料信息抽取方法研究

时宗彬;乐小虬  《数据分析与知识发现》

出版时间:2024-03-15

摘要:[目的]从给定的专题研究论文全文中识别用于有机材料研发所需的实验材料信息,抽取已有研究中给体-受体体系下有机电池材料实体、类型实例。利用量化后可本地部署的大语言模型(LLM),结合提示工程以对话的方式从有机光电材料文献中抽取材料的实体和类型信息。[方法]利用可在低配计算资源下部署的LLM,采用人机协作的模式,通过构建层次化提示指令,依次识别单篇论文中给体-受体体系核心主题句、核心材料以及材料类型特征句,然后特征句基础上识别相应的实例信息。[结果]在没有使用数据集进行微调的情况下,实现了材料实体和类型的抽取,其中实体识别的准确率为0.98,超过了微调的方式,材料类型识别的准确率达到了0.94。[局限]受本地计算资源的约束,降低了LLM的参数规模,对于长材料实体的识别性能偏低。[结论]采用低配本地化部署的基础大语言模型,通过构建合理的提示指令和人机协作模式,可以高效抽取所需主题下的实验信息。 

融合学术文本词汇功能属性的交叉领域新兴社群预测

操玉杰;向荣荣;毛进;袁丹妮  《数据分析与知识发现》

出版时间:2024-03-15

摘要:[目的]充分挖掘科学知识网络社群多元特征,提升领域新兴趋势预测效果。[方法]在e-Health领域新兴社群到热点社群的成长路径回溯基础上,提出一种融合词汇功能属性的新兴趋势多元特征预测模型。[结果]在e-Health领域,所融合的主题、技术等词汇功能属特征能提升新兴趋势预测性能,综合结构、影响、序列和属性四组特征的RF算法模型效果最佳。词汇功能属性规模大、密度低、中介中心性高、波动率大的社群更有可能成为新兴社群。序列特征对新兴社群预测效果欠佳,可能受新兴社群的前瞻性导致。[局限]词汇功能识别结果存在一定领域依赖,结论扩展到其他领域的有效性需进一步验证。[结论]充分挖掘科学文本词汇细粒度语义特征,能够有效提升新兴趋势预测性能,对科学内容评价和科技决策支持有一定参考意义。 

基于ChatGPT和提示工程的查询式摘要数据集AMTQFSum构建研究

商锦铃;张建勇  《数据分析与知识发现》

出版时间:2024-03-14

摘要:[目的]在大语言模型背景下,针对查询式摘要数据集稀缺以及科研人员个性化查询需求。[方法]通过构建生成与自我校验提示链,基于ChatGPT和提示工程提出一种以大语言模型为“数据标注员”的自动化数据标注方法,构建了自然语言处理领域学术会议记录查询摘要数据集AMTQFSum。[结果] AMTQFSum在数据量和长度分布上更加优越,UniEval摘要评估模型显示AMTQFSum比现有QFS数据集平均得分提升了85%和33%。在六个经典抽取式和生成式查询式摘要模型上实验AMTQFSum数据集的基准效果,结果显示基于BART的查询式摘要生成效果最佳,ROUGE 1/2/L达52.53%、35.61%、44.80%。[局限]未扩大数据集学科范围。[结论]基于提示链的大模型数据标注方法为自动化数据标注提供可行方案,AMTQFSum数据集为查询式摘要生成任务提供研究基础。 

基于位置感知时空图卷积网络的交通流量预测

王子彤;李晨亮  《数据分析与知识发现》

出版时间:2024-03-14

摘要:[目的]为更加灵活地捕捉交通流数据的时空特征,实现更加精确的多变量交通流预测,本文提出一种位置感知时空图卷积网络的多变量时间序列预测模型 (PASTGCN)。[方法]首先将交通流时序数据的空间位置和周期性时间特征表示为显式时空位置嵌入;然后在时空卷积结构基础上,在时间卷积网络中引入空间信息实现空间感知的时序列建模,考虑到空间关系的动态变化使用静态和动态的双重图学习方法来捕捉空间依赖。[结果]在两个真实世界交通流量数据集上进行了实验,结果表明PASTGCN模型能有效地对多变量交通流速进行预测,误差对比现有深度学习模型最好可降低1.59%。[局限]实验数据集有限,图学习方法及多次图卷积使算法的时间复杂度较高。[结论]PASTGCN能有效利用时空位置信息实现更准确的时空交通流预测。 

基于BERT-DPCNN的警情文本分类研究

张静;高子信;丁伟杰  《数据分析与知识发现》

出版时间:2024-03-13

摘要:[目的]现代警务工作依托大量的案情文本数据,如何对海量的警情文本数据进行智能化分类成为了公安行业关注的一个课题。[方法]本文针对警情文本分类任务,提出了一个基于BERT-DPCNN的文本分类模型。该模型采用BERT预训练模型生成文本词向量,并通过优化DPCNN模型中的激活函数和改进动态学习率来提高分类性能。[结果]将BERT-DPCNN与BERT,BERT-CNN,BERT-RCNN,BERT-RNN,BERT-LSTM,ERNIE六类模型进行对比实验,结果表明BERT-DPCNN的准确率、召回率和精准率上的效果最佳,其中二分类任务中BERT-DPCNN的准确率达到98%以上,十一分类任务中的准确率达到82%以上,验证了该模型的有效性。[局限]模型参数较多,实验次数有局限,仍有待进一步测试。[结论]基于BERT-DPCNN的文本分类模型有效地提升了警情文本分类的准确率,为公安对警情的分析和研判提供了一定的数据支撑。 

基于句法特征和Bert-BiLSTM-MHA-CRF的细粒度古籍实体识别研究

武帅;杨秀璋;何琳;公佐权  《数据分析与知识发现》

出版时间:2024-03-13

摘要:[目的]结合古籍文本复合句式结构特征,设计较高精度识别古籍文本中实体词的方法,推动数字人文研究的发展。[方法]以触发词和关系词作为识别实体词的关键特征词,设计句式特征模板;根据古籍文本特征,构建Bert-BiLSTM-MHA-CRF模型;融合句法特征和Bert-BiLSTM-MHA-CRF模型实现对古籍文本深层次、细粒度的命名实体识别。[结果]本文方法在常规标注的测试数据集上的F1值为88.00%;在小样本标注的测试数据集上的F1值为82.54%;在迁移学习的测试数据集上的F1值分别是78.72%(《诗经》)、81.45%(《吕氏春秋》)和85.09%(《国语》)。[局限]在句法特征模板设计上,仅以单部古籍设计特征模板;语义信息挖掘上,未考虑古籍文本字符的注音、部首等字结构特征。[结论]本文方法在小样本标注和迁移学习实验中,同样能精准地实现对古籍文本的命名实体识别,为“数字人文”研究任务提供较高质量语料数据。 

政民互动平台的公众满意度影响因素研究——基于领导信箱语料的分析

杜佳璘;王西子;胡广伟  《数据分析与知识发现》

出版时间:2024-03-08

摘要:[目的]为探究引发政民互动平台公众满意度的影响因素,本文构建公众满意度影响因素分析模型。[方法]首先利用领导信箱语料信息提取微观变量,然后结合宏观经济变量采用GBDT方法建立公众满意度分析模型,最后基于SHAP分析剔除影响较小的变量以进一步优化模型。[结果]研究发现GBDT模型在准确率、召回率、查全率、F1-score 4项性能指标上均优于对比模型;GDP增长率、PCDI增长率、CPI增长率、来信主题、来信类型和回应模式是影响领导信箱的公众满意度的重要特征。[结论]领导信箱公众满意度可被视为政府经济建设评价指标之一。本研究提出的模型优化了变量筛选过程,并对各特征变量如何影响公众对政府回应效果满意的程度、方向、规模和方式进行了可视化,为数据驱动行政决策提供了分析工具。[局限]需要探索更多影响因素及更广泛的“政府-民众”互动视角场景。 

基于大模型知识蒸馏的专利技术功效词自动抽取方法研究:以车联网V2X领域为例

王奎芳;吕璐成;孙文君;王翼虎;赵亚娟  《数据分析与知识发现》

出版时间:2024-03-08

摘要:[目的]本文旨在提高专利技术功效自动化提取的准确度。[方法]使用ChatGPT作为教师模型(Teacher-model),ChatGLM3作为学生模型(Student-model),通过知识蒸馏,将ChatGPT生成的训练数据微调ChatGLM3,得到多个技术词抽取模型和功效词抽取模型。采用多个技术词抽取模型分别从专利的摘要、第一权利要求和技术功效语段中抽取技术词,并采用功效词抽取模型从技术功效语段中抽取功效词。[结果]微调后的多个技术词抽取模型和功效词抽取模型相较于ChatGPT,在抽取技术词和功效词时呈现准确率高、召回率低的特点,第一权利要求的ChatGLM3微调模型的准确率和F1值最高,分别为0.734和0.724。功效词抽取模型抽取的功效词的准确率为0.649,大于商业工具标注功效词的准确率0.53。[局限]本研究的技术领域和专利语言单一,验证数据量偏小,数据清洗规则还有待于继续优化。[结论]本研究方案通过知识蒸馏操作,提升了大语言模型自动化抽取技术功效的准确性。同时,本研究能够支持从专利文本中挖掘前沿创新技术、热点技术,支撑更高质量的智能化专利分析。 

融入夸张表征的中文反讽识别方法

李书羽;朱广丽;李嘉伟;段文杰;周若彤;张顺香  《数据分析与知识发现》

出版时间:2024-03-08

摘要:[目的] 为解决中文反讽短文本中存在的特征稀疏问题,本文提出一种融入夸张表征的中文反讽识别方法,挖掘短文本中的夸张表征以提升中文反讽识别准确率。[方法] 首先,通过点互信息和语义相似度计算分别获取与反讽领域相关的共现词对集、感叹词集与程度副词集,合并上述词集来构建夸张表征词典;然后,通过正则表达式匹配反讽文本得到特殊标点符号序列并经独热编码获得特殊标点符号特征,采用RoBERTa-wwm-ext模型获取文本语义特征,利用WoBERT模型将夸张表征词典内的词及词对转化为动态词向量以获取夸张表征;最后改进多头注意力机制来同时关注文本语义特征、夸张表征以及特殊标点符号特征,经softmax函数得到识别结果。[结果] 本文将公开的Ciron和ChineseSarcasm-Corpus数据集合并后进行了实验,准确率达到了81.49%,F1值达到了81.24%。[局限] 构建的夸张表征词典依赖语料质量,导致在本文数据集上构建的词典泛化能力有限。[结论] 该方法通过挖掘中文反讽短文本中存在的夸张表征,并结合文本语义信息,有效丰富文本语义表示,提升了中文反讽识别任务的准确率。 

基于多任务学习的跨类型文本分类技术研究

宋东桓;胡懋地;丁洁兰;瞿子皓;常志军;钱力  《数据分析与知识发现》

出版时间:2024-03-07

摘要:[目的] 解决常规文本分类任务中由于领域训练数据稀缺、类型间差异大等因素导致分类准确率低的问题。[方法] 引入深层金字塔卷积网络与多门控制单元机制,构建基于BERT-DPCNN-MMOE模型框架的新型分类模型,通过设计多任务实验和迁移学习实验,对标当前较为成熟且新颖的八种基线模型,以验证新型分类模型的有效性。[结果] 以自主构建多任务跨类型的数据为训练测试基础,BERT-DPCNN-MMOE模型在多任务实验和迁移学习实验中的分类效果均优于其他八种基线模型,F1值的提升均超过4.7%。[局限] 其他领域的适应性需进一步研究。[结论] 基于BERT-DPCNN-MMOE分类模型在多任务、跨类型文本分类任务上能够表现出更优的准确性,这对未来专题情报的挖掘与利用具有重要意义。 

03

2024年3月召开的会议

参会 | 首届全国数字素养与技能提升高级研修班报名通知(3.15-18,武汉)参会|2024首届学术期刊质量建设与评价高端论坛(3.14-15,重庆)参会|第18届国际知识组织大会(ISKO 2024)注册开放(3.20-22,湖北武汉)

参会 | 中图学会举办第十六届全民阅读论坛(3.31-4.3,浙江宁波)

参会 | 关于举办2024大数据情报分析方法技能与竞争情报体系建设研修班的通知(第二轮)(3.27-30,重庆)

03

2024年3月截稿的会议

征文|“川、吉、苏、冀、桂五省(区)图书馆学会第十九届学术研讨会”上半年崇左召开(3.10截止)

征文|首届全国信息资源管理年会暨博士生学术论坛征文通知(3.10截止)

征文 | 第二十三届中国计算语言学大会(CCL 2024)征稿启事(3.30截稿)

征文|2024年信息资源管理西湖论坛暨博士生学术论坛(2024.3.30截止)

征文 | 第十二届上海国际图书馆论坛(SILF 2024)征文通知(2.5摘要截止 3.31全文截止)

征文|2024上海阅读推广论坛暨上海市图书馆学会阅读推广委员会成立十周年研讨会面向全市开展成果征集的通知(截止3.22)征文 | 第十八届全国知识图谱与语义计算大会(CCKS 2024)征稿(3.30第一轮截稿)征文 | “城市图书馆文化与交往”学术论坛征文启事(截稿3.18)征文 | 第七届信息科学与系统国际会议征稿(3.15截稿)

04

2024年4月召开的会议

参会 | 2024数智时代知识管理与服务理论、方法、战略学术研讨会(4.23-26,山东淄博)

参会|2024第六届亚洲机器学习与计算大会(ACMLC 2024)(2024.4.19-21,泰国曼谷)

参会 | EEKE-AII2024会议征稿通知(2024.2.29截稿)

04

2024年4月截稿的会议

征文 | “2024年高校图书馆发展论坛”征文通知(截稿4.19)

如果您有特定的需求,或者有会议信息投稿,合作意向,请联系我们

(58605025@qq.com)