×

特别报道|《数据分析与知识发现》2024年1月

hqy hqy 发表于2025-04-11 00:21:35 浏览7 评论0百度已收录

抢沙发发表评论

本文摘自图情新文点击最下方阅读原文了解更多。

一种技术演化路径识别方法:集成图嵌入和路径分析

翟东升;翟亮;梁国强;赵凯  《数据分析与知识发现》

出版时间:2024-01-25

摘要:[目的]为充分挖掘特定领域的关键技术及分支,全面揭示其技术演化轨迹,提出一种集成图嵌入和路径分析的技术演化路径识别方法。[方法]开发无监督图嵌入模型,将专利结构关系、文本及节点信息传递、聚合的知识等特征,融合为多维语义向量,用于拓展技术路径的同时提升社区划分效果;从网络拓扑和语义关联视角,提出主路径及衍生路径的拓展方法,并构建技术衔接点测度指标,识别路径上具有发展潜力技术领域。[结果]在无人机飞行控制系统技术的实证中,识别出四个子领域的技术演化路径及分支,并发现该领域中模式识别技术、多处理器和数据融合技术具备良好的发展前景。[局限]本文暂未将技术演化模式的形成机制因素,纳入到识别框架中。[结论]集成图嵌入和路径分析的方法在路径拓展效果、应用普适性等方面具有一定优势。 

融合知识图谱与人工免疫的企业风险识别模型研究

李佳;杨波;杨美芳  《数据分析与知识发现》

出版时间:2024-01-19

摘要:[目的] 提高企业风险识别的准确率,降低潜在风险对企业造成的损失。[方法] 提出一种融合知识图谱与人工免疫的风险识别模型。该模型利用知识抽取技术从文本信息中挖掘风险领域知识,实现企业风险领域知识图谱的构建;并通过企业风险事件描述文本信息与知识图谱中的风险实体进行实体链接,获取更强的风险特征;在此基础上,运用人工免疫方法进行企业风险识别。[结果] 该模型对企业风险识别率为89%,相对于基于神经网络的风险识别模型的识别率提升了19%。[局限] 本研究仅分析了企业年报中披露风险内容与企业新闻报道中的定性文本信息,未来将尝试引入多维度与更完备的定量与定性信息来提高企业风险识别的准确率。[结论] 本文提出的模型能够高效的关联企业内外部实时数据并开展企业风险分析,为企业风险预控提供重要参考。 

融合异构网络表示学习与注意力机制的引文推荐研究

张金柱;孙雯雯;仇蒙蒙  《数据分析与知识发现》

出版时间:2024-01-18

摘要:[目的]扩展涉及引文推荐的异构网络涵盖的节点及其关系,对其进行深层次语义表示,揭示不同关系对引文推荐的影响和差异,提高引文推荐效果。[方法]在引入语义链接构建异构网络的基础上,构建融合注意力机制的异构网络表示学习模型,生成深层次的语义和结构表示,引入相似度指标实现引文推荐,并通过消融实验探索不同因素对引文推荐的影响程度。[结果]引入语义链接前后引文推荐模型AUC相对提升0.22;引入双层注意力机制前后AUC相对提升0.079;对比基线模型CR-HBNE,其AUC和AP两项指标分别提升0.185和0.204。[局限]手动选取关联路径不够高效;仅根据两项指标对推荐结果进行评价比较单一。[结论]本文提出的方法充分利用引文间的复杂关联和深层语义信息,有效提升引文推荐效果。 

基于深度多模态关联学习的短视频多标签

李云;卢志翔;刘姝伊;王粟;吕梓民;井佩光  《数据分析与知识发现》

出版时间:2024-01-18

摘要:[目的]该研究充分利用模态互补性,增强模态之间和模态与标签之间的相关性,以实现高度准确的分类效果。[方法]该研究提出了一种基于多模态语义增强及图卷积网络的创新短视频多标签分类算法,算法将多模态学习和标签语义学习融合于同一网络框架中。[结果]本文通过大量的实验分析,验证了提出算法的有效性,算法分类精度达到87%,与最优的基准算法相比,分类精度提升了6.82%。[局限]模态融合增强信息存在冗余信息,这些冗余掩盖了模态之间的相关性;此外,在基于模态的多标签分类方面,相关研究较为有限。[结论]该算法成功提升了模态之间的互补性,增强了模态与类别之间的相关性,并提高了分类的准确性。 

基于标签和深度特征的乡村文旅图像检索技术与系统实现

胡忠义;朱彬呈;吴江  《数据分析与知识发现》

出版时间:2024-01-18

摘要:[目的]设计基于图像检索的乡村文旅目的地检索系统,实现基于图像和标签检索符合特定需求的乡村文旅目的地,辅助游客进行乡村旅游决策。[方法]重点解决系统构建过程中涉及到的4个关键问题:①乡村特色文旅目的地及图像数据库构建;②构建基于ViT模型的图像特征提取模型;③构建Milvus向量数据库存储图像特征及乡村文旅信息,结合标签和深度特征进行混合搜索;④基于前后端开发技术完成系统构建。[结果]所构建的检索技术在实验数据集上取得了较好的查询精度,其中在自建数据集上mAP@100达0.7642,高于基准模型。[局限]受限于实验数据集的规模和种类,部分检索需求无法得到较丰富和贴切的检索结果。[结论]所构建的检索模型能够准确的检索到相关图像,实现的基于图像检索的乡村文旅目的地检索系统能够为游客提供便捷易用的文旅服务。 

CCI-ClipCap:一种基于Prompt范式的中国陶瓷图像描述模型

石斌;王昊;刘懋霖;邓三鸿  《数据分析与知识发现》

出版时间:2024-01-18

摘要:[目的]构建中国陶瓷图像描述模型,为陶瓷文化研究和数字化保护提供技术支撑。[方法]本文在ClipCap的基础上,引入Prompt范式改善模型对跨模态数据的理解,实现对陶瓷图像的自动描述。此外,我们还提出了一种针对具有一定表述结构的文本相似度评估方法。[结果]CCI-ClipCap利用Prompt范式改进了多模态融合过程,能够很好地提取陶瓷图像的信息,并生成与实际相符的描述文本,Bleu、Rouge值等相较于baseline分别提升了0.04、0.14。[局限]本文所使用的数据来源于大英博物馆的馆藏数据,而非中文原生数据集,数据来源较为单一,对模型的性能产生了一定的影响。[结论]CCI-ClipCap生成的文本表达层次丰富,能够理解陶瓷领域知识,具有较强的专业性。 

基于情景感知的叙事型壁画场景式移动视觉搜索模型研究

孙守强;李青青;肖舒玥  《数据分析与知识发现》

出版时间:2024-01-18

摘要:[目的] 叙事型壁画蕴含了丰富的故事场景,对用户理解壁画内容具有重要意义。然而,传统搜索方式注重对关联语义和相似图像的检索,忽略了场景信息的重要性。为解决叙事型壁画便捷检索与场景感知的问题,本文构建了基于情景感知的叙事型壁画场景式移动视觉搜索模型。[方法] 结合情景感知和信息觅食理论,本文以情景为元素,构建壁画情景图谱;通过组合多模型提取壁画全局及局部视觉特征,利用点积进行特征匹配;在特定情景下,基于情景图谱进行情景关联,实现便于用户认知和理解的场景式搜索。[结果] 在搜索时间、地点、人物和事件关联壁画时,本文提出的模型平均mAP值为0.840,优于VGG16/BOW_KAZE/HOG等模型。[局限] 忽略了用户所处情景对搜索意图的影响。[结论] 面向叙事型壁画构建了一种基于情景感知的场景式移动视觉搜索模型,实现了壁画资源搜索的场景感知,并探索了场景式搜索的发展路径。 

民事裁判文书中论辩元素识别研究

王义真;沈雪莹;欧石燕  《数据分析与知识发现》

出版时间:2024-01-18

摘要:[目的]构建适用于民事判决文书的论辩结构,并实现论辩元素的自动化抽取。[方法]基于图尔敏模型构建民事裁判文书的论辩结构,用以指导民事裁判文书论辩语料库的标注。随后,提出一种基于上下文感知的多头注意力论辩元素分类模型(CAMA-AECM)用于自动抽取论辩元素。[结果]实证表明,该模型在不同论辩主体的数据集上均表现出较好的性能。就Macro-F1值而言,模型在原告、被告和法院这三个论辩主体对应的数据集上分别实现了2%、6%和4%的提升。[局限]受限于论辩语料构建的成本和规模,并未探索全部民事案由的裁判文书论辩结构和特征。[结论]本研究构建的模型有效实现了论辩元素的自动识别,这不仅增强了对裁判文书中论辩知识的挖掘能力,还为裁判文书分析提供了一个新的自动化工具。 

LIME算法的演进及其在数据故事化中的应用

靳庆文;李胡蓉;张晨  《数据分析与知识发现》

出版时间:2024-01-17

摘要:[目的]解决LIME及其演进算法在数据故事化中的应用问题,以更好地发挥数据故事的解释功能。[方法]探究LIME算法的原理、应用和演进策略,并基于此技术理论,构建LIME相关算法辅助的数据故事化流程。采集Kaggle平台上用于识别猫狗的部分数据集,并利用此数据源训练可解释性模型,将融合LIME算法的数据故事化方法应用到图像分类的结果解释中。[结果]以“虎斑猫”图为分析对象,基于LIME解释结果及故事化发展曲线,可判断出影响预测结果的重要特征为M型斑纹、黑色眼睛、粉鼻子,关键超像素数量为2。[局限]特征识别最优化、数据故事自动化生成问题有待解决。[结论]LIME相关算法应用于数据故事化流程,有助于将模型预测及解释结果转化为可解释性故事,从而更好地传达数据分析结果。 

基于多模态大语言模型的关系抽取研究

王震宇;朱学芳;杨睿  《数据分析与知识发现》

出版时间:2024-01-17

摘要:[目的]旨在利用大语言模型生成高质量辅助知识,以提升多模态关系抽取的性能。[方法]通过引入多模态相似度检测模块构建了多模态提示模板,以提示大语言模型将视觉信息和先验知识融入到生成的高质量辅助知识中。将获得的辅助知识与原始文本输入下游文本模型,以实现对实体关系的准确预测。[结果]实验表明,相较于当前最先进的方法,本文的模型在多模态关系抽取数据集MNRE上,准确率和F1值分别提高了4.09%和7.84%。[局限]实验仅基于英文数据集,未考虑其他语言数据集。[结论]通过对比实验和实例研究,验证了所提方法在多模态关系抽取任务中的有效性,为未来在多模态信息抽取任务中应用大语言模型提供了方向。 

基于迁移学习增强的多标签多文档分类模型的补充性问答推荐研究

李莹;李明  《数据分析与知识发现》

出版时间:2024-01-17

摘要:[目的] 针对在线问答社区的问答文档识别和推荐补充性问答,提出一种基于迁移学习增强的多标签多文档分类模型的补充性问答推荐方法。[方法] 提出了新的特征与已有特征一起用于问答补充关系分类,建立了迁移学习增强的多标签多文档分类模型,用于识别和推荐补充性问答。[结果] 在知乎社区真实数据集上三个元任务的实验表明,所提出的推荐方法在精确度、召回率和f-measure上平均提升了48.3%、15.8%和32.5%。[局限] 仅在知乎的健康问答主题应用,未验证在不同平台与不同主题问答中的效果。[结论] 提出的推荐方法能够有效地推荐补充性问答,帮助问答社区用户更加全面的获取问答,促进社区中知识的利用。 

融合知识组织体系的层次化主题挖掘方法研究

于诗睿;李爱花;杨雪梅;李晓瑛;陈逸菲;唐小利  《数据分析与知识发现》

出版时间:2024-01-17

摘要:[目的] 识别某学科领域科技文献数据中蕴含的主要研究主题,并将这些主题组织形成层次结构。[方法]将知识组织体系中的先验知识融入上下文嵌入聚类主题模型,并对知识组织体系中未登录词对应的主题进行分层分类,选择生物医学领域的数据及知识组织体系进行分析。[结果]实现了清晰的主题分层分类,其中PubMedBERT+SK模型的综合性能最优,NPMI,CV,WEPS和WERBO指标分别为0.069,0.617,0.988和0.989,PubMedBERT+KM模型的NPMI指标最优,NPMI, CV,WEPS和WERBO指标分别为0.118,0.570,0.890和0.976。[局限] 医学主题词表层级结构构建的目的与主题识别分层的需求有所不同,导致对领域主题内容的理解与实际有所出入,分层效果欠佳。[结论] 提出的融合知识组织体系的层次化主题挖掘方法通过对主题分层分类,改善主题识别结果的质量。 

融合RF-GA-XGBoost和SHAP的虚假新闻群体互动质量可解释模型

温廷新;白云鹤  《数据分析与知识发现》

出版时间:2024-01-17

摘要:[目的]良性群体互动在虚假新闻传播过程中具有正面引导作用。为充分发挥社交媒体用户群体互动质量对虚假新闻负面影响的抑制作用,准确判定良性互动的成因及其作用方式,提出一种融合RF-GA-XGBoost和SHAP的虚假新闻群体互动质量可解释模型。[方法]以数据集Weibo21中的500篇虚假新闻及7029条评论为研究对象。首先,从评论的内容、形式、情感3个维度综合衡量虚假新闻群体互动质量。其次,从这3个维度依次提取虚假新闻文本特征。接着,采用随机森林的序列前向搜索策略提取虚假新闻文本的最优特征子集,构建基于GA-XGBoost的群体互动质量预测模型,并与LR、SVM和XGBoost等主流机器学习算法进行实验对比。最后,采用SHAP模型对重要特征为群体互动质量带来的影响进行因果解释。[结果]实验结果表明,GA-XGBoost模型的F1-score和AUC值均达到86%以上,选取的6项性能指标均优于其对比模型。此外,虚假新闻文本的内容字符数、词语数量、负面情感词数量等特征是影响虚假新闻社交媒体群体互动质量的重要因素。[局限]本文未进行多特征交互解释分析,同时也未根据时间戳深入挖掘早期高质量群体互动规律。[结论]综上,该可解释预测模型能够准确获得各特征对群体互动质量的影响方式,有利于为社交媒体平台在运营策略和功能设计改进方面提供有效决策支持。 

可解释推荐模型中的可解释性方法研究综述

高广尚  《数据分析与知识发现》

出版时间:2024-01-17

摘要:【目的】从嵌入式和事后处理两个角度分别探讨可解释推荐模型中的可解释性机制。【文献范围】在Google Scholar和CNKI中分别以关键词“explainable recommendation”、“interpretable recommendation”、“explainable AI”、“可解释推荐”进行文献检索,再结合主题筛选,精读并使用追溯法获得可解释性方法研究的代表性文献共61篇。【方法】从嵌入式角度研究推荐的可解释性方法,具体结合知识图谱、深度学习、注意力机制、多任务学习这4个视角进行探讨分析;从事后处理角度研究推荐的可解释性方法,具体结合预定义模板、评论或语句、自然语言生成、强化学习、知识图谱这5个视角进行探讨分析;对所述可解释性方法从逻辑思路、性能特点和局限性三个方面进行详细比较,最后对可解释性研究亟需解决的问题进行展望。【结果】可解释性能够有效地提升推荐系统的说服力,也能够提升用户的使用体验,更是迈向透明和值得信赖的推荐系统的重要一步。【局限】没有深入分析可解释性算法的评价指标。【结论】尽管现有的可解释性方法能在一定程度上满足诸多应用的解释需求,但可以肯定的是,在对话交互式解释、因果解释等研究中仍然面临诸多挑战。 

突发事件情境下社会共识形成机理

安璐;郑雅静  《数据分析与知识发现》

出版时间:2024-01-17

摘要:[目的] 探究突发事件情境下社会共识形成机理,提出识别和度量共识的方法,揭示影响共识形成的重要因素,为相关部门制定有效的信息传播策略、引导舆论演化提供理论与方法支撑。[方法] 以某市烧烤店事件的微博数据为数据源,结合主题模型、情感分析和三元组抽取等方法挖掘用户观点,基于观点一致性和情感一致性计算个体间共识度;采用信息生态理论,从信息人、信息、信息环境等维度构造特征变量,构建共识度预测模型;比较四个机器学习模型性能,使用SHAP对最优模型进行解释。[结果] 结果发现,CatBoost模型的MSE值(1176.9550)和R2值(0.6753)优于其他三个模型;特征重要性排名前五的因素中,受高等教育人群占比、年龄差距、观点坚定者占比与群体共识度呈显著负相关,社交网络结构相似度与群体共识度呈显著正相关,在不同话题上各特征变量的影响方式有所不同。[局限] 社会共识包括群体内共识与群体间共识,本文仅关注不同群体内的共识,后续可进一步探究不同群体间的观点演化以及共识形成机制。[结论] 结合观点一致性和情感一致性提出社会共识的识别与度量方法,基于真实社交媒体数据进行观点挖掘和共识识别,揭示影响社会共识形成的关键因素。 

生成式人工智能环境下用户信息检索式行为研究

王若佳;范科鸣;刘智锋;王继民  《数据分析与知识发现》

出版时间:2024-01-17

摘要:[目的]探索生成式人工智能环境下的用户信息检索式行为特征,揭示生成式人工智能技术在搜索引擎中的适用性及有效性。[方法]采用用户实验与问卷调查的方法获取行为数据,基于Wilcoxon非参数检验、卡方检验等统计方法进行数据分析,对比不同搜索引擎环境下的用户检索行为模式差异。[结果]和传统搜索引擎相比,生成式AI搜索引擎的检索式长度平均增加5.61字符、构造时间延长8.92秒,未在任务描述中出现词数增加1.25个,平移策略与跟随系统策略分别提升至29.3%和12.11%,用户主观满意度提升0.88分。[局限]未探讨检索结果浏览、检索结果使用等更全面的用户检索行为。[结论]生成式AI技术能够赋能搜索引擎,提升用户的检索体验,但也存在认知负荷、可信度低、交互复杂等问题。 

断点回归在政策评估研究中的应用:逻辑、现状与前瞻

杨寓涵;潘虹;唐莉  《数据分析与知识发现》

出版时间:2024-01-17

摘要:[目的]对断点回归设计(RDD)在政策评估领域的经典和前沿研究进行分类综述,对其在我国政策评估的应用前景进行前瞻与讨论。[方法] 综合科睿唯安Web of Science和中国知网CNKI的中英文文献,本文从RDD的基本逻辑出发,甄选断点回归设计在不同政策领域的应用研究开展综述评析。[结果] 分析揭示,继教育、公卫、环境、公共财政等主要应用领域之后,近年来RDD因果推断在国内外科技政策和图书情报领域的政策评估中开始崭露头角。中国学者运用该方法的中文发表已取得较大进展。[局限]断点回归的文献范围有待进一步扩充,与其他政策评估方法的比较分析可进一步深入。[结论] 断点回归方法自提出以来已被大量运用于教育、公共卫生、环境及科技创新等领域的政策评估研究中,未来该方法可增加与准自然实验等其他研究方法的综合研究,扩展断点回归在我国和国际定量政策评估研究的应用分析。 

基于提示微调的科技论文语义评价指标量化方法研究

李西雨;钱力;张智雄  《数据分析与知识发现》

出版时间:2024-01-16

摘要:[目的]基于大语言模型实现科技论文语义评价指标的自动量化打分,支撑科技文献语义评价研究。[方法] 从科技论文中抽取与评价指标相关的语步句,设计标准、简化、详细三种不同详尽程度的提示词,横向对比提示词效果,利用少量标注样本微调大语言模型,得到科技论文语义评价指标量化模型。[结果]以语义评价指标“实验条件的苛刻程度”为例,提示微调大语言模型。基于详细提示词微调的大语言模型取得最好效果,在训练样本数为100时,micro-acc和fuzzy-acc分别达到0.72和0.87。[局限]仅选取了计算机领域科技论文进行实验,未考察本方法在不同学科上的效果差异 。[结论] 基于提示微调大语言模型的指标量化方法具有较高的精确度和可靠性。提高提示词的详尽程度可明显提升量化效果。此外,增加微调阶段的样本数虽可提升总体效果,但不同得分段的提升程度存在差异。 

面向综述论文的语义情报内容挖掘方法研究

胡懋地;于倩倩;钱力;常志军;张智雄  《数据分析与知识发现》

出版时间:2024-01-16

摘要:[目的]为充分挖掘综述论文的语义情报内容,提出了相关情报要素体系及其挖掘任务的形式化定义,并构建了相应的信息抽取技术框架。[方法]针对综述论文专业性强、术语分布稀疏、标注难度大等问题,通过多任务学习实现了跨任务标注数据的信息互补,并引入自监督学习实现了未标注数据中潜在信息的挖掘利用。[结果]所提出的技术框架显著增强了各项任务的性能表现,尤其是在要素间关系识别任务中,准确率提高了18.3%。此外,通过自监督学习,整体F1值进一步提升了3.8%。[局限]在信息抽取过程中,未考虑图片、表格等文本之外的数据。[结论]提出了综述论文语义情报内容挖掘的方法流程,构建了挖掘对象的规范化体系定义,并引入了多任务学习和自监督学习等模型技术,实现了跨任务标注数据及未标注数据的有效利用。 

融合部首信息的古汉语自动分词与词性标注一体化分析

常博林;袁义国;李斌;许智星;冯敏萱;王东波  《数据分析与知识发现》

出版时间:2024-01-09

摘要:[目的]针对现有古汉语自动分词与词性标注技术存在的准确度不高、效率不高的问题,提出了一种融合部首信息的古汉语自动分词与词性标注一体化模型。[方法]基于7万余条汉字及其部首的数据,构建了部首向量表示模型Radical2Vector。将这一模型与古汉语文本表示模型SikuRoBERTa相结合,拼接BiLSTM-CRF模型作为实验的模型结构。同时,设计了分词与词性双层标注方案,并在《左传》数据集上进行了自动分词与词性标注一体化实验。[结果]模型在《左传》测试集上,分词任务的F1值达到了95.75%,词性标注任务的F1值达到了91.65%,相比基线模型分别提高了8.71%和13.88%。[局限]实验仅融合了每个汉字的单个部首信息,汉字的其他部件信息有待进一步利用。[结论]本文提出的模型成功地将汉字部首信息融入,有效提升了古汉语文本的表示质量。这一模型在分词与词性标注任务上表现出色,同时,一体化的方案也提升了处理的效率与质量。 

全球碳中和战略行动政策量化评价与前沿发展趋势研究

汤匀;李岚春;岳芳;胡何欣;柯旺松;陈伟  《数据分析与知识发现》

出版时间:2024-01-04

摘要:[目的]科学量化评价主要发达国家/地区碳中和战略政策,推动我国碳达峰碳中和政策的制定与工作部署。[方法]深度挖掘全球主要发达国家/地区碳中和战略行动政策,优化政策量化PMC指数模型,并以Web of Science核心数据库为文献来源考察碳中和相关技术演化路径,探讨全球碳中和战略行动特点与发展趋势。[结果]日本在2021年更新颁布的“2050碳中和绿色增长战略”内容制定最为全面。碳中和领域相关学科和技术发展趋势具有交叉性和多边合作性,我国中国科学院和清华大学占据全球机构合作网络关键枢纽。[局限]研究方法属于传统技术手段优化;研究对象仅针对主要发达国家/地区。[结论]今后我国在制定碳中和战略行动政策时需从国家层面出发,联合尽可能多的领域机构参与研讨,充分利用新兴科研技术,加强全球人才交流与合作,有利支撑我国能源清洁转型,加快实现“双碳”目标。 

01

2024年1月召开的会议

参会 | 第三届全国“双高计划”质量建设与评价论坛会议通知(1.12-14,广东佛山)

参会 | 国际顶刊发表经验交流研讨会(1.26,线上)

01

2024年1月截稿的会议

征文 | 第十六届数字图像处理国际会议(ICDIP 2024)征稿啦!(2024.1.30截稿)征文 | 第七届通信工程与技术国际会议征文(1.20截稿)征文|ISIC 2024会议召开及其征文事项(2024年1月初截稿)征稿|第十届信息管理国际会议(ICIM 2024)最后征稿!(1.20截稿)征文 | 第七届计算和通信技术国际会议( WCCCT 2024 )诚邀投稿(1.15,截稿)

02

2024年2月截稿的会议

参会 | EEKE-AII2024会议征稿通知(2024.2.29截稿)征文|2024年第七届知识管理系统国际会议征稿(2024.2.10截稿)

如果您有特定的需求,或者有会议信息投稿,合作意向,请联系我们

(58605025@qq.com)