×

JZSearch语义精准搜索引擎

hqy hqy 发表于2025-02-28 03:44:31 浏览7 评论0百度已收录

抢沙发发表评论

目前人类社会正处于信息革命的加速发展时期,代表着信息革命的互联网技术不断迭代创新。Gartner 2015技术报告显示:人类意图感知技术("People-Literate Technology")以及自然语言问答(“Natural Language Questioning and Answering ”)成为了技术发展的必然趋势,以谷歌、百度为代表的通用搜索引擎远不能感知人类查询的真正意图,缺乏应对大

据时代信息专业化、知识化、智能化的需求与挑战。

在此背景下,JZSearch语义精准搜索引擎应运而生。JZSearch语义精准搜索引擎是针对大数据垂直搜索需求的全文智能检索引擎,融合了自然语言理解、网络搜索和文本挖掘的技术,通过人机互动、深度机器学习后具有一定的语义推理能力,是结合了人工智能技术的新一代搜索引擎。JZSearch将信息检索从当下的关键词粒度提升为知识概念粒度,引用NLPIR-ICTCLAS汉语分词技术、在线搜索聚类技术、概念发现、关键词提取等关键技术。对知识有一定的理解与处理分析能力,JZSearch搜索服务具备智能化、个性化与专业化特点。

语义本体的展示图

下面详细绍下JZSearch语义精准搜索引擎

JZSearch语义精准搜索引擎由北理工副教授张华平博士精心设计,经过多年的创新开发,该引擎拥有自然语言问答式查询、精准的问答知识推送、大数据搜索挖掘、语义搜索时光机、新概念知识发现、实体大数据聚类等功能,实现了智能搜索替代信息检索,给客户提供更加精准的信息内容。

1.人机自然语言问答式查询

在搜索框输入你要查询的问题,搜索引擎通过人机互动、自然语言理解,对你输入的内容进行语义分析,读懂你的问题,提炼出问题主体,对搜索结果进行去重并推送精准结果。

如: 刘振亚的老家在哪?

搜索引擎经过机器对自然语言的理解直接分析出你询问对象的主体是“刘振亚”然后搜索挖掘出精准答案推送给你。如下图

1.搜索结果在线主题聚类

搜索结果在线主题聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,自动为该类生成标题和主题词并统计出文章数。例如对“刘振亚”相关的文本进行聚类分类。并展示了与问题主题关联的其他主体结果。

另外,在此基础上JZSearch语义精准搜索引擎可进行多字段关联搜索,点击聚类结果下面主题列表中“特高压”,搜索引擎就会对“特高压”与“刘振亚”两个字符串进行语义分析并对结果给予知识呈现。由此引申不断迭代,实现对原问题的融合延伸理解。

此类功能适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。JZSearch语义精准搜索引擎基于文章集合核心语义理解技术,不仅聚类速度快,而且准确率高,可进行非结构化与结构化字段的关联搜索,支持指定字段的搜索,也可以搜索多个字段,以及复杂表达式的综合搜索,并能自动得到类别间的演化趋势。

3.精准的语义知识问答

搜索引擎在语义深度理解的基础上,并从数据库中通过深度语义算法算出与主题相关的信息,去除冗余、提取扼要信息,从而推送给客户一段精准的答案;此结果体现了传统搜索引擎为你“寻找”转变为为你“回答”的智能化搜索升级。例如“UHV是什么”如下结果

4.搜索主题时光机技术

语义搜索引擎通过语义分析,关键词提取,获取问题主体就时间变化的可视化图谱。此功能是根据时间轴通过文本的语义分析给出一个时序性动态的主题展示结果。右侧为说明,左侧为结果图片展示。如下图,红色框内是搜索引擎对刘振亚2007年到2015年相关信息的搜索挖掘基于语义分析并呈现动态可视化的知识推送。

5.搜索结果在线的大数据挖掘分析

搜索引擎在问题语义理解的基础上通过聚类技术对与主题相关文章进行聚类并统计出文章数量。每篇文章通过实体抽取、关键词提取等标注出文章来源、版块、发布时间、作者及这篇文章的关键词。

6. 新概念知识发现

在对问题主题相关文本深度语义分析的基础上,采用交叉信息熵计算每个候选词的上下文条件熵,识别出词库中没有出现过的词汇、短语、命名实体、流行用语。

7.实体大数据聚类

搜索引擎采用了实体抽取系统能够智能识别出文本中出现的人名、地名、机构名、媒体、作者及文章的主题关键词,这是对语言规律的深入理解和预测。而且其所提炼出的词语不需要在词典库中事先存在。另外,本功能统计出与实体相关的文章数量。下图红框内相关人物聚类中显示与搜索问题相关的人物及文章数,如习近平的是61篇,李克强的是22篇。相关作者聚类中显示与问题搜索挖掘的文章作者及文章数,如姚雷是295篇,陶思瑶是108篇。

8.语义本体功能

ZSearch语义精准搜索引擎通过实体抽取功能,在数据库中搜索挖掘出其中实体,规定各实体之间的关系类别,通过交叉信息熵计算每个实体的关联关系,从而建立整理的实体关系展示图谱。如下图,搜索引擎抽取出电力行业的实体概念,通过规定核心概念 用项 代项 分项 属项 族项 参项这六项关系,采用一定算法建立实体之间的关系,从而建立整个实体的关系关联展示图。

小结:

JZSearch语义搜索引擎是是以张华平博士为首的开发团队,基于对自然语言理解的技术优势,针对大数据搜索业务需求而打造的一套搜索引擎。该平台通过人机互动实现了机器对自然语言的“智能理解”。该平台具有了一定的推理和判断能力且能够实现垂直领域专业知识的不断融合,从而帮助客户完成大部分的语义分析工作,实现了智能搜索替代信息检索,给客户提供真正更加精准的信息内容。JZSearch语义搜索引擎是一个能理解自然语言的智能搜素引擎。