您的位置 首页 > 德语词汇

智能搜索引擎的是什么意思、读音,浅议知识智能搜索引擎系统

各位老铁们好,相信很多人对智能搜索引擎的是什么意思、读音都不是特别的了解,因此呢,今天就来为大家分享下关于智能搜索引擎的是什么意思、读音以及浅议知识智能搜索引擎系统的问题知识,还望可以帮助大家,解决大家的一些困惑,下面一起来看看吧!

摘要:智能搜索引擎是结合了人工智能技术的新一代搜索引擎。它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。智能搜索引擎具有信息服务的智能化、人性化特征,允许网民采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务,是目前企业大量使用的知识搜索系统。

智能搜索引擎的是什么意思、读音,浅议知识智能搜索引擎系统

关键字:知识智能知识搜索引擎功能分词效果

一、知识智能搜索引擎系统信息表

知识搜索引擎(Knowledgesearchengine)是知识管理的一种实现理念与工具,承担了"知识汇聚、知识发现、知识分类、知识聚类、知识门户的构建",通过搜索引擎技术完成知识管理的使命。智能搜索引擎是结合了人工智能技术的新一代搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。智能搜索引擎具有信息服务的智能化、人性化特征,允许网民采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务。以下介绍北京深蓝海域科技有限公司开发的之知识智能搜索引擎信息汇总表。

二、智能搜索引擎背景

我们拥有众多IT系统,系统中存储大量数据、信息,输数据结构复杂,每个系统都拥有简单的“数据库检索”功能,但常常出现,找不到、找不准、找不全,速度慢等问题。如何让每个系统可以快速实现全文搜索引擎,快速定位信息呢?

传统的搜索引擎对要检索的信息仅仅采用机械的关键词匹配来实现,缺乏知识处理能力和理解能力,搜索引擎无法处理在用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等。

针对以上企业面临的困难,北京深蓝海域信息科技有限公司(深蓝海域)结合人工智能技术的智能搜索引擎把信息检索从目前基于关键词层面提高到基于知识(或概念)层面,开发了知识智能搜索引擎。

三、智能搜索引擎架构及功能

深蓝海域知识智能搜索引擎系统是一款拥有自主知识产权的搜索引擎产品,并取得了国家颁发的软件著作权(登记号:0263812)

搜索引擎具备快速、准确、符合搜索条件等特点,能够帮助使用者快速定位查找各种类型、格式的知识。广泛应用于各大银行系统中,为客户提供稳定、快速、准确的知识搜索服务

3.1系统架构图

CICADA云搜索引擎,可针对多个IT系统分别建立多个索引的机制,实现统一的企业级全文搜索,也可提供各IT系统单独的搜索。

采用hadoop集群技术,处理海量大数据,避免各个系统各自维护一个复杂的全文检索功能,体现应用的云化、服务化

全文搜索、正文搜索、附件搜索、标题搜索、高级搜索、个性化搜索、既时搜索、多关键词组合、搜索纠错、联想词、同义词、拼音识别、公式搜索

搜索高亮、热门搜索、相关搜索、二次搜索、个性化筛选、定位搜索、搜索结果聚类、主题聚类、关联挖掘、分类筛选

多数据源索引、文本解析器、即时增量索引、数据权重算法、跨库索引、爬虫采集、索引分词机制、全量索引

切词机制、人工干预、打分机制、用户行为、数据权重

用户位置、用户身份、用户权限、用户搜词、用户点击、用户互动、热词统计、误差统计、行为统计、词库管理、集成接口、开发接口

数据库、文档、知识库、业务系统、互联网

3.3全文搜索引擎功能介绍

3.3.1全文搜索技术:

KMPRO搜索引擎是和百度、谷歌相同的全文搜索技术,可以同时搜索知识文档的标题、正文、摘要以及附件中的关键词。

为了满足企业用户的使用,KMPRO搜索引擎除了可以使用全文搜索外,还可以只搜索标题、正文、摘要、附件的任意一项,以帮助用户准确定位所需知识点3.3.2高级搜索:

为了帮助用户进行精确定位,以及进行知识点旧版本查看。用户可以在搜索引擎右侧点击高级搜索,在高级搜索中,用户可以同时为标题、正文、附件、摘要添加搜索条

并且用户还可以在高级搜索中选择版本搜索范围,以搜索知识文档旧版

3.3.3综合打分排序机制

KMPRO搜索引擎的搜索结果是根据关键词命中位置、关键词命中个数文档质量度、关键词质量度、人工干预,五大元素进行综合打分排序。为了帮助用户能够根据特点情况选择排序方式,我们增加了根据更新时间、以及点击量进行排序,用户可以根据业务场景自行选择排序方式。

3.3.4精确定位-二次搜索

为了帮助用户精确定位所需知识点用户在搜索关键词,搜索文档较多时,不需要进行翻页查找。可以直接通过二次搜索框,进行关键词二次筛选,将第一关键词搜索出的知识点进行二次筛选

3.3.5精确定位-条件筛选

用户在进行二次搜索后,如果搜索结果文档,依然过多不方便进行快递查找,还可以通过条件筛选进行快速定位。如:添加分类条件、添加时间条件、添加同义词条件等,以帮助用户进行精确定位所需知识点

3.3.6针对英文和数字搜索的特别规则:

1、系统特别支持英文和数字切词时按照3个字母或3个数字一组进行切词;

2、基于这样的技术,您可以在无法记全单词、或数串的时候,只需输入连续3个及以上字符,包含该三个字符的更长英文或数串可以被搜索出来。例如

搜索“project”需要至少输入pro或roj或ect等即可搜索出来)

该规则也支持搜索一串数字中的连续三个或以上数字,部分命中匹配该串数字。(例如:想搜索“1326439”需要至少输入132或264等)

但是,特别注意:如果想利用英文字母和数字的“部分命中匹配”规则进行组合搜索,则必须让英文字母和数字与其他搜索词用空格分隔,不支持三个字母或三个数字直接+中文或其他搜索词的模式。(例如华东pro,可以搜索出华东project,但华东pro,不可以)

3.3.7关键词质量度

目的是找到这篇文档里“最重要”的词,在AI和搜索领域,我们使用TF-IDF计算法来计算词的重要度。

其核心思想是:TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。

1、如果某个词在整个库里比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特征。

2、如果某个词在整个库里比较多见,在本文中也很多件,那么它的重要度就不高了,这个词就比较普通。

假设以《中国的蜜蜂养殖》为例,假定该文长度为1000个词,"中国"、"蜜蜂"、"养殖"各出现20次,则这三个词的"词频"(TF)都为0.02。

假定中文网页库有250亿文章,包含"中国"的网页共有62.3亿张,包含"蜜蜂"的网页为0.484亿张,包含"养殖"的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF如下:

从上表可见,"蜜蜂"的TF-IDF值最高,"养殖"其次,"中国"最低。

3.3.8语义模型处理

3.3.9构造建立索引

支持数据库、文件、邮件、ftp等多种数据源接入

支持MS、WPS、PDF、TXT、ZIP等,以及图片、音视频元数据等几十种格式。

支持增量索引、全量索引、即时索引等机制

索引缓冲区索引块合并机制,解决索引写入瓶颈。

四、智能搜索引擎分词机制

独创智能三轮分词机制,解决查准、查全的矛盾。

支持专业词库、同义词库维护模式

分词粒度可以进行多种配置选择。

如果搜索的词在词库中已被添加为专业词,则默认被分成一个整词。此时,搜索引擎会认为用户是在找含有这个整词的知识,而不会把只包含整词中部分“单词”或“字”的知识查找出来。

例如:如果词库中已有“知识库”这个词,那用户搜索“知识库”会分词为”知识库“这个整词,而不会被分为”知识“、”库“;当搜”知识库“时,系统认为是在找”知识库“,而不是找”知识“和”库“,所以单独含有知识和库的文章不会出现。

无论中文、数字、英文,词与词之间有空格默认都是将输入的搜索内容进行了人为分词;

例如:当用户输入“知识库”,这个搜索意图是,搜索包含“知识”和“库”,两个词的结果,而不是要搜索“知识库”一个词。

特殊字符若出现在两组中文、英文、数字中间,默认被替换为空格,仍然以输入的搜索对象进行分词,分词结果遵循命中和排序规则;

例如:输入Indo-European,自动将连接符-改为空格,分为IndoEuropean两个词进行搜索。

如果搜索词是数字+英文或英文+数字不加空格,搜索对象分别分词,分词结果遵循连续完全命中和75%命中规则;

例如:123IPhone和IPhone123均分为123和iPhone;命中iPhone和123均出现结果,命中123的更长数字组合不出现在结果

数字或英文空格或与中文相接的分词规则

对于一个英文单词或一串数字,只要前后出现空格或中文字,就视为一个词;

例如:Iamhappy这其中,都用空格分开,则每个单词视为一个分词。我的英文名字是leo,来自Peking。这样的行文,前后有中文,也视为一个英文单词。我今年20岁,我的手机号是13901234567请记好。这其中,20和13901234567,都会被独立分为两个词。

用户在搜索关键词后系统会基于系统用户热搜关键词进行关键词推送联想

用户在输入拼音后搜索引擎会自动识别可能的关键词,给到用户进行推送选择

五、搜索引擎在企业中的应用及效果评价

企业搜索引擎目前广泛应用于上市企业、集团性企业、金融性企业。满足了大部分公司在企业使用上的需求。提升了企业运营效率,节省企业人力资源,减少管理成本的消耗

从客服部门角度,搜索引擎提升了客服在接打用户电话时的工作效率。在培训考试时的学习效率。为客服部门的发展和建设,提供了长期有效的业务支撑

从企业角度。企业搜索引擎为整合企业支持。留存企业资产,打破企业知识壁垒,提供了强有力的技术支撑。

六、搜索引擎在企业应用中的不足

搜索结果的准确性,智能搜索引擎,由于采取语义分析的方法,直接给出想要的搜索结果。

搜索结果的范围定位准确,由于采用知识(概念)检索技术,明确和缩小了搜索范围,减少对无用信息范围的检索。

搜索结果的综合性,由于采用了知识库,搜索引擎将给用户提供更全面、更综合和更合理的知识框架。

搜索结果的智能性,“智能来自知识”,有综合知识库作为背景,信息检索和导航服务将更智能。

但是,我们也看到智能知识搜索也其局限性。

1、建立理论上完备的知识库是不现实

这是因为人的知识、特别是常识性知识具有“数量”上的浩瀚无际,在“质量”上又有高度的不确定性和模糊性,要建立这样一个知识网络是极端困难的。理论上完备的知识库虽然难以实现,但是我们可以通过降低求解目标的方法,针对具体的搜索引擎需求,建立相应的知识库(或称概念图),这里的知识库是对理论上完整知识库的一种近似,一种局部实现。现实中,企业的知识库建设也难以完备,因此,一定程度上阻碍了智能知识搜索的强大效能的发挥。

2、语义信息处理需要进一步发展

知识智能应建立在对收集信息和搜索请求的理解之上,准确的搜索必须处理语义信息。基于自然语言理解技术的搜索引擎,由于可以同用户使用自然语言交谈,并深刻理解用户的搜索请求,因此查询的结果也更加准确。但是,事实上,我们限制能够处理的是结构化、半结构化的语义和信息,对于非结构化的语义信息处理仍然需要进一步发展。

OK,本文到此结束,希望对大家有所帮助。

本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023