全文检索方案 - 图文 联系客服

发布时间 : 星期三 文章全文检索方案 - 图文更新完毕开始阅读94bce8e29fc3d5bbfd0a79563c1ec5da50e2d68c

1.3 全文检索系统功能特点

1.3.1 基本检索功能支持

? 支持跨数据源索引与整合搜索。将分散在File Server上的文件、远程网

站中的网页、群组软件中的资料,以及数据库中的文字与非文字纪录,在一次搜寻条件下,整合搜寻出来。可以对近线数据、在线数据和离线数据分别建立索引库,到时可以通过索引库的选择来控制对哪些性质的数据进行搜索;

? 支持「万用字符(*、?)查询」。使用者可查询部分关键字及*(代表多于

一个字)或?(代表一个字)的组合。例如:输入关键词【Chin*】,会找到【China】、【Chine】、【Chinese】等等。输入关键词【Chin?】,会找到【China】; ? 搜寻条件具有完整的布尔逻辑运算AND、OR、NOT能力,支持复合式

布尔逻辑运算查询,并且可以配合多组左括号\与右括号\作关键词查询优先级的设定,方便查询者输入布尔组合之查询条件;

? 内建「智能型快速响应模式」(Smart cache)机制,可以提供同一种查询

条件之重复使用率,提高系统资源的效益。Cache储存目录记录了Cache档案所要放置的地址,经查询过的资料或画面,第二次再进入时,可重复使用第一次查询结果;

? 支持/多字段 / 多条件检索,提高搜索精确度;单一字段内,支持AND/

OR/ NOT逻辑条件,且支持括号方式来提供条件优先权。多字段条件间,支持AND/OR/NOT逻辑条件;

1.3.2 词索引与查询功能

系统中提供了传统的字索引,但是为提高查询检索的准确度,系统采用自然语言断词机制和灵活的词索引开关,用户可根据需要选择词索引或字索引。具体功能如下:

? 中文句子将透过智能型自动断词技术以达到词索引的效果,自动分析

与断词,并建立词索引; ? 词索引功能通过开关灵活设置;

? 检索字串首先通过自动断词,将其断词结果进行组合检索; ? 提供「词库」编辑器,针对断词用的「词库」进行维护和调整;使中

文切分词更符合使用者的行业特点,提高查询的速度和准确度。 该功能优势如下:

? 提高精确度: 输入「民法」不会找到「人民法院」;

? 更小的索引空间:–通过词索引的方式,索引数据库相对字索引需要更

少的磁盘空间;同样数据量下,检索时需要的Memory更少; ? 检索性能更高:配合高效算法,词索引的搜索性能相对字索引平均高出

3倍以上;

1.3.3 多国语系数据索引与查询

? 系统基于Unicode设计。

? 可支持多国语系(英文、繁简体中文、日文、韩文、Unicode等)混合

的文件的建置与查询。

? 可支持多种编码格式的索引,包含Big5、GB2312、Unicode、UTF-8、

EUC-JP、Shift-JIS,并支持以Unicode同时输入多国语系条件进行搜寻。

KoreanJapaneseSimplifiedChineseTraditionalChinese? 同个数据表或一条数据库记录中可以支持多国语言混排内容; ? 一个索引数据库可以存在多国语言的不同数据;

? 可以输入多国语言的检索条件,并使用AND、OR、NOT逻辑关系; ? 检索结果中可以同时显示多国语言记录;

? 搭配多国语言同义词库,可以通过单一语言条件,得到多国语言检索结

果;

1.3.4 中英文模糊搜索查询功能 ? 内建「中英文容错(Fuzzy)」查询功能。

? 中英文容错功能Fuzzy Search,基于文字特性,很多专有名词及词汇依

情况不同,也许衍生出通用的简称,或是文字次序对调。也有可能因为模糊不明确的意象,使用者希望只需要输入一 个关键词,就能一并查询性质类似或相关之信息。比如:输入「Mobile Network」可查到「Mobile Appliance Network」等特定距离的词句、输入「产业研究」可查到「产业结构研究」、「产业?.研究」等,扩展搜寻的完整性。

1.3.5 近似概念词库辅助查询功能

? 可针对不同的索引库设定同义词组。如设定「电脑 $ Computer $ 计算

机 」为同义词,则使用者可搜索“电脑”时,可同时查到含有“Computer”或“计算机”的信息。

? 内建18万多组中英文同义词组,具有中英文近似概念与同义词检索,

并可提供词库管理工具,使用户可自行修改词库内容。

1.3.6 其他检索功能

? 中文同音辅助查询功能,如输入“网骆”,启动中文同音功能后,可以

搜索出以“网络”为关键字的记录;

? 英文字根 (Stemming) 辅助查询功能,输入“computing”,可以搜索出

以“computer”为关键字的记录;