发布时间 : 星期三 文章全文检索方案 - 图文更新完毕开始阅读94bce8e29fc3d5bbfd0a79563c1ec5da50e2d68c
1.3 全文检索系统功能特点
1.3.1 基本检索功能支持
? 支持跨数据源索引与整合搜索。将分散在File Server上的文件、远程网
站中的网页、群组软件中的资料,以及数据库中的文字与非文字纪录,在一次搜寻条件下,整合搜寻出来。可以对近线数据、在线数据和离线数据分别建立索引库,到时可以通过索引库的选择来控制对哪些性质的数据进行搜索;
? 支持「万用字符(*、?)查询」。使用者可查询部分关键字及*(代表多于
一个字)或?(代表一个字)的组合。例如:输入关键词【Chin*】,会找到【China】、【Chine】、【Chinese】等等。输入关键词【Chin?】,会找到【China】; ? 搜寻条件具有完整的布尔逻辑运算AND、OR、NOT能力,支持复合式
布尔逻辑运算查询,并且可以配合多组左括号\与右括号\作关键词查询优先级的设定,方便查询者输入布尔组合之查询条件;
? 内建「智能型快速响应模式」(Smart cache)机制,可以提供同一种查询
条件之重复使用率,提高系统资源的效益。Cache储存目录记录了Cache档案所要放置的地址,经查询过的资料或画面,第二次再进入时,可重复使用第一次查询结果;
? 支持/多字段 / 多条件检索,提高搜索精确度;单一字段内,支持AND/
OR/ NOT逻辑条件,且支持括号方式来提供条件优先权。多字段条件间,支持AND/OR/NOT逻辑条件;
1.3.2 词索引与查询功能
系统中提供了传统的字索引,但是为提高查询检索的准确度,系统采用自然语言断词机制和灵活的词索引开关,用户可根据需要选择词索引或字索引。具体功能如下:
? 中文句子将透过智能型自动断词技术以达到词索引的效果,自动分析
与断词,并建立词索引; ? 词索引功能通过开关灵活设置;
? 检索字串首先通过自动断词,将其断词结果进行组合检索; ? 提供「词库」编辑器,针对断词用的「词库」进行维护和调整;使中
文切分词更符合使用者的行业特点,提高查询的速度和准确度。 该功能优势如下:
? 提高精确度: 输入「民法」不会找到「人民法院」;
? 更小的索引空间:–通过词索引的方式,索引数据库相对字索引需要更
少的磁盘空间;同样数据量下,检索时需要的Memory更少; ? 检索性能更高:配合高效算法,词索引的搜索性能相对字索引平均高出
3倍以上;
1.3.3 多国语系数据索引与查询
? 系统基于Unicode设计。
? 可支持多国语系(英文、繁简体中文、日文、韩文、Unicode等)混合
的文件的建置与查询。
? 可支持多种编码格式的索引,包含Big5、GB2312、Unicode、UTF-8、
EUC-JP、Shift-JIS,并支持以Unicode同时输入多国语系条件进行搜寻。
KoreanJapaneseSimplifiedChineseTraditionalChinese? 同个数据表或一条数据库记录中可以支持多国语言混排内容; ? 一个索引数据库可以存在多国语言的不同数据;
? 可以输入多国语言的检索条件,并使用AND、OR、NOT逻辑关系; ? 检索结果中可以同时显示多国语言记录;
? 搭配多国语言同义词库,可以通过单一语言条件,得到多国语言检索结
果;
1.3.4 中英文模糊搜索查询功能 ? 内建「中英文容错(Fuzzy)」查询功能。
? 中英文容错功能Fuzzy Search,基于文字特性,很多专有名词及词汇依
情况不同,也许衍生出通用的简称,或是文字次序对调。也有可能因为模糊不明确的意象,使用者希望只需要输入一 个关键词,就能一并查询性质类似或相关之信息。比如:输入「Mobile Network」可查到「Mobile Appliance Network」等特定距离的词句、输入「产业研究」可查到「产业结构研究」、「产业?.研究」等,扩展搜寻的完整性。
1.3.5 近似概念词库辅助查询功能
? 可针对不同的索引库设定同义词组。如设定「电脑 $ Computer $ 计算
机 」为同义词,则使用者可搜索“电脑”时,可同时查到含有“Computer”或“计算机”的信息。
? 内建18万多组中英文同义词组,具有中英文近似概念与同义词检索,
并可提供词库管理工具,使用户可自行修改词库内容。
1.3.6 其他检索功能
? 中文同音辅助查询功能,如输入“网骆”,启动中文同音功能后,可以
搜索出以“网络”为关键字的记录;
? 英文字根 (Stemming) 辅助查询功能,输入“computing”,可以搜索出
以“computer”为关键字的记录;