60094030764029788 - 互联网上农业信息资源的收集、整理与推广研究 联系客服

发布时间 : 星期三 文章60094030764029788 - 互联网上农业信息资源的收集、整理与推广研究更新完毕开始阅读1772aefb6c175f0e7dd137ec

技术分析与系统设计

Web搜索层搜索引擎数据层数据链路层数据库检索服务器用户层检索界面

图2-8 系统结构

2.6.特征词库

农业主题特征词库非常重要,搜索引擎抓取到的网页要和主题词库里的特征词进行比较,判断网页是否是农业信息类的网站。

因为农业信息的分类方法很多,不同的分类方法可以构造不同的特征词库,在这里,按两种分类方法来设计特征词库。

(1)按农业学科分类

按照中国图书馆分类法中的农业部分分类规则,并结合农业信息的特殊属性,设计如下的分类方法:

表2-3 农业信息的学科分类 大类 1.农业基础科学 2.农学 分支 01农业化学 02土壤与肥料科学 03农业生物学 04农业生态学 05其他 O1无土栽培 02作物生物技术 03有机农业 04其他 21

技术分析与系统设计

3.农作物 4.植物保护 他 5.园艺 Ol粮食作物 02经济作物 03饲料 04其他 Ol作物病害与保护 02农药信息 03生物防治 04其他防治 05其Ol苗圃 02园艺设施 03蔬菜园艺 04瓜果园艺 05花卉园艺 06景观与盆景 07其他 6.畜牧 7.林业 ? Ol动物科学 02动物医学 03其他 Ol林木育种 02森林经营与管理 ? (2)按农业属性分类

信息的属性是指信息内容的基本特征。我们把农业信息分为农业资源类型属性信息、农业机构属性信息、农业区域属性信息3类,类目下可以细分子类目。各类息的具体特征如下:

表2-4农业信息的属性分类

大类 1.农业资源类型 2.机构 它 3.区域信息 ? 01中国 02美国 03加拿大 04英国 05澳大利亚 06日本 07其它 ? 分支 01农业政策管理信息 02农业市场信息 03农业科技信息 04农业数据库 05其他 01政府 02科研单位 03院校 04企业 05媒体 06社会团体 07其按照以上两种分类方法,可以构造每个类别的特征词库。

22

搜索引擎

3. 搜索引擎

在这一章节中,主要基于农业信息搜索这个主题,来构建主题搜索引擎的体系结构。

3.1.体系结构

主题搜索引擎的体系结构如图3-1所示,搜索引擎的核心组件Crawler首先访问用户给定的起始URL,把网页的有效信息从代码中分离出来,然后分析提取其中的URL地址放入待访问URL队列。另一个组件URL任务分配器负责判断Crawler的状态,如果Crawler是工作状态那么URL任务分配器进入等待状态,如果Crawler没有下载线程那么URL任务分配器提取URL队列里的地址并传送给Crawler。Crawler接收URL后访问网页,并将遍历的网页存放到Web数据库。HTML解析器读取数据库中网页的信息,对其进行分析和处理,去除噪声,舍弃HTML代码,提取其中的有用信息,如URL、标题、摘要、文本等信息。网页中的URL被提取出来进行判断,是否已经访问过,如是将被丢弃,如不是将计算URL的重要程度,按优先级别放入URL队列里等待访问。文本分析器对提取的文本信息进行分析处理,去除停用词,提取特征词,用数学模型对特征词建立向量模型,并和特征词库进行主题相关度评价,将相关度高的网页存入数据库,并建立索引,提供快速检索5。

起始URLWebURL队列URL任务分配器CrawlerWeb数据库URL分析器文本分析器农业信息特征词库HTML解析器索引数据库主题相关度评价

图3-1 主题搜索引擎体系结构。

5

沈熙环.林木育种学[M].中国林业出版社,1990,10(2):16-19

23

搜索引擎

3.2. Crawler功能分析

Crawler是主题搜索引擎中最核心的组件,它是搜索引擎中负责遍历和抓取网页的组件。Crawler由几个重要的组成部分:HTTP/HTTPS下载模块、DNS解析器、Robot解析器等部分。其中,DNS解析器的功能是将URL地址转换成IP地址,Robot解析器的功能是检查被访问的主机或网站是不是允许网络爬虫的访问,HTTP/HTTPS下载模块的功能是从URL任务分配器接收URL地址,通过DNS解析器转化为IP地址,访问IP地址,从Robot解析器中判断网页是否能够被访问和下载,如果能下载则将网页信息保存到Web数据库中等待处理。Crawler的系统结构如图3-2所示。

DNS解析器Robot.txt解析器DNS数据库WWWHTTP/HTTPS下载模块Web数据库URL分析器下载模块控制器????多线程URL队列URL任务分配器URL队列图

3-2 Crawler模块的系统结构

3.2.1.HTTP/HTTPS下载模块

HTTP/HTTPS下载模块是多线程模块,可以多个线程同时下载,这样的设计便于并行处理和控制,目的是为了提高爬虫抓取的效率。下载线程的工作流程图如图3-3所示。

24