互联网搜索引擎信息抓取系统开题报告 - 图文 联系客服

发布时间 : 星期三 文章互联网搜索引擎信息抓取系统开题报告 - 图文更新完毕开始阅读60ffca5b192e45361166f557

毕业设计开题报告

附表二

设计题目 学生姓名 专业 选题方向 年级、班级 一、选题的来源、目的、意义和基本内容 课题来源:随着计算机网络技术的飞速发展,互联网已成为海量信息的主要载体,如何有效的利用这些信息,对人们来说是一个巨大的挑战。搜索引擎作为信息检索的工具,现已成为用户访问互联网的入口和指南并受到广大用户的青睐。然而,传统的搜索引擎正面临着网页索引规模、更新速度、个性化需求和查询结果精度低等多方面的严峻挑战。如何有效的针对搜索引擎抓取信息成为了研究的热点。 研究目的:本文的研究目的是研究如何设计一个机遇搜索引擎的信息抓取系统,使得系统能够尽可能多地抓取与特定主题内容相关的网页,同时最大限度地避免无关网页的抓取。 研究意义:随着网络信息的迅速膨胀,WEB的信息量越来越大,现在有的搜索引擎如Google、百度等,都是面向所有的用户,力争在返回结果上做到面面俱到,不是专门为搜索特定领域资料而设计的,然而人们往往需要借助搜索引擎来帮助他们在大量信息中寻找特定领域的资料,比如求职者在百度中搜索“招聘数学教师”,会有部分的数学教师职位,但是结果中很多职位都已经过期,有的甚至是一年前甚至更久的职位信息,对于招聘这样的时效性非常高的信息,百度这样的搜索引擎明显不能满足用户需求。本系统的研究将针对上述的问题开展,并期望对互联网信息抓取研究提供一定的思路。 研究内容:本文对搜索引擎的发展历史及现代搜索引擎的功能结构进行了介绍,并讨论了搜索引擎技术中网页爬行和更新存在的问题,在分析了现有实现技术优劣势的基础上设计了具有高度系统灵活性和扩展性的基于搜索引擎的信息抓取系统,实现了搜索引擎信息的快速抓取。 二、国内外研究综述 赵喜乐,陈光在垂直搜索引擎的抓取系统-基于网络蜘蛛技术一文中提出了基于网络蜘蛛技术的垂直搜索引擎的抓取系统;谢治军在垂直搜索引擎的主题网页抓取策略研究中提出了一种改进的主题网页抓取策略。为了使特征词权重更能代表网页的真实内容,改进了网页预处理后的特征词权重的计算方式,对网页中不同位置的特征词赋予不同的权重。为了提高主题网页抓取的准确率,改进了待爬行队列中URL优先权值的计算方法,综合考虑了隐马尔科夫模型方法和网页内容相关度方法。张晓峰在并行网页抓取系统设计中提出了基于网页链接重要性和路径重要性的启发式搜索算法。上述的研究为网页信息的抓取作出了贡献。 三、参考文献 [1]MurrayBH,MooreA.SizingtheInternet[M].AWhitePaper:Cyveillance,Inc,2000.[2]肖冬梅.垂直搜索引擎研究[J].图书馆学研究,2003(2):87. [4]FitzsimmonsJA,FitzsimmonsMJ.服务管理:运作、战略与信息技术: operations, strategyandinformationtechnology1[M].张金成,范秀成,译.北京:机械工业出版社,2003. [5]陈新颜.垂直搜索引擎辨析[J].现代情报,2004(9):133. [6]黄建莲.中国搜索引擎服务市场的现状及发展[J].华北科技学院学报,2005(9):115 四、毕业设计所使用的方法 (1)调查法 是科学研究中最常用的方法之一。它是有目的、有计划、有系统地搜集有关研究对象现实状况或历史状况的材料的方法。调查方法是科学研究中常用的基本研究方法,它综合运用历史法、观察法等方法以及谈话、问卷、个案研究、测验等科学方式,对教育现象进行有计划的、周密的和系统的了解,并对调查搜集到的大量资料进行分析、综合、比较、归纳,从而为人们提供规律性的知识。调查法中最常用的是问卷调查法,它是以书面提出问题的方式搜集资料的一种研究方法,即调查者就调查项目编制成表式,分发或邮寄给有关人员,请示填写答案,然后回收整理、统计和研究。 (2)观察法 是指研究者根据一定的研究目的、研究提纲或观察表,用自己的感官和辅助工具去直接观察被研究对象,从而获得资料的一种方法。科学的观察具有目的性和计划性、系统性和可重复性。 (3)文献研究法 文献研究法是根据一定的研究目的或课题,通过调查文献来获得资料,从而全面地、正确地了解掌握所要研究问题的一种方法。文献研究法被广泛用于各种学科研究中。 五、指导教师指导意见 指导教师签名: 年 月 日 六、学院毕业设计领导小组审核意见 领导小组组长签名: 年 月 日