网络自动答疑系统 联系客服

发布时间 : 星期一 文章网络自动答疑系统更新完毕开始阅读412aa48b4b73f242336c5fff

目 录

摘要 ???????????????????????????????? 1 英文摘要 ?????????????????????????????? 1 1 引言 ?????????????????????????????? 2

1.1 答疑系统的研究历史 ????????????????????? 2 1.2 答疑系统的现状 ??????????????????????? 3 1.2.1 国内外答疑系统的研究 ??????????????????? 3 1.2.2 答疑系统存在的问题 ???????????????????? 4 1.3 答疑系统的发展趋势 ????????????????????? 5 2 自动答疑系统的相关技术介绍和分析 ???????????????? 6

2.1 Lucene全文检索引擎 ????????????????????? 6 2.2 Tomcat应用服务器 ?????????????????????? 8 2.3 MyEclipse的应用 ?????????????????????? 10 2.3.1 在MyEclipse中配置Tomcat ?????????????????10 2.3.2 创建Web工程 ??????????????????????? 11 3 自动答疑系统的设计 ??????????????????????? 12

3.1 中文分词算法 ???????????????????????? 12 3.1.1 关于正向最大匹配算法 ??????????????????? 13 3.1.2 分词歧义的处理 ?????????????????????? 15 3.2 相似度的计算 ????????????????????????16 3.3 数据库的设计 ??????????????????????? 20 3.3.1 数据库设计的总体思想 ??????????????????? 20 3.3.2 数据库的建立 ??????????????????????? 20 3.3.3 数据库的连接????????????????????????22 4 自动答疑系统的实现 ??????????????????????? 23

4.1 系统界面 ??????????????????????????23 4.2 关键功能的相关代码 ?????????????????????25 4.2.1 索引的生成 ???????????????????????? 25 4.2.2 搜索匹配的过程 ?????????????????????? 26 5 总结 ?????????????????????????????? 27 参考文献?????????????????????????????? 29

网络自动答疑系统的设计

网络自动答疑系统的设计

摘要:网络教育的兴起,为素质教育的实施提供了一个崭新的舞台,而自动答疑系统作为网络教育体系中不可或缺的一个重要部分,它的发展和完善也成了计算机领域内的研究热点。本文首先分析了国内外网上自动答疑系统的一些研究现状,再根据网络教育发展中的需求,研究设计出的一个网络自动答疑系统。通过对几种现有的分词算法的分析和评价,本文采用Lucene的二次开发来实现自动答疑功能。然后,在全文检索的基础上,提出一种受限领域自然语言处理的新方法,这种方法绕开了自然语言分词的困扰,采用关键词表中的关键词匹配自然语言文本来获得全文检索的关键词组合,最后实现对自然语言提问的回答。最后,本文使用Java语言编写程序,并用Tomcat作为Web应用服务器构建整个自动答疑系统框架,从而实现了一个完整的自动答疑的设计。

关键词:自动答疑;中文分词;关键词;全文检索;Java

Design of Automatic Answer System Based on

Internet

DING Xue-mao Director:XU Xiao-dan

(Computer Science and Technology, Zhejiang Normal University, No.07220103)

Abstract:During the Internet-based education’s rising,it has offered a brand-new stage for the implementation of quality-oriented education. And the development of the Internet-based Automatic Answer System has been a hotspot in the field of the computer as an important and indispensable part of the Internet-based education.Firstly, this thesis analyzes the research status of Internet-based Automatic Answer System at the home and abroad, and according to the requirement for the internet-based education’s development, study and design the Internet-based Automatic Answer System. After analyzing and estimating of some existing algorithms of participle, There is a method based on Lucene has been put forward to Chinese-based Full Text Research engine in develop local Internet-based Automatic Answer System.Then, this thesis brings forward a new method of natural language processing in limited field on the basis of full text retrivel. The method detourcs difficulties of word segmentation in the natural language processing, and uses the keyword list to mathing the natural language text in order to get the keyword combination, to realize answering the question that is asked with natural language.Lastly, this thesis constructs the framework of Internet-based Automatic Answer System by using Tomcat as a Web application server in Java, so as to carry out the whole system.

Key Words: Internet-based Automatic Answer System; Chinese alogorithms of participle; keyword; full text research; Java;

1 引言

在互联网蓬勃发展的今天,信息化的浪潮波及到我们生活的方方面面,并影响着我

1

网络自动答疑系统的设计

们的学习、生活、生产甚至思维方式。特别是在远程教育逐渐成为计算机网络应用的热点,它使教育资源实现了跨越时间和空间的传递,学生不仅可以从教师那里得到知识,还能从网络上获取广泛而丰富的教学内容,而且,通过电子邮件、系统留言板、BBS聊天室等使学生和教师进行交流和答疑。

但随着网络教育人数的上升和层次的扩展,答疑系统中原有的人工答疑和简单的数据库查询式的答疑智能性不高,逐渐满足不了当前的需求。一方面,学生需要具备一定的抽词能力和逻辑组合能力,这对部分学生的使用造成了一定的困难;另一方面,由于系统缺乏评价学生提问的真正意图的必备信息,就使得系统无法优化再加工系统的问答库,造成查询结果太多而且无顺序,以至于无法适应应用的需求。恰如对老师而言,在教授基础课程时,老师授课任务量大,学生人数多,往往很难找到合适的时间来进行答疑又没有大量时间来进行一对一答疑;对学生而言,在自主学习阶段,遇到问题急需得到解答,却无法与教师进行沟通,因此,自动答疑成为答疑系统发展的必然,自动和智能逐渐成为答疑系统的新趋势。

自动答疑系统即把专业知识领域的一些简单的公式问题和概念性问题以及来自学生们的可能的问题和老师的解答有机地组织起来存放到想要的数据库中,通过自然语言的理解技术来分析并自动匹配学生提出的问题,然后给予问题的解答。因此,自动答疑系统具有一定的智能性,及时性以及针对性。

它既可以作为远程教育系统的一部分,也可以作为独立的运用问答的方式进行教学的系统存在,是一个在某一专业领域,解答学生的疑问,帮助学生快速、准确地找到他们真正需要的信息的网络环境。它可以有效地避免学生在学习过程中花费大量的时间在基本概念的解释上,也保证了学生的疑问在没有老师时得到及时的解答,大大提高了学习质量,也避免了教师对同一问题做出反复解答,有利于提高教学质量,减轻教学负担。同时,相比较于人工答疑系统,它不需要大量的人力资源来实现在线答疑,学生只需要登录页面,提出问题便能由系统马上得到相应的答案,不需要延时等待。

1.1 答疑系统的研究历史

自动答疑系统自二十世纪中期出现以来一直处于快速发展中,这也使其成为计算机领域内的研究热点。

最早的问答系统构想可以回溯到1950年著名的英国数学家图灵在他发表的论文《Computing Machinery and Intelligence》。其中提出了“机器智能”的概念,同时也提到了通过自然语言问答的方式来判断机器是否具有智能的实验方法,也就是如今被成为“图灵测试”的方法,即最早的问答系统模型。

而后,在1961年B.Green等人在美国林肯实验室设计了BASEBALL系统,这个系统是专门为美国橄榄球季后赛而设计的,它把关于橄榄球比赛的相关数据存在底层数据库中,通过对用户问题进行语言学的分析后生成查询并检索底层数据库的结构数据库,最

2

网络自动答疑系统的设计

后得出用户问题的相关答案。与之有同样原理而设计成的还有1963年R.Lindsay开发的SAD-SAM系统,以及1973年Woods等设计的UNAR系统等。它们都有一个共同的特点,那就是面向某个特定的领域,而且因为受限领域的结构化数据库,它们具有一定的局限性,这种构架也由于它在扩展时面临的一系列复杂问题而制约了问答系统的发展。

逐渐,人们开始讲问答系统转向以文本文库为基础。最早的在线文本检索系统是1955年的R.F.Simmons,J.F.Bruger和R.E.Long共同设计开发的以文本信息的存储和检索方式进行运作的PROTOSYNTHEX-I系统。一直到如今,文本检索系统仍然不断得到改进和发展,尤其是在Internet普及后,更为问答系统注入了新鲜血液。

1.2 答疑系统的现状

随着目前网络技术的发展,各种教学网站也应运而生,而自动答疑系统作为一种重要的辅助工具也就越发得受到人们的关注,在国内外也都有迅猛的发展。

1.2.1 国内外答疑系统的研究

在国内,自动答疑系统常见地应用于远程教学平台,而很多远程教学平台只是提供一些简单的答疑方式,并没有专门的答疑系统,比如,让教师和学生通过留言板、BBS、Email、实时聊天等方式来答疑,这种方式大部分靠人工来实现,因此存在很多缺点,像耗费教师时间,答疑经常延时等问题。另外国内也有一些答疑系统采用较复杂技术,实现了自动答疑,克服了以上不足,他们大体上可以分为两类:

(1)基于FAQ库的智能答疑系统

该系统的FAQ库存储了用户可能提出的问答,系统可以根据用户输入的自然语言句子,自动抽取其中的关键词和库中的问题进行关键词匹配,并将最匹配的问题的答案从库中返回给用户。比较典型的就如上海交通大学的远程智能教育中心设计开发的基于Web的自动答疑系统Answer Web。哈尔滨工业大学也开发过基于常见问题库的开放式自动问答系统,而与上述系统不同的是,它考虑了词语的意义,即语义,采用基于语义的句子相似度计算方法来实现问题的答疑,这种答疑方式深入到了词语的语义,其效果比上面的仅仅基于关键词匹配的答疑系统要好些。另外北京理工大学也有类似的系统,它对用户文具进行了更深入的理解分析,将理解结果表示成问句向量,通过本体推理及利用知网计算向量之间的语义相似度等策略完成问题的答案。

(2)基于全文检索的自动答疑系统

该系统主要是利用信息检索技术来实现答疑。它的特点是知识库不是现成的问题答案对,而是相关文档库。对用户所提问题进行自然语言理解后,采用信息检索技术对文档库中的文档进行检索,将文档按与查询的相关度排序输出,最后系统对相关度比较高的文档采用答案抽取技术进行答案抽取后返回给用户。华南理工大学就曾开发过类似的系统。

在国外,教育网站一般都具有较好的交互,答疑功能和反馈机制,也有一些比较成型的能为用户解答不受限领域以及特点领域问题的独立存在的答疑系统。典型的系统有:

(1)START:即Syn Tactic Analysis using Reversuble Transformation,是由麻

3