中国科学院大学现代信息检索2013年试题 联系客服

发布时间 : 星期三 文章中国科学院大学现代信息检索2013年试题更新完毕开始阅读6df63f1a33d4b14e84246842

信息检索13年试题汇总

一、判断题(2分*15题)

1、查询和信息需求是完全等价的。()

2、不论对于什么语言来说,词干还原基本上都不会较大规模提高信息检索的效果。() 3、基于跳表的倒排记录表合并不一定比普通倒排表合并要快。() 4、轮排索引通常采用B树来存储。() 5、编辑距离的计算路径有且仅有一条。()

6、索引压缩的唯一目的就是为了节省硬盘空间。() 7、向量空间模型中查询和文档都映射到同一空间。() 8、文档的静态质量得分与查询和文档都相关。()

9、在信息检索的评价当中,宏平均更关注相关结果很多的“大”查询。() 10、BIM概率检索模型当中需要估计2M个参数,其中M是词汇表的大小。() 11、朴素贝叶斯方法青雀预测了文档属于某个类别的概率。() 12、SVM中的核函数就是从原始空间到新空间的映射函数。() 13、HAC层次聚类算法的结果均具有确定性。() 14、PageRank计算是否收敛与初始值设置有关。() 15、原始HITS算法是查询相关的。()

二、选择题(单选或则多选,2分*8题) 1、关于词项和词条,以下叙述正确的是() A)词项可以不是词条 B)词项的数目一般小于词条 C)词项不能是停用词 D)词条不能使用单词的复数形式 2、关于倒排索引,以下叙述正确的是() A)词典部分只能采用二叉树来组织 B)倒排记录表不一定按我呢当ID排序 C)词典所占空间往往地狱倒排记录表空间 D)构建过程一定全部可以在内存中完成 3、关于查询似然模型QLM,一下叙述正确的是:

A)模型计算中只有一种平滑方法 B)经过JM平滑后所有概率参数都大于零 C)计算的是文档的一元模型 D)文档中词项出现次数越多最后的概率参数(看不清) 4、关于信息检索的评价,以下叙述正确的是()

A)正确率和召回率可以同时提高 B)MAP一定代表了用户真实的满意程度 C)NDGG不能基于二值相关度计算 D)任何情况下正确率和召回率都无法精确计算 5、关于特征选择,以下叙述正确的是()

A)只能提高分类效率,不能提高分类效果 B)可以同时提高分类效率和效果 C)效用函数定义了特征对分类的贡献 D)最优的特征数目与具体应用无关 6、关于朴素贝叶斯分类器,以下叙述正确的是()

A)朴素贝叶斯中只有一个条件独立性假设 B)实现时可以采用多项式模型或贝努利模型 C)训练时间是线性的(相对于训练集大小) D)分类时间复杂度是线性的(相对于测试集大小)

7、关于SVM分类器,以下叙述正确的是() A)该分类器不需要训练 B)该分类器通常分类效果不错 C)分类时只和支持向量有关 D)无法处理非线性情况

1 / 3

8、关于HAC聚类算法,以下叙述正确的是() A)聚类结果取决于簇向量相似度定义 B)单连接算法会受离群点影响 C)全连接方法会导致链式问题 D)质心聚类会产生相似度颠倒现象

三、计算题(6分*5题) 1、面对两个正确答案集合分别是Rq1={d1, d2, d3, d4}及Rq2={d2, d4, d6, d7, d8}的查询q1,q2,某个系统A返回的检索结果如表1所示,试计算出该系统对每一查询的P、R、F、P@10、AP等指标,并计算整个系统的MAP指标。请写出计算过程并将最后结果汇总填入表2中(小数点后保留2位即可)。其中AP采用未差值方法。 系统·查询 A·q1 A·q2 返回结果数 20 20 正确结果位置 2-d2;4-d4;10-d1 2-d5;10-d8;12-d9

2、假设某个文档集中包含如下3篇文档:

(1)+d1:This plane model miniatures the airplane (2)+d2:He drafted the model of the atomic warhead (3)+d3:The plane defied the laws of gravity

估计每篇文档的模型时采用的是MLE估计的两个一元模型的混合(参考例12-3),其中一个来自文档而另一个来自文档集,即,

且,混合参

数?=0.8,假定查询q为plane model,请计算并填入下表格。 计算项 d1 d2 d3 Pxx(plane|Md) P(plane|d) Pxx(model|Md) P(model|d) P(q|d) 3、试证明Rocchio分类方法在二类情况下是一个线性分类器,即其分类面可以表示成线性方程。

2 / 3

4、

5、假设有图中三角形和圆形两类数据,某个聚类方法在该数据集上得到的结果如下图所示(聚类方法将左图和右图判定为两类),分别计算该聚类结果的纯度和兰德指数值

左边图:四个三角形,一个圈圈 右边图:四个圈圈,两个三角形

四、应用题(8分*3题)

1、有一个称为“话题发现与跟踪“的任务,其目的是:首先,从一大堆文档中发现可能感兴趣但事先位置的某个话题(比如:近期发生的某个热点话题。话题可以看成一系列文档的集合);然后,用户指定某个感兴趣的话题,对该话题进行长期跟踪。是利用本课程学到的文本聚类和分类技术来实现该任务,给出你的思路的详细步骤(问题到文本聚类或分类问题的映射,文本表示方法、相似度计算方法、聚类分类算法等)。

2、微博记录中用#号来给出所谓的HashTag,比如:#机器学习#豆瓣FM的推荐算法不错。试着在微博搜索过程当中使用这些HashTag,至少给出两种使用方法(注:微博搜索过程包括查询表示、文档表示、排序模型、查询扩展、组相关反馈等等)。

3 / 3