中国科学院大学现代信息检索2013年试题南京廖华

中国科学院大学现代信息检索2013年试题联系客服

发布时间 : 2024/6/12 15:38:20 星期三文章中国科学院大学现代信息检索2013年试题更新完毕开始阅读6df63f1a33d4b14e84246842

信息检索13年试题汇总

一、判断题（2分*15题）

1、查询和信息需求是完全等价的。（）

2、不论对于什么语言来说，词干还原基本上都不会较大规模提高信息检索的效果。（） 3、基于跳表的倒排记录表合并不一定比普通倒排表合并要快。（） 4、轮排索引通常采用B树来存储。（） 5、编辑距离的计算路径有且仅有一条。（）

6、索引压缩的唯一目的就是为了节省硬盘空间。（） 7、向量空间模型中查询和文档都映射到同一空间。（） 8、文档的静态质量得分与查询和文档都相关。（）

9、在信息检索的评价当中，宏平均更关注相关结果很多的“大”查询。（） 10、BIM概率检索模型当中需要估计2M个参数，其中M是词汇表的大小。（） 11、朴素贝叶斯方法青雀预测了文档属于某个类别的概率。（） 12、SVM中的核函数就是从原始空间到新空间的映射函数。（） 13、HAC层次聚类算法的结果均具有确定性。（） 14、PageRank计算是否收敛与初始值设置有关。（） 15、原始HITS算法是查询相关的。（）

二、选择题（单选或则多选，2分*8题） 1、关于词项和词条，以下叙述正确的是（） A）词项可以不是词条 B）词项的数目一般小于词条 C）词项不能是停用词 D）词条不能使用单词的复数形式 2、关于倒排索引，以下叙述正确的是（） A）词典部分只能采用二叉树来组织 B）倒排记录表不一定按我呢当ID排序 C）词典所占空间往往地狱倒排记录表空间 D）构建过程一定全部可以在内存中完成 3、关于查询似然模型QLM，一下叙述正确的是：

A）模型计算中只有一种平滑方法 B）经过JM平滑后所有概率参数都大于零 C）计算的是文档的一元模型 D）文档中词项出现次数越多最后的概率参数（看不清） 4、关于信息检索的评价，以下叙述正确的是（）

A）正确率和召回率可以同时提高 B）MAP一定代表了用户真实的满意程度 C）NDGG不能基于二值相关度计算 D）任何情况下正确率和召回率都无法精确计算 5、关于特征选择，以下叙述正确的是（）

A）只能提高分类效率，不能提高分类效果 B）可以同时提高分类效率和效果 C）效用函数定义了特征对分类的贡献 D）最优的特征数目与具体应用无关 6、关于朴素贝叶斯分类器，以下叙述正确的是（）

A）朴素贝叶斯中只有一个条件独立性假设 B）实现时可以采用多项式模型或贝努利模型 C）训练时间是线性的（相对于训练集大小） D）分类时间复杂度是线性的（相对于测试集大小）

7、关于SVM分类器，以下叙述正确的是（） A）该分类器不需要训练 B）该分类器通常分类效果不错 C）分类时只和支持向量有关 D）无法处理非线性情况

1 / 3

8、关于HAC聚类算法，以下叙述正确的是（） A）聚类结果取决于簇向量相似度定义 B）单连接算法会受离群点影响 C）全连接方法会导致链式问题 D）质心聚类会产生相似度颠倒现象

三、计算题（6分*5题） 1、面对两个正确答案集合分别是Rq1={d1, d2, d3, d4}及Rq2={d2, d4, d6, d7, d8}的查询q1，q2，某个系统A返回的检索结果如表1所示，试计算出该系统对每一查询的P、R、F、P@10、AP等指标，并计算整个系统的MAP指标。请写出计算过程并将最后结果汇总填入表2中（小数点后保留2位即可）。其中AP采用未差值方法。系统·查询 A·q1 A·q2 返回结果数 20 20 正确结果位置 2-d2；4-d4；10-d1 2-d5；10-d8；12-d9

2、假设某个文档集中包含如下3篇文档：

（1）+d1：This plane model miniatures the airplane （2）+d2：He drafted the model of the atomic warhead （3）+d3：The plane defied the laws of gravity

估计每篇文档的模型时采用的是MLE估计的两个一元模型的混合（参考例12-3），其中一个来自文档而另一个来自文档集，即，

且，混合参

2 / 3

4、

5、假设有图中三角形和圆形两类数据，某个聚类方法在该数据集上得到的结果如下图所示（聚类方法将左图和右图判定为两类），分别计算该聚类结果的纯度和兰德指数值

左边图：四个三角形，一个圈圈右边图：四个圈圈，两个三角形

四、应用题（8分*3题）

1、有一个称为“话题发现与跟踪“的任务，其目的是：首先，从一大堆文档中发现可能感兴趣但事先位置的某个话题（比如：近期发生的某个热点话题。话题可以看成一系列文档的集合）；然后，用户指定某个感兴趣的话题，对该话题进行长期跟踪。是利用本课程学到的文本聚类和分类技术来实现该任务，给出你的思路的详细步骤（问题到文本聚类或分类问题的映射，文本表示方法、相似度计算方法、聚类分类算法等）。

2、微博记录中用#号来给出所谓的HashTag，比如：#机器学习#豆瓣FM的推荐算法不错。试着在微博搜索过程当中使用这些HashTag，至少给出两种使用方法（注：微博搜索过程包括查询表示、文档表示、排序模型、查询扩展、组相关反馈等等）。

3 / 3

Word文档下载：中国科学院大学现代信息检索2013年试题.doc

搜索更多:中国科学院大学现代信息检索2013年试题