admin管理员组

文章数量:1567749

2024年7月10日发(作者:)

第一章

搜索引擎是互联网上最重要的应用系统之一,是历史上最大规模的信息集散平台,它

汇聚了人类所拥有知识中的相当部分并提供便捷的访问方式。对于学术界而言,它是重要

的技术研发验证平台;对于经济领域而言,它是能够大量盈利的“生意”。搜索引擎正在帮

助我们更好地理解世界,而搜索引擎自身也在改变我们周围的世界,这正是我们关注搜索

引擎的原因。

第二章

互联网创始人 :范内瓦·布什

万维网创始人 :蒂姆·伯纳斯·李

现代信息检索技术的奠基人 :杰拉德·索尔顿

第一个互联网搜索引擎 :艾伦·埃默特

Yahoo! :杨致远,戴维·费洛

Google :谢尔盖·布林,拉里·佩奇

搜狐 :张朝阳

百度 :李彦宏

第三章

eld方法:首先,确定查询样例集合,抽取最能表示用户信息需求的一部分查询

样例构建一个规模恰当的集合;其次,针对查询样例集合,在搜索系统需要检索的语料库

中寻找对应的答案,即进行正确答案集合的标注;最后,将查询样例集合和语料库输入检

索系统,系统反馈检索结果,再利用评价指标对检索系统结果和正确答案的接近程度进行

评价,给出最终的用数值表示的评价结果。

2.信息检索系统性能评价的四个因素:语料库集合;查询样例集合;正确答案集合;评

价指标。

3.查询样例集合构建的3个原则:

集合构建的真实性:是指构建查询样例集合时需要采用真实的搜索引擎用户查询,也就

是那些能够反映普遍用户的真实信息需求的查询。

代表性:指构建出的查询样例集合要能够反映出搜索引擎用户群体的查询偏好,而不能

只反映少数用户的需求。

信息需求表述的完整性:

导航类:用户检索时具有确定的检索目标页面,目的是查找某个已知存在的页面

资源

信息类:用户检索时没有确定的检索目标页面,目的是查找与某个主题相关的信

本文标签: 集合查询样例检索用户