admin管理员组

文章数量:1566222

搜索引擎:指根据一定的策略,运用特定的计算机程序搜集网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户的为用户提供检索服务的系统

元搜索引擎:在统一的用户查询界面与信息反馈的形式下,共享多个独立搜索引擎的资源库为用户提供信息服务的系统
展开表:用表来表达式逻辑提问式,要求能够将提问式中复杂的逻辑运算关系充分体现,每个检索词的检索匹配要求能够精确反映,记录最终的结果应能准确给出

查全率:衡量系统在实施某一检索作业时检出相关文献能力的一种测度指标,是对检索遗漏程度的度量
查全率=检出的相关文献量/检索系统中的相关文献总量

**布尔检索:**利用运算符连接各个检索词,通过由计算机进行相应逻辑运算,以找出所需信息的方法
布尔运算符:AND,OR,NOT

文档与用户需求之间的匹配(比对)关系指的是什么: 相关性:关系,直觉的,多维的,动态的

对检索噪音程度的度量: 查准率:衡量系统在实施某一检索作业时检出相关文献能力的一种测度指标,是对检索遗漏程度的度量。查准率 = 检出的相关文献量/检索系统中的相关文献总量

什么是多引擎同步检索系统 是在一个WWW页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引擎同时搜索,多引擎同步检索系统无自建数据库,不需研发支持技术,也不能控制和优化检索结果。但多引擎同步检索系统制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新

支持自然语言搜索的搜索引擎大致情况 从目前关键词层面提高到基于知识层面,对知识有一定的理解和处理能力,这种搜索引擎更加智能化,人性化
特征:1.搜索信息准确,2.搜索智能化,3.信息服务个性化 技术:1.智能代理技术,2.web挖掘技术,3.自然语言理解技术,4.分布式并行计算技术

波特算法: 是利用后缀列表来删除后缀,思想是对文本中单词的后缀应用一系列的规则

哪个搜索引擎不可配置不可定制

在实现分词的过程中,哪个算法和有向图搜索最长路径比较相似: 最少匹配算法:控制首先要对所选的语料进行分段,然后,逐渐计算最短路径,得到若干个分词结果,最后进行统计排歧,确定最理想的分词结果

加权检索的分类有哪些: 根据用户的检索需求来确定检索词,并根据每个词在检索要求中的重要程度不同,分别给予一定的数值加于区分,同时利用给出的检索命中界限值限定检索结果的输出。检索词加权搜索,词频加权搜索,标引加权搜索

深度优先和广度优先在这方面有什么特点: 深:尽量往最远的地方走,直到不能走为止
广:层次遍历,距离不断增大,不需要记录上次爬行的分支节点,不需要加深,越深重要性越低,网页路径很多,总有一条最短的,适合分布式处理

判断一个检索系统的优劣有哪些指标 :有效性,查全率,查准率,其他指标

中文分词算法和中文分词的方式有哪些: 算法:最大匹配法,逆向最大匹配法,双向匹配法,最少匹配法,网格分词匹配 方式:单字切分,二分法,词库分词

网页爬取的东西,我们对他们的处理方式是什么样的: 关键词提取,重复或转载网页消除,链接分析,网页重要程度计算

搜索引擎的构成和体系结构: 搜索器(网络蜘蛛,内容提取,定期更新策略),索引器,检索器,用户接口

超文本检索: 将文本,声音,图像等多媒体数据的内容信息分隔为若干可独立利用的结点,结点间以链路相连接,构成网状层次结构,检索由指令激活某一结点,通过链路查询所有相关信息

**多媒体信息检索 :**根据用户的要求,对图形图像,文本,声音,动画等多媒体信息进行检索

搜索引擎的发展趋势,原理,发展阶段,功能,关键技术: 发展趋势:自然语言检索技术,目录与关键词检索相结合,智能化与个性化检索技术,多媒体检索技术,本地化检索技术,交叉语言检索技术,分布式体系结构,检索结果处理技术 **原理:**从互联网上抓取网页,建立索引数据库,在索引数据库中搜索排序,对搜索结果进行处理和排序
**发展阶段:**第一代(集中式检索),第二代(分布式检索)第三代(索引数据库规模增大,出现主题搜索和地域搜索,检索结果相关度评价成为焦点)
**关键技术:**信息收集和存储技术,信息预处理技术(关键词提取,重复或转载网页的消除,链接分析,网页重要程度的计算),信息索引技术(信息语词切分和语词词法分析,进行词性标注及相关的自然语言处理,建立检索项索引,检索结果处理技术)

新出现的搜索引擎各自有什么特点: 纯净(利用他人现有的索引数据库,关注索引)元(提交多个独立的,再集中处理)集成(多引擎同时搜索制作维护简单,可随时进行调整和更新)垂直(针对某一领域,具有行业色彩)

**个性搜索引擎系统包括哪些模块 :**用户代理模块,查询拓展,独立搜索引擎接口,信息过滤,结果反馈,数据库

元搜索引擎比起普通搜索引擎的优势在哪: 技术重心在于查询前的处理和结果的集成,信息覆盖面广,搜索结果权威性和可靠性,易维护性

真正意义上的搜索引擎指的是哪一类: 全文搜索引擎:都是通过从互联网上提取的各个网站的信息而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,优点(全文搜索,检索功能强,信息更新速度快,但重复较多,命中率低)

元搜索引擎的基本构成和分类: 构成:请求提交代理,检索接口代理,结果显示代理 分类:数据处理(并行处理式,串行处理式),功能(多线索式搜索引擎,All-in-one式搜索引擎)运行(在线搜索引擎,桌面搜索引擎)元搜索引擎(简单元搜索引擎,复杂元搜索引擎(桌面型,基于web的))

本文标签: 考题搜索引擎