admin管理员组

文章数量:1663675

​你有没有想过,当我们在搜索框中输入关键词时,搜索引擎是如何确定返回哪些内容给你的?搜索引擎底层有一个巨大的索引库,返回的搜索结果跟你输入的关键词又有什么关系?今天我们就来讲讲搜索引擎中的召回。

召回是根据输入的query,能够高效的获取query相关的候选doc集合的过程。相关的doc如果不能被被召回,即使后面的粗排、精排做的再好也是徒劳无功。所以召回对于搜索引擎是非常重要的,决定了搜索引擎质量的上限

本文主要讲解两类召回算法,包含基于词的传统召回基于向量的语义召回

基于词的传统召回

基于词的召回底层实现基于倒排索引,在上一篇《索引技术》我们有讲到过,倒排索引如何建立以及它的索引结构,当用户输入query后,搜索引擎会进行query理解(具体流程可参考《详解query理解》)并分词,得到一个个独立的[Term1、Term2…TermN],根据这些词到倒排索引中进行查找Term所在的文档即完成了召回。拿之前的例子来讲,倒排索引如下:

本文标签: 搜索引擎