admin管理员组

文章数量:1663672

​众所周知,在搜索引擎领域,无论你是用户还是内容生产者,搜索引擎的结果排序对你来说都是至关重要的。对于用户而言,一个好的排序会给你一个非常好的搜索体感,你无需查看更多结果就能找到你的答案。对于内容生产者而言,无论是大搜还是垂搜,排序结果的好坏直接影响你内容的流量和点击。调查显示,搜索引擎结果的点击主要集中在top10的结果中, 可以参考下图:

从上图可看到,第一页top10的总点击率是57%,也就是说43%的用户要么往后面翻页,要么什么也没点击。这也是为什么企业争相做SEO的原因,这也是为什么会衍生出搜索引擎的竞价排名机制的原因,如下图。那么今天我们就来讲讲搜索排序是如何实现。

搜索结果排序是搜索引擎最核心的部分,之前我们说过召回决定了搜索引擎质量的上限,而排序算法则是最大限度的拟合这个上限。

评估用户输入的query与引擎中的内容doc的相关性大小,这依赖于搜索引擎所采用的的检索模型。检索排序从信息检索学科建立之初就一直是研究重点,发展至今,已经有了很多较为成熟的模型。按照搜索排序的流程分为,召回粗排,精排层和重排序,重排序阶段主要考虑到相关业务诉求和多样性要求,偏业务端,所以本文只介绍召回粗排和精排模型。

召回粗排模型

【布尔模型】

检索模型中最简单的一种,其数学基础是集合论。在布尔模型中,query和文档doc的相关性通过布尔代数运算来判定。布尔代数运算也就是所谓的"与/或/非",“and/or/not”,通过这些逻辑连接词将用户的查询词串联作为用户需求的表达。


【向量空间模型】

向量空间模型最初由信息检索领域奠基人Salton教授提出,经过信息检索学科多年的探索,目前已经是非常基础并且成熟的检索模型了。向量空间模型把用户的query和每一个文档doc都表示成t维特征组成的

本文标签: 算法搜索引擎