搜索引擎学习总结|电子爱好者

admin管理员组
文章数量:1663999

1 搜索引擎的发展史
- 1-1 第一代文本检索
- 1-2第二代连接分析
- 1-3 第三代用户中心
2 搜索引擎基本构成
3 网络爬虫
- 3-1 抓取策略
  - 3-1-1 宽度优先遍历策略 Breath First
  - 3-1-2 非完全PageRank策略 Partial PageRank
  - 3-1-3 OCIP策略 Online Page Importance Computation
  - 3-1-4 大站优先策略 Larger Sites First
- 3-2 网页更新策略
  - 3-2-1 历史参考策略
  - 3-2-2 用户体验策略
  - 3-2-3 聚类抽样策略
- 3-3 暗网抓取 Deep Web Crawling
  - 3-3-1 组合输入
- 3-4 分布式爬虫
  - 3-4-1 主从式分布爬虫 Master-Slave
  - 3-4-2 对等分布式爬虫 Peer to Peer
4 搜索引擎索引
- 4-1 索引基础
  - 4-1-1 单词-文档矩阵
  - 4-1-2 倒排索引基本概念
  - 4-1-3 倒排索引简单实例
- 4-2 单词词典
  - 4-2-1 哈希表链表
  - 4-2-2 树形结构
- 4-3 到排列表 Posting List
- 4-4 建立索引

1) 搜索引擎的发展史

1-1) 第一代：文本检索

1-2)第二代：连接分析

这一代以google的PageRank为最大代表，主要分析链接见得关系

1-3) 第三代：用户中心

这一代主要是分析用户行为，以理解用户为最大目标

2) 搜索引擎基本构成

索引
索引压缩
排序: 最重要的两个因素：
- 搜索的相关性
- 网页内容的重要性
连接分析
反作弊
云存储
爬虫
网页去重
缓存

3) 网络爬虫

互联网页面可以分为5个部分：
* 已下载页面集合
* 过期页面集合
* 待下载页面集合
* 可知页面集合
* 不可知页面集合

爬虫可划分为三类：
* 批量型 (Batch Crawler): 抓取比较明确的范围和目标。
* 增量型 (Incremental Crawler): 不断抓取，及时更新。
* 垂直型 (Focused Crawler): 抓取某个特定主题内容。

3-1) 抓取策略

3-1-1) 宽度优先遍历策略 (Breath First)

3-1-2) 非完全PageRank策略 (Partial PageRank)

就是对已经下载的网页应用PageRank算法，得到需要下载的URL和顺序。

3-1-3) OCIP策略 (Online Page Importance Computation)

OCIP就是在线页面重要性计算，可以看做是PageRank的一种改进算法。在算法开始之前，每个页面都有一个相同的cash值，每当下载一个页面，就把cash值平均分配各页面的中的连接，把自己的cash值清空，然后根据cash的大小排序，形成带抓取的页面。

3-1-4) 大站优先策略 (Larger Sites First)

以网站为抓取单位，大网站优先。

3-2) 网页更新策略

3-2-1) 历史参考策略

该策略建立在：过去频繁更新的网页，以后也会频繁更新，所以为了估计出网页合适更新，可以通过历史更新情况来判断。这种方法通常利用泊松过程对网页变化建模。

3-2-2) 用户体验策略

也就是用户越先看到的网页，越先更新。就是根据网页重要度来更新，因为越重要的网页越排在最前面，而用户搜索一个主题之后，会看的网页结果基本都是前面的。

3-2-3) 聚类抽样策略

把不通的网页分类，然后对每个类别进行采样分析更新频率，通过得到的该频率来设定这一类网页的更新周期。

3-3) 暗网抓取 (Deep Web Crawling)

也就是一般不再连接中的网页或是数据。比如机票查询，酒店信息查询等需要输入查询条件，然后在数据库中组合数据的信息。

3-3-1) 组合输入

Google提出了富含信息查询模板 (Informative Query Templates) 技术。原理：把每一个查询条件作为一个维度，然后一维度一维度的累加查询，只到最后查询出来的内容大多数重复或相同内容，则停止。重复或相似内容越少，则说明包含的信息越丰富，即称为富含信息。
Google的这个算法ISIT，和数据挖掘里面的Apriori很像。

3-4) 分布式爬虫

分布式爬虫一般分为3个层级：
* 分布式数据中心
* 分布式服务器
* 分布式爬虫程序

3-4-1) 主从式分布爬虫 (Master-Slave)

主从分布式爬虫，其中有一台专门负责分配URL连接的服务器，并且处理带抓取URL，以及负责抓取服务器的负载调度。
Google早期就是采用这种架构，但是URL分配服务器容易形成瓶颈。

3-4-2) 对等分布式爬虫 (Peer to Peer)

对等分布式爬虫没有URL分配服务器，每台服务器都是一样的。具体URL分配问题，是通过对域名Hash后取模，然后分配到相应的服务器。（Mercator 爬虫采用次架构）。
为了解决Hash取模的问题，UbiCrawler爬虫提出了一致性哈希方法 (Consistent Hash) 来确定分配工作。

4) 搜索引擎索引

4-1) 索引基础

4-1-1) 单词-文档矩阵

单词-文档矩阵是表达两者之间包含关系的一种概念模型。

搜索引擎索引其实就是单词-文档矩阵的具体数据结构。可以有不通的方法来实现这个，比如倒排索引，签名文件，后缀树等方式。但是各项试验数据显示，倒排索引是最佳实现。

4-1-2) 倒排索引基本概念

倒排索引的一些基本术语：

文档 (Document)
文档集合 (Document Collection)
文档编号 (Document ID)
单词编号 (Word ID)
倒排索引 (Inverted Index): 是实现单词-文档矩阵结构的一种具体形式，主要包含单词词典和倒排文件
单词词典 (Lexicon)
倒排列表 (Posting List)：记录了出现过某个单词的所有文档列表以及单词在该文档中的位置信息，每条记录称为一个倒排项 (Posting).
倒排文件 (Inverted File): 所有单词的到排列表顺序的记录在倒排文件中，这个也是存储倒排索引的物理文件。

4-1-3) 倒排索引简单实例

文档集合：

最简单的到排列表:

带词频的到排列表：

带词频和位置信息的倒排列表：

4-2) 单词词典

单词词典主要未来维护所有出现过的单词和相关信息，以及单词对应的到排列表在倒排文件中的位置。
所以用来构建单词词典的数据结构，查找效率非常重要，一般使用哈希表+链表和树形结构。

4-2-1) 哈希表+链表

4-2-2) 树形结构

4-3) 到排列表 (Posting List)

在实际系统中，不存在实际的文档标号，而是存储文档差值(D-Gap). 这样以便节约空间。

4-4) 建立索引

本文标签：搜索引擎

版权声明：本文标题：搜索引擎学习总结内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1730007735a1218958.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

搜索引擎学习总结

1) 搜索引擎的发展史

1-1) 第一代：文本检索

1-2)第二代：连接分析

1-3) 第三代：用户中心

2) 搜索引擎基本构成

3) 网络爬虫

3-1) 抓取策略

3-1-1) 宽度优先遍历策略 (Breath First)

3-1-2) 非完全PageRank策略 (Partial PageRank)

3-1-3) OCIP策略 (Online Page Importance Computation)

3-1-4) 大站优先策略 (Larger Sites First)

3-2) 网页更新策略

3-2-1) 历史参考策略

3-2-2) 用户体验策略

3-2-3) 聚类抽样策略

3-3) 暗网抓取 (Deep Web Crawling)

3-3-1) 组合输入

3-4) 分布式爬虫

3-4-1) 主从式分布爬虫 (Master-Slave)

3-4-2) 对等分布式爬虫 (Peer to Peer)

4) 搜索引擎索引

4-1) 索引基础

4-1-1) 单词-文档矩阵

4-1-2) 倒排索引基本概念

4-1-3) 倒排索引简单实例

4-2) 单词词典

4-2-1) 哈希表+链表

4-2-2) 树形结构

4-3) 到排列表 (Posting List)

4-4) 建立索引

更多相关文章

C++项目：基于boost在线文档实现的搜索引擎（一）

搜索引擎新架构：与SQL不得不说的故事

修改浏览器搜索引擎：网址应该如何填写

百度谷歌搜索引擎研究，如何做SEO优化？网站优化实操（程序员必看）

谈谈“推荐系统”和“搜索引擎”两者间的关系、和异同点

Django与Elasticsearch交互打造搜索引擎网站（一）

搜索引擎的Query自动纠错技术和架构详解

揭秘阿里自研搜索引擎 Havenask 在线检索服务

搜索引擎简史

2013年国外十大最受欢迎搜索引擎网站

【kali-信息收集】（1.9）Metasploit+搜索引擎工具Shodan

曲奇云盘资源搜索引擎_你不知道的曲奇云盘“黑科技”

搜索引擎开源代码(转)

爬虫&amp;搜索引擎&amp;浏览器

走进搜索引擎 笔记【一】

「搜索引擎」TF-IDF 文档相关度评分

Google Hacking 搜索引擎攻击与防范

实名寻人搜索引擎app_记者网上寻人工具：PeekYou

别一想到搜索就用百度啦，推荐10个常用的垂直搜索引擎

搜索引擎测试报告

发表评论

推荐文章

git提交大文件报错，删除大文件后，还是提交不成功解决办法

selenium 爬取今日头条

wpsmac历史版本_WPS Office 2019 1.2.0（1574） Mac中文正式版

【越南风景&amp;梯田Win7主题】

有哪些适合跑步使用的骨传导耳机？佩戴稳固的五款骨传导耳机推荐

热门文章

php网页播放器源码免费,基于Flowplayer打造一款免费的WEB视频播放器附源码

仿今日头条的新闻资讯系统

微信小程序转换文件的格式，如把图片转为Base64的格式

局域网打印机共享怎么设置_[干货]局域网打印机共享

Android App应用市场功能的框架图

解决报错信息is intended for a different architecture

【十大对策让无线网络不被入侵】

2017影响世界的十大颠覆性技术 | 2018年改变世界的四大技术趋势

腾讯邮箱 新浪邮箱 网易 免费企业邮箱 阿里云万网域名MX解析配置

Windows和Mac浏览器启动本地程序

最新文章

4月计算机领域的国际会议,计算机领域国际会议分区表

Computer Science Conference Ranking（zz）

什么是1st tier conference?

2020年国际学术会议参考列表

Conference

2019 CCF 推荐国际学术期刊&amp;会议（计算机体系结构并行与分布计算存储系统）

JRTPLIB@Conference DIY视频会议系统 四、JRTPLIB组成的文字会议测试

Computer Science Conference Rankings 转过来防止遗忘

爬虫&搜索引擎&浏览器

走进搜索引擎笔记【一】

【越南风景&梯田Win7主题】

腾讯邮箱新浪邮箱网易免费企业邮箱阿里云万网域名MX解析配置

2019 CCF 推荐国际学术期刊&会议（计算机体系结构并行与分布计算存储系统）

JRTPLIB@Conference DIY视频会议系统四、JRTPLIB组成的文字会议测试

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载