SEO实战密码:搜索引擎工作原理三个阶段简介|电子爱好者

admin管理员组
文章数量:1567250

2024年3月30日发(作者：)

SEO实战密码：搜索引擎工作原理三个阶段简介

搜索引擎工作过程非常复杂，接下来的几节我们简单介绍搜索引擎是怎样实现网

页排名的。这里介绍的内容相对于真正的搜索引擎技术来说只是皮毛，不过对

SEO人员已经足够用了。

搜索引擎的工作过程大体上可以分成三个阶段。

（1）爬行和抓取：搜索引擎蜘蛛通过跟踪链接访问网页，获得页面HTML代码存

入数据库。

（2）预处理：索引程序对抓取来的页面数据进行文字提取、中文分词、索引等

处理，以备排名程序调用。

（3）排名：用户输入关键词后，排名程序调用索引库数据，计算相关性，然后

按一定格式生成搜索结果页面。

爬行和抓取

爬行和抓取是搜索引擎工作的第一步，完成数据收集的任务。

1．蜘蛛

搜索引擎用来爬行和访问页面的程序被称为蜘蛛（spider），也称为机器人（bot）。

搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面

访问请求后，服务器返回HTML代码，蜘蛛程序把收到的代码存入原始页面数据

库。搜索引擎为了提高爬行和抓取速度，都使用多个蜘蛛并发分布爬行。

蜘蛛访问任何一个网站时，都会先访问网站根目录下的文件。如果

文件禁止搜索引擎抓取某些文件或目录，蜘蛛将遵守协议，不抓取

被禁止的网址。

和浏览器一样，搜索引擎蜘蛛也有标明自己身份的代理名称，站长可以在日志文

件中看到搜索引擎的特定代理名称，从而辨识搜索引擎蜘蛛。下面列出常见的搜

索引擎蜘蛛名称：

· Baiduspider+（+/search/）百度蜘蛛

· Mozilla/5.0 （compatible; Yahoo！ Slurp China; .c

/）雅虎中国蜘蛛

· Mozilla/5.0 （compatible; Yahoo！ Slurp/3.0;

/help/us/ysearch/slurp）英文雅虎蜘蛛

· Mozilla/5.0 （compatible; Googlebot/2.1; +/bo

） Google蜘蛛

· msnbot/1.1 （+/）微软 Bing蜘蛛

· Sogou+web+robot+

（+/docs/help/#07）搜狗蜘蛛

· Sosospider+（+/）搜搜蜘蛛

· Mozilla/5.0 （compatible; YodaoBot/1.0; /help/

webmaster/spider/; ）有道蜘蛛

2．跟踪链接

为了抓取网上尽量多的页面，搜索引擎蜘蛛会跟踪页面上的链接，从一个页面爬

到下一个页面，就好像蜘蛛在蜘蛛网上爬行那样，这也就是搜索引擎蜘蛛这个名

称的由来。

整个互联网是由相互链接的网站及页面组成的。从理论上说，蜘蛛从任何一个页

面出发，顺着链接都可以爬行到网上的所有页面。当然，由于网站及页面链接结

构异常复杂，蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。

最简单的爬行遍历策略分为两种，一种是深度优先，另一种是广度优先。

所谓深度优先，指的是蜘蛛沿着发现的链接一直向前爬行，直到前面再也没有其

他链接，然后返回到第一个页面，沿着另一个链接再一直往前爬行。

如图2-20所示，蜘蛛跟踪链接，从A页面爬行到A1，A2，A3，A4，到A4页面

后，已经没有其他链接可以跟踪就返回A页面，顺着页面上的另一个链接，爬行

到B1，B2，B3，B4。在深度优先策略中，蜘蛛一直爬到无法再向前，才返回爬

另一条线。

广度优先是指蜘蛛在一个页面上发现多个链接时，不是顺着一个链接一直向前，

而是把页面上所有第一层链接都爬一遍，然后再沿着第二层页面上发现的链接爬

向第三层页面。

如图2-21所示，蜘蛛从A页面顺着链接爬行到A1，B1，C1页面，直到A页面上

的所有链接都爬行完，然后再从A1页面发现的下一层链接，爬行到A2，A3，

A4，„„页面。

本文标签：蜘蛛页面搜索引擎链接爬行

版权声明：本文标题：SEO实战密码:搜索引擎工作原理三个阶段简介内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1711770018a326608.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

Android跳转到应用商店的APP详情页面

1天前

项目流程：从App内部点击Button按钮或者相应的条目，跳转到应用商店的某个APP的详情页面。实现： 第一步：导入获取手机App工具类 publ

Android如何跳转到应用市场详情页面

1天前

获取双卡手机IMEI、IMSIAndroid应用开发过程中，可能会有需求，比如：推广时跳转到应用市场下载应用，跳转到应用市场给自己的应用打分&

虚拟机安装mac系统，在开机页面无限重启情况

1天前

当我们在使用虚拟机安装苹果的mac系统时，出现开机无限重启的情况，这时，我们需要找到我们安装mac系统的位置，小编以自己的电脑路径为例&#xff

记录一次WIN11开机在登录页面循环的问题

1天前

记录一次由于未进行win密码设置，导致开机后卡在登录界面无法登录进去的问题。最后完美解决了。 1. 背景开机后，显示用户登录界面，但是和以往不同，没

dll修复精灵无法链接服务器,教你一键dll修复精灵怎么使用

1天前

电脑在运行某些程序或者操作时，如果出现dll文件丢失或损坏会导致我们的电脑无法运行，需要修复dll文件才能解决。而修复的方法多种，其中使用dll修复工具是比较简便的。有网友想

解决web页面在手机浏览器中变形的问题

1天前

解决web页面在手机浏览器中变形的问题本文只提供一种在不做移动端适配或不使用移动端框架的情况下，解决页面变形的思路。问题预览如图所示，一些web页面在手机浏览器中会出现右侧DIV加载不完

JS判断H5Html页面，是在手机APP内或者是在手机浏览器打开

1天前

1.在前端开发过程中，遇见过一个需求，需要 H5页面判断是在手机APP内打开，还是在手机浏览器里面打开的。 2.js 获取 window.navigator.userAge

手机浏览器唤起支付宝并打开指定页面

1天前

支付宝的红包功能让一批人先富了起来，很多大大小小的网站都嵌入了领红包的脚本一点就直接唤起了支付宝，并且打开领红包的页面，那么这个功能是怎么实现的呢？

手机浏览器点击input，textarea页面放大，导致页面左右可移动问题

1天前

android上面的浏览器，点击网页上的文本输入框input，获取焦点的时候，系统输入法会弹出，若文本框的位置在输入法框的位置之上&#xff0c

web app解决手机浏览器点击链接出现蓝色边框

1天前

最近做web app项目时，经常出现一些链接在点击的时候会出现蓝色的边框，例如图片、链接等等，点击的时候都会有这种蓝色边框，出于项目需求要将其去掉&am

html网页兼容手机浏览器（解决显示页面很小的问题）

1天前

树莓派需要做一个实时监控的微信端网页，所以需要手机自适应的网页，终于搞定，先分享并记录！其实主要就是改掉HTML页面声明：在网页中加入以下代码，就可以正常显示了：<meta name="viewport"

HTML5页面如何在手机端浏览器调用相机、相册功能

1天前

最近在做一个公司的保险信息处理系统项目，开发微信端浏览器访问的HTML5的页面，页面中有一个<input id"input" type"file"&

手机微信html文件怎么打开方式,手机微信页面如何用web浏览器打开

1天前

满意答案 940118yuan 2014.11.02 采纳率：46% 等级：8 已帮助：362人首先打开google浏览器，同时按下 F12 键

uniAPP 怎么打开浏览器并打开指定链接

1天前

如果只是打开链接并不指定浏览器 plus.runtime.openURL(url,functicon(e){错误回调}); 如果是指定浏览器安卓为例需要先判断设备是否存在这个应用如谷歌浏览器判断是否有谷歌浏览器 pn

vue移动端页面底部被浏览器工具栏遮挡问题

1天前

最近写项目时遇到了页面被浏览器工具栏遮挡问题本来应该是左边这样的，本地运行也没问题，但是一旦部署到服务器上后再用手机浏览器打开后就变成了右边这样，有一部分被遮挡住了。在

用python爬取阳光电影的链接

1天前

用python爬取阳光电影的链接，并存入文本。把链接直接复制到迅雷软件即可下载电影，方便快捷。python代码如下： # -*- encoding: utf-8 -*-&

AutoHotkey实现谷歌浏览器双击关闭页面

19小时前

由于之前一直使用的qq浏览器，因为他有很多功能我比较喜欢，例如双击关闭页面、鼠标拖动选取内容会进行搜索等等。不过学习前端技术需要应用谷歌浏览器进行开发，不过新版本的谷歌浏

解决谷歌浏览器http链接自动跳转到https的问题

19小时前

有些网址http协议和https协议是两个服务，有时候需要访问http地址，但chrome会默认转成https请求地址输入 http:baidu 会自动跳转到 https:baidu 这

页面的渲染流程（Chrome）

19小时前

浏览器在导航结束后，是怎么将HTML CSS Javascript 代码转换成可以和用户交互的界面的呢？ 本文主要讲解的是谷歌浏览器的渲染流程普通浏览器的页面渲染流程图如下&#xff

chrome浏览器什么页面都打不开的解决方案

5小时前

早上起来，发觉chrome什么页面都打不开（包括设置等），IE和UC正常。重装了几次chrome，清理了chrome安装目录&am

电子爱好者 - 最新技术资讯及电子产品介绍！

SEO实战密码:搜索引擎工作原理三个阶段简介

更多相关文章

Android跳转到应用商店的APP详情页面

Android如何跳转到应用市场详情页面

虚拟机安装mac系统，在开机页面无限重启情况

记录一次WIN11开机在登录页面循环的问题

dll修复精灵无法链接服务器,教你一键dll修复精灵怎么使用

解决web页面在手机浏览器中变形的问题

JS判断H5Html页面，是在手机APP内或者是在手机浏览器打开

手机浏览器唤起支付宝并打开指定页面

手机浏览器点击input，textarea页面放大，导致页面左右可移动问题

web app解决手机浏览器点击链接出现蓝色边框

html网页兼容手机浏览器（解决显示页面很小的问题）

HTML5页面如何在手机端浏览器调用相机、相册功能

手机微信html文件怎么打开方式,手机微信页面如何用web浏览器打开

uniAPP 怎么打开浏览器并打开指定链接

vue移动端页面底部被浏览器工具栏遮挡问题

用python爬取阳光电影的链接

AutoHotkey实现谷歌浏览器双击关闭页面

解决谷歌浏览器http链接自动跳转到https的问题

页面的渲染流程（Chrome）

chrome浏览器什么页面都打不开的解决方案

发表评论

推荐文章

那些烦人的VC++库、win10中的VC++库（全部）

云计算机玩绝地求生,什么是云电脑？为什么低配电脑也能玩绝地求生？

websphere linux下载地址,WebSphere(was8.5) 在linux集群安装及部署.pdf

【转】不同版本的Linux介绍

python检测U盘的插入，以及进行自动复制文件并写入文件

热门文章

中国电信天翼云推出集智AI平台，五位一体化加速AI大模型落地

局域网打印机共享怎么设置_局域网如何共享打印机

登录网络共享进入别人计算机,win10共享局域网打印机，能搜到局域网电脑，但输入对方计算机名和密码后提示该计算机管理员禁止访问，求解...

基于51单片机远程门禁密码锁ESP8266WIFI可修改密码APP开锁查看密码

深入解析Linux驱动开发中的I2C时序及I2C高频面试题

操作系统内存最全解析！！！（内附超全思维导图）

git关于推送，代码、分支合并，代码冲突，撤销或修改commit，打标签，重定向等常用用法记录

FLASH的痛终于结束

User-Agent for Chrome浏览器模拟微信功能

软件工程课程实践-可行性研究报告

最新文章

win10相机计算机无法使用,win10相机无法使用完美解决方法

win 10 系统服务器登陆,已解决：Win10 1607版 无法登录Microsoft帐户 系统登录窗口闪退...

Win10安装Python3.9

win10无限蓝屏_win10蓝屏died怎么办_win10无限process died解决方法

【8.14更新】Win11 23H2 正式版：22631.4037镜像下载！

win10手机系统 Android,Win10 Mobile内置完整安卓系统

win10停止更新_又一个win10即将终止？各大版本终止日期大全，你准备好了吗

解决AE在win1011系统上安装失败问题 AEcc2021-After Effects 2021中文正式版安装教程

win10 iot core linux,微软正式发布Win10 IoT Core物联网版系统

PHP Manager 1.5 for IIS 8.5, IIS 10 官方正式版 支持WIN10和Win2016

win10计算机重新启动,解决方法：为什么win10计算机在关闭后会自动重新启动

小白也能轻松操作！Win10版本21H2升级为22H2的方法！

写c语言win7还是win10好,做设计系统用WIN7还是WIN10？

win10计算机性能设置,巧设置让Win10运行更流畅

win10默认壁纸_win10主题软件哪个好用 win10主题软件排行

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

win 10 系统服务器登陆,已解决：Win10 1607版无法登录Microsoft帐户系统登录窗口闪退...

PHP Manager 1.5 for IIS 8.5, IIS 10 官方正式版支持WIN10和Win2016

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载