Web搜索引擎工作原理和体系结构|电子爱好者

admin管理员组
文章数量:1578033

1、Web搜索引擎的基本要求

搜索引擎是一个网络应用软件系统，如下图所示，对它有如下基本要求。
能够接受用户通过浏览器提交的查询词或者短语，记作q，例如“大数据”，“Spark”等等。
在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表，记作L。这个列表的每一条目至少包含三个元素（标题，网址链接，摘要）。
示意图：

“可以接受的时间”，也就是响应时间，这个时间不能太长，通常也就在“秒”这个量级。这是衡量搜索引擎可用性的一个基本指标。
更进一步的，这样的响应时间要求不仅要能满足单个用户查询，而且要能在系统设计负载的情况下满足所有的用户。也就是说，系统应该在额定吞吐率的情况下保证秒级响应时间。

“匹配”，指的是网页中以某种形式包含有q的内容，最简单最常见的形式就是q在其中直接出现。（当然，如果一个搜索引擎就是以百分之百满足这种简单的包含关系为目标，即使实现了也并不意味着达到了最好的效果。）

“列表”，就是一种序列（rank）。大多数情况下，L特别长，例如上万条数目等。这不仅是由于Web上的信息量大，也由于搜索引擎的查询方式简单。简单，意味着抽象；抽象，意味着有更多的具体事物可能是它的体现。
有分析统计表明，用户平均察看返回结果不超过2页。
现代大规模高质量搜索引擎一般采用下图三段式的工作流程，即：网页搜集、预处理和查询服务：

2、网页搜集

大规模搜索引擎服务的基础应该是一批预先搜集好的网页，如何维护？

1）定期搜集，每次搜集替换上一次的内容，我们称之为“批量搜集”。由于每次都是重新来一次，对于大规模搜索引擎来说，每次搜集的时间通常会花几周。而由于这样做开销较大，通常两次搜集的间隔时间也不会很短。这样做的好处是系统实现比较简单，主要缺点是“时新性”（freshness）不高，还有重复搜集所带来的额外带宽的消耗。

2）增量搜集，开始时搜集一批，往后只是：
（1）搜集新出现的网页

本文标签：体系结构工作原理搜索引擎 web

版权声明：本文标题：Web搜索引擎工作原理和体系结构内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1727830787a1132582.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Web搜索引擎工作原理和体系结构

1、Web搜索引擎的基本要求

2、网页搜集

更多相关文章

为什么要使用“搜索引擎”？（转）

ES(elasticsearch)搜索引擎安装和使用

善于使用搜索引擎、百度网盘、华为网盘、新浪微盘找资源的方法总结

图书馆图书搜索引擎(全球100多图书馆)

百度网盘目录搜索引擎

提升搜索引擎的友好度只要五个步骤

HA3搜索引擎梳理与分析

什么是搜索引擎营销（SEM）？

这就是搜索引擎（一）—引擎架构、网络爬虫、索引建立

100个隐秘的实用搜索引擎

搜索引擎收藏

注意：网站中出现以下违规内容-搜索引擎百度都不收录

集成搜索引擎与元搜索引擎

搜索引擎索引之如何建立索引

百度网盘搜索攻略:教你用哎哟喂啊等聚合搜索引擎快速找资源

Web 开发与搜索引擎优化，你应该选择哪一个？

【搜索引擎】强推！最好用资源最全的十个百度网盘搜索引擎

超实用学习必备搜索技能，教你如何用好搜索引擎！

百度云盘搜索助手 V1.2（可查询提取码，带5个搜索引擎）

最全的全球搜索引擎的介绍

发表评论

推荐文章

twrp Xposed zip包脚本定制全解析

计算机定时关机命令,电脑定时关机怎么设置_电脑定时关机命令

Keepalive技术

win10以太网无法连接网络解决办法

为什么建议大家使用Linux开发?爽（外加七个感叹号)

热门文章

从装机体验消费类软件市场

服务器版dll修复工具,dll修复工具

python暴力破解WiFi

无线802.1x认证服务器,TP-Link无线路由器+Radius认证服务器实现无线终端802.1X认证...

JDK19虚拟线程

飞鱼星的虚拟服务器设置,设置简单功能丰富 三步就能设置好_飞鱼星 G7_网络设备无线网络和技术-中关村在线...

自考本科计算机网络原理（04741）历年大题真题【18年10月-22年10月】

m4s格式转换mp3_高质量音频转换器，如何转换成mp3音频格式

Win10网络黄色叹号，疑难解答诊断为：“以太网”没有有效的IP 配置

Ubantu18.04系统安装迅雷等常用软件

最新文章

不装了，整点干货——IOS逆向环境搭建

VScode配置CC++环境详细

android x86触屏驱动下载,农步祥作品 - 使用台式机和触摸屏玩Android X86 [Soomal]

校运会管理系统设计与实现(源码+lw+部署文档+讲解等)

vncapp下载，vncapp下载怎么下载？下载教程

达观助手AI写作下载安装教程及特色功能详解，速速收藏体验！

手机软件何时统一——桥接模式

亚马逊平板刷机Linux系统,亚马逊平板刷机步骤盘点【图解】

斐讯N1盒子刷OpenWRT系统结合内网穿透远程管理本地软路由

解决宝塔面板无法下载软件和更新应用的问题

搭建个人云盘---宝塔+可道云

python的搜题软件下载_直播答题？Python助你自动搜题之新手篇！

美食信息推荐系统

【2025】springboot家装一体化服务平台背景（源码+文档+调试+答疑）

如何解决Windows 7中DLL文件缺失导致的文件无法打开问题？恢复系统正常运行的步骤

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

飞鱼星的虚拟服务器设置,设置简单功能丰富三步就能设置好_飞鱼星 G7_网络设备无线网络和技术-中关村在线...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载