admin管理员组文章数量:1568709
2024年4月3日发(作者:)
搜索引擎实验
实验报告
网址:/
以谷歌搜索引擎为例:
一、搜索引擎简介
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜
集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,
是为用户提供检索服务的系统。
现在的搜索引擎有百度、谷歌、雅虎、搜狗、迅雷等等。
下面介绍下谷歌的工作原理:
Google采用了两个重要的特性,因此而获取了准确的查询结果:第一,
Google利用网页的链接结构计算出每个网页的等级排名,这就是所谓的
PageRank;第二,Google利用了链接提供的信息进一步改善搜索结果。
Google使用两个探测器来抓取网站上的内容:Freshbot和Deepbot。深度
探测器(Deepbot)每月出击一次,受访内容在Google的主要索引之中。刷新探测
器(Freshbot)是持续不断地发现新的内容,例如新的网站、论坛、博客等。看起
来,Google是发现了一个新的网页,之后再频繁地再访,来看看是否还有什么
新的更新。如果有,这个新网站就会被加入到刷新探测器的名单中进行访问。
刷新探测器取得的结果是汇总在一个单独的数据库里。每一次刷新探测器进
行新的一轮循环的时候都被重写。刷新探测器和Google的主要索引是合在一起
提供搜索结果的。
Google的操作模式
收集---->采编/索引---->反馈的工作程序。事实上,搜索引擎包括以下几
个元素。
抓取状态:搜索引擎派出探测器到互联网上不知疲倦地搜集网页。
网页仓库:搜索来的网页要集中在一个地方存储,等候索引处理。
索引整理:将网页分门别类,进行压缩,等候进行索引编类,而未压缩的原
始网页资料被删除掉。
索引状态:将压缩后的网页编目在不同的索引之下。
问询状态:将用户问询所用的白话转换成搜索引擎读的懂的计算机语言,来
咨询各个索引求得相关答案。
排名状态:搜索引擎将相关答案根据一定的标准以列表的形式排列给用户。
搜索引擎认为最好的答案被推荐在首位,较次的排列随后,以此类推。
Google的数据中心高度机密,我们能了解到的不多:
1.在美国本土有19个以上的数据中心,其余17个数据中心分布在美国以外的
世界各地。
2.每个数据中心有50万平方英尺那么大,建造一个数据中心要花费约6亿美
元。
数据中心是世界上最高效的设施之一,而且也非常环保,几乎没
有碳排放。
4.数据中心使用50到100兆瓦的电力,由于需要冷却,通常建在便于用水的
地方。
服务器安置在一个一组容得下1160台服务器的有房子那么大的标
准集装箱容器中。
Google处理流程:
1.你写博客、或在Twitter上推微博、更新站点等诸如此类往web上添加内
容的操作
爬虫(一种作为搜索引擎构件的智能代理程序)抓取你网页的
title和description、keyword等内容。
3.一旦被Google爬虫访问到,网页几秒内就被索引了
基于链接评估域名和网页的总体PageRank值。
5.检查网页以防止作弊行为
6.在对页面做了损害分析后,现在每个页面都有很多用于辅助用户搜索的数
版权声明:本文标题:搜索引擎实验 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/xitong/1712138277a345204.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论