搜索引擎与网络爬虫简述

编程入门行业动态更新时间:2024-10-26 20:25:03

一、搜索引擎

搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理后，将处理后的信息展示给用户。

垂直搜索引擎则是针对某一行业的专业所搜引擎，是普通搜索引擎的细化和延伸。主要通过对网页库的某类信息进行整合，定向分字段抽取出需要的数据进行处理、返回给用户。

二、搜索引擎的流程

1、搜索引擎将网页大量抓取下来，通过分析器解析，将有价值的数据入库，检索器（索引器）对有效的内数据建立检索

2、客户搜索界面——>提交查询——>检索器返回结果呈现给用户

三、搜索引擎的主要构件

搜索器——分析器——索引器——检索器——用户接口

四、网络爬虫

用户搜索的大部分数据均来自于互联网，那通过什么方式才能将这些海量数据准确快速的返回给查询用户。其中关键关节就是数据抓取。

网络爬虫是一个自动提取网页程序，为搜索引擎从网上下载网页，准备会数据显示。传统网络爬虫主要从一个url开始，获取网页的url，并且不断地将新的网页rul放入队列，以满足系统直到停止。

例如Heritrix等爬虫框架的一般步骤就是选择一个爬取url-开始爬取-分析爬取结果-选择新的相关url添加到爬取url队列-标示已爬取url和将重复爬取的url-循环操作。

具体实现主要是初始化一个线程池，分别开启爬取前线程，爬取链线程，执行器，执行后线程，将执行后的结果输出到schedule，再另起一个新的schedule继续并行执行。

五、主题网络爬虫

与普通网络爬虫相比，主题网络爬虫具有更广泛的应用，它是指尽可能快的爬取、采集尽可能多的与主题相关的网页。主题网络爬虫可通过对整个web按照主题分块采集，将不同采集结果整合到一起，以提高整个web采集的覆盖率和网页的利用率。

通用网络爬虫的目标即在于尽可能多的采集页面信息，而在爬取过程中并不太在意页面采集的顺序和被采集页面的相关主题。这需要消耗非常多的系统资源消耗和网络带宽。而主题网络爬取则要求本身能尽可能快的爬取、采集尽可能多的与主题相关的网页。

六、主题爬取的关键过程

1、定义主题，确定抓取目标

2、根据一定的网页分析算法过滤与主题无关的链接

3、保留与主题相关的链接放入待抓取的URL队列中，根据一定的搜索策略从队列中选择下一步要抓取的URL，并逐渐深入爬取，直到爬取到目的结果。

4、怎样决定待爬取url的访问顺序？主题爬取的测序并非简单的深度优先、广度优先，而是按照相关度的大小排序，相关度大的url优先爬取。

5、如何判断一个网页是否与主题相关？可通过文本挖掘技术，获取待爬行url的文本内容确定该url是否与主题相关。

6、所有被爬取过的网页将被系统存储起来，进行分析、过滤、并建立索引，对后续抓取过程进行反馈。

更多推荐

搜索引擎与网络爬虫简述

本文发布于:2023-06-13 08:00:00，感谢您对本站的认可！

爬虫搜索引擎网络

评论列表（有 0 条评论）