彻底搞懂 Scrapy 的中间件|电子爱好者

admin管理员组
文章数量:1637858

彻底搞懂Scrapy的中间件(一)：https://wwwblogs/xieqiankun/p/know_middleware_of_scrapy_1.html
彻底搞懂Scrapy的中间件(二)：https://wwwblogs/xieqiankun/p/know_middleware_of_scrapy_2.html
彻底搞懂Scrapy的中间件(三)：https://wwwblogs/xieqiankun/p/know_middleware_of_scrapy_3.html

在 Scrapy 中捕获并处理各种异常

[ Scrapy使用技巧 ] 如何在 Scrapy 中捕获并处理各种异常：https://blog.csdn/sc_lilei/article/details/80702449

重写 scrapy 中间件之 RetryMiddleware：https://blog.csdn/qq_33854211/article/details/78535963

彻底搞懂Scrapy的中间件(一)

中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改，从而开发出适应不同情况的爬虫。

“中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数据，做一些修改再把数据传递出去。不同点在于，中间件是开发者主动加进去的组件，而中间人是被动的，一般是恶意地加进去的环节。中间件主要用来辅助开发，而中间人却多被用来进行数据的窃取、伪造甚至攻击。

在Scrapy中有两种中间件：下载器中间件(Downloader Middleware)和爬虫中间件(Spider Middleware)。

下载器中间件

Scrapy 的官方文档中，对下载器中间件的解释如下。

下载器中间件是介于Scrapy的request/response处理的钩子框架，是用于全局修改 Scrapy 的 request 和 response 的一个轻量、底层的系统。

这个介绍看起来非常绕口，但其实用容易理解的话表述就是：更换代理IP，更换Cookies，更换User-Agent，自动重试。

如果完全没有中间件，爬虫的流程如下图所示。

使用了中间件以后，爬虫的流程如下图所示。

开发代理中间件

Scrapy 设置代理终极宝典：https://zhuanlan.zhihu/p/79067223

scrapy 切换代理针对特定响应状态码，使用代理重新请求

HttpProxyMiddleware(HTTP 代理中间件)：https://github/kohn/HttpProxyMiddleware
scrapy 爬虫的自动代理中间件：https://github/cocoakekeyu/autoproxy

获取免费代理, 主要抓的是大陆的高匿代理：https://github/kohn/HttpProxyMiddleware/blob/master/fetch_free_proxyes.py

scrapy 爬虫代理 --- 利用 crawlera 神器，无需再寻找代理IP：http://blog.csdn/xiao4816/article/details/50650075

在爬虫开发中，更换代理IP是非常常见的情况，有时候每一次访问都需要随机选择一个代理IP来进行。

中间件本身是一个Python的类，只是爬虫每次访问网站之前都要先“经过”这个类，它就能给请求换新的代理IP，这样就能实现动态改变代理。

创建 scrapy 工程：scrapy startproject <工程名>

创建完 Scrapy 工程以后( 这里创建的工程名为 AdvanceSpider )，工程文件夹下会有一个 middlewares.py 文件，打开以后其内容如下图所示：

Scrapy 自动生成的这个文件名称为 middlewares.py，名字后面的 s 表示复数，说明这个文件里面可以放很多个中间件。

middlewares.py 中有 2 个 Python类，每个类都代表一个中间件，代码如下：

# -*- coding: utf-8 -*-

# Define here the models for your spider middleware
#
# See documentation in:
# https://docs.scrapy/en/latest/topics/spider-middleware.html

from scrapy import signals


class AdvancespiderSpiderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the spider middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_spider_input(self, response, spider):
        # Called for each response that goes through the spider
        # middleware and into the spider.

        # Should return None or raise an exception.
        return None

    def process_spider_output(self, response, result, spider):
        # Called with the results returned from the Spider, after
        # it has processed the response.

        # Must return an iterable of Request, dict or Item objects.
        for i in result:
            yield i

    def process_spider_exception(self, response, exception, spider):
        # Called when a spider or process_spider_input() method
        # (from other spider middleware) raises an exception.

        # Should return either None or an iterable of Request, dict
        # or Item objects.
        pass

    def process_start_requests(self, start_requests, spider):
        # Called with the start requests of the spider, and works
        # similarly to the process_spider_output() method, except
        # that it doesn’t have a response associated.

        # Must return only requests (not items).
        for r in start_requests:
            yield r

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)


class AdvancespiderDownloaderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downl

本文标签：中间件 scrapy

版权声明：本文标题：彻底搞懂 Scrapy 的中间件内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1729261018a1192903.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

彻底搞懂 Scrapy 的中间件

在 Scrapy 中捕获并处理各种异常

彻底搞懂Scrapy的中间件(一)

下载器中间件

开发代理中间件

更多相关文章

瑞萨推出灵活电影播放器视频音频播放软件包.

weblogic中间件通用应急预案

python3.5安装scrapy_win7+Python3.5下scrapy的安装方法

Scrapy结合Selenium采集数据简单实例

Scrapy框架的使用之Scrapy通用爬虫

【scrapy】scrapy按分类爬取豆瓣电影基础信息

Scrapy框架的使用之Scrapy通用爬虫_为什么scrapy的parse_start_url和parse

011：运用Scrapy爬取腾讯招聘信息

chatgpt赋能Python-python3_8安装scrapy

ibmmq 通道命令_实时查看MQ中间件运行状态

python爬虫之scrapy

AppEmit是应用程序（尤其是浏览器）与本地程序间互相通信的易扩展的轻量级中间件

2024年Java基础复习(DayTwo)：变量常量（枚举）与基本数据类型转化，消息中间件面试题

安装中间件使linux系统能够读取移动硬盘

一篇搞定！超详细保姆级中间件部署指南

Docker 部署中间件总结（MySQL、Redis、ElasticSearch、XXL-JOB、Sentinel等...）

scrapy爬虫selenium模拟无法登陆和爬取的问题

scrapy twisted.python.failure.Failure OpenSSL.SSL.Error

使用爬虫框架scrapy爬取LOL英雄数据

通信中间件 Fast DDS 基础概念简述与通信示例

发表评论

推荐文章

kong笔记——Service、Route路由功能

从零开始学爬虫系列4：快速下载视频

must implement java.io.Serializable hessian

虚拟机开机遇到黑屏的问题

1000+常用Python库大全，太实用了！

热门文章

slack注册教程

How to root android Oppo A11w,OPPO R11系列 解锁Bootloader 救砖 TWRP Recovery ROOT 详细教程 亲测[推荐]...

Centos 上面用Shell脚本一键安装LAMP环境

通过Ansible安装MySQL（yum + CentOS Stream 8）

电脑随机软件卡死问题

HCIE-Security Day7：6个实验理解目的NAT

UEFI装系统不能从U盘启动的解决办法

Implement Your Own sizeof

scratch小游戏脚本大全_酷酷带你一起做小游戏--跳一跳

WiFi共享精灵，你WiFi生活的好伙伴

最新文章

WIN10专业版无法隐藏任务栏图标

obs studio的基本操作步骤----win10专业版

WIN10专业版 22H2 的Framework3.5离线傻瓜安装包

win10* 64 专业版云盘分享

解决虚拟机-虚拟网络配置没有桥接模式，本地没有虚拟网卡

Win11专业版安装Docker Desktop，并支持映射主机的gpu

64位win10专业版下载地址

Win10专业版没有休眠选项

如何提升w ndows10系统网速,Win10专业版系统网速慢的解决方法

从android虚拟机复制文件到PC的命令

win10专业版无法安装更新解决方法

从Win10企业版升级为专业版2004并更换透明背景磁贴

解决win10 专业版删除Winsock 和WinSock2 无法上网问题

win10系统如何telnet服务器,win10专业版官网系统如何开启telnet服务的办法

《深入解析Android 虚拟机》——第2章 Java虚拟机基础 2.1虚拟机的作用

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

How to root android Oppo A11w,OPPO R11系列解锁Bootloader 救砖 TWRP Recovery ROOT 详细教程亲测[推荐]...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载