爬虫框架Scrapy使用IP代理,DOWNLOAD

编程入门行业动态更新时间:2024-10-25 21:32:23

1.运行环境：

Linux/Window 10 + Scrapy 1.7.4

借助scrapy框架采集数据时，采集完第一条数据后，卡住不动，6,7分钟之后才开始采集下一条，如下图。

还有间隔10几分钟的，没截到图，就放了这张图意思意思。若是一直这样超时不报异常，无法触发异常机制再次发起请求，就会导致采集效率太低了。
其实按道理在settings.py中设置：

DOWNLOAD_TIMEOUT = 60

针对单个脚本进行配置：

    custom_settings = {'DOWNLOAD_TIMEOUT': 60,}

如此设置之后，本该若是请求时间超过60秒，就会报异常，异常机制是会再次发起请求的，但是卡住不动，异常也无法获取。

上面的设置都不起作用，没法，又去翻了一遍scrapy文档

然而

走投无路之下尝试用meta携带download_timeout到相应请求中，结果惊讶的发现，起作用了。超时之后成功触发异常，这…

是的，就是下面这行代码，解决了这个问题：

meta={'download_timeout': 60}

就很纳闷，为什么明明设置了全局超时控制，却不起作用，还得另外单独设置。。。

转载请注明转自:

更多推荐

爬虫框架Scrapy使用IP代理,DOWNLOAD

本文发布于:2024-02-12 06:25:11，感谢您对本站的认可！

爬虫框架 Scrapy IP DOWNLOAD

评论列表（有 0 条评论）