爬虫框架Scrapy使用IP代理,DOWNLOAD

编程入门 行业动态 更新时间:2024-10-25 21:32:23

<a href=https://www.elefans.com/category/jswz/34/1770264.html style=爬虫框架Scrapy使用IP代理,DOWNLOAD"/>

爬虫框架Scrapy使用IP代理,DOWNLOAD

1.运行环境:

Linux/Window 10 + Scrapy 1.7.4

2.问题描述:

借助scrapy框架采集数据时,采集完第一条数据后,卡住不动,6,7分钟之后才开始采集下一条,如下图。

还有间隔10几分钟的,没截到图,就放了这张图意思意思。若是一直这样超时不报异常,无法触发异常机制再次发起请求,就会导致采集效率太低了。
其实按道理在settings.py中设置:

DOWNLOAD_TIMEOUT = 60

针对单个脚本进行配置:

    custom_settings = {'DOWNLOAD_TIMEOUT': 60,}

如此设置之后,本该若是请求时间超过60秒,就会报异常,异常机制是会再次发起请求的,但是卡住不动,异常也无法获取。

3.解决方法:

上面的设置都不起作用,没法,又去翻了一遍scrapy文档

然而

走投无路之下尝试用meta携带download_timeout到相应请求中,结果惊讶的发现,起作用了。超时之后成功触发异常,这…

是的,就是下面这行代码,解决了这个问题:

meta={'download_timeout': 60}

就很纳闷,为什么明明设置了全局超时控制,却不起作用,还得另外单独设置。。。

转载请注明转自:

更多推荐

爬虫框架Scrapy使用IP代理,DOWNLOAD

本文发布于:2024-02-12 06:25:11,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1686602.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:爬虫   框架   Scrapy   IP   DOWNLOAD

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!