常见爬取网页报错总结

编程入门 行业动态 更新时间:2024-10-16 16:47:58

常见爬取网页<a href=https://www.elefans.com/category/jswz/34/1771188.html style=报错总结"/>

常见爬取网页报错总结

1.爬取网页报错提示状态码404,可是在浏览器里可以打开网页

这种情况是服务器同时返回200与404的状态码,抓包可以看到有404与200。浏览器访问时,有200不会影响访问,而爬虫程序获取该url的回执状态码404与200,遇到有404,则抛出了HTTP Error 404: Not Found

网上解答:抓包将状态码200的cookie值贴到代码的headers里,然后urlopen(req)过去就ok

我的方法:判断是404错误码的同时也判断页面含有关键词。

更多推荐

常见爬取网页报错总结

本文发布于:2024-02-27 00:44:35,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1704588.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:报错   常见   网页

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!