scrapy allowed

编程入门 行业动态 更新时间:2024-10-24 06:31:42

<a href=https://www.elefans.com/category/jswz/34/1765968.html style=scrapy allowed"/>

scrapy allowed

用scrapy爬取SemanticScholar的论文,爬完当前论文爬被引。奇怪地发现除了start_url可以访问之外,其他页面都被过滤掉了无法访问,只有设置dont_filter=True才能访问。走了很大弯路才发现是 allowed_domains设置错了。。。

  • 一开始错误地设置allowed_domains = ['XXX/'],没有任何报错!

  • 若设置allowed_domains = ['www.XXX/']会有如下报错,提醒你这里要填的是域名而不是URL:

    URLWarning: allowed_domains accepts only domains, not URLs. Ignoring URL entry / in allowed_domains.
    

注意区分域名和URL:

域名就是到  就结束了
URL就是除了域名 还有右面的/asl;dajs;dlfsdf.html 一长串

更多推荐

scrapy allowed

本文发布于:2024-03-13 09:39:47,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1733685.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:scrapy   allowed

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!