scrapy allowed

编程入门行业动态更新时间:2024-10-24 06:31:42

用scrapy爬取SemanticScholar的论文，爬完当前论文爬被引。奇怪地发现除了start_url可以访问之外，其他页面都被过滤掉了无法访问，只有设置dont_filter=True才能访问。走了很大弯路才发现是 allowed_domains设置错了。。。

一开始错误地设置allowed_domains = ['XXX/']，没有任何报错！
若设置allowed_domains = ['www.XXX/']会有如下报错，提醒你这里要填的是域名而不是URL：
```
URLWarning: allowed_domains accepts only domains, not URLs. Ignoring URL entry / in allowed_domains.
```

注意区分域名和URL：

域名就是到  就结束了
URL就是除了域名 还有右面的/asl;dajs;dlfsdf.html 一长串

更多推荐

scrapy allowed

本文发布于:2024-03-13 09:39:47，感谢您对本站的认可！

scrapy allowed

评论列表（有 0 条评论）