scrapy allowed"/>
scrapy allowed
用scrapy爬取SemanticScholar的论文,爬完当前论文爬被引。奇怪地发现除了start_url可以访问之外,其他页面都被过滤掉了无法访问,只有设置dont_filter=True
才能访问。走了很大弯路才发现是 allowed_domains
设置错了。。。
-
一开始错误地设置
allowed_domains = ['XXX/']
,没有任何报错! -
若设置
allowed_domains = ['www.XXX/']
会有如下报错,提醒你这里要填的是域名而不是URL:URLWarning: allowed_domains accepts only domains, not URLs. Ignoring URL entry / in allowed_domains.
注意区分域名和URL:
域名就是到 就结束了
URL就是除了域名 还有右面的/asl;dajs;dlfsdf.html 一长串
更多推荐
scrapy allowed
发布评论