一:scrapy框架工作原理
二:scrapy通用爬虫的创建
1)创建项目 scrapy startproject xxxx(项目名)
2)进入项目目录下创建通用爬虫 scrapy genspider crawl -t xxxx(爬虫名) www.xxxx(域)
三:爬去之前一定要对爬虫进行最基本的伪装
1)在settings.py文件中关闭robot协议
2)在中间件中添加随机User-Agent中间件
注意: 如果是在Windows下开发,注意User-Agent列表中一定不要有mac电脑中的user-agent,否则会报lan-之类的编码错误
3)在中间件文件中添加代理中间件(这个一定要添加,薅羊毛总会被发现,IP被封了很影响你分析网站的)
4)注册中间件(一定不要忘记注册)
四:开始编写爬虫
1)文章详情页的url一般都是有规律的用简单的正则就能匹配(但一定要写对,否则你可能无法翻页匹配到下一页的文章详情的url)
2)解析数据,主要遇到的坑是文章展示到自己平台上有段落与缩进问题
五:最容易遇到的问题
1)测试爬去的时候也一定要加代理iP,否则ip被封后,无法在浏览器端分析目标网站
2)在windows下开发时User-Agent列表中一定不要有mac下的user-agent
3)匹配详情也的url正则表达式一定要写对,否则可能无法翻页匹配到下一页的文章详情url
4) 处理爬去后文章的结构,主要是有的P标签中是空的,一定要剔除这些空内容再构造文章结构
更多推荐
scrapy通用爬虫爬去新闻网站心得
发布评论