scrapy通用爬虫爬去新闻网站心得

编程知识行业动态更新时间:2024-06-13 00:19:58

一：scrapy框架工作原理

1）创建项目 scrapy startproject xxxx(项目名)

2）进入项目目录下创建通用爬虫 scrapy genspider crawl -t xxxx(爬虫名) www.xxxx(域)

1)在settings.py文件中关闭robot协议

2）在中间件中添加随机User-Agent中间件

注意：如果是在Windows下开发，注意User-Agent列表中一定不要有mac电脑中的user-agent,否则会报lan-之类的编码错误

3）在中间件文件中添加代理中间件（这个一定要添加，薅羊毛总会被发现，IP被封了很影响你分析网站的）

4）注册中间件（一定不要忘记注册）

1）文章详情页的url一般都是有规律的用简单的正则就能匹配（但一定要写对，否则你可能无法翻页匹配到下一页的文章详情的url）

2）解析数据，主要遇到的坑是文章展示到自己平台上有段落与缩进问题

1）测试爬去的时候也一定要加代理iP,否则ip被封后，无法在浏览器端分析目标网站

2）在windows下开发时User-Agent列表中一定不要有mac下的user-agent

3）匹配详情也的url正则表达式一定要写对，否则可能无法翻页匹配到下一页的文章详情url

4) 处理爬去后文章的结构，主要是有的P标签中是空的，一定要剔除这些空内容再构造文章结构

更多推荐

scrapy通用爬虫爬去新闻网站心得

本文发布于:2023-03-29 06:56:00，感谢您对本站的认可！

爬虫新闻网站爬去心得 scrapy

评论列表（有 0 条评论）