scrapy通用爬虫爬去新闻网站心得

编程知识 行业动态 更新时间:2024-06-13 00:19:58

一:scrapy框架工作原理

二:scrapy通用爬虫的创建


1)创建项目 scrapy startproject xxxx(项目名)

2)进入项目目录下创建通用爬虫  scrapy genspider crawl -t xxxx(爬虫名)   www.xxxx(域)

三:爬去之前一定要对爬虫进行最基本的伪装

1)在settings.py文件中关闭robot协议  

2)在中间件中添加随机User-Agent中间件

注意: 如果是在Windows下开发,注意User-Agent列表中一定不要有mac电脑中的user-agent,否则会报lan-之类的编码错误

 

3)在中间件文件中添加代理中间件(这个一定要添加,薅羊毛总会被发现,IP被封了很影响你分析网站的

4)注册中间件(一定不要忘记注册

四:开始编写爬虫

1)文章详情页的url一般都是有规律的用简单的正则就能匹配(但一定要写对,否则你可能无法翻页匹配到下一页的文章详情的url

2)解析数据,主要遇到的坑是文章展示到自己平台上有段落与缩进问题

五:最容易遇到的问题

1)测试爬去的时候也一定要加代理iP,否则ip被封后,无法在浏览器端分析目标网站

2)在windows下开发时User-Agent列表中一定不要有mac下的user-agent

3)匹配详情也的url正则表达式一定要写对,否则可能无法翻页匹配到下一页的文章详情url

4) 处理爬去后文章的结构,主要是有的P标签中是空的,一定要剔除这些空内容再构造文章结构

 

更多推荐

scrapy通用爬虫爬去新闻网站心得

本文发布于:2023-03-29 06:56:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/e30492405f3f81d4d83caf0e8bbdf172.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:爬虫   新闻网站   爬去   心得   scrapy

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!