python豆瓣影评

编程入门 行业动态 更新时间:2024-10-19 02:24:29

python豆瓣<a href=https://www.elefans.com/category/jswz/34/1767019.html style=影评"/>

python豆瓣影评

因为____的缘故,在家甚是无聊,想着可能会做一个和数据分析相关的毕业设计,不如就提前准备一下数据。

眼光一扫,就是你了,豆瓣!说起来很有意思,我最开始写爬虫就是从豆瓣开始的,现在又回来了。

豆瓣,这世间所有的相逢都是久别重逢。

好了,不皮了,开始正题。豆瓣电影分类浏览页面

写爬虫之前,首先要明确一个问题你需要什么数据。先有目标,再有行动,这样思路也会清晰起来。我想要的数据就是页面中的电影的信息,所以先看数据是怎么加载的。F12,刷新,往下拉发现数据是一个GET请求得到的,问题简化了。我们模拟请求就可以获得数据了,nice!这样想是不是很清晰了。那我们怎么模拟请求呢,请求最重要的参数,其次就是一些请求头信息等。

经过多次刷新请求,知道每次请求都包含四个参数,分别是type_name、type、interval_id、action,每个参数都可以先猜再去验证。第一个就是类别名,比如上图类别就是剧情片,ID暂时不知道,第三个参数也可以大概的看出来就是最上面的按钮那里的好于100%-90%。所以现在要找的就是类别名和ID的一一对应,观察网页由上面更多类型里有所有的类别,可以查看网页源代码,可以看到ID和NAME都在链接中,取出来即可。

所以我们的目标很明确了,先找到ID和name,再根据这个去请求数据,还有一个问题,数据请求到了,下一页怎么办呢,一个类别要请求多少次呢,所以我们需要知道这个类别的电影总数。抬头一看,页面的好于100%-90%后面不就是吗?网页中展现的数据肯定是请求过来的,所以继续找找请求,找到一条返回类别总数的请求。

好了,到现在,你应该知道要怎么去写这个爬虫了。可以先把所有类别的id和name及这个类别的数量保存下来,然后再根据这些信息取构建请求,获取电影数据即可。Yes,就是这样的,一个小爬虫就这样被你想出来了。所以,开始编码。爬虫获取电影分类的ID和总数,并写入本地文件

接下来就是构建数据请求了,我们读取ID和NAME,将其加入到请求头中,获得我们想要的数据,将其保存再本地中。爬虫完成了它的使命。请求电影数据的代码部分

算了,数据还是不展示了,有兴趣的朋友可以在后面的链接中,点击GITHUB或者关注公众号查看。

其实这个爬虫我写起来是很快的,因为豆瓣并没有很强的反爬策略,并没有登陆验证这些(也有可能是我比较温柔的爬)。只要你不是很过分的爬取,所以还是建议大家一定要放慢爬取速度!time.sleep多睡几秒,不要对网站的服务器照成影响。毕竟这些数据也都公开,作为自己用的话,也不需要大量,也不急。一定一定放慢速度!其次就是数据不要商用,仅作为个人学习之用是完全可以的。

欢迎关注个人博客:目前更新了一下python入门的文章博客。

关注个人公众号,回复豆瓣,即可获得源代码。

Github链接:​github

以上。

更多推荐

python豆瓣影评

本文发布于:2024-02-17 18:49:29,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1695123.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:影评   豆瓣   python

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!