爬取「奔跑吧」全系列嘉宾名单,并进行可视化分析!

编程入门 行业动态 更新时间:2024-10-08 12:38:25

爬取「奔跑吧」<a href=https://www.elefans.com/category/jswz/34/1737777.html style=全系列嘉宾名单,并进行可视化分析!"/>

爬取「奔跑吧」全系列嘉宾名单,并进行可视化分析!

今天分析『奔跑吧』全系列的嘉宾名单,分析每位嘉宾参加次数(可能有的嘉宾参加过几季),以及统计嘉宾职业类型个数,最后进行可视化展示分析。 1 网页分析 通过网上查询,知道『奔跑吧』到目前为止一共9季,先是奔跑吧兄弟1~4,到后面改名为奔跑吧1~4,以及奔跑吧黄河篇。 对应的网页链接如下:

 

url_list=['','','','',';fromid=22645259&fr=aladdin#4_2',';fromid=22645247&fr=aladdin#4_2',';fromid=23285732&fr=aladdin',';fromid=50003758&fr=aladdin','·黄河篇/53052048'
]

 

1.分析网页结构

首先以奔跑吧第1季为例去分析网页结构(其他的链接网页结构一样)

 

咱们主要是爬取嘉宾姓名和明星类型(演员、歌手等)

本来想通过xpath解析网页方式去定位数据,但是发现定位不到,所以就采取了另外一种方式:字符串截取(其实正则re也可以,有很多种方式,只要能够解析出来即可,大家可以自由发挥)

更多推荐

爬取「奔跑吧」全系列嘉宾名单,并进行可视化分析!

本文发布于:2024-03-09 17:35:45,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1725616.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:全系列   嘉宾   名单

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!