全系列嘉宾名单,并进行可视化分析!"/>
爬取「奔跑吧」全系列嘉宾名单,并进行可视化分析!
今天分析『奔跑吧』全系列的嘉宾名单,分析每位嘉宾参加次数(可能有的嘉宾参加过几季),以及统计嘉宾职业类型个数,最后进行可视化展示分析。 1 网页分析 通过网上查询,知道『奔跑吧』到目前为止一共9季,先是奔跑吧兄弟1~4,到后面改名为奔跑吧1~4,以及奔跑吧黄河篇。 对应的网页链接如下:
url_list=['','','','',';fromid=22645259&fr=aladdin#4_2',';fromid=22645247&fr=aladdin#4_2',';fromid=23285732&fr=aladdin',';fromid=50003758&fr=aladdin','·黄河篇/53052048' ]
1.分析网页结构
首先以奔跑吧第1季为例去分析网页结构(其他的链接网页结构一样)
咱们主要是爬取嘉宾姓名和明星类型(演员、歌手等)
本来想通过xpath解析网页方式去定位数据,但是发现定位不到,所以就采取了另外一种方式:字符串截取(其实正则re也可以,有很多种方式,只要能够解析出来即可,大家可以自由发挥)
更多推荐
爬取「奔跑吧」全系列嘉宾名单,并进行可视化分析!
发布评论