爬虫1:python+requests+xpath抓取豆瓣电影数据1.0"/>
爬虫1:python+requests+xpath抓取豆瓣电影数据1.0
前言
1、用python来抓取豆瓣的排行电影的资源数据,主要用了requests抓取数据,xpath和正则表达式来分析数据,xlsx表格来保存数据等
当前相关脚本已优化至:
一、页面分析
1、保存表格下来的数据
2、豆瓣电影页面分析
豆瓣电影的网址是:
分析页面发现数据都在标签li里面,这种就需要确定需要哪些数据,再用xpath去筛选处理的
数据都在item标签里面:href、src、还要相关一些text。
二、代码分析
1.引入相应的库
结合request和BeautifulSoup的方法,xpath和正则表达式结合使用比较灵活,
re用于正则表达式的方法,lxml用于xpath树化对象,
更多推荐
爬虫1:python+requests+xpath抓取豆瓣电影数据1.0
发布评论