二手房静态页面爬取数据"/>
北邮 python 链家二手房静态页面爬取数据
声明:用途仅供学习使用
实验二 爬取链家官网新房的数据
一.实验题目
爬取链家官网二手房的数据
/
要求爬取北京市东城、西城、海淀和朝阳四个城区的数据(每个区爬取5页),将楼盘名称、总价、平米数、单价保存到json文件中。
二.实验环境
Pycharm 3.7.0
三.实验分析
(一)思路分析
1.打开链家官方二手房,点击检查,找到我们需要的信息所在位置:
下列每一个li里面都是一个二手房的信息:
点开第一个li,找到相关信息:
确定采用静态页面爬取。
(二)整体实现
(1)确定存储的数据结构,即items.py文件如下所示:
(2)构造spider.py程序
① 允许爬取的网站的域名和开始爬取的网址
②解析爬取内容的函数进行重载
其中使用try…except结构的原因在于页面中可能出现广告,然后爬取的内容解析为空,导致程序允许出现问题。
③ 实现爬取多个页面以及不同区域的页面的爬取
1)进行四个不同区域的网址首页进行存储
2)进行循环调用Request函数,进行同一区域的不同页面和不同区域的不同页面进行爬取
⑤pipelines.py程序实现
(三)爬取结果(前50条数据)
同第一个实验,为了让爬取页面的返回结果按照我们希望的顺序,那么加入
即可将需要的数据按照我们希望的顺序出现。
以下为按照顺序的输出数据(由于数据字串较大长,使用notepad打开该文件截屏):
更多推荐
北邮 python 链家二手房静态页面爬取数据
发布评论