北邮 python 链家二手房静态页面爬取数据

编程入门 行业动态 更新时间:2024-10-25 02:26:25

北邮 python 链家<a href=https://www.elefans.com/category/jswz/34/1765210.html style=二手房静态页面爬取数据"/>

北邮 python 链家二手房静态页面爬取数据

声明:用途仅供学习使用

实验二 爬取链家官网新房的数据

一.实验题目

爬取链家官网二手房的数据
/
要求爬取北京市东城、西城、海淀和朝阳四个城区的数据(每个区爬取5页),将楼盘名称、总价、平米数、单价保存到json文件中。

二.实验环境

Pycharm 3.7.0

三.实验分析
(一)思路分析

1.打开链家官方二手房,点击检查,找到我们需要的信息所在位置:

下列每一个li里面都是一个二手房的信息:

点开第一个li,找到相关信息:

确定采用静态页面爬取。

(二)整体实现

(1)确定存储的数据结构,即items.py文件如下所示:

(2)构造spider.py程序

① 允许爬取的网站的域名和开始爬取的网址

②解析爬取内容的函数进行重载


其中使用try…except结构的原因在于页面中可能出现广告,然后爬取的内容解析为空,导致程序允许出现问题。

③ 实现爬取多个页面以及不同区域的页面的爬取

1)进行四个不同区域的网址首页进行存储

2)进行循环调用Request函数,进行同一区域的不同页面和不同区域的不同页面进行爬取

⑤pipelines.py程序实现

(三)爬取结果(前50条数据)

同第一个实验,为了让爬取页面的返回结果按照我们希望的顺序,那么加入

即可将需要的数据按照我们希望的顺序出现。
以下为按照顺序的输出数据(由于数据字串较大长,使用notepad打开该文件截屏):

更多推荐

北邮 python 链家二手房静态页面爬取数据

本文发布于:2024-02-17 15:06:13,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1694463.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:二手房   静态   北邮   页面   数据

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!