大型爬虫案例:爬取去哪儿网自由行数据(10万条数据)

编程入门 行业动态 更新时间:2024-10-05 23:21:34

大型<a href=https://www.elefans.com/category/jswz/34/1770264.html style=爬虫案例:爬取去哪儿网自由行数据(10万条数据)"/>

大型爬虫案例:爬取去哪儿网自由行数据(10万条数据)

世界那么大,我想去看看。相信每到暑假期间,就会有很多人都想去旅游。但是去哪里玩,没有攻略这又是个问题。这次作者给大家带来的是爬取去哪网自由行数据。先来讲解一下大概思路,我们去一个城市旅行必定有一个出发地,然后有一个目的地,再然后我们就会搜寻当地的名胜然后选择一条路线。这个就是我们旅行开始之前的准备过程。没有这些,我们的旅行就不能开始。所以这次这个案例的目的就是获取去哪儿网上所有自由行的出发城市,然后获取该出发城市能到达的城市,再获得该目的城市所有的旅行产品。好了,是不是很简单。有了大体的思路,再去实现一个源码就不是难事了。作者在这里用的是Python来实现的,用的库为request库,将数据抓取下后再保存到MongoDB数据库。我们先看一下抓取后的结果。


控制台输出结果

保存到MongoDB数据库,目前数据库有5万多条自由行数据。


1.访问站点解析数据

此次我们访问去哪儿站点的url为“/”这个网址是去哪儿的移动端,因为它返回的数据是JSON格式,JSON格式数据比较容易处理,所以我们以后数据采集的时候,可以优先选择JSON数据。我们用浏览器访问该URL,然后选择自由行这一栏。如下图所示。



我们单击左侧的出发地站点,如下图所示。


打开开发者工具,选中XHR,我们可以从源码中看到全国各个出发地站点根据字母排序。如下图所示。


然后

更多推荐

大型爬虫案例:爬取去哪儿网自由行数据(10万条数据)

本文发布于:2024-02-06 11:06:20,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1748531.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:爬虫   行数   案例   自由   数据

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!