21个Python爬虫开源项目代码，包含微信、淘宝、豆瓣、知乎、微博等|电子爱好者

admin管理员组
文章数量:1608850

2. DouBanSpider – 豆瓣读书爬虫

可以爬下豆瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中，可方便大家筛选搜罗，比如筛选评价人数>1000的高分书籍；可依据不同的主题存储到Excel不同的Sheet ，采用User Agent伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避免爬虫被封。

部分代码截图：

3. zhihu_spider – 知乎爬虫

此项目的功能是爬取知乎用户信息以及人际拓扑关系，爬虫框架使用scrapy，数据存储使用mongo

部分代码截图：

4. bilibili-user – Bilibili用户爬虫

总数据数：20119918，抓取字段：用户id，昵称，性别，头像，等级，经验值，粉丝数，生日，地址，注册时间，签名，等级与经验值等。抓取之后生成B站用户数据报告。

部分代码截图：

5. SinaSpider – 新浪微博爬虫

主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录，可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。

部分代码截图：

6. distribute_crawler – 小说下载分布式爬虫

使用scrapy,Redis, MongoDB,graphite实现的一个分布式网络爬虫,底层存储MongoDB集群,分布式使用Redis实现,爬虫状态显示使用graphite实现，主要针对一个小说站点。

部分代码截图：

7. CnkiSpider – 中国知网爬虫。

设置检索条件后，执行src/CnkiSpider.py抓取数据，抓取数据存储在/data目录下，每个数据文件的第一行为字段名称。

部分代码截图：

8. LianJiaSpider – 链家网爬虫。

爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码，包括链家模拟登录代码。

部分代码截图：

9. scrapy_jingdong – 京东爬虫。

基于scrapy的京东网站爬虫，保存格式为csv。

部分代码截图：

10. QQ-Groups-Spider – QQ 群爬虫。

批量抓取 QQ 群信息，包括群名称、群号、群人数、群主、群简介等内容，最终生成 XLS(X) / CSV 结果文件。

部分代码截图：

11. wooyun_public -乌云爬虫。

乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中，大概约2G内容；如果整站爬全部文本和图片作为离线查询，大概需要10G空间、2小时（10M电信带宽）；爬取全部知识库，总共约500M空间。漏洞搜索使用了Flask作为web server，bootstrap作为前端。

部分代码：

12. spider – hao123网站爬虫。

以hao123为入口页面，滚动爬取外链，收集网址，并记录网址上的内链和外链数目，记录title等信息，windows7 32位上测试，目前每24个小时，可收集数据为10万左右

部分代码：

13. findtrip – 机票爬虫（去哪儿和携程网）。

Findtrip是一个基于Scrapy的机票爬虫，目前整合了国内两大机票网站（去哪儿 + 携程）。

部分代码：

14. QQSpider – QQ空间爬虫，包括日志、说说、个人信息等，一天可抓取 400 万条数据。

部分代码：

15. baidu-music-spider – 百度mp3全站爬虫，使用redis支持断点续传。

本文标签：爬虫淘宝豆瓣开源代码

版权声明：本文标题：21个Python爬虫开源项目代码，包含微信、淘宝、豆瓣、知乎、微博等内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1728554027a1163620.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

21个Python爬虫开源项目代码，包含微信、淘宝、豆瓣、知乎、微博等

更多相关文章

web前端开发常用的10个高端CSS UI开源框架

腾讯十大最受欢迎的开源项目！

在这次采访中，Mendix 披露了低代码方法论

智能终端会议系统（15）---视频会议十大开源编解码项目排行

网络安全实验-SSRF、远程代码执行漏洞、旁注漏洞、越权漏洞、暴力猜解

python简单小游戏代码50行,python编写小游戏的代码

网站在线客服系统源码|在线客服代码下载 (2021最新版)

RapidScada免费开源Scada组态软件系列教程2-关于系统得安装

分享网上流行的50+开源源码下载

最新全国五级行政区划json文件下载链接 全国最新统计用区划代码和城乡划分代码使用指南

python3爬虫（4）各种网站视频下载方法

封禁商业开源惹“众怒”？微软最新回应来了！

开源项目 `motivate` 使用教程

国产最强开源 API 网关

2022 年值得了解的基础设施即代码工具清单

2024年企业开展开源安全治理必要性及可行性详细分析

本周AI热点回顾：十四五规划“人工智能第一！”；深度学习漫画第一卷现已开源；英伟达GPU“屠榜”MLPerf

java代码连接hadoop FileSystem 连接hdfs报错：Connection refused: no further information

Hbase代码运行报错：no route to host......

作业收缴系统设计手册(自写开源小系统)

发表评论

推荐文章

CAD圆与椭圆的初阶练习、CAD扇叶绘制

Springboot计算机毕业设计音乐播放系统mx104

Tomcat的下载与安装

win10连接android手机助手下载,完美win10手机助手-Win10手机助手v1.0.1 官方免费版下载_飞翔下载...

常见Web十大漏洞，常见Web漏洞

热门文章

AUTOCAD——跨文件原位粘贴命令、如何用CAD绘制六角星

AutoCAD 安装

关于在线CAD编辑的解决方案思考

企业级服务器固态硬盘,普通SSD与企业SSD的区别_Intel服务器CPU_企业存储技术与评测-中关村在线...

web渗透工具有哪些？优劣点及新手入门教程（26个工具讲解）

Ubuntu使用apt-get install下载安装一些软件包的时候连接不到cn.archive.ubuntu.com

零信任策略下K8s安全监控最佳实践（K+）

2019年Android中高级工程师部分面试题

使用eclipse的Project Facets创建实体类时提示Further configuration required的解决方法

Python基础——零基础学Python

最新文章

电脑忘记密码无法登录解决方案

win11家庭版开机密码忘记了怎么办？

电脑忘记开机密码很着急？一招搞定

win11系统 忘记开机密码重置密码方法

[转]信息安全相关理论题(三)

windows电脑忘记了开机密码

win10计算机用户密码,win10台式电脑怎么设置开机密码

iPhone开机密码什么时候会用到？忘记了怎么办？

电脑开机密码忘记了，怎么办？

破解WiFi！！——由airmon-ng引起的纷争

1 “IT小百科”之“电脑开机密码忘记了怎么办”

Wins10系统忘记开机密码快速解锁方法（图文教程）

进bios怎么改开机密码

渗透测试--6.2.mdk3攻击wifi

[转]信息安全相关理论题(二)

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

最新全国五级行政区划json文件下载链接全国最新统计用区划代码和城乡划分代码使用指南

win11系统忘记开机密码重置密码方法

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载