首页 > 编程知识文章详情

python爬虫学习指引

编程知识行业动态更新时间:2024-06-13 00:22:57

需要有python基础
- 官方中文文档：docs.python/zh-cn/3/
- 入门的话看菜鸟教程就好
python爬虫相关网络请求包
- urllib库
- requests库
- 两者区别：urllib出来比较早，比较原生，而requests在urllib基础上封装的，一些方法更好用。两者可以实现的功能差不多相同。
curl简单去学习curl，在模拟请求的时候可以用curl去调试
chrome浏览器：一般的web的抓取，用chrome的调试工具调试即可，大部分问题可以解决（包括抓包、调试js代码），切记熟练使用chrome调试工具。
火狐浏览器：当chrome隐藏了一些请求头信息的时候，可以使用火狐浏览器去抓包，火狐中可以看到。
抓包工具charles（Mac os）和fiddler（windows）必须熟悉其中一种。抓app数据包时必须用得到。
爬虫框架：scrapy
- scrapy中文文档：scrapy-chs.readthedocs.io/zh_CN/lates…
解析常用python包
- 一些不规则数据：用正则—>re模块
- dom树结构（html网页）：xpath
- xpath有语法规则：上菜鸟教程上搜索，这个xpath常用语法必须熟练
某些网站做反扒做的很严重，需要调用浏览器来抓取了
- selenium + headless（chromedriver、phantomjs）

总结

上面这些应付web端爬虫目前是可以了，app端抓取可能会使用到一些其他技术，比如说anyproxy等。

更多推荐

python爬虫学习指引

本文发布于:2023-04-03 15:12:00，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/0b68828e45e734508b7280f669531f72.html

版权声明:本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

爬虫 python

上一篇：菜鸟学习Hadoop系列一----安装Hadoop
下一篇：零基础学习前端需要掌握的技术和相关教程

发布评论取消回复

评论列表（有 0 条评论）

热门文章