python爬虫学习指引

编程知识 行业动态 更新时间:2024-06-13 00:22:57
  • 需要有python基础

    • 官方中文文档:docs.python/zh-cn/3/
    • 入门的话看菜鸟教程就好
  • python爬虫相关网络请求包

    • urllib库
    • requests库
    • 两者区别:urllib出来比较早,比较原生,而requests在urllib基础上封装的,一些方法更好用。两者可以实现的功能差不多相同。
  • curl简单去学习curl,在模拟请求的时候可以用curl去调试

  • chrome浏览器:一般的web的抓取,用chrome的调试工具调试即可,大部分问题可以解决(包括抓包、调试js代码),切记熟练使用chrome调试工具。

  • 火狐浏览器:当chrome隐藏了一些请求头信息的时候,可以使用火狐浏览器去抓包,火狐中可以看到。

  • 抓包工具charles(Mac os)和fiddler(windows)必须熟悉其中一种。抓app数据包时必须用得到。

  • 爬虫框架:scrapy

    • scrapy中文文档:scrapy-chs.readthedocs.io/zh_CN/lates…
  • 解析常用python包

    • 一些不规则数据:用正则—>re模块
    • dom树结构(html网页):xpath
    • xpath有语法规则:上菜鸟教程上搜索,这个xpath常用语法必须熟练
  • 某些网站做反扒做的很严重,需要调用浏览器来抓取了

    • selenium + headless(chromedriver、phantomjs)

总结

上面这些应付web端爬虫目前是可以了,app端抓取可能会使用到一些其他技术,比如说anyproxy等。

更多推荐

python爬虫学习指引

本文发布于:2023-04-03 15:12:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/0b68828e45e734508b7280f669531f72.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:爬虫   python

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!