有人知道我可以使用的基于 Python 的网络爬虫吗?

编程入门 行业动态 更新时间:2024-10-26 11:24:50
本文介绍了有人知道我可以使用的基于 Python 的网络爬虫吗?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧! 问题描述

我有点想自己写,但我现在真的没有足够的时间.我看过开源爬虫的维基百科列表,但我更喜欢用 Python 写的东西.我意识到我可能只使用维基百科页面上的工具之一并将其包装在 Python 中.我最终可能会这样做 - 如果有人对这些工具中的任何一个有任何建议,我愿意听取他们的意见.我通过其 Web 界面使用了 Heritrix,但我发现它非常麻烦.我绝对不会在即将开展的项目中使用浏览器 API.

I'm half-tempted to write my own, but I don't really have enough time right now. I've seen the Wikipedia list of open source crawlers but I'd prefer something written in Python. I realize that I could probably just use one of the tools on the Wikipedia page and wrap it in Python. I might end up doing that - if anyone has any advice about any of those tools, I'm open to hearing about them. I've used Heritrix via its web interface and I found it to be quite cumbersome. I definitely won't be using a browser API for my upcoming project.

提前致谢.另外,这是我的第一个 SO 问题!

Thanks in advance. Also, this is my first SO question!

推荐答案

  • 机械化是我的最爱;强大的高级浏览功能(超级简单的表单填写和提交).
  • Twill 是一种建立在 Mechanize 之上的简单脚本语言
  • BeautifulSoup + urllib2 也很好用.
  • Scrapy 看起来是一个非常有前途的项目;这是新的.
    • Mechanize is my favorite; great high-level browsing capabilities (super-simple form filling and submission).
    • Twill is a simple scripting language built on top of Mechanize
    • BeautifulSoup + urllib2 also works quite nicely.
    • Scrapy looks like an extremely promising project; it's new.

更多推荐

有人知道我可以使用的基于 Python 的网络爬虫吗?

本文发布于:2023-10-13 09:40:09,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1487590.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:爬虫   可以使用   网络   Python

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!