admin管理员组文章数量:1660706
在今日头条上输入关键词,爬取与关键词相关的新闻各类信息和内容页。
今日头条爬取主要困难如下:
(1)采用下拉翻滚动态加载新的新闻条目,即瀑布流;
(2)内容详情页为动态页面,大部分网页源代码类似字典形式,一部分为带标签的结构化页面。
本文采用两种方式爬取,都将爬取的数据写入到数据库中,主要爬虫代码在JinRiTouTiao.py中,小编在pipelines.py中使用了mysql数据库存储数据,读者可忽略,若使用请配置数据库相关信息。
爬取内容:发布时间、发布者、主题、内容、链接、点赞数、转发数、评论数等。
github链接:https://github/kingdomrushing/SpiderTouTiao-python/tree/master
(一)使用scrapy+Selenium +phantomjs爬取:
爬虫为spiders/JinRiTouTiao.py
使用请运行startFirst.py
因为使用的是Selenium +phantomjs,所以无论是静态页面还是动态页面都可以爬取,抓取十分准确,但是速度非常慢,小编爬时是一分钟两个items,可能与小编的网速和电脑配置不高有关。
使用前需要下载phantomjs,使用方法见https://wwwblogs/zzhzhao/p/5380376.html
(二) 使用scrapy+urllib+lxml爬取:
爬虫为toutiao.py
使用请运行startSecond.py
推荐使用,爬取速度比较快,爬取数据较为准确。
人非圣贤,孰能无过?欢迎大家指正,也欢迎大家有好的想法可以一起交流,小编QQ:2422035338,大家有什么问题或者想法欢迎骚扰。
版权声明:本文标题:根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dongtai/1729881406a1215966.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论