动态渲染页面的爬取（项目案例：爬取今日头条热点新闻）|电子爱好者

admin管理员组
文章数量:1660864

声明：本文内容来自张涛的《从零开始学Scrapy网络爬虫》

在使用Selenium的过程中，我们驱动的都是Chrome、FireFox等有界面的浏览器，效率极低。对爬虫来说，只要能高效地获取数据，有无界面根本无关紧要，因此本项目选择使用无界面的浏览器PhantomJS。

1.准备工作

项目开始强，要保证必要的环境已经成功搭建。主要有Selenium和PhantomJS。
（1）使用pip安装Selenium。

pip install selenium

（2）下载PhantomJS驱动并配置环境。

2.创建Scrapy项目

创建一个名为toutiao的scrapy项目。

 scrapy startproject toutiao

3.使用Item封装数据

打开项目toutiao中的items.py源文件，添加新闻字段，实现代码如下：

import scrapy


class ToutiaoItem(scrapy.Item):
    title = scrapy.Field() # 标题
    source = scrapy.Field() # 来源
    comment = scrapy.Field() # 评论数

4.创建Spider源文件及Spider类

在Spider文件夹中新建toutiao_spier.py文件。在toutiao_spider.py中创建爬虫类ToutiaoSpider,实现代码如下：

from scrapy import Request
import sys
sys.path.append('D:\\pythonProject\\scrapy\\toutiao')
from scrapy.spiders import Spider

from toutiao.items import ToutiaoItem # 导入Item模块
from selenium import webdriver # 导入浏览器引擎模块

class ToutiaoSpider(Spider):
    # 定义爬虫名称
    name = 'toutiao'
    # 构造函数
    def __init__(self):
        # 生成PhantomJS的对象driver
        self.driver = webdriver.PhantomJS()

    # 获取初始的Request
    def start_requests(self):
        url = "https://www.toutiao/?channel=hot&source=ch" # 生成请求对象，设置url

        yield Request(url)

    # 数据解析方法
    def parse(self,response):
    	pass

首先，导入必要的模块；接着，定义ToutiaoSpider类，类中定义了3个方法：
（1）init():构建函数中生成了phantomjs的对象driver。
（2）start_requests():生成初始Request对象，虽然会被拦截，还是需要这一步。
（3）parse()：数据解析功能暂不实现。

5.实现下载器中间件

在新建项目时，自动生成了一个middlewares.py的源文件，叫做中间件。中间件包含爬虫中间件和下载器中间件，分别对应源文件中ToutiaoSpiderMiddleware 类和 ToutiaoDownloaderMiddleware 类。下面就在ToutiaoDownloaderMiddleware类中实现使用Selenium请求和下载页面。
以下为ToutiaoDownloaderMiddleware类实现的代码：

import time # 时间模块
from scrapy.http import HtmlResponse # html响应模块
from selenium.webdrivermon.by import By # By模块
from selenium.webdriver.support.wait import WebDriverWait # 等待模块
from selenium.webdriver.support import expected_conditions as EC # 预期条件模块

# 异常模块
from seleniummon.exceptions import TimeoutException,NoSuchElementException
class ToutiaoDownloaderMiddleware(object):
    def process_request(self,request,spider):
        # 判断name是toutiao的爬虫
        if spider.name == "toutiao":
            # 打开URL对应的页面
            spider.driver.get(request.url)

            try:
                # 设置显式等待，最长等待5秒
                wait = WebDriverWait(spider.driver,5)
                # 等待新闻列表容器加载完成
                wait.until(EC.presence_of_element_located((By.XPATH,"//div[@class='wcommonFeed']")))
                # 使用JS的scrollTo方法实现将页面向下滚动到中间
                spider.driver.execute_script('window.scrollTo(0,document.body.scrollHeight/2)')
                for i in range(10):
                    time.sleep(5)
                    # 使用JS的scrollTo方法将页面滚动到最底端
                    spider.driver.execute_script('window.scrollTo(0,document.body.scrollHeignt)')

                # 获取加载完成的页面源代码
                origin_code = spider.driver.page_source
                # 将源代码构造成一个Response对象并返回
                res = HtmlResponse(url=request.url,encodings="utf8",body=origin_code,request=request)
                return res
            except TimeoutException: # 超时
                print("time out")
            except NoSuchElementException: # 无此元素
                print("no such element")
        return None

首先导入必要的模块，有时间模块、响应模块、By模块、等待模块、预期条件模块和异常模块。
ToutiaoDownloaderMiddleware 类中的process_request(self,request,spider)方法专门用于处理从爬虫发送过来的HTTP请求，共有两个参数：参数request传递HTTP请求对象；参数spider传递爬虫对象（一个项目可以有多个爬虫）。所有的功能都是在该方法中实现。
在方法process_request()中，首先，通过spider.name == toutiao来确定要处理的请求是从名为toutiao的爬虫处传递的；然后，通过driver的get()方法实现使用Selenium获取指定的URL页面，并通过WebDriverWait()方法设置最长等待时间，等待新闻列表的div容器加载完成；接着，使用driver的execute_script()方法执行JS命令，将页面滚动到底部，无法加载更多内容）；再每隔5秒钟，将页面滚动到最底部（重复10次），这样页面就会不断加载更多新闻内容；最后，通过driver.page_source()方法获取加载完整的页面文档构造一个Response对象，返回给爬虫。

6.开启下载器中间件

下载器中间件默认关闭，需要手动开启。在settings.py中将对应的注释放开即可，代码如下：

7.解析数据（我写的是完整代码）

下载器中间件构造一个Response对象后，将其发送给ToutiaoSpider爬虫类的parse()方法，实现数据的解析。再回到ToutiaoSpider类，完成parse()方法。parse()方法的实现代码如下：

from scrapy import Request
import sys
sys.path.append('D:\\pythonProject\\scrapy\\toutiao')
from scrapy.spiders import Spider

from toutiao.items import ToutiaoItem # 导入Item模块
from selenium import webdriver # 导入浏览器引擎模块

class ToutiaoSpider(Spider):
    # 定义爬虫名称
    name = 'toutiao'
    # 构造函数
    def __init__(self):
        # 生成PhantomJS的对象driver
        self.driver = webdriver.PhantomJS()

    # 获取初始的Request
    def start_requests(self):
        url = "https://www.toutiao/?channel=hot&source=ch" # 生成请求对象，设置url

        yield Request(url)

    # 数据解析方法
    def parse(self,response):
        item = ToutiaoItem()
        list_selector = response.xpath("//div[@class='wcommonFeed']/u1/li")
        for li in  list_selector:
            try:
                # 标题
                title = li.xpath(".//a[@class='link title']/text()").extract()
                # 去除空格
                title = title[0].strip(" ")
                # 来源
                source = li.xpath(".//a[@class='lbtn source']/text()").extract()
                # 去除点号和全角空格
                source = source[0].strip(". ").strip(" ")
                # 评论数
                comment = li.xpath(".//a[@class='lbtn comment']/text()")
                # 去除文字及空格
                comment = comment.re("(.*?)评论")[0]
                comment = "".join(comment.split()) # 去除空格：&nbsp
                item["title"] = title # 标题
                item["source"] = source # 来源
                item["comment"] = comment # 评论数
                yield item
            except:
                continue

在Chrome浏览器的“开发者工具”中的Element选项卡中，显示的就是加载完全的HTML代码（包括AJAX加载的数据），如下图所示。通过对HTML代码的分析，就能很容易地实现数据解析了。

我一直没找到div[@class=‘wcommonFeed’]，希望大佬们可以看看，这个属性是在哪里的？

8.运行爬虫

通过命令运行爬虫，将数据保存于toutiao.csv文件中。

scrapy crawl toutiao -o toutiao.csv

第一次运行，出现以下报错信息
解决措施，详见https://blog.csdn/u010358168/article/details/79749149
再次运行,虽然没有报错，但是得到仍然是空的csv文件，按照书上建议（1）
仍然是没有数据结果，希望发现问题所在的大佬解答哈

本文标签：头条热点新闻案例页面今日

版权声明：本文标题：动态渲染页面的爬取（项目案例：爬取今日头条热点新闻）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729881527a1215979.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

html头条新闻样式,请问今日头条图片频道布局样式如何实现的？

3小时前

Title *{ margin: 0; padding: 0; } ul,li{ list-style: none; } .middle { width: 136px; height: 136px; } .right { float: ri

仿头条新闻嵌入富文本编辑器

3小时前

首页首页中有分页查询，模糊查询，增加，修改，删除，查看1和查看2，列表按钮添加页面添加页面中有对

Python---分页爬取今日头条标题

3小时前

python分页爬取今日头条标题要爬取的内容（分页爬取今日头条中77事件的所有文章标题） 爬取结果展示（只展示出了部分） #工具&#xff1

Android基于viewpager和tablayout实现类似今日头条和腾讯新闻的界面

3小时前

简介在现在的安卓开发中，大部分需求会经常遇上viewpager和tablayout组合实现的功能，然后通过网络请求拿到数据然后显示在页面上，之前自己也在网上搜索过一些文章

今日头条 mysql_今日头条的核心架构解析

3小时前

5亿注册用户其中：2014年5月1.5亿，2015年5月3亿，2016年5月份为5亿。几乎为成倍增长。日活4800万用户 2014年为1000万日活&#xff0c

今日头条怎么刷文章阅读量_今日头条能刷阅读量吗？

3小时前

今日头条目前已成为主流自媒体平台，每日流量可谓非常之大。很多做自媒体的朋友一直发愁如何提高今日头条等自媒体平台的阅读量。自头条号推出新规则后，让很多新手很高兴，因为不用苦苦转

java新闻爬虫_java实现简单的爬虫之今日头条

3小时前

前言需要提前说下的是，由于今日头条的文章的特殊性，所以无法直接获取文章的地址，需要获取文章的id然后在拼接成url再访问。下面话不多说了，直接上代码。

Android Studio初学者实例：RecyclerView学习--模仿今日头条

3小时前

本案例来自于学校的一个简单的课程实验先看效果图，可以显然的看到，一些item是不同的布局，而其他布局就是简单的布局嵌套看一下xml代码： <

抓取今日头条新闻

3小时前

抓取内容文章作者信息也就是文章作者管理客户端提供文章作者首页地址，http:www.toutiaocuser6310889977 通过如下方式可以获取到作者信息: publicvoidtest2()

青龙面板----今日头条脚本修复版

3小时前

安卓: 今日头条极速版老用户每天几毛，新用户可能收益高点普通版定时： 1-5915 6-23 * * * 激进版定时： 1-595 * * * * 多用户跑的

iOS仿今日头条顶部新闻分页

3小时前

仿今日头条顶部新闻分页近日闲来无事总是刷头条,突然发现了一个有趣的现象,如下图: 当你滑动或者点击分页的名字的时候,不管当时那个分页在哪,最后都会被滚动到最中间.我又去翻了其他的资讯类的app,发现基本很多都是这样做的.抱着求知的心态,

（android高仿系列）今日头条 --新闻阅读器（三）完结、总结篇

3小时前

从写第一篇今日头条高仿系列开始，到现在已经过去了1个多月了，其实大体都做好了，就是迟迟没有放出来，因为我觉得，做这个东西也是有个过

今日头条付费项目，帮你赚到更多的钱，学会钱生钱的玩法

3小时前

今日头条作为一款广受欢迎的新闻资讯平台，其付费项目为用户提供了更多赚钱的机会。本文将探讨今日头条付费项目的运作方式以及如何利用这些项目学会钱生钱的玩法，帮助你赚到更多的钱。今日头条付费项目概述

java爬虫系列（五）——今日头条文章爬虫实战

3小时前

文章目录项目源码爬虫目标爬虫设计思路爬取方式动态解析网页方式爬取解析接口方式爬取解析思路破解入口接口对比破解加密参数参数生成方式解析js 分析接口返回值解析原文地址 java项目解析基本功能队列和线程池操作界面——swagger2 总结

python 刷手机今日头条金币_刷金币全自动脚本 | 让Python每天帮你薅一个早餐钱（送源码）...

3小时前

刷金币全自动脚本 | 让Python每天帮你薅一个早餐钱(送源码) 测试开发社区 6天前阅读文本大概需要 12 分钟。 1 目标场景以今日头条极速版为首，包含趣头条、东方头条、全名小视频在内的 App 都有

Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻

3小时前

0x0 背景最近学习爬虫，分析了几种主流的爬虫框架，决定使用最原始的两大框架进行练手： Jsoup&HttpUnit 其中jsoup可以获取静态页面&#

playwrite今日头条自动发帖

3小时前

目的大家好，我是watchpoints ，一个只为自己打工程序员， watchpoints是我github用户名 ，也是我的wechat 用户名&am

用requests包爬取今日头条新闻标题

3小时前

全码如下： # requests# 用来发送url（请求request），获取服务器响应import requestsimport jsonif __name__ == '__main__':# 1.目标 ur

python爬取今日头条瀑布流_连续动作：滚屏采集瀑布流网页—以头条新闻为例

3小时前

常见的网页大多数在页面下方会有翻页的按钮，比如“下一页”、“加载更多”，这类网页设置翻页就可以搞定，但是瀑布流网页没有这些按钮，而是随着鼠标滚动会不停的

信创（麒麟）操作系统选型适配及实施经验（结合案例详细分享）

1小时前

【摘要】企业在推进国产化过程中势必要选择一款主流、稳定、安全的服务器操作系统产品作为系统软件，而在产品投入实际生产环境前，需要对上游常用的软硬件适配情况有一定了解。本文主要介绍银河麒麟高级服务器操作系统V10（后续简称麒麟V10）常用软件适

电子爱好者 - 最新技术资讯及电子产品介绍！

动态渲染页面的爬取（项目案例：爬取今日头条热点新闻）

声明：本文内容来自 张涛的《从零开始学Scrapy网络爬虫》

1.准备工作

2.创建Scrapy项目

3.使用Item封装数据

4.创建Spider源文件及Spider类

5.实现下载器中间件

6.开启下载器中间件

7.解析数据（我写的是完整代码）

我一直没找到div[@class=‘wcommonFeed’]，希望大佬们可以看看，这个属性是在哪里的？

8.运行爬虫

更多相关文章

html头条新闻样式,请问今日头条图片频道布局样式如何实现的？

仿头条新闻嵌入富文本编辑器

Python---分页爬取今日头条标题

Android基于viewpager和tablayout实现类似今日头条和腾讯新闻的界面

今日头条 mysql_今日头条的核心架构解析

今日头条怎么刷文章阅读量_今日头条能刷阅读量吗？

java新闻爬虫_java实现简单的爬虫之今日头条

Android Studio初学者实例：RecyclerView学习--模仿今日头条

抓取今日头条新闻

青龙面板----今日头条脚本修复版

iOS仿今日头条顶部新闻分页

（android高仿系列）今日头条 --新闻阅读器 （三） 完结 、总结 篇

今日头条付费项目，帮你赚到更多的钱，学会钱生钱的玩法

java爬虫系列（五）——今日头条文章爬虫实战

python 刷手机今日头条金币_刷金币全自动脚本 | 让Python每天帮你薅一个早餐钱（送源码）...

Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻

playwrite今日头条自动发帖

用requests包爬取今日头条新闻标题

python爬取今日头条瀑布流_连续动作：滚屏采集瀑布流网页—以头条新闻为例

信创（麒麟）操作系统选型适配及实施经验（结合案例详细分享）

发表评论

推荐文章

怎么图片转换html格式,将图片转换成HTML格式的文字图程序源代码

Quartus工程的qsf配置约束文件介绍

『香橙派』基于Orange Pi AIpro打造高效个人云存储解决方案

工作总结

利用文件的md5值查重并删除重复的文件

热门文章

android 7 uc flash player,大神教你解决win7系统uc浏览器提示flash player遭到阻止的详细办法...

使用Reveal查看任意App的技巧

OpenGL超级宝典（第7版）之第十二章管线监控

解决使用USB键盘进行游戏后按任意键出现蓝屏的错误

php自动播放mp3,jquery控制背景音乐开关与自动播放提示音的方法_jquery

前端组件库大合集

从零开始学五笔（三）：横区字根

计算机书籍排版抓图要求,计算机录入与排版

android 实现仿今日头条推荐列表界面

今日头条极速版【青龙面板】

最新文章

关于 微软商店无法加载页面 显示错误代码0x80131500的解决办法

微软出品可以免费使用的 monitor 应用程序验证器：AppVerifier

【html代码】Windows网页版界面源码

mysql57安装windows -windows版mysql57安装 -mysql自定义安装路径 -mysql57官网下载 -mysql57修改密码

下载:微软在TechNetMSDN发布的Windows 7 RTM

微软远程桌面，微软远程桌面连接可以卸载吗

微软远程桌面优化

服务器内网怎么更新微软补丁,架WSUS服务器 内网自动打补丁

iis7.0官方下载 IIS 7.0(微软Web服务器组件IIS 7.0) 官方(windows 2003,XP,2000)

使用Windows 7 USBDVD Download Tool制作WIN7系统安装盘

【Intel官方】Windows7系统加载USB3.0驱动教程

一些微软编程工具或SDK的官方下载地址

Windows 上可以安装 Apple Music 吗?

微软服务器更新通知,产品技术-微软安全公告 MS17-010 Microsoft Windows SMB 服务器安全更新 (4013389)-新华三集团-H3C...

Windows无法为计算机分级,10个Windows7常见问题解决方案

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

声明：本文内容来自张涛的《从零开始学Scrapy网络爬虫》

（android高仿系列）今日头条 --新闻阅读器（三）完结、总结篇

关于微软商店无法加载页面显示错误代码0x80131500的解决办法

服务器内网怎么更新微软补丁,架WSUS服务器内网自动打补丁

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载