scrapy结合selenium进行动态加载页面内容爬取|电子爱好者

admin管理员组
文章数量:1580414

动态页面与静态页面

比较常见的页面形式可以分为两种：

静态页面
动态页面

静态页面和动态页面的区别

使用requests进行数据获取的时候一般使用的是respond.text来获取网页源码，然后通过正则表达式提取出需要的内容。

例如：

import requests
response = requests.get('https://www.baidu')
print(response.text.encode('raw_unicode_escape').decode())

百度源代码.png

但是动态页面使用上述操作后发现，获取到的内容与实际相差很大。

例如我们打开如下页面：

https://www.aqistudy/historydata/monthdata.php?city=北京

右键选择查看网页源代码

查看网页源代码.png

在网页源代码中查找页面中存在的一个数据：2014-02的PM10为155。

北京空气质量指数.png

这时打开F12查看Elements 可以看到155在元素中有显示

检查.png

综上基本可以明白静态页面和动态页面的区别了。

有两种方式可以获取动态页面的内容：

破解JS，实现动态渲染
使用浏览器模拟操作，等待模拟浏览器完成页面渲染

由于第一个比较困难所以选择方法二

需求分析

获取各个城市近年来每天的空气质量

日期
城市
空气质量指数
空气质量等级
pm2.5
pm10
so2
co
no2
o3

使用scrapy

scrapy操作的基本流程如下：

1.创建项目：scrapy startproject 项目名称
2.新建爬虫：scrapy genspider 爬虫文件名 爬虫基础域名
3.编写item
4.spider最后return item
5.在setting中修改pipeline配置
6.在对应pipeline中进行数据持久化操作

创建

打开命令行，输入scrapy startproject air_history ,创建一个名为air_history的scrapy项目

进入该文件夹，输入scrapy genspider area_spider "aqistudy",可以发现在spiders文件夹下多了一个名为area_spider的py文件

文件目录结构大概如下：

.
├── air_history
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── __pycache__
│   │   ├── __init__.cpython-36.pyc
│   │   └

本文标签：加载页面动态内容 scrapy

版权声明：本文标题：scrapy结合selenium进行动态加载页面内容爬取内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1724843586a993529.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

Win10 出现恢复，无法加载操作系统，关键系统驱动程序丢失或错误蓝屏错误代码0xc000007b

1天前

环境： 惠普台式机 Win 10 专业版问题描述： 电脑开机突然蓝屏C:WindowsSystem32driverswdWdBoot.sys 错误代码:0xc000007b 解决

java 字节码 class$com 如何生成的_JVM --字节码的加载

1天前

ClassLoader类加载器常见的类加载器有BootStrapClassLoader BootStrapClassLoader：加载Java自带的核心类； ExtClassLoader加载在

JavaScript动态创建script标签并执行js代码

1天前

document.write()会清空原来的内容原因

1天前

http:www.softwhyforum.php?modviewthread&tid13582 <meta name"author" content"http:www.softwhy

规定form表单提交的页面打开方式

1天前

在实际应用中，可能有这样的需要，那就是提交表单之后，要求以某一种方式打开接收数据的页面。下面就通过代码实例做一下简单介绍。代码如下: 01 02 03 04 05 06

关于document.write()函数对文档流内容的清空问题

1天前

我只是做一个简化的记录，这里附上原文作者地址情况一： <script type"textjavascript">window.onloadfuncti

dwg怎么转换成html,web html页面显示autocad等dwg格式图形文件方法

1天前

2中思路，一种是转换后显示，比如vectordraw，将dwg转换成vds格式，再在web中显示，支持图层啊之类。还有CADViewer JS是转成SVG，pdf等格式，然后用web浏览……其实转换格式也是一个办法，用golang在后端，当

destoon6.0搜索页面熊掌号改造方案

1天前

最近因为做DT的项目开发，所以这几期的原创文章都是关于DT的。熊掌号大家想必都知道吧，是比较热门的。百度熊掌号是内容和服务提供者入驻百度生态的实名账号，致力于帮助内容和服务提

基于百度AI的内容审核平台+Jsoup网络爬虫开发的一个自动审核小说程序（以纵横中文网为例）

1天前

这个程序是我的毕业设计所设计的一个程序，由于时间原因，可能有些地方或者细节没有考虑清楚，请各位多多包涵最后的源代码工程我已经上传，有需要的可以自取，希望可以帮助到大家程序简介此程序使用Java语言进行开发，具体的功能有以下几点：

tensorflow2.x 在Python中持续加载模型导致内存泄露

22小时前

关于tensorflow2.3警告问题，cpu内存不断增长在使用tensorflow2.0以后版本的模型去predict()的时候，会出现一下警告： warning "5 out of the last calls to &

Python如何将仅包含音频内容的Mp4，提取并转换为Mp3

17小时前

关于如何将Mp4转换为Mp3的文章很多，方案也都很有效。但是这其中的大部分方法，并不适用于该Mp4文件中仅包含音频内容的情况，比如：有人从YouTube

vmware: 磁盘加载问题导致，emergency mode: login incorrect 滚动打印

15小时前

文章目录服务问题调试&解释异常日志为什么进入Emergency shell 呢为什么local-fs.target 失败为什么storage.mount 超时服务单元的依赖关系那最后进入emergency mode 为什么会滚Lo

【小5聊】谷歌浏览器 - 不用安装插件截取整个页面

8小时前

【谷歌浏览器自带的截屏功能】第一步：在目标页面，按键盘F12，弹出如下效果 image 第二步：同时按shiftctrlp键&#xff0c

谷歌浏览器导致图片无法加载解决方法总结

7小时前

解决方法一参考：http:www.vimiyadazahui198679.html 解决浏览器图片不显示快捷方式后面加空格接着 -disable-ssl-false-start 解决方法二参考设置-隐

谷歌浏览器清除搜索框曾搜索内容

7小时前

谷歌浏览器提示如图，关闭方法： 1.打开设置 2. 3.点击高级选中此项，将其清楚即可

chrome谷歌浏览器调试微信H5页面

7小时前

1.打开微信TBS调试 http:debugx5.qq（微信中打开） 或者扫描这个二维码3.用数据线连接手机4.打开手机的USB调试手机型号不同打开USB调试方式可以也不一样&

解决浏览器启动页面跳转2345问题

3小时前

在使用浏览器可能由于使用不当启动界面将WeTab标签页变成2345界面。经过多次尝试操作，有效操作解决办法将浏览器属性目标2345后缀去掉改成操作结束后，页面恢复成之前的

两句css 搞定页面滚动时的卡顿问题？

1小时前

前言对于网页的卡顿性能优化，我们首先想到的肯定是从JavaScript开始。但这个锅js表示不背😂，但不是js的原因又会是什么原因了？文章内容不多

php显示emlog响应速度,emlog首页加载速度缓慢卡顿解决教程

1小时前

最近挺多人问IT辅导说“为什么都是用的 emlog，首页加载速度怎么就天差地别呢” 那么今天IT辅导就来简单讲解一下吧，原因有很多种。 1、服务器配置不是很好 2、你手机或者电脑网速不行(当我没说

计算机打开页面恢复默认大小,win10怎样恢复Windows窗口默认的大小？

41分钟前

正在阅读：win10怎样恢复Windows窗口默认的大小？win10怎样恢复Windows窗口默认的大小？ 2018-04-10 15:56 出处：其他

电子爱好者 - 最新技术资讯及电子产品介绍！

scrapy结合selenium进行动态加载页面内容爬取

动态页面与静态页面

需求分析

使用scrapy

创建

更多相关文章

Win10 出现恢复，无法加载操作系统，关键系统驱动程序丢失或错误 蓝屏错误代码0xc000007b

java 字节码 class$com 如何生成的_JVM --字节码的加载

JavaScript动态创建script标签并执行js代码

document.write()会清空原来的内容原因

规定form表单提交的页面打开方式

关于document.write()函数对文档流内容的清空问题

dwg怎么转换成html,web html页面显示autocad等dwg格式图形文件方法

destoon6.0搜索页面熊掌号改造方案

基于百度AI的内容审核平台+Jsoup网络爬虫开发的一个自动审核小说程序（以纵横中文网为例）

tensorflow2.x 在Python中持续加载模型导致内存泄露

Python如何将仅包含音频内容的Mp4，提取并转换为Mp3

vmware: 磁盘加载问题导致，emergency mode: login incorrect 滚动打印

【小5聊】谷歌浏览器 - 不用安装插件截取整个页面

谷歌浏览器导致图片无法加载解决方法总结

谷歌浏览器清除搜索框曾搜索内容

chrome谷歌浏览器调试微信H5页面

解决浏览器启动页面跳转2345问题

两句css 搞定页面滚动时的卡顿问题？

php显示emlog响应速度,emlog首页加载速度缓慢卡顿解决教程

计算机打开页面恢复默认大小,win10怎样恢复Windows窗口默认的大小？

发表评论

推荐文章

error parsing deployment-nginx.yml: error converting YAML to JSON: yaml: line 19 问题解决

Windows下安装pytorch的全过程，踩了不少坑（有cuda10.1和cudnn10.1的网盘链接）

5分钟实现一个百度网盘资源搜索引擎，不用写代码...

用python写搜索引擎_用python做一个搜索引擎(Pylucene)的实例代码

Windows 10 和 Windows Server 2016 更新历史记录

热门文章

电脑定时关机怎么设置？3个小秘诀，告别电脑疲劳

关于联通IPTV盒子和光猫之间接无线路由器

一、OSPFv2原理详解

如何使用视频转换器将ogg格式转换为MP3格式

Centos 7 虚拟机启动，Entering emergency mode问题解决

如何在域名解析里单独给“搜索引擎”线路解析到“源站IP”

搜索引擎索引的简单介绍

大公司都有哪些开源项目~~~阿里，百度，腾讯，360，新浪，网易，小米等

hive调优：案例详解(第16天）

熟悉Python从由浅入深（Python基础篇）

最新文章

OpenHarmony学习笔记——网络通信

如何使用Reaver破解Wi-Fi网络的WPA密码

Python用20行代码实现完整邮件功能 [完整代码+建议收藏]

Bugku：杂项 想蹭网先破解密码

使用esp8266制作wifi干扰器

上了这套密码锁，你就无敌了

Airmon-ng抓包&amp;破解wifi

项目配置不当引发了数据泄露，人已裂开！！（建议收藏）

WiFi里的猫腻

r4s创建热点设置密码后无法连接的解决办法（提示密码错误）

【爬虫实战】同学利用Python拥有了全部的人物皮肤，隔壁班的同学们都馋哭了~(源码分享)

5G时代即将到来，有线网络WiFi会消失不见吗？

wifi乐事多

为树莓派配置Wifi

硬核！4.5万字手把手教你搭建MySQL海量数据存储架构！！（全程实战，建议收藏）

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

Win10 出现恢复，无法加载操作系统，关键系统驱动程序丢失或错误蓝屏错误代码0xc000007b

Bugku：杂项想蹭网先破解密码

Airmon-ng抓包&破解wifi

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载