Python网络爬虫案例实战：动态网页爬取：selenium爬取动态网页|电子爱好者

admin管理员组
文章数量:1567008

Python网络爬虫案例实战：动态网页爬取：selenium爬取动态网页

利用“审查元素”功能找到源地址十分容易，但是有些网站非常复杂。除此之外，有一些数据真实地址的URL 也十分冗长和复杂，有些网站为了规避这些爬取会对地址进行加密。
因此，在此介绍另一种方法，即使用浏览器渲染引擎，直接用浏览器在显示网页时解析HTML，应用CSS样式并执行JavaScript的语句。此方法在爬虫过程中会打开一个浏览器，加载该网页，自动操作浏览器浏览各个网页，顺便把数据抓下来。通俗地说，就是使用浏览器渲染方法，将爬取动态网页变成了爬取静态网页。
可以用 Python的 selenium库模拟浏览器完成爬取。selenium是一个用于 Web 应用程序测试的工具。selenium测试直接运行在浏览器中，浏览器自动按照脚本代码做出单击、输入、打开、验证等操作，就像真正的用户在操作一样。

4.4.1安装 selenium

selenium的安装非常简单，和其他的Python库一样，可以用pip安装，代码为：

pip install selenium

selenium的脚本可以控制浏览器进行操作，可以实现多个浏览器的调用，包括 IE（7、8、9、10、11）、Firefox、Safari、Google Chrome、Opera等。
安装完成后打开终端，输入python回车，进入Python，如图4-21所示。

接着，在终端中输入from selenium import webdriver并回车。若未报错则成功，如图4-22所示；若失败则重新安装selenium模块。

若输入 web = webdriver.Firefox（）并回车，则打开浏览器。正常情况下会打开一个这样的Firefox，如图4-23所示。

在图4-23中的地址栏带有黄色条纹，还有个小机器人图标。如果出现错误“seleniummon.exceptions.WebDriverException：Message：'geckodriver’executable needs to be in PATH.”，即证明没有安装驱动，这时只需要安装驱动即可。

Mac版 Firefox驱动的下载地址为：http://download.csdn/download/qq_ 34122135/10203884，下载完驱动，解压得到 geckodriver，然后把文件移到/usr/local/bin下面，并赋给x执行权限即可。安装完驱动，然后测试一下用Python 代码控制浏览器打开a百度首页。

from selenium import webdriver
wb = webdriver.Firefox()
wb.get("http://www.baidu")
#打印网页源码
print(wb.page_source)

执行程序得到如图4-24所示界面。可以看到，启动了一个带小机器人图标的Firefox，并且打开了百度首页，控制台也输出了百度首页的所有源码，如图4-25所示。

至此，基本环境就已经配置好了，接下来开始爬取表情包。

4.4.2爬取百度表情包

我们可以使用百度图片捜索功能来实现表情包爬虫。
首先，先打开百度图片，搜索“表情包”，如图4-26所示。
接下来只要分析一下网页结构，按规则过滤就可以得到图片链接了。
用Firefox自带的工具查看即可，在网页上右击弹出快捷菜单，选择“查看元素”命令就可以很清晰地看到文档结构了，如图4-27所示。
其中，对环境结构进行了配置：

至此，环境已经配置好了，文档结构也分析完了，接下来编写代码。下面是下载图片的模块 download.py，代码为：

# -*- coding=utf-8 -*-
from selenium import webdriver
from netutil import download
class ImgSpider(object):
    # wd 搜索的关键字，maxPage最大下载的页数
    def __init__(self, wd="", maxPage = 5):
        # 百度图片搜索的http请求
        self.url = "https://image.baidu/search/flip?tn=baiduimage&ie=utf-8&word="+wd
        # 打开火狐浏览器
        self.wb = webdriver.Firefox()
        # 设置最大下载你页数
        self.deep = maxPage
        self.start = 1
    #     打开第一页
    def first(self):
        # 打开url获取第一页结果
        self.wb.get(self.url)
        # 解析网页
        self.parse()
        # 读取下一页
        self.onNext()
 
    #     递归读取下一页，直到条件不满足
    def onNext(self):
        # 当前页码加1
        self.start += 1
        # 解析网页
        self.parse()
        # 通过xpath方法匹配页码指示器
        element = self.wb.find_element_by_xpath("//div[@id='page']")
        for el in element.find_elements_by_xpath(".//span[@class='pc']"):
            # 获取页码
            str = el.text
            num = int(str)
            # 比较页码，不满足条件则关闭程序
            if num > self.deep:
                self.close()
            #     继续执行下一页操作
            if num == self.start:
                el.click()
                self.onNext()
    #      解析下载图片
    def parse(self):
        # 通过xpath匹配当前网页的所有图片的最上层节点
        imgs = self.wb.find_element_by_xpath('''//div[@id="wrapper"]''')
        i = 0
        # 匹配所有的图片节点，遍历下载
        for img in imgs.find_elements_by_xpath(".//img"):
            i = i + 1
            # 获取img标签的连接
            url = img.get_attribute("src")
            print(url)
            # 给下载模块下载图片
            download.downloadByHttp(url)
    #关闭爬虫
    def close(self):
        self.wb.quit()
        exit()
#开始抓取数据 关键字和最大页数
spider = ImgSpider("表情包", 5)
spider.first()

至此，便完成了表情包的下载。

本文标签：动态网页爬虫实战案例网络

版权声明：本文标题：Python网络爬虫案例实战：动态网页爬取：selenium爬取动态网页内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1724843768a993552.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Python网络爬虫案例实战：动态网页爬取：selenium爬取动态网页

Python网络爬虫案例实战：动态网页爬取：selenium爬取动态网页

4.4.1安装 selenium

4.4.2爬取百度表情包

更多相关文章

[zz]linux下挂载（mount）光盘镜像文件、移动硬盘、U盘、Windows和NFS网络共享

不耗流量！云电脑用的是自己的网络吗？

【python实现网络爬虫（19）】Mac端selemium的使用，谷歌浏览器驱动的下载与安装

按照计算机名共享打印机,添加网络共享打印机

计算机打开共享网络连接打印机共享打印机,我想共享打印机，但是计算机找不到网络方式...

网络上的两台计算机如何互相访问,win10如何实现两台电脑无线互访

东芝打印机共享怎么设置_东芝 e-studio181怎么设置网络打印机

不同的网段添加打印机(共享 网络)思路

连接局域网打印机显示无法连接服务器,网络打印机拒绝访问无法连接处理方法汇总...

两台计算机组成对等网络,实验三对等网的组建

网络打印机计算机服务,网络打印机怎么设置,教您怎么设置网络打印机

内网的打印机共享到外网，实现不同网络的打印机互通

android 手机wifi重启,android – 如何通过重启来记住wifi配置和连接网络

adb修改手机代理网络连接

STM32连接WIFI-ESP8266实战---AP模式运用

网络黑客与防范措施

python爬虫app下载_Python爬虫之抓取APP下载链接

〖Python 数据库开发实战 - MongoDB篇③〗- Windows环境下的MongoDB数据库安装

jmeter 录制app，app获取不到网络

Asp.Net-租车管理系统-30020（免费领源码+开发文档）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、全套文案

发表评论

推荐文章

什么是云开发？云开发与传统开发的对比

Minetest大师，致力于Minetest的游戏盒子

关于卸载旧版vs重装Visual Studio 2019SDK出问题的解决办法

产品经理项目经理管理项目使用最多的12款项目软件对比

Affinity Photo 2被称为Photoshop最佳替代品

热门文章

XShell远程登录华为云服务器

谷歌浏览器无法登录网络教育网站，输入用户密码点击无反应，事件

共享打印机提示服务器没有运行,提示无法共享打印机: “无法显示该属性，后台打印程序服务未运行”...

wifi服务器无响应如何修复,wifi打不开怎么修复？wifi打不开原因是什么

百度输入法 v3.25 for android,【图片】【3.25皮肤更新】LeoStyleHD布局全键盘双键中英9键双拼23键【百度手机输入法吧】_百度贴吧...

Cache for MIPS

(转)SCJP 认证考试指南

常用第三方APP 的url scheme

adb linux 32bit 下载,adb.exe下载_adb.exe64位&amp;32位 官方版下载-无限下载

OneDrive 高速5T网盘使用方法以及Office365永久使用账号获取。

最新文章

OFFICE快捷键

部署KMS激活后用户端一些情况的确认

【rustdesk 】rfc5128 ：跨NATs的P2P通信技术 和rdserver

个人用户永久免费，可自动升级版Excel插件，使用VSTO开发，Excel催化剂功能第8波-快速可视化数据...

project安装包_project 2021的安装步骤_project 2021的优点_project 2021的功能

AxMath保姆级安装教程（word联用）及使用TIPS

Azure自建虚拟机与线下IDC和Office ASA防火墙建立ipsec，实现内网互通

Parallels Desktop2024最新版免费mac苹果电脑虚拟机软件

探索技术新边界：vlmcsd——跨平台开源KMS模拟器

office 2003 ActiveX 控件安全提示

了解Office 365

Office 365：如何管理Office 365中的Ophaned Mailbox

Mindjet MindManager 2023中文版注册序列号

个人永久性免费-Excel催化剂功能第85波-灵活便捷的批量发送短信功能（使用腾讯云接口）...

JetBrain全家桶教育账号申请，每年官方发送一封验证邮箱，验证身份，安全有效

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

不同的网段添加打印机(共享网络)思路

adb linux 32bit 下载,adb.exe下载_adb.exe64位&32位官方版下载-无限下载

【rustdesk 】rfc5128 ：跨NATs的P2P通信技术和rdserver

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载