【Python爬虫】动态网页爬虫构建，selenium库简单使用，PC端QQ腾讯文档自动打卡爬虫完整项目|电子爱好者

admin管理员组
文章数量:1567044

提前了解

开发者工具：windows系统下，浏览器一般都有开发者工具，这能帮助我们分析网页的元素、提取网页中的目标信息。在目标网页启用工具有两种方式，分别是鼠标右键“检查”选项和三点菜单—更多工具—开发人员工具（F12键也行，读者可通过浏览器设置开启“开发人员模式”尝试，但我的好像坏了），如下图：

启用开发者工具后如下图：

动态网页：就是不对网页进行操作（点击、滚动等），网页上某些元素就处于隐藏状态，这时使用requests库无法获取这些隐藏信息。有些网页的结构是一个frame套着一个frame，比如进入QQ音乐官网就是一个frame，点击“登录”后出现小一点的登录界面，就是一个新frame嵌在里面，但是不点击“登录”开发者工具也看不到，
selenium库：可以模拟人完成一些对网页的事件，如点击、滚动、键入信息等。因此可以用来读取动态网页的信息。不过还需搭配浏览器驱动webdriver，需要下载的读者请点击：selenium库支持的几种浏览器。对于其他浏览器，读者可以利用代码提示功能在语句“webdriver”后查看，如果没有，自行搜索如何下载对应驱动。

使用selenium库做爬虫的常用语句：

打开浏览器（Edge为例）

from selenium import webdriver
browser = webdriver.Edge()

访问url
```
browser.get(url)
```

找目标元素

from selenium.webdriver.common.by import By
element = browser.find_element(By.CLASS_NAME, 'qq')
# By里面有XPATH、ID、NAME等其他匹配方式

转换frame
```
browser.switch_to.frame(new_frame) 
```
回到父frame
```
browser.switch_to.parent_frame()
```
关闭浏览器
```
browser.quit()
```

分析

逐步分析PC端QQ腾讯文档打卡的网页，与在QQ直接打开打卡链接不同的是，使用selenium打开的网页需要登录腾讯文档。由此，以Edge浏览器为例，启动开发者工具，开始分析打卡过程中网页内容的变化。
首先使用selenium和安装的浏览器驱动打开QQ腾讯文档打卡链接，如下图：

使用开发者工具分析如下：

注意：可以点击黑色圆圈中的图标，再点击网页上的目标元素，即可迅速在工具中定位出目标代码，如红色圈住的部分！
需要先登录才能打卡，因此需要点击“登录腾讯文档”，在工具中可以看出目标元素“登录腾讯文档”具有“id”和“class”等属性，可以用来定位代表“登录腾讯文档”的button。如果报错、定位不了，可以使用XPATH定位，在工具中使用快捷键“Ctrl + F”，出现搜索框，接着按照像“html”、“div”、“button”这样的元素标签，输入路径如下，相同的标签从1开始计使用“div[1]”表示，如下图：

在工具中XPATH路径正确，则目标元素如上图高亮，该路径就能在代码中用来定位。以上就是利用开发者工具定位目标元素的方法，后面不再赘述。
点击“登录腾讯文档”，接着出现下图：

需要选择登录方式，我们选择点击中间的“QQ登录”，于是出现下图：

这里需要注意，下图中，在工具中出现两个红圈中的“iframe”标签，表明就是依次嵌套的两个子frame，因此必须转换frame才能定位到大红圈中的“密码登录”链接元素。当然，如果后面需要操作最外面的主frame的元素，必须回到主frame才能定位。

点击“密码登录”，出现下图：

我们键入自己的QQ账号与密码，接着点击“登录”，出现下图：

此时点击“获取定位”，并点击“提交”，还会出现最后的确认界面如下：

点击“确认”，完成打卡。

代码

以下代码非完整项目代码，不可直接复制使用，但“分析”部分提到的操作都实现了，读者需要定义代码中字符大写的变量并且也是同样的QQ腾讯文档打卡才可以直接使用。此外，我将代码包装成了PC-Windows版exe应用文件，可以实现每天自动打卡（我以前总是忘记打卡，就搞了个这么小东西），需要的读者可以看向源码部分，但是这里事先说明：因为个人能力有限且是在本人设备上（Windows11+Edge浏览器）开发的，所以我自己用的十分顺利；给我同学测试后，有不少问题，首先浏览器推荐Edge，其他的不建议，其次，前面提到的QQ登录极有可能因为网络环境、浏览器、设备等复杂原因导致登录出现验证码环节，然后失败，这里建议自己尝试登录，让浏览器“熟悉熟悉”你的QQ登录，记住快捷登录方式，这样就能自动登录打卡了。总之，还是我自己用的最没毛病，读者可能要“看运气”，哈哈哈。

def login(browser=BROWSER):
    '''登录'''
    browser.get(URL)
    sleep(SLEEP_TIME)
    # 根据打卡url进入打卡网页
    button = browser.find_element(By.XPATH, 'html/body/div[9]/div[1]/div[1]/div[9]/div[1]/button')
    button.click()
    sleep(SLEEP_TIME)
    # 找到“登录腾讯文档”按钮并点击
    link1 = browser.find_element(By.CLASS_NAME, 'qq')
    link1.click()
    sleep(SLEEP_TIME)
    # 找到“QQ登录”选项并点击
    new_f = browser.find_element(By.ID, 'login_frame')
    browser.switch_to.frame(new_f)
    new_ff = browser.find_element(By.ID, 'ptlogin_iframe')
    browser.switch_to.frame(new_ff)
    sleep(SLEEP_TIME)
    # 通过开发者工具查看网页，下面的QQ“密码登录”选项在第三层frame
    # 将frame转换到第三层frame，不然找不到QQ登录界面的元素
    link2 = browser.find_element(By.ID, 'switcher_plogin')
    link2.click()
    sleep(SLEEP_TIME)
    # 找到QQ的“密码登录”选项并点击
    accout_in = browser.find_element(By.ID, 'uinArea')
    accout_in.click()
    sleep(SLEEP_TIME)
    # 找到账户名输入框并点击
    accout_in = browser.find_element(By.CLASS_NAME, 'inputstyle')
    accout_in.send_keys(ACCOUNT)
    sleep(SLEEP_TIME)
    # 进入账户输入框后输入账户名
    pass_in = browser.find_element(By.ID, 'pwdArea')
    pass_in.click()
    sleep(SLEEP_TIME)
    # 找到密码输入框并点击
    password_in = browser.find_element(By.ID, 'p')
    password_in.send_keys(PASSWORD)
    sleep(SLEEP_TIME)
    # 进入密码输入框后输入密码
    login_b = browser.find_element(By.CLASS_NAME, 'login_button')
    login_b.click()
    # 找到QQ的“登录按钮”并点击
    browser.switch_to.parent_frame()
    sleep(SLEEP_TIME)
    browser.switch_to.parent_frame()
    sleep(SLEEP_TIME)
    # 前面转换过两次frame，因此需要回退两次父frame
    link3 = browser.find_element(By.CLASS_NAME, 'location-btn')
    link3.click()
    sleep(5)
    # 点击“获取定位”
    link4 = browser.find_element(By.CLASS_NAME, 'question-commit')
    link4.click()
    sleep(5)
    # 点击“提交”
    link5 = browser.find_element(By.XPATH, '/html/body/div[16]/div/div[4]/button[2]')
    link5.click()
    # 点击最后的“确认”
    sleep(5)
    browser.quit()
    # 终止webdriver和一切网页进程

源码

完整的项目源码

创作不易，如果有所帮助，求点赞收藏！谢谢！

本文标签：爬虫腾讯动态网页完整简单

版权声明：本文标题：【Python爬虫】动态网页爬虫构建，selenium库简单使用，PC端QQ腾讯文档自动打卡爬虫完整项目内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1725783064a1042398.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【Python爬虫】动态网页爬虫构建，selenium库简单使用，PC端QQ腾讯文档自动打卡爬虫完整项目

目录

提前了解

分析

代码

源码

更多相关文章

修复Android手机屏幕的5种简单方法是黑色的

失控的腾讯帝国：企鹅无法把控手机市场

终结完整编

简单好用的DX修复工具下载|修复丢失损坏的DLL文件

爬虫实战爬取豆瓣电影Top250榜单电影

【Python成长之路】从零学爬虫--下载豆瓣8分以上的电影（附电影下载地址）

mount 挂接命令及技巧光盘镜像文件、移动硬盘及U盘 简单说明

云服务器的简单搭建，设置网页可以上网访问

腾讯云能装安卓虚拟机么

京东云主机使用-搭建简单网页(macOS)

使用Xshell 6连接腾讯云

Mac连接腾讯云服务器

爬虫:JS逆向前置准备

佳能打印机 另一台计算机正在使用,多台电脑系统不同如何共享一台佳能打印机的简单设置...

应用程序无法正常启动0xc000007b, 解决方案(超简单)

JVM完整笔记

Windows 7不能启动的简单修复

4米乘以12米CAD图_简单四步，教你如何绘制好施工现场总平面布置图

一份完整的app产品运营推广方案，app推广运营的方法（二

python 爬虫之路教程

发表评论

推荐文章

Qt版本选择

极云普惠云电脑 v1.2.9

电脑无法访问共享打印机和文件夹

[MT8766][Android12] 修改WIFI热点默认名称、密码、IP地址以及默认开启热点

Photoshop图层混合(Layer Blending)模式的算法实现

热门文章

PMP模考（一）——错题集

windows下免U盘安装manjaro

u盘启动pxe安装linux,U盘启动安装centos5.5+centos6.3+PXE网络安装CentOS

n1 openwrt 挂载u盘_如何在openwrt上实现 U盘的自动挂载

FBA 街机游戏安卓盒子，游戏盒子实现双人对打，四人对打方案

【毕业设计】 stm32单片机的远程WIFI密码锁 - 物联网 嵌入式

Qt双击运行Debug和release模式下生成的可执行文件(.exe)，提示应用程序无法正常启动0xc000007b

MBR分区和GPT分区（系统安装注意）简介及互相转换的方法_非mbr分区是什么意思(1)

我们从工程项目中学习什么？

Linux上挂载U盘，看这篇就够啦

最新文章

打工人 Excel 插件 - 电子表格智能辅助插件正版购买

MathType7.6最新MAC电脑中文版数学公式编辑器下载安装教程

最好用的mac免费PDF阅读器是什么？

苹果设备再现完美兼容32位软件 只需一款神奇工具 CrossOver 24发布：基于 Wine 9.0，能让 Mac 初步运行 32位应用

visio2013秘钥

WPS Office Pro 2016 专业版

SpreadJS 17.0.7应用 (271702999)

2024年微软：要不将 Python弄成Excel官方脚本语言？，头条社招面试几轮

MathType加载项被word禁用怎么办 MathType加载到Word不能用

xmind 8 pro Mac破解版(思维导图) 附xmind 8 序列号

在支持的站点中配置电子邮箱通知服务

KMS服务器安装以及配置

MathType2024官方原版补丁包下载

Parallels Desktop19最新2024免费版mac苹果电脑虚拟机软件下载

无网环境禁止 WPS 提示登录，且基本功能按钮可用

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

mount 挂接命令及技巧光盘镜像文件、移动硬盘及U盘简单说明

佳能打印机另一台计算机正在使用,多台电脑系统不同如何共享一台佳能打印机的简单设置...

【毕业设计】 stm32单片机的远程WIFI密码锁 - 物联网嵌入式

苹果设备再现完美兼容32位软件只需一款神奇工具 CrossOver 24发布：基于 Wine 9.0，能让 Mac 初步运行 32位应用

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载