使用lxml.etree配合Xpath快速爬取100项网页关键词|电子爱好者

admin管理员组
文章数量:1619183

文章目录

第一步：将网页另存到本地
第二步：找到所需要提取内容的Xpath
第三步：使用lxml.etree方法进行解析和提取

欧盟委员会（EUROPEAN COMMISSION）发布《面向未来的100项重大创新突破》（100 Radical Innovation Breakthroughs for the future）报告，我们在微信公众号文章中可以看到原文面向未来的100项颠覆性技术创新。现在我有一个需求，就是把这100项技术提取出来，如果手动提取的话，就会比较累，那么我们能不能使用python来进行提取呢？答案是肯定的，只需要使用lxml模块中的etree方法，使用Xpath语法就可以完成这个功能了。

第一步：将网页另存到本地

我们可以在浏览器中依次点击右键-另存为，将这个网页保存到本地，在这里，我把这个文件命名为了"toptech.html"

第二步：找到所需要提取内容的Xpath

这个如果手写的话需要学习Xpath语法，不过我们的浏览器已经帮我们做好了解析的工作，我们只需要直接右键就可以得到Xpath了，如下图所示：

这个步骤要在开发者工具里面执行，Chrome浏览器中的快捷键是“ctr+shift+J”，然后使用左上角的选择工具（箭头图表），左键选择需要找到的对象，然后在右边右键CopyXpath，就可以得到所需要的Xpath了，我找了一些元素，他们的Xpath如下所示：

//*[@id="js_content"]/section[3]/section/section[4]/section/section/section/p/span/strong

//*[@id="js_content"]/section[3]/section/section[3]/section/section/section/p/span/strong

//*[@id="js_content"]/section[3]/section/section[7]/section/section/section/p/span/strong

//*@id="js_content"]/section[3]/section/section[106]/section/section/section/section/p/span/strong

不难找出规律，得到通用的表达式：

//*[@id="js_content"]/section[3]/section/section[*]/section/section/section/p/span/strong

//*[@id="js_content"]/section[3]/section/section[*]/section/section/section/section/p/span/strong

第三步：使用lxml.etree方法进行解析和提取

这里我参考了Python利用requests和xpath爬取网页内容过程这篇博客，然后编写了以下简单的代码：

from lxml import etree
html = etree.parse('./toptech.html', etree.HTMLParser())
results = html.xpath('//*[@id="js_content"]/section[3]/section/section[*]/section/section/section/p/span/strong')
for result in results:	
	print(result.text)
results = html.xpath('//*[@id="js_content"]/section[3]/section/section[*]/section/section/section/section/p/span/strong')
for result in results:	
	print(result.text)

运行之后，我们就可以把这100个技术的名字全部打印出来啦~开心！

在excel中简单编辑，就得到了下表

本文标签：关键词快速网页 etree lxml

版权声明：本文标题：使用lxml.etree配合Xpath快速爬取100项网页关键词内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1728792087a1173806.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

使用lxml.etree配合Xpath快速爬取100项网页关键词

文章目录

第一步：将网页另存到本地

第二步：找到所需要提取内容的Xpath

第三步：使用lxml.etree方法进行解析和提取

更多相关文章

Windows可以ping通百度，但是用浏览器打不开网页

手机百度打不开html网页,手机百度为什么打不开网页 网页打不开解决方法

一个快速切换浏览器搜索引擎的小技巧（在地址栏搜索B站、书签等的方法）

浏览器 禁用 javascript 脚本 解决 网页文本内容无法复制 的问题

能ping通百度但是浏览器不能访问网页？？强哥

怎么清理C盘？快速释放空间，这4招很管用！

浏览器打不开网页、但是电脑有网络，解决办法(win11)

mac连接服务器打不开网页,Mac电脑联接网络但是浏览器打不开网页

电脑有网络，但所有浏览器网页都打不开，是怎么回事？

台式机快速亮度调节

python中用selenium进行自动打开浏览器打开指定网页并关闭-带图详解

看网页说服务器走丢了,Win7使用360浏览器打开网页提示“网页走丢了&quot;的解决方法...

限制网页只能在微信浏览器打开

html设置阻止网页在google浏览器中打开时弹出自动翻译框

解决Google浏览器网页覆盖问题

Web大学生网页成品——英雄联盟LOL游戏网站制作与实现(HTML+CSS+JS)

仿英雄联盟纯html+css+js LOL网页版

逼真版仿英雄联盟纯html+css+jqueryLOL网页版

游戏网页制作 仿英雄联盟网页设计作业 HTML CSS游戏官网网页模板 大学生游戏介绍网站毕业设计 DW游戏主题网页模板下载 游戏娱乐网页成品代码 英雄联盟网页作品下载

ESP32学习笔记----WiFi使用(网页控制)

发表评论

推荐文章

装机教你电脑城精明装机十大技巧

设计一个关于计算机硬件设备的海报,干货分享 | 写给设计师看的电脑配置攻略 ——【1】关于 PS...

原生 JavaScript + html + css 写一个可调节屏幕亮度按钮

winpe进入linux系统,制作U盘Linux 与WinPE启动

lol英雄全皮肤爬取

热门文章

reMarkable新闻插件安装与配置指南

磁盘管理看不到硬盘的恢复办法

U盘读取错误全面解决方案：深入技术分析与操作指南

windows10频繁出现鼠标、键盘无响应，桌面卡死，自动重启的解决办法

linux安装chrome浏览器并初步使用

电脑卡顿治疗方案

【Linux】调节屏幕亮度

error: RPC failed； curl 56 Failure when receiving data from the peer

解决com.mysql.cj.jdbc.exceptions.CommunicationsException: Communications link failure问题的操作顺序

HTML+CSS大作业网站设计——英雄联盟LOL(4页) HTML+CSS+JavaScript web期末网站设计大作业

最新文章

linux deploy安装并ssh连接教程

【手把手教你树莓派3 （二）】 启动wifi模块

使用Fluxion搭建钓鱼热点破解WiFi密码

frp内网穿透教程，ssh远程连接，服务自启动

查看自己手机连接过的wifi密码

图文手把手教程--ESP32 MQTT连接阿里云生活物联网平台

海尔随身WiFi型号F231ZC刷机去控过程分享

【微信小程序控制硬件15 】 开源一个微信小程序，支持蓝牙快速配网+WiFi双控制ESP32-C3应用示范；（附带Demo）

PacketTracer模拟器物联网教程3—家庭设备无线连接方法

ESP32-C3入门教程 蓝牙篇②——基于EspBlufiForAndroid极简的Blufi配网Demo

树莓派4b设置WiFi

【一站式教程】精通ESP32：使用VSCode与PlatformIO构建FreeRTOS项目、WIFI网页智能灯控系统、蓝牙、有趣的小功能 — 从轻松入门到项目实战~

ESP32学习笔记----WiFi使用(网页控制)

使用Arduino开发ESP32:wifi基本功能使用

0. 江协科技江科大-STM32入门教程-各章节详细笔记-查阅传送门-STM32标准库开发

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

手机百度打不开html网页,手机百度为什么打不开网页网页打不开解决方法

浏览器禁用 javascript 脚本解决网页文本内容无法复制的问题

看网页说服务器走丢了,Win7使用360浏览器打开网页提示“网页走丢了"的解决方法...

游戏网页制作仿英雄联盟网页设计作业 HTML CSS游戏官网网页模板大学生游戏介绍网站毕业设计 DW游戏主题网页模板下载游戏娱乐网页成品代码英雄联盟网页作品下载

【手把手教你树莓派3 （二）】启动wifi模块

【微信小程序控制硬件15 】开源一个微信小程序，支持蓝牙快速配网+WiFi双控制ESP32-C3应用示范；（附带Demo）

ESP32-C3入门教程蓝牙篇②——基于EspBlufiForAndroid极简的Blufi配网Demo

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载