Python爬虫实战| Python爬取英雄联盟高清壁纸|电子爱好者

admin管理员组
文章数量:1619275

先看一下最终爬取的效果，每个英雄的壁纸都被爬取下来了：

“黑暗之女安妮”的12张壁纸：

高清大图：

下面开始正式教学！

版本：Python 3.5
工具：Jupyter notebook实现各个环节，最终整合成LOL_scrawl.py文件

在使用爬虫前，先花一定时间对爬取对象进行了解，是非常有必要的，这样可以帮助我们科学合理地设计爬取流程，以避开爬取难点，节约时间。

打开英雄联盟官网，看到所有英雄的信息：

若要爬取全部英雄，我们先要获取这些英雄的信息，在网页上“右击——检查——Elements”，就能在看到英雄的信息了，如下图所示，包括英雄昵称、英雄名称、英文名等等。由于这些信息是使用JavaScript动态加载的，普通爬取方法无法获取，我们考虑使用虚拟浏览器PhantomJS来获取这些信息。

我们点击进入“暗黑之女安妮”的页面，页面地址为“http://lol.qq/web201310/info-defail.shtml?id=Annie”，地址中的“Annie”是这个英雄的英文名，若要访问其他英雄界面，只需要更改英文名就可以了。

在英雄页面上，通过点击略缩图可以切换到不同的皮肤大图，在大图上“右击——在新标签页中打开图片”，就能打开大图，这就是我们要的高清壁纸：

观察上图的地址信息，再打开其他几张安妮的皮肤壁纸来查看，发现不同壁纸仅在图片编号上有差别：

http://ossweb-img.qq/images/lol/web201310/skin/big1000.jpg

http://ossweb-img.qq/images/lol/web201310/skin/big1001.jpg

http://ossweb-img.qq/images/lol/web201310/skin/big1002.jpg

http://ossweb-img.qq/images/lol/web201310/skin/big1003.jpg

再观察英雄“盲僧李青”的壁纸地址：

http://ossweb-img.qq/images/lol/web201310/skin/big64000.jpg

http://ossweb-img.qq/images/lol/web201310/skin/big64001.jpg

http://ossweb-img.qq/images/lol/web201310/skin/big64002.jpg

再观察英雄“卡牌大师崔斯特”的壁纸地址：

http://ossweb-img.qq/images/lol/web201310/skin/big4000.jpg

http://ossweb-img.qq/images/lol/web201310/skin/big4001.jpg

http://ossweb-img.qq/images/lol/web201310/skin/big4002.jpg

可以总结出这样一条规则：壁纸地址由三部分组成，固定地址+英雄id+壁纸编号。

固定地址：“http://ossweb-img.qq/images/lol/web201310/skin/big”以及末尾的“.jpg”
英雄id：安妮的id是1，李青的id是64，崔斯特的是40，我们还需要找到所有英雄的id
壁纸编号：壁纸编号从000开始，001、002、003...，根据不同英雄的皮肤数量而不同，目前每个英雄壁纸都不超过20个，也就是最多编到020

在上面的过程中，我们已经基本了解了要爬取对象的信息了，但每一个英雄的id是多少却还不知道，在网页源代码和用JavaScript加载后都找不到英雄和id的对应信息，猜测这个信息可能是放在某个js文件里，我们来找一找。

在所有英雄信息界面“右键——检查——Network”，再刷新一下界面，可以找到一个champion.js文件：

打开champion.js文件，发现里面就存着我们需要的信息，英雄英文名与英雄id一一对应：

至此对我们要爬取的对象已经有了一定的了解，对于具体爬取方法也有了想法，我们可以设计如下爬虫流程图：

根据爬虫流程图，我们可以设计如下代码框架：

这个代码框架非常容易读懂，主要就是run()函数，run()函数完成了这样一套工作：创建LOL文件夹——获得键盘输入的信息——若信息为“All”则爬取全部英雄壁纸，否则爬取单个英雄壁纸。

在爬取所有或者单个英雄壁纸时，由于可能因为网络不稳定等因素导致爬取失败，因此我们要使用try-except来处理爬取壁纸时的代码：

至此已经打好了爬虫框架，下面对爬取过程中最核心的两个代码进行解释：get_heroframe()与get_image(heroid,heroframe)。

首先我们要解析champion.js文件，得到英雄英文名与id的一一对应关系。使用urllib.request打开文件地址，读取内容并当做字符串处理，解析内容并转为字典{key:value}，key为英文名，value为英雄id：

得到字典herodict{Englishname : id}如下：

对于官网网站上的所有英雄信息页面，由于是用JavaScript加载出来的，普通方法并不好爬取，我们使用Selenium+PhantomJS的方法来动态加载英雄信息。Selenium 是自动化测试工具,它支持Chrome、Safari、Firefox 等浏览器驱动，在使用前先需要安装selenium模块。而PhantomJS是一个虚拟浏览器，它没有界面，但它的dom渲染、js运行、网络访问、canvas/svg绘制等功能都很完备，在页面抓取、页面输出、自动化测试等方面有广泛的应用。PhantomJS可以在官方网站上下载。

我们使用Selenium+PhantomJS的方法来动态加载英雄信息，使用BeautifulSoup获取网址页面内容：

得到页面内容后，使用BeautifulSoup对页面内容进行解析，将英雄昵称、名称、id等信息存入heroframe中：

至此，get_heroframe()函数实现了爬取所有英雄的信息，并存放在heroframe.csv文件中，如下所示：

得到每一个英雄的信息后，我们就可以开始愉快的爬取它们的壁纸啦~定义get_image(heroid,heroframe)函数，用于爬取单个英雄的全部壁纸。

首先在LOL文件夹中建立该英雄的子文件夹：

然后就可以爬取这个英雄的壁纸了。由于每个英雄壁纸都不超过20张，我们使用一个20以内的循环就能爬取到所有壁纸了：

爬取完成后输出成功的提示：

到这里就大功告成啦！只要运行一下这个小程序，所有英雄的皮肤壁纸就都收入囊中了，当然也可以爬取单个英雄的所有皮肤，只要根据提示输入英雄的昵称或名称就好。

爬取单个英雄皮肤壁纸：

爬取所有英雄皮肤壁纸：

运行代码时注意保持网络畅通，如果网速太慢可能会爬取失败。在3兆有线网的网速下爬取全部139个英雄的全部高清壁纸（约一千张图）大概要3-4分钟。

《王者荣耀》、《阴阳师》、《绝地求生》等其他游戏的壁纸也是同样道理就可以爬取了，据我实践，《英雄联盟》的爬取难度是最高的，因此将上述过程弄懂了，自己再编写代码爬其他游戏就易如反掌了。

本文标签：爬虫实战壁纸英雄联盟

版权声明：本文标题：Python爬虫实战| Python爬取英雄联盟高清壁纸内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1728794173a1174010.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Python爬虫实战| Python爬取英雄联盟高清壁纸

更多相关文章

使用爬虫框架scrapy爬取LOL英雄数据

爬取lol官网所有英雄照片，并存储到pysql

现在如何注册台服服务器,《英雄联盟手游》台服账号注册教程 台服拳头账号注册步骤图解...

英雄联盟手游注册及下载教程（ios及安卓android最新最全版）

Python爬取英雄联盟皮肤，并保存到本地

LPL比赛数据可视化，完成这个项目，用尽了我的所有Python知识_lol英雄信息爬虫数据可视化

python -又一次爬虫练习（爬取LOL所有的英雄头像）

【Java项目】讲讲我用Java爬虫获取LOL英雄数据与图片（附源码）_游戏数据抓取

Python 多进程、协程异步抓取英雄联盟皮肤并保存在本地

【Python探讨】PyQt5、request模块联合编写的英雄联盟全皮肤下载器| 附源代码

魄罗盒子一直显示连接服务器失败,英雄联盟安装错误代码7001004怎么办 | 手游网游页游攻略大全...

kf.qq.lol.html,英雄联盟手游预约FAQ

英雄联盟是什么？

如何看自己在英雄联盟中的定位？也就是自己的本命英雄？

Python3，为了“娑娜“，我花费3分钟把lol所有的英雄都下载了。

(高仿英雄联盟游戏网页制作作业) 英雄联盟LOL游戏HTML网页设计模板 简单学生网页设计 静态HTML CSS网站制作成品

ios mailto: 用邮箱发邮件_英雄联盟手游公测，安卓苹果iOS注册最新下载安装教程！...

【C语言】LOL英雄查询系统

python爬取千图网_python爬取lol官网英雄图片代码

《复仇者联盟2：奥创纪元》720高清迅雷下载

发表评论

推荐文章

电脑无法升级windows11的解决办法

MacBook Air 2013年中10.9版本升级到macOS Sierra

基于安卓平台的汉语言学习应用系统-计算机毕业设计源码80400

利用Keepass+坚果云实现跨平台密码无缝同步！再也不用担心及记不住密码了！

web页在微信中访问增加遮罩层 右上角弹出在浏览器中打开

热门文章

除了迅雷还有什么靠谱的下载软件

迅雷 v7.2.13.3884 新春特别版

荣耀v8升级android 8,荣耀V8强刷EMUI8.0系统图文教程（EMUI5.0直升EMUI8.0）

论文笔记 | Creditor Control of Corporate Acquisitions

FINA1310: Corporate Finance Spring 2024SQL

photoShop 4s下载

77938 Introduction to Taxation Law Autumn 2024Java

linux向苹果手机传文件,堪比 AirDrop，iPhone 与 Windows 电脑互传文件的三种方式

ios mailto: 用邮箱发邮件_英雄联盟手游公测，安卓苹果iOS注册最新下载安装教程！...

解决迅雷下载会卡的问题

最新文章

电影《志 愿 军2存亡之战》百度下载云资源[MKV5.68GB]迅雷磁力完整版

NAS安装迅雷远程下载

变形金刚3：月黑之时1280超清迅雷下载

《复仇者联盟2：奥创纪元》720高清迅雷下载

同志亦凡人第五季全集BQueer As Folk 5迅雷下载

迅雷下载每天会有限制

删除设备和驱动器中的迅雷下载、百度网盘的图标(win10、win11可用)

乡村爱情圆舞曲全集高清迅雷下载

迅雷11下载报错：下载引擎未启动

谷歌被墙，如何给谷歌浏览器添加迅雷下载插件

利用python+迅雷批量下载视频

VC++调用迅雷下载文件

迅雷下载androidsdk的各种版本

转：用迅雷下载Android SDK全系列

不用注册NVIDIA账号直接下载cuDNN的方法之使用迅雷下载到的是index.html问题解决

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

现在如何注册台服服务器,《英雄联盟手游》台服账号注册教程台服拳头账号注册步骤图解...

(高仿英雄联盟游戏网页制作作业) 英雄联盟LOL游戏HTML网页设计模板简单学生网页设计静态HTML CSS网站制作成品

web页在微信中访问增加遮罩层右上角弹出在浏览器中打开

电影《志愿军2存亡之战》百度下载云资源[MKV5.68GB]迅雷磁力完整版

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载