python爬虫获取华为应用商店app信息|电子爱好者

admin管理员组
文章数量:1624797

最近项目需要几个品牌手机应用商店上app的一些数据，所以就上网找了一些爬虫的文章，一边学一边做，把方法记录下来，方便以后查看。
代码具体功能是爬取华为应用商店上app的数据，并把数据放到一个csv文件上。
当时参考的文章：

https://blog.csdn/datacastle/article/details/78812363
基本是按照上面链接中文章的方法去做的

主要爬取游戏和软件两个种类的app，都选取了更新时间这个排序，因为这个排序下面app的数量是最多的。

href_list=s.xpath(’/html/body/div[1]/div[4]/div[1]/div[2]/div[2]/div/div[2]/h4/a/@href’)

应用名称获取方法如下，其他的几个信息如此类推：
name=s2.xpath(’//*[@id=“bodyonline”]/div/div[4]/div[1]/div/div/div[1]/ul[1]/li[2]/p[1]/span[1]/text()’)[0]

app的下载地址获取方法比较特别，
infor=s2.xpath(’//*[@id=“bodyonline”]/div/div[4]/div[1]/div/div/div[2]/a/@onclick’)[0]
#用re.findall把下载地址取出来
downaddr=re.findall(r"’[’]",infor)[5]#取出下载地址

具体代码如下，把写入文件的路径修改成自己的路径就可以直接使用

import urllib.request
from lxml import etree
import re
import datetime

with open('D:/software_file/pythonFile/huawei.csv','w',encoding='gb18030') as f:
    f.write("{},{},{},{},{},{},{},{},{},{},{},{}\n".format('应用名称','应用类型','公司名称','app大小','版本号','更新时间','评分人数','下载人数',\
                                                  '应用介绍','图标','下载地址','爬取时间'))
    for dev in range(2,14,11):
        for page in range(1,10):
            if dev==2:
                devType='game'
            if dev==13:
                devtype='soft'
            url ="http://app.hicloud/{}/list_{}_1_{}".format(devType,dev,page)
            headers = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36")
            #直接访问应用市场网址会提示403错误
            #需要模拟浏览器访问，解决403错误
            opener = urllib.request.build_opener()
            opener.addheaders = [headers]
            data = opener.open(url).read()
            s=etree.HTML(data)
            href_list=s.xpath('/html/body/div[1]/div[4]/div[1]/div[2]/div[2]/div/div[2]/h4/a/@href')

            for nhref in href_list:
                url2="http://app.hicloud"+nhref
                data2 = opener.open(url2).read()
                s2=etree.HTML(data2)
                try:
                    name=s2.xpath('//*[@id="bodyonline"]/div/div[4]/div[1]/div/div/div[1]/ul[1]/li[2]/p[1]/span[1]/text()')[0]
                    size=s2.xpath('//*[@id="bodyonline"]/div/div[4]/div[1]/div/div/div[1]/ul[2]/li[1]/span/text()')[0]
                    updataTime=s2.xpath('//*[@id="bodyonline"]/div/div[4]/div[1]/div/div/div[1]/ul[2]/li[2]/span/text()')[0]
                    company=s2.xpath('//*[@id="bodyonline"]/div/div[4]/div[1]/div/div/div[1]/ul[2]/li[3]/span/@title')[0]
                    version=s2.xpath('//*[@id="bodyonline"]/div/div[4]/div[1]/div/div/div[1]/ul[2]/li[4]/span/text()')[0]
                    downloadNum=s2.xpath('//*[@id="bodyonline"]/div/div[4]/div[1]/div/div/div[1]/ul[1]/li[2]/p[1]/span[2]/text()')[0]
                    strNum=downloadNum.lstrip('下载：')
                    introduct=s2.xpath('//*[@id="app_strdesc"]/text()')[0]
                    # csv是用英文逗号来区分一列的，所以如果应用介绍中有英文逗号需要替换成空格，要不然应用介绍会分成好几列
                    if ',' in introduct:
                        introduct=introduct.replace(',','  ')
                    updataTime=updataTime.strip()#去掉字符串前后空格
                    company=company.strip()#去掉字符串前后空格
                    version=version.strip()#去掉字符串前后空格
                    strNum=strNum.strip()#去掉字符串前后空格
                    introduct=introduct.strip()#去掉字符串前后空格
                    picture=s2.xpath('//*[@id="bodyonline"]/div/div[4]/div[1]/div/div/div[1]/ul[1]/li[1]/img/@src')[0]              
                    infor=s2.xpath('//*[@id="bodyonline"]/div/div[4]/div[1]/div/div/div[2]/a/@onclick')[0]
                    downaddr=re.findall(r"['](.*?)[']",infor)[5]#取出下载地址                                                     
                    currTime=datetime.datetime.now()
                    f.write('{},{},{},{},{},{},{},{},{},{},{},{}'.format(name,'',company,size,version,updataTime,'',
                                                                   strNum,introduct,picture,downaddr,currTime))
                    f.write('{}'.format('\n'))

                except IndexError:#出现异常跳出，防止程序崩溃
                    pass
            print("{},{}".format(dev,page))

生成的表格效果图如下，大概400个app，3分钟左右就爬取完成。

后面还做了小米和魅族应用市场的app爬虫，等有时间再把更新上来吧

本文标签：华为爬虫商店信息 Python

版权声明：本文标题：python爬虫获取华为应用商店app信息内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1728910042a1179099.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

python爬虫 获取华为应用商店app信息

更多相关文章

deepin更新失败_Deepin深度应用商店和系统更新不正常的解决方法

苹果应用商店ASO优化技巧

重新安装微软应用商店，并解决无法联网的问题

安装完Anaconda后，在命令行输入python弹出 应用商店 或 出现warnings 的解决办法

win10应用商店无法安装

解决深度商店安装失败的解决办法

h5跳转到 google play 应用商店 的APP详情页面

windows应用商店或者其他微软应用打不开的修复办法

此 Google 帐号尚未与设备关联。要安装应用，请先访问设备上的 Play 商店应用。 了解详情（已解决）

Win10[应用商店]损坏，修复方法之一

Macbook 商店下载xcode点击无反应不下载

教你如何卸载win10自带应用商店【系统天地】

什么是ASO评论管理：管理苹果和谷歌应用商店评论的指南

WIN11从MSDN重新安装后 应用商店打不开 报错 0x80131500 0x00000194 报错 0x80240438

vsCode 插件离线安装(在应用商店中无法直接安装)

iOS App上传到苹果应用商店App Store教程

Android应用商店——项目介绍

win10 metro app(应用商店中的APP)如何走代理?

iMazing能单独备份某个应用吗? iMazing可以单独备份微信信息吗?

华为笔记本在linux下越狱苹果设备（2022.2.27更新）

发表评论

推荐文章

Manjaro尝鲜体验

完整版彻底卸载SQL Server2019

ROS navigation teb_local_planner

Android-APP 安全（六）之android取证

MicrosoftStore无法下载软件

热门文章

OLED模块显示自己想要的字和图片

使用ComPDFKit PDF SDK 构建iOS PDF阅读器

【补充知识】生成模型（generative model）和判别模型（discriminative model）、贝叶斯学派和概率学派

规划算法-TEB

win10发送到桌面快捷方式没了

删除 WIN 10 本地连接的 网络2 网络3...

Recover My Files(文件恢复工具) V5.2.1.1964 汉化绿色特别版

C++初阶 | [十一] priority_queue 优先级队列

priority_queue的常见用法详解

爱思助手不能通过wifi连接的方法

最新文章

计算机网络之图解HTTP1

联想乐pad平板刷android,联想乐pada1刷机教程【图解】

《算法图解》笔记与总结

CPU是如何制造出来的（附高清全程图解）

计算机主机拆解步骤,联想锋行机箱的接线方法以及拆解改造步骤

图解Java设计模式

MySql 压缩包安装、配置、详细讲解，带步骤图

友基s400手写板怎么安装_手写板安装,教您电脑手写板怎么安装

换主板更换硬盘电脑升级不重装系统

黑鲨怎么修改服务器,黑鲨自定义安装系统教程图解

计算机双硬盘安装需要跳线吗,双硬盘安装的操作流程【详细步骤】

学会快速装系统 图解硬盘分区软件Norton Ghost使用

计算机无法使用光驱启动,电脑怎么设置光驱启动 光驱启动设置教程【图文】...

电脑计算机硬盘格式化,教你电脑怎么格式化本地磁盘

台式计算机硬件的拆装,电脑拆解实例：苹果台式机拆机换盘详细步骤！

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

python爬虫获取华为应用商店app信息

安装完Anaconda后，在命令行输入python弹出应用商店或出现warnings 的解决办法

h5跳转到 google play 应用商店的APP详情页面

此 Google 帐号尚未与设备关联。要安装应用，请先访问设备上的 Play 商店应用。了解详情（已解决）

WIN11从MSDN重新安装后应用商店打不开报错 0x80131500 0x00000194 报错 0x80240438

删除 WIN 10 本地连接的网络2 网络3...

学会快速装系统图解硬盘分区软件Norton Ghost使用

计算机无法使用光驱启动,电脑怎么设置光驱启动光驱启动设置教程【图文】...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载