评论抓取：Python爬取AppStore上的评论内容及星级,突破500条限制|电子爱好者

admin管理员组
文章数量:1662768

之前看到网上有AppStore应用评论的爬虫，但是由于用的是官方提供的api，每个应用最多只能获取到500条评论，完全没法满足数据分析的需求。因此经过一些分析，写了一个可以获取更多评论的爬虫。

1 配置文件(config_api.json)

{
  "max_page": 5,
  "ids": ["要爬app的id", "要爬app的id"],
  "headers": {
    "User-Agent": "你自己的",
    "Authorization": "你自己的"
  },
  "intervals": 2
}

首先解释一下配置文件：

max_page：要爬的最大评论页数，每页是10条评论；

ids：要爬取的应用id列表；

headers：浏览器发起请求的请求头；

intervals：每爬一页评论的间隔时间。

2 代码(spider.py)

import os
import csv
import json
import time
import requests


next_url = None

review_path = 'reviews'
if not os.path.exists(review_path):
    os.mkdir(review_path)


with open('config_api.json', 'r') as file:
    config = json.loads(file.read())
    pending_queue = config['ids']
    max_page = config['max_page']
    headers = config['headers']
    intervals = config['intervals']


# 发送请求获取响应
def get_response(app_id, page):
    time.sleep(intervals)
    try:
        url = 'https://amp-api.apps.apple/v1/catalog/cn/apps/' + app_id +'/reviews?l=zh-Hans-CN&offset=' + str(page * 10) + '&platform=web&additionalPlatforms=appletv%2Cipad%2Ciphone%2Cmac'
        r = requests.get(url, headers=headers)
        r.raise_for_status()
        return r.json()
    except requests.exceptions.HTTPError:
        return 'HTTPError!'


# 解析响应
def parse_response(r):
    global next_url
    if "next" in r.keys():
        next_url = r['next']
    else:
        next_url = None

    for item in r['data']:
        yield {
            "id": item['id'],
            "type": item['type'],
            "title": item['attributes']['title'],
            "userName": item['attributes']['userName'],
            "isEdited": item['attributes']['isEdited'],
            "review": item['attributes']['review'],
            "rating": item['attributes']['rating'],
            "date":  item['attributes']['date']
        }


# 写入 csv 文件
def write_to_file(app_id, item):
    with open(f'{review_path}/{app_id}.csv', 'a', encoding='utf-8-sig', newline='') as csv_file:
        fieldnames = ['id', 'type', 'title', 'userName', 'isEdited', 'review', 'rating', 'date']
        writer = csv.DictWriter(csv_file, fieldnames=fieldnames)
        writer.writerow(item)


# 主函数
def main():
    while len(pending_queue):
        cur_id = pending_queue.pop()
        print(f'开始爬取 {cur_id}')
        for i in range(0, max_page):
            r = get_response(cur_id, i)
            print(f"第 {i+1} 页评论已获取")
            for item in parse_response(r):
                write_to_file(cur_id, item)
            print(f'第 {i} 页评论已存储')
            if not next_url:
                break
        print(f'结束爬取 {cur_id}')


if __name__ == '__main__':
    main()

3 结果预览

4 结语

有问题或者建议可以留言，如果对你有帮助的话，也可以关注我的公众号，谢谢。

本文标签：星级内容 Python AppStore

版权声明：本文标题：评论抓取：Python爬取AppStore上的评论内容及星级,突破500条限制内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729957772a1217384.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

Python 删除HDFS过期文件

1天前

一、清理本地文件 import datetimefrom utils import confUtils, hadoopimport osimport shutilimport timeimport sysdef cleandir

python 压缩文件夹_Python 中怎么样删除zip压缩文件夹中某个文件

1天前

用 PyZipFile 方法很简陋。是把 zip压缩包里面的文件，除了要删除的文件以外，逐个读取出来，保存到新文件中。最后用新文件覆盖旧文件。 1 2 3 4 5 6 7

C语言：删除指定文件内容

1天前

#include <stdio.h>#include <stdlib.h> 函数定义：删除文件中的指定行void deleteLine(const char* filenam

怎样实现群晖(NAS)中查看是谁添加、修改、删除文件内容

1天前

一、问题描述在日常的私有云（群辉NAS）使用过程中，需要查看是谁上传、修改、删除、登陆了该私有云，方便运维管理。二、实现思路一般常见的就是日志记录，用于记录用户在私有云的操作情况。【日志对于服务器的运维管理是十分重

在 Python 中如何删除文本文件中的特定行

1天前

在本文中，将介绍使用 Python 从文本文件中删除行的几种方法。由于 Python 没有提供删除文件中特定行的直接方法，因此有必要找到我们自己的方法。文中示例使用的文本文件 “1.txt”

python刷今日头条阅读量_用python3.5逛看今日头条

1天前

环境: win10 64位 python3.5.2 相关库 urllib pymysql json 爬文章入口 (ps:图片来自网络) 接触python,发现python真是一门让人上瘾的语言,简单好用效率高. 不多说,直接看要做什么吧.每

python爬取今日头条评论,python爬取头条付费视频

1天前

大家好，小编来为大家解答以下问题，python抓取今日头条中的广告，爬虫能抓取今日头条数据吗，今天让我们一起来看看吧！ 今日头条如

python 头条新闻机器人_荐GitHub：今日头条机器人

1天前

hello，小伙伴们大家好，今天给大家介绍的开源项目是：TTBot，这个开源项目是使用今日头条web版API实现的头条机器人，涵盖

python爬取今日头条新闻，js解密

1天前

这几天一直在研究js解密的问题，学会了不少新东西，以前见到那些加密的参数基本直接放弃，现在也可以琢磨一会进行尝试一番。我先分享一下心得，首先找到参数是在

根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页

1天前

在今日头条上输入关键词，爬取与关键词相关的新闻各类信息和内容页。今日头条爬取主要困难如下： （1）采用下拉翻滚动态加载新的新闻条目&#xf

python自动化配置路由器_使用Python管理小米路由器

15小时前

回顾之前很早的时候写过一篇使用 Python 脚本登录小米路由器的文章，文章链接在这写个Python脚本来登录小米路由器 ,当时写那个脚本是因为看到Github上有朋友问我这个登录的问题，刚好那时候手上正好也有一台小米路由器，于是花了点

python基础环境搭建2

11小时前

第2天目标复习 IDE(集成开发环境)pycharm [慢,收费]vscode 微软,前端支持非常强大Eclipspydev 免费,万能! Python基础基本语法逻辑实现核心对象 String, 列表, 字典(

Python基础笔记

10小时前

############################################################################################## Subject： Pyth

python cmd环境输入python打开应用商店解决

5小时前

在配置好了python环境变量之后在cmd命令行下输入python但是打开的是windows 10的应用商店，但是我们希望显示的是python的安装版本，可以使用以下的方法解决&#xff1

记录ENVI5.6和appstore的安装

5小时前

安装准备： 获取安装包，并关闭杀毒软件安装过程 2.1 启动envi56-win程序尽量以管理员方式运行 2.2 同意用户协议也只能同意了，可以不同意试试 2.3 安装

EXCEL快速填充空白内容

3小时前

** EXCEL快速填充空白内容 ** 1.全选所有需要填充的内容，按住电脑的F5或者CTRLG点击定位2.可以看到空白处被自动选定，之后按电脑和⬆，最后CTRLe

从零搭建完整python自动化测试框架（UI自动化和接口自动化）——持续更新

2小时前

本自动化测试框架采用pythonunittest 的基础来搭建，采用PO模式、数据驱动的思想，通过selenium来实现WEB UI自动化，通过request来实现接口自

Python获取高德POI(关键词搜索法)

2小时前

文章目录高德POI的获取改进代码前言查看API接口实现思路实现过程1.构建一个申请的函数(举手函数)2.构建反复申请的函数(多次举手)3.构建保存函数3.1 高德的坐标系3.2 循环体代码的理解完整代码：运行结果一

Python基于opencv调用摄像头获取个人图片的实现方法

9分钟前

今天小编就为大家分享一篇关于Python基于opencv调用摄像头获取个人图片的实现方法，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧接触图像领域的应该对于opencv都不会感到陌生，这个应该

电子爱好者 - 最新技术资讯及电子产品介绍！

评论抓取：Python爬取AppStore上的评论内容及星级,突破500条限制

1 配置文件(config_api.json)

2 代码(spider.py)

3 结果预览

4 结语

更多相关文章

Python 删除HDFS过期文件

python 压缩文件夹_Python 中怎么样删除zip压缩文件夹中某个文件

C语言：删除指定文件内容

怎样实现群晖(NAS)中查看是谁添加、修改、删除文件内容

在 Python 中如何删除文本文件中的特定行

python刷今日头条阅读量_用python3.5逛看今日头条

python爬取今日头条评论,python爬取头条付费视频

python 头条新闻机器人_荐GitHub：今日头条机器人

python爬取今日头条新闻，js解密

根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页

python自动化配置路由器_使用Python管理小米路由器

最新万能的Python爬虫模板来了(1)

python基础环境搭建2

Python基础笔记

python cmd环境输入python打开应用商店解决

记录ENVI5.6和appstore的安装

EXCEL快速填充空白内容

从零搭建完整python自动化测试框架（UI自动化和接口自动化 ）——持续更新

Python获取高德POI(关键词搜索法)

Python基于opencv调用摄像头获取个人图片的实现方法

发表评论

推荐文章

SMB漏洞修复

各浏览器中用iframe覆盖flash的方法，以及不能覆盖的情况

SAP 标准成本（所有级明细）BAPI

【立体声混音】使用Windows自带录音机录制电脑内部播放的声音

Origin申请、安装和激活手记

热门文章

RDF 格式之间的转换

关于HashMap容量的初始化，还有这么多学问。

virtualbox虚机无法上网

Ubuntu权威指南学习笔记

python爬取今日头条新闻，js解密

基于Android平台开发，仿头条新闻app（一）

今日头条付费项目，帮你赚到更多的钱，学会钱生钱的玩法

Centos7搭建KMS服务器

苹果mac休眠快捷键_史上最详细的苹果Macbook快捷键使用

Failed to detect a default CUDA architecture 的参考解决方法

最新文章

nvalid value for --gpu-architecture (-arch)

21年 46篇神经架构搜索(Neural Architecture Search) ICCV CVPR Survey 笔记 (21-46持续更新)

nvcc fatal：Unsupported gpu architecture ‘compute_89‘

Unknown host CPU architecture: arm64

【已解决】PCL配置中出现：nvcc fatal : Unsupported gpu architecture ‘compute_30‘

神经网络结构搜索Neural Architecture Search

Neural Architecture Search: A survey

Enterprise Architecture基本操作与常用图例

macOS symbol(s) not found for architecture arm64错误原因总结

MLP-Mixer: AN all MLP Architecture for Vision

MacOS编译错误：symbol(s) not found for architecture x86_64 || Undefined symbols for architecture x86_64:

Undefined symbols for architecture arm64 symbol(s) not found for architecture arm64

nvcc fatal : Unsupported gpu architecture ‘compute_

21年 46篇神经架构搜索(Neural Architecture Search) ICCV CVPR Survey 笔记 (1-20)

iOS问题记录 - Building for iOS Simulator, but linking in dylib built for iOS, for architecture arm64

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

从零搭建完整python自动化测试框架（UI自动化和接口自动化）——持续更新

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载