Python爬取王者荣耀全英雄台词语音及对应的文本

编程入门行业动态更新时间:2024-10-16 02:26:55

文章目录

- 写在前面
- 环境
- 网页分析
- 爬虫代码实现及说明

写在前面

很久之前就萌生了想爬取王者荣耀英雄台词语音，因为语音资源不是很好找，从官网获得的话，也比较麻烦。最近刚好有朋友需要语音素材，于是我就顺便帮了他一把。
完成这次爬虫，前前后后大概花了8个小时左右，用了之前没用到的库，和一些函数用法，导致bug，以至于花费时间来解决。而且因为自己过于盲目地爬取，一开始没有具体分析，到后来慢慢完善，总共写了三个版本。通过这次的练习，自己也有些许收获。

第一个版本，写一半发现，爬取失败；
第二个版本，能够顺利爬取语音及相关文本，但是不够全面；
第三个版本，顺利地爬取了全部语音及相关文本，并进行合理地合成，方便欣赏。

本文主要介绍第三个版本。

环境

python3.9
pycharm

网页分析

首先来到含有英雄全部语音的页面
https://pvp.qq/story201904/index.html#/voice?id=144

进入网页后，进行检查，如下图，找到data_zlk_lb.json这个文件，可以很清晰的见到想要爬取的台词语音及相关的文本。

切换到标头，即可找到需要的URL

到这，目标一就找到了。

如：取一个语音的MP3文件链接，做演示
//game.gtimg/images/yxzj/zlkdatasys/audios/audio/20210406/16177204029921.mp3

这八秒的语音对应的台词就是：你好，我叫艾琳！

有了目标一，是不是有小伙伴想问，难道还有目标二？

当然！因为在这个页面，除了这些，我们最多还能得到的是声优的信息，和英雄的编号，得不到英雄的名称，不方便最后文件的命名。

为了提高最后文件的可读性，最好能够台词与英雄名相匹配。

匹配的关键桥梁就是，英雄编号！

可以来到第二个详情页：英雄资料页面
https://pvp.qq/web201605/herolist.shtml

其实，我之前有写过一篇关于这个页面的内容爬取，可以参考一下：
python爬取王者荣耀英雄的背景故事

这样就完成了目标二。

更多的思路体现在代码的注释中

爬虫代码实现及说明

# -*- coding: UTF-8 -*-
"""
# @Time: 2021/8/10 12:13
# @Author: 远方的星
# @CSDN: https://blog.csdn/qq_44921056
"""
import os
import re
import json
import requests
import chardet
from pydub import AudioSegment
from fake_useragent import UserAgent

# 随机产生请求头
ua = UserAgent(verify_ssl=False, path='D:/Pycharm/fake_useragent.json')

# 提前创建一个文件夹,方便创建子文件夹
path_f = "./王者语音"
if not os.path.exists(path_f):
    os.mkdir(path_f)


# 随机切换请求头
def random_ua():
    headers = {
        "accept-encoding": "gzip",  # gzip压缩编码  能提高传输文件速率
        "user-agent": ua.random
    }
    return headers


#  创建文件夹
def path_creat(name):
    _path = "./王者语音/{}/".format(name)
    if not os.path.exists(_path):
        os.mkdir(_path)
    return _path


#  下载语音内容
def download(file_name, text, path):  # 下载函数
    file_path = path + file_name
    with open(file_path, 'wb') as f:
        f.write(text)
        f.close()


#  获取英雄名称及对应编号
def get_hero_num():
    url = 'https://pvp.qq/web201605/js/herolist.json'
    response = requests.get(url=url, headers=random_ua()).text
    hero_list = re.findall('"ename": (.+?),', response, re.S)  # 得到英雄的编号列表
    hero_name = re.findall('"cname": "(.+?)"', response, re.S)  # 得到英雄的名字列表
    return hero_list, hero_name


def text_json():
    url = 'https://pvp.qq/zlkdatasys/data_zlk_lb.json'
    param = {
        'callback': 'createList'
    }

    res = requests.get(url=url, headers=random_ua(), params=param)
    res.encoding = chardet.detect(res.content)['encoding']
    res = res.text.replace('createList(', '').replace(')', '')  # 去掉不符合json格式的部分字符串数据

    res_json = json.loads(res)  # 将字符串json格式化

    hero = res_json["yylb_34"]  # 所有英雄语音信息
    return hero


# 处理台词文本
def text_deal(text):
    text_result = ''  # 为台词连接做准备
    for j in range(len(text)):
        text_result += text[j]  # 将台词连起来
        text_result += '\n\n'  # 加一个断句的换行符
    text_result = text_result.encode(encoding='utf-8')
    return text_result


def main():
    hero_list, hero_name = get_hero_num()  # 获取英雄编号及名称
    hero_s = text_json()
    for i in range(len(hero_s)):  # len(hero_s)
        hero = hero_s[i]["yxid_a7"]  # 英雄编号

        hero_index = hero_list.index(hero)  # 获取英雄名称对应的索引
        name_result = hero_name[hero_index]  # 确定英雄名称

        path = path_creat(name_result)  # 创建子文件夹

        voice_list = hero_s[i]["yy_4e"]  # 语音列表

        num = 1
        text = []
        silence = AudioSegment.silent(duration=1000)  # 1秒的空期

        try:  # 有部分英雄的语音合成会失败
            for j in range(len(voice_list)):
                voice_text = voice_list[j]["yywa1_f2"]  # 语音文本
                text.append(voice_text)  # 拼接文本

                voice_url = 'http:' + voice_list[j]["yyyp_9a"]  # 语音mp3的url
                voice = requests.get(url=voice_url, headers=random_ua()).content
                voice_name = name_result + '{}.mp3'.format(num)
                download(voice_name, voice, path)  # 下载单个语音
                sound = AudioSegment.from_file(path + voice_name, format="mp3")  # 读取下载的MP3文件
                silence += sound  # 语音合成
                num += 1
            silence.export(path + '{}.mp3'.format(name_result), format="mp3")  # 导出合成语音
            print('{}语音合成成功\n'.format(name_result))
        except:
            print('{}语音合成失败\n'.format(name_result))
        text_result = text_deal(text)  # 最终的文本
        text_name = name_result + '.txt'  # 语音文本文件名称
        download(text_name, text_result, path)  # 下载语音文本
        print("{}的语音文本信息下载完毕！\n".format(name_result))


if __name__ == '__main__':
    main()