(源码)端到端的声音克隆项目(对GPT-SoVITS工程化)|电子爱好者

admin管理员组
文章数量:1588264

端到端的声音克隆：即输入原音频(1分钟就可以，时间越长越好)和结果输出的音频命名，执行相应脚本，等待程序执行完成，即可得到克隆结果和模型。(默认中英混合训练，中英混合推理，中英混合参考文本)

项目1：声音克隆的训练一体化整合项目以及API。

下载链接：https://pan.quark/s/395bf4342d4f

(虚拟环境包脚本链接：https://pan.quark/s/bf2511f7b1fc，虚拟环境包地址(有些包需要手动调整)：请将虚拟环境放在绝对路径E:\envs\neuralangelo中https://pan.quark/s/6d6ddf8e3373

项目2：声音克隆的推理一体化整合项目以及API。

下载链接：https://pan.quark/s/5333556cdadf

项目1：项目简介

1.该项目是本人基于GPT-SoVITS做的工程化，为什么用GPT-SoVITS？因为经过调研，目前开源质量最好的声音克隆项目就是GPT-SoVITS。1分钟的音频，训练生成结果大概5-10分钟。
2.首先温馨提醒：该项目前提是需要会配置深度学习的虚拟环境(关键包的版本我会在后面声明，未声明就是正常安装就行)，因为本人不是专业做教程的，目的是将技术打通，自己使用的同时共享给大家一起使用，在修改项目的过程中，可能没有将项目整理的很干净，有些多余文件，但没关系他们不会影响项目的执行，由于以上原因可能不适合纯小白。
3.使用说明：该项目以及产品2下载解压，都要统一放在E:\project下，再配置好环境，即可成功。因为在测试过程中，有些流程对相对路径会报错，所以需要用到绝对路径。主目录是：E:\project\GPT-SoVITS-main\打包好\GPT-SoVITS
4.硬件说明：本人使用window11系统，单卡显卡4070ti，12G显存，64G内存进行测试并修改的。故项目里面的相关设置都是基于单卡的，代码的相关配置已经写死了，如果你想用多卡，可能需要自己调整。如果只是换显卡型号，不是多卡的话，就没问题，爆显存就调低两次训练的模型的batch_size即可。
5.软件说明：需要用到VPN。本项目是先跑通官方GPT-SoVITS，再进行修改的，所有官方需要下载的文件，本项目都有。第一次部署项目时，需要通过网络下载音频预处理的相关模型到C盘(官方最近更新采用在线下载的方式)，如：ASR等。如果内网下载缓慢，就尝试开VPN。
6.环境说明：尽量按照给的包版本来安装，没有的就默认。cuda11.8，torch==2.0.1
7.修改说明：

a：将原版的半精度改成False，在主目录的config.py文件中,不然训练会报错

b：切割音频时长参数-24

c:项目一次一个进程，不支持多路。故官方模型存放的目录每次使用都会被刷新，即新生成的模型覆盖旧的模型。但历史模型和参考音频都存放在output

d：E:\project\GPT-SoVITS-main\打包好\GPT-SoVITS\tools\asr\models中不能按原作者放入ASR魔塔模型文件，模型文件换成自动网络下载到了C:\Users\Administrator\.cache\modelscope\hub\iic中

e：原onnxruntime换成onnxruntime-gpu，UVR5才能使用onnx_dereverb_By_FoxJoy显卡推理

f：输入音频限制oss库链接，如果想本地上传删掉end_to_end.py的128行，download_file()，将输入写入“.\output\source”即可。

g：项目流程

（1）UVR5(python)，音频预处理。

模型使用步骤：分离伴奏HP5_only_main_vocal->去和声onnx_dereverb_By_FoxJoy-VR(后来取消了，原因是用GPU 推理也很慢，占用了整个推理时间的30%)->去混响/去延迟DeEcho-Aggressive。

转换存储过程为了加快速度，使用了mp3格式，比wav大小小10倍（即速度快很多），但是质量有所下降了（目前使用的mp3）

（2）语音切分end_to_end.py。def slice(audio)。训练batch_size==18极限

（3）ASR处理end_to_end.py。def asr(audio)

（4）1A训练格式化工具 def GPT_SoVITS_1A(inp_text,inp_wav_dir)

（5）1B微调end_to_end.py def GPT_SoVITS_1B_step1()训练batch_size==18极限 def GPT_SoVITS_1B_step2(batch_size==21极限)

（6）1C推理end_to_end.py def inference()

8.脚本说明：
（1）核心脚本为end_to_end.py,集成了训练过程中的每个流程。输入是原音频和结果命名。输出是克隆音频的demo。其次将模型文件保存再output文件夹中。
（2）api.py

将ip改为本机ip

接口文档件附件1，生成的内容做成了另一个回调接口，用户使用时直接接到参数就行，可以不进行回调直接获取结果。
链接：https://pan.quark/s/f1a42572d2e4

9.可能出现错误的说明：

（1）nltk_data错误解决办法：

https://github/RVC-Boss/GPT-SoVITS/issues/848

（2）路径错误：

注意绝对路径以及导包的绝对路径,UVR5的输入音频一定是绝对路径，这里已经改过

（3）训练的batch_size不要过高(建议15以内)，否则会出现保持不了模型的问题

（4）ffmeg的包可能要uninstall，再重装相应版本

项目2：声音克隆的推理模块单独抽离，选择声音训练的历史模型文件，进行一键推理。前提是基于产品1的部署好。

1.根目录说明：同项目1相同，将项目放在E:\project下
2.脚本说明：
（1）process.py，输入是模型名称(E:\project\GPT-SoVITS-main\打包好\GPT-SoVITS\output\SOVITS_models)，需要克隆的文字，结果命名。输出是克隆的结果音频
（2）api.py
将ip改为本机ip
接口文档件附件2，生成的内容做成了另一个回调接口，用户使用可以不进行回调直接获取结果。链接：https://pan.quark/s/4606f23229fe

（VX：jiang_lay，备注来意）

本文标签：源码端到声音项目工程

版权声明：本文标题：(源码)端到端的声音克隆项目(对GPT-SoVITS工程化) 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1728038548a1143189.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

(源码)端到端的声音克隆项目(对GPT-SoVITS工程化)

项目1：项目简介

项目2：声音克隆的推理模块单独抽离，选择声音训练的历史模型文件，进行一键推理。前提是基于产品1的部署好。

更多相关文章

小程序源码：uni-app云开发的网盘助手-多玩法安装简单

C#winform框架 音乐播放器开发 联网下载音乐功能的实现原理及源码（纯原创--）

我自己制作的导航页网站，源码免费分享~

MP3编码解码详解MP3编码原理专题MP3编码源码MP3解码器源码免费下载

Android 源码编译

【GitHub项目推荐--智慧农场】【转载】

计算机无法连接声音怎么办,电脑耳机没声音怎么设置|耳机插电脑没有声音解决方法...

C++MFCPython杀毒软件 安全卫士项目

探索SpringBoot：海滨体育馆管理项目开发

【源码+论文】springboot视频网站系统的设计与实现

c语言源码代码生成器,SoEasyPlatform 代码生成器

2019仿笔趣阁小说网站源码(PC版+手机版+APP+采集器+教程)下载

吊炸天！74款APP完整源码！

Vue项目多浏览器兼容(主要是IE、360)

java web删除文件_java web项目实现上传文件的回收站功能

php工程导致系统蓝屏,经常蓝屏是什么原因

SpringBoot+Vue项目打包成exe，含mysql，redis，nginx，Electron

[DotNetGuide]C#.NET.NET Core优秀项目和框架精选

(源码)端到端的声音克隆项目(对GPT-SoVITS工程化)

【数字信号去噪】基于matlab粒子滤波器、正向向后平滑FBS和最大后后平滑MAP数字信号去噪【含Matlab源码 6856期】

发表评论

推荐文章

【渝粤题库】陕西师范大学203031 英语写作（二）》（高起专）作业

电脑显示屏不亮但是主机已开机？5种原因以及解决方案

pdf转换成txt转换器在线转换

Linux常用命令总结（2）--＞＞针对文件使用的命令

清理谷歌浏览器注册表_chrome注册表怎么清理_如何清理没用的chrome注册表-win7之家...

热门文章

17种免费压缩软件，各有千秋，总有一款满足你的需求！

搜索网络所有计算机快捷键,实用电脑快捷键使用大全(图文)

免费的网站地图生成器，sitemap支持xml、html、txt生成绝对站长工具必备使用教程

360加固问题）如何解决Mac mac big sur 11.2.1 提示“您没有权限来打开应用程序‘xxx’”？以及无法打开×××，因为无法验证开发者

记一次APP去壳破解重新打包

Windows 电脑基本操作（陆续更新ing）

台式机怎么重装win7,台式电脑重装系统win7的详细教程

JavaScript（三）

嵌入式linux内核调用设备树,Linux设备驱动模型之platform总线深入浅出(加入设备树)...

搞事情 -- python之线程

最新文章

电脑遇到闪屏问题怎么解决

不用U盘，用一台好电脑给另一个电脑重装windows10

U大师U盘装系统——安装原版Win7系统教程（V2.0版）

U深度U盘安装win7系统教程

双系统装完只能u盘启动_U盘启动盘如何安装Win7+Win8双系统史上最详细教程

重装系统Oracle数据库恢复

原xp系统电脑重装win732位

微星笔记本u启动安装win10系统

LG Ultra PC 2022 锐龙版笔记本重装win7系统教程

u启动linux安装教程,u启动制作linux安装系统教程

电脑装两个硬盘在计算机只显示一个,电脑有两个硬盘，如何去掉机械硬盘中的那套系统？...

重装系统后，plsql连接oracle方法

研华工控机linux改win7,windows7上不了网研华工控机怎么设置u盘启动_研华工控机U盘引导方法...

ultraos win10启动盘_UltraISO制作U盘启动安装MSDN原版Win10系统教程 - SDN系统库

分享阿里HR熬夜整理76道软件测试常见面试题

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

C#winform框架音乐播放器开发联网下载音乐功能的实现原理及源码（纯原创--）

C++MFCPython杀毒软件安全卫士项目

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载