语音合成(TTS)论文优选：Cross

编程入门行业动态更新时间:2024-10-09 22:22:24

语音合成(TTS)论文优选：Cross

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。搜集一些资料，方便查阅学习：/page/speech.html。语音合成领域论文列表请访问/page/tts_paper.html，语音识别领域论文统计请访问/page/asr_paper.html。开源语音数据查询 /page/data.html。如何查找语音资料请参考文章）。如有转载，请注明出处。欢迎关注微信公众号：低调奋进。

Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using Non-Parallel Voice Conversion with Pitch-Shift Data Augmentation

本文主要由LINE Corp.,Tokyo, Japan和NAVER Corp., Seongnam, Korea在2022.04.21发表的文章，主要使用Pitch-Shift和Voice Conversion进行情感数据增广，从而训练情感语音合成模型，具体的文章链接.10020.pdf

（许久未更新，深感抱歉。我最近的任务更多工程模块实现，加上前两周身体不太舒服，因此没有读文章）

1 背景

情感语音合成的主要痛点之一就是情感语料的缺失，因此如何进行情感迁移成为该方向的热点。常用的方案主要包括使用multispeaker tts进行迁移或者使用Voice Conversion进行情感数据的转换。本文提到情感音频的数据的pitch变化比较丰富，因此使用Pitch-Shift进行数据增广，然后再使用Non-Parallel Voice Conversion进行情感数据转换，最后实现情感TTS。实验结果证明该方案可以实现少数据量中性发音人的情感语音合成。

2 详细设计

（本文的方案流程很简单，比较有借鉴意义是Pitch-Shift进行数据增广）

本文的方案如图一所示，先使用pitch-shift算法进行数据增广（pitch-shift的算法如图2和公式2所示，即先把spectrogram分解 spectral envelopes 和 fine structures，然后对fine structures进行拉伸。fine structures指浊音的谐波结构，或者说基音频率整数倍的梳状谱结构。）。然后使用增广数据和原始数据训练VC模型，并生成目标说话人的情感数据。最后，使用目标说话人原始中性数据以及转换情感数据训练语音合成系统。

3 实验

本文的实验数据有中性、高兴和伤心三种数据。本文对比的系统以及使用的数据如table 1所示。具体的结果MOS值如table 2所示，即使拥有少数据量中性语料也可以训练情感TTS系统，其结果好于multispeaker进行迁移方案。最后图4说明pitch-shift算法可以更好地进行情感迁移。

4 总结

本文使用Pitch-Shift进行数据增广，然后再使用Non-Parallel Voice Conversion进行情感数据转换，最后实现情感TTS。实验结果证明该方案可以实现少数据量中性发音人的情感语音合成。（私认为可借鉴的部分为Pitch-Shift进行数据增广）

更多推荐

语音合成(TTS)论文优选：Cross

本文发布于:2024-02-19 12:43:18，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1763912.html