语音合成(TTS)论文优选:​Cross

编程入门 行业动态 更新时间:2024-10-09 22:22:24

<a href=https://www.elefans.com/category/jswz/34/1754031.html style=语音合成(TTS)论文优选:​Cross"/>

语音合成(TTS)论文优选:​Cross

声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:/page/speech.html。语音合成领域论文列表请访问/page/tts_paper.html,语音识别领域论文统计请访问/page/asr_paper.html。开源语音数据查询 /page/data.html。如何查找语音资料请参考文章)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using Non-Parallel Voice Conversion with Pitch-Shift Data Augmentation

本文主要由LINE Corp.,Tokyo, Japan和NAVER Corp., Seongnam, Korea在2022.04.21发表的文章,主要使用Pitch-Shift和Voice Conversion进行情感数据增广,从而训练情感语音合成模型,具体的文章链接.10020.pdf


(许久未更新,深感抱歉。我最近的任务更多工程模块实现,加上前两周身体不太舒服,因此没有读文章)

1 背景

情感语音合成的主要痛点之一就是情感语料的缺失,因此如何进行情感迁移成为该方向的热点。常用的方案主要包括使用multispeaker tts进行迁移或者使用Voice Conversion进行情感数据的转换。本文提到情感音频的数据的pitch变化比较丰富,因此使用Pitch-Shift进行数据增广,然后再使用Non-Parallel Voice Conversion进行情感数据转换,最后实现情感TTS。实验结果证明该方案可以实现少数据量中性发音人的情感语音合成。

2 详细设计

(本文的方案流程很简单,比较有借鉴意义是Pitch-Shift进行数据增广)

本文的方案如图一所示,先使用pitch-shift算法进行数据增广(pitch-shift的算法如图2和公式2所示,即先把spectrogram分解 spectral envelopes 和 fine structures,然后对fine structures进行拉伸。fine structures指浊音的谐波结构,或者说基音频率整数倍的梳状谱结构。)​。然后使用增广数据和原始数据训练VC模型,并生成目标说话人的情感数据​。最后,使用目标说话人原始中性数据以及转换情感数据训练语音合成系统​。

 

3 实验

本文的实验数据有中性、高兴和伤心​三种数据。本文对比的系统以及使用的数据如table 1​所示。具体的结果MOS值如table 2所示,即使拥有少数据量中性语料也可以训练情感​TTS系统,其结果好于multispeaker进行迁移方案​。最后图4说明pitch-shift算法可以更好地进行情感​迁移。

 

 

4 总结

​本文使用Pitch-Shift进行数据增广,然后再使用Non-Parallel Voice Conversion进行情感数据转换,最后实现情感TTS。实验结果证明该方案可以实现少数据量中性发音人的情感语音合成。(私认为可借鉴的部分为Pitch-Shift进行数据增广)

更多推荐

语音合成(TTS)论文优选:​Cross

本文发布于:2024-02-19 12:43:18,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1763912.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:语音合成   论文   TTS   Cross

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!