RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for TTS|电子爱好者

admin管理员组
文章数量:1564175

demo page
Detai Xin， tanxu
微软 & 东大 & 浙大

abstract

使用CoT的思路，和Valle的框架，先实现LLM预测音素级别pitch/duration，然后预测speech token。

methods

Prosody tokens as chain-of-thought prompts

和Valle一样，仍然是AR+NAR结构
AR先预测pitch/duration，在预测speech token，因为L<<T，所以作者认为对效率影响不大；
NAR结构：sum(pitch, duration, phone)

Enhancing alignment with duration-guided masking

Valle中，transformer attention 可以计算所有的phone和speech token，因此align不稳定；
Ralle限制当前phone只能在对应的mel window内计算；相对应，也只能在window 内和pitch token计算；AR加入此mask策略之后稳定性提升显著；NAR 中加入此mask策略没有明显效果；
因为inference的时候，先知道duration，所以判断模型是否停止不是看 < E O S > <EOS> <EOS>，而是看推理长度是否是 s u m ( d u r ) sum(dur) sum(dur)，以减少skip/repeat error。

本文标签： Codec language RALL Robust Modeling

版权声明：本文标题：RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for TTS 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1726875828a1088338.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

The JSTS language service immediately crashed 5 times. The service will not be restarted vue3代码提示失效

26天前

The JSTS language service immediately crashed 5 times. The service will not be restarted. This may be caused by a plugi

《The Rise and Potential of Large Language Model Based Agents: A Survey》全文翻译

25天前

The Rise and Potential of Large Language Model Based Agents: A Surve - 基于 LLMs 的代理的兴起和潜力：一项调查论文信息摘要1. 介绍2. 背

Unleashing the Potential of Large Language Models as Prompt Optimizers

25天前

本文是LLM系列文章，针对《Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradie

Modeling Heterogeneous Relations across Multiple Modes for Potential Crowd Flow Prediction学习笔记

25天前

Modeling Heterogeneous Relations across Multiple Modes for Potential Crowd Flow Prediction学习笔记解决的问题: 如果网络结构中来了新的地点&

Exploring the Potential of Large Language Models (LLMs) in Learning on Graphs

25天前

本文是LLM系列文章，针对《Exploring the Potential of Large Language Models (LLMs) in Learning on Graphs》的翻译。探索大型语言模型在图形学习中的潜力摘要1

阅读笔记——《Fuzz4All: Universal Fuzzing with Large Language Models》

22天前

【参考文献】Xia C S, Paltenghi M, Le Tian J, et al. Fuzz4all: Universal fuzzing with large language models[C]Proceedings of

LLMs：《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》翻译与解读

20天前

LLMs：《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》翻译与解读导读：BLOOM(BigScience La

[文献阅读]Robust Anomaly Detection for Multivariate Time Series through Stochastic RNN

19天前

Robust Anomaly Detection for Multivariate Time Series through Stochastic Recurrent Neural Network 发表会议：2019 KDD 1 简介 1

project structure setting modules language level 总是自动变到5

19天前

idea project structure setting modules language level 总是自动变到5 解决： 在对应的pom.xml里面加入如下 <build><plugin

自然语言处理从入门到应用——自然语言处理（Natural Language Processing，NLP）基础知识

18天前

分类目录：《自然语言处理从入门到应用》总目录自然语言通常指的是人类语言，是人类思维的载体和交流的基本工具，也是人类区别于动物的根本标志，更是人类智能发

about foreign language,especially english

13天前

i like foreign language,and hope i can speak one fluently someday,especially english.so i watch english movies in free t

文献阅读--FLTrust: Byzantine-robust Federated Learning via Trust Bootstrapping

9天前

本文设计了一个 Byzantine-robust （能够抵御投毒攻击） 的联邦学习框架。在此 Fed 框架中，每一轮梯度聚合前，server 端会先计

win10上启用MOV文件缩略图显示 - K-Lite Mega Codec Pack

9天前

效果图方法下载安装 K-Lite Codec Pack （安装时一路Next即可）Download K-Lite Codec PackDownload links for the K-Lit

Build a Large Language Model (From Scratch)GPT-4o翻译和代码每行中文注释Ch 1

8天前

目录 1 Understanding Large Language Models1 理解大型语言模型This chapter covers本章内容1.1 What is an LLM?1.2 Applications of LLMs1.3

【Chain-of-Thought 专题】Self-consistency Improves Chain Of Thought Reasoning in Language Models

7天前

【Chain-of-Thought 专题】Self-consistency Improves Chain Of Thought Reasoning in Language Models 简要信息： 序号属性值1名称

论文阅读之Multimodal Chain-of-Thought Reasoning in Language Models

7天前

文章目录简介摘要引言多模态思维链推理的挑战多模态CoT框架多模态CoT模型架构细节编码模块融合模块解码模块实验结果总结简介本文主要对2023一篇论文《Multimodal Chain-of-Thought Reasoning in