Improving noise robustness of contrastive speech representation learning with speech reconstruction

编程入门 行业动态 更新时间:2024-10-28 21:28:20

Improving noise robustness of contrastive speech representation learning with speech reconstruction

研究机构: The Ohio State University,Microsoft Corporation

文章来源:[2110.15430] Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction (arxiv)

摘要

噪声鲁棒性对于在现实环境中部署自动语音识别 (ASR) 系统至关重要。 降低噪声干扰影响的一种方法是采用预处理模块进行语音增强,然后将增强后的语音馈送到ASR后端。 在这项工作中,我们没有使用传统的级联方法来抑制背景噪声,而是采用了一种通过改进的自监督框架学习噪声鲁棒性表示,用于噪声语音识别。我们提出将重建模块与对比学习相结合,并对噪声数据执行多任务连续预训练。 重建模块用于辅助学习以提高学习到的表示的噪声鲁棒性,因此在推理过程中不需要。实验证明了我们提出的方法的有效性。 我们的模型显著降低了合成带噪 LibriSpeech 测试集的单词错误率 (WER),与数据增强相比,噪声清洁/其他测试集的 WER 减少了约 4.1/7.5%。对于来自 CHiME-4 挑战(单通道)的真实世界嘈杂语音,我们在没有任何去噪前端的情况下获得了最先进的 ASR 性能。此外,我们实现了与仅 16% 的标记数据报告的最佳监督方法相当的性能。

主要创新点

模型整体结构如图(左)所示,具体的重建模块如图(右)所示,包含BLSTM+layernorm+CNN upsampler,CNN upsampler主要作用就是上采样重建语音。

1.在wav2vec2.0的基础之上,引入reconstruction 任务,从noisy 语音显式重建干净语音。

2.重建模块受convolution recurrent network(CRN)启发。CNN upsapmler部分和feature encoder模块完全相反。

3.损失函数,额外引入reconstruction loss。

实验结果

合成带噪数据:

Clean数据:librispeech train-clean-100

训练集noise数据:DNS-challenge

测试集noise数据:MUSAN

SNR: {5,6,7,…,20}dB

真实场景带噪数据:CHIME-4 challenge data

实验结果1:

在开源预训练960h模型的基础上继续训练(continual training),预训练数据为100h train-clean-100带噪数据。Finetune数据为libri-light 10h数据。

1.Baseline是开源pre-train 960h finetune 10h在对应测试集上的结果。clean集合上性能好,noisy集合上性能差。

2.不采用RCModule,进行continual training,会发现在noisy集合上性能提升,在clean集和上性能下降。原因:在带噪数据上训练,预训练模型忘记了在干净数据上学习到的信息。

3.采用RCModule,进行continual training,clean集合上性能下降不大,noisy集合上性能有提升。

实验结果2:

真实场景带噪数据实验

不需要利用前端处理模块,仅利用16%的有监督训练数据就能达到有监督方法的性能

实验结果3:

重建模块的位置选择

实验表明在transformer输出之后进行重建性能最好。

更多推荐

Improving noise robustness of contrastive speech representation learning with sp

本文发布于:2023-05-18 10:59:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/142791.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:robustness   contrastive   Improving   noise   learning

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!