论文翻译：Generalized LSTM

编程入门行业动态更新时间:2024-10-11 07:32:06

论文翻译：Generalized LSTM

摘要：可用数据量的增加和更廉价的硬件解决方案为深度学习(DL)领域打开了一扇大门。由于DL的快速发展和日益流行，它已经开始通过改变传统的最先进的方法，进入几乎所有机器学习适用的领域。虽然说话人识别领域的许多研究人员也开始用DL技术取代以前的最先进的方法，但在文本无关说话人验证(TI-SV)的背景下，一些传统的基于i向量的方法仍然是最先进的。在本文中，我们讨论了最新的基于长短时记忆(LSTM)单元的通用端到端(GE2E) DL技术，并通过谷歌比较了不同的场景和方面，包括说话时长、训练时间和准确性，以证明我们的方法优于传统的方法。

关键词：深度学习，说话人验证，GE2E，文本独立

I. 引言

A. 背景

说话人识别(Speaker recognition, SR)是根据说话人的声音来识别说话人的身份。它是一个非常活跃的研究领域，在生物认证、取证、安全、语音识别和说话人日记等各个领域都有显著的应用，这使得人们对这一学科产生了稳定的兴趣。此外，SR已经成为远程认证的流行技术，特别是在电信和网络的发展。人类语言是最复杂的自然信号之一，包含大量信息，这使得它对每个人来说都是独特的，并使我们能够基于这些属性创建SR系统。

说话人验证(Speaker verification, SV)和说话人识别(speaker identification, SI)是说话人身份验证的两个重要子任务。说话人验证(SV)的任务是验证一个人声称的身份是真实的或冒名顶替的。而说话人识别(SI)则是指从一群已知的说话人中识别一个未知的人的身份。与SV和SI一起，SR是在一般情况下识别未知说话人身份的过程，先验证后识别。

说话人验证(SV)过程一般可分为训练、注册、评价(training, enrollment, and evaluation)三个步骤。在训练阶段(training)，提取特定于说话人的特征，利用可用的信号创建说话人表示的背景模型。在注册阶段(enrollment)，使用背景模型，即DL技术中训练的网络，利用说话人的话语来创建说话人模型。最后，在评价步骤中(evaluation)，通过将测试话语输入背景模型，建立测试说话人模型。将它们与已经注册的说话人模型进行比较，以检查它们之间的相似性。

根据注册和验证使用的话语的限制，说话人验证模型通常分为两类：依赖文本的说话人验证(text-dependent speaker verification, TD-SV)和独立文本的说话人验证(text-independent speaker verification, TI-SV)。在TD-SV中，注册和评价阶段使用相同的文本，而在TI-SV中，注册或验证话语没有限制，暴露出较大的音素变动性和话语持续时间。结合关键字识别系统(keyword spotting system, KWS)，依赖文本的SV可以集成到智能个人助理，如苹果Siri，亚马逊Alexa，谷歌Now和微软Cortana，其中KWS和依赖文本的TD-SV作为关键字语音认证唤醒，以启用以下语音交互。

B. 文本无关的说话人验证(TI-SV)

在本研究中，我们关注文本独立的说话人验证。在深度神经网络时代之前，最先进的说话人识别方法是i向量方法。目前，DL方法在说话人识别的各个领域中都优于以往的先进方法。然而，在文本独立说话人验证的背景下，i向量框架及其变体在某些任务中仍然是最先进的。在NIST SRE12和SRE16以及它们的后评价中，几乎所有的主导系统都是基于i-vector的。然而，当在注册/评估阶段满足短话语时，i向量系统容易出现性能下降。

近年来，基于DL算法，特别是端到端，TI-SV的方法受到了越来越多的关注，许多研究人员提出了在各种任务中优于i-vector/PLDA框架的不同方法。端到端DL系统比基准i向量系统取得了更好的性能，特别是在短话语方面。与贝叶斯信息准则和高斯发散相比，具有三重损耗的双向LSTMs (BiLSTMs)在“同/不同”说话人检测实验中取得了更好的性能。

本文讨论了基于GE2E深度学习的TI-SV技术。我们检查了各种场景和参数以及潜在的候选架构，以评估所提出的广义方法的通用性。

C. 论文结构和贡献

我们的论文组织如下。在第二节中，我们提出了端到端DL方法，描述了TI-SV问题所使用的语料库和必要的数据处理步骤，以及训练过程。第三节讨论了不同的实验来评估提出的端到端方法的性能。最后，第四节提出了一些结论和潜在的未来工作。我们的源代码可以作为一个开源项目在网上获得，以供进一步研究。

II. 方法

端到端系统将整个系统视为一个整体的可适应黑盒。特征提取和分类器训练的过程是与评价指标一致的目标函数并行实现的。

本课题的方法主要基于[4]提出的GE2E模型。广义端到端训练的主要优点是可以一次处理大量的话语，大大减少了总训练时间和收敛时间。在本节中，我们首先解释所提出的GE2E方法。然后描述必要的预处理和数据准备、培训程序和配置。

A. GE2E方法

我们选择N个不同的说话人，为每个被选择的说话人提取M个不同的话语，创建一个批(batch)。从每个话语中提取出来的特征xji将被输入到网络。所使用的网络由3个LSTM层和一个线性投影层组成，以得到最终的嵌入向量。最后的嵌入向量(d向量)是网络输出f(xji;W)的L2归一化，其中W为网络的所有参数。

其中eji表示第j个说话人的第i个话语的嵌入向量。来自第j个说话人[ej1, ..., ejM]的嵌入向量的质心cj定义为第j个说话人的嵌入向量的算术平均值。

相似性矩阵Sji,k定义为每个嵌入向量eji与所有质心ck(1≤j, k≤N, 且1≤i≤M)之间缩放的余弦相似度。

其中w和b是可学习的参数。我们限制权值为正w>0，因为当余弦相似度较大时，我们希望相似度也较大。

与大多数端到端方法(而不是标量值)不同，GE2E构建一个相似矩阵(公式2)定义了每个eji和所有质心ck之间的相似性。图1为特征提取后的讨论过程，不同的说话人用不同的颜色表示。

在训练过程中，我们的目标是使代表特定说话人话语的嵌入与该说话人的嵌入中心的相似度最大化。同时，我们希望最小化所有其他说话人嵌入中心的相似性。这种思想借鉴了传统的方法，如线性判别分析(LDA)。如图2所示，我们希望蓝色的嵌入向量靠近自己说话人的质心(蓝色三角形)，远离其他说话人的质心(红色和紫色三角形)，特别是最近的那个(红色三角形)。

此外，在计算真说话人质心时去除eji使训练稳定，并有助于避免琐碎的解。因此，在计算负相似度时(即，k不等于j)，我们仍然取嵌入向量的算术平均值，而在k=j时，我们使用以下公式：

因此，公式2也就变成：

最后，我们在Sji上放一个SoftMax, k = 1, ..., N，如果fk=j，则输出等于1，否则输出等于0。因此，每个嵌入向量eji上的损失可以定义为，

这个损失函数意味着我们把每个嵌入向量推到它的质心附近，并把它从所有其他质心拉出来。

最后，为了计算最终GE2E损失LG，我们有两个选项，

1)根据[4]，GE2E损耗LG为所有损耗在相似矩阵(1≤j≤N, 1≤i≤M)上的和，

2) GE2E损耗LG为所有损耗在相似矩阵(1≤j≤N, 1≤i≤M)上的均值，

虽然这两种选择最终表现相同，但我们建议选择2，因为它更符合每批说话者的数量或每个说话者的话语。

B. 语料库和数据预处理

我们用于所有训练、注册和评估步骤的语料库是LibriSpeech数据集，它来自英语有声读物。“train-clean-360”子集用于训练，其他子集以开放集的方式分别用于注册和评估。表格1举例说明了语料库不同子集的统计数据。对于“干净”训练集中的每个发言者，讲话时间限制在25分钟以内，以避免每个发言者的音频持续时间的重大不平衡。接下来，我们将描述数据预处理。

1)培训数据预处理：

将每个语音的音量归一化后，我们执行最大沉默长度为6ms、窗长为30ms的V声活动检测(VAD)，然后修剪声压低于30db的间隔。因此，我们最后得到的是每个话语更小的片段，这被称为部分话语。我们只选择长度至少1.8 s的部分话语。

特征提取过程与[25]相同。部分话语首先被转换为宽度为25ms、步长为10ms的帧。然后提取40维对数梅尔滤波组能量作为每一帧的特征表示。

2)注册和评估数据预处理：

除了部分话语，我们将每个话语的小片段连接起来，以便每个话语再次有一个单独的片段，其他步骤在这里保持训练步骤相同。

C. 训练过程

我们随机选择N个说话人，并为每个说话人随机选择M个经过预处理的部分话语，构建一个批。如图3所示，为了引入更多的随机化，我们在[140,180]帧内随机选择一个时间长度t，并强制该批部分话语的长度均为t。这意味着不同批次的部分话语长度不同。但在同一批中，所有不完全发音的长度必须相同。

我们使用768个隐藏节点和256维嵌入我们的网络，并使用亚当优化器优化模型，学习率为1e−4。该网络共有12,134,656个可训练参数。每批由N= 16个说话人组成，每批由M= 5个部分话语组成，每批有80个部分话语。将梯度的L2-norm裁剪为3，将LSTM中投影节点的梯度尺度设置为1。此外，我们用(10，−5)初始化损失函数的比例因子(w, b)，并使钳位w大于1e−6，以平滑收敛。此外，对网络权值采用Xavier正态化初始化，并将偏差初始化为零。算法1和算法2详细说明了训练数据的预处理和训练数据的批处理。

三、实验

为了评估Sec.II-A中提出的方法的性能，我们将评价结果与基线方法(cf. Sec.III-C)进行比较，并在本节中讨论各种实验。

在进行实验之前，我们首先需要明确获得录取和评价话语的d-向量的过程，并解释所使用的评价和定量分析方法。

A. 注册和评估d-vector

为了方便和节省时间，我们首先将所有可用的经过预处理的注册和评价话语输入到经过训练的网络(cf. Sec. II-C)，并存储得到的d-vector。随后，我们可以很容易地加载它们来执行各种实验的登记和评估过程。

如图4所示，对于每个话语，我们采用一个固定大小(140 + 180)/2 = 160帧的滑动窗口，其中50%的重叠。我们计算每个窗口的d向量。最终的话语方向d向量是由L2对窗口方向的d向量进行归一化生成的，然后再对元素方向取平均值。算法3和算法4详细描述了注册和评价数据的预处理和d向量生成的准备工作。

B. 定量分析方法

在创建d向量之后，我们可以开始计算系统。在这一阶段，我们使用基于阈值的二值分类方法，首先我们需要为每个被评估的说话人创建一个说话人参考模型，即登记步骤。在接下来的步骤中，我们计算未知的测试话语d向量和已经建立的说话人模型d向量之间的相似度。我们这里使用的相似性度量，是余弦相似度，它是说话者模型和测试d向量的标准化点积，

eji和ck的相似度评分越高，表示它们越相似。

我们用来评估说话人验证系统性能的指标被称为等误差率(equal error rate, EER)，它被用来预先确定其错误接受率(false acceptance rate, FAR)和错误拒绝率(false rejection rate, FRR)的阈值。它搜索一个相似度的阈值，其中真实的话语被归类为冒名者的比例(FRR)等于冒名者被归类为真实的比例(FAR)。

根据公式9、公式10、公式11分别计算总体容积率、容积率和容积率。计算使用真接受值(true acceptance, TA)、真拒绝值(true rejection, TR)、假接受值(false acceptance, FA)和假拒绝值(false rejection, FR)。注意，由于FAR和FRR曲线是单调的，只有一个点FAR值与FRR值相同。

C. 基线系统

基线是[11]提出的标准i矢量系统。表格2显示“dev-clean”和“test-clean”子集的评估结果。采用随机数据分割和简单阈值的方法，对三种不同i向量维数和不同高斯混合分量的情况进行了实验。每个阳性样本与20个阴性样本进行测试，每个扬声器测试20个不同的阳性样本。从表格2我们已经可以观察到基线系统的EER结果相当高。

D. 按注册语音数量计算的性能

在说话人验证中，为了建立一个鲁棒的说话人模型，每个说话人都有多个注册话语。观测到的EER只是系统真实EER的一个近似值。因此，我们重复注册和评估过程1000次迭代，并平均结果，以弥补上述问题。此外，为了构造一个批处理，需要随机抽取每个说话人的M个话语，我们选择N等于测试集中所有可用说话人的数量，以进一步减少抽样带来的随机性。

图5和表格3显示了在LibriSpeech的不同子集上，每个发言者的注册d向量的不同数量M的1K测试迭代的平均EER。注意，最小可能的M是2，因为我们平均了注册d向量，以获得说话者模型，同时在基于公式3计算质心时去掉了说话者本身。此外，在每个测试迭代中，我们选择每个发言者2M的话语，并将它们分成两半，用于注册和评价步骤。我们可以看到，对于较低的值，选择M是最具有决定性的。而且，对于干净环境，曲线单调减小，而对于噪声“test-other”集，增大M并不能改善较高的值。

E. 测试集的性能

在本实验中，我们首先对M= 2的“dev-clean”集进行登记和评价任务，并确定得到的平均阈值，然后使用该方法对“test-clean”和“test-other”集进行登记和验证。图6显示了不同相似阈值下的FAR值与FRR值。EER是两条曲线的交点。表格4还显示了用“dev-clean”获得的固定阈值测试的测试集的评价结果。此外，表格5展示了不同时期后训练的模型在“test-clean”上的评价结果，证明了网络的收敛速度。

F. 测试语音持续时间的性能

尽管目前最先进的说话人识别方法在各种说话人识别任务中都取得了较好的效果，但对于短话语而言，文本无关的说话人识别仍然是一个具有挑战性的问题。在这个实验中，我们分别评价了我们的方法在短话语和长话语中的表现。我们认为持续时间小于4秒的话语是短的，超过4秒的话语是长的。选项卡。显示每个子集可用的短话语和长话语数量。如表格4所示，与“test-clean”子集的无约束情况相比，当只考虑短长度的话语时，性能显著下降59%。

四、结论

在这个项目中，我们研究了[4]中提出的用于文本无关说话人验证的GE2E方法。理论和实验结果都验证了该方法相对于基线系统的优越性。我们观察到，GE2E训练比其他基于DL的端对端说话者验证系统快3倍，并且收敛非常快，而它是少数基于DL的TI-SV方法之一，其性能优于基线系统。此外，尽管短长度的话语更难预测，但我们证明了该方法在话语持续时间方面是灵活的，并且仍然适用于短持续时间的数据。此外，随着每个注册说话人的话语数量的增加提高了性能，我们看到，提出的方法在这个问题上也非常快速地泛化，并在每个说话人已经有少量的注册话语的情况下显示了良好的性能。最后，我们提供了我们的源代码和所有使用的数据作为一个开源项目进行进一步的研究(cf. Sec.I-C and Sec.II-B)。

在今后的工作中，我们希望进一步推广该方法，用DL技术代替初始特征提取(cf. algorithm1and algorithm3)，直接将原始波形输入网络。在我们的嵌入提取器网络中，利用更复杂和先进的架构(如变压器和关注机制)也将是有趣的。

更多推荐

论文翻译：Generalized LSTM

本文发布于:2024-02-19 13:27:39，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1763947.html