admin管理员组

文章数量:1567915

2023年12月12日发(作者:)

变声器

无论是硬件变声器,还是软件变声器,其原理都是,通过改变输入声音频率,进而改变声音的音色、音调,使输出声音在感官上与原声音不同。我们每个人的声音 不同,源于我们的每个人的音色和音调不同,我们所说的男中音、男高音,就是音调的不同,而即便音调一致,我们依然能区分出两个不同人的声音,或不同乐器的 声音,这就是音色的不同。变声器,正是借助对声音音色和音调的双重复合改变,实现输出声音的改变。

语音科学家将人类发生过程制作成一个由门声源输送的气流经以声道、口、鼻腔组成的滤波器调制而成的。人类语音可分为有声语音和无声语音,前者是由声带的震动激励的脉冲信号经声腔调制变成不用的音,它是人类语言中元音的基础,声带震动的频率称为基频。无声语音则是声带保持开启状态,禁止震动引发的。一般来说,由声门震动决定的基频跟说话人的性别特征有关,而无声语音则没有体现这个特征。说话人的个性化音色和语音的另外一个声学参数---共振峰平率的分布有关。儿童由于声道短,其共振峰频率高于成年人,成年女性的声道一般短于成年男性,所以女性的共振峰频率一般高于男性。由上可知,在进行性别变声时,主要考虑的是基频和共振峰频率的变化。当基频伸展,共振峰频率也同时伸展时,可由男声变女声,女声变成童声;反之,基频收缩,共振峰频率也同时收缩时,则由童声变女声,女声变男声。为了获得自然度、真实感较好的变声效果,基频和共振峰频率通常必须各自独立地伸缩变化。通过自己发音,共振峰频率的改变是基本重采样实现的,从重采样原理知道,这也同时引发了基频的变化,为保证基频变化和共振频率变化的独立、互不相关,在基频移动是必须考虑抵消重采样带来的偏移,理论上只要基频检测足够精确,确保可以保证基频改变和共振峰频率改变间的互不相关,通过搬移和改变基频、语速,实现变声。

基频是指浊音的发生过程中声带震动的频率。而基频的提取方法主要有时域的自相关法、频域的倒谱法等。共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的的特征参数,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰参数包括共振峰频率、频带宽度和幅值,共振峰信息包含在频率包络之中,因此共振峰参数提取的关键是估计自然语言频谱包络,并认为谱包络中的最大值就是共振峰。利用语音频谱傅里叶变换相应的低频部分进行逆变换,就可以得到语音频谱的包络曲线。根据频谱包络曲线各峰值能量的大小确定出第1至第4共振峰。语音信号重建采用谐波合成发放,即首先根据共振峰信息建立语音频谱的包络,然后根据包络确定基频及其歌词谐波的幅值并合成语音信号。

现在报道的变声技术主要是对音段特征进行控制和转换。对于各声学参数对语音的个性特征的贡献大小,Matsumoto研究认为,基音频率贡献最大,其次是共振峰频率,再次是基音频率的波动和声源频谱倾斜;Furui的研究认为由倒谱系数得到的长时平均谱包络对语音的个性特征贡献最大,特别是2.5-3.5KHz频率范围的谱包络,平均基音频率为其次;Nakatsui认为,基音频率比声道的共振特性,对语音的个性特征贡献大,而Ltoh等则认为相反,他们认为频谱包络对语音的个性特征影响最大,接着是基音频率和它的时间轮廓结构。虽然研究者们对各个语音参数对语音个性特征的贡献大小的研究结论不尽相同,但可以肯定无论哪个声学参数都无法包含所有语音的个性化信息语音的个性特征是许多声学参数共同作用的结果。因此,目前报道的用于变声的语音特征基本分为包含共振峰频率等表征声道滤波特性的频谱包络特征和基音频率特征两大类。

目前关于变声的技术方法,大体上可分为3类:参数方法、非参数方法和混合方法。非参数方法就是不明显提取语音信号的声学特征参数,只根据统计意义上的数据进行相应变化,具体方法如时域基音同步叠加、矢量量化法、频谱缩放法、多说话人内插法或时域重采样法;参数方法和混合方法主要指采用分析-合成的技术,把语音信号的声源信息和声道信息分离开来,提取语音信号的特征参数并对这些参数进行独立操作,从而构造出新的语音。如果对所有的参数进行明显提取,就称之为参数方法,否则,如果仅部分提取语音信号的参数,而对其余参数采用整体的控制技术,就称之为混合方法现在的语音转换方法以参数方法据多。

基于参数方法的特定语音变声技术流程见图

根据变声器材质不同,变声器分为变声器硬件和变声器软件。变声器硬件,即通过硬件实现变声的工具。变声器软件,即通过软件实现变声的工具,软件类变声器,运行平台皆为电脑系统。

语音转换的用途是很广泛的,下面列举几个应用例子。

(1) 在文语转换(TTS,text-to-speech)系统中的应用。现有的 TTS系统主要有共振峰合成(formant synthesis)、波形叠接相加合成(PSOLA)和基于数据库的合成等方法。不论是哪种方法,它们合成的语音的个性特征一般都是单一的,缺乏个性化,这也就限制了它的应用,但如果将合成的语音再通过一个 VC系统,或者将合成单元先通过 VC转换,再进行TTS 合成,将其转换为特定人的声音特征,使单调的合成语音具有更多的个性特征,也就使之应用更加广泛有效。例如,对于采用了 TTS的有声E-mail系统,如果再采用 VC技术,使有声E-mail的声音特征具有发送E-mail者的语音特征,这样 TTS的应用就更加具有吸引力。这也正是 TTS系统正在发展的一个方向。TTS与 VC的结合也是实现极低速率语音编码的有效方案。

(2) 在电影配音中的应用。在电影配音中,尤其是用另外一种语言进行配音时,往往配音演员不是演员本人,常常使配音与原演员的个性特征相差很大,配音效果不理想,但如果将配音再进行 VC转换,使之重新具有演员本人的个性特征,那么配音效果就会理想的多。 (3) 语音转换思想可以用于恢复受损语音,帮助声道受损的说话人的语音提高可懂度。

(4) 语音转换可用于单个说话人的语音质量的控制,可以纠正在 TTS中录音人长时间的录音而导致录音质量发生的变化。

(5) 可用于保密通信中进行语音个性化的伪装,著名的日本动漫《名侦探柯南》中柯南就是在用麻醉手表麻醉毛利小五郎后,利用阿笠博士发明的蝴蝶结变声器发出毛利小五郎的声音来侦破案件的。

(6) 可以用于语音识别的前端预处理,以减少说话人差异的影响。

本文标签: 语音频率共振变声参数