admin管理员组

文章数量:1567277

2024年4月4日发(作者:)

中国人民公安大学学报(自然科学版)

2021年第2期No.22021JournalofPeople蒺sPublicSecurityUniversityofChina(ScienceandTechnology)总第108期Sum108

基于Praat软件的电子伪装语音识别研究

(1.中国人民公安大学侦查学院,北京摇100038;2.上海市现场物证重点实验室,上海摇200083)

摘摇要摇为探究变音软件的变音规律,总结变音软件变音原理。以市面上常见的4款变音软件作为研究对象,利

用praat软件对3名实验者变音前后的声音参数(音强、基频、共振峰频率等)进行测定与分析,并对变声结果进行

变调分析。发现变音软件主要有改变基频和进行复杂运算两种变音原理,基于此提出对变声进行相应比例的变

调,可以得到与原声听觉效果和声学参数上均契合较好的恢复语音。在案件的侦查初期提供指向嫌疑人的线索,

也为打击电信诈骗的违法犯罪活动提供了一种新思路。

关键词摇praat;电子伪装语音;测定与分析

中图分类号摇D918郾2文献标志码摇A

胡晓光

1

,摇刘天宇

1

,摇杨昊易

1

,摇蔡能斌

2

AnalysisofElectronicCamouflageSpeechBasedonPraatSoftware

(ofInvestigation,People蒺sPublicSecurityUniversityofChina,Beijing10038,China;

aiKeyLaboratoryofCrimeSceneEvidence,Shanghai200083,China)

HUXiaoguang

1

,摇LIUTianyu

1

,摇YANGHaoyi

1

,摇CAINengbin

2

Abstract:Toexplorethelawofvoicechanger,pa鄄

per,oftwareisusedto

etc.)ofthreeexperimentersbeforeandafterthetonechanging,andthetonechangingresultsareana鄄

undthatthevoicechangermainlyhastwoprinciplesofchangingthefundamentalfrequency

nthis,itputsforwardthecorrespondingproportionofthetonechangeto

thesoundchange,whichcangetthesoundrecoverybetterinaccordancewiththeoriginalsoundauditory

ingcluestosuspectsintheearlyinvestigationofthecasealsopro鄄

videsanewwayofthinkingforcrackingdownonillegalandcriminalactivitiesoftelecomfraud.

Keywords:Praat;electroniccamouflagevoice;measurementandanalysis

measureandanalyzethesoundparameters(pitchintensity,fundamentalfrequency,formantfrequency,

0摇引言

声纹识别作为一项生物识别技术,是利用计算

机等信息识别技术将话语人的语音信号转化为电信

号,对话语人身份进行识别的技术,公安机关通过声

纹识别能够为侦破案件寻找线索,查明真相。

收稿日期摇

2020鄄07鄄13

基金项目摇

上海市现场物证重点实验室开放课题基金(2020XCWZK05);中国人民公安大学专项项目(2020JWCX08);国家

重点研究计划项目。

作者简介摇

胡晓光(1980—),男,湖北武汉人,博士,硕士研究生导师。研究方向为人工智能在刑侦领域的应用。

通讯作者摇

蔡能斌(1967—),男,高级工程师。E鄄mail:i@

·1·

詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬

胡晓光等:基于Praat软件的电子伪装语音识别研究

随着计算机技术的发展,语音伪装对案件的侦

破带来了极大的阻挠。科技进步带动了电子伪装语

音技术的不断发展,各类变音软件相继出现在人们

的生活中,不法分子利用语音伪装实施非接触式的

犯罪已经成为当前公安工作的一大难题。近年来,

电信诈骗、敲诈勒索等案件数量不断增加,而电子伪

装语音对案件侦破具有扰乱和误导的不利影响,因

此公安机关越来越重视对电子伪装语音的研究。一

般来讲,声纹识别运用到的声学特征主要有共振峰

频率、基频和音强,而当前市面上存在的几种常见的

变音软件的原理主要是通过改变这些物理性质来对

原声进行伪装。常见的变音软件种类繁多,变声效

果也大不相同,但其伪装语音的原理存在一定的相

似性。当前对电子伪装语音的研究现状主要总结了

其3种变音方法,即可以分为参数、非参数和混合方

[1]

前电子伪装语音的发展现状

,但缺乏更加细致的研究和证明

,对4款市面上较为常

。本文基于当

见的变音软件进行实验研究和数据分析,对变音规

律进行深入探索,并设计逆实验来印证结果,找出几

款变音软件原理的相似点和不同点,为侦破工作提

供新思路。

1摇利用praat软件分析电子伪装语音的可行性

1郾1摇

语音分析软件

语音分析软件的选用

Praat是一款基本的多功能语音

分析软件,该软件能够采集基本的语音信号,经过变

换和处理

Praat

用的优点

软件具有功能强大

,根据用户的需要形成相应的分析结果

,本研究选用该软件对音频各数据进行采

、操作简便、测量准确和通

集分析,利用其分析所选音段的共振峰频率、音调和

音强的数值,依据测定的数值大小和变化趋向进行

1郾

分析探究

2摇电子伪装语音发展现状

目前市面上常见的变声软件的变声方法可以分

为参数、非参数和混合方法。参数方法和混合方法

是提取特征参数按照某一函数进行转换,其不同之

处在于参数方法是对所有参数都进行提取转换,而

混合方法则是提取部分参数,对其他参数进行整体

控制。非参数方法是根据统计意义上的数据进行变

化,其方法多种多样。

电子伪装语音是通过电子变声技术对说话人的

语音特征进行转换,使其声音得到个性化伪装。电

子伪装语音器材可以对说话人的自然语音进行个性

·2·

化伪装。致使一般的听话人无法辨识发音人的身

份、年龄甚至性别,也严重影响了一般声纹特征识别

技术产品的语音检验鉴定效果,给司法鉴定工作带

来很大的困难

[2]

的方向主要是对变音器材和变音软件的研究

。目前国内对电子伪装语音研究

,而缺

乏对变音过程的研究和证明,故电子伪装语音的研

1郾

究将对于一线的侦查办案提供新的思路

3摇

语音的听觉特征是个人发音器官特性

语音的听觉特征

、发音习

惯特性和讲话习惯特性表现在口语

头言语和口语缺陷。我们在进行细致的语音同一认

个方面:

嗓音音质

的各种

[3]

。听觉特征主要表现在3口

定工作之前,要先在语音的听觉特征方面对不同软

件变音前后的变声语音进行审听,其主要包括分析

变音前后的音色特征、变音前后的韵律特征、话语人

1郾

的用语习惯以及其他例如口音和方言方面的特征

4摇

个体发音器官的特性和发音的习惯特性在声纹

语音的频谱特征

图谱中表现出的各种用来描述语音性质的参量称为

语音的频谱特征,表现为频谱的描述语音性质的参

量很多,但并不都能作为语音频谱特征来使用。能

够作为频谱特征使用的语音参量,同样要具有个体

而言的稳定性和对群体而言的差异性这两个方面的

1郾

性质

4郾1摇

。这里将对几个声学特征参数作详细介绍

共振峰频率特征

共振峰是指在语音图谱中能量相对集中的一些

区域,而共振峰频率指的是共振峰在带宽频谱图上

的位置,将共振峰的宽度化简成取其中心线来作为

共振峰的频率

F1、F2、F3

性和差异性均较强

和F4

,利用

的精确值

praat

,既可作为认定同一的指标

可以计算出共振峰频率

共振峰频率特征的稳定

,也可

作为否定同一的指标。低频区的共振峰,特别是F1

和F2,不同人之间虽然存在差别,但对应相同的概

率也很高;而第三以上共振峰的频率,不同人之间对

应相同的概率小得多,并且峰次越高,这种概率越

低。故我们在进行语音同一认定或非同一认定时,

1郾

共振峰频率都是重要的指向性参考指标

4郾2摇

如果将一段语流看成是一段音素序列

时长比例特征

,就会发

现不同人讲的同一段音素序列,各对应音素的时长

一般是不同的。但我们难以将语流中的所有对应音

素的时长一一进行比对,并且同一人讲相同的一段

话,其各对应音素的时长未必相等。这里只讨论稳

詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬

胡晓光等:基于Praat软件的电子伪装语音识别研究

定性相对较强的音节中声母韵母时长比例、鼻韵母

3

中主要元音与鼻韵尾时长比例

个方面的特征

4郾3摇

、音节间时长比例等

1郾

基频是语音重要的声学参数之一

基频特征

。能够引起基

频变化的属于话者个体的因素有:性别、年龄、健康

状态等生理因素;情绪、心态等心理因素;谈话环境、

人际关系等广义语境因素

[4]

部因素所影响的因素之一,基频的改变往往也会引

。基频是最容易被外

起共振峰频率的改变,从而在听觉效果上发生差异。

在一线的侦查工作中,嫌疑人往往可以通过刻意伪

装甚至压低嗓音等手段使得检材提取人员无法得到

其正常语调的基频数值。因此,在制作音频检材时,

应充分考虑各方面的因素,如录音器材是否有失真、

现场环境是否嘈杂等。在获取嫌疑人语音样本时,

并采取自由交谈录音和听说两种形式采样。使用听

说录音形式,需有意使对方说与样本相同的语句。

采取自由交谈录音形式时,需确保对方不知情,以确

[5]

1郾

保对象发音自然

5摇分析电子伪装语音对公安工作的意义

随着科学技术的快速发展,信息化时代到来,传

统的侦查手段不足以适用于新型的犯罪,新时代的

公安工作要通过创新来适应新形势。电子伪装语音

作为新兴的技术常被犯罪分子用于身份的伪装,其

手段具有隐蔽化、专业化的特征,给侦查工作带来极

大的困难,这种新型的犯罪手段不容忽视,我们需要

研究更新的技术手段,具备更新的知识储备才能更

好地侦破案件。分析电子伪装语音能够为侦破此类

案件寻找一种新思路,为新时代公安工作提供智能

化的技术指引。

2摇实验过程

2郾1摇

语音分析软件

实验所用的软硬件环境

PraatV6郾0郾5郾3、变声器免费版、

安卓变声器、MorphvoxPro中文版、专业变声器语音

聊天变声软件

P30

采样率

手机两部

48khz)

(

、“

音频采样率

耳鼠变声器

手机一部、Adobe

48

kHz)、

专业变声软件

Audition

华为P20(

、华为

CC2019、

音频

2郾

风云音频处理大师1郾0郾60郾126。

2郾

2摇

2郾1摇

实验方法及步骤

在手机以及电脑的应用商店中找到下载量以及

选择软件

知名度靠前的4款软件,用于本次实验。

2郾2郾2摇

参与录制的志愿者在室内安静的环境

语音录制

,运用手

机和电脑的录音功能,戴手机原装线控耳机,麦克风

距嘴部约10cm,以正常语速和语调朗读录音材料,

对录音材料进行录制。之后再打开变声软件进行同

2郾

样的录制

2郾3摇格式处理及分析

,保存对应的音频文件。

之后将所录制样本导入PC端,运用软件将音

频格式统一为WAV格式。运用praat软件对WAV

格式的音频文件进行分析,得到录音的语图。测出

所选取语句“变声冶前后的共振峰、基频、音强等参

数,数据制表。分析比较不同软件变声规律及差异,

2郾

并进行归纳总结

3摇实验1

使用praat对“变声冶前后的WAV格式音频文

件进行声学参数(基频、共振峰、音强)的测定,并记

录数值。

在分别对甲、乙、丙3名实验对象的样本进行测

量后,发现同一个人经A、B、C、D4款软件变化后的

声音听觉效果不同。以对象甲为例,见图1。

根据图1,可以发现声音改变前后,语图的波形

有了较明显的变化,语图的差异直接反映在听觉的

不同,说话人达到了对声音实现伪装的目的。

利用praat软件测量录音音频“变声冶前后的声

学参数(包含基频、音强、4组共振峰频率),发现4

款变声软件录制出的电子伪装语音的声学参数在数

值和变化上均有较大不同。同一人在不同变声软件

下的参数变化见图2、图3、图4。

根据同一人在4款不同的变声软件下4组共振

峰(F1~F4)同原声的共振峰对比柱形图可以看出,

在经过不同软件处理后,同一语句对应的共振峰频

率同原声相比有较大不同。反映在听觉效果上,原

声同变化后的声音有了较大变化。因此,共振峰频

率可作为一个关键的评判两组声音是否为同一人的

参考要素。

根据柱形图可得,同一人的声音在不同的变声

软件处理后,基频数值有所差异。不同软件处理,基

频的变化比例也不尽相同。当由原声变为女声时,

基频升高;反之,基频降低。

根据表1可知,音强这一声学参数在变化前后

差异量较小,在误差允许范围内,可认为基本无变

化。音强这一参数在听觉效果上的反映为声音的大

小以及宏亮程度,故下文在对变声恢复过程将不对

·3·

詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬

胡晓光等:基于Praat软件的电子伪装语音识别研究

其重点讨论。

图1摇原声及变声的对比

图2摇4款变声软件变男声后共振峰数值对比柱形图

表1摇4款软件变声前后音强的数值对比

原声ABCD

67郾

67郾

9

9

70郾

66郾

5

2

70郾

66郾

9

0

67郾

68郾

4

4

70郾

67郾

9

2

摇注:表中数据单位均为dB。

·

4

对上述声学参数进行测定与分析后

·

,可以发现

图3摇4款变声软件变女声后共振峰数值对比柱形图

图4摇4款变声软件变声后基频数值对比柱形图

前后声音的改变对应基频与共振峰频率数值的改

变。因此,探究电子伪装语音的规律,可着重从基频

2郾

与共振峰频率两个参数的变化规律入手

4摇实验2

经实验1探究发现,基频与共振峰频率数值的

变化,会体现在说话人声音的改变上。为探究二

者究竟谁为主导,运用假说演绎法。假设基频对

于声音改变的效果为主导因素,共振峰频率改变

声音的效果次之。改变基频至原来的数值,若恢

复出的声音在听觉与声学参数上均契合,则可验

证假说的合理性;反之,则否定。说话人甲的基频

数值表见表2。

表2摇4款软件基频数值及比例

原声变男声变女声

原声/变男原声/变女

声比例声比例

105郾

105郾

6181郾

105郾

61

61

85郾

28

71

169郾

99郾

153郾

711郾0郾

105郾97郾

82

35

212郾

531郾

2993

0郾

6223

注:表中基频单位为

61221郾

28

20

1郾

232

1郾

058

2

084

0

8

0郾

687

497

9

0郾477

5

4

,利用

之后在

“音高换挡器

Adobe

Hz。

Audition

冶对变声进行相对应的升高或

CC2019音频编辑软件

降低相应的比例,得到初步的“逆变声冶语音。之后

对声音进行微调

比对

恢复声

,得到较为纯粹的恢复声。之后将

冶同原声进行听觉上的比对和声学参数的

詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬

胡晓光等:基于Praat软件的电子伪装语音识别研究

得到恢复语音后,分别邀请其他5名不知情的

人员审听原声与恢复声,基本得到了较好的反馈,无

失真现象,原声与“恢复声冶的比较得到初步的契

合。由于在真正的语音同一认定的实验过程中,仅

仅靠听觉效果的相似是不够的,往往还需要进行频

谱比对。以说话人甲为例,见图5(a)(b)与声学参

数的对比分析。

图5摇说话人甲原声与“恢复声冶的对比

经过对听觉效果和语图的分析,可以发现恢复

出的声音同原声相比虽仍有差异,但大致能做到相

似,可以大致判断出二者是否为同一人。在司法实

践中,做语音同一认定时仍需要声学参数的比对与

测定,见图6、图7。

3

经过原声与“恢复声冶的比对,可以发现A、B、D

契合程度

款软件恢复后

,在误差允许范围内

,共振峰频率同原声相比有较好的

,有较高的特征符合

率,故可以用作语音同一认定的鉴定。C软件契合

程度一般,不适宜直接用作同一认定的鉴定。

假说演绎实验的结果表明,目前市面上的变声

软件按照变声的基本方法来看可以分为两种:一种

是以基频为主导通过调节基频便可以改变与恢复声

音;另一种则是拥有更为复杂的算法,单单调节基频

图6摇4款软件原声与“男恢复声冶的共振峰频率对比图

图7摇4款软件原声与“女恢复声冶的共振峰频率对比图

无法得到

“变声冶原理

“恢复

,找到可以处理电子伪装语音的通解

冶语音。我们可以根据不同软件的

推广应用到一线公安工作,为一线侦查工作处理类

,

似案件提供新思路新战法。

3摇实验分析与讨论

3郾1摇

(1)

变声规律的探究

其声学特征变化数据统计可知

综合以上对变声、恢复语音的审听效果及

,4款变声软件的变

声都使声音的音色、音调发生了变化,在听觉上与

原声在性别、年龄上有较大的差异。不同软件提

高或降低说话人音调的比例并不完全一致。声学

特征上,基频、共振峰相应地提高或降低,音长不

变,音强基本不变。各音节音强降低的比率有微

小差异

声规律是通过改变基频同时引起共振峰频率改变来

(2)

本次实验的4款软件中,有3款软件其变

变声,通过“AdobeAuditionCC2019冶软件对音调提

高或降低相应的比例

,可以得到与原声契合较好的

较为接近

恢复语音

,绝大多数声学参数可用做语音同一认定

冶,测出的“恢复声冶的声学参数也与原声

3郾2摇

项,同一个方向的变声方向

(1)

变声恢复方法的讨论

目前市面上的变声软件多含有自定义选

(如女声转男声)也有很

·5·

詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬

胡晓光等:基于Praat软件的电子伪装语音识别研究

多选项,选用不同的变声选项基频变化的比率也会

不同。虽然没有固定的变化频率,但是在侦查工作

中,可先对嫌疑人进行原声样本的录制,调节至相应

的变声检材样本的基频参数。若二者在听觉上相

近,则可初步缩小范围

音的方法

(2)本文提出一种基于基频来恢复电子伪装语

,利用AdobeAudition等音频编辑软件对

变声提高或降低相应的比例,再对声音进行一些修

补,一般情况下可以得到与原声契合程度较好的恢

复声。实验中的4款软件有3款变声软件的电子伪

装语音可以实现较好的复原,而本次实验所选用的

软件是目前下载量和应用量均较为广泛的几款软

件,说明此法可以对市面上绝大部分的变声软件形

成的电子伪装语音进行处理与还原,具有很好的实

践意义。同时,加之操作的便捷性,将此法应用到一

线公安工作中,具有极大的可行性。

4摇结论

本文对几款主流的变声软件的伪装语音进行比

对与分析,探究了目前市面上常见的变声软件的变

声规律,同时提出了一种还原伪装语音的方法,利用

音频编辑软件对基频进行相应比例的调整。实验证

·6·

明,此法对于所选取的4款软件中的3款具有较好

的恢复效果,尤其是在伪装语音与原声在听觉效果

上相差较大时依然可以得到较好的恢复效果,说明

此法适用于市面上较多数的变声软件,这也为公安

实战中基于伪装语音案件的解决提供了一种新的

思路。

参考文献

[1]摇金怡珠

化模式研究

,张桂清

[C].

,刘红伟

第九届中国语音学学术会议论文集

,等.AVVCS变声语音声纹变

,

[2]摇张桂清

2010:807

,金怡珠

-812.

律研究[J].证据科学

,刘红伟

,2010,18(4):503

,等.电子伪装语音的变声规

-509.

[3]摇王英利

征的研

,蓝常山

究[C].

,曹洪林

第十一

,等

.

基于频谱的嗓音音质特

国语音学学术会议

[4]摇

(PCC2014)

张艳云

其处理方法

,崔景旭

论文集

[J].

,边平

,2014:116.

中国刑警学院学报

.基频变化对语音图谱的影响及

,2008(3):49-

[5]摇王虹

52.

术[J].

.基层公安机关声纹鉴定语音检材和样本提取技

警察技术,2012(4):57-60.

(责任编辑摇陈小明)

本文标签: 语音软件伪装变声电子