亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GMM統(tǒng)計特性的電子偽裝語音鑒定研究

        2017-02-22 07:10:23李燕萍陶定元
        計算機技術(shù)與發(fā)展 2017年1期
        關(guān)鍵詞:基音變聲特征參數(shù)

        李燕萍,林 樂,陶定元

        (南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210000)

        基于GMM統(tǒng)計特性的電子偽裝語音鑒定研究

        李燕萍,林 樂,陶定元

        (南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210000)

        數(shù)字多媒體技術(shù)的發(fā)展使多媒體信息得到廣泛使用和傳播,給人類的信息交流帶來極大的便利。隨著語音相關(guān)技術(shù)的發(fā)展與逐漸成熟,對于語音信號處理的應(yīng)用也越來越廣泛。數(shù)字多媒體信息易于修改的特點,使其面臨著惡意篡改帶來的嚴重危機。近年來,手機應(yīng)用軟件市場上出現(xiàn)了大量的變聲軟件,例如微信變聲器、超級變聲器等等,類似變聲器的下載量動輒上百萬,這些應(yīng)用軟件可使說話人的聲音發(fā)生巨大的改變,致使一般的聽話人無法辨認發(fā)音人的身份、年齡乃至性別,即使是對話者非常熟悉的人也很難識別出說話者的身份。提出了一種鑒定電子偽裝語音的方法,通過GMM模型建模,將其均值矢量構(gòu)成組合特征,然后基于SVM分類器進行訓(xùn)練和鑒別。通過對比語音偽裝前后的梅爾倒譜特征參數(shù)的統(tǒng)計特性變化,對特征參數(shù)的變化規(guī)律進行了分析研究。實驗結(jié)果表明,提出的方法對電子偽裝語音的鑒定正確率達到90%。

        變聲軟件;電子偽裝語音;梅爾倒譜系數(shù);支持向量機;高斯混合模型

        0 引 言

        近年來,手機應(yīng)用軟件市場上出現(xiàn)了大量的變聲軟件,例如微信變聲器、超級變聲器等等,類似變聲器的下載量動輒上百萬,這些應(yīng)用軟件可使說話人的聲音發(fā)生巨大的改變,致使一般的聽話人無法辨認發(fā)音人的身份、年齡乃至性別,即使是對話者非常熟悉的人也很難識別出說話者的身份。犯罪分子利用電子偽裝語音[1-3]實施電話詐騙嚴重危害社會安全,由于偽裝語音具有良好的偽裝特性,給司法鑒定工作帶來很大的困難。鑒于電子偽裝語音的嚴重危害,亟待尋求一種鑒定電子偽裝語音的方法。

        目前,對于電子偽裝語音相關(guān)的研究,大多集中在電子偽裝語音對于說話人識別系統(tǒng)的識別率的影響。文獻[4-6]表明,電子偽裝語音嚴重影響說話人識別系統(tǒng)的識別率。文中提出了一種用于鑒定電子偽裝語音的方法,在進行說話人識別實驗之前采用該方法進行電子偽裝語音鑒定,可有效提高說話人識別系統(tǒng)的識別率。該方法采用梅爾倒譜系數(shù)(MFCC)結(jié)合高斯混合模型(GMM)[7-9],以GMM模型均值組合特征向量作為SVM分類器訓(xùn)練和鑒別的特征參數(shù)[10]。經(jīng)實驗結(jié)果證明,這種方法對于電子偽裝語音的鑒定率達到90%。

        1 電子偽裝語音基本原理

        電子偽裝語音的基本原理是通過調(diào)整采樣率即時域的壓縮或者展寬從而改變基音頻率[11],用這種方法可以非常簡單地對改變聲音,但是這樣的偽裝語音往往聽起來不自然,有的變聲軟件采用基音同步疊加相加法對語音進行進一步處理,從而使偽裝之后的語音聽起來更加自然。

        在語音學(xué)研究中,基音頻率被認為是最多降低或升高12個半音。假設(shè)語音基音頻率為f0,偽裝因子a為提高或降低a個半音,經(jīng)過偽裝之后的基音頻率為f1,則有:

        f1=2(a-1)/12·f0

        (1)

        其中,偽裝因子a為整數(shù),且-111,說明提高了基音頻率;如果a<1,說明降低了基音頻率;如果a=1,說明未改變基音頻率。

        2 鑒別方法原理介紹

        2.1 特征參數(shù)提取過程

        語音的預(yù)處理包括端點檢測、預(yù)加重、分幀、加窗。假設(shè)一段語音x(n),經(jīng)過預(yù)處理之后,得到N幀語音,對這N幀語音提取D維MFCC系數(shù),得到N個D維向量,用這N幀訓(xùn)練高斯混合模型。

        為了準確地表征說話人的個性特征,往往需要說話人大量的樣本,而將大量的樣本輸入到支持向量機進行分類時,會有巨大的計算量,自然而然地,通過少量的樣本作為支持向量機的輸入,選取代表性樣本的方法有很多。例如,對于MFCC或LPCC特征向量序列可以通過隨機方式、矢量量化等方法選取,但是這些方法具有很明顯的缺點。隨機選取的樣本由于具有很強的偶然性,難以表示大量樣本的分布情況,而矢量量化方法雖能很好地表示樣本的分布中心,但仍包含很多冗余信息,并且魯棒性較差[12]。

        GMM模型作為一種統(tǒng)計模型,利用若干高斯概率密度函數(shù)的加權(quán)和來表示特征向量在概率空間的分布情況,GMM模型使用較少的參數(shù)很好地描述了說話人的個性特征,在文本無關(guān)說話人識別方面得到了廣泛應(yīng)用[13]。GMM模型由EM算法訓(xùn)練得到,其均值向量不但反映了各說話人在特征空間的分布,而且也較好地反映了說話人的個性信息,因而可考慮采用GMM模型的均值向量作為SVM的訓(xùn)練樣本。一個具有M個混合數(shù)D維GMM可表示為:

        (2)

        (3)

        則有均值組合特征向量:

        V=(V1,V2,…,VM)

        (4)

        其中,Vi,i=1,2,…,M為第i個高斯混合模型均值向量。

        2.2 分類算法

        文中采用的分類算法是建立在MFCC統(tǒng)計特性的基礎(chǔ)上,訓(xùn)練和鑒別流程分別見圖1和圖2。

        圖1 訓(xùn)練流程圖

        圖2 鑒別流程圖

        在訓(xùn)練階段,訓(xùn)練數(shù)據(jù)庫由原始語音和偽裝語音數(shù)據(jù)集組成,根據(jù)偽裝因子a可分為24個子集,將每個子集中的偽裝語音和原始語音進行預(yù)處理及MFCC特征提取,然后訓(xùn)練GMM模型,得到均值組合特征向量V,以該特征參數(shù)作為輸入樣本進行SVM訓(xùn)練,從而得到其中一個子集的分類器。同理,可以訓(xùn)練得到24個分類器[14]。

        在識別階段,待測試語音進行同樣的預(yù)處理和MFCC特征提取,訓(xùn)練GMM模型,得到均值組合特征向量V,將該特征向量分別輸入到24個分類器中,如果24個分類器全部鑒別為原始語音,則判定待測試語音為原始語音,只要其中一個鑒別為偽裝語音,則判定為偽裝語音。

        3 實驗結(jié)果與分析

        實驗用的變聲軟件是一款非常典型的手機變聲軟件,軟件名字叫“高保真變聲”,實驗用的手機系統(tǒng)平臺是Android4.2,錄音的采樣頻率為8kHz,PCM方式量化精度為16bit,語料人數(shù)是24人,其中訓(xùn)練語音240段,測試語音240段,語音內(nèi)容包括“你好”、“快把錢給我”、“把錢轉(zhuǎn)到我的銀行卡里”、“你的小孩在我手里,你趕快拿錢來贖”、“南京郵電大學(xué)”等1~10s長短不一的語音。

        3.1 語音的預(yù)處理

        首先對讀取的語音輸入信號進行端點檢測,去除靜音段,對語音進行預(yù)加重,預(yù)加重的目的在于濾除低頻干擾,將更為有用的高頻部分的頻譜進行適當提升,文中實驗采用的預(yù)加重系數(shù)為0.98。然后進行分幀加窗處理,實驗提取MFCC參數(shù)時選取的幀長為20 ms,幀移為10 ms,分幀之后加漢明窗進行處理。

        3.2 語音的特征參數(shù)提取

        對經(jīng)過預(yù)處理的語音提取20維MFCC,圖3列出了部分男聲“Hello”的MFCC統(tǒng)計特性變化,其中偽裝程度為1(即a=1)時為原始語音的統(tǒng)計特性。

        圖中對比了第10、17維MFCC系數(shù)統(tǒng)計特性的變化,從中可以看出,第10維MFCC系數(shù)均值先遞增而后遞減,方差先遞增而后平穩(wěn)波動。第17維MFCC系數(shù)隨著偽裝因子的提高先增加而后降低再增加,方差在偽裝因子為5和7時取得極大值。

        從上面的分析比較可以得出以下結(jié)論:無論偽裝因子為何值,偽裝語音與原始語音的MFCC系數(shù)的統(tǒng)計均值和方差均有較大差異。這種統(tǒng)計特性的差異為選取GMM均值組合特征參數(shù)奠定了理論基礎(chǔ)。

        在選取高斯混合分量個數(shù)時,個數(shù)越多,對說話人特征矢量空間分布就越逼近,從而提高了系統(tǒng)的魯棒性。但是高斯混合分量個數(shù)太多,一方面加大了系統(tǒng)的計算、占用更多的系統(tǒng)資源,另一方面,在有限時長的訓(xùn)練數(shù)據(jù)情況下使得模型訓(xùn)練不夠充分,從而降低了系統(tǒng)性能。一般認為模型的高斯混合分量個數(shù)在32以上系統(tǒng)的性能趨于穩(wěn)定。所以在提取得到語音的MFCC系數(shù)后,選取高斯混合模型個數(shù)為48,進行GMM訓(xùn)練,從而得到均值組合特征向量V。文中對比了不同偽裝因子V2、V4兩個高斯模型分量均值,如圖4所示。

        圖3 MFCC統(tǒng)計特性變化比較

        圖4 GMM模型均值向量比較

        由圖4可知,不同的偽裝因子下V2、V4兩個高斯混合模型均值同樣具有較大差異。

        3.3 分類器的訓(xùn)練及偽裝語音的鑒定

        文中利用語音高斯混合模型參數(shù)混合均值構(gòu)成的組合向量作為SVM分類器的輸入進行訓(xùn)練,訓(xùn)練得到偽裝因子從-11~13的24個分類器,待測語音從2~60 s不等,待測偽裝語音偽裝因子分布從-12~12,每個偽裝因子取10段語音待測。實驗結(jié)果見表1。

        表1 不同偽裝因子的鑒別率結(jié)果

        從表中可以看出,在偽裝程度很小時,偽裝語音鑒定的正確率比偽裝程度較大時要低,這是因為偽裝語音與原始語音差別并不明顯,但盡管這種差異不明顯,鑒定正確率也可達到80%。綜合上述數(shù)據(jù),對偽裝語音的總體鑒定正確率為90%。

        4 結(jié)束語

        電子偽裝語音對于說話人識別識別系統(tǒng)的識別率有較大影響。為了去除電子偽裝語音的不良影響,提出了一種SVM結(jié)合GMM均值組合特征參數(shù)的電子偽裝語音鑒定方法。并且運用這種方法有效地實現(xiàn)了對電子偽裝語音的鑒定,在進行說話人識別實驗之前,采用該方法對語音進行電子偽裝語音鑒定,有效提高了說話人識別系統(tǒng)識別率。實驗結(jié)果表明,該方法鑒別電子偽裝語音的效果可達90%。因此該方法可為將來電子偽裝語音的司法鑒定提供理論依據(jù)。鑒于實驗人數(shù)較少,測試語音說話人來自訓(xùn)練語音說話人集合,在今后的工作中,會使用不同的語料庫,從而實現(xiàn)對不是來自訓(xùn)練語音說話人集合測試語音的鑒定。

        [1] Neustein A,Patil H A.Forensic speaker recognition:law enforcement and counter-terrorism[M].[s.l.]:Springer,2011.

        [2] Wu Haojun,Wang Yong,Huang Jiwu.Blind detection of electronic disguised voice[C]//Proceedings of the international conference on acoustic,speech and signal processing.[s.l.]:[s.n.],2013:3013-3017.

        [3] 張桂清,金怡珠,劉紅偉,等.電子偽裝語音的變聲規(guī)律研究[J].證據(jù)科學(xué),2010,18(4):503-509.

        [4] Zhang C,Tan T J.Voice disguise and automatic speaker recognition[J].Forensic Science International,2008,175(2-3):118-122.

        [5] Hermann J K,Joaquin G R,Javier O G.Effect of voice disguise on the performance of a forensic automatic speaker recognition system[C]//Proceedings of the speaker and language recognition workshop.[s.l.]:[s.n.],2014.

        [6] Rodman R.Computer recognition of speakers who disguise their voice[C]//Proceedings of the international conference on signal processing applications & technology.Texas:[s.n.],2000:474-476.

        [7] Kinnunen T,Li Haizhou.An overview of text-independent speaker recognition:from features to supervectors[J].Speech Communication,2010,52(1):12-40.

        [8] 于 明,袁玉倩,董 浩,等.一種基于MFCC和LPCC的文本相關(guān)說話人識別方法[J].計算機應(yīng)用,2006,26(4):883-885.

        [9] 蔣 曄,唐振民.GMM文本無關(guān)的說話人識別系統(tǒng)研究[J].計算機工程與應(yīng)用,2010,46(11):179-182.

        [10] 冷自強,王金明,林大會.一種GMM-SVM混合說話人辨認模型[J].軍事通信技術(shù),2009,30(1):86-89.

        [11] Trehub S E,Cohen A J,Thorpe L A,et al.Development of the perception of musical relations:semitone and diatonic structure[J].Journal of Experimental Psychology-human Perception and Performance,1986,12(3):295-301.

        [12] 林 琳,陳 虹,陳 建,等.基于多核SVM-GMM的短語音說話人識別[J].吉林大學(xué)學(xué)報:工學(xué)版,2012,43(2):504-509.

        [13] 賀志陽,張玲華.基于GMM統(tǒng)計參數(shù)和SVM的說話人辨認研究[J].南京郵電大學(xué)學(xué)報:自然科學(xué)版,2006,26(3):78-82.

        [14] Wu J H,Wang Yong.Identification of electronic disguised voices[J].IEEE Transactions on Information Forensics and Security,2014,9(3):489-499.

        Research on Identification of Electronic Disguised Voice Based on GMM Statistical Parameters

        LI Yan-ping,LIN Le,TAO Ding-yuan

        (College of Communications and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210000,China)

        With the development of digital multimedia technology,digital information has been widely used and spread,which brings great convenience to human communication.Speech related technology gradually becomes mature,and its application is more and more extensive.This kind of information is easy to be modified,so that it is facing a serious crisis of malicious tampering.In recent years,a large number of software appear in mobile phone application store,such as Wechat Voice Changer,Super Voice Changer and so on,which can change the speaker’s voice a lot.As a result,the listener cannot identify the speaker’s age and sex,even they are familiar.A novel algorithm for identification of electronic disguised voice is put forward based on supervector combined by mean vectors of Gaussian mixture model and SVM classifier for training and identification.By comparing the statistical change of MFCC between nature and disguised voice,the variation of voice parameters is studied.Experimental results show that the identification rate can reach 90%.

        voice changer;electronic disguised voice;MFCC;SVM;GMM

        2015-10-26

        2016-02-25

        時間:2017-01-04

        國家自然科學(xué)基金資助項目(61401227);江蘇省博士后基金(1402067B);智能語音技術(shù)公安部重點實驗室2014年度開放課題(2014ISTKFKT02)

        李燕萍(1983-),女,副教授,博士,研究方向為說話人識別、語音轉(zhuǎn)換;林 樂(1990-),男,碩士研究生,研究方向為說話人識別。

        http://www.cnki.net/kcms/detail/61.1450.TP.20170104.1023.022.html

        TP31

        A

        1673-629X(2017)01-0103-04

        10.3969/j.issn.1673-629X.2017.01.023

        猜你喜歡
        基音變聲特征參數(shù)
        融合CNN和Transformer編碼器的變聲語音鑒別與還原
        故障診斷中信號特征參數(shù)擇取方法
        基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
        木星地
        江南詩(2020年3期)2020-06-08 10:20:40
        基于深度學(xué)習(xí)算法的真人變聲設(shè)備的設(shè)計與實現(xiàn)
        電子制作(2019年15期)2019-08-27 01:11:58
        基于基音跟蹤的語音增強研究
        基于PSO-VMD的齒輪特征參數(shù)提取方法研究
        統(tǒng)計特征參數(shù)及多分類SVM的局部放電類型識別
        電測與儀表(2015年7期)2015-04-09 11:40:04
        樂理小知識
        小演奏家(2014年11期)2014-12-17 01:18:52
        一種改進的基音周期提取算法
        欧美日韩一区二区三区在线观看视频 | 国产三级国产精品三级在专区 | 久久9精品区-无套内射无码| 免费av片在线观看网站| 成人区视频| 一区二区三区视频在线免费观看 | 色窝综合网| 国产内射视频免费观看| 国产精品亚洲三级一区二区三区 | 色吊丝中文字幕| 久久精品国产丝袜| 少妇裸淫交视频免费看| 国产肥熟女免费一区二区| 国产盗摄xxxx视频xxxx| 免费a级毛片无码a| 精品国产1区2区3区AV| 国产一区二区三区口爆在线| 亚洲色图视频在线免费看| 国产成人av大片大片在线播放| 亚洲av无码电影网| 日本嗯啊在线观看| 在线中文字幕一区二区| 亚洲热妇无码av在线播放| 伊人网综合在线视频| 在线a人片免费观看国产| 日韩精品免费一区二区中文字幕 | 国产又黄又大又粗的视频| 久久青草伊人精品| 中文字幕你懂的一区二区| 亚洲成av人片一区二区密柚| 熟妇人妻无乱码中文字幕| 久久久久久久尹人综合网亚洲 | 成年站免费网站看v片在线| 亚洲自偷自偷偷色无码中文| 九九99久久精品午夜剧场免费| 久久精品国产亚洲av日韩一| 日本熟妇色xxxxx日本妇| 亚洲成a人片在线观看久| 蜜桃在线观看视频在线观看| 女人的精水喷出来视频| 国产精品成人99一区无码|