亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多特征i-vector的短語音說話人識別算法

        2018-11-23 00:58:00林海波
        計算機應用 2018年10期
        關鍵詞:維空間協(xié)方差特征向量

        孫 念,張 毅,林海波,黃 超

        (1.重慶郵電大學 先進制造工程學院,重慶 400065; 2.重慶郵電大學 自動化學院,重慶 400065)(*通信作者電子郵箱599217746@qq.com)

        0 引言

        說話人識別(Speaker Recognition, SR)就是根據(jù)說話人的聲音特征來判斷其身份的一種生物特征識別技術(shù),也被稱為聲紋識別(Voiceprint Recognition,VR)[1]。時至今日,說話人識別發(fā)展已有50余年,研究者發(fā)現(xiàn)不同說話人的聲學特征有一定的差異[2]。

        文獻[3]在語音環(huán)境干凈的情況下,基于i-vector的說話人模型具有高識別率。然而,如果訓練與測試語音不匹配,會使說話人識別系統(tǒng)性能顯著下降。背景噪聲、信道失真以及說話人之間的個性特征差異等是造成這種失配的主要原因。此外,聲學建模需要有足夠的數(shù)據(jù)支撐,例如深度神經(jīng)網(wǎng)絡(Deep Neural Network, DNN)[4-5]。所以,說話人識別系統(tǒng)想要獲得高性能,訓練和測試語音數(shù)據(jù)充足是一個重要的前提。但在實際應用中,從用戶那里收集足夠的數(shù)據(jù)是不可能的,且違背了語音人機交互的友好性,這給現(xiàn)有的方法帶來了很大的挑戰(zhàn)。根據(jù)美國國家標準與技術(shù)研究院(National Institute of Standards and Technology, NIST)的定義[6],如果訓練或測試語音的長度小于10 s,說話人識別就被稱為短語音說話人識別(Short Utterance Speaker Recognition, SUSR)。盡管傳統(tǒng)的單特征方法在具有足夠測試語音數(shù)據(jù)時已經(jīng)獲得了出色的性能,但是在本文的短語音說話人識別實驗中,它們的性能欠佳。目前,語音領域的研究者已經(jīng)開始重視這方面的研究,并開展了一些很有意義的科研工作,但是總體來說短語音研究依然處于起步階段[7-9]。

        在說話人識別領域,聲學特征的合理選擇十分重要。如果選取的聲學特征不能掌握說話人的個性特性,那么即使是最先進的機器學習算法[10-11],也不可能使系統(tǒng)達到一個良好的識別效果。目前,已有研究表明測試語音時長充足時,單一聲學特征的信息量和區(qū)分性足夠完成說話人識別任務。然而,在短語音條件下,只使用單一的梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient, MFCC)特征建模,不能充分表達說話人個性信息,這使得系統(tǒng)難以取得良好的識別效果??紤]到不同的特征可以表征說話人不同的個性信息,多特征融合代表了更多的說話人信息,這在短語音條件下具有一定的優(yōu)勢。然而,最簡單的多特征融合方法就是將每一幀語音信號提取的多種聲學特征直接連接成一個大的高維向量。但是在實際中這種做法是不可取的,因為不同的特征之間并非正交,直接相連會相互影響,而且不同特征直接相連后會變成一個高維空間向量,提高維度意味增加了系統(tǒng)的復雜度;此外,其中很多維信息之間存在一定的重復,會產(chǎn)生冗余信息。因此可以通過降維算法把高維空間向量映射到低維空間中,選取其中最具有區(qū)分性的部分。

        基于此,本文首先選擇不同聲學特征組合,解決單一特征不能很好表達說話人個性信息的問題;其次,希望采用主成分分析(Principal Component Analysis, PCA)算法和線性判別分析(Linear Discriminant Analysis, LDA)算法克服多種聲學特征簡單組合的局限性[12],進一步提高說話人識別系統(tǒng)性能。

        1 i-vector說話人模型

        i-vector系統(tǒng)用一組低維總體變化因子矢量代表一段語音,將每個說話人的一段語音的高維高斯均值超矢量s分解為:

        s=m+Tw

        (1)

        其中:m為一個與特定說話人和信道無關的超矢量;T為全局差異空間;將高維高斯混合模型均值超矢量在該子空間上進行投影,得到低維的總體變化因子矢量w,w為包含整段語音中說話人和信道信息的一個全局差異因子,即i-vector。

        在i-vector模型中,假定來自第i段語音的第t語音幀xt(i)分布如下:

        (2)

        其中:K為通用背景模型(Universal Background Mode, UBM)高斯分量的混合數(shù);Tk為矩陣低秩子空間;ω(i)是特定語音段i符合標準正態(tài)分布的隱藏因子;μk和Σk分別是第k個高斯分量的均值和協(xié)方差;γkt(i)為xt(i)對第k個高斯分量的后驗概率。γkt(i)的計算公式為:

        γkt(i)=p(k|xt(i))

        (3)

        語音段的i-vector為隱藏因子ω(i)的極大后驗點估計,也是隱藏因子的后驗均值。對給定的一段語音,各階統(tǒng)計量計算如下:

        (4)

        (5)

        (6)

        其中:Nk、Fk和Sk依次表示為零階、一階和二階統(tǒng)計量。這些統(tǒng)計量是用來訓練子空間矩陣T并提取i-vector所需要的全部數(shù)據(jù)。

        2 PCA和LDA

        2.1 PCA

        在大多數(shù)情況下,為了減少計算量,本文假設高斯混合模型(Gaussian Mixture Model, GMM)的每個協(xié)方差矩陣都是對角矩陣。這就意味著具有不相關和正交的特征向量可以通過使用GMM實現(xiàn)最優(yōu)的性能,而具有相關和非正交的特征向量的估計可能只是近似實際分布,造成各階統(tǒng)計量計算不準確,從而影響說話人識別性能。值得注意的是,不同特征的基向量也可能是相關和非正交的,如果直接把這些特征連接起來,那么估計的充分統(tǒng)計量也會不夠準確,導致最后的i-vector模型決策的準確度也不高。為了解決這個問題,在本文算法中使用PCA來保持總特征空間的基向量不相關和正交,即去除特征向量之間的相關性。

        假設輸入數(shù)據(jù)矩陣x,具有行零經(jīng)驗樣本均值,其中:n列中的每一個xi表示實驗的不同線性組合;x的平均值為0;ω假定為單位方向向量。 在ω方向上的協(xié)方差矩陣如下:

        (7)

        max{ωTΣω};ωTω=1

        (8)

        f(ω)=ωTω+λ(1-ωTω)

        (9)

        (10)

        要使方程(10)成立的條件是讓投影矩陣的協(xié)方差最大化。顯然,解方程(10)相當于計算特征值λ和特征向量ω,σω計算如下:

        σω=λωTω=λ

        (11)

        這意味著λ越大,σω越大。 值得注意的是,Σ是實對稱矩陣且其特征向量之間是正交的,因此前M個最大特征值對應的特征向量所生成的投影矩陣ωPCA可以將D維空間映射到具有最大協(xié)方差的M(M≤D)維空間:

        ωPCA=[ω1ω2…ωM]

        (12)

        2.2 LDA

        PCA算法的好處是能夠簡單直接地對數(shù)據(jù)進行降維和正交化,但是由于PCA算法是一種無監(jiān)督的學習方式,只是將所有數(shù)據(jù)整體映射到最能體現(xiàn)這組數(shù)據(jù)整體區(qū)分性的坐標上,并未利用不同類別的數(shù)據(jù)關系來進行數(shù)據(jù)分析。為了彌補這種不足,使用LDA這種監(jiān)督學習方法,可以利用數(shù)據(jù)上的分類標簽,在低維空間上尋找不同類別數(shù)據(jù)間的最大區(qū)分性,對分類問題很有幫助。

        對于處于n維空間Rn上的帶標簽數(shù)據(jù)集X,總數(shù)據(jù)量的數(shù)據(jù)點數(shù)為N,總數(shù)據(jù)類數(shù)為C,其中第i(i∈[1,C])類的數(shù)據(jù)集Xi包含Ni個數(shù)據(jù)點,所以N1+N2+…+NC=N,根據(jù)上面的定義可以計算第i類數(shù)據(jù)集的樣本均值μi和總體樣本均值μ分別為:

        (13)

        (14)

        LDA可以使數(shù)據(jù)經(jīng)過投影以后,達到最小的類內(nèi)方差和最大的類間方差,所以需要計算各類的類內(nèi)離散度SW和不同類之間的類間離散度SB為:

        (15)

        (16)

        其中:ω為高維空間Rn向低維空間映射的投影矩陣。根據(jù)LDA的優(yōu)化準則有:

        (17)

        對于方程(17)的求解,相當于對方程SBωi=λiSWωi求其最大的L(L≤C-1)個特征值和它對應的特征向量。

        3 本文方法

        在本文算法中,通過組合起來的語音特征向量進行了一個整體的變換形成一個新的特征向量。訓練和測試語音被分成許多幀,其中部分幀之間有重疊,所以從每幀中提取所有類型的特征向量。那么其中一段語音信號中提取的所有不同特征向量,可以由如下的M維長特征向量(1≤M≤H)表示:

        (18)

        其中:H表示劃分的語音幀數(shù);C表示提取的特征類型數(shù)。用倒譜均值減(Cepstrum Mean Subtraction, CMS)使各列的樣本均值為零,這樣可以有效降低信道和噪聲的影響。

        在特征提取之后,把所有特征通過PCA方法計算投影矩陣。值得注意的是,特征矩陣F是由行向量組成的,因此特征矩陣F的協(xié)方差矩陣計算如下:

        σF=FTF

        (19)

        顯然σF是對角化的,因為它是一個對稱矩陣。那么特征矩陣的協(xié)方差σF可以分解如下:

        (20)

        其中:ωi是特征值λi對應的歸一化特征向量。假設λ1≥λ2≥…≥λt,那么投影矩陣ωPCA可以有前p個最大特征值對應的特征向量生成,如下:

        ωPCA=[ω1ω2…ωp]

        (21)

        ωPCA用于將所有特征向量映射到不相關和正交的特征空間,包括UBM、訓練和測試的特征向量,則經(jīng)過PCA方法變換后的新特征可以表示為:

        (22)

        在去相關的基礎上,進一步采用LDA方法使特征具有更好的區(qū)分性。相當于求解方程SBωi=λiSWωi,取前L個最大非零特征值對應的L個特征向量(L≤C-1)則為最優(yōu)解,可以表示為:

        ωLDA=[ω1ω2…ωL]

        (23)

        (24)

        其中:特征矩陣FH×M的維數(shù)M根據(jù)計算LDA變換時選取的特征根和特征向量的不同,其維數(shù)也不同,需要根據(jù)特征根占全局的比重來選取合適的最具區(qū)分性的特征部分(特征根比重大于99%)。

        在將所有特征變換到不相關且正交的特征空間之后,可以從訓練語音中提取的部分語音訓練UBM模型。然后根據(jù)UBM模型和訓練數(shù)據(jù),運用i-vector方法生成每一個說話人模型。其中,從語音數(shù)據(jù)里提取的訓練和測試語音特征需要經(jīng)過整體變換矩陣映射到同一個特征空間。最后將變換后的測試特征向量與目標說話人特征向量進行得分判決。本文算法的整體框架如圖1所示。

        圖1 本文算法總體框圖Fig.1 Overall diagram of proposed algorithm

        4 實驗結(jié)果與分析

        4.1 數(shù)據(jù)庫與實驗設置

        實驗是在TIMIT數(shù)據(jù)庫150位女性數(shù)據(jù)和150位男性數(shù)據(jù)上進行的,采樣率為16 kHz,采樣位數(shù)為16 bit,每人10段語音,句子長度1~10 s不等,利用HTK工具對語音信號進行預處理和特征提取,選用的特征有13維MFCC(不包括C0和C1)[13],20維感知對數(shù)面積比(Perceptual Log Area Ratio, PLAR)[14]和12維線性預測倒譜系數(shù)(Linear Prediction Cepstrum Coefficient, LPCC)。選取train文件里的dr1~dr8中的數(shù)據(jù)訓練UBM,隨機挑選30段作為訓練整體變換矩陣使用;選取test中的dr1~dr8中的50名男性和50名女性數(shù)據(jù)作為測試數(shù)據(jù)。測試語音中每個人的6段語音用來訓練說話人模型,其余4段可隨機截取為7種不同長度(0.5 s,1 s,2 s,4 s,6 s,8 s,10 s)的語音用來測試。

        對于特征提取的參數(shù)在處理過程中盡量保持相同,首先語音分幀參數(shù)相同,幀長為20 ms,幀移為10 ms。此外,預加重系數(shù)選取為0.97,使用漢明窗作為窗函數(shù),Mel濾波器個數(shù)定為30。

        本文使用兩個基線系統(tǒng):經(jīng)典的GMM-UBM說話人識別系統(tǒng)以及標準的i-vector說話人識別系統(tǒng)。其中,GMM-UBM模型包含1 024個高斯混合數(shù),每個高斯的協(xié)方差矩陣為對角陣。訓練全局差異空間矩陣T的語料與訓練UBM的語料一致,全局差異空間矩陣采用隨機初始化,迭代6次,最終得到全局差異空間矩陣。基線系統(tǒng)的特征被設定為多特征系統(tǒng)中使用特征的適當子集,本文基線系統(tǒng)僅使用13維(不包括C0和C1)MFCC作為特征進行比較,從13維MFCC中提取400維的i-vector。

        4.2 實驗結(jié)果和分析

        作為說話人識別系統(tǒng)最常用的評價指標,NIST的等錯誤率(Equal Error Rate, EER)和檢測代價函數(shù)(Detection Cost Function, DCF)被用來比較基線系統(tǒng)和本文方法,DCF的有效先驗部分在NIST SRE’10[6]中定義為0.001。

        首先,通過Matlab的降維工具包drtoolbox在TIMIT數(shù)據(jù)庫上對直接相連的45維特征向量進行降維,找出最具區(qū)分性的特征部分,不同降維程度對兩種基線系統(tǒng)的性能影響如圖2。可以發(fā)現(xiàn)針對兩種基線系統(tǒng),當特征維數(shù)在30維左右時,說話人識別系統(tǒng)的性能達到最優(yōu);而當特征維數(shù)超過30以后,特征向量所包括的說話人信息的增加速度遠低于區(qū)分性信息的增加的速度,所以導致系統(tǒng)性能呈下降趨勢。因此,多特征變換系統(tǒng)的特征維數(shù)為前30維。

        圖2 不同維度對兩種基線系統(tǒng)性能的影響Fig.2 Effects of different dimensions on the performance of two baseline systems

        接著,對不同特征在兩種基線系統(tǒng)下的性能進行比較,其中測試語音長度保持在2 s,不同特征在短語音條件下的系統(tǒng)性能(EER)對比如表1。可以發(fā)現(xiàn)短語音條件下的不同特征將直接影響系統(tǒng)性能,其中:LPCC特征的結(jié)果最差,PLAR特征的性能相對比較好,MFCC特征性能居中;同時也說明不同特征之間存在一定的差異。但是單純地將三種特征向量直接相連后的實驗結(jié)果卻不如任意一種單一特征系統(tǒng),這也驗證了本文對于多種特征直接組合是不可取的觀點,因為特征之間雖然存在互補性,但是不同的特征之間的向量并不是完全正交的,它們在空間中會相互影響。針對以上問題,可以發(fā)現(xiàn)本文提出的多特征變換算法的系統(tǒng)性能優(yōu)于單特征系統(tǒng)。具體結(jié)論如下:在GMM-UBM說話人識別系統(tǒng)中,本文提出的多特征變換算法相對三種單特征系統(tǒng)的EER分別下降了35.76%、34.14%和44.37%;而對于i-vector說話人識別系統(tǒng),分別下降了72.16%、69.47%和73.62%。對比兩種系統(tǒng)的多特征組合變換算法的實驗結(jié)果,i-vector說話人識別系統(tǒng)相對于GMM-UBM說話人識別系統(tǒng)有66.80%的降低,這驗證了多特征i-vector說話人識別系統(tǒng)在短語音條件下的有效性。

        表1 短語音條件下不同特征性能比較Tab.1 Performance comparison of different features under short speech condition

        最后,針對不同的短語音長度,分析不同語音長度對系統(tǒng)的影響,兩種基線系統(tǒng)和提出系統(tǒng)的EER和DCF的性能比較如表2所示。 從表2可看出:與兩種基線系統(tǒng)相比,本文算法在實驗中表現(xiàn)出最好的性能。與具有單一特征的i-vector系統(tǒng)相比,本文算法的EER和DCF減小50%;另外,當測試語音長度大于4 s時,本文算法能保持相對較低的EER,而單一特征系統(tǒng)的性能卻迅速下降。這表明了從語音中提取更多信息來彌補數(shù)據(jù)缺失,能使短語音說話人識別系統(tǒng)性能更好。

        表2 不同語音長度下說話人識別性能比較Tab.2 Comparison of speaker recognition performance under different speech lengths

        5 結(jié)語

        本文提出了一種基于多特征i-vector的短語音說話人識別系統(tǒng)算法。首先從語音段中提取了MFCC、PLAR、LPCC三種具有說話人不同特性的特征進行了組合,解決單一特征說話人信息量不足的問題;然后采用主成分分析法(PCA)進行多種不同特征之間的去相關,使得特征之間相互正交化;最后為了提取說話人類內(nèi)和類間數(shù)據(jù)更具區(qū)分性的部分,采用線性鑒別分析法(LDA)對特征向量進行處理,得到新的多特征向量作為i-vector說話人模型的輸入進行說話人識別。用TIMIT語料庫的在Matlab 2015b上進行實驗驗證了本文算法的可行性和有效性。

        猜你喜歡
        維空間協(xié)方差特征向量
        二年制職教本科線性代數(shù)課程的幾何化教學設計——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        Update on Fengyun Meteorological Satellite Program and Development*
        一類特殊矩陣特征向量的求法
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
        中華建設(2017年1期)2017-06-07 02:56:14
        從零維到十維的空間之旅
        大眾科學(2016年11期)2016-11-30 15:28:35
        不確定系統(tǒng)改進的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預報器
        自動化學報(2016年8期)2016-04-16 03:38:55
        一種基于廣義協(xié)方差矩陣的欠定盲辨識方法
        十維空間的來訪者
        科學啟蒙(2015年9期)2015-09-25 04:01:05
        縱向數(shù)據(jù)分析中使用滑動平均Cholesky分解對回歸均值和協(xié)方差矩陣進行同時半?yún)?shù)建模
        蜜桃视频无码区在线观看 | 久久久精品欧美一区二区免费| 91精品国产91久久久无码95 | 无码精品一区二区免费AV| 国产精品成人无码a 无码 | 最新精品国偷自产在线婷婷| av黄片免费在线观看| 亚洲精品456在线播放狼人| 天天干天天日夜夜操| 免费va国产高清大片在线| 精品国产三级a∨在线观看| 国产自在自线午夜精品视频在| 久久亚洲精精品中文字幕早川悠里 | 久久久精品人妻一区二区三区四 | 国产交换精品一区二区三区| 精品无码久久久久久久久水蜜桃| 国产成人精品综合在线观看| 免费看奶头视频的网站| 和少妇人妻邻居做爰完整版| 开心激情视频亚洲老熟女| 欧美牲交a欧美牲交aⅴ| 国产最新进精品视频| 国产在线拍偷自拍偷精品| 骚货人妻视频中文字幕| 国产亚洲精品av久久| av 日韩 人妻 黑人 综合 无码 | 一本大道在线一久道一区二区| 蜜臀一区二区av天堂| 国产肥熟女免费一区二区| 久久人妻少妇嫩草av无码专区| 久久精品国产亚洲av成人| 亚洲一区二区女优av| 亚洲国产精品中文字幕久久| 啦啦啦中文在线观看日本| 日韩一线无码av毛片免费| 白色月光在线观看免费高清| 亚洲网站一区在线播放| 亚洲人成色7777在线观看不卡| 欧美午夜精品久久久久久浪潮| 亚洲一本之道高清在线观看| 插入日本少妇一区二区三区|