亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于MAP+CMLLR的說話人識別中發(fā)聲力度問題

        2017-05-24 14:45:22黃文娜彭亞雄
        計算機應(yīng)用 2017年3期
        關(guān)鍵詞:耳語高喊投影

        黃文娜,彭亞雄,賀 松

        (貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴陽 550025) (*通信作者電子郵箱yxpeng68 @163.com)

        基于MAP+CMLLR的說話人識別中發(fā)聲力度問題

        黃文娜,彭亞雄*,賀 松

        (貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴陽 550025) (*通信作者電子郵箱yxpeng68 @163.com)

        為了改善發(fā)聲力度對說話人識別系統(tǒng)性能的影響,在訓(xùn)練語音存在少量耳語、高喊語音數(shù)據(jù)的前提下,提出了使用最大后驗概率(MAP)和約束最大似然線性回歸(CMLLR)相結(jié)合的方法來更新說話人模型、投影轉(zhuǎn)換說話人特征。其中,MAP自適應(yīng)方法用于對正常語音訓(xùn)練的說話人模型進行更新,而CMLLR特征空間投影方法則用來投影轉(zhuǎn)換耳語、高喊測試語音的特征,從而改善訓(xùn)練語音與測試語音的失配問題。實驗結(jié)果顯示,采用MAP+CMLLR方法時,說話人識別系統(tǒng)等錯誤率(EER)明顯降低,與基線系統(tǒng)、最大后驗概率(MAP)自適應(yīng)方法、最大似然線性回歸(MLLR)模型投影方法和約束最大似然線性回歸(CMLLR)特征空間投影方法相比,MAP+CMLLR方法的平均等錯率分別降低了75.3%、3.5%、72%和70.9%。實驗結(jié)果表明,所提出方法削弱了發(fā)聲力度對說話人區(qū)分性的影響,使說話人識別系統(tǒng)對于發(fā)聲力度變化更加魯棒。

        說話人識別;發(fā)聲力度;最大后驗概率;最大似然線性回歸;約束最大似然線性回歸

        0 引言

        發(fā)聲力度是一個隨著說話人與收聽者之間交流距離遠近變化的主觀生理量,在人們的日常交流中,不可能一直使用同一發(fā)聲力度[1]。例如,人們試圖隱藏說話內(nèi)容(耳語);交流距離較大,情況緊急(高喊)[2]。不同發(fā)聲力度下的語音,其聲學(xué)特征及發(fā)音方式存在極大的差異。然而,現(xiàn)在的說話人識別研究中,通常使用正常發(fā)聲力度下的語音訓(xùn)練說話人模型,所以,當(dāng)測試語音來自不同發(fā)聲力度時,訓(xùn)練語音與測試語音便會產(chǎn)生失配,從而導(dǎo)致說話人識別系統(tǒng)識別性能下降[3]。文獻[4-5]中,將發(fā)生力度由低到高分為5個量級:耳語(whisper)、輕聲(soft)、正常(normal)、大聲(louder)、高喊(shouted)。

        自2010年美國國家標(biāo)準(zhǔn)與技術(shù)研究院(National Institute of Standards and Technology, NIST)在說話人識別評測的語料中加入了發(fā)聲力度的變化后,說話人識別中發(fā)聲問題逐漸得到關(guān)注與研究。文獻[5]中提出了基于不同發(fā)聲力度語音特征,通過語音識別器將耳語與其他語音進行分類,使得耳語在其專門的模型上測試,而其他發(fā)聲力度語音在同一個模型上測試,但是由于識別器的誤差以及其他語音的混雜測試,得到的識別結(jié)果不甚理想;文獻[6]在說話人識別模型訓(xùn)練階段,通過使用卷積變換(Convolutional Transformation, ConvTran)等方法訓(xùn)練了一個針對于耳語語音的通用高斯背景模型(Universal Background Model, UBM),使系統(tǒng)性能有了一定提高;文獻[7]中,通過使用聯(lián)合密度高斯混合模型(Gaussian Mixture Model, GMM)映射法補償梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficient, MFCC)特征,一定程度上改善了高喊語音對說話人系統(tǒng)性能的影響;文獻[8]中提出的使用不同的頻譜分析計算MFCC特征,但是實驗結(jié)果表明不同頻譜分析方法之間性能差距較小,對說話人識別系統(tǒng)性能提升也不夠明顯。

        與上述研究僅側(cè)重模型層面或特征層面不同,本文將同時從模型與特征著手,基于對不同發(fā)聲力度下語音的聲學(xué)特性以及模型分布與偏倚情況的分析,提出了不同發(fā)聲力度語音可以看作特殊子空間的假設(shè),使用最大后驗概率(Maximum A Posteriori, MAP)+約束最大似然線性回歸(Constraint Maximum Likelihood Linear Regression, CMLLR)的方法更新模型、投影轉(zhuǎn)換特征,從而解決訓(xùn)練與測試語音失配的問題,提高說話人識別系統(tǒng)性能。

        1 不同發(fā)聲力度下語音信號分析

        1.1 正常、耳語、高喊語音聲學(xué)特性分析

        2010年,NIST說話人評測提供給參賽單位的Tarball數(shù)據(jù)庫中,包括了低發(fā)聲力度、正常發(fā)聲力度、高發(fā)聲力度三種情況下的語音,結(jié)合在文獻[4-5]中對耳語(whisper)、輕聲(soft)、正常(normal)、大聲(louder)、高喊(shouted)五種量級語音的聲學(xué)特性的分析以及文獻[5]中的說話人識別的結(jié)果,本文僅討論耳語(whisper)、正常(normal)、高喊(shouted)三個量級的語音。

        不同發(fā)聲力度下的正常、耳語、高喊語音其發(fā)音方式各有不同。正常語音是通過聲帶的周期性振動,使聲門處的空氣流入咽部、口腔、鼻腔產(chǎn)生;耳語語音產(chǎn)生時,聲帶雖然保持著打開狀態(tài)但并不發(fā)生振動;高喊語音產(chǎn)生時,增加了肺部用力,繼而聲帶產(chǎn)生快速的周期性振動并且?guī)в忻黠@的聲音激勵[7];同時,由于不同發(fā)聲力度下的語音其聲壓、頻率、頻譜各有不同,從而導(dǎo)致不同發(fā)聲力度下的語音音量分貝也各有不同[9]。所以從直觀角度來看,通過發(fā)聲方式確定發(fā)聲力度與通過音量分貝確定發(fā)聲力度存在著一定的聯(lián)系。

        本文使用同一個人在不同發(fā)聲力度下對同一句話的演繹,分析正常、耳語、高喊語音的部分聲學(xué)特征,其寬帶語譜與共振峰如圖1所示。

        首先,由圖1可知,耳語語音因其獨特的發(fā)音方式,不存在基頻結(jié)構(gòu)[6];而高喊語音較與正常語音相比,其基頻結(jié)構(gòu)向高頻位置發(fā)生了一定的偏移[10]。其次,頻譜能量按照高喊、正常、耳語的順序由強變?nèi)酰揖哂卸Z、正常、高喊語音頻譜能量分別主要分布在高頻段、低頻段、均勻分布的特點。最后,不同發(fā)聲力度下的語音共振峰也發(fā)生了明顯的變化,高喊語音的基頻(F0)與第一共振峰(F1)相比正常語音向高頻處產(chǎn)生了偏移[6];耳語語音的第一共振峰(F1)和第二共振峰(F2)相比正常語音也向高頻處產(chǎn)生了偏移且?guī)捵儗抂11]。

        1.2 模型分布可視化

        在說話人識別中,特征通過一定的算法被訓(xùn)練為模型。由于在基于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model, GMM-UBM)的說話人識別系統(tǒng)中,GMM的均值向量最能體現(xiàn)特征在特征空間上的分布特性,所以本文中將采用t-分布鄰域嵌入(t-Stochastic Neighbor Embedding,t-SNE)降維算法,將某一高斯混合的均值向量從高維空間按照最大區(qū)分的方向,投影到低維度的二維空間上,從而可以直觀地觀察到同一說話人不同發(fā)聲力度語音模型均值向量的位置分布以及它們之間相對位置的偏移情況,繼而體現(xiàn)出說話人區(qū)分性信息的變化。圖2是三種語音模型均值向量在二維空間的分布示意圖,其中三種語音均取同一個高斯混合進行降維,二維空間的均值向量用(X,Y)表示,nor表示正常語音模型均值向量,wh表示耳語語音模型均值向量,sh表示高喊語音模型均值向量。

        圖1 三個量級語音的寬帶語譜與共振峰

        圖2 語音模型均值向量在二維空間的分布示意圖

        圖2中,同一個人的不同類型語音模型的均值向量之間由一根直線進行連接,這個線條的長短表示了模型之間的位置的偏移。耳語語音與高喊語音模型分別與正常語音模型存在明顯的偏移,且耳語語音與高喊語音模型分別與正常語音模型相互穿插,嚴(yán)重混淆了正常語音的模型分布,使得說話人的區(qū)分性降低。

        通過對正常、耳語、高喊語音聲學(xué)特性以及t-SNE降維后三種語音模型位置與相對位置偏移的可視化分析,充分說明了正常、耳語、高喊語音之間存在明顯差異。所以,本文提出耳語語音與高喊語音的特征可以看作相對獨立且穩(wěn)定的特殊特征子空間的假設(shè),通過使用模型更新或特征投影轉(zhuǎn)換的方法,學(xué)習(xí)或削弱耳語、高喊語音的區(qū)分性信息,減少耳語、高喊語音區(qū)分性信息對說話人區(qū)分性的影響。

        2 最大后驗概率

        MAP是一種貝葉斯方法,它引入了模型參數(shù)分布的先驗信息,利用有限的數(shù)據(jù),以模型參數(shù)后驗概率最大為準(zhǔn)則對模型參數(shù)進行重新估計。在GMM-UBM框架中,由于參數(shù)中均值向量對識別結(jié)果的影響最大,所以,在此僅對均值進行重新估計[12]。

        (1)

        此方案使用前提為訓(xùn)練語音中除了正常語音數(shù)據(jù)外,還存在少量的耳語、高喊語音數(shù)據(jù)。MAP自適應(yīng)方法利用少量的耳語、高喊語音更新了正常語音訓(xùn)練的說話人模型,使更新后的模型學(xué)習(xí)到了耳語、高喊語音帶有的區(qū)分性信息,能改善訓(xùn)練與測試語音數(shù)據(jù)的失配。MAP自適應(yīng)方法的測試方案如圖3所示。

        圖3 基于MAP自適應(yīng)方法的說話人識別

        3 (約束)最大似然線性回歸

        假設(shè)耳語語音與高喊語音的特征都是一個特殊的獨立子空間,并且與原始的正常語音特征空間存在著一定的對應(yīng)關(guān)系,那么就可以用一組與耳語、高喊語音相關(guān)的線性變化來使耳語語音與高喊語音分別與正常語音的特征空間相互投影,互相學(xué)習(xí)之間的區(qū)分性信息。最大似然線性回歸(MaximumLikelihoodLinearRegression,MLLR)方法最早由劍橋語音小組提出,該方法可以用較少的訓(xùn)練數(shù)據(jù)學(xué)習(xí)出兩組數(shù)據(jù)之間的差異得到轉(zhuǎn)換矩陣,從而改善數(shù)據(jù)之間的偏移。在GMM-UBM框架中,不同混合中的均值向量最能體現(xiàn)說話人的區(qū)分性,所以在MLLR的方法中,僅考慮了均值向量的變化,保持協(xié)方差矩陣不變。

        根據(jù)文獻[13-14]可知MLLR方法:

        μm=Aμ+b=Wξm

        (2)

        其中:μm代表第m個高斯分量的均值向量,ξm是擴展的均值向量,W是涉及偏移的三角矩陣。用最大似然方法來優(yōu)化W,得到如下計算公式:

        (3)

        (4)

        (5)

        其中:τ代表時間,oi(τ)是在τ時刻特征向量的第i個元素,γm(τ)是oi(τ)屬于第m個高斯分量的概率,σm(i)是第m個分量的標(biāo)準(zhǔn)差向量的第i個元素。

        該方法使用時,訓(xùn)練語音中無需存在耳語、高喊語音。若MLLR轉(zhuǎn)換矩陣訓(xùn)練有效,那么由正常語音訓(xùn)練說話人模型經(jīng)過投影轉(zhuǎn)換后,將會學(xué)習(xí)到耳語、高喊語音的區(qū)分性信息,從而改善訓(xùn)練與測試語音的失配問題。MLLR訓(xùn)練測試如圖4所示。

        圖4 基于MLLR模型投影的說話人識別

        CMLLR(ConstraintMLLR)方法在MLLR方法的基礎(chǔ)上增加一定的約束條件,以實現(xiàn)對說話人模型均值與方差同步更新[15]。CMLLR的學(xué)習(xí)過程類似于MLLR,但特別的是,由于CMLLR方法認(rèn)為說話人模型均值與方差共享同一轉(zhuǎn)換矩陣,所以,對模型的轉(zhuǎn)換相當(dāng)于在特征空間對特征進行轉(zhuǎn)換。若CMLLR轉(zhuǎn)換矩陣有效,那么經(jīng)過投影轉(zhuǎn)換后的測試語音中的耳語、高喊的區(qū)分性信息將會被削弱,所以該方法同樣改善了訓(xùn)練與測試語音之間的失配問題。CMLLR方法的測試方案如圖5所示。

        圖5 基于CMLLR特征空間投影的說話人識別

        4 最大后驗概率+約束最大似然線性回歸

        MAP自適應(yīng)方法充分使用訓(xùn)練語音中存在的少量耳語和高喊語音數(shù)據(jù)來更新正常語音訓(xùn)練的說話人模型,使更新后的說話人模型帶有耳語、高喊語音的區(qū)分性信息,從而改善訓(xùn)練語音與測試語音的失配;而CMLLR特征空間投影方法則是利用較少的包含正常語音、耳語、高喊的訓(xùn)練語音數(shù)據(jù)學(xué)習(xí)出兩兩數(shù)據(jù)之間的差異,從而生成一個通用的投影矩陣,經(jīng)過該投影矩陣轉(zhuǎn)換后的耳語、高喊測試語音其帶有的耳語、高喊區(qū)分性信息將會被削弱,同樣實現(xiàn)了改善訓(xùn)練語音與測試語音的失配問題。

        雖然MAP自適應(yīng)方法與CMLLR特征空間投影方法看似是一個相互抵消、矛盾的過程,但實際上這兩種方法結(jié)合起來共同作用,相當(dāng)于共同向著削弱與學(xué)習(xí)耳語、高喊語音區(qū)分性信息中間的一個平衡點靠攏,當(dāng)學(xué)習(xí)到耳語、高喊語音區(qū)分性信息的模型與削弱了耳語、高喊語音區(qū)分性信息的測試語音特征達到一個平衡點時,兩者相互制衡,說話人區(qū)分性信息將得以突出,說話人識別系統(tǒng)性能勢必得以提升。將這一方法稱為MAP+CMLLR方法, 其方案如圖6所示。

        圖6 基于MAP+CMLLR的說話人識別

        5 實驗及分析

        5.1 基線系統(tǒng)

        本實驗數(shù)據(jù)庫共由30個人錄制,其中男女各15人,包含正常、耳語、高喊三種類型語音,每種語音各22句話。錄音環(huán)境為安靜的實驗室環(huán)境。說話人識別系統(tǒng)基于經(jīng)典的GMM-UBM設(shè)計,特征為13維的MFCC加上其一階導(dǎo)數(shù)和二階導(dǎo)數(shù)一共39維,并采用倒頻譜平均值和方差歸一化來減少信道、背景噪聲等對識別造成的不良影響。

        在整個實驗中遵循著同一組實驗采用同一組測試數(shù)據(jù)、同一個基線系統(tǒng)的原則。本實驗基線系統(tǒng)以耳語和高喊語音作為測試語音提取其13維的MFCC加上其一階導(dǎo)數(shù)和二階導(dǎo)數(shù)一共39維,分別在正常語音訓(xùn)練的GMM-UBM模型上進行測試。由于不同實驗的測試數(shù)據(jù)的組織不同,導(dǎo)致基線系統(tǒng)性能不同。關(guān)于不同的數(shù)據(jù)組織,將在每組實驗前說明。

        5.2MAP自適應(yīng)方法

        在MAP自適應(yīng)方法性能測試實驗中,選取全數(shù)據(jù)庫30人,以正常語音(12句)訓(xùn)練說話人模型,正常、耳語、高喊語音(各8句)作為測試語音,耳語、高喊(各2句)作為自適應(yīng)數(shù)據(jù)。經(jīng)過識別打分后,用等錯誤率(EqualErrorRate,EER)來衡量系統(tǒng)性能,結(jié)果如表1所示,更新后模型可視化如圖7所示,其中所有模型均值向量取自同一高斯混合,使用t-SNE方法降維到二維空間的均值向量以(X,Y)表示,nor1、nor2表示正常語音模型均值向量,wh表示耳語語音模型均值向量,sh表示高喊語音模型均值向量,MAPwh表示經(jīng)耳語語音通過MAP自適應(yīng)方法更新后的正常語音模型均值向量nor2,MAPsh表示經(jīng)高喊語音通過MAP自適應(yīng)方法更新后的正常語音模型均值向量nor2。

        表1 MAP自適應(yīng)方法測試性能

        圖7 更新后模型可視化

        由表1可以明顯觀察到,當(dāng)訓(xùn)練語音中存在少量耳語、高喊語音(1條自適應(yīng)語音)的前提下,MAP自適應(yīng)方法使得說話人識別系統(tǒng)EER明顯降低;并且,隨著自適應(yīng)數(shù)據(jù)(2條自適應(yīng)語音)的增多,系統(tǒng)性能穩(wěn)步提升,體現(xiàn)了MAP自適應(yīng)方法良好的漸進性。

        同時,圖7顯示了經(jīng)過更新后模型的均值向量在低維度的二維空間的位置分布,兩種語音模型的均值向量之間連接線條的長短表示了模型之間的位置的偏移。由圖(b)、(c)分別與圖(a)對比可見,耳語語音或高喊語音通過MAP自適應(yīng)方法更新后的正常語音模型與原正常語音模型之間位置發(fā)生了明顯的偏移,模型之間相互混雜。由此說明了經(jīng)過耳語語音或高喊語音MAP自適應(yīng)更新后的正常語音模型學(xué)習(xí)到了耳語、高喊語音的區(qū)分性信息,從而與原正常語音模型產(chǎn)生了偏移。由圖(d)與圖(e)、圖(f)與圖(g)對比可以直觀看到,經(jīng)過耳語語音或高喊語音通過MAP自適應(yīng)方法更新后的正常語音模型與原耳語、高喊語音模型不再相互混雜,且更新后的正常語音與耳語、高喊語音模型之間的平均距離偏移減小。說明經(jīng)過耳語語音與高喊語音通過MAP自適應(yīng)更新后正常語音模型學(xué)習(xí)到了耳語、高喊語音的區(qū)分性信息,從而分別與耳語語音模型、高喊語音模型之間的偏移得到了明顯改善。

        5.3MLLR、CMLLR及MAP+CMLLR方法

        為了滿足存在少量耳語、高喊語音情況,此處統(tǒng)一選擇耳語、高喊語音各2條作為自適應(yīng)語音數(shù)據(jù),針對全數(shù)據(jù)庫30人,分別選用10人、14人、20人作為開發(fā)集,10人作為評估集(12條正常語音訓(xùn)練說話人模型;三個量級各8條語音作測試)。經(jīng)過識別打分后,用EER來衡量系統(tǒng)性能,測試性能如表2所示。

        由表2可知,首先,MLLR方法與CMLLR方法的單獨使用均對說話人識別系統(tǒng)有著一定的提升。特別的是,在不同開發(fā)集下,CMLLR方法改善效果均優(yōu)于MLLR方法,并且隨著開發(fā)集人數(shù)增加,MLLR與CMLLR方法改善系統(tǒng)性能效果也逐漸提升。當(dāng)開發(fā)集人數(shù)達到20人時,CMLLR方法使得測試語音為耳語、高喊情況下說話人識別系統(tǒng)分別提高了16.6%和12.6%。其次,使用MAP+CMLLR方法對說話人識別性能的提升優(yōu)于單獨使用MAP與CMLLR方法,但是,耳語與高喊使用MAP+CMLLR方法所需開發(fā)集人數(shù)不同,當(dāng)開發(fā)集人數(shù)為14人時,高喊語音使用MAP+CMLLR的方法取得了最佳效果,使其EER比基線降低了85.6%;當(dāng)開發(fā)集人數(shù)為20人時,耳語語音使用MAP+CMLLR方法取得了最佳效果,使其EER比基線降低了64.9%。究其原因是因為在發(fā)聲方式、聲學(xué)特性等方面,高喊語音相比耳語語音與正常語音更為接近,當(dāng)對模型更新的自適應(yīng)語音數(shù)據(jù)固定時,高喊語音能夠通過使用較少開發(fā)集人數(shù)的轉(zhuǎn)移矩陣達到MAP+CMLLR方法改善性能最優(yōu)的平衡點。最后,MAP+CMLLR雖然比CMLLR方法性能提升明顯,但相比MAP自適應(yīng)方法提升不是很大,究其原因是MAP自適應(yīng)方法通過使用測試者語音預(yù)留時少量的耳語、高喊語音數(shù)據(jù),學(xué)習(xí)到了豐富的耳語、高喊語音的區(qū)分性信息,而且MAP自適應(yīng)方法具有良好的漸進性,可以使得更新后的正常語音模型非常近似于耳語或高喊語音模型。然而CMLLR方法采用的是與測試者無關(guān)的開發(fā)集訓(xùn)練的投影轉(zhuǎn)換矩陣對測試語音的耳語或高喊區(qū)分性信息進行削弱,其學(xué)習(xí)與削弱能力不及MAP自適應(yīng)方法的學(xué)習(xí)能力。MAP+CMLLR方法是在MAP自適應(yīng)更新模型的同時利用CMLLR方法對測試語音進行投影轉(zhuǎn)換,使用MAP+CMLLR方法后的說話人識別系統(tǒng)可以看作是一個削弱了一定程度的耳語或高喊語音區(qū)分性信息的耳語或高喊測試語音在學(xué)習(xí)到了豐富耳語或高喊區(qū)分性信息的正常語音模型上測試,所以才會出現(xiàn)MAP+CMLLR方法相比MAP自適應(yīng)方法提升不大,相比CMLLR方法提升明顯的現(xiàn)象。

        表2 EER性能測試結(jié)果對比

        6 結(jié)語

        本文基于對不同發(fā)聲力度下正常、耳語、高喊語音的聲學(xué)特征以及其在低維空間中模型分布、模型之間相對位置偏移的分析,討論了MAP自適應(yīng)方法、MLLR模型投影方法、CMLLR特征空間投影方法在改善說話人識別系統(tǒng)性能上的使用前提與效果,提出了使用MAP+CMLLR方法實現(xiàn)對說話人模型更新的同時對測試語音進行投影轉(zhuǎn)換。實驗結(jié)果表明,可以充分利用訓(xùn)練語音中存在少量耳語、高喊語音數(shù)據(jù),使用MAP+CMLLR方法,該方法對說話人系統(tǒng)性能改善效果優(yōu)于單獨使用MAP、CMLLR方法,從而使說話人識別系統(tǒng)更具有魯棒性。

        )

        [1]TRAUNMüLLERH,ERIKSSONA.Acousticeffectsofvariationinvocaleffortbymen,women,andchildren[J].TheJournaloftheAcousticalSocietyofAmerica, 2000, 107(6): 3438-3451.

        [2] 黃庭.情感說話人識別中的基頻失配及其補償方法研究[D].杭州:浙江大學(xué),2011:136-139. (HUANGT.Researchonpitchmismatchanditscompensationmethodsinemotionalspeakerrecognition[D].Hangzhou:ZhejiangUniversity, 2011: 136-139.)

        [3]BRUNGARTDS,SCOTTKR,SIMPSONBD.Theinfluenceofvocaleffortonhumanspeakeridentification[C]//INTERSPEECH2001:Proceedingsofthe7thEuropeanConferenceonSpeechCommunicationandTechnology, 2ndINTERSPEECHEvent. [S.l.]:ISCA, 2001: 747-750.

        [4] 晁浩,宋成,彭維平.基于發(fā)音特征的聲效相關(guān)魯棒語音識別算法[J].計算機應(yīng)用,2015,35(1):257-261. (CHAOH,SONGC,PENGWP.Robustspeechrecognitionalgorithmbasedonarticulatoryfeaturesforvocaleffortvariability[J].JournalofComputerApplications, 2015, 35(1): 257-261.)

        [5]ZHANGC,HANSENJHL.Analysisandclassificationofspeechmode:whisperedthroughshouted[C]//INTERSPEECH2007:Proceedingsofthe8thAnnualConferenceoftheInternationalSpeechCommunicationAssociation. [S.l.]:ISCA, 2007: 2289-2292.

        [6]FANX,HANSENJHL.Acousticanalysisandfeaturetransformationfromneutraltowhisperforspeakeridentificationwithinwhisperedspeechaudiostreams[J].SpeechCommunication, 2013, 55(1): 119-134.

        [7]HANIL?IC,KINNUNENT,SAEIDIR,etal.Speakeridentificationfromshoutedspeech:analysisandcompensation[C]//ICASSP2013:Proceedingsofthe2013IEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing.Piscataway,NJ:IEEE, 2013: 8027-8031.

        [8]POHIALAINENJ,HANILCIC,KINNUNENT,etal.Mixturelinearpredictioninspeakerverificationundervocaleffortmismatch[J].IEEESignalProcessingLetters, 2014, 21(12): 1516-1520

        [9] 熊子瑜.Praat語音軟件使用手冊[EB/OL].[2016- 09- 09].http://www.doc88.com/p-943562730984.html. (XIONGZY.Themanualofpraatspeechsoftware[EB/OL]. [2016- 09- 09].http://www.doc88.com/p-943562730984.html.)

        [10]THOMASIB.Perceivedpitchofwhisperedvowels[J].TheJournaloftheAcousticalSocietyofAmerica, 1969, 46(2B): 468-470.

        [11] 王琰蕾.基于JFA的漢語耳語音說話人識別[D].蘇州:蘇州大學(xué),2010:25-28. (WANGYL.SpeakeridentificationinChinesewhisperedspeechbasedonsimplifiedjointfactoranalysis[D].Suzhou:SoochowUniversity, 2010: 25-28.)

        [12]LEEC-H,LINC-H,JUANGB-H.AstudyonspeakeradaptationoftheparametersofcontinuousdensityhiddenMarkovmodels[J].IEEETransactionsonSignalProcessing, 1991, 39(4): 806-814.

        [13]LEGGETTERCJ,WOODLANDPC.MaximumlikelihoodlinearregressionforspeakeradaptationofcontinuousdensityhiddenMarkovmodels[J].ComputerSpeech&Language, 1995, 9(2): 171-185.

        [14]GALESMJF,WOODLANDPC.MeanandvarianceadaptationwithintheMLLRframework[J].ComputerSpeech&Language, 1996, 10(4): 249-264.

        [15]GALESMJF.MaximumlikelihoodlineartransformationsforHMM-basedspeechrecognition[J].ComputerSpeech&Language, 1998, 12(2): 75-98.

        ThisworkispartiallysupportedbytheSocialResearchPlanofGuizhouProvince(20133015),theEngineeringTechnologyResearchCenterConstructionProjectofGuizhouProvince(20144002).

        HUANG Wenna, born in 1990, M. S. candidate. Her research interest include speaker recognition.

        PENG Yaxiong, born in 1963, associate professor. His research interests include signal processing.

        HE Song, born in 1970, M. S., associate professor. His research interests include signal processing.

        Vocal effort in speaker recognition based on MAP+CMLLR

        HUANG Wenna, PENG Yaxiong*, HE Song

        (CollegeofBigDataandInformationEngineering,GuizhouUniversity,GuiyangGuizhou550025,China)

        To improve the performance of recognition system which is influenced by the change of vocal effort, in the premise of a small amount of whisper and shouted speech data in training speech data, Maximum A Posteriori (MAP) and Constraint Maximum Likelihood Linear Regression (CMLLR) were combined to update the speaker model and transform the speaker characteristics. MAP adaption method was used to update the speaker model of normal speech training, and the CMLLR feature space projection method was used to project and transform the features of whisper and shouted testing speech to improve the mismatch between training speech and testing speech. Experimental results show that the Equal Error Rate (EER) of speaker recognition system was significantly reduced by using the proposed method. Compared with the baseline system, MAP adaptation method, Maximum Likelihood Linear Regression (MLLR) model projection method and CMLLR feature space projection method, the average EER is reduced by 75.3%, 3.5%, 72%, 70.9%, respectively. The experimental results prove that the proposed method weakens the influence on discriminative power for vocal effort and makes the speaker recognition system more robust to vocal effort variability.

        speaker recognition; vocal effort; Maximum A Posteriori (MAP); Maximum Likelihood Linear Regression (MLLR); Constraint Maximum Likelihood Linear Regression (CMLLR)

        2016- 07- 22;

        2016- 09- 17。

        貴州省社會攻關(guān)計劃項目(黔科合SY字[2013]3105 號);貴州省工程技術(shù)研究中心建設(shè)項目(黔科合G字[2014]4002號)。

        黃文娜(1990—),女,貴州赤水人,碩士研究生,主要研究方向:說話人識別; 彭亞雄(1963—),男,貴州遵義人,副教授,主要研究方向:信號處理; 賀松(1970—),男,貴州貴陽人,副教授,碩士,主要研究方向:信號處理。

        1001- 9081(2017)03- 0906- 05

        10.11772/j.issn.1001- 9081.2017.03.906

        TP391.4

        A

        猜你喜歡
        耳語高喊投影
        西江月·晚歸
        新一年 新氣象
        時尚北京(2022年1期)2022-01-05 15:40:50
        解變分不等式的一種二次投影算法
        基于最大相關(guān)熵的簇稀疏仿射投影算法
        葵花聽指揮
        找投影
        找投影
        小木偶
        有朋自遠方來
        行香子 七夕
        遼河(2012年3期)2012-04-29 00:44:03
        无码不卡av东京热毛片| 国产一区二区三区资源在线观看| 国产三级在线观看高清| 国产老熟女伦老熟妇露脸| 蜜芽亚洲av无码精品色午夜| 男人的天堂无码动漫av| 亚洲av无码男人的天堂在线| 免费一级欧美大片久久网| 国产一级r片内射视频播放| 亚洲精品国产一区二区免费视频| 无码精品国产一区二区三区免费| 野花社区视频在线观看| 后入内射欧美99二区视频| 欧美在线成人免费国产| 少妇人妻出水中文字幕乱码| 久久这里都是精品99| 欧美激情一区二区三区成人| 国产麻豆剧传媒精品国产av| 深夜国产成人福利在线观看女同| 日本一区二区三区四区在线看| 国产爽快片一区二区三区| 内射白浆一区二区在线观看| 高清国产亚洲精品自在久久| 蜜桃传媒免费在线播放| 日本一本免费一二区| 丰满人妻熟妇乱又伦精品软件| 久久中文字幕无码一区二区| 在线亚洲精品国产成人二区| 中文av字幕一区二区三区| 中国午夜伦理片| 最新国产乱人伦偷精品免费网站| 午夜久久精品国产亚洲av| 日本人妻系列一区二区| 99久久99久久久精品蜜桃| 女人被爽到高潮视频免费国产 | 亚洲国产av精品一区二| 男人的天堂手机版av| 日本少妇高潮喷水xxxxxxx | 在线观看免费人成视频国产| 久久免费亚洲免费视频| 无码gogo大胆啪啪艺术|