王 雯
(國家新聞出版廣電總局 成都監(jiān)測臺,四川 成都 611130)
對音頻信號的自動分析和處理能夠?yàn)樾侣劰ぷ髡咛峁┰S多有用信息。例如,在新聞廣播中,音頻自動分析與處理任務(wù)包括聲音識別、說話者分辨、錨點(diǎn)檢測、角色檢測、故事場景邊界檢測、頻道質(zhì)量評估、與聲音相關(guān)的事件檢測、非語言類聲音檢測與分類、音頻特征分類、靜音檢測、廣告檢測、語種識別、語音情感識別等。而語音識別技術(shù)是所有上述任務(wù)的工作基礎(chǔ),通常作為上述任務(wù)的前端技術(shù)被采用。
要分析音頻信號,首先需要對信號進(jìn)行預(yù)處理并提取音頻特征。最后,所提取的音頻特征經(jīng)由模式識別算法處理而得到分析或識別的結(jié)果。
常用的音頻信號特征包括時域特征與頻域特征。零交叉率與梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,簡稱“MFCC”)為最常用的時域與頻域特征。其他常用特征還包括音高、感知線性預(yù)測系數(shù)、諧波噪聲比率、線性預(yù)測編碼系數(shù)、色度特征、自相關(guān)性等。
在模型識別階段,各種概率性和判別性的機(jī)器學(xué)習(xí)算法相繼被提出。高斯混合模型(Gaussian Mixture Model,簡稱“GMM”)與隱馬爾可夫模型(Hidden Markov Model,簡稱“HMM”)為音頻模式識別中最常用的模式識別算法。其他被廣泛采用的機(jī)器學(xué)習(xí)算法還包括支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、最鄰近分類器、決策樹、遺傳算法、模糊邏輯算法等。
圖1 語音識別系統(tǒng)總體架構(gòu)
以下列舉機(jī)器學(xué)習(xí)在語音智能識別方面的一些應(yīng)用。語音識別系統(tǒng)的總體架構(gòu)大體如圖1所示。
輸入的音頻信號首先通過前端處理單元,該單元對信號進(jìn)行預(yù)處理并提取類頻譜特征。此后,這些特征被輸入模式識別算法用于估算屬于不同音素的概率。得到的音素概率結(jié)果將結(jié)合隱馬爾科夫模型、語言模型、詞典等共同作用對音頻進(jìn)行解碼(如圖1所示),推導(dǎo)出該音頻對應(yīng)的文本內(nèi)容。值得一提的是,模式識別與隱馬爾科夫模型都屬于機(jī)器學(xué)習(xí)范疇。
自動語音識別系統(tǒng)已經(jīng)被應(yīng)用在許多商業(yè)工作中,但系統(tǒng)仍然存在很多問題亟待解決。多年來,各種機(jī)器學(xué)習(xí)相關(guān)技術(shù)被運(yùn)用在自動語音識別系統(tǒng)的語音建模中。其中,用隱馬爾科夫模型來預(yù)測問題是被大部分人所熟知的?,F(xiàn)實(shí)中,采用機(jī)器學(xué)習(xí)算法得到的結(jié)果往往不能綁定馬爾科夫模型的某一特定狀態(tài),但是可以給出屬于不同狀態(tài)的概率程度,因而催生了隱馬爾科夫模型。20世紀(jì)70年代以來,在許多關(guān)于自動語音識別系統(tǒng)的評估中,隱馬爾科夫模型被公認(rèn)為語音識別技術(shù)中變化最大的框架遷移,因此其被認(rèn)為是語音識別技術(shù)中重要的里程碑。談到隱馬爾科夫模型,不得不提到與之相關(guān)的三個典型問題,即評估(前向算法)、解碼(維特比算法)以及訓(xùn)練。給定模型和某一觀察序列(結(jié)果),確定該模型生成此序列的概率為評估過程,該算法也被稱為前向算法;確定出現(xiàn)某結(jié)果最可能的狀態(tài)序列被稱為解碼,通常采用的是維特比(Viterbi)算法。更新模型參數(shù)使得產(chǎn)生某結(jié)果的可能性最大化被稱為訓(xùn)練,一般采用Baum-Welch算法。
然而,隱馬爾科夫模型也有自身的局限性,一是該模型需要通過大量訓(xùn)練數(shù)據(jù)來防止由于測試和訓(xùn)練條件間的不匹配所導(dǎo)致的模型性能下降。一般情況下,混合高斯模型可以估算出這些隱馬爾科夫模型的輸出概率密度。而采用混合高斯模型與隱馬爾科夫模型的系統(tǒng)是目前自動語音識別系統(tǒng)中最杰出的生成式學(xué)習(xí)方法。盡管如此,人們一直在尋找能夠替代隱馬爾科夫模型的方法,因此在20世紀(jì)80年代末90年代初催生了各種基于人工神經(jīng)網(wǎng)絡(luò)(Artifical Neural Network,簡稱“ANN”)的語音識別技術(shù),許多工作者提出使用ANN或者特殊的多層感知器來估算語音識別中的概率問題。此外,另一種可選的概率估計手段是支持向量機(jī)(Support Vector Machine,簡稱“SVM”)算法。值得一提的是,前面提到的隱馬爾科夫模型是一種生成式模型,即最終決策由生成模型對當(dāng)前模式輸出的似然概率來確定。相比之下,支持向量機(jī)是區(qū)分式模型。區(qū)分式模型與生成式模型可相互補(bǔ)充,因此催生了一種混合支持向量機(jī)與隱馬爾科夫模型的系統(tǒng),該系統(tǒng)類似隱馬爾科夫模型與多層感知機(jī)的混合系統(tǒng)。由于支持向量機(jī)具有強(qiáng)大的泛化能力,有助于提高自動語音識別的魯棒性,近期的趨勢之一是在噪聲魯棒的語音識別系統(tǒng)中采用結(jié)構(gòu)化的支持向量機(jī)算法。以下分析語音識別系統(tǒng)中常用的機(jī)器學(xué)習(xí)算法,包括人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、混合高斯模型以及近幾年興起的深度學(xué)習(xí)。
在人工神經(jīng)網(wǎng)絡(luò)中,每個音素都與多層感知機(jī)輸出層中特定輸出單元對應(yīng)。兩種常用神經(jīng)網(wǎng)絡(luò)類型是時間延遲神經(jīng)網(wǎng)絡(luò)(time-delay neural networks,TDNNs)和遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks)。雖然人工神經(jīng)網(wǎng)絡(luò)能夠?yàn)樽詣诱Z音識別解決許多問題,但仍然存在以下幾點(diǎn)不足急需改進(jìn):第一,人工神經(jīng)網(wǎng)絡(luò)無法模擬語音信號的時變性。第二,在為混合模型設(shè)計最佳網(wǎng)絡(luò)結(jié)構(gòu)方面存在一定的困難。第三,目前缺乏聯(lián)合的訓(xùn)練方式來同時訓(xùn)練隱馬爾科夫模型和人工神經(jīng)網(wǎng)絡(luò)模型。第四,對大型多層感知機(jī)的訓(xùn)練較為困難。
支持向量機(jī)(SVM)是一種二類非線性分類器,能夠預(yù)測輸入向量值屬于類一還是類二。雖然在處理分類問題上,SVM是目前最先進(jìn)的工具,其應(yīng)用在語音識別上也有著優(yōu)缺點(diǎn),進(jìn)而促使語音領(lǐng)域的研究者不斷對其進(jìn)行研究。SVM用于ASR具有以下優(yōu)點(diǎn):第一,支持向量機(jī)魯棒性較好,因此適合在嘈雜的環(huán)境中進(jìn)行語音識別。第二,因?yàn)椴捎昧撕嘶侄危╧ernel trick),只需考慮核矩陣(kernel matrix)參與優(yōu)化,因此SVM已能處理應(yīng)對“維度災(zāi)難”,處理上千維度的輸入特征。
它的不足之處在于:第一,許多SVM算法的實(shí)現(xiàn)需要將所有輸入樣本(數(shù)量表示為n)之間的核矩陣進(jìn)行存儲,復(fù)雜度為O(n2),這是SVM的主要缺點(diǎn)。第二,SVM的輸出取決于所用核函數(shù)類型,對于給定的任務(wù),無法明確哪種核函數(shù)是最優(yōu)的。第三,SVM的輸入向量需要具有固定的大小,然而在語音識別中,每個語音序列有著不同的持續(xù)長度。
混合高斯模型(GMM)用于對連續(xù)的分布函數(shù)進(jìn)行參數(shù)化概率建模(采用高斯或正態(tài)分布),整個數(shù)據(jù)的分布則可以使用這些分布函數(shù)或高斯模型的混合模型來逼近?;旌细咚鼓P驮谄交拼笠?guī)模樣本的分布方面非常有效?;贕MM的隱馬爾科夫模型或者是混合高斯/隱馬爾科夫模型是目前自動語音識別中最常用的機(jī)器學(xué)習(xí)方法。
采用高斯模型待解決的問題如下:第一,需要對模型的方差設(shè)置合適的下限,可改進(jìn)泛化性能并防止方差變得極小。第二,使用GMM增加了計算的復(fù)雜性,因?yàn)樾枰幌盗袑?shù)加法來計算GMM的似然概率。解決方法之一是僅選取對總概率值有相當(dāng)貢獻(xiàn)的高斯成分而舍棄其他權(quán)值很小的高斯成分;另一種方法是僅取所有高斯成分中最大的概率值來近似總概率值。第三,確定系統(tǒng)中每個狀態(tài)對應(yīng)的高斯成分?jǐn)?shù)量是一個問題。第一種方法是假設(shè)對所有狀態(tài)使用相同的成分?jǐn)?shù)量,并在數(shù)據(jù)的幫助下確定該數(shù)量;第二種方法是使用常用的貝葉斯準(zhǔn)則;第三種方法是將高斯成分的數(shù)量設(shè)計為與該狀態(tài)中觀測值數(shù)量相關(guān)的函數(shù)。第四,GMM建立在條件獨(dú)立性假設(shè)之上。
另外,HMM / GMM系統(tǒng)的成功和普及源于以下原因:第一,歸因于高效的Baum-Welch算法,受其啟發(fā)催生了期望最大化(Expectation Maximization,簡稱“EM”)算法,用于學(xué)習(xí)GMM和HMM模型。第二,生成式GMM / HMM模型已經(jīng)被證實(shí)能夠在有噪聲的語音環(huán)境下成功地將噪聲與語音信息分離。值得一提的是,在識別嘈雜的語音時,其表現(xiàn)甚至可能超越人類。
2006年,Hinton等人提出了一種新穎的機(jī)器學(xué)習(xí)框架,即深度學(xué)習(xí)或?qū)哟位瘜W(xué)習(xí)。最近通過實(shí)驗(yàn)發(fā)現(xiàn),深度學(xué)習(xí)算法已在包括自動語音識別在內(nèi)的許多應(yīng)用中得到了極大的性能提升。在深度學(xué)習(xí)中,研究者開發(fā)了包含多處理層的層次化結(jié)構(gòu),技術(shù)的關(guān)鍵為對這些層的無監(jiān)督預(yù)訓(xùn)練以及有監(jiān)督反向誤差回傳進(jìn)行模式學(xué)習(xí)與分類。
深度學(xué)習(xí)的興起與流行有以下兩個重要原因:第一,計算硬件(如GPU等)成本的顯著下降。第二,計算硬件(如GPU)等芯片處理能力的極大提升。
所謂深度神經(jīng)網(wǎng)絡(luò)(DNN),其實(shí)是具有許多隱藏層的傳統(tǒng)MLP?;谏疃壬窠?jīng)網(wǎng)絡(luò)的語音模型在大詞匯連續(xù)語音識別(LVCSR)上的首次應(yīng)用案例出現(xiàn)于2012年。該案例利用了微軟Bing語音搜索數(shù)據(jù)庫,使用5個預(yù)訓(xùn)練的神經(jīng)元層(每層包含2048個神經(jīng)元)將具有11個音素的語音上下文窗口分為可能的761種上下文狀態(tài)。該系統(tǒng)在測試集上獲得了69.6%的準(zhǔn)確率,而作為比較基準(zhǔn)的GMM / HMM的準(zhǔn)確率為63.8%。此外,該案例的研究者還發(fā)現(xiàn)綁定三音素作為上下文狀態(tài)比僅使用單音素作為上下文狀態(tài)效果更好。
語音識別技術(shù)和機(jī)器學(xué)習(xí)技術(shù)相輔相成,而自動語音識別和深度學(xué)習(xí)間有著深厚的關(guān)聯(lián),在最近幾年里,彼此的研究成果呈現(xiàn)互補(bǔ)狀態(tài)。語音識別中的深度學(xué)習(xí)由基于人工神經(jīng)網(wǎng)絡(luò)的語音識別器開啟,隨后發(fā)展為隱馬爾科夫與人工神經(jīng)網(wǎng)絡(luò)的混合模型,然而研究勢頭后來由于所采用的學(xué)習(xí)方法中的難點(diǎn)而受阻??上驳氖?,最近興起的深度學(xué)習(xí)克服了這些困難。因此,隱馬爾科夫與混合高斯模型的結(jié)合正在慢慢被深度神經(jīng)網(wǎng)絡(luò)與隱馬爾科夫的混合模型所替代。設(shè)計高效的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)與魯棒的可應(yīng)對大規(guī)模、不確定、不完整數(shù)據(jù)的學(xué)習(xí)算法極具挑戰(zhàn)性,是未來要深入研究的方向。