亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺談廣播電視新章節(jié)
——語音識別技術(shù)

2018-07-02 09:44:34王雯

新聞研究導(dǎo)刊 2018年4期

王雯

（國家新聞出版廣電總局成都監(jiān)測臺，四川成都 611130）

對音頻信號的自動分析和處理能夠?yàn)樾侣劰ぷ髡咛峁┰S多有用信息。例如，在新聞廣播中，音頻自動分析與處理任務(wù)包括聲音識別、說話者分辨、錨點(diǎn)檢測、角色檢測、故事場景邊界檢測、頻道質(zhì)量評估、與聲音相關(guān)的事件檢測、非語言類聲音檢測與分類、音頻特征分類、靜音檢測、廣告檢測、語種識別、語音情感識別等。而語音識別技術(shù)是所有上述任務(wù)的工作基礎(chǔ)，通常作為上述任務(wù)的前端技術(shù)被采用。

要分析音頻信號，首先需要對信號進(jìn)行預(yù)處理并提取音頻特征。最后，所提取的音頻特征經(jīng)由模式識別算法處理而得到分析或識別的結(jié)果。

常用的音頻信號特征包括時域特征與頻域特征。零交叉率與梅爾頻率倒譜系數(shù)（Mel Frequency Cepstrum Coefficient，簡稱“MFCC”）為最常用的時域與頻域特征。其他常用特征還包括音高、感知線性預(yù)測系數(shù)、諧波噪聲比率、線性預(yù)測編碼系數(shù)、色度特征、自相關(guān)性等。

在模型識別階段，各種概率性和判別性的機(jī)器學(xué)習(xí)算法相繼被提出。高斯混合模型（Gaussian Mixture Model，簡稱“GMM”）與隱馬爾可夫模型（Hidden Markov Model，簡稱“HMM”）為音頻模式識別中最常用的模式識別算法。其他被廣泛采用的機(jī)器學(xué)習(xí)算法還包括支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、最鄰近分類器、決策樹、遺傳算法、模糊邏輯算法等。

圖1 語音識別系統(tǒng)總體架構(gòu)

一、機(jī)器學(xué)習(xí)算法

以下列舉機(jī)器學(xué)習(xí)在語音智能識別方面的一些應(yīng)用。語音識別系統(tǒng)的總體架構(gòu)大體如圖1所示。

輸入的音頻信號首先通過前端處理單元，該單元對信號進(jìn)行預(yù)處理并提取類頻譜特征。此后，這些特征被輸入模式識別算法用于估算屬于不同音素的概率。得到的音素概率結(jié)果將結(jié)合隱馬爾科夫模型、語言模型、詞典等共同作用對音頻進(jìn)行解碼（如圖1所示），推導(dǎo)出該音頻對應(yīng)的文本內(nèi)容。值得一提的是，模式識別與隱馬爾科夫模型都屬于機(jī)器學(xué)習(xí)范疇。

二、機(jī)器學(xué)習(xí)算法在語音識別中的應(yīng)用

自動語音識別系統(tǒng)已經(jīng)被應(yīng)用在許多商業(yè)工作中，但系統(tǒng)仍然存在很多問題亟待解決。多年來，各種機(jī)器學(xué)習(xí)相關(guān)技術(shù)被運(yùn)用在自動語音識別系統(tǒng)的語音建模中。其中，用隱馬爾科夫模型來預(yù)測問題是被大部分人所熟知的?，F(xiàn)實(shí)中，采用機(jī)器學(xué)習(xí)算法得到的結(jié)果往往不能綁定馬爾科夫模型的某一特定狀態(tài)，但是可以給出屬于不同狀態(tài)的概率程度，因而催生了隱馬爾科夫模型。20世紀(jì)70年代以來，在許多關(guān)于自動語音識別系統(tǒng)的評估中，隱馬爾科夫模型被公認(rèn)為語音識別技術(shù)中變化最大的框架遷移，因此其被認(rèn)為是語音識別技術(shù)中重要的里程碑。談到隱馬爾科夫模型，不得不提到與之相關(guān)的三個典型問題，即評估（前向算法）、解碼（維特比算法）以及訓(xùn)練。給定模型和某一觀察序列（結(jié)果），確定該模型生成此序列的概率為評估過程，該算法也被稱為前向算法；確定出現(xiàn)某結(jié)果最可能的狀態(tài)序列被稱為解碼，通常采用的是維特比（Viterbi）算法。更新模型參數(shù)使得產(chǎn)生某結(jié)果的可能性最大化被稱為訓(xùn)練，一般采用Baum-Welch算法。

然而，隱馬爾科夫模型也有自身的局限性，一是該模型需要通過大量訓(xùn)練數(shù)據(jù)來防止由于測試和訓(xùn)練條件間的不匹配所導(dǎo)致的模型性能下降。一般情況下，混合高斯模型可以估算出這些隱馬爾科夫模型的輸出概率密度。而采用混合高斯模型與隱馬爾科夫模型的系統(tǒng)是目前自動語音識別系統(tǒng)中最杰出的生成式學(xué)習(xí)方法。盡管如此，人們一直在尋找能夠替代隱馬爾科夫模型的方法，因此在20世紀(jì)80年代末90年代初催生了各種基于人工神經(jīng)網(wǎng)絡(luò)（Artifical Neural Network，簡稱“ANN”）的語音識別技術(shù)，許多工作者提出使用ANN或者特殊的多層感知器來估算語音識別中的概率問題。此外，另一種可選的概率估計手段是支持向量機(jī)（Support Vector Machine，簡稱“SVM”）算法。值得一提的是，前面提到的隱馬爾科夫模型是一種生成式模型，即最終決策由生成模型對當(dāng)前模式輸出的似然概率來確定。相比之下，支持向量機(jī)是區(qū)分式模型。區(qū)分式模型與生成式模型可相互補(bǔ)充，因此催生了一種混合支持向量機(jī)與隱馬爾科夫模型的系統(tǒng)，該系統(tǒng)類似隱馬爾科夫模型與多層感知機(jī)的混合系統(tǒng)。由于支持向量機(jī)具有強(qiáng)大的泛化能力，有助于提高自動語音識別的魯棒性，近期的趨勢之一是在噪聲魯棒的語音識別系統(tǒng)中采用結(jié)構(gòu)化的支持向量機(jī)算法。以下分析語音識別系統(tǒng)中常用的機(jī)器學(xué)習(xí)算法，包括人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、混合高斯模型以及近幾年興起的深度學(xué)習(xí)。

（一）人工神經(jīng)網(wǎng)絡(luò)在自動語音識別中的應(yīng)用

在人工神經(jīng)網(wǎng)絡(luò)中，每個音素都與多層感知機(jī)輸出層中特定輸出單元對應(yīng)。兩種常用神經(jīng)網(wǎng)絡(luò)類型是時間延遲神經(jīng)網(wǎng)絡(luò)（time-delay neural networks，TDNNs）和遞歸神經(jīng)網(wǎng)絡(luò)（recurrent neural networks）。雖然人工神經(jīng)網(wǎng)絡(luò)能夠?yàn)樽詣诱Z音識別解決許多問題，但仍然存在以下幾點(diǎn)不足急需改進(jìn)：第一，人工神經(jīng)網(wǎng)絡(luò)無法模擬語音信號的時變性。第二，在為混合模型設(shè)計最佳網(wǎng)絡(luò)結(jié)構(gòu)方面存在一定的困難。第三，目前缺乏聯(lián)合的訓(xùn)練方式來同時訓(xùn)練隱馬爾科夫模型和人工神經(jīng)網(wǎng)絡(luò)模型。第四，對大型多層感知機(jī)的訓(xùn)練較為困難。

（二）支持向量機(jī)

支持向量機(jī)（SVM）是一種二類非線性分類器，能夠預(yù)測輸入向量值屬于類一還是類二。雖然在處理分類問題上，SVM是目前最先進(jìn)的工具，其應(yīng)用在語音識別上也有著優(yōu)缺點(diǎn)，進(jìn)而促使語音領(lǐng)域的研究者不斷對其進(jìn)行研究。SVM用于ASR具有以下優(yōu)點(diǎn)：第一，支持向量機(jī)魯棒性較好，因此適合在嘈雜的環(huán)境中進(jìn)行語音識別。第二，因?yàn)椴捎昧撕嘶侄危╧ernel trick），只需考慮核矩陣（kernel matrix）參與優(yōu)化，因此SVM已能處理應(yīng)對“維度災(zāi)難”，處理上千維度的輸入特征。

它的不足之處在于：第一，許多SVM算法的實(shí)現(xiàn)需要將所有輸入樣本（數(shù)量表示為n）之間的核矩陣進(jìn)行存儲，復(fù)雜度為O（n2），這是SVM的主要缺點(diǎn)。第二，SVM的輸出取決于所用核函數(shù)類型，對于給定的任務(wù)，無法明確哪種核函數(shù)是最優(yōu)的。第三，SVM的輸入向量需要具有固定的大小，然而在語音識別中，每個語音序列有著不同的持續(xù)長度。

（三）高斯模型

混合高斯模型（GMM）用于對連續(xù)的分布函數(shù)進(jìn)行參數(shù)化概率建模（采用高斯或正態(tài)分布），整個數(shù)據(jù)的分布則可以使用這些分布函數(shù)或高斯模型的混合模型來逼近?；旌细咚鼓Ｐ驮谄交拼笠?guī)模樣本的分布方面非常有效?；贕MM的隱馬爾科夫模型或者是混合高斯/隱馬爾科夫模型是目前自動語音識別中最常用的機(jī)器學(xué)習(xí)方法。

采用高斯模型待解決的問題如下：第一，需要對模型的方差設(shè)置合適的下限，可改進(jìn)泛化性能并防止方差變得極小。第二，使用GMM增加了計算的復(fù)雜性，因?yàn)樾枰幌盗袑?shù)加法來計算GMM的似然概率。解決方法之一是僅選取對總概率值有相當(dāng)貢獻(xiàn)的高斯成分而舍棄其他權(quán)值很小的高斯成分；另一種方法是僅取所有高斯成分中最大的概率值來近似總概率值。第三，確定系統(tǒng)中每個狀態(tài)對應(yīng)的高斯成分?jǐn)?shù)量是一個問題。第一種方法是假設(shè)對所有狀態(tài)使用相同的成分?jǐn)?shù)量，并在數(shù)據(jù)的幫助下確定該數(shù)量；第二種方法是使用常用的貝葉斯準(zhǔn)則；第三種方法是將高斯成分的數(shù)量設(shè)計為與該狀態(tài)中觀測值數(shù)量相關(guān)的函數(shù)。第四，GMM建立在條件獨(dú)立性假設(shè)之上。

另外，HMM / GMM系統(tǒng)的成功和普及源于以下原因：第一，歸因于高效的Baum-Welch算法，受其啟發(fā)催生了期望最大化（Expectation Maximization，簡稱“EM”）算法，用于學(xué)習(xí)GMM和HMM模型。第二，生成式GMM / HMM模型已經(jīng)被證實(shí)能夠在有噪聲的語音環(huán)境下成功地將噪聲與語音信息分離。值得一提的是，在識別嘈雜的語音時，其表現(xiàn)甚至可能超越人類。

（四）深度學(xué)習(xí)在語音智能識別方面的應(yīng)用

2006年，Hinton等人提出了一種新穎的機(jī)器學(xué)習(xí)框架，即深度學(xué)習(xí)或?qū)哟位瘜W(xué)習(xí)。最近通過實(shí)驗(yàn)發(fā)現(xiàn)，深度學(xué)習(xí)算法已在包括自動語音識別在內(nèi)的許多應(yīng)用中得到了極大的性能提升。在深度學(xué)習(xí)中，研究者開發(fā)了包含多處理層的層次化結(jié)構(gòu)，技術(shù)的關(guān)鍵為對這些層的無監(jiān)督預(yù)訓(xùn)練以及有監(jiān)督反向誤差回傳進(jìn)行模式學(xué)習(xí)與分類。

深度學(xué)習(xí)的興起與流行有以下兩個重要原因：第一，計算硬件（如GPU等）成本的顯著下降。第二，計算硬件（如GPU）等芯片處理能力的極大提升。

所謂深度神經(jīng)網(wǎng)絡(luò)（DNN），其實(shí)是具有許多隱藏層的傳統(tǒng)MLP?；谏疃壬窠?jīng)網(wǎng)絡(luò)的語音模型在大詞匯連續(xù)語音識別（LVCSR）上的首次應(yīng)用案例出現(xiàn)于2012年。該案例利用了微軟Bing語音搜索數(shù)據(jù)庫，使用5個預(yù)訓(xùn)練的神經(jīng)元層（每層包含2048個神經(jīng)元）將具有11個音素的語音上下文窗口分為可能的761種上下文狀態(tài)。該系統(tǒng)在測試集上獲得了69.6%的準(zhǔn)確率，而作為比較基準(zhǔn)的GMM / HMM的準(zhǔn)確率為63.8%。此外，該案例的研究者還發(fā)現(xiàn)綁定三音素作為上下文狀態(tài)比僅使用單音素作為上下文狀態(tài)效果更好。

三、結(jié)語

語音識別技術(shù)和機(jī)器學(xué)習(xí)技術(shù)相輔相成，而自動語音識別和深度學(xué)習(xí)間有著深厚的關(guān)聯(lián)，在最近幾年里，彼此的研究成果呈現(xiàn)互補(bǔ)狀態(tài)。語音識別中的深度學(xué)習(xí)由基于人工神經(jīng)網(wǎng)絡(luò)的語音識別器開啟，隨后發(fā)展為隱馬爾科夫與人工神經(jīng)網(wǎng)絡(luò)的混合模型，然而研究勢頭后來由于所采用的學(xué)習(xí)方法中的難點(diǎn)而受阻?？上驳氖?，最近興起的深度學(xué)習(xí)克服了這些困難。因此，隱馬爾科夫與混合高斯模型的結(jié)合正在慢慢被深度神經(jīng)網(wǎng)絡(luò)與隱馬爾科夫的混合模型所替代。設(shè)計高效的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)與魯棒的可應(yīng)對大規(guī)模、不確定、不完整數(shù)據(jù)的學(xué)習(xí)算法極具挑戰(zhàn)性，是未來要深入研究的方向。