亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談廣播電視新章節(jié)
        ——語音識別技術(shù)

        2018-07-02 09:44:34
        新聞研究導(dǎo)刊 2018年4期
        關(guān)鍵詞:馬爾科夫人工神經(jīng)網(wǎng)絡(luò)高斯

        王 雯

        (國家新聞出版廣電總局 成都監(jiān)測臺,四川 成都 611130)

        對音頻信號的自動分析和處理能夠?yàn)樾侣劰ぷ髡咛峁┰S多有用信息。例如,在新聞廣播中,音頻自動分析與處理任務(wù)包括聲音識別、說話者分辨、錨點(diǎn)檢測、角色檢測、故事場景邊界檢測、頻道質(zhì)量評估、與聲音相關(guān)的事件檢測、非語言類聲音檢測與分類、音頻特征分類、靜音檢測、廣告檢測、語種識別、語音情感識別等。而語音識別技術(shù)是所有上述任務(wù)的工作基礎(chǔ),通常作為上述任務(wù)的前端技術(shù)被采用。

        要分析音頻信號,首先需要對信號進(jìn)行預(yù)處理并提取音頻特征。最后,所提取的音頻特征經(jīng)由模式識別算法處理而得到分析或識別的結(jié)果。

        常用的音頻信號特征包括時域特征與頻域特征。零交叉率與梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,簡稱“MFCC”)為最常用的時域與頻域特征。其他常用特征還包括音高、感知線性預(yù)測系數(shù)、諧波噪聲比率、線性預(yù)測編碼系數(shù)、色度特征、自相關(guān)性等。

        在模型識別階段,各種概率性和判別性的機(jī)器學(xué)習(xí)算法相繼被提出。高斯混合模型(Gaussian Mixture Model,簡稱“GMM”)與隱馬爾可夫模型(Hidden Markov Model,簡稱“HMM”)為音頻模式識別中最常用的模式識別算法。其他被廣泛采用的機(jī)器學(xué)習(xí)算法還包括支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、最鄰近分類器、決策樹、遺傳算法、模糊邏輯算法等。

        圖1 語音識別系統(tǒng)總體架構(gòu)

        一、機(jī)器學(xué)習(xí)算法

        以下列舉機(jī)器學(xué)習(xí)在語音智能識別方面的一些應(yīng)用。語音識別系統(tǒng)的總體架構(gòu)大體如圖1所示。

        輸入的音頻信號首先通過前端處理單元,該單元對信號進(jìn)行預(yù)處理并提取類頻譜特征。此后,這些特征被輸入模式識別算法用于估算屬于不同音素的概率。得到的音素概率結(jié)果將結(jié)合隱馬爾科夫模型、語言模型、詞典等共同作用對音頻進(jìn)行解碼(如圖1所示),推導(dǎo)出該音頻對應(yīng)的文本內(nèi)容。值得一提的是,模式識別與隱馬爾科夫模型都屬于機(jī)器學(xué)習(xí)范疇。

        二、機(jī)器學(xué)習(xí)算法在語音識別中的應(yīng)用

        自動語音識別系統(tǒng)已經(jīng)被應(yīng)用在許多商業(yè)工作中,但系統(tǒng)仍然存在很多問題亟待解決。多年來,各種機(jī)器學(xué)習(xí)相關(guān)技術(shù)被運(yùn)用在自動語音識別系統(tǒng)的語音建模中。其中,用隱馬爾科夫模型來預(yù)測問題是被大部分人所熟知的?,F(xiàn)實(shí)中,采用機(jī)器學(xué)習(xí)算法得到的結(jié)果往往不能綁定馬爾科夫模型的某一特定狀態(tài),但是可以給出屬于不同狀態(tài)的概率程度,因而催生了隱馬爾科夫模型。20世紀(jì)70年代以來,在許多關(guān)于自動語音識別系統(tǒng)的評估中,隱馬爾科夫模型被公認(rèn)為語音識別技術(shù)中變化最大的框架遷移,因此其被認(rèn)為是語音識別技術(shù)中重要的里程碑。談到隱馬爾科夫模型,不得不提到與之相關(guān)的三個典型問題,即評估(前向算法)、解碼(維特比算法)以及訓(xùn)練。給定模型和某一觀察序列(結(jié)果),確定該模型生成此序列的概率為評估過程,該算法也被稱為前向算法;確定出現(xiàn)某結(jié)果最可能的狀態(tài)序列被稱為解碼,通常采用的是維特比(Viterbi)算法。更新模型參數(shù)使得產(chǎn)生某結(jié)果的可能性最大化被稱為訓(xùn)練,一般采用Baum-Welch算法。

        然而,隱馬爾科夫模型也有自身的局限性,一是該模型需要通過大量訓(xùn)練數(shù)據(jù)來防止由于測試和訓(xùn)練條件間的不匹配所導(dǎo)致的模型性能下降。一般情況下,混合高斯模型可以估算出這些隱馬爾科夫模型的輸出概率密度。而采用混合高斯模型與隱馬爾科夫模型的系統(tǒng)是目前自動語音識別系統(tǒng)中最杰出的生成式學(xué)習(xí)方法。盡管如此,人們一直在尋找能夠替代隱馬爾科夫模型的方法,因此在20世紀(jì)80年代末90年代初催生了各種基于人工神經(jīng)網(wǎng)絡(luò)(Artifical Neural Network,簡稱“ANN”)的語音識別技術(shù),許多工作者提出使用ANN或者特殊的多層感知器來估算語音識別中的概率問題。此外,另一種可選的概率估計手段是支持向量機(jī)(Support Vector Machine,簡稱“SVM”)算法。值得一提的是,前面提到的隱馬爾科夫模型是一種生成式模型,即最終決策由生成模型對當(dāng)前模式輸出的似然概率來確定。相比之下,支持向量機(jī)是區(qū)分式模型。區(qū)分式模型與生成式模型可相互補(bǔ)充,因此催生了一種混合支持向量機(jī)與隱馬爾科夫模型的系統(tǒng),該系統(tǒng)類似隱馬爾科夫模型與多層感知機(jī)的混合系統(tǒng)。由于支持向量機(jī)具有強(qiáng)大的泛化能力,有助于提高自動語音識別的魯棒性,近期的趨勢之一是在噪聲魯棒的語音識別系統(tǒng)中采用結(jié)構(gòu)化的支持向量機(jī)算法。以下分析語音識別系統(tǒng)中常用的機(jī)器學(xué)習(xí)算法,包括人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、混合高斯模型以及近幾年興起的深度學(xué)習(xí)。

        (一)人工神經(jīng)網(wǎng)絡(luò)在自動語音識別中的應(yīng)用

        在人工神經(jīng)網(wǎng)絡(luò)中,每個音素都與多層感知機(jī)輸出層中特定輸出單元對應(yīng)。兩種常用神經(jīng)網(wǎng)絡(luò)類型是時間延遲神經(jīng)網(wǎng)絡(luò)(time-delay neural networks,TDNNs)和遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks)。雖然人工神經(jīng)網(wǎng)絡(luò)能夠?yàn)樽詣诱Z音識別解決許多問題,但仍然存在以下幾點(diǎn)不足急需改進(jìn):第一,人工神經(jīng)網(wǎng)絡(luò)無法模擬語音信號的時變性。第二,在為混合模型設(shè)計最佳網(wǎng)絡(luò)結(jié)構(gòu)方面存在一定的困難。第三,目前缺乏聯(lián)合的訓(xùn)練方式來同時訓(xùn)練隱馬爾科夫模型和人工神經(jīng)網(wǎng)絡(luò)模型。第四,對大型多層感知機(jī)的訓(xùn)練較為困難。

        (二)支持向量機(jī)

        支持向量機(jī)(SVM)是一種二類非線性分類器,能夠預(yù)測輸入向量值屬于類一還是類二。雖然在處理分類問題上,SVM是目前最先進(jìn)的工具,其應(yīng)用在語音識別上也有著優(yōu)缺點(diǎn),進(jìn)而促使語音領(lǐng)域的研究者不斷對其進(jìn)行研究。SVM用于ASR具有以下優(yōu)點(diǎn):第一,支持向量機(jī)魯棒性較好,因此適合在嘈雜的環(huán)境中進(jìn)行語音識別。第二,因?yàn)椴捎昧撕嘶侄危╧ernel trick),只需考慮核矩陣(kernel matrix)參與優(yōu)化,因此SVM已能處理應(yīng)對“維度災(zāi)難”,處理上千維度的輸入特征。

        它的不足之處在于:第一,許多SVM算法的實(shí)現(xiàn)需要將所有輸入樣本(數(shù)量表示為n)之間的核矩陣進(jìn)行存儲,復(fù)雜度為O(n2),這是SVM的主要缺點(diǎn)。第二,SVM的輸出取決于所用核函數(shù)類型,對于給定的任務(wù),無法明確哪種核函數(shù)是最優(yōu)的。第三,SVM的輸入向量需要具有固定的大小,然而在語音識別中,每個語音序列有著不同的持續(xù)長度。

        (三)高斯模型

        混合高斯模型(GMM)用于對連續(xù)的分布函數(shù)進(jìn)行參數(shù)化概率建模(采用高斯或正態(tài)分布),整個數(shù)據(jù)的分布則可以使用這些分布函數(shù)或高斯模型的混合模型來逼近?;旌细咚鼓P驮谄交拼笠?guī)模樣本的分布方面非常有效?;贕MM的隱馬爾科夫模型或者是混合高斯/隱馬爾科夫模型是目前自動語音識別中最常用的機(jī)器學(xué)習(xí)方法。

        采用高斯模型待解決的問題如下:第一,需要對模型的方差設(shè)置合適的下限,可改進(jìn)泛化性能并防止方差變得極小。第二,使用GMM增加了計算的復(fù)雜性,因?yàn)樾枰幌盗袑?shù)加法來計算GMM的似然概率。解決方法之一是僅選取對總概率值有相當(dāng)貢獻(xiàn)的高斯成分而舍棄其他權(quán)值很小的高斯成分;另一種方法是僅取所有高斯成分中最大的概率值來近似總概率值。第三,確定系統(tǒng)中每個狀態(tài)對應(yīng)的高斯成分?jǐn)?shù)量是一個問題。第一種方法是假設(shè)對所有狀態(tài)使用相同的成分?jǐn)?shù)量,并在數(shù)據(jù)的幫助下確定該數(shù)量;第二種方法是使用常用的貝葉斯準(zhǔn)則;第三種方法是將高斯成分的數(shù)量設(shè)計為與該狀態(tài)中觀測值數(shù)量相關(guān)的函數(shù)。第四,GMM建立在條件獨(dú)立性假設(shè)之上。

        另外,HMM / GMM系統(tǒng)的成功和普及源于以下原因:第一,歸因于高效的Baum-Welch算法,受其啟發(fā)催生了期望最大化(Expectation Maximization,簡稱“EM”)算法,用于學(xué)習(xí)GMM和HMM模型。第二,生成式GMM / HMM模型已經(jīng)被證實(shí)能夠在有噪聲的語音環(huán)境下成功地將噪聲與語音信息分離。值得一提的是,在識別嘈雜的語音時,其表現(xiàn)甚至可能超越人類。

        (四)深度學(xué)習(xí)在語音智能識別方面的應(yīng)用

        2006年,Hinton等人提出了一種新穎的機(jī)器學(xué)習(xí)框架,即深度學(xué)習(xí)或?qū)哟位瘜W(xué)習(xí)。最近通過實(shí)驗(yàn)發(fā)現(xiàn),深度學(xué)習(xí)算法已在包括自動語音識別在內(nèi)的許多應(yīng)用中得到了極大的性能提升。在深度學(xué)習(xí)中,研究者開發(fā)了包含多處理層的層次化結(jié)構(gòu),技術(shù)的關(guān)鍵為對這些層的無監(jiān)督預(yù)訓(xùn)練以及有監(jiān)督反向誤差回傳進(jìn)行模式學(xué)習(xí)與分類。

        深度學(xué)習(xí)的興起與流行有以下兩個重要原因:第一,計算硬件(如GPU等)成本的顯著下降。第二,計算硬件(如GPU)等芯片處理能力的極大提升。

        所謂深度神經(jīng)網(wǎng)絡(luò)(DNN),其實(shí)是具有許多隱藏層的傳統(tǒng)MLP?;谏疃壬窠?jīng)網(wǎng)絡(luò)的語音模型在大詞匯連續(xù)語音識別(LVCSR)上的首次應(yīng)用案例出現(xiàn)于2012年。該案例利用了微軟Bing語音搜索數(shù)據(jù)庫,使用5個預(yù)訓(xùn)練的神經(jīng)元層(每層包含2048個神經(jīng)元)將具有11個音素的語音上下文窗口分為可能的761種上下文狀態(tài)。該系統(tǒng)在測試集上獲得了69.6%的準(zhǔn)確率,而作為比較基準(zhǔn)的GMM / HMM的準(zhǔn)確率為63.8%。此外,該案例的研究者還發(fā)現(xiàn)綁定三音素作為上下文狀態(tài)比僅使用單音素作為上下文狀態(tài)效果更好。

        三、結(jié)語

        語音識別技術(shù)和機(jī)器學(xué)習(xí)技術(shù)相輔相成,而自動語音識別和深度學(xué)習(xí)間有著深厚的關(guān)聯(lián),在最近幾年里,彼此的研究成果呈現(xiàn)互補(bǔ)狀態(tài)。語音識別中的深度學(xué)習(xí)由基于人工神經(jīng)網(wǎng)絡(luò)的語音識別器開啟,隨后發(fā)展為隱馬爾科夫與人工神經(jīng)網(wǎng)絡(luò)的混合模型,然而研究勢頭后來由于所采用的學(xué)習(xí)方法中的難點(diǎn)而受阻??上驳氖?,最近興起的深度學(xué)習(xí)克服了這些困難。因此,隱馬爾科夫與混合高斯模型的結(jié)合正在慢慢被深度神經(jīng)網(wǎng)絡(luò)與隱馬爾科夫的混合模型所替代。設(shè)計高效的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)與魯棒的可應(yīng)對大規(guī)模、不確定、不完整數(shù)據(jù)的學(xué)習(xí)算法極具挑戰(zhàn)性,是未來要深入研究的方向。

        猜你喜歡
        馬爾科夫人工神經(jīng)網(wǎng)絡(luò)高斯
        小高斯的大發(fā)現(xiàn)
        基于疊加馬爾科夫鏈的邊坡位移預(yù)測研究
        基于改進(jìn)的灰色-馬爾科夫模型在風(fēng)機(jī)沉降中的應(yīng)用
        利用人工神經(jīng)網(wǎng)絡(luò)快速計算木星系磁坐標(biāo)
        天才數(shù)學(xué)家——高斯
        人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)簡單字母的識別
        電子制作(2019年10期)2019-06-17 11:45:10
        馬爾科夫鏈在教學(xué)評價中的應(yīng)用
        有限域上高斯正規(guī)基的一個注記
        基于聲發(fā)射和人工神經(jīng)網(wǎng)絡(luò)的混凝土損傷程度識別
        基于馬爾科夫法的土地格局變化趨勢研究
        河南科技(2014年11期)2014-02-27 14:10:11
        人妻丰满熟妇一二三区| 久久aⅴ无码av免费一区| 亚洲ⅤA中文字幕无码| av免费在线观看网站大全| 一二三区无线乱码中文在线| 国产好大好硬好爽免费不卡| 欧美成人免费高清视频| 加勒比东京热综合久久| 国产av天堂亚洲av刚刚碰| 国产超碰人人爽人人做人人添| 午夜大片又黄又爽大片app| 国产亚洲精品综合99久久 | 92精品国产自产在线观看48页 | 亚洲国产一区二区中文字幕| 又大又粗欧美黑人aaaaa片| 亚洲欧美日韩综合久久久| 亚洲国产日韩在线精品频道| 韩国日本一区二区在线 | 国产一级淫片免费播放电影| 五月综合丁香婷婷久久| 国产在线第一区二区三区| 射死你天天日| avtt一区| 亚洲毛片免费观看视频| 亚洲精品v欧洲精品v日韩精品| 久久亚洲黄色| 亚洲av高清在线一区二区三区| 精品人妻码一区二区三区剧情| 亚洲精品无码成人a片| 国产精品白浆无码流出| 国产av一区二区网站| 国产激情无码一区二区| 老熟女多次高潮露脸视频| 国产精品不卡在线视频| 日本a级片免费网站观看| 国产精品久久久久av福利动漫| 日本香蕉久久一区二区视频| 久久久亚洲av午夜精品| 色噜噜久久综合伊人一本| 久久精品国波多野结衣| 亚洲国产av午夜福利精品一区|