亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語音識別中基于發(fā)音特征的聲調集成算法

        2014-08-03 15:22:58劉志中
        計算機工程與應用 2014年23期
        關鍵詞:感知器基頻聲調

        晁 浩,宋 成,劉志中

        河南理工大學 計算機科學與技術學院,河南 焦作 454000

        語音識別中基于發(fā)音特征的聲調集成算法

        晁 浩,宋 成,劉志中

        河南理工大學 計算機科學與技術學院,河南 焦作 454000

        1 引言

        隱馬爾科夫模型(Hidden Markov Model,HMM)是當前連續(xù)語音識別領域應用最為廣泛的聲學模型,但其語音幀之間相互獨立的假設并不符合語音信號真實分布[1]。為此,研究人員提出了分段模型,隨機段模型(Stochastic Segment Modeling,SSM)就是其中的一種[2-4]。相對于HMM,隨機段模型是一種更為精確的模型。此外,隨機段模型作為分段模型的一種,其建模和解碼均以語音段為基本單元,這就使其具有HMM所不具有的特性:段模型本身的結構允許采用語音段層次上的特征,而作為超音段特征的聲調信息能很好地應用于隨機段模型。為了進一步提高隨機段模型系統(tǒng)的解碼精度,將聲調信息作為聲學特性信息的補充用于隨機段模型系統(tǒng)是十分必要的。

        聲調是漢語普通話的一種重要屬性,在一定程度上承擔著構字辨義的作用。因此,利用聲調信息來提高聲學模型的區(qū)分性是十分必要的,也是近年來的研究熱點[5-8]。

        對于聲調模型,研究人員提出了不同的建模方法,如HMM[9]、人工神經網絡[10]、決策樹分類器[11]和支持向量機[12]、以及基于最大熵方法[13]和基于條件隨機場[14]的聲調建模方法等。從模型特征的角度,通過分析發(fā)音動作的改變對基頻輪廓的影響,提出了基于發(fā)音特征和傳統(tǒng)基頻特征相結合的聲調建模方法[15]。

        本文的研究工作分兩方面:首先進一步完善了發(fā)音器官主要動作屬性劃分類別,補充了發(fā)音特征集,改進了前面提出的基于發(fā)音特征的聲調建模方法;然后,根據隨機段模型的模型結構和解碼原理將基于發(fā)音特征的聲調模型通過一遍解碼的方式集成到隨機段模型系統(tǒng)中。

        2 基于發(fā)音特征的聲調模型

        2.1 發(fā)音特征獲取

        漢語中的音節(jié)具有聲母-韻母的結構,對于同一種聲調模式,如果對應音節(jié)中的聲韻母發(fā)音時發(fā)音動作不一樣,那么就會使基頻輪廓在形狀或高度上發(fā)生改變。因此,在聲調建模及分類過程中,必須考慮聲韻母的發(fā)音動作這一因素的影響。在先前的研究中[15],發(fā)音特征主要體現了聲/韻母的發(fā)音方式和聲帶振動信息,而這些只是描述發(fā)音器官動作信息的一部分。這里補充了其他的發(fā)音器官動作信息(見表1),使得發(fā)音特征得以更全面地表征發(fā)音器官的動作屬性,并以此提出了改進的發(fā)音特征提取方法。

        表1 發(fā)音特征及其包含的類別

        所用的發(fā)音特征集主要包括:“發(fā)音位置”、“發(fā)音方式”、“是否送氣”等7種發(fā)音特征,每種發(fā)音特征包含各自的所屬類別,總共35類。

        發(fā)音特征的提取主要采用統(tǒng)計方法:首先訓練統(tǒng)計模型,然后利用模型計算語音信號屬于發(fā)音特征的各類別的后驗概率,根據概率大小判斷應屬于哪類發(fā)音特征。在文中,采用階層式神經網絡計算聲母/韻母對應的語音段屬于發(fā)音特征類別的后驗概率,如圖1所示。

        (1)基于語音幀的發(fā)音特征

        圖中第一層的多層感知器(Multilayer Perceptron classifiers,MLP)計算當前幀語音信號屬于某類發(fā)音特征的概率。對于發(fā)音特征集中的每一種發(fā)音特征,都有一個多層感知器相對應,因此一共要訓練7個多層感知器。MLP的輸入數據采用頻譜特征,輸出數據的維數(或者說輸出層節(jié)點的個數)與每個發(fā)音特征的所屬類別數相同。將每個MLP的輸出連接起來形成一個新的一維矢量,該矢量的維數為35,即表1中個發(fā)音特征的類別數目總和。

        (2)發(fā)音特征序列處理

        對于一個語音幀,圖1中第一層感知器組的輸出輸出是一個描述該幀語音的發(fā)音信息、維數為35的特征矢量。對于包含多個語音幀的語音段(聲/韻母),第一層的多層感知器組的輸出實際上是一個后驗概率矢量序列。

        發(fā)音特征序列處理模塊將后驗概率矢量序列按照3-4-3的比例分為三部分,得到三個較短的后驗概率矢量序列,然后對每一部分的矢量序列求均值,得到三個均值矢量,每個矢量維數仍為35。將這三個均值矢量拼接起來,再拼接一維該語音段時長的對數值,組成一個新的特征矢量,作為第二層MLP的輸入,共106維。

        (3)語音段后驗概率的獲取

        第二層的多層感知器共有兩個,分別對應聲母語音段和韻母語音段。這兩個模型訓練時所用輸入為發(fā)音特征序列處理模塊的輸出,共106維。MLP-1為屬于聲母的多層感知器,有20個輸出節(jié)點,分別對應于表1中前4個發(fā)音特征的20個類別;MLP-2為屬于韻母的多層感知器,有15個輸出節(jié)點,對應于表1中后3個發(fā)音特征的15個類別。

        2.2 聲調建模

        在提取出發(fā)音特征后,將其與韻律特征一起用于建立聲調模型。

        圖1 基于階層式人工神經網絡的發(fā)音特征提取

        (1)韻律特征

        由于漢語的聲調主要通過對應音節(jié)的基頻輪廓來表示,而時長、能量也在一定程度上影響了聲調的感知,所以對于每一個音節(jié),采用基頻輪廓、時長以及能量為聲調建模,具體如表2所示。

        表2 聲調建模所用韻律特征

        基頻特征共4個:首先計算當前音節(jié)對應的基頻的均值,然后將當前音節(jié)對應的基頻均勻地分為三部分,每部分分別求均值。

        能量特征:當前音節(jié)能量的均值。

        時長特征:當前音節(jié)的時長。

        相鄰音節(jié)基頻特征:前一個音節(jié)對應的基頻均勻地分為三部分,取后面部分的基頻的均值;后一個音節(jié)對應的基頻均勻地分為三部分,去前面部分基頻的均值。

        (2)聲調模型

        在獲取了發(fā)音特征和韻律特征后,將兩種特征相結合,用于訓練聲調模型。聲調模型采用多層感知器,MLP模型包含一個隱含層,隱含層節(jié)點個數設置為2N+1,其中 N為輸入層的節(jié)點個數,MLP模型采用WEKA的多層感知器算法來訓練。

        3 隨機段模型中聲調模型的集成算法

        隨機段模型系統(tǒng)解碼時,每一個語音幀都設有一個備選集和一個擴展集。備選集是所有以該幀為最后切分點的路徑的集合;擴展集是由該幀備選集中的路徑向下擴展出來的聲學模型的集合。

        對于當前待解碼幀,所有以其為終點,且起點在最大段長允許范圍內的語音幀的擴展集,構成當前待解碼幀待定的備選集。解碼時每一個起始點幀都與待解碼幀形成了一個語音段,計算起始幀擴展集中每一個聲學模型在該語音段上的概率得分,并以此選取最優(yōu)的聲學模型,也就是最優(yōu)的路徑,并將這些保留下來的路徑加入到解碼幀的備選集中。例如,待解碼幀為m,對于起點為t的語音段[t,m],根據t擴展集中的所有模型在該語音段的得分的大小情況選取最佳聲學模型α,并將其添加到待解碼幀m的備選集合中。這就是隨機段模型解碼的第一層剪枝,其主要根據當前語音段上的概率得分大小來剪枝。剪枝后形成的解碼幀m的備選集包含了大約幾千條路徑。

        隨后,需要對當前待解碼幀的備選集中的路徑根據發(fā)音詞典的規(guī)則進行擴展,從而形成該幀的擴展集。在擴展前需要對備選集中的路徑進行第二層剪枝,剪枝的規(guī)則是保留路徑總得分最大的部分路徑。第二層剪枝后當前待解碼幀的備選集中只保留了大約幾十條路徑用于后續(xù)的路徑擴展。

        聲調模型的加入是在第二層剪枝后,路徑擴展之前,如圖2所示。加入的方式如下:

        其中w1為時長模型的權重系數,w2為聲調模型的權重系統(tǒng)。

        聲調建模和識別時需要預先知道聲韻母的邊界信息,但是在解碼時實際上不知道聲韻母真實的邊界信息,而第二層剪枝后保留下來的路徑其包含的邊界信息與真實的邊界信息比較相近,因此以這種方式加入聲調模型在一定程度上能解決真實邊界未知的問題。

        圖2 SSM二層剪枝示意圖

        4 實驗及結果分析

        4.1 隨機段模型

        實驗所用的數據庫為國家863項目漢語廣播語音庫。訓練集包括83位男性說話人的數據,其中共48 373句,約55.6 h。測試集包含6個男說話人數據,共240句話,約17.1 min。聲學特征包括12維梅爾頻率倒譜系數及1維標準化能量,以及它們的一階及二階差分,共39維。幀的窗長為25.6 ms,幀移為10 ms。實驗中采用的漢語普通話音素集包含24個聲母及37個韻母,每一個韻母含有五個聲調。去除訓練庫中沒有出現的聲韻母,音素集中共包含191個基本音素。

        實驗所用的基線系統(tǒng)為基于隨機段模型的語音識別系統(tǒng)。隨機段模型的建模單元為聲韻母,采用背景相關的三音子結構,每個段模型包含15個域模型和一個基于伽馬分布的時長模型。每個域模型由12混合數的高斯混合模型模擬。域模型采用基于音素的決策樹進行參數合并。訓練階段完成后,三音子模型一共有202 984個,域模型的個數為24 180個。采用二元語言模型,詞典規(guī)模為48 188。

        4.2 聲調識別結果

        在對測試集中的240句話進行強制切分后,利用訓練好的MLP模型分別對切分出的語音段進行了聲調識別實驗,實驗結果如表3所示。其中第一行為采用傳統(tǒng)韻律特征的聲調模型的識別結果;第二行為表征發(fā)音方式的特征(發(fā)音特征I)和韻律特征相結合后的聲調識別結果;最后一行則為對發(fā)音特征補充后(發(fā)音特征II)與韻律特征結合后的識別結果。

        表3 基于不同特征的聲調模型(%)

        與只用韻律特征的聲調模型相比,加入了發(fā)音特征后(不管是發(fā)音特征I還是發(fā)音特征II)聲調模型的精度均有較大程度上的提高。特別是輕聲,加入兩種發(fā)音特征后,聲調的準確率分別提高了25.1%和34.6%。這是由于輕聲沒有固定的調值,并且受前一個音節(jié)聲調的影響較大,所以只根據韻律特征識別輕聲時效果并不理想。事實上,很多輕聲漢字的發(fā)音器官動作比較固定或類似,例如“吧,嗎,啊,阿,呢”以及“了,過,的,得”。因此,如果先檢測出蘊含發(fā)音器官動作信息的發(fā)音特征,對應輕聲的識別會很有幫助。相比發(fā)音特征I,發(fā)音特征II對發(fā)音器官動作描述得更全面,也更精確。所以輕聲的識別率,采用發(fā)音特征II比發(fā)音特征I提高了9.5%。而對于一聲、二聲、三聲和四聲,采用發(fā)音特征I聲調模型的識別率也有輕微的提高,表明發(fā)音方式信息作為韻律信息的補充,能夠有效刻畫發(fā)音方式對基頻的影響,從而提升聲調識別的準確率。采用發(fā)音特征II后四種聲調的識別率有了進一步的提升,這表明如果能夠更精確地表征和提取語音信號中的發(fā)音信息會使得聲調模型的性能繼續(xù)提高,這也進一步驗證了發(fā)音特征在聲調建模中的潛力。

        4.3 融入聲調模型后的語音識別

        將聲調模型融入隨機段模型系統(tǒng)中后,對測試集中的240句話進行識別并與隨機段模型的基線系統(tǒng)進行對比。公式(1)中的聲調模型得分的權重通過實驗人工設置。這里聲調的權重系數設置為5.5,時長模型的權重系數設置為10。識別結果如表4所示。

        表4中第一行為SSM基線系統(tǒng)的識別結果,第二行、第三行和第四行則是SSM系統(tǒng)融入了聲調模型后的識別結果。第二行的SSM系統(tǒng)使用的聲調模型只用韻律特征來建模;第三行SSM系統(tǒng)中的聲調模型則用了韻律特征和發(fā)音特征I(見表3中)來建模;最后一行的SSM系統(tǒng)中的聲調模型所用特征為補充后的發(fā)音特征(表3中發(fā)音特征II)與韻律特征。

        不管使用哪種聲調模型,當聲調模型融入SSM語音識別系統(tǒng)后,在測試集上漢語字的錯誤率與基線系統(tǒng)相比均有所下降。將三種聲調模型集成到SSM后,插入錯誤和刪除錯誤都沒有發(fā)生變化,只是替代錯誤的絕對值下降了。同時,隨著聲調模型本身精度的提高,替代錯誤也逐漸下降。這說明聲調能夠提供補充性的區(qū)分性信息來糾正漢語語音識別中的替代錯誤;而且聲調模型提供的區(qū)分性信息越準確,SSM系統(tǒng)精度提升得也越多。

        本文提出的聲調建模方法只需訓練包括輕聲在內的5個聲調模型,模型數量大大降低。在計算復雜度方面,聲調識別時算法的時間復雜度主要體現在發(fā)音特征的提取上,即多層感知器的計算。由于實驗采用的多層感知器的各層節(jié)點數都不超過102,遠遠小于解碼時基于HMM的Viterbi搜索算法的時間復雜度O(N2T)(N為狀態(tài)數,量級為103;T為時間,量級為102),所以將聲調模型通過一遍解碼的方式集成到語音識別系統(tǒng)中時并不會顯著增加解碼時間。

        表4中的最后一列描述了解碼時間,用實時性來表示。為了消除解碼時計算機中其他程序對解碼時間的影響,對于表中每一種系統(tǒng)都重復完成了10次解碼,時間取平均值。測試的硬件平臺為Intel3.20 GHz主頻和4 GB內存的PC機,運行過程中內存使用約為485~615 MB。第二行的SSM系統(tǒng)使用的聲調模型只用韻律特征來建模,聲調模型輸入特征的維數較低,并且特征提取時并未用多層感知器,所以解碼時間與基線系統(tǒng)相比只有略微的提高,由于提升程度有限,所以并沒有反映在實時性上;集成聲調模型I的系統(tǒng)中,在提取發(fā)音特征時所用階層式神經網絡中第一層包含了19個MLP[14],而集成聲調模型II只用了7個MLP,所以集成聲調模型I所用時間反而較高。

        表4 加入聲調信息的SSM系統(tǒng)的識別結果

        5 結束語

        分析發(fā)音時發(fā)音器官的動作屬性后,補充了發(fā)音位置、是否送氣、舌位高低、舌位前后、嘴唇形狀等5種發(fā)音特征,從而建立了能夠更全面地表征發(fā)音器官的動作屬性的發(fā)音特征集合,并以此提出了改進的發(fā)音特征提取方法,并將新的發(fā)音特征和韻律特征一起用于聲調建模。最后根據隨機段模型的模型結構和解碼方式提出聲調模型集成方式,從而將聲調信息應用于SSM語音識別系統(tǒng)。實驗結果表明,采用了新的發(fā)音特征集合后聲調模型的精度有了進一步提高;同時隨機段模型加入了聲調信息后系統(tǒng)性能有了進一步的提高。

        [1]Ostendorf M,Roukos S.A stochastic segment model for phoneme-based continuous speech recognition[J].IEEE Trans on Speech and Audio Processing,1989,37(12):1857-1869.

        [2]唐赟,劉文舉,徐波.基于后驗概率解碼段模型的漢語語音數字串識別[J].計算機學報,2006,29(4):635-642.

        [3]晁浩,劉文舉,楊占磊.漢語語音識別中聲學界標點引導的隨機段模型解碼算法[J].計算機科學,2013,40(10):208-212.

        [4]Tang Yun,Liu Wenju,Zhang Hua.One-pass coarse-to-fine segmental speech decoding algorithm[C]//Proceedings of ICASSP,2006:441-444.

        [5]Huang Hao,Li Binghu.Automatic context induction for tone model integration in Mandarin speech recognition[J]. Journal of China Universities of Posts and Telecommunications,2012,19(1):94-100.

        [6]Tian Ye,Jia Jia,Wang Yongxin,et al.A real-time tone enhancement method for continuous Mandarin speeches[C]// International Symposium on Chinese Spoken Language Processing,2012:405-408.

        [7]Wu Jiang,Zahorian S A,Hu Hongbing.Tone recognition in continuous Mandarin Chinese[J].The Journal of the Acoustical Society of America,2012,132(3).

        [8]Wu Jiang,Zahorian S A,Hu Hongbing.Tone recognition for continuous accented Mandarin Chinese[C]//Proceedings of ICASSP,2013:7180-7183.

        [9]Yang W J,Lee J C,Chang Y C,et al.Hidden Markov modelforMandarin lexicaltone recognition[J].IEEE Transactions on Acoustic Speech and Signal Processing,1988,36(7):988-992.

        [10]Thubthong N,Kijsirikul B.Tone recognition of continuous Thai speech under tonal assimilation and declination effects using half-tone model[J].International JournalofUncertainty,Fuzziness and Knowledge-Based Systems,2001,9(6):815-825.

        [11]曹陽,黃泰翼,徐波.基于統(tǒng)計方法的漢語連續(xù)語音中聲調模式的研究[J].自動化學報,2004,30(2):191-198.

        [12]PengG,Wang W S.Tonerecognitionofcontinuous Cantonese speech based on support vector machines[J]. Speech Communication,2005,45(1):49-62.

        [13]Wang Xinhao.Maximum entropy based tone modeling for Mandarin speech recognition[C]//Proceedings of ICASSP,2010:4850-4853.

        [14]Wei Hongxiu.Exploiting prosodic and lexical features for tone modeling in a conditional random field framework[C]// Proceedings of ICASSP,2008:4549-4552.

        [15]Chao Hao,Yang Zhanlei,Liu Wenju.Improved tone modeling by exploiting articulatory features for Mandarin speech recognition[C]//Proceedings of ICASSP,2012:4741-4744.

        CHAO Hao,SONG Cheng,LIU Zhizhong

        School of Computer Science and Technology,Henan Polytechnic University,Jiaozuo,Henan 454000,China

        The tone model based on articulatory features is improved in this paper,and a framework is proposed which attempts to integrate the proposed tone model into stochastic segment based Mandarin speech recognition system.A set of seven articulatory features which represent the articulatory information is given.As well as prosodic features,the posteriors of speech signal belonging to the 35 pronunciation categories of articulatory features are used for tone modeling.The tone models are fused into the SSM-based speech recognition system after second pruning according to the property of segmental models.Tone recognition experiments conducted on“863-test”set indicate that about 3.11%absolute increase of accuracy can be achieved when using new articulatory features.When the proposed tone model is integrated into SSM system,the character error rate is reduced significantly.Thus,potential of the method is demonstrated.

        speech recognition;stochastic segment modeling;tone modeling;articulatory feature;hierarchical multilayer perceptron classifiers

        提出基于發(fā)音特征的聲調建模改進方法,并將其用于隨機段模型的一遍解碼中。根據普通話的發(fā)音特點,確定了用于區(qū)別漢語元音、輔音信息的7種發(fā)音特征,并以此為目標值利用階層式多層感知器計算語音信號屬于發(fā)音特征的35個類別后驗概率,將該概率作為發(fā)音特征與傳統(tǒng)的韻律特征一起用于聲調建模。根據隨機段模型的解碼特點,在兩層剪枝后對保留下來的路徑計算其聲調模型概率得分,加權后加入路徑總的概率得分中。在“863-test”測試集上進行的實驗結果顯示,使用了新的發(fā)音特征集合中聲調模型的識別精度提高了3.11%;融入聲調信息后隨機段模型的字錯誤率從13.67%下降到12.74%。表明了將聲調信息應用到隨機段模型的可行性。

        語音識別;隨機段模型;聲調建模;發(fā)音特征;階層式多層感知器

        A

        TP391

        10.3778/j.issn.1002-8331.1404-0306

        CHAO Hao,SONG Cheng,LIU Zhizhong.Integrating tone models into speech recognition system based on articulatory feature.Computer Engineering and Applications,2014,50(23):21-25.

        國家自然科學基金(No.61300124);河南省基礎與前沿技術研究計劃資助項目(No.132300410332)。

        晁浩(1981—),男,博士,講師,研究領域為語音識別;宋成(1980—),男,博士,講師,研究領域為信息安全;劉志中(1981—),男,博士,講師,研究領域為智能計算。E-mail:chaohao@hpu.edu.cn

        2014-04-21

        2014-06-19

        1002-8331(2014)23-0021-05

        CNKI網絡優(yōu)先出版:2014-07-01,http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1404-0306.html

        猜你喜歡
        感知器基頻聲調
        語音同一認定中音段長度對基頻分析的影響
        聲調符號位置歌
        基于時域的基頻感知語音分離方法?
        火箭貯箱噴涂機器人直接示教運動感知器設計與分析
        聲調歌
        橋面鋪裝層對中小跨徑橋梁基頻影響分析
        坐著轎車學聲調
        單韻母扛聲調
        感知器在礦井突水水源識別中的應用
        AI超市
        亚洲中文字幕久久在线| 亚洲av有码在线天堂| 午夜亚洲AV成人无码国产| 亚洲欧美香港在线观看三级片 | 中文字幕在线观看国产双飞高清 | 亚洲成a人片在线观看导航| 精品久久日产国产一区| 午夜视频一区二区三区四区| 久久久久99精品成人片欧美| 性xxxx18免费观看视频| 又黄又爽又色的视频| 粉嫩高中生无码视频在线观看 | 操国产丝袜露脸在线播放| 亚洲av综合av一区| 东京热无码av一区二区| 无码国产一区二区三区四区| 韩国女主播一区二区在线观看| 国产精品av网站在线| 亚洲视频在线观看一区二区三区| 欧洲多毛裸体xxxxx| 色狠狠av老熟女| 国产目拍亚洲精品一区二区| 一本久久伊人热热精品中文| 熟女肥臀白浆一区二区| 国产美女爽到喷出水来视频| 国产男女猛烈视频在线观看| 亚洲福利天堂网福利在线观看| 少妇人妻字幕一区二区| 一本久道竹内纱里奈中文字幕| 狠狠人妻久久久久久综合蜜桃| 又爆又大又粗又硬又黄的a片| 亚欧视频无码在线观看| 国产精品综合女同人妖| 国产爆乳美女娇喘呻吟| 日本japanese少妇高清| 97色综合| 亚洲精品美女中文字幕久久| 欧美xxxx做受欧美88| 久久国产热这里只有精品| 红杏性无码免费专区| 国产精品又爽又粗又猛又黄 |