陳 斌,張連海,牛 銅,王 波
(解放軍信息工程大學 信息工程學院,河南 鄭州 450002)
新一代的語音識別系統(tǒng)框架[1]是以知識為基礎(chǔ)并結(jié)合統(tǒng)計模型,來模擬人認知語音的過程。在該框架下,知識的獲取顯得尤為重要。目前語音知識獲取主要是聲學單元類別和邊界信息的獲取。作為漢語語音識別中的基本聲學單元,聲韻母類別和邊界信息的準確獲取,是新一代漢語語音識別系統(tǒng)的關(guān)鍵。
由于響音(元音韻母、鼻音)對表意有著重要作用,因此,有不少學者對響音的分類和定位進行研究[2-3]。其中,基于Seneff聽覺模型的檢測系統(tǒng)較好地實現(xiàn)了聲韻母邊界的檢測與響音定位。鼻音作為響音的重要組成部分,發(fā)音過程會有部分氣流經(jīng)由鼻腔向外輻射,在頻譜上表現(xiàn)為存在一個零點,其聲學特性與元音韻母有較大的差異,難以用相同的聲學特征參數(shù)和模型結(jié)構(gòu)對鼻音和元音韻母進行描述。同時鼻音和元音韻母的準確分類將提高語音識別、編碼和合成系統(tǒng)的性能,因此,進一步將響音分為鼻音和元音韻母具有重要的意義。
目前對鼻音的檢測主要是根據(jù)鼻音的發(fā)音特征[4-5](發(fā)音位置,發(fā)音方式等)、音素配位學[6-7](phonological)和能量變化率、譜峰位置、起始和結(jié)束能量值等能量特征[8],以及采用合適的模型對特征進行描述如SVM和條件隨機場CRF等?,F(xiàn)有的鼻音檢測系統(tǒng)[9]會引入較多的插入錯誤,有的插入錯誤數(shù)與真正標記個數(shù)的比值甚至達到2∶1。
本文主要從能量分布和共振峰結(jié)構(gòu)信息對鼻音特性進行刻畫,實現(xiàn)鼻音的檢測。在基于Seneff聽覺模型檢測系統(tǒng)的基礎(chǔ)上,進一步從響音中實現(xiàn)鼻音和元音韻母的分類識別,檢測系統(tǒng)如圖1所示。在保證較高正確率的前提下,盡可能的去除插入錯誤,提高準確率。即先建立鼻音分類模型,從響音中檢測出候選的鼻音,保證較高地檢測正確率,然后對鼻音檢測結(jié)果進行后處理,有效地去除插入錯誤。
圖1 鼻音檢測系統(tǒng)圖
Seneff聽覺模型[10-11]由40個臨界頻帶濾波器組組成,能較好地模擬人耳對語音的聽覺處理過程,描述聽覺神經(jīng)飽和、自適應(yīng)調(diào)適、掩蔽,對電流感應(yīng)的單向性,易受低頻周期信號激發(fā)等特性。將Seneff聽覺感知模型的輸出稱為Seneff聽覺譜,能夠較好地描述音素的能量分布特性和共振峰結(jié)構(gòu)。Seneff聽覺譜由兩部分組成:包絡(luò)響應(yīng)ED和同步響應(yīng)GSD,ED凸顯語音信號中變化劇烈區(qū)域的開始與結(jié)束,GSD則突出共振峰結(jié)構(gòu)。由于GSD的求解過程是直接對每個通道的GSDi求平均,會導致頻域分辨率降低,同時出現(xiàn)偽峰值。為了避免上述問題,增強共振峰提取的可靠性,Ali[12-13]提出了平均局部同步輸出ALSD。
從語譜圖上可知,鼻音[14]在低頻處有明顯的共振峰,其第一個共振峰是位于頻率較低處,大約在200Hz~400Hz之間,800Hz以上的能量將大幅衰減。從信號與系統(tǒng)的觀點上來看,傳統(tǒng)的全極點模型并不適合于描述鼻音,因為口腔與鼻腔的結(jié)合處會在頻譜上產(chǎn)生零點,此零點也將造成鼻音在第一個共振峰以上的能量有大幅的衰減。因此鼻音與元音韻母的主要區(qū)別為鼻音能量集中在低頻處,中高頻帶能量大幅衰減,譜峰位置主要位于低頻處,整個發(fā)音持續(xù)過程中譜峰位置平均值會比較小,元音韻母在中高頻帶也有能量的分布,全頻帶能量較大。以下特征參數(shù)的提取都是基于Seneff聽覺譜特征和聲韻母邊界檢測后兩邊界點之間的音段(segment based),得到整個音段的能量分布和共振峰結(jié)構(gòu)特性?;谏鲜龇治?,本文選取歸一化全頻帶ALSD、ED,中高頻帶ALSD、ED,ED譜重心、ALSD平均最大譜峰值位置特征。
歸一化全頻帶ED:
歸一化全頻帶ALSD:
歸一化中高頻帶ED:
歸一化中高頻帶ALSD:
歸一化ED譜重心:
ALSD平均最大譜峰值位置:
式中i=1,…,40為聽覺模型通道值,j=1,…,n為每一通道的輸出,J為單元的持續(xù)時間。
對響音的各音段提取上述特征,組成一個特征矢量作為輸入,具有良好模型區(qū)分能力的支持向量機(SVM)作為分類器,進行響音的檢測分類,得到候選的鼻音。這一過程能較好地保證鼻音檢測正確率,需要進一步提高鼻音檢測的準確率。
由于檢測到的鼻音會引入較多的插入錯誤,需要對檢測結(jié)果進行后處理予以去除,這里主要需要去除的是邊音/l/、摩擦音/r/和發(fā)音能量微弱的元音韻母。由于這三類的能量都主要位于低頻帶,具有較為明顯的共振峰結(jié)構(gòu),全音段能量不大,易與鼻音音段混淆。本文根據(jù)音段持續(xù)時間、前端韻母能量、高低頻能量差、中低頻能量比的差異,進一步實現(xiàn)易混音段和鼻音音段的區(qū)分,依次對候選鼻音進行確認,后處理流程圖如圖2所示。
圖2 后處理流程圖
鼻音一般都有較長的音段持續(xù)時間,而大多數(shù)發(fā)音能量微弱的元音韻母和邊音/l/的持續(xù)時間都比較小,音段持續(xù)時間Dura為邊界檢測結(jié)束點end與起始點start之差,即Dura=end-start。候選鼻音中音段持續(xù)時間Dura大于門限值ThDura的語音音段則再進行下一過程的確認,這一過程能較為有效地去除發(fā)音能量微弱的元音韻母和邊音。
2011年江西省評選的第六屆特級教師共233名,本研究隨機抽取其中150人為被試,回收有效問卷116份。隨機抽取江西省上饒市中小學普通教師246人為比較被試,回收有效問卷197份。特級教師中,男62人,女54人;小學教師46人,初中教師25人,高中教師45人。普通教師中,男106人,女91人;小學教師48人,初中教師34人,高中教師115人。
由于鼻音前端大多會接聲學特性較為明顯的元音韻母,并且正常發(fā)音的元音韻母會有一定的中高頻帶能量值,因此鼻音前端相鄰韻母會有較大的中高頻能量。若是因發(fā)音能量較低而誤檢測為鼻音的元音韻母,由于發(fā)音具有連續(xù)性和平穩(wěn)性,其前端相鄰的韻母能量也會偏低。兩者1 200Hz以上的能量會存在較大的差異,這里采用歸一化20通道以上的ED能量BMED進行描述,為了去除協(xié)同發(fā)音和邊界檢測誤差對能量求解的影響,能量計算的起始點和結(jié)束點分別后移和前移1/8的音段長度,如圖3所示,即
圖3 前端相鄰韻母能量計算示意圖
候選鼻音中前端韻母BMED值大于門限值ThBM的語音音段則再進行下一過程的確認,這一過程對去除發(fā)音能量微弱的元音韻母具有較好的效果。
邊音/l/存在較為明顯的第一共振峰,400Hz以上的頻率基本沒有能量分布,而鼻音在400Hz~800Hz還有部分能量分布,因此兩者400Hz頻率以下能量與400Hz~800Hz能量的比值MLRED會存在較大的差異,即
候選鼻音中能量比MLRED大于門限值ThMLR的語音音段則再進行下一過程的確認,這一過程能進一步較為有效地去除邊音/l/。
摩擦音/r/由于發(fā)音時受到阻礙屬于阻塞音,在高頻帶有大量的能量分布。而鼻音在低頻帶有較大的能量值會大于/r/音,在1 200Hz以上分布著很小的能量,因而采用ED高低頻帶能量差HLDED能夠較好的進行區(qū)分,即
候選鼻音中能量差HLDED大于門限值ThHLD的語音音段為鼻音,這一過程能有效地去除摩擦音/r/。經(jīng)過上述后處理過程,能較為有效地去除插入錯誤。
隨機從微軟語料庫Speech Corpora(Version 1.0)中截取35段連續(xù)語流作為實驗語料,聲韻母共有521個,其中有鼻音250個,非鼻音271個。語音的采樣頻率為16KHz,量化精度16bit,人工進行聲韻母的邊界和響音標注。對檢測結(jié)果的評估采用語音識別的評估方式進行。實際檢測單元的總數(shù)記為N,正確檢測單元的總數(shù)記為H,刪除錯誤的總數(shù)記為D,插入錯誤的總數(shù)記為I。正確率和準確率定義如式(10)和(11)[15]:
表1為基于聽覺譜特征構(gòu)成的特征向量,采用SVM分類器得到的鼻音檢測性能。表中正確個數(shù)H為算法檢測出來的正確的鼻音個數(shù),插入個數(shù)I為算法檢測出來的非鼻音的個數(shù),刪除個數(shù)D為算法沒有檢測出來的鼻音個數(shù), 并且H+I=250。從表中可以看出采用所提特征參數(shù)和分類器可以得到較高的正確率,由于存在較多的插入錯誤,使得準確率較低。對插入錯誤進行進一步觀察和分析,可知插入錯誤主要是由濁輔音/l/、/r/和有時發(fā)音能量微弱的元音韻母/u/、/i/等引起的,因為它們都是濁音在低頻帶有較多的能量分布、譜峰位置和譜重心位于低頻處與鼻音有較大的相似性。特征矢量中含有描述譜重心、最大譜峰位置和全頻帶能量的分量,因此會引入較多的插入錯誤,需要對檢測結(jié)果進行后處理,有效地去除插入錯誤。
表1 基于支持向量機的鼻音檢測結(jié)果
鼻音檢測后處理階段各門限值的選擇是去除插入錯誤提高鼻音檢測準確率的關(guān)鍵。門限值設(shè)立的太大將會帶來刪除錯誤,門限值設(shè)立的太小將不能有效地去除插入錯誤,因此需要討論后處理各過程門限值對鼻音檢測性能的影響,以便選取合適的門限值。圖4為鼻音檢測準確率和正確率與門限值選取的變化關(guān)系。圖中的正確率與準確率分別為絕對變化量,即為經(jīng)過后處理各過程得到的正確率和準確率與基于SVM得到的正確率和準確率之差。
圖4(a)為不同的ThDura下的檢測結(jié)果比較??梢钥吹?,ThDura選擇在80ms較為合理。圖4(b)為不同ThBM下的檢測結(jié)果比較??梢钥吹剑琓hBM選擇在0.2較為合理。圖4(c)為不同ThMLR下的檢測結(jié)果比較。可以看到,ThMLR選擇在1.2較為合理。圖4(d)為不同ThHLD下的檢測結(jié)果比較。可以看到,ThHLD選擇在0.1較為合理。表2為對鼻音檢測結(jié)果依次進行各過程的處理后正確率、準確率、正確個數(shù)、插入個數(shù)和刪除個數(shù)的變化過程。其中ThDura=80ms,ThBM=0.2,ThMLR=1.2,ThHLD=0.1。
圖4 檢測性能隨門限值的變化
表2 經(jīng)過后處理的檢測性能
由表2可知經(jīng)過后處理能在保證較高正確率的基礎(chǔ)上,有效地去除插入錯誤,提高準確率。后處理所采用的特征參數(shù)能刻畫易混音段與鼻音的差異,具有良好的區(qū)分特性,各過程都能較好地提高檢測性能,且提高的性能相當,能起到互補的作用。通過對剩下的幾個插入錯誤進行分析,得知這四個韻母鼻音化的程度較高,聲學性質(zhì)與鼻音非常類似。由實驗結(jié)果可知,本文所采用的鼻音檢測框架是合理的。
目前常用的鼻音檢測方法[8]是基于中、低頻帶能量特征,該方法先對語音信號進行短時傅氏變換得到寬帶語譜,然后根據(jù)語譜求得中、低頻帶的能量特征,其中低頻帶能量是指150Hz~1 000Hz頻帶的能量,中頻帶能量是指1 000Hz~3 000Hz頻帶的能量。表3為本文方法與基于中、低頻帶能量的鼻音檢測方法的性能比較。
表3 不同鼻音檢測方法檢測性能
由表3可知本文方法與常用的基于中、低頻帶能量的鼻音檢測算法相比正確率略有提高,但能較為明顯地提高檢測準確率。因為發(fā)音能量微弱的元音韻母和摩擦音/r/,在150Hz~1 000Hz和 1 000Hz~3 000Hz 這兩個頻帶上也有著與鼻音類似的特性,這種檢測算法會引入較多的插入錯誤,降低檢測準確率。本文方法通過分析易與鼻音相混的聲韻母能量分布和共振峰結(jié)構(gòu)特性,采用后處理對插入錯誤進行了去除,提高了鼻音檢測的準確率。
為了進一步驗證鼻音檢測算法的抗噪聲性能,對本文確立的鼻音檢測方法進行魯棒性測試,表4為測試結(jié)果。
表4 鼻音檢測魯棒性測試結(jié)果
由表4可知,噪聲對鼻音檢測性能有較大影響,但在信噪比為10dB的環(huán)境下,本文算法的準確率仍能達到84.4%,說明本文鼻音檢測算法具有較好的魯棒性。這主要是由于Seneff聽覺模型本身具有較好的抗噪聲性能,且鼻音的能量分布和共振峰特性具有較好的穩(wěn)定性,因此能較好地保證檢測性能。在頻譜上能量分布較為均勻的噪聲,對能量分布和共振峰參數(shù)的影響較小,對鼻音檢測性能影響不大,反之,噪聲能量在頻譜上分布不均勻,會給檢測性能帶來較大的影響。因此白噪聲對檢測性能影響最小,粉紅噪聲對檢測性能影響最大。
本文基于Seneff聽覺譜特征提取了一組描述共振峰和能量分布的特征參數(shù),實現(xiàn)了鼻音的檢測。采用了一種先保證檢測準確率再提高準確率的檢測框架,并通過實驗驗證了這種框架對鼻音檢測的合理性。經(jīng)過魯棒性測試,得知本文方法在鼻音檢測上的有效性,能為后續(xù)的語音系統(tǒng)提供較為穩(wěn)定的鼻音類別和邊界信息。由于鼻音聲母與鼻音韻尾不可避免的會對相鄰元音韻母進行影響形成鼻化元音,同時相鄰的聲韻母也會對鼻音進行影響產(chǎn)生去鼻化現(xiàn)象,降低鼻音檢測性能。如何有效地檢測鼻化元音和去鼻化鼻音以及對鼻化和去鼻化程度進行量化,進一步提高鼻音檢測的準確率是值得后續(xù)研究的。
[1]Chin-Hui.Lee.From knowledge-ignorant to knowledge-rich modeling:A new speech research paradigm for next generation automatic speech recognition[C]//Proceedings of ICSLP Keynote speech,2004.
[2]S.R.Mahadeva Prasanna,B.V.Sandeep Reddy,P.Krishnamoorthy.Vowel onset point detection using source,spectral peaks and modulation spectrum energies[J].IEEE Transactions on Audio,Speech and Language Processing,2009,17(4):556-565.
[3]Almpanidis G.,Kotti M.,Kotropoulos C..Robust Detection of Phone Boundaries Using Model Selection Criteria With Few Observations[J].IEEE Transactions on Audio,Speech,and Language Processing,2009,17(2):287-298.
[4]K.Y.Leung,M.Siu.Speech Recognition Using Combined Acoustic and Articulatory Information with Retraining of Acoustic Model Parameters[C]//Proceedings of ICSLP 2002,3:2117-2120.
[5]M.Hasegawa-Johnson,J.Baker,S.Borys,et.al.Landmark-based speech recognition:Report of the 2004 Johns Hopkins summer workshop[C]//Proceedings of ICASSP,2005:213-216.
[6]J.Morris,E.Fosler-Lussier.Further experiments with detector-based conditional random fields in phonetic recognition[C]//Proceedings of ICASSP,April,2007.
[7]Carla Lopes,Fernando Perdig?o.A Hierarchical Broad-class Classification to Enhance Phoneme Recognition[C]//Proceedings of European Signal Processing Conference,2009,1760-1764.
[8]Limin Du,Kenneth Noble Stevens.Automatic Detection of Landmark for Nasal Consonants from Speech Waveform[C]//Proceedings of ICSLP 2006.
[9]Sarah E.Borys.An SVM Front-end Landmark Speech Recognition System[M].University of Illinois,2008.
[10]Stephanie Seneff.A joint synchrony/mean-rate model of auditory speech processing [J].Journal of Phonetics,1988,16:55-76.
[11]Stephanie Seneff.Pitch and Spectral Analysis of Speech Based on an Auditory Synchrony Model[M].Cambridge,Massachusetts Institute of Technology,1985.
[12]Ahmed M.Abdelatty Ali.Auditory-Based Speech Processing Based on the Average Localized Synchrony Detection [C]//Proceedings of Acoustic Speech and Signal Processing (ICASSP),2000,3:1623-1626.
[13]Ahmed M.Abdelatty Ali,Jan Van der Spiegel,Paul Mueller.Robust Auditory-Based Speech Processing Using the Average Localized Synchrony Detection[J].IEEE Transaction on Signal and Audio Processing,2001,10:279-292.
[14]語音與語言學詞典[M].上海:上海辭書出版社,1981.
[15]Steve Young.The HTK Book(for HTK Version 3.4)[M].Cambridge University Engineering Department,2006:289.