房愛東,張志偉,崔 琳,謝士春
宿州學(xué)院信息工程學(xué)院,安徽宿州,234000
語音識(shí)別(Speech Recognition)是通過對(duì)一種或多種語音信號(hào)進(jìn)行特征分析,實(shí)現(xiàn)對(duì)聲音信號(hào)匹配、辨別的技術(shù)。語音識(shí)別技術(shù)是生物識(shí)別技術(shù)的一種。因個(gè)體的聲帶、口腔、舌頭、嘴唇、軟腭、咽腔、肺容、鼻腔、牙齒等發(fā)聲控制器官各不相同,發(fā)音頻率各異,音色、音強(qiáng)、音長(zhǎng)、音高各不相同,形成獨(dú)具一格的個(gè)體語音特色[1]。這些不同要素又由90余種特征組成,共同表現(xiàn)出頻率、節(jié)奏、波長(zhǎng)、強(qiáng)度等不同聲音個(gè)性特征。世界上沒有發(fā)自兩個(gè)人的完全相同的語音,所有的聲紋都或多或少有區(qū)別,觀察描述、辨析識(shí)別這些細(xì)小差異是語音識(shí)別技術(shù)需要解決的問題。
語音識(shí)別技術(shù)是繼指紋識(shí)別技術(shù)、DNA 識(shí)別技術(shù)之后的可以進(jìn)行大面積應(yīng)用的第三種新型識(shí)別技術(shù)。目前我國(guó)科研機(jī)構(gòu)已經(jīng)能夠?qū)κ畠|級(jí)庫(kù)容的語音進(jìn)行“1:N”秒級(jí)別的檢索識(shí)別。美國(guó)貝爾實(shí)驗(yàn)室的研究報(bào)告顯示,語音識(shí)別對(duì)諸如詞語“I、YOU、HE”等單詞識(shí)別的準(zhǔn)確率可以達(dá)到96%~98%[2]。隨著人工智能技術(shù)的快速發(fā)展和廣泛應(yīng)用,語音識(shí)別的準(zhǔn)確率必定會(huì)得到大幅提升。
說話人的辨識(shí)和確認(rèn)是語音識(shí)別的兩種基本技術(shù)。對(duì)個(gè)體的語音進(jìn)行采集、建模和數(shù)化是語音識(shí)別技術(shù)的首要工作,只有采集了社會(huì)公眾的語音集合的全樣本后,在獲取個(gè)體音源語音檢材時(shí),才能夠把全樣本語音集合與個(gè)體語音樣本進(jìn)行自動(dòng)比對(duì),快速確認(rèn)個(gè)體的真實(shí)身份。語音可以進(jìn)行遠(yuǎn)程的采樣和識(shí)別,因而對(duì)個(gè)體的身份確認(rèn)具有方便快捷的優(yōu)勢(shì)。中國(guó)科技大學(xué)、清華大學(xué)、廈門大學(xué)和中科院聲學(xué)所等科研院所,已經(jīng)成功研制出識(shí)別速度快、辨識(shí)準(zhǔn)確率高的不同語音識(shí)別系統(tǒng)。目前,公安機(jī)關(guān)已經(jīng)把語音識(shí)別技術(shù)廣泛應(yīng)用于辦案過程并已取得顯著效果。
語音與人體的其他各種生物特征相似,具有唯一和不可復(fù)制性[3],世界上不存在語音完全相同的兩個(gè)個(gè)體。語音識(shí)別技術(shù)就是從個(gè)體的語音信號(hào)中提取語音特征進(jìn)行建模與數(shù)化,把全樣本語音集合與個(gè)體語音樣本進(jìn)行自動(dòng)比對(duì)進(jìn)而進(jìn)行身份識(shí)別等的判斷 ,語音識(shí)別系統(tǒng)原理如圖1所示。
圖1 語音系統(tǒng)原理圖
2.2.1 預(yù)處理模塊
把采集到的模擬語音信號(hào)轉(zhuǎn)換為數(shù)字語音信號(hào),這是進(jìn)行語音識(shí)別的第一步。采集語音信號(hào)、進(jìn)行A/D(模/數(shù))轉(zhuǎn)換是預(yù)處理模塊的主要功能,語音識(shí)別系統(tǒng)預(yù)處理模塊同時(shí)具有波形編輯處理功能和(D/A轉(zhuǎn)換)回放功能。
2.2.2 參數(shù)分析模塊
提取語音參數(shù),語音參數(shù)的提取要能準(zhǔn)確地反映個(gè)體的發(fā)音特征。經(jīng)過比較、分析若干種語音參數(shù)在辨識(shí)個(gè)體語音辨識(shí)率有效性基礎(chǔ)上,在參數(shù)分析模塊TDSI系統(tǒng)中使用音調(diào)曲線、偏相關(guān)和音長(zhǎng)參數(shù)作為個(gè)體語音特征參數(shù),在參數(shù)分析模塊TISI系統(tǒng)中加入正交線性預(yù)測(cè)參數(shù)和長(zhǎng)時(shí)間平均譜作為個(gè)體語音的特征參數(shù)[4]。
2.2.3 訓(xùn)練模塊
把所提取的語音參數(shù)作為個(gè)體建立訓(xùn)練模塊。因?yàn)闇y(cè)試語音的時(shí)間長(zhǎng)度與訓(xùn)練語音的時(shí)間長(zhǎng)度有差異。本文在訓(xùn)練模塊TDSI系統(tǒng)中應(yīng)用線性壓擴(kuò)技術(shù),把訓(xùn)練語音調(diào)整到15幀(0.02秒/幀);在訓(xùn)練模塊TISI系統(tǒng)中應(yīng)用長(zhǎng)時(shí)間平均技術(shù),把訓(xùn)練語音調(diào)整到1幀(0.02秒/幀)。
2.2.4 識(shí)別模塊
把模板庫(kù)中的語音模板和被測(cè)試語音進(jìn)行比對(duì),應(yīng)用模板匹配技術(shù),依據(jù)“最佳鄰近準(zhǔn)則”鎖定與測(cè)試語音相匹配的個(gè)體。本文在語音識(shí)別系統(tǒng)識(shí)別模塊中應(yīng)用了參數(shù)加權(quán)歐氏距離聚類方法,計(jì)算出被測(cè)試語音和模板中語音之間的距離(表征近似程度的數(shù)學(xué)參量),在識(shí)別模塊TISI系統(tǒng)中應(yīng)用多階段識(shí)別策略,即率先在庫(kù)中粗識(shí)別,遴選出N個(gè)相似度高的個(gè)體語音,進(jìn)而在N個(gè)個(gè)體內(nèi)進(jìn)行細(xì)識(shí)別,最終篩選出最高相似度的個(gè)體語音。
特征參數(shù)是用來對(duì)物質(zhì)和現(xiàn)象特性進(jìn)行表征的參數(shù)信息。在日常言語中 ,每個(gè)人的語音特征和言語習(xí)慣等信息是獨(dú)具特色的,可提取這些參數(shù)并對(duì)語音進(jìn)行歸類分析。因?yàn)槊總€(gè)個(gè)體的語音參數(shù)具有穩(wěn)定性和難以更改性,即便所在地點(diǎn)場(chǎng)景不同、時(shí)間跨度不同,被分析者的這些被提取的語音參數(shù)也不會(huì)發(fā)生變化。因而語音特征參數(shù)能夠完全有別于其他人,確保了身份識(shí)別的正確性。語音分析中有如下幾種方法用于語音參數(shù)的提取[5]。
(1)語音頻譜。用語音頻譜描繪被提取個(gè)體的生理結(jié)構(gòu),主要體現(xiàn)在每個(gè)人的發(fā)聲器官上。個(gè)體的發(fā)聲器官在醫(yī)學(xué)構(gòu)造上沒有完全相同的,具有獨(dú)一無二的特性?;A(chǔ)發(fā)聲器官以鼻腔、氣管和聲道等為主,基于個(gè)體的基礎(chǔ)發(fā)聲器官來提取這些參數(shù),對(duì)這些參數(shù)進(jìn)行分類、篩選進(jìn)而捕捉測(cè)量個(gè)體的語音短時(shí)頻譜特征。通過對(duì)這些數(shù)據(jù)的分析可以找到被測(cè)個(gè)體的發(fā)聲激勵(lì)源及發(fā)音生理結(jié)構(gòu),找到有別于其他個(gè)體其生理器官的特性。被測(cè)個(gè)體的語音習(xí)慣性動(dòng)作是短時(shí)頻譜及其基本輪廓重點(diǎn)關(guān)注的兩個(gè)方面。
(2)線性預(yù)測(cè)。語音參數(shù)的線性預(yù)測(cè)是基于“過去”的一些語音抽樣,運(yùn)算“當(dāng)前”的語音參數(shù)是在數(shù)學(xué)模型基礎(chǔ)進(jìn)行的,通過這種方式獲取的語音參數(shù)用于運(yùn)算語音特征。提高運(yùn)算效率、降低實(shí)現(xiàn)成本完全可通過帶有預(yù)測(cè)性質(zhì)的運(yùn)算來完成,表現(xiàn)一種特殊的語音不需要很多的參數(shù)就能實(shí)現(xiàn)。
(3)小波特征。小波特征參數(shù)通過運(yùn)用小波技術(shù)獲取語音特征信息。能夠接受分辨率的改變是小波技術(shù)的優(yōu)點(diǎn),小波技術(shù)要求語音參數(shù)穩(wěn)定性交叉,但能夠和時(shí)頻域兼容表征。目前小波特征技術(shù)已非常成熟,能夠準(zhǔn)確快捷地獲取被測(cè)個(gè)體的語音特征信息,得到廣泛應(yīng)用。
基于在已經(jīng)獲取被測(cè)個(gè)體語音特征參數(shù)基礎(chǔ)上做更進(jìn)一步的深度分析與精確判斷是模式匹配識(shí)別需要完成的工作。模式匹配識(shí)別是一種比對(duì)操作:把沒有識(shí)別處理的語音特征參數(shù)與模型庫(kù)中的語音特征參數(shù)進(jìn)行比照。對(duì)比結(jié)果以相似度的高低形式標(biāo)示,相似度距離以數(shù)據(jù)或表格形式呈現(xiàn)。相似度距離有一個(gè)范圍,把相似度距離合適的一個(gè)值作為門限值,以此篩選出最佳結(jié)果,最后的結(jié)果由語音識(shí)別系統(tǒng)輸出[6-7]。目前常見的較為成熟的模式匹配識(shí)別判斷有兩種模型。
(1)矢量化模型。通過對(duì)語音參數(shù)建立矢量,對(duì)被檢測(cè)個(gè)體的語音特征進(jìn)行矢量化處理。如需對(duì)被檢測(cè)人語音特征進(jìn)行識(shí)別,把被檢測(cè)個(gè)體語音特征參數(shù)處理成可以表示個(gè)人信息的語音矢量并提供相應(yīng)的語音規(guī)范標(biāo)準(zhǔn)。
(2)隨機(jī)模型。一個(gè)人的語音在不同地點(diǎn)和環(huán)境下是變化的,其變化范圍和變化的概率大小具有不確定性,需要建立隨機(jī)模型,隨機(jī)模型把被檢測(cè)個(gè)體的語音參數(shù)集中歸類建立語音參數(shù)模型,在建立語音參數(shù)模型時(shí)充分考慮到傳輸概率、轉(zhuǎn)移概率等因素。在訓(xùn)練過程中獲取狀態(tài)轉(zhuǎn)移概率矩陣、符號(hào)輸出概率矩陣等。當(dāng)被檢測(cè)個(gè)體的語音信息發(fā)生狀態(tài)轉(zhuǎn)移時(shí),系統(tǒng)能及時(shí)識(shí)別語音信息發(fā)生狀態(tài)轉(zhuǎn)移時(shí)的最大概率,從而對(duì)該被檢測(cè)人的語音模型做進(jìn)一步分析判斷。
構(gòu)建語音識(shí)別模型,通過語音識(shí)別系統(tǒng)對(duì)語音進(jìn)行識(shí)別如圖2所示。語音識(shí)別過程分為以下若干步驟:
(1)對(duì)采集的原始聲音做相應(yīng)技術(shù)處理,例如分幀、預(yù)加重、加窗等;
(2)計(jì)算梅爾頻率倒譜系數(shù),輸入特征矩陣I(n×r),r為幀數(shù);
(3)通過深度神經(jīng)網(wǎng)絡(luò)進(jìn)行逐層前向計(jì)算,得到輸出矩陣O(m×r);
(4)找到輸出矩陣中列向量的最大輸出概率值,構(gòu)建含有r個(gè)元素的馬爾科夫鏈Hr=(h1,h2,...,hr);
(5)將上述步驟中得到的Hr值輸入語音識(shí)別模型,然后對(duì)語音識(shí)別模型進(jìn)行分析,進(jìn)而確定最高概率的對(duì)應(yīng)路徑以獲得相關(guān)文字信息,最后將識(shí)別結(jié)果輸出。
圖2 語音識(shí)別系統(tǒng)
實(shí)驗(yàn)共采用4個(gè)實(shí)驗(yàn)組,每個(gè)實(shí)驗(yàn)組含測(cè)試樣本1個(gè)、待匹配樣本20個(gè)。在每個(gè)實(shí)驗(yàn)組的20個(gè)待匹配樣本中,其有1個(gè)來自于和本組測(cè)試樣本來源相同的說話人的語音采樣,其余19個(gè)均為不同的說話人提供的語音樣本。實(shí)驗(yàn)使用深層循環(huán)神經(jīng)網(wǎng)絡(luò)與混合高斯隱馬爾科夫模型相結(jié)合的混合模型(圖3)進(jìn)行語音識(shí)別。獲得語音的特征值后,通過深層循環(huán)神經(jīng)網(wǎng)絡(luò)把語音特征值接近純語音。隨后把深層循環(huán)神經(jīng)網(wǎng)絡(luò)輸出的語音特征值輸入到混合高斯分布的隱馬爾科夫模型進(jìn)行比對(duì),得出最終識(shí)別結(jié)果。
圖3 混合模型結(jié)構(gòu)
采用DNN-HMM混合語音識(shí)別模型與GMM-HMM傳統(tǒng)語音識(shí)別模型對(duì)語音識(shí)別的準(zhǔn)確率進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表1所示。由表1數(shù)據(jù)得出結(jié)論,DNN-HMM語音識(shí)別系統(tǒng)對(duì)于單個(gè)詞語進(jìn)行識(shí)別的準(zhǔn)確率達(dá)到96.6%,而GMM-HMM語音識(shí)別系統(tǒng)則僅有 79.8%,前者的識(shí)別質(zhì)量明顯高于后者,其他情況下也有相近結(jié)論。但在個(gè)別條件下,例如有噪聲干擾時(shí),DNN-HMM語音識(shí)別系統(tǒng)的識(shí)別率不足80%,需要不斷研究提高。
表1 DNN-HMM語音識(shí)別模型與GMM-HMM實(shí)驗(yàn)對(duì)比
基于人工智能的語音識(shí)別系統(tǒng)對(duì)語音信號(hào)進(jìn)行分析處理,通過具有自主性的演算,精準(zhǔn)地提取特征參數(shù)并識(shí)別篩選出精確的語音特征數(shù)據(jù),誤差小精確度高,經(jīng)提取分析處理的語音特征的可靠性更高、可利用性更強(qiáng)。于人工智能的語音識(shí)別系統(tǒng)對(duì)在語音信息進(jìn)行識(shí)別處理過程中出現(xiàn)的差錯(cuò)能通過人工計(jì)算與人工智能自行糾正并加以改進(jìn),智能語音識(shí)別的出錯(cuò)率降低、容錯(cuò)率上升,具有廣闊的發(fā)展、應(yīng)用空間。因此,智能語音識(shí)別系統(tǒng)相較于傳統(tǒng)語音識(shí)別系統(tǒng)具有無法比擬的優(yōu)點(diǎn),而且智能語音識(shí)別系統(tǒng)的技術(shù)發(fā)展難度比傳統(tǒng)語音識(shí)別系統(tǒng)明顯降低,未來可以通過人工智能和語音識(shí)別系統(tǒng)的進(jìn)一步融合 ,進(jìn)一步增強(qiáng)智能語音識(shí)別系統(tǒng)的功能,拓展其應(yīng)用領(lǐng)域。