陳擁權 李建中 鄭榮穩(wěn) 魯加旺
合肥寰景信息技術有限公司
?
連續(xù)語音識別技術及其應用前景分析
陳擁權 李建中 鄭榮穩(wěn) 魯加旺
合肥寰景信息技術有限公司
摘要:連續(xù)語音識別技術,是集語音處理、模式識別、句法和語義分析于一體的綜合性語音處理技術,能夠識別任意的連續(xù)語音,如一個句子或一段話,大大提高了語音交互的連續(xù)性和體驗度,是語音識別技術的核心之一。本文介紹了連續(xù)語音識別技術的研究現(xiàn)狀及幾種常見的技術方法,并且分析探討了連續(xù)語音識別技術的應用和發(fā)展前景。
近期,語音識別在移動終端上的應用最為火熱,語音對話機器人、語音助手、互動工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財力展開此方面的研究和應用,目的是通過語音交互的新穎和便利模式迅速占領客戶群。但是,面向個人用途的連續(xù)語音聽寫仍然面臨極大的技術挑戰(zhàn),尤其是對自然語言的識別和理解,因此連續(xù)語音識別技術及其應用的研究迫在眉睫。本文介紹了連續(xù)語音識別技術的研究現(xiàn)狀及幾種常見的技術方法,并且分析探討了連續(xù)語音識別技術的應用和發(fā)展前景。
(1)單詞切分難點:連續(xù)語音句子中各單詞的發(fā)音之間通常是沒有停頓的,即各單詞之間不存在明顯的邊界。
(2)發(fā)音變化難點:連續(xù)語音中各單詞的發(fā)音通常都比較自然和隨便,因而,各單詞受協(xié)同發(fā)音的影響也更為嚴重。
(3)連續(xù)單詞語音識別難點:單詞序列的長度未知;單詞序列中各單詞之間的邊界未知;當給定M個單詞參考模式和L長的待識語音模式時,就可能有ML種組合的匹配序列。
3.1技術核心:聲學模型 (HMM)和語言模型 (N-gramm)
聲學模型是語音識別系統(tǒng)中最為重要的部分之一,目前的主流系統(tǒng)多采用隱馬爾科夫模型進行建模。隱馬爾可夫模型的概念是一個離散時域有限狀態(tài)自動機,隱馬爾可夫模型HMM是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見,外界只能看到各個時刻的輸出值。
語言模型是一個單純的、統(tǒng)一的、抽象的形式系統(tǒng),語言客觀事實經(jīng)過語言模型的描述,比較適合于電子計算機進行自動處理,因而語言模型對于自然語言的信息處理具有重大的意義。
3.2基本思路
連續(xù)語音識別系統(tǒng)的參考模式由孤立單詞的參考模式按時間順序動態(tài)接續(xù)組合而成,識別系統(tǒng)把待識連續(xù)單詞語音和被接續(xù)起來的單詞模式序列進行匹配比較,距離最短的單詞參考模式之序列就為識別結(jié)果。
圖2 連續(xù)單詞的語音識別過程
3.3典型技術解決方案
連續(xù)語音句子中每個單詞發(fā)音沒有明顯的界限,分割比較困難。目前比較典型的技術解決方案是:基于隱馬爾可夫模型(Hidden Markov Model,HMM)的連續(xù)語音識別系統(tǒng)。
3.1 術前心理護理的效果 患者術前常易產(chǎn)生恐懼心理,緊張情緒增加患者心理壓力,護士應與患者在泌尿外科微創(chuàng)術前進行心理疏導與溝通,講解微創(chuàng)手術的優(yōu)越性及各種導管的性能作用,取得患者積極配合,避免因情緒波動致血壓升高等而影響手術。
該識別系統(tǒng)在訓練過程中采用逐步細化的建模過程,先建立單音素的HMM,然后考慮音素上下文,擴展到三音素HMM,最后進行狀態(tài)捆綁,還可逐步增加混合高斯變量數(shù)目,最終得到魯棒性較高的連續(xù)語音識別HMM。
圖3 基于HMM的連續(xù)語音識別系統(tǒng)架構圖
4.1兩級DP法 (Two-Level Dynamic Programming)
計算任意起始幀b和終止幀e之間的最佳累計距離D(b, e)
4.2分層構造法 (Level Building)
使用HMM的概率參數(shù)來對似然函數(shù)進行估計與判決,從而得到結(jié)果。
目前語音信號處理技術的發(fā)展方向及研究熱點主要體現(xiàn)在以下幾個方面。
5.1語音識別單元的選取
5.2特征參數(shù)提取技術
對語音信號進行分析處理,去除對語音識別無關緊要的冗余信息,獲得影響語音識別的重要信息。Mel參數(shù)和基于感知線性預測(PLP)分析提取的感知線性預測倒譜,應用了人耳聽覺感知方面的研究成果。實驗證明,采用這種技術,語音識別系統(tǒng)的性能有一定提高。
5.3模式匹配及模型訓練技術
語音識別所應用的模式匹配和模型訓練技術主要有動態(tài)時間歸正技術(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(ANN)。
DTW是較早的一種模式匹配和模型訓練技術,在孤立詞語音識別中獲得了良好性能。但因其不適合連續(xù)語音大詞匯量語音識別系統(tǒng),目前已被HMM模型和ANN替代。
HMM模型是語音信號時變特征的有參表示法。HMM模型的訓練和識別都已研究出有效的算法,并不斷被完善,以增強HMM模型的魯棒性。
人工神經(jīng)元網(wǎng)絡在語音識別中的應用是現(xiàn)在研究的又一熱點。其本質(zhì)上是一個自適應非線性動力學系統(tǒng),模擬了人類神經(jīng)元活動的原理,具有自學、聯(lián)想、對比、推理和概括能力。
目前的研究熱點是將 HMM 和 ANN 二者的優(yōu)點有機結(jié)合起來,從而提高整個模型的魯棒性。
連續(xù)語音識別技術的應用主要是大詞匯量連續(xù)語音識別系統(tǒng),可應用于計算機的聽寫機,以及與電話網(wǎng)或者互聯(lián)網(wǎng)相結(jié)合的語音信息查詢服務系統(tǒng),而這些系統(tǒng)都是在計算機平臺上實現(xiàn)的。
6.1個人數(shù)字助理
個人數(shù)字助理(Personal Digital Assistant,PDA)的語音交互界面。PDA的體積很小,人機界面一直是其應用和技術的瓶頸之一。現(xiàn)在業(yè)界一致認為,PDA的最佳人機交互界面是以語音作為傳輸介質(zhì)的交互方法,并且已有少量應用。隨著語音識別技術的提高,可以預見,在不久的將來,語音將成為PDA主要的人機交互界面。
6.2家電遙控
用語音可以控制電視機、VCD、空調(diào)、電扇、窗簾的操作,而且一個遙控器就可以把家中的電器皆用語音控起來,這樣,可以讓令人頭疼的各種電器的操作變得簡單易行。
6.3汽車的語音控制
在汽車的行駛過程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語音撥號功能的免提電話通信方式。此外,對汽車的衛(wèi)星導航定位系統(tǒng)(GPS)的操作,汽車空調(diào)、照明以及音響等設備的操作,同樣也可以由語音來方便的控制。
6.4智能玩具
通過語音識別技術,我們可以與智能娃娃對話,可以用語音對玩具發(fā)出命令,讓其完成一些簡單的任務,甚至可以制造具有語音鎖功能的電子看門狗。智能玩具有很大的市場潛力,而其關鍵在于降低語音芯片的價格。
除了上述應用以外,連續(xù)語音識別技術在其他方面的應用可以說是不勝枚舉,將給人們的工作和生活帶來極大的方便。
國家科技支撐計劃,網(wǎng)絡社區(qū)語音互動服務關鍵支撐技術研發(fā),2012BAH95F01
參考文獻
[1]黃浩,朱杰,哈力旦.漢語語音識別中的區(qū)分性聲調(diào)建模方法[J].計算機工程與應用.2009(11)
[2]倪崇嘉,劉文舉,徐波.漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進展[J].中文信息學報.2009(01)
[3]李凈,鄭方,張繼勇,吳文虎.漢語連續(xù)語音識別中上下文相關的聲韻母建模[J].清華大學學報(自然科學版).2004(01)
[4]韓兆兵,賈磊,張樹武,徐波.連續(xù)語音識別中聲學建模的組合聚類算法研究[J].中文信息學報.2003(04)
[5]李虎生,劉加,劉潤生.語音識別說話人自適應研究現(xiàn)狀及發(fā)展趨勢[J].電子學報.2003(01)
基金項目
關鍵字:語音識別 連續(xù)語音 聲學模型 語言模型