摘 要:隨著近幾年語音識別研究的逐漸升溫,把握好語音識別領域的正確研究方向顯得尤為重要。本文介紹了語音識別技術的原理及系統(tǒng)構成,對2010年以來中國知網(wǎng)(CNKI)收錄的中文核心期刊中主題為語音識別的論文進行統(tǒng)計分析,得出國內(nèi)語音識別領域的研究現(xiàn)狀和趨勢。通過探討其中存在的問題,得出大數(shù)據(jù)背景下的大詞匯連續(xù)語音識別系統(tǒng)的設計及實現(xiàn)、方言語音識別研究、語音識別系統(tǒng)在現(xiàn)實生活中的應用以及深度學習、深層神經(jīng)網(wǎng)絡的應用將是未來語音識別領域研究的主要方向。
關鍵詞:綜述;語音識別;研究趨勢;方言識別
中圖分類號:TN912.34
人類最重要的基本功能就是通過語言互相傳遞信息。雖然人們可以通過多種手段來獲取外界信息,但最為重要、精細的信息源只有語言、圖像和文字三種。與聲音相比,視覺和文字傳遞信息的效果要差。隨著計算技術的不斷發(fā)展,人與機器之間的交流也越來越廣泛。如果能夠讓計算機聽懂語言、能夠說話,那么計算機就能夠和人進行通信,不同語言的人交流起來也會更容易。而這些的基礎就是語音的識別和理解。語音識別(Speech Recognition,SR)就是讓機器通過識別和理解過程把人類的語音信號轉變?yōu)橄鄳奈谋净蛎睢Mㄟ^語音識別技術,人們可以在工業(yè)、軍事、醫(yī)學、交通、旅游等領域實現(xiàn)人機交互,使得生活更便捷。
1 語音識別原理
語音識別就是讓機器能夠聽懂人說的話,其根本目的是研究一種具有聽覺功能的機器,使機器能直接接受人的語音,理解人的意圖并做出相應的反應。其基本原理是含有語音識別技術的智能體能夠接收聲音信號,將信號轉換成文字,然后根據(jù)需要做記錄、查詢或相應的操作。
實質上語音識別系統(tǒng)是一種模式識別系統(tǒng),是建立在一定的硬件平臺和操作系統(tǒng)之上的一套應用軟件。其依賴的硬件平臺可以是一臺個人計算機或工作站,操作系統(tǒng)可以是UNIX、Windows或Android系列[1]。語音識別可分為兩個步驟:第一步是“訓練”或“學習”階段,采用語音分析方法分析出語音特征參數(shù)作為標準模式儲存在計算機內(nèi),形成標準模式庫,稱為“模板”,建立識別基本單元的聲學模型以及進行句法分析的語言模型等;第二步是“識別”或“測試”階段,提取待測語音中的特征參數(shù),按照一定的準則和測度與系統(tǒng)模型進行比較,通過判決得出識別結果[2]。語音識別系統(tǒng)基本構成如圖1所示,包含特征提取、模式匹配和參考模式庫三個主要單元。
圖1 語音識別系統(tǒng)基本構成
1.1 語音信號數(shù)字化與預處理。語音信號的數(shù)字化包括放大及增益控制、反混疊濾波、采樣、模/數(shù)(A/D)轉換及編碼,如圖2所示。預濾波器是一個帶通濾波器,防止混疊干擾和電源工頻干擾。A/D轉換對信號進行量化,然后進行脈沖編碼,通常采用PCM編碼。預濾波、采樣、A/D和數(shù)/模(D/A)轉換、平滑濾波等許多功能可以在一塊芯片上完成。
圖2 語音信號的數(shù)字化過程框圖
語音信號預處理包括預加重、加窗和分幀等。預加重是在語音信號數(shù)字化之后、參數(shù)分析之前在計算機中用具有6db/倍頻程的提升高頻特性的預加重數(shù)字濾波器來實現(xiàn),它通常是一階的數(shù)字濾波器[3]H(Z)=1-μz-1式中μ值接近于1。
接下來進行加窗、分幀處理,一般約為33-100幀/s,視實際情況而定。分幀是用可移動的有限長度窗口進行加權的方法來實現(xiàn),常用的窗函數(shù)是矩形窗和漢明窗等。
在對語音信號進行分析處理前必須把要分析的語音信號部分從輸入信號中找出來,即端點檢測[4],就是從包含語音的一段信號中確定出語音的起點以及終點。有效的端點檢測不僅能使處理時間減到最小,而且能排除無聲段的噪聲干擾,從而使識別系統(tǒng)具有良好的識別性能。
1.2 特征提取。預處理后的語音信號需要對其進行特征提取,目的是提取語音特征,以使語音識別時類內(nèi)距離盡量小,類間距離盡量大。目前,經(jīng)過快速傅里葉變換(FFT)或者線性預測技術(LPC)得到功率譜以后再經(jīng)過對數(shù)變換和傅里葉反變換得到的倒譜參數(shù)LPCC是常用的語音識別特征參數(shù)。同時根據(jù)人的聽覺特性變換的美爾(Mel)倒譜參數(shù)MFCC也是常用的語音參數(shù)。
1.3 建立模型與模式匹配。分析特征參數(shù)之后,需要建立聲學模型和語言模型存儲到計算機中作為模板,把分析出來的特征參數(shù)與模板進行模式匹配,這是語音識別的核心。目前有代表性的語音識別方法主要有模板匹配法、隱馬爾可夫法(HMM)和神經(jīng)網(wǎng)絡法(ANN)。
1.4 后處理。后處理單元可能涉及句法分析、語音理解、語義網(wǎng)絡以及語言模型等。它往往不是一個孤立的單元,而是與匹配計算單元、參考模式庫融合在一起,構成一個邏輯關系復雜的系統(tǒng)整體。
2 國內(nèi)語音識別研究論文統(tǒng)計
近幾年來,語音技術發(fā)展迅猛,國內(nèi)的語音技術研究基本同步??拼笥嶏w、捷通華聲、中科信利等語音企業(yè)相繼成立。2010年谷歌發(fā)布的Voice Action支持語音操作與檢索;2011年初微軟的深度神經(jīng)網(wǎng)絡(DNN)模型在語音搜索任務上獲得成功;同年10月蘋果Siri首次亮相,人機交互掀開了新的篇章;國內(nèi)科大訊飛首次將DNN技術運用到語音云平臺;2013年谷歌發(fā)布的Glass使用語音交互,同時蘋果加大了對iWatch的研發(fā)投入,穿戴式語音交互設備成為新熱點。國際上語音識別商業(yè)化已經(jīng)取得了很大的成果,國內(nèi)尚有欠缺。了解國內(nèi)語音識別的研究水平,才能更好地從事語音識別的研究工作。對基于中國知網(wǎng)(CNKI)所收錄的中文核心期刊2010年以來關于語音識別的論文進行統(tǒng)計分析[5],可以很好地把握目前國內(nèi)語音識別研究發(fā)展趨勢及存在的問題。通過對CNKI收錄的中文核心期刊中以語音識別為主題的論文進行統(tǒng)計和研讀比對,將“關鍵字或者摘要中有語音識別或者語音或者識別”設置為必要條件進行篩選,最后共計有191篇論文被選定為研究素材。這些論文可以分為5種:一種是關于語音識別算法改進以及技術優(yōu)化,稱為“系統(tǒng)優(yōu)化論文”,共103篇;一種是關于模型的改進及建立,稱為“模型研究論文”,32篇;一種是針對語音識別系統(tǒng)的構建及研究,稱為“系統(tǒng)研究論文”,28篇;一種是語音識別系統(tǒng)在現(xiàn)實生活中的應用,稱為“系統(tǒng)應用論文”,23篇;還有一種是對語音識別的綜述性研究,稱為“綜述論文”,5篇。
圖3 每年關于語音識別研究的論文數(shù)目分布圖
我們將關于語音識別的191篇論文按照每年的分布量進行統(tǒng)計,以便觀察每年語音識別論文的分布情況,如圖3所示。從圖3可以看出,2011年以來,國內(nèi)對于語音識別的研究整體呈現(xiàn)遞增的趨勢。由于2010年語音識別研究新技術的不斷出現(xiàn),學者們的研究略有起伏,該年的論文整體數(shù)量略有增加。而由于2014年論文發(fā)表尚不完整,統(tǒng)計尚不能反映整體趨勢,但楊勇等基于REMOS的遠距離語音識別模型補償方法,陳晨等基于語音識別技術的機載短波應急通信,景亞鵬等基于深層神經(jīng)網(wǎng)絡(DNN)的漢語方言種屬語音識別,努爾麥麥提﹒尤魯瓦斯等維吾爾語大詞匯語音識別系統(tǒng)識別單元研究,張燕普通話語音識別中的基本音素分析,張巍等一種語音識別的可定制云計算方法等6篇論文,可以反映出當前語音識別領域的研究熱點:深度學習、深層神經(jīng)網(wǎng)絡、大詞匯連續(xù)語音識別、云計算以及方言研究,具有很好的指導作用,可以引領學者向熱門領域深入研究。
各個年份不同類型的論文發(fā)表情況如圖4所示,不同研究類型的論文所占比例如圖5所示。結合圖4和圖5可以看出,每年所發(fā)表的論文中系統(tǒng)優(yōu)化(即算法的改進以及技術的優(yōu)化)方面的論文所占比例較重,占到全部論文的53.93%;模型研究次之,占16.75%;系統(tǒng)研究占14.66%;系統(tǒng)應用則更少,占12.04%;綜述性論文僅占到2.62%。而且,語音識別研究逐漸從算法研究在向實際應用轉變,但是,語音識別領域還是以改進算法、采用先進技術對系統(tǒng)進行優(yōu)化為主流,將識別系統(tǒng)實際應用到其他領域的研究比較少。這為后來研究者指明了方向,開辟了新的研究思路。
圖4 各年份不同研究類型論文發(fā)表情況
圖5 不同研究類型的論文所占比例圖
通過統(tǒng)計分析,可以看出,國內(nèi)在語音識別研究方面還是存在一定的問題。
(1)重理論研究,輕實踐應用?;谒惴ǜ倪M的研究比較多,而針對語音識別系統(tǒng)應用的比較少,真正將語音識別系統(tǒng)應用到日常生活中的更少,而這在大數(shù)據(jù)背景下是比較容易開展的研究工作。研究者的工作大多還停留在比較簡單的小詞匯量、孤立詞系統(tǒng)的實驗研究上,對于大詞匯量、連續(xù)語音識別系統(tǒng)的研究少之甚少(在電話、會議等復雜環(huán)境中目前英語識別率準確率在80%左右,離人類2%-4%的錯誤率還有很大距離[6]),對于大數(shù)據(jù)背景、連續(xù)的語音處理幾乎沒有,對領域前沿新技術的應用研究尚有欠缺。論文中對孤立詞識別系統(tǒng)的研究以及基于孤立詞語音識別系統(tǒng)進行實驗仿真的論文有14篇(占7.33%);而涉及到大詞匯連續(xù)語音識別系統(tǒng)的論文僅有9篇(占4.71%);涉及到大數(shù)據(jù)背景的論文只有1篇(僅占0.52%)。目前,還只是一些商用化的產(chǎn)品,如科大訊飛、百度等的語音搜索及輸入,用于實驗研究的系統(tǒng)幾乎沒有。而在算法及技術優(yōu)化的研究中,只有楊震等在語音大數(shù)據(jù)信息處理架構及關鍵技術研究一文中分析了大數(shù)據(jù)的基礎技術特性、涉及的技術以及語音識別的基本技術環(huán)節(jié),并結合大數(shù)據(jù)信息處理架構,給出了語音識別技術與大數(shù)據(jù)相結合的應用開發(fā)技術架構及應用流程[7]?;诖髷?shù)據(jù)的深度學習的研究較少,余凱等對深度學習發(fā)展的過去和現(xiàn)在做了一個全景式的介紹,并討論了深度學習所面臨的挑戰(zhàn)以及將來的可能方向[8]。這些都將給我們后來的研究者以很好的啟發(fā),從而使得國內(nèi)的語音識別研究更上一層樓。
(2)借鑒、開發(fā)的能力較弱。針對所搭建的系統(tǒng)進行實驗仿真的工具,多數(shù)是采用Matlab這樣的數(shù)學工具,基于C語言、Java語言編程的系統(tǒng)(如Microsoft Speech SDK、HTK Toolkit、Sphinx)進行模型建立及仿真的比較少。只有張鳳美等提出了一種基于SDK的語音控制機器人的解決方案,利用SDK構建非特定人孤立詞的語音識別平臺;劉萬鳳等基于Sphinx-4語音識別引擎設計實現(xiàn)了一個語音指令識別系統(tǒng)AIRS(ATC Instruction Recognizer System);李冠宇等在HTK平臺上建立和訓練得到了基于決策樹的藏語拉薩話三音子模型,胡旭琰等采用HTK工具和TIDIGITS數(shù)據(jù)庫對加入不同類別噪聲的語音進行測試,武曉敏等采用HTK通過人工標注的少量語料生成種子模型,引導大語音數(shù)據(jù)構建聲學模型,實現(xiàn)了連續(xù)語音識別,李冠宇等在HTK平臺上建立上下文相關的連續(xù)隱馬爾可夫聲學模型,實現(xiàn)藏語拉薩話特定人大詞表連續(xù)語音識別,楊善茜等將基于HTK的語音識別網(wǎng)絡算法用于識別網(wǎng)絡的優(yōu)化問題。而這些系統(tǒng)已經(jīng)比較成熟,而且有利于進行聲學模型、語言模型的訓練和識別,還可以進行算法的改進,以提高系統(tǒng)的識別性能。
(3)針對不同方言的研究比較少。針對維吾爾語研究的論文共有13篇。李冠宇等對藏語拉薩話中單音子及三音子分布情況進行統(tǒng)計,并且實現(xiàn)了藏語拉薩話特定人大詞表連續(xù)語音識別。伊﹒達瓦等基于蒙古語研討了聲學和語言模型的建立。景亞鵬等將深層神經(jīng)網(wǎng)絡應用于漢語方言種屬語音識別;王燁等針對漢語普通話、青海方言和藏語安多方言設計了一個基于子空間映射和分數(shù)歸一化技術的GSV-SVM方言識別系統(tǒng);高原等建立了一個多用途漢語方言語音數(shù)據(jù)庫,用于說話人信息處理、方言特征詞識別、語音識別等領域的研究;張超等基于可靠口音相關單元構造聲學模型;陳開等實現(xiàn)對滬語語音的識別和與家居機器人滬語語音交互。全球經(jīng)濟高度一體化,不同文化之間相互影響,使得現(xiàn)代漢語方言特征消失速度加快,瀕危方言的瀕危程度加劇,對方言文化的保護勢在必行。比如閩南語、藏語、偏遠地區(qū)的方言等,正在逐漸被普通話所同化,甚至出現(xiàn)“無方言族”[9],拯救瀕危方言,保護方言文化的多樣性,對加強不同方言之間的文化交流意義重大。再者,當今國際國內(nèi)局勢并不安定,恐怖主義活動時有發(fā)生,而其組織者往往具有一定的地域居住特點,加強對方言的語音識別研究對于反恐維穩(wěn)亦有很重要的作用。
通過以上分析,國內(nèi)語音識別方面的研究及發(fā)展趨勢明朗化。針對研究過程中所存在的問題,總結得出大數(shù)據(jù)背景下的大詞匯連續(xù)語音識別系統(tǒng)的設計及實現(xiàn)、方言語音識別的研究、語音識別系統(tǒng)在現(xiàn)實生活中的應用以及深度學習、深層神經(jīng)網(wǎng)絡的應用將是未來語音識別領域研究的主要方向。大數(shù)據(jù)是形勢所趨,基于大數(shù)據(jù)背景的研究將會使得國內(nèi)語音識別的研究更加深入,更具有實際應用價值。
3 結束語
語音識別發(fā)展迅速,對國家經(jīng)濟發(fā)展和國家安全都有很重要的作用。本文介紹了語音識別原理進行了,以2010年以來CNKI收錄的中文核心期刊中關于語音識別的論文為例,探討了國內(nèi)目前語音識別領域研究的現(xiàn)狀和趨勢以及目前國內(nèi)語音識別領域研究所存在的問題。對實際應用、方言的研究比較少;對比較成熟的語音識別系統(tǒng),如HTK、Sphinx等應用比較少;進行實驗仿真時,多數(shù)論文還是基于比較簡單的孤立詞、小詞匯量識別系統(tǒng),在連續(xù)、大詞匯量的語音識別系統(tǒng)中進行仿真的研究較少;對新近出現(xiàn)的深度學習、深層神經(jīng)網(wǎng)絡以及大數(shù)據(jù)背景下語音識別的研究比較少等。由此分析得出,大數(shù)據(jù)背景下的大詞匯連續(xù)語音識別系統(tǒng)的設計及實現(xiàn)、方言語音識別的研究、語音識別系統(tǒng)在現(xiàn)實生活中的應用以及深度學習、深層神經(jīng)網(wǎng)絡的應用將是未來語音識別領域研究的主要方向。論文選中CNKI收錄的中文核心期刊為研究對象,具有一定的代表性,但也存在一些不足,還有國外語音識別領域的研究現(xiàn)狀和趨勢還有待研討,將國內(nèi)外研究趨勢進行比對,才能更好地開展工作,這些將在以后的研究中進行。
參考文獻:
[1]陳立偉.基于HMM和ANN的漢語語音識別[D].哈爾濱工程大學,2005.
[2]施超群,陳堅剛.淺析語音識別原理[J].浙江工商職業(yè)技術學院學報,2011(03):94-96.
[3]韓紀慶,張磊,鄭軼然.語音信號處理(第二版)[M].北京:清華大學出版社,2013.
[4]劉華平,李昕,徐柏齡.語音信號端點檢測方法綜述及展望[J].計算機工程與應用,2008(08):2278-2283.
[5]中國知網(wǎng).http://www.cnki.net[OL].
[6]徐波.語音識別發(fā)展現(xiàn)狀與展望[C].中國中文信息學會第七次全國會員代表大會,2011.
[7]楊震,徐敏捷,劉璋峰.語音大數(shù)據(jù)信息處理架構及關鍵技術研究[J].電信科學,2013(11):1-5.
[8]余凱,賈磊,陳雨強.深度學習的昨天?今天和明天[J].計算機研究與發(fā)展,2013(09):1799-1804.
[9]吳永煥.漢語方言文化遺產(chǎn)保護的意義與對策[J].中國人民大學學報,2008(04):39-43.
作者簡介:于俊婷(1984-),女,河北衡水人,博士研究生,主要研究方向為語音識別。
作者單位:解放軍外國語學院,河南洛陽 471003;62041部隊,長春 130122;62153部隊,河南焦作 454591