于曉明
摘 ?要: 人類生活中,語言是必不可少的信息傳達(dá)媒介,作為模式識別技術(shù)之一的語音識別技術(shù)獨有其發(fā)展的亮點。文章對語音識別的發(fā)展歷程進(jìn)行了總結(jié),從語音識別的原理出發(fā),在端點檢測、特征提取等方面介紹了語音識別模型的建構(gòu)。例舉了語音識別技術(shù)的應(yīng)用,探討了語音識別的技術(shù)突破和發(fā)展前景。
關(guān)鍵詞: 語音識別; 語音信號; 預(yù)處理; 特征提取
中圖分類號:TP393 ? ? ? ? ?文獻(xiàn)標(biāo)志碼:A ? ? 文章編號:1006-8228(2019)11-28-04
Abstract: Language is an indispensable medium of information transmission in human life. Speech recognition technology, as one of the pattern recognition technologies, has its own bright spot. This paper summarizes the development process of speech recognition, and starting from the principle of speech recognition, introduces the construction of speech recognition model in the aspects of endpoint detection and feature extraction and so on. The application of speech recognition technology is described, and the technological breakthroughs and development prospects of speech recognition are discussed.
Key words: speech recognition; speech signal; preprocessing; feature extraction
0 引言
語言最初是人類所特有的交流工具,但隨著科技的不斷進(jìn)步,人類如今不只局限于人與人的交流,并開始逐漸向人與機器的交流方向發(fā)展,即通過語言的溝通讓機器能像人類一樣聽懂對方所傳達(dá)的信息。如今的語音識別技術(shù)正是此方向突破的關(guān)鍵,信息領(lǐng)域和自動化領(lǐng)域的專業(yè)研究人員不斷進(jìn)行這方面的研究,機器自動的語言識別,使機器能為人類所用增加人們的生產(chǎn)生活效率,推動人類歷史的發(fā)展進(jìn)步。語音識別技術(shù)是涉及模式識別、人工智能的多領(lǐng)域研究學(xué)科,是人類與機器之間聯(lián)系的關(guān)鍵。
1 語音識別的發(fā)展歷程
語音識別技術(shù)最初的興起是在20世紀(jì)50年代,此時我國的語音識別技術(shù)也開始出現(xiàn),國外當(dāng)時只是在貝爾實驗室里進(jìn)行關(guān)于識別英文數(shù)字的簡單發(fā)音裝置的研究,而后帶來了小詞匯量和單個詞語的識別,在進(jìn)入20世紀(jì)70年代,才有了語音識別實質(zhì)性的進(jìn)展,出現(xiàn)了逐漸成為主流的隱式馬爾科夫模型技術(shù)(HMM)[1],并且從傳統(tǒng)的目標(biāo)匹配方式向基于統(tǒng)計的數(shù)學(xué)化方向有很大的進(jìn)展。進(jìn)入20世紀(jì)80年代,語音識別技術(shù)繼續(xù)深入發(fā)展,人工神經(jīng)網(wǎng)絡(luò)進(jìn)入模式識別的范疇,出現(xiàn)了利用人工神經(jīng)網(wǎng)絡(luò)[1,2]進(jìn)行語音識別問題的處理思路,研究不只是在簡單詞語數(shù)字的識別上,有了連續(xù)語音的識別和基于大量詞語的識別[3]。我國在此時期執(zhí)行863計劃,語音識別技術(shù)的研究與國外同步發(fā)展,這是語音識別技術(shù)的一個過渡階段。20世紀(jì)90年代之后,語音識別技術(shù)逐漸進(jìn)入飽和階段,基于語音識別的產(chǎn)品開始進(jìn)入人們的生產(chǎn)生活,隨著時代的不斷遷移,基于BP神經(jīng)網(wǎng)絡(luò)的優(yōu)點,大量的語音識別都基于此進(jìn)行識別系統(tǒng)產(chǎn)品的設(shè)計。
2 語音識別構(gòu)建模型
語音識別技術(shù)的過程包括語音信號的預(yù)處理、特征提取、模式匹配和判決三個方面。首先由系統(tǒng)接收語音輸入,經(jīng)過信號的預(yù)處理和特征提取,得到目標(biāo)信息的語音數(shù)據(jù)形成語音信息模式庫,再進(jìn)行輸入的語音信號和模式庫的模式匹配得到兩者信息匹配的結(jié)果。(如圖1)
2.1 語音信號的預(yù)處理
2.1.1 語音信號預(yù)加重
在如今十分成熟的A/D轉(zhuǎn)換操作之后,最初獲取的語音信號中語音信息被多種噪聲影響且高頻信號部分不明顯,因而要事先對于語音信號進(jìn)行預(yù)加重,預(yù)加重的實現(xiàn)結(jié)果是提高目標(biāo)信號和噪聲信號的對比度,便于能很好地對于語音信號進(jìn)行濾波,目前廣泛使用的是一階濾波器來實現(xiàn)預(yù)加重。
其中,z是語音信號,H為預(yù)加重后的信號,μ為一階濾波器的參數(shù)。
2.1.2 加窗分幀
在預(yù)加重處理的信號之后,為得到語音信號的分析頻譜,要將語音信號分成多個窗口,這樣就把一段持續(xù)的語音信號分成多段信號,為了保持每段信號連接的平滑性,在斷接點處設(shè)置交疊的部分,便于不同分幀之間的平滑移動。對于加窗處理,常使用漢明窗,漢明窗的通頻特性好,在信號的分區(qū)截取中保證了連續(xù)性平滑性,減小了分析頻譜的泄露。
2.1.3 端點檢測
端點檢測在整個語音識別過程中是十分關(guān)鍵的,在一段語音信息中有正常的語音信息,有間斷信息,有無聲信息,端點檢測就是保證將三者能很好地區(qū)分出來,排除無聲信息等摻雜的信號,選取所需要的正常的語音信息。目前端點檢測的研究具有多樣化且處于發(fā)展的黃金時期,有基于語音信號的時域特性的能量大小、平均過零率、能量變化率等,基于頻域特性的頻譜變化、譜熵的測定。下面主要通過語言信息的譜熵來進(jìn)行簡要的介紹。首先取某點Xi的概率表示為P{Xi},則在點Xi的熵定義為:
通過設(shè)置一個邊界范圍,在此范圍之內(nèi)的數(shù)據(jù)即為正常的語音信號,若超出這一范圍則將其他噪音信號去除掉,通過選擇熵函數(shù)實現(xiàn)了端點檢測的操作。
2.2 語音信號的特征提取
應(yīng)用模式識別技術(shù),只有將所測試信息的信號特征提取出來,才能供實驗的研究分析。語音信號的特征提取歷史悠久,其算法的實現(xiàn)已經(jīng)有多種形式[4]針對特定的倒譜特征,本文將介紹兩個經(jīng)典的LPCC[5]和MFCC[6-7]參數(shù)來進(jìn)行語音信號的特征提取。通過傅里葉變換譜經(jīng)對數(shù)運算再取傅里葉反變換即可得到信號的倒譜,LPCC既能實現(xiàn)它的預(yù)測功能,又能提供進(jìn)行聲道模型參數(shù)的提取過程,在LPCC分析過程中首先將語音信號視作全極點形式,在LPC基礎(chǔ)上進(jìn)行運算:
2.3 模式匹配和判決
如今模式匹配的聲學(xué)模型技術(shù)得到許多研究者關(guān)注,深度學(xué)習(xí)在模式匹配的研究[8,9]模式匹配方式有了很大的改進(jìn),模式匹配包括聲學(xué)模型和語言模型。聲學(xué)模型是將獲取語言信息的發(fā)音標(biāo)準(zhǔn)與模式庫中的發(fā)音標(biāo)準(zhǔn)進(jìn)行匹配而設(shè)計的模型,它通過矢量量化的分析將不同發(fā)音模板提取出來,常用的就是HMM聲學(xué)模型,在此基礎(chǔ)上[10]引入了狀態(tài)段長,對于不同語音段的劃分提高了原始基本識別的性能,神經(jīng)網(wǎng)絡(luò)的引入也給模式匹配環(huán)節(jié)帶來了性能的進(jìn)步。語言模型是針對不同語言的語法結(jié)構(gòu)進(jìn)行上下文分析確定詞義,在統(tǒng)計方面的語言模型的建立,將一系列相同的語法規(guī)則集中起來就在一定程度上減少了系統(tǒng)的識別時間。識別結(jié)果就是將事先測試的語音信息進(jìn)行預(yù)處理和特征提取,與模式庫的聲學(xué)模型進(jìn)行不同程度的匹配,通過統(tǒng)計識別信號的正確數(shù)量得到識別率,基于相同的識別率可以通過識別時間的比較進(jìn)行算法優(yōu)良性能的判決。
3 語音識別應(yīng)用
語音識別技術(shù)的應(yīng)用十分廣泛,從孤立詞的識別到關(guān)鍵詞的識別,最后根據(jù)說話人連續(xù)的語言的識別,如許多社交軟件都實現(xiàn)了從開始的鍵盤輸入到語音識別輸入,語音輸入技術(shù)的突破給人們的生活帶來了很大的便利,圖2介紹了一部分基于語音識別的應(yīng)用網(wǎng)絡(luò),為未來的語音識別網(wǎng)絡(luò)提供可視化模型。
⑴ 語音助手。語音識別作為機器與人交流的媒介,在語音助手方向有很大的可操作性,目前已存在語言的自動識別功能的小型機器人(例天貓精靈、小度),在網(wǎng)絡(luò)銷售中即可購買,事先通過內(nèi)部下載的程序進(jìn)行機器人和手機的聯(lián)合配對,針對使用者的語言進(jìn)行開關(guān)電視、播放音樂、設(shè)置鬧鐘等操作,這是最終全面實現(xiàn)智能家居[11-12]的一個發(fā)展趨勢。智能家居是將語音識別系統(tǒng)嵌入家庭使用設(shè)備中,使家用設(shè)備系統(tǒng)網(wǎng)絡(luò)一體化,這種操作能極大的豐富人們的生活;車載語音助手[13]如今也有了明顯的發(fā)展,利用語音傳輸進(jìn)行音樂播放、導(dǎo)航配置的控制,在一定程度上改善了駕駛?cè)说鸟{駛環(huán)境。
⑵ 身份確認(rèn)。如今在科技高速發(fā)展的時代,人類身份的確認(rèn)尤為重要,除了在生物體特征識別之外,語音識別也能達(dá)到其期望的效果[14]。身份的確定基于說話人聲道的不同,發(fā)出聲音頻率的不同進(jìn)行不同的區(qū)分,解決了如今身份密碼的缺憾,密碼作為保護(hù)信息的一種途徑容易被破解且固定不可遷移,從現(xiàn)在技術(shù)高超的譯碼技術(shù)能枚舉破解固定的密碼,但基于人物語音的不同,發(fā)音習(xí)慣的差異對于身份的確認(rèn)十分有益處。在門禁系統(tǒng)中,人物可以事先將自己的語言信息存儲在系統(tǒng)模塊庫中,當(dāng)涉及具體的人物識別的時候,將采集的語言數(shù)據(jù)和存儲數(shù)據(jù)進(jìn)行識別對比得到說話人的身份;語音識別的身份確認(rèn)在公安系統(tǒng)的案件偵查中也有很大的效用,將語音識別與身份證信息的結(jié)合也是出彩的操作,語音輸入加上生物體特征識別技術(shù)的配合就將得到多重身份保證。
4 語音識別的技術(shù)突破及發(fā)展前景
4.1 技術(shù)突破
語音識別有了歷史性的進(jìn)展,但是仍存在一些技術(shù)上的不足。語音識別過程中的噪聲處理仍然是一個很難突破的難題,在上例的天貓精靈就有此方面的缺陷,超過一定的距離機器就很難識別使用者的語言,甚至是停止工作不進(jìn)行識別工作,不僅有距離上的影響,當(dāng)面臨于嘈雜的環(huán)境中,系統(tǒng)也很難辨析出講話人的語言。在身份識別中也存在一定的缺陷,單從聲音信息來說,當(dāng)今處于互聯(lián)網(wǎng)時代,圖像聲音的處理軟件十分發(fā)達(dá),信息有被復(fù)制和融合的可能性,這就對于身份的確認(rèn)很容易造成誤差,在此部分未被突破前只有與生物識別技術(shù)相結(jié)合才能進(jìn)一步保證識別信息的準(zhǔn)確性。
4.2 發(fā)展前景
語音識別技術(shù)在未來是十分熱門的領(lǐng)域,許多企業(yè)家將加大對于語音識別的資金投入,首先基于其原理進(jìn)行適當(dāng)?shù)恼雇?其次從應(yīng)用領(lǐng)域進(jìn)行可視化的分析,目前全球中有大部分的聽覺受限的人員,每人都擁有人工耳蝸是不經(jīng)濟的也是不現(xiàn)實的,但是語音識別技術(shù)將有十分優(yōu)勢方面,若配合語音識別系統(tǒng),將對此問題有很大的幫助,將說話方的語言通過語音識別技術(shù)顯示給聽力受限的人群,作為一個類似于輔助助聽器的應(yīng)用軟件,不僅有效而且經(jīng)濟;再次是技術(shù)層面,將噪音從獲取的語音信息中完全過濾,使機器像人群一樣不受限于嘈雜的環(huán)境,對于生活中嵌入的應(yīng)用是很有發(fā)展價值的。
參考文獻(xiàn)(References):
[1] 袁翔.基于HMM和DNN的語音識別算法研究與實現(xiàn)[D].江西理工大學(xué),2017.
[2] 戚龍,趙丹.基于BP神經(jīng)網(wǎng)絡(luò)的非特定人語音識別算法[J].科學(xué)技術(shù)與工程,2017.17(31):277-282
[3] 劉加.漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進(jìn)展[J].電子學(xué)報,2000.1:85-91
[4] 惠博.語音識別特征提取算法的研究及實現(xiàn)[D].西北大學(xué),2008.
[5] 張文克.融合LPCC和MFCC特征參數(shù)的語音識別技術(shù)的研究[D].湘潭大學(xué),2016.
[6] 田莎莎,唐菀,佘緯.改進(jìn)MFCC參數(shù)在非特定人語音識別中的研究[J].科技通報,2013.29(3):139-142,146
[7] 袁正午,肖旺輝.改進(jìn)的混合MFCC語音識別算法研究[J].計算機工程與應(yīng)用,2009.45(33):108-110
[8] 戴禮榮,張仕良,黃智穎.基于深度學(xué)習(xí)的語音識別技術(shù)現(xiàn)狀與展望[J].數(shù)據(jù)采集與處理,2017.32(2):221-231
[9] 侯一民,周慧瓊,王政一.深度學(xué)習(xí)在語音識別中的研究進(jìn)展綜述[J].計算機應(yīng)用研究,2017.34(8):2241-2246
[10] 袁里馳.基于改進(jìn)的隱馬爾科夫模型的語音識別方法[J].中南大學(xué)學(xué)報(自然科學(xué)版),2008.39(6):1303-1308
[11] 王愛蕓.語音識別技術(shù)在智能家居中的應(yīng)用[J].軟件,2015.36(7):104-107
[12] 徐子豪,張騰飛.基于語音識別和無線傳感網(wǎng)絡(luò)的智能家居系統(tǒng)設(shè)計[J].計算機測量與控制,2012.20(01):180-182
[13] 茍鵬程,宗群.車載語音識別及控制系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機應(yīng)用與軟件,2017.34(5):129-134
[14] 陳大為.基于HMM的說話人識別改進(jìn)研究及應(yīng)用[D].浙江大學(xué),2002.
[15] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進(jìn)展[J].中文信息學(xué)報,2009.23(1):112-123,128
[16] 于俊婷,劉伍穎,易綿竹,李雪,李娜.國內(nèi)語音識別研究綜述[J].計算機光盤軟件與應(yīng)用,2014.17(10):76-78
[17] 詹新明,黃南山,楊燦.語音識別技術(shù)研究進(jìn)展[J].現(xiàn)代計算機(專業(yè)版),2008.9:43-45,50
[18] 柯登峰,徐波.互聯(lián)網(wǎng)時代語音識別基本問題[J].中國科學(xué):信息科學(xué),2013.43(12):1578-1597
[19] 金學(xué)驥,葉秀清,顧偉康.預(yù)加重與MMSE結(jié)合的語音增強方法[J].傳感技術(shù)學(xué)報,2005.2:300-302,306