,,
(大連海事大學(xué) 航海動態(tài)仿真和控制交通行業(yè)重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116026)
陀螺羅經(jīng)是船舶定位和導(dǎo)航系統(tǒng)的重要設(shè)備,由于其價格昂貴,在教學(xué)培訓(xùn)中采用真機(jī)操作成本較高。航海仿真系統(tǒng)作為航海教育裝備的重要組成部分,在船員培訓(xùn)及日常教學(xué)中的作用日益突出[1]。為此,大連海事大學(xué)基于虛擬現(xiàn)實(shí)技術(shù)開發(fā)了三維SPERRY MK37型陀螺羅經(jīng)仿真系統(tǒng),該系統(tǒng)可模擬實(shí)驗(yàn)室和實(shí)船兩種環(huán)境,實(shí)現(xiàn)了部件識別、拆裝等功能[2]。雖然三維仿真系統(tǒng)具有很好的環(huán)境真實(shí)感,但是由于多種三維場景的加入使得系統(tǒng)的復(fù)雜程度提高,同時該仿真系統(tǒng)的交互采用傳統(tǒng)的鼠標(biāo)及鍵盤方式,而在教學(xué)培訓(xùn)中,面向用戶多為不熟悉該設(shè)備的人員,在虛擬環(huán)境中通過鼠標(biāo)鍵盤操作漫游到部件位置進(jìn)行交互操作比較困難,這使得本來具有良好沉浸感的羅經(jīng)仿真系統(tǒng)操作起來比較繁瑣,在一定程度上影響了用戶的使用。
近年來語音識別技術(shù)在智能家居的語音控制系統(tǒng)和車載語音識別系統(tǒng)等很多領(lǐng)域獲得應(yīng)用[3- 6]。語音控制是人類最自然的溝通方式,但是在船舶及航海仿真領(lǐng)域卻鮮有耳聞。通過語音交互簡化仿真系統(tǒng)的操作,用戶只需發(fā)出交互指令就可以操控羅經(jīng)仿真系統(tǒng),使該仿真系統(tǒng)的交互變得更加便捷,從而提升用戶體驗(yàn)效果。因此,考慮以現(xiàn)有的三維SPERRY MK37型陀螺羅經(jīng)仿真系統(tǒng)為基礎(chǔ),通過研究語音信號預(yù)處理、特征提取及語音識別解碼的關(guān)鍵技術(shù),設(shè)計(jì)羅經(jīng)仿真系統(tǒng)的語音交互功能。
語音識別本質(zhì)上是一種模式識別系統(tǒng),主要包括特征提取、模式匹配和參考模式庫等3個基本單元,其核心是構(gòu)造語音特征矢量序列和模型參考字符序列之間的映射關(guān)系。語音識別的主要類型有特定人語音識別、非特定人語音識別、孤立詞語音識別及連續(xù)語音識別。其中,孤立詞識別主要采用動態(tài)時間規(guī)整(dynamic time warping, DTW)解決參考模板的特征矢量序列和輸入語音特征矢量序列之間長短不一的匹配問題[7];隱馬爾科夫模型(hidden markov models, HMM)作為孤立詞識別和連續(xù)語音識別中建立聲學(xué)模型的一種技術(shù),具有多年的應(yīng)用歷史,是語音識別中的基礎(chǔ)算法[8];與此同時,在當(dāng)前對大詞匯量連續(xù)語音識別需求環(huán)境下,深度學(xué)習(xí)成為研究熱點(diǎn),以深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)及卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)為代表的研究方法在大詞匯量連續(xù)語音識別中取得了很好的應(yīng)用效果[9- 10]?;谀J狡ヅ涞恼Z音識別系統(tǒng)構(gòu)成見圖1。
圖1 語音識別系統(tǒng)構(gòu)成
語音識別信號預(yù)處理階段主要是對語音信號在時域中進(jìn)行處理,預(yù)處理主要包括信號預(yù)加重和加窗分幀操作。由于語音信號低頻部分能量大,高頻段信號能量小,輸出噪聲的功率譜密度隨頻率的平方增加,因此信號的低頻信噪比很大,高頻部分信噪比不足,導(dǎo)致傳輸困難??蓪φZ音的高頻部分實(shí)施加重,提高高頻信號的分辨率,從而提升信號的傳輸質(zhì)量。
假設(shè)語音信號在短時內(nèi)(10~30 ms)是平穩(wěn)的。通過對語音信號實(shí)施加窗操作,窗函數(shù)在語音信號上滑動,將語音信號分幀,獲得短時平穩(wěn)信號。目前語音信號處理中主要的窗函數(shù)有矩形窗、漢明(Hamming)窗及漢寧(Hanning)窗,一般漢明窗應(yīng)用較多,本文采用此窗函數(shù)對語音信號進(jìn)行平滑處理,漢明窗函數(shù)如下。
(1)
式中:n為窗口長度[11]。觀察語音信號的時域波形是直觀的分析方式,圖3所示為羅經(jīng)控制命令短語“master compass”在時域中的語音波形。
圖2 “Master compass”信號時域波形
在時域分析中語音信號表現(xiàn)為幅度隨時間變化的函數(shù),波形為同一時刻信號效果的疊加,雖然能直觀地觀測到語音信號波形的變化,但直接對時域信號進(jìn)行處理卻比較困難,需要在頻域上進(jìn)行矢量化操作提取語音信號的特征。特征參數(shù)的選取直接影響語音識別的質(zhì)量,目前常見的特征參數(shù)提取方法有線性預(yù)測倒譜系數(shù)(LPCC)法和梅爾頻率倒譜系數(shù)(MFCC)法。(MFCC)法將語音的產(chǎn)生機(jī)制與人耳的聽覺感知特性相結(jié)合,是語音識別中應(yīng)用廣泛且有效的特征提取方法。本文的特征提取也采用該方法。
由于人耳的聽覺是一個非線性的系統(tǒng),對聲音的敏感度和聲音音頻不成比例,梅爾頻率在1 000 Hz以下趨于線性分布,1 000 Hz以上趨于對數(shù)分布,且梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的,比其他的對數(shù)倒譜的頻帶更接近人類的聽覺系統(tǒng)。因此,MFCC可以解決頻率分布不一致的問題,梅爾頻率與線性頻率的轉(zhuǎn)換關(guān)系為
Mel(f)=2 595lg(1+f/700)
(2)
式中:Mel(f)表示梅爾頻率;f為線性頻率。MFCC參數(shù)計(jì)算主要包括分幀和濾波器分析兩個階段,其計(jì)算流程如圖4所示。
圖3 MFCC參數(shù)計(jì)算流程
計(jì)算MFCC過程中,在濾波器組分析之前需要將時域信號轉(zhuǎn)變?yōu)轭l域信號,基于離散傅里葉變換的基礎(chǔ),通過快速傅里葉變換實(shí)現(xiàn)轉(zhuǎn)化。取N為200,采用快速傅里葉變換將羅經(jīng)控制命令短語“Master compass”的時域信號轉(zhuǎn)化成頻域信號,得到語音信號的頻譜,如圖5所示。
圖4 “Master compass”信號頻譜
經(jīng)過快速傅里葉變換得到的頻域信號,通過Mel濾波器組進(jìn)行濾波轉(zhuǎn)換得到梅爾頻率。在離散余弦變換之前,對所有濾波器輸出做對數(shù)運(yùn)算,然后做離散余弦變換,最終得到MFCC,具體過程如下。
i=1,2,…,L
(3)
式中:s(m)為第m個濾波器的輸出;L為MFCC的階數(shù),本文采用kaldi語音識別工具對訓(xùn)練音頻數(shù)據(jù)進(jìn)行特征提取,L=13,即MFCC為13維的特征矩陣。圖6所示為“master compass”音頻經(jīng)過特征提取得到的部分MFCC特征矩陣。
圖5 “Master compass” 部分MFCC特征矩陣
聲學(xué)模型和語言模型是影響識別解碼質(zhì)量的關(guān)鍵,聲學(xué)模型通過大量音頻語料進(jìn)行模型訓(xùn)練得到;基于統(tǒng)計(jì)的語言模型通過海量文本語料根據(jù)統(tǒng)計(jì)規(guī)則訓(xùn)練而成,具有代表性的為N- Gram統(tǒng)計(jì)語言模型。羅經(jīng)仿真系統(tǒng)交互指令為英文短語,語言復(fù)雜程度較小,選取音素為聲學(xué)模型建模單元,采用2- Gram統(tǒng)計(jì)語言模型進(jìn)行語言模型的建模。在解碼識別階段由聲學(xué)模型解碼得到音素,音素在詞典中的隨機(jī)匹配過程得出單詞,再通過統(tǒng)計(jì)語言模型進(jìn)行詞組搜索運(yùn)算,得到概率最大的路徑即為短語指令識別結(jié)果,最終完成解碼識別過程。識別解碼過程如圖6所示。
圖6 語音識別解碼過程
采用Speech SDK5.1進(jìn)行船用三維羅經(jīng)仿真系統(tǒng)語音交互功能的二次開發(fā)。該資源包應(yīng)用層包含語音識別和語音合成程序。語音識別(SR)由語音識別引擎負(fù)責(zé)管理,語音合成引擎負(fù)責(zé)控制語音合成(TTS)程序,同時語音應(yīng)用程序接口(SAPI)和設(shè)備驅(qū)動接口(DDI)用于語音技術(shù)開發(fā),Speech SDK5.1結(jié)構(gòu)見圖7。
圖7 Speech SDK 5.1結(jié)構(gòu)
語音應(yīng)用程序接口提供兩種語法規(guī)則識別類型:一種是聽寫型(dictation),該類型使用引擎中的海量文本,識別速度慢且識別率較低;另一種為命令控制型(command and control),該類型通過在開發(fā)時定義識別語法規(guī)則,使識別引擎減小搜索量,從而提高識別效率。通過前文識別解碼的研究得知,如果解碼網(wǎng)絡(luò)過大,搜索概率最大路徑所耗費(fèi)資源較大,從而影響識別解碼的質(zhì)量??紤]到羅經(jīng)設(shè)備的控制命令多為固定短語,且數(shù)量有限,本文采用命令控制型語法規(guī)則,在語法規(guī)則中定義了船用三維羅經(jīng)的待識別指令,縮減解碼的范圍,共39條操作命令(例如“Power on” “Hold on”,“Electronic control box”等)。語音交互功能開發(fā)流程如下:①初始化COM端口;②創(chuàng)建識別引擎及上下文接口;③設(shè)置識別消息及興趣事件(對識別內(nèi)容進(jìn)行反饋,做出相應(yīng)的操作);④創(chuàng)建語法規(guī)則為命令控制型;⑤獲取識別消息進(jìn)行交互處理。三維羅經(jīng)仿真系統(tǒng)語音交互流程如圖8所示。
圖8 三維羅經(jīng)仿真系統(tǒng)語音交互流程
在實(shí)驗(yàn)室安靜的環(huán)境中,對船用三維羅經(jīng)仿真系統(tǒng)中的語音交互功能進(jìn)行測試,系統(tǒng)平臺為Windows8.1,音頻采集設(shè)備為Edifier- K800頭戴式麥克風(fēng)。操作者給出羅經(jīng)交互命令,識別結(jié)果顯示在主界面上,如命令識別正確則確認(rèn),語音合成系統(tǒng)復(fù)述正確命令,然后仿真系統(tǒng)進(jìn)行相應(yīng)的操作;反之如果命令識別錯誤,則取消,同時語音合成系統(tǒng)發(fā)音提示再次給出命令,語音交互實(shí)現(xiàn)如圖9所示。
圖9 三維羅經(jīng)仿真系統(tǒng)語音交互操作
在三維羅經(jīng)仿真系統(tǒng)中,對15人進(jìn)行了語音交互測試,每人隨機(jī)給出30個待識別指令,其部分識別結(jié)果統(tǒng)計(jì)見表1。
由表1可見,該仿真系統(tǒng)語音交互功能具有較高的識別率,基本能滿足三維羅經(jīng)仿真系統(tǒng)交互需求。其中“Power on”指令和“Hold on”指令識別率較低,且在測試中當(dāng)測試人發(fā)出“Power on”指令時,容易被混淆識別為“Hold on”,導(dǎo)致該指令統(tǒng)計(jì)識別率降低。通過分析上述兩指令信號的時域波形圖與頻域頻譜圖,發(fā)現(xiàn)兩者較為相似,如圖11所示,這是兩個指令識別率較低的原故。因此,在語法規(guī)則中,添加交互功能相同與“Power on”的交互指令“Switch on”,當(dāng)用戶發(fā)出交互指令“Power on”控制羅經(jīng)系統(tǒng)電源箱開機(jī)容易發(fā)生誤識別時,可以選擇“Switch on”指令進(jìn)行開機(jī)操作來避免與“Hold on”發(fā)生混淆識別,進(jìn)而提高語音交互的準(zhǔn)確度。
表1 語音交互識別率部分統(tǒng)計(jì)結(jié)果
圖10 “Power on”和“Hold on”波形及頻譜
在已有的船用三維羅經(jīng)仿真系統(tǒng)的基礎(chǔ)上,應(yīng)用語音識別技術(shù)實(shí)現(xiàn)仿真系統(tǒng)的語音交互功能。通過測試結(jié)果可以得該仿真系統(tǒng)語音交互功能具有較高的識別率,基本可以滿足用語音控制三維羅經(jīng)仿真系統(tǒng)的要求,使羅經(jīng)仿真系統(tǒng)在具有良好沉浸感的同時方便用戶操作,提升了用戶的體驗(yàn)效果,對于語音識別技術(shù)應(yīng)用于其他航海仿真系統(tǒng)具有借鑒作用。同時,在三維航海仿真系統(tǒng)中通過將語音識別技術(shù)與虛擬現(xiàn)實(shí)技術(shù)相結(jié)合,對航海仿真系統(tǒng)的智能化發(fā)展具有促進(jìn)意義。在后續(xù)的研究中,信號相似度較高的語音指令容易誤識別的問題亟需解決,同時需要研究如何在模擬器噪聲環(huán)境下提高語音識別的識別率,擴(kuò)大語音識別在航海模擬器領(lǐng)域的識別范圍,使得語音交互可以準(zhǔn)確無誤的操作其他航海仿真設(shè)備。
[1] 金一丞,尹勇. STCW公約馬尼拉修正案下的航海模擬器發(fā)展戰(zhàn)略[J].中國航海,2012,35(3):5- 10.
[2] 劉晶晶,任鴻翔,尹金崗,等.多平臺的船用陀螺羅經(jīng)交互仿真系統(tǒng)[J].大連海事大學(xué)學(xué)報,2016,42(1):17- 20.
[3] KUMAR P S, SURAJ S, SUBRAMANIAN R V, et al. Voice operated micro air vehicle[J]. International journal of micro air vehicles,2014,6(2):129- 137.
[4] PAI N, CHEN S, CHEN P, et al. Application of HMM- based chinese speech recognition on internet of things for smart home systems[J]. ICIC express letters, part B: applications,2016,7(9):1901- 1909.
[5] 張鳳軍,戴國忠,彭曉蘭.虛擬現(xiàn)實(shí)的人機(jī)交互綜述[J].中國科學(xué):信息科學(xué),2016,46(12):1711- 1736.
[6] 金一丞,尹勇.航海模擬器[M].北京:科學(xué)出版社,2013.
[7] MYERS C S, RABINER L R, ROSENBERG A E. Performance trade- offs in dynamic time warping algorithms for isolated word recognition[J]. IEEE transactions on acoustics speech & signal processing,1979,28(6):623- 635.
[8] ZARROUK E, BEN AYED Y, GARGOURI F. Hybird continuous speech recognition systems by HMM, MLP, and SVM: a comparative study[J]. International journal of speech Technology,2014,17(3):223- 233.
[9] MAAS A L, QI P, XIE Z, et al. Building DNN acoustic models for large vocabulary speech recognition[J]. computer speech & language,2016,41(C):195- 213.
[10] SAINATH T N, MOHAMED A R, KINGSBURY B, et al. Deep convolutional neural networks for LVCSR[C]: IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE,2013:8614- 8618.
[11] 張雪英.數(shù)字語音處理及Matlab仿真[M].北京:電子工業(yè)出版社,2010.
[12] KUMAR Y R, BABU A V, KUMAR K A N, et al. Modified Viterbi decoder for HMM based speech recognition system[C]∥ International Conference on Control, Instrumentation, Communication and Computational Technologies. IEEE,2014:470- 474.