許開淳 孟令鑫 余彥龍 張博
摘 要:伴隨著當下航空產業(yè)蓬勃發(fā)展、民航空域日益緊張、飛機日益增多,空中交通管制人員的責任也愈發(fā)重大。而陸空通話不僅是空中交通管制員在日常工作崗位上使用的標準用語,其熟練與否還是評價管制員能力的指標之一,同時也是航空院校學生平日訓練用語以及日后考取執(zhí)照從業(yè)上崗的基礎。一線空管人員在使用陸空通話時的一字一句都關系到航空安全,因此相關航空產業(yè)人員需要勤加訓練并提高陸空通話能力。本文研究了陸空通話語音識別方法,可作為開發(fā)陸空通話手機APP訓練軟件的基礎,使從業(yè)管制人員以及相關專業(yè)在校大學生、航空愛好者能夠隨時隨地的方便得到標準的陸空通話語音訓練。
關鍵詞:空中交通管理; 陸空通話 ;語音識別 ;DTW算法
1 背景與意義
陸空通話是空中交通管制員從業(yè)上崗的基礎,也是在日常工作中時刻使用的標準語言。管制員通過陸空通話與飛行員直接聯系,做出明確的指示,引導飛機安全飛行。因此,無論管制能力有多強,若陸空通話發(fā)音不標準,特別是英語發(fā)音不標準,外籍飛行員聽不懂管制員的指令,后果將不堪設想;近年來,國內飛行員由于發(fā)音不標準,與外籍管制員之間的尷尬對話屢有被曝光,也值得我們深省。因此,陸空通話對于管制員和飛行員都是十分重要的,其使用是否標準將直接影響空中交通安全。各類專業(yè)人員需要不斷訓練,提高陸空通話能力。
從學校培養(yǎng)人才的角度來講,空管學院每年有將近400名畢業(yè)生走向全國各個一線管制崗位。在大學期間的培養(yǎng)過程,只有在相應的管制課程中才會得到教師的指導,訓練和提高自身的陸空通話水平。而平時絕大部分學生在這一方面的投入時間很少,發(fā)音沒有經過矯正,距離工作崗位要求有很大的差距。而恰恰這一重要的技能需要在平時不斷訓練,因此急需專門的輔導軟件,使學生在日常生活中就能自學自練。
從單位對于人才的需求來講,各個一線管制單位招聘管制專業(yè)的學生后,還要進行一段時間的崗位培訓。而從長期的反饋來看,我們培養(yǎng)的學生大多數陸空通話發(fā)音不標準,少數學生經過短期培訓就能勝任管制工作。因此單位對于學校的培養(yǎng)也提出了更加明確的要求,希望能夠在大學期間提高學生的陸空通話水平,縮短單位培訓時間,達到盡快上崗的目的。
從社會對于行業(yè)的了解來講,近年來各種媒體對于民航及空管行業(yè)的關注越來越多。管制員正在逐漸由幕后走向臺前,越來越多的普通人希望獲得更多的管制知識。本文以及后續(xù)的軟件成果,可以為各類人群提供認識和學習管制知識的工具,提升社會對于管制工作的認同感。
基于以上目的,本文研究了陸空通話英語語音識別的方法,可作為開發(fā)陸空通話訓練軟件的基礎,學生通過手機便能夠在課余時間隨時隨地得到標準的英語通話訓練,可以有效提高自身的陸空通話水平、調節(jié)標準發(fā)音,具有很強的實用價值和推廣意義。
2 實現方法
本文主要研究的問題主要在于陸空通話語音識別與標準化。陸空通話具有標準的發(fā)音,區(qū)別于日常用語,具有明顯的行業(yè)特點,如字母 A 的發(fā)音不是/ei/而是/a:lf/,針對性非常強,因此需要在系統(tǒng)內制作成標準的模板,同時針對個體發(fā)音需要進行語音識別與比對,測量其標準性。
針對研究的問題,本文的解決方案是擬采用動態(tài)時間規(guī)整模型(Dynamic Time Warping,DTW)方法進行語音識別與標準化。
首先,DTW是目前主要使用的語音識別算法,由于陸空通話的標準性,可以比較準確的建立標準語音模型;其次,通過多年的教學積累,空管學院積累了大量陸空通話音頻資料,與各地區(qū)空管局有著密切的合作,為模型的建立和訓練提供了堅實的基礎。
若把測試模板的各個幀號n=1~N在一個二維直角坐標系中的橫軸上標出,把參考模板的各幀號m=1~M在縱軸上標出,通過這些表示幀號的整數坐標畫出一些縱橫線即可形成一個網絡,網絡中的每一個交叉點(in,im)表示測試模式中某一幀的交匯點。動態(tài)時間規(guī)整(DTW)是把時間規(guī)整和距離測度計算結合起來的一種非線性規(guī)整技術,它尋找一個規(guī)整函數im =φ(in),將測試矢量的時間軸 n 非線性地映射到參考模板的時間軸 m 上,并使該函數滿足:
D 為處于最優(yōu)時間規(guī)整情況下兩矢量的距離,d為兩矢量匹配時距離,T(n)為第n幀語音信號特征參數矢量,R(m)為第m幀語音信號特征參數矢量,im =φ(in),N為匹配終點。由于 DTW不斷地計算兩矢量的距離以尋找最優(yōu)的匹配路徑, 所以得到的是兩矢量匹配時累積距離最小所對應的規(guī)整函數, 這就保證了它們之間存在的最大聲學相似性。DTW 算法的實質就是運用動態(tài)規(guī)劃的思想,利用局部最佳化的處理來自動尋找一條路徑,沿著這條路徑,兩個特征矢量之間的累積失真量最小,從而避免由于時長不同而可能引入的誤差。
為保證動態(tài)路徑搜索問題具有實際意義,需要對規(guī)整函數做約束。規(guī)整函數滿足如下約束條件:
①邊界限制:待測語音已完成信號端點檢測,規(guī)整將發(fā)生在信號起始幀數和信號結束幀數間,規(guī)整函數滿足如下關系
②因為信號在時域上表現為有順序性,所以規(guī)整函數在時間上應該滿足單調性的限制。
③通過規(guī)定規(guī)整函數不允許跳過任何一點的語音,來保證語音信息的損失量降到最低。
將語音信號特征參數信號幀數n=1~N在二維的坐標系橫軸逐一標出,將用于語音識別的信號幀數m=1~M在縱軸上逐一標出這樣便組成一個網格。其中,每個交叉點(ti,rj)表示待測語音信號特征參數中某幀信號和識別模板某幀數信號相交。
3 DTW算法計算步驟
然后從點(1,1)出發(fā)搜尋,反復執(zhí)行上述操作,直到到達終點(N,M)便可計算出最佳匹配路徑。D(N,M)即最佳的距離。在識別時,只需待測的信號特征參數和全部的識別參考模板的特征參數進行比較,計算出最小匹配距離Dmin(N,M)對應的參考模板即為識別結果。
4 發(fā)音模板設計
因為陸空通話發(fā)音模板不同于日常發(fā)音,所以需要研究設計一個語音參考模板庫。通過采集語音數據,計算該語音信號的特征參數即梅爾倒譜系數,并將語音信號的特征參數——梅爾倒譜系數用文件保存。再將保存特征參數所對應文件名路徑用數據庫保存。每次讀入一段語音信號時,會把該待測語言信號的特征參數——梅爾倒譜系數和模板庫的數據進行比對,用 DTW求待測信號和模板的距離。找出距離最小的對應的參考模板所對應的信息即識別的結果。通過錄音,然后進行特征參數訓練形成參考模板,然后再次錄音進行 DTW 識別。
5 實驗結果與對比
6 結語與展望
本文的研究方法以及可能的后續(xù)開發(fā)軟件為航空院校學生以及空管愛好者提供了陸空通話自學工具,使其可以隨時隨地地進行陸空通話訓練,鍛煉和提高英語通話水平。作為院校課堂教學輔助工具,它可以減輕教師輔導壓力,提高教學質量;作為課后自學工具,可使學生完成自我獨立訓練,提高陸空通話能力。既可以自動對學生發(fā)音進行評判,促進發(fā)音矯正,還可以模擬簡單的雷達管制環(huán)境,通過語音識別自動改變飛機狀態(tài),使學生獨立練習管制訓練有效降低專業(yè)教師輔導的時間成本,同時大大提高學習效率。
仍有待改進的地方在于軟件只是針對小詞匯量、孤立詞的語音識別,對于連續(xù)詞匯的大詞匯量識別還有很多問題需要解決,特別是合理建立參考模板這些都是需要解決的問題。