李玉華
摘 ?要: 語音同步識別系統(tǒng)的發(fā)展方向是連續(xù)性的人機交互,采用傳統(tǒng)系統(tǒng)易受到突發(fā)性噪聲影響,致使識別效果較差,提出基于隱馬爾可夫模型的連續(xù)語音同步識別系統(tǒng)。結(jié)合語音識別原理,設(shè)計系統(tǒng)硬件總體結(jié)構(gòu)。利用JFET輸入高保真運放的OPA604低通濾波器,保證信號處理結(jié)果的有效性。通過OMAP5912ZZG型號芯片對處理后的信號進行存儲,使用矢量圖緩沖音頻,經(jīng)由以太網(wǎng)接口移植相關(guān)語音識別序列,由此實現(xiàn)連續(xù)語音同步識別。由實驗對比結(jié)果可知,該系統(tǒng)比傳統(tǒng)系統(tǒng)識別效果最高值高出48%,推進了語音識別技術(shù)研究的快速發(fā)展。
關(guān)鍵詞: 隱馬爾可夫模型; 連續(xù)語音識別; 同步識別; 信號處理; 人機交互; 系統(tǒng)結(jié)構(gòu)設(shè)計
中圖分類號: TN912.34?34; TP391.42 ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)11?0064?04
Abstract: The current development direction of the speech synchronization recognition system is successive human?computer interaction. The traditional system is easily affected by the sudden noise, which may cause the poor recognition effect. Therefore, a continuous speech recognition system based on hidden Markov model is proposed. In combination with the principle of speech recognition, the overall hardware structure of the system is designed. The low?pass filter of JFET?input high?fidelity operational amplifier OPA604 is utilized to ensure the validity of signal processing results. The chip OMAP5912ZZG is used to store the processed signals after acquisition. The vector map is used to buffer the audio frequency signal, and transplant the related speech recognition sequence via the Ethernet interface, thus the continuous speech synchronization recognition is realized. The experimental results show that the recognition effect of the proposed system is 48% higher than that of the traditional system, and the system can promote the rapid development of speech recognition technology research.
Keywords: hidden Markov model; continuous speech recognition; synchronous recognition; signal processing; human?computer interaction; system structure design
0 ?引 ?言
語音是人們用于信息交換和連通的快捷方式,也是人類特有功能,更是人類經(jīng)常使用的交流工具。隨著現(xiàn)代信息化時代來臨,使用智能技術(shù)對語音進行存儲、識別與合成,可使語音信息被有效利用。語音的重要性大大推動了語音信號的處理發(fā)展。而語音識別作為信號處理研究的重要領(lǐng)域,其作用是將語音轉(zhuǎn)換為控制命令,使計算機與人類語音相融合,將語音識別應(yīng)用到多個技術(shù)領(lǐng)域之中,甚至還可擴展到人體學[1]。
隨著計算機技術(shù)的快速發(fā)展,語音識別已經(jīng)成為科學技術(shù)應(yīng)用領(lǐng)域研究的熱點問題,并逐漸進入人們的日常生活,語音識別已成功應(yīng)用到手機和電視等智能設(shè)備,給人類未來生活方式帶來深遠影響[2]。語音同步識別是將語音數(shù)據(jù)全部轉(zhuǎn)換為文本形式,突破語種和腔調(diào)不同造成機器與人之間溝通的障礙,使語音交互系統(tǒng)成為人機對話的重要工具[3]。
由于語音特性與人類語音之間差異性較大,采用傳統(tǒng)系統(tǒng)不能對連續(xù)語音進行識別,因此,在該條件下對連續(xù)語音識別進行研究是一個緊迫任務(wù)?;诖?,本文提出基于隱馬爾可夫模型的連續(xù)語音同步識別系統(tǒng),不斷改進與完善語音識別能力,使其被廣泛應(yīng)用于語音識別的各個領(lǐng)域。
1 ?連續(xù)語音同步識別系統(tǒng)構(gòu)建
連續(xù)語音識別系統(tǒng)構(gòu)建是在一定硬件條件和實驗平臺上完成的,語音同步識別本質(zhì)上是一種模式識別過程,主要包括語音信號預處理,其基本原理如圖1所示。
由圖1可知,連續(xù)語音同步識別系統(tǒng)除了包括核心識別程序之外,還包括語音輸入、參數(shù)分析和文法語言模型構(gòu)建等。其中語音識別系統(tǒng)主要由語音信號預處理、核心計算和識別基本數(shù)據(jù)三部分組成[4]。
1.1 ?系統(tǒng)硬件結(jié)構(gòu)設(shè)計
基于隱馬爾可夫模型的連續(xù)語音同步識別將接收到的語音信號正確轉(zhuǎn)換成文本形式,該系統(tǒng)硬件結(jié)構(gòu)設(shè)計如圖2所示。
由圖2可知,語音信號是時變信號,具有平穩(wěn)性,因此對語音信號進行處理時,需使用函數(shù)對連續(xù)語音信號進行分段處理,每一段稱之為一幀,相鄰幀之間具有一定的重疊性,可減小跳變[5]。從每一幀中提取語音信號的魯棒性特征,可完成噪聲消除和特征提取[6]。
1.1.1 ?語音信號處理模塊
語音信號會隨著時間變化而發(fā)生改變,一旦出現(xiàn)混疊失真的噪聲干擾,就會使語音信號處理失效,因此在同步識別之前,必須使用低通濾波器對其進行防混疊失真處理[7]。語音信號處理模塊的低通濾波器設(shè)計如圖3所示。
由圖3可知,利用JFET輸入高保真運放的OPA604低通濾波器,具有運放高阻抗、低失真特性,可保證語音信號處理過程不會受到混疊失真噪聲的干擾影響,獲取準確、有效的信號處理結(jié)果,為連續(xù)語音同步識別提供精準數(shù)據(jù)[8]。
1.1.2 ?語音同步識別模塊
將上述獲取的信號處理結(jié)果利用連續(xù)語音同步識別模塊進行大量運算,采用DSP芯片可處理數(shù)字信號,具有體積小,適合安裝的功能。DSP芯片具有強大的在線交互能力,選擇OMAP5912ZZG型號DSP芯片配置了多種開發(fā)工具和多媒體數(shù)據(jù)庫,使系統(tǒng)能夠免費使用。語音同步識別模塊設(shè)計如圖4所示。
由圖4可知,選擇OMAP5912ZZG型號的芯片存儲處理器規(guī)格是300 KB的隨機存儲器,通過液晶顯示屏對連續(xù)語音數(shù)據(jù)進行緩沖。利用內(nèi)存卡擴展系統(tǒng)內(nèi)存,使用矢量圖緩沖音頻,經(jīng)由以太網(wǎng)接口移植相關(guān)語音識別序列[9]。
結(jié)合語音識別原理,設(shè)計系統(tǒng)硬件結(jié)構(gòu)。通過函數(shù)對連續(xù)語音信號進行分段處理,可減小跳變。由于語音信號處理過程會受到混疊失真噪聲干擾影響,因此,設(shè)計防混疊失真的低通濾波器,保證信號處理結(jié)果的準確性和有效性。根據(jù)獲取信號處理結(jié)果,利用連續(xù)語音同步識別模塊進行大量運算,選擇OMAP5912ZZG型號DSP芯片可大大降低系統(tǒng)設(shè)計成本,經(jīng)由以太網(wǎng)接口移植相關(guān)語音識別序列,由此完成系統(tǒng)硬件結(jié)構(gòu)設(shè)計[10]。
1.2 ?系統(tǒng)軟件功能設(shè)計
根據(jù)上述設(shè)計的語音同步識別模塊對其軟件功能進行設(shè)計[11]。具體設(shè)計流程如圖5所示。
語音識別在音頻方面具有非線性特征,符合人類聽覺神經(jīng)信號的收發(fā),識別效率較高,語音特征處理可分為濾波、樣本采集和語音分幀。采用隱馬爾可夫模型對單元匹配進行加窗操作處理,可使語音相鄰幀之間的信號傳輸更加平滑[12]。
基于隱馬爾可夫模型連續(xù)語音同步識別系統(tǒng)是按照用戶語音特征進行自動選擇窗函數(shù)形態(tài),詞性解碼與語法解析都是在隱馬爾可夫模型下進行的,由此可獲取語音信號頻率,并利用隱馬爾可夫模型對幀序列進行變換,解析幀序列中存在的部分失效數(shù)據(jù),對其進行刪減。
根據(jù)上述步驟可獲取語音幀處理結(jié)果,但經(jīng)過處理后的結(jié)果受到突發(fā)性噪音影響,部分語音幀短時平均能量突然提高,使得獲取的識別結(jié)果不準確,為此設(shè)計如圖6所示的處理階段流程。
具體實施步驟如下:
1) 當語音信號處于靜音階段時,令status=0,增加語音信號幀,如果某一幀短時能量出現(xiàn)過高問題,那么該幀為語音信號起始點,此時令status=1,說明語音信號進入了過渡期,無法確定該部分為語音段。
2) 繼續(xù)增加語音信號幀,如果某一幀短時能量出現(xiàn)過低問題,那么該幀表明過渡段恢復到靜音階段,此時status=0。
3) 如果該幀短時能量高于amp1,并且繼續(xù)增加幀號,則可確定信號進入語音階段,此時status=2,當前語音幀幀號為語音初始點。
4) 如果當前幀為語音段,則status=2,語音幀短時能量低于amp2,那么該段為噪聲。
5) 繼續(xù)增加幀號,當持續(xù)時間大于靜音階段時,則說明語音信號端點正常,可輸出有效語音。
根據(jù)系統(tǒng)軟件設(shè)計流程,采用隱馬爾可夫模型對單元匹配進行加窗操作處理,可使語音相鄰幀之間信號傳輸更加平滑。自動選擇窗函數(shù)形態(tài),獲取經(jīng)過隱馬爾可夫模型變換后的幀序列。由于獲取的結(jié)果中存在部分失效數(shù)據(jù),為此,需刪減一部分數(shù)據(jù),并設(shè)計處理階段流程,由此完成系統(tǒng)軟件部分的設(shè)計。
2 ?實 ?驗
為了對基于隱馬爾可夫模型的連續(xù)語音同步識別系統(tǒng)的有效性進行實驗分析,需從標準模式識別數(shù)據(jù)庫中提取部分語音訓練集。
2.1 ?實驗參數(shù)設(shè)置
實驗參數(shù)設(shè)置情況如表1所示。
2.2 ?實驗環(huán)境設(shè)置
為了防止安裝在電腦上的語音同步識別系統(tǒng)受到硬件性能影響而無法將全部性能發(fā)揮出來,需統(tǒng)一利用計算機上的高端系統(tǒng)性能進行實驗驗證分析。實驗環(huán)境設(shè)置如圖7所示。
2.3 ?實驗結(jié)果與分析
根據(jù)上述實驗參數(shù)和實驗環(huán)境,分別將傳統(tǒng)系統(tǒng)與基于隱馬爾可夫模型系統(tǒng)在突發(fā)性噪聲影響下,對其識別效果進行對比分析。
將這兩種系統(tǒng)的語音信號和短時能量進行驗證,結(jié)果如圖8所示。
由圖8可知:傳統(tǒng)系統(tǒng)在信號為1 000~2 000 Hz,6 300~6 900 Hz,8 900~9 200 Hz時出現(xiàn)中斷現(xiàn)象,導致短時能量失效;而基于隱馬爾可夫模型系統(tǒng)沒有出現(xiàn)中斷現(xiàn)象,可準確獲取短時能量。
根據(jù)上述對比內(nèi)容,將這兩種系統(tǒng)識別效果在突發(fā)性噪聲影響下進行對比,結(jié)果如表2所示。
由表2對比結(jié)果可知,基于隱馬爾可夫模型系統(tǒng)比傳統(tǒng)系統(tǒng)識別效果要好。
2.4 ?實驗結(jié)論
根據(jù)上述內(nèi)容,可得出如下實驗結(jié)論:當噪聲分別為20 dB,40 dB,60 dB,80 dB,100 dB時,基于隱馬爾可夫模型系統(tǒng)比傳統(tǒng)系統(tǒng)識別效果高15%,20%,26%,22%,48%。由此可知,基于隱馬爾可夫模型連續(xù)語音同步識別系統(tǒng)設(shè)計是有效的。
3 ?結(jié) ?語
由于語音識別系統(tǒng)設(shè)計過程較為復雜,加上時間條件限制,采用傳統(tǒng)方法容易受到突發(fā)性噪聲影響,識別效果較差,為此,本文設(shè)計基于隱馬爾可夫模型連續(xù)語音同步識別系統(tǒng)。該系統(tǒng)雖然在防御突發(fā)性噪聲影響上設(shè)計了低通濾波器,但系統(tǒng)對于環(huán)境的適應(yīng)能力還有待加強,因此可充分考慮語音識別系統(tǒng)語音加強方法,增加信噪比,提高系統(tǒng)性能。
參考文獻
[1] 郭雷勇,李宇,林勝義,等.用于隱馬爾可夫模型語音帶寬擴展的激勵分段擴展方法[J].計算機應(yīng)用,2017,37(8):2416?2420.
GUO Leiyong, LI Yu, LIN Shengyi, et al. Excitation piecewise expansion method for speech bandwidth expansion based on hidden Markov model [J]. Journal of computer applications, 2017, 37(8): 2416?2420.
[2] 王蕊,李彥驍,孫輝,等.基于隱馬爾可夫模型的切換飛行控制系統(tǒng)性能分析[J].電子與信息學報,2017,39(4):989?996.
WANG Rui, LI Yanxiao, SUN Hui, et al. Performance analysis of switched flight control systems based on hidden Markov model [J]. Journal of electronics & information technology, 2017, 39(4): 989?996.
[3] 李方偉,李騏,朱江.改進的基于隱馬爾可夫模型的態(tài)勢評估方法[J].計算機應(yīng)用,2017,37(5):1331?1334.
LI Fangwei, LI Qi, ZHU Jiang. Improved method of situation assessment method based on hidden Markov model [J]. Journal of computer applications, 2017, 37(5): 1331?1334.
[4] 曹薈強,林仲志,吳水才.基于隱馬爾可夫模型的老年人跌倒行為檢測方法研究[J].中國生物醫(yī)學工程學報,2017,36(2):165?171.
CAO Huiqiang, LIN Zhongzhi, WU Shuicai. A detection method for the fall behavior of elders based on hidden Markov model [J]. Chinese journal of biomedical engineering, 2017, 36(2): 165?171.
[5] 李娟,張冰怡,馮志勇,等.基于隱馬爾可夫模型的視頻異常場景檢測[J].計算機工程與科學,2017,39(7):1300?1308.
LI Juan, ZHANG Bingyi, FENG Zhiyong, et al. Anomaly detection based on hidden Markov model in videos [J]. Computer engineering and science, 2017, 39(7): 1300?1308.
[6] 林勇,劉湘瓊.基于隱馬爾可夫模型的拷貝數(shù)變異檢測算法研究[J].計算機應(yīng)用研究,2017,34(2):436?439.
LIN Yong, LIU Xiangqiong. Study of copy number variant detection algorithm based on hidden Markov model [J]. Application research of computers, 2017, 34(2): 436?439.
[7] 馮超,景小寧,李秋妮,等.基于隱馬爾可夫模型的空戰(zhàn)決策點理論研究[J].北京航空航天大學學報,2017,43(3):615?626.
FENG Chao, JING Xiaoning, LI Qiuni, et al. Theoretical research of decision?making point in air combat based on hidden Markov model [J]. Journal of Beijing University of Aeronautics and Astronautics, 2017, 43(3): 615?626.
[8] 肖曉紅,張懿,劉冬生,等.基于隱馬爾可夫模型的音樂分類[J].計算機工程與應(yīng)用,2017,53(16):138?143.
XIAO Xiaohong, ZHANG Yi, LIU Dongsheng, et al. Music classification based on hidden Markov models [J]. Computer engineering and applications, 2017, 53(16): 138?143.
[9] 王俊力,馮錫煒,孟菲.石油石化設(shè)備巡檢小車語音識別與控制系統(tǒng)設(shè)計與實現(xiàn)[J].電子設(shè)計工程,2017,25(22):74?77.
WANG Junli, FENG Xiwei, MENG Fei. Petroleum and petrochemical equipment inspection car voice recognition and control system [J]. Electronic design engineering, 2017, 25(22): 74?77.
[10] 吳震東,潘樹誠,章堅武.基于CNN的連續(xù)語音說話人聲紋識別[J].電信科學,2017,33(3):59?66.
WU Zhendong, PAN Shucheng, ZHANG Jianwu. Continuous speech speaker recognition based on CNN [J]. Telecommunications science, 2017, 33(3): 59?66.
[11] LI Changjiang, HU Yan. Research of phoneme recognition based on recurrent neural network [J]. Microelectronics & computer, 2017, 34(8): 47?51.
[12] GE Yongkan, YU Fengqin. Improved speech synthesis with adaptive postfilter parameters [J]. Computer engineering and applications, 2017, 53(1): 168?171.