【摘 要】為了最大化實現(xiàn)智能座艙的語音識別準(zhǔn)確率,提出一種提高語音識別的分析和優(yōu)化方法,在其他硬件條件相同時,可有效提高語音識別率,以便智能網(wǎng)聯(lián)車機(jī)更好地實現(xiàn)多模交互、主動交互,成為一個懂用戶的出行伙伴,為用戶帶來場景化、個性化體驗。
【關(guān)鍵詞】智能網(wǎng)聯(lián)車機(jī);語音識別;麥克風(fēng)
中圖分類號:U463.67 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-8639( 2024 )10-0026-03
Analysis and Optimization Methods for Improving Vehicle Speech Recognition
ZHANG Mei
(Jiangling Motors Co.,Ltd.,Nanchang 330001,China)
【Abstract】In order to maximize the accuracy of speech recognition in the intelligent cockpit,an analysis and optimization method to improve speech recognition is proposed,which can effectively improve the speech recognition rate when other hardware conditions are the same,so that the intelligent networked vehicle machine can better realize multi-mode interaction and active interaction,become a travel partner who understands users,and bring scenario-based and personalized experience to users.
【Key words】intelligent networked vehicle;speech recognition;microphone
作者簡介
張梅(1989—),女,工程師,主要從事智能座艙域控制器平臺、網(wǎng)聯(lián)IVI及配套零部件的開發(fā)工作,負(fù)責(zé)娛樂系統(tǒng)的功能定義和開發(fā),包括電源管理、功放系統(tǒng)、語音生態(tài)系統(tǒng)等,負(fù)責(zé)與智能駕駛領(lǐng)域相關(guān)功能的交互和測試,推動自動泊車/記憶泊車以及高精度定位導(dǎo)航等智能駕駛相關(guān)功能按時完成開發(fā)工作。
伴隨著科技的發(fā)展和進(jìn)步,汽車的功能也越來越多,用戶如今越來越關(guān)注環(huán)保健康、智能交互以及智能服務(wù)。而智能交互離不開語音識別功能。隨著解決多領(lǐng)域、多用戶、多場景下識別效果差、反應(yīng)速度慢、系統(tǒng)構(gòu)建時間長等技術(shù)問題的解決,顯著提升了語音識別效果和識別精度,充分發(fā)揮了麥克風(fēng)的性能,讓語音識別精度達(dá)到設(shè)計要求。
1 語音識別的原理
語音識別技術(shù)的工作原理可以分為3個主要步驟:語音信號處理、特征提取和識別輸出。其中,語音信號處理主要由麥克風(fēng)拾音完成,涵蓋了發(fā)出的語音指令和環(huán)境噪聲等;聲學(xué)信號預(yù)處理的重點在于降噪濾波,以獲取有效的聲學(xué)特征。作為語音識別的前提與基礎(chǔ),語音信號的預(yù)處理過程至關(guān)重要。在最終進(jìn)行模板匹配時,會將輸入語音信號的特征參數(shù)與模板庫中的特征參數(shù)進(jìn)行對比,所以,唯有在預(yù)處理階段獲取到能夠體現(xiàn)語音信號本質(zhì)特征的特征參數(shù)(如降噪濾波),才能對這些特征參數(shù)予以匹配,從而實現(xiàn)識別率高的語音識別?;诼晫W(xué)預(yù)處理后所獲得的語音波形,通過搭建一系列的算法函數(shù)模型算法,實現(xiàn)最終的語音識別。語音識別工作原理如圖1所示。
1.1 降噪濾波原理
降噪濾波的原理是消除麥克風(fēng)拾音里的噪聲(環(huán)境底噪N、風(fēng)噪W、揚聲器發(fā)出的聲音S)并保留有效語音P(人發(fā)出的語音指令)。一般情況下,環(huán)境底噪N、風(fēng)噪W、揚聲器S均可通過建立適當(dāng)?shù)臄?shù)學(xué)函數(shù)模型,在算法里把需要消除的音頻信號與其自身的反信號混合,從而實現(xiàn)對該音頻信號的消除,即P=M-f(N)-f(W)-f(S),其中M為麥克風(fēng)接收到的聲音。降噪濾波原理圖如圖2所示。
1.2 麥克風(fēng)
麥克風(fēng),又名傳聲器,用于拾取和傳送聲音,能夠?qū)⒙曇粜盘栟D(zhuǎn)換為電信號。作為語音識別的第一輸入端,麥克風(fēng)識別的聲音品質(zhì)與語音識別的準(zhǔn)確率緊密相關(guān),在實際開發(fā)過程中,會通過調(diào)整麥克風(fēng)參數(shù),以達(dá)到一個較好的狀態(tài),從而提升語音識別率。表1為某SUV選擇的典型麥克風(fēng)參數(shù)。
2 問題描述
某SUV車型在研發(fā)過程中,綜合測試語音識別性能進(jìn)行驗收時發(fā)現(xiàn),在用戶常見場景下(0~76dB),嚴(yán)格按照設(shè)計的標(biāo)準(zhǔn)執(zhí)行,主要測試AEC、喚醒率、識別率、全局/運用免喚醒識別率、誤喚醒及全雙工交互等,結(jié)果全部通過。然而,在強(qiáng)噪聲89dB左右時,語音識別出現(xiàn)了較高概率的語音喚醒不了或語音指令不執(zhí)行等情況,綜合評估語音識別率低于達(dá)標(biāo)線(90%),在音樂聲音24級時,車內(nèi)背景聲音為89dB,AEC(回聲消除)的成功率僅有60%。其導(dǎo)致的后果是,在高分貝狀態(tài)下,存在無法喚醒語音識別、喚醒后無法正確識別等問題。表2為某車型的測試結(jié)果,其測試場景為:車機(jī)播放音樂,對應(yīng)語音音量(TTS)減小5dB。車窗關(guān)閉,空調(diào)中擋,根據(jù)分析分貝值設(shè)置對應(yīng)音量。
經(jīng)過一系列的排查分析,在某一頻段(頻率點260Hz)附近時,門內(nèi)鈑金與揚聲器發(fā)生共振失真,共振失真產(chǎn)生的一連串諧波干擾,由于降噪模塊無法完全除噪,致使輸出給娛樂系統(tǒng)主機(jī)端的語音波形嚴(yán)重失真,從而造成語音識別功能障礙。進(jìn)一步展開分析,測試頻率響應(yīng)、輸出飽和度、AEC性能、語音品質(zhì)、信道噪聲、一致性以及左右麥克風(fēng)差異等參數(shù)。通過對經(jīng)過實測得到的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)左右麥克風(fēng)語音品質(zhì)、信道噪聲、AEC性能等參數(shù)未達(dá)標(biāo)。
2.1 語音品質(zhì)
滿分4.5分,分值越高,意味著品質(zhì)越佳。從測試結(jié)果看,左右麥克風(fēng)語音品質(zhì)均未達(dá)到設(shè)計值。分析可能引起語音品質(zhì)差的原因:①信噪比低,底噪大,需要檢查車機(jī)系統(tǒng)電路噪聲及環(huán)境是否安靜;②信號丟包,需要保證將SPI速率設(shè)置為大于6Mb/s;③ASR點語音品質(zhì)與LOUT點輸出的差別大于0.1分,檢查LOUT到ASR點語音信號變化的原因,例如增益或者失真等。調(diào)整前語音品質(zhì)測試結(jié)果見表3。
2.2 信道噪聲
對MIC信號、LOUT和ASR節(jié)點底噪信號的平均功率值進(jìn)行了計算。對于底噪過大這一情況,分析可能引起語音品質(zhì)差的原因為:檢查測試環(huán)境是否安靜,關(guān)閉聲源(空調(diào)、發(fā)動機(jī)、喇叭播放電流聲);電路噪聲,需定位根源。調(diào)整前信道噪聲測試結(jié)果見表4。
2.3 AEC性能
線性消TTS回聲性能,正常音量,增大6dB,增大10dB音量。測試發(fā)現(xiàn)僅增大10dB未達(dá)標(biāo)。分析可能引起語音品質(zhì)差的原因:喇叭本身失真或PA放大時使推出的信號矢量失真;MIC氣密性不良,腔體有泄露;回聲信號過大,測試結(jié)果見表5。
3 優(yōu)化驗證方案及驗證結(jié)果
3.1 優(yōu)化方案
MIC內(nèi)部設(shè)計可被視作一個可變的阻抗元器件,其一端固定,另一端可動。在MIC輸出端,可理解為會隨著外界音源輸入變化而變化的電信號。例如,當(dāng)R3阻值增大時,輸入電流減小,MIC錄音輸出電平也隨之減小。在處理MIC輸出的電信號時,它可能會被當(dāng)作噪聲或者無效輸入而不被處理,即靈敏度比較低,對于較小的聲音輸入,就無法獲取。反之,當(dāng)R3阻值減小時,輸入電流增大,MIC錄音輸出電平也增大,靈敏度便提高了,對較小的聲音輸入也能拾取。根據(jù)經(jīng)驗設(shè)計,在硬件設(shè)計時,需要綜合考慮噪聲和靈敏度,我們通常采用的阻值參數(shù)在1~50Ω之間。
經(jīng)過多輪測試以及對麥克風(fēng)參數(shù)的調(diào)整后,對其優(yōu)化效果予以驗證,測試方法與前面所述的測試方法相同,得到的測試數(shù)據(jù)如下:將電路原理圖中R3電阻的阻值由10Ω變?yōu)?7Ω,麥克風(fēng)電路原理圖如圖3所示。
3.2 測試結(jié)果
在對麥克風(fēng)調(diào)整R3阻值后,頻響曲線無明顯變化(曲線平滑,滿足設(shè)計要求),靈敏度有所降低,約-12dB(設(shè)計要求為-13~-7dB),失真度降低至約1.2%,信噪比無明顯變化,實測值約65dB,工作電流也無明顯變化,參數(shù)調(diào)整后失真度更低,參數(shù)處于已量產(chǎn)車型要求的范圍內(nèi)。調(diào)整前后參數(shù)對比見表6,參數(shù)調(diào)整前后的頻率響應(yīng)如圖4所示。
調(diào)整參數(shù)后,測試左右麥克風(fēng)語音品質(zhì)、信道噪聲、AEC性能等參數(shù),從測量參數(shù)結(jié)果可知,性能已達(dá)標(biāo),詳見表7~表11。
4 結(jié)束語
影響語音識別的因素眾多,在語音性能測試驗收階段,此時已處于車型開發(fā)的后期,此階段結(jié)構(gòu)件基本處于凍結(jié)狀態(tài),難以優(yōu)化和調(diào)整,或者說調(diào)整周期較長、代價較大,難以滿足優(yōu)化周期。文中提出通過電路優(yōu)化,并進(jìn)行參數(shù)測量及驗收測試,使關(guān)鍵參數(shù)滿足設(shè)計要求,這樣既節(jié)約了優(yōu)化成本,縮短了優(yōu)化周期,又讓語音識別有了顯著的提升。
參考文獻(xiàn):
[1] 張雪英. 數(shù)字語音處理及MATLAB仿真(第二版)[M]. 北京:電子工業(yè)出版社,2016.
[2] 崔勝民. 智能網(wǎng)聯(lián)汽車新技術(shù)[M]. 北京:化學(xué)工業(yè)出版社,2021.
[3] [加]Jacob Benesty,Jingdong Chen,Yiteng Huang. 麥克風(fēng)陣列信號處理[M]. 鄒霞,周彬,賈沖,譯. 北京:國防工業(yè)出版社,2016.
[4] 洪青陽,李琳. 語音識別原理與應(yīng)用[M]. 北京:電子工業(yè)出版社,2020.
[5] 陳光夢. 高頻電路基礎(chǔ)(第二版)[M]. 上海:復(fù)旦大學(xué)出版社,2016.
[6] [加]Simon Haykin. 自適應(yīng)濾波器原理(第五版)[M]. 鄭寶玉,譯. 北京:電子工業(yè)出版社,2016.
(編輯 凌 波)