桑亞超 李龍杰 袁傳青 霍慶磊 張 樂
(格力電器(合肥)有限公司 合肥 230088)
隨著科學(xué)技術(shù)的不斷更新迭代,人們生活的方方面面不斷朝智能化方向發(fā)展,而人工智能在家居方面的應(yīng)用,各個地區(qū)已屢見不鮮并呈爆炸式的增長。目前智能家居的概念已經(jīng)深入廣大消費(fèi)者的心中,中國空調(diào)行業(yè)在該領(lǐng)域發(fā)展迅猛,已經(jīng)成為智能普及度相對較高的白色家電之一。本文通過介紹語音識別在空調(diào)上的應(yīng)用及測試方法等內(nèi)容闡述其應(yīng)用原理和判定要求和進(jìn)一步的優(yōu)化空間,為智能語音空調(diào)的發(fā)展提供借鑒。
智能語音在空調(diào)上實現(xiàn)應(yīng)用需要三個環(huán)節(jié):首先是獲取——將人發(fā)出的語音信號轉(zhuǎn)化為可處理的數(shù)字信號;然后是預(yù)處理——對采集到的語音信號進(jìn)行識別過濾,降噪、消回聲、去混響等處理,形成可準(zhǔn)確判斷的有效音頻信號;最后是預(yù)設(shè)置的的語音識別引擎對過濾的的語音信號進(jìn)行識別和分析,從而實現(xiàn)智能反饋要求的規(guī)定動作。從算法層面分析,在完成識別引擎集中處理獲取的信號之前需要進(jìn)行不同方位及距離拾音,所以必須使用麥克風(fēng)陣列,加上語音預(yù)處理算法規(guī)則,才能實現(xiàn)人機(jī)交互且能正確反饋。信號獲取前端處理是至關(guān)重要的一環(huán),高信噪比是解決復(fù)雜語音設(shè)計最大挑戰(zhàn)。目前智能手機(jī)上已經(jīng)相對成熟的智能語音應(yīng)用有Siri、Google Assistant,但目前最主要的智能語音應(yīng)用最大交互識別距離只有3~5 m,更遠(yuǎn)距離或者環(huán)境更嘈雜的遠(yuǎn)場智能語音信號處理急需解決,這就需要不同陣列的麥克風(fēng)組合,以解決多通道語音采集、低復(fù)雜度、高信噪比(SNR)以及不同語境方言的設(shè)計要求。在整個語音識別反饋流程中,前端語音獲取和預(yù)處理對語音識別的準(zhǔn)確率起到了決定性作用,所以語音ADC芯片的性能表現(xiàn)是關(guān)鍵因素。一般而言,信噪比SNR是決定ADC芯片性能強(qiáng)弱的一個重要參數(shù),它代表了最大不失真聲音信號的可識別比例、即可被過濾的有用信號強(qiáng)度與過濾后的比率,信噪比SNR越大,噪音越小,代表芯片可處理效果及功能就越好。
智能空調(diào)的第一階段以智能連接為主,目前這一技術(shù)已經(jīng)趨于成熟,全面加速向互聯(lián)網(wǎng)轉(zhuǎn)型已經(jīng)成為空調(diào)企業(yè)的一致選擇。隨著智能連接技術(shù)的進(jìn)一步普及,空調(diào)廠商的獲利空間被進(jìn)一步壓縮,而降低成本、投入更多資源研發(fā)更高段的智能化空調(diào)就成為大多數(shù)空調(diào)廠商的下一步選擇。白色家電中如空調(diào),增加語音識別交互功能整體成本相對要增加5 %~10 %,相對成本占比及整體壓力還是非常之大,所以可通過量產(chǎn)集中式的定制方案不斷壓縮成本,以提高競爭力。目前關(guān)于語音識別功能制造的各個環(huán)節(jié)廠商都在加速融合及分工以達(dá)到最高的性價比。不同環(huán)節(jié)下語音信號可以通過升采樣率的方式,實現(xiàn)了標(biāo)準(zhǔn)的I2S支持多路音頻數(shù)據(jù)傳輸,從而在優(yōu)化方案中可以節(jié)省FPGA或MCU,同時也可以降低設(shè)計成本及產(chǎn)品復(fù)雜程度。
通過定制化和模塊化的優(yōu)化方案不僅能降低生產(chǎn)成本,還能加快新品語音空調(diào)的上市周期,這對于增加品牌擠占快速發(fā)展的消費(fèi)市場份額非常重要。無論是ADC還是SoC,都只是語音識別系統(tǒng)中的一環(huán),整個語音識別系統(tǒng)的成熟發(fā)展至關(guān)重要。目前多維度組合的麥克風(fēng)陣列以及配套語音前處理算法、云端處理平臺等已經(jīng)相對發(fā)展成熟。急需處理的為快速提升語音識別效果及準(zhǔn)確率,這其中包括大量AI訓(xùn)練下的多語種、多方言、多環(huán)境支持,以達(dá)到可以快速量產(chǎn)環(huán)節(jié)等等。
測試方法主要用于指導(dǎo)測試語音系統(tǒng)的喚醒識別、指令識別。下面介紹使用Dirc軟件、噪音分貝儀等設(shè)備在選擇底噪、面積小的房間測試空調(diào)的語音功能。
3.1.1 房間選擇需要注意3個條件:混響、噪音、距離。
3.1.2 底噪測試方法:將被測語音空調(diào)放到測試房間中要測試的位置,把分貝儀的開關(guān)打開,放在被測語音空調(diào)的MIC處,讀取分貝儀上的數(shù)值,即為房間底噪,底噪建議不能大于40 dB
3.1.3 SNR測試方法:將播放語料的高保真音箱放在要測試的位置,電腦連接高保真音箱播放語料,把分貝儀的開關(guān)打開,放在被測語音空調(diào)的MIC處,讀取分貝儀上的數(shù)據(jù),即為人聲的分貝;停止播放語料,用另一臺電腦接另一個音箱播放生活噪音(電視或者音樂等),把分貝儀再次放在被測語音空調(diào)的MIC處,讀取分貝儀上的數(shù)據(jù),即為噪音的分貝,噪音分貝不能高于60 dB。將人聲的分貝減去噪音的分貝即為當(dāng)前的SNR,SNR不能低于15 dB。
主要有如下測試場景:
3.2.1 喚醒識別:
①安靜、典型混響、3 m、喚醒
②安靜、典型混響、5 m、喚醒
③噪音、典型混響、1 m、喚醒
④噪音、典型混響、3 m、喚醒
⑤噪音、典型混響、5 m、喚醒
3.2.2 指令識別:
①安靜、典型混響、1 m、識別
②安靜、典型混響、3 m、識別
③安靜、典型混響、5 m、識別
④噪音、典型混響、1 m、識別
⑤噪音、典型混響、3 m、識別
⑥噪音、典型混響、5 m、識別
由于測試場景較多,選擇兩個場景舉例
操作步驟:
1)在選定的典型混響、底噪不超過40 dB,長度大于6 m的房間中,放入被測語音空調(diào)、兩臺電腦、兩個音箱(有一個必須是高保真音箱,用來播放語料);
2)用其中一臺電腦連接高保真音箱,高保真音箱放在距離被測語音空調(diào)3 m正對面;
3)電腦播放喚醒語料,用分貝儀在被測語音空調(diào)MIC處測量播放的分貝值,用該分貝值減去底噪音,即為SNR,SNR必須大于15 dB;
4)確定播放的分貝值后,給語音空調(diào)上電,等播報“歡迎使用格力空調(diào)”的提示;
5)用電腦播放喚醒語料,并且記錄喚醒率。
操作步驟:
表1 語音喚醒測試擬定的條件與判斷依據(jù)
1)在選定的典型混響、底噪不超過40 dB,長度大于6 m的房間中,放入被測語音空調(diào)、兩臺電腦、兩個音箱(有一個必須是高保真音箱,用來播放語料);
2)用其中一臺電腦A連接其中一個音箱,音箱放在房間的任意位置;
3)電腦A播放生活噪音,用分貝儀在被測語音空調(diào)MIC處測量噪音的分貝值,記為X,X不能大于60 dB;
4)停止播放生活噪音;
5)另一臺電腦B連接高保真音箱,音箱放在被測試語音空調(diào)5 m正對面處;
6)電腦B播放識別語料,用分貝儀在被測語音空調(diào)MIC處測量人聲的分貝值,記為Y;
表2 語音識別測試擬定的條件與判斷依據(jù)
7)用Y減去X,即為SNR,SNR必須大于15 dB;
8)確定播放的分貝值后,給語音空調(diào)上電,等播報“歡迎使用”的提示
9)先播放生活噪音,再喚醒語音空調(diào),然后再播放指令識別語料,并且記錄識別率;
5.1 表1為語音喚醒測試擬定的條件與判斷依據(jù)
5.2 表2為語音識別測試擬定的條件與判斷依據(jù)
5.3 語音識別功能在空調(diào)上模擬測試
圖1為模擬測試而進(jìn)行的語言準(zhǔn)備功能測試模擬圖(如圖1),設(shè)備準(zhǔn)備調(diào)試完成之后進(jìn)行測試。從以下結(jié)果中(如表3)可以看出環(huán)境、角度以及距離等差異對語音識別合格率差異較大。
圖1 空調(diào)語言功能模擬
表3 空調(diào)語言功能模擬結(jié)果
1)語音識別功能在空調(diào)上進(jìn)行應(yīng)用需經(jīng)過三個環(huán)節(jié):拾取、處理和反饋;
2)語音識別功能在實際模擬過程中需不斷進(jìn)行標(biāo)準(zhǔn)制定和優(yōu)化以適應(yīng)不同開發(fā)機(jī)型的功能的應(yīng)用,同時不同命令詞識別、喚醒時在不同工況下差異較大;
3)語音識別功能在混合環(huán)境下功能體驗性較差,而信噪比是決定語音功能實際應(yīng)用和優(yōu)化的一個重要參數(shù)。