金興祥 劉文通 牟 劍
(成都啟英泰倫科技有限公司 成都 610000)
在家庭里面,抽油煙機是廚房中不可或缺的電器之一,產(chǎn)品形態(tài)經(jīng)歷了中式、歐式、側吸、平板吸的不斷更新。當前市場的數(shù)據(jù)顯示,傳統(tǒng)廚電的增速已經(jīng)顯著放緩,甚至負增長,用戶不但需要高顏值、個性化的產(chǎn)品,還需要能融入當前高科技的智能化產(chǎn)品,匹配智能化家庭。這就要求企業(yè)與時俱進,賦能產(chǎn)品新價值。因此行業(yè)企業(yè)不斷對烹飪習慣和廚房環(huán)境進行深入研究,結合用戶對生活品質(zhì)提升的追求,綜合當前的人工智能技術,持續(xù)對油煙機的產(chǎn)品保持技術更新。而作為當前新技術的人工智能則是行業(yè)應用的一個突破口。
本項目采用基于深度學習的智能語音識別芯片CI1006,將人工智能離線語音識別技術應用于抽油煙機,實現(xiàn)便捷的人機交互。用戶在廚房里烹飪的時候,只需對油煙機說操作指令即可操作油煙機的開、關、風量大小等控制,簡單方便,不需要再放下手中的廚具中斷烹飪過程來操作油煙機。
語音識別技術起源于上世紀50年代,在深度學習、大數(shù)據(jù)出現(xiàn)后,語音識別技術實現(xiàn)了大規(guī)模商用。時至今日,已經(jīng)大量應用在智能家電、智能家居、智能照明燈各個領域,深入到人們的日常生活中。
語音識別技術在產(chǎn)品端的落地應用,則包含三個關鍵技術,算法、芯片及數(shù)據(jù)。
算法方面,從語音識別技術出現(xiàn)至今經(jīng)歷了多個發(fā)展階段,當前主流且實踐有效的是基于深度學習的深度神經(jīng)網(wǎng)絡(Deep Neural Networks, 簡稱DNN)算法,DNN算法的語音識別應用,由聲學模型建模、語言模型建模以及解碼三部分構成。神經(jīng)網(wǎng)絡模擬了人腦的深層結構,能夠更準確地“理解”事物的特征。因此相較于其他方法,深度神經(jīng)網(wǎng)絡可以更為準確地模擬聲學模型和語言模型。圖1揭示了一個深度神經(jīng)網(wǎng)絡表達的具有3個隱藏層的聲學模型結構。DNN的單機多GPU數(shù)據(jù)并行框架具有深層結構、數(shù)千萬參數(shù)需要學習,導致訓練非常耗時,需要強大的運算能力。因此需要運算能力強大的具有硬件加速的專用AI芯片才能更好的發(fā)揮算法的最佳效果。而CI1006是一款工業(yè)級專用AI語音識別芯片,具有強大的運算能力,具備VAD、FE、DNN 算法的硬件加速,能非常好的支持DNN 復雜算法的應用。語音數(shù)據(jù)庫則為算法提供訓練深層網(wǎng)絡使用的數(shù)據(jù)基礎。
相比于普通的油煙機產(chǎn)品,智能語音識別油煙機在產(chǎn)品設計上更具有創(chuàng)新性和挑戰(zhàn)性,在產(chǎn)品結構、電路、功能上需要更專業(yè)的支持。
一個完整的語音識別方案應用需要同時具備芯片、算法、數(shù)據(jù)這三個方面的關鍵技術,因此客戶在經(jīng)過識別率、功耗、可靠性、體驗感、量產(chǎn)經(jīng)驗、公司技術支持能力等多方面的對比分析后,綜合客戶的應用場景和技術需求評估,采用了CI1006作為離線語音識別的主控方案。在綜合評估項目開發(fā)的時間、進度等需求后,客戶采取語音識別模塊+主控模塊的方式推進,在最短時間內(nèi)完成產(chǎn)品設計。
語音識別模塊板為單面貼裝,主要IC包括CI1006、Flash、Audio Codec、功放和電源。
電源供電:5 V電源通過電源接口輸入,5 V電壓經(jīng)過兩個DC-DC降壓為3.3 V和1.2 V,給主芯片CI1006供電。
語音識別信號流程:麥克風輸入的語音通過Audio Codec傳輸給CI1006,經(jīng)CI1006識別后,通過UART接口發(fā)送給油煙機原控制系統(tǒng)進行控制,由輸出到Audio Codec并處理后送給功放芯片驅(qū)動喇叭播放聲音。
人講話→麥克風輸入→CI1006模組識別→串口發(fā)送命令詞→煙機主機接收后進行控制。
引腳:模塊板上通過引腳將CI1006 芯片功能IO口引出,方便進行開發(fā)。
IO口 配 置:3路 UART,1路 SPI,1路 IIS,2路MIC,1路JTAG,2路PWM,1路IIC,1路音頻輸出。
圖1 DNN算法具有3個隱藏層的聲學模型結構
圖2 語音油煙機系統(tǒng)控制方案
油煙機運行時本體產(chǎn)生的風機噪聲可高達70多分貝,屬于高嘈雜環(huán)境,還伴有炒菜聲、人的說話聲等,所以在油煙機的應用上需要有非常好的降噪效果。在上述的語音識別模塊上,搭載特有的基于統(tǒng)計模型的噪聲抑制算法,能有效解決該應用場景下的語音識別問題。
算法整體流程框圖如圖4所示。
圖4中,x(n)為純凈信號,d(n)為噪音信號,y(n)為輸入的帶噪語音信號,Y為一幀信號FFT變換后的頻譜,相位部分為∠Xψ(k,l),為噪聲譜估計算法得到噪聲譜估計值,G為通過譜增益算法求得的增益因子,(k,l)為降噪后的語音頻譜,(n)為經(jīng)過合成窗后疊加輸出的降噪后語音。
幾種常用的噪聲估計算法中采用了時間遞歸平均的算法,該方法簡單有效,但在跟蹤噪聲變化上存在一定的時間延遲,本文算法對此進行了有效改進,提高了噪聲估計的可靠性。
圖3 語音識別模塊和方案結構
在抽油煙機的真實噪聲環(huán)境下進行測試,截取測試過程中部分音頻降噪前后的波形及語譜圖如圖5所示,噪聲抑制算法的結合能有效抑制穩(wěn)態(tài)噪聲,在保證語音失真度的同時具有良好的噪聲抑制效果。
指令詞字數(shù)在4~6個字;喚醒詞的音節(jié)盡量多且差異大,最少為4音節(jié);喚醒詞避免使用日常用語,避免誤喚醒;喚醒詞盡量不要用生僻字和零聲母字;喚醒詞避免使用疊詞。
在實際設計中,麥克風安裝時需要把拾音范圍控制在使用者發(fā)音范圍內(nèi)。油煙機內(nèi)有電機,工作時會產(chǎn)生振動和噪音,麥克風盡量遠離噪音源和振動源,并且安裝結構要盡量做到避免振動。麥克風盡量避免風吹,風會帶動空氣流動形成密度不均勻的狀態(tài),聲音在這種情況下傳導會失真,影響識別效果。在以上要點基礎上需要同時需要考慮到麥克風的防水問題。
圖4 基于統(tǒng)計模型的噪聲抑制算法
圖5 煙機噪聲環(huán)境下降噪前后的波形及語譜圖
在系統(tǒng)設計完成,按照實際家居使用環(huán)境將測試環(huán)境搭建好后,我們用指令詞對語音油煙機進行實地測試,在油煙機開機到最大風量情況下,實際測試效果非常好,達到90 %的識別率,客戶很滿意。
指令詞集:你好煙機,打開煙機,關閉煙機,三檔風,二檔風,一擋風,增大音量,減小音量,打開照明,關閉照明,延時關機。
以語音識別控制的方式來給油煙機賦能,使操作智能化,加上自然語言的應用,使用戶擺脫了烹飪過程中手動操作油煙機,實現(xiàn)無需網(wǎng)絡的人機交互,能夠一邊烹飪一邊通過語音來操作油煙機。本項目的研究已在客戶端實現(xiàn)量產(chǎn)。
基于CI1006的語音識別模塊還應用在更多的領域,如智能音箱、智能玩具、智能家電、智能家居、智能汽車、智能照明等,通過給產(chǎn)品賦能,提升產(chǎn)品技術含量,推動產(chǎn)品升級,為產(chǎn)品帶來更高的價值,為用戶提供更便捷、更智能的體驗。