李 超
(1.東南大學(xué) 國家專用集成電路系統(tǒng)工程技術(shù)研究中心,江蘇 南京 210096;2.南京郵電大學(xué) 計(jì)算機(jī)軟件學(xué)院,江蘇 南京 210046)
聲音識別傳感器設(shè)計(jì)與應(yīng)用*
李 超1,2
(1.東南大學(xué) 國家專用集成電路系統(tǒng)工程技術(shù)研究中心,江蘇 南京 210096;2.南京郵電大學(xué) 計(jì)算機(jī)軟件學(xué)院,江蘇 南京 210046)
對聲音識別技術(shù)進(jìn)行了深入研究,提出一種聲音識別傳感器設(shè)計(jì)。該傳感器首先采集聲音信號,經(jīng)過整形、放大后進(jìn)行A/D轉(zhuǎn)換,提取語音特征,并利用動(dòng)態(tài)時(shí)間規(guī)整(DTW)算法進(jìn)行識別;傳感器采用C/S架構(gòu)和外部設(shè)備進(jìn)行通信,通過串口接收外部設(shè)備命令,分析處理后傳回識別結(jié)果。最后設(shè)計(jì)并實(shí)現(xiàn)智能家居硬件環(huán)境,通過聲音識別傳感器完成智能家居的遠(yuǎn)程遙控,完成諸如開燈、關(guān)燈等動(dòng)作。實(shí)驗(yàn)結(jié)果表明:該傳感器工作穩(wěn)定,識別率高,能夠應(yīng)用于各種場合。
嵌入式系統(tǒng); 智能家居; 聲音識別傳感器
隨著傳感器計(jì)算的快速發(fā)展,其在智能家居[1,2]中的應(yīng)用日益廣泛。聲控裝置是智能家居設(shè)備中重要組成部分,用戶可以通過聲音進(jìn)行家庭設(shè)備控制。聲音識別研究開始于20世紀(jì)50年代,BELL實(shí)驗(yàn)室開發(fā)了世界上第一個(gè)語音識別系統(tǒng)—Audry系統(tǒng),可以識別10個(gè)英文數(shù)字。到20世紀(jì)70年代,聲音識別技術(shù)得到快速發(fā)展,動(dòng)態(tài)時(shí)間規(guī)整 (DTW) 算法、矢量量化(VQ)以及隱馬爾科夫模型(HMM)理論等相繼被提出,實(shí)現(xiàn)了基于DTW技術(shù)的特定人孤立語音識別系統(tǒng)。近年來,聲音識別技術(shù)已經(jīng)從實(shí)驗(yàn)室走向?qū)嵱茫瑖鴥?nèi)外很多公司都利用聲音識別技術(shù)開發(fā)出相應(yīng)產(chǎn)品。
本文設(shè)計(jì)聲音識別傳感器,并將其融入到智能家居系統(tǒng)中,通過聲音控制傳感器來完成智能家居設(shè)備的控制,達(dá)到遠(yuǎn)程遙控家電設(shè)備的目的。
聲音識別傳感器設(shè)計(jì)包括硬件設(shè)計(jì)和軟件設(shè)計(jì)兩個(gè)部分,其中軟件設(shè)計(jì)部分的核心是聲音識別算法實(shí)現(xiàn)。聲音識別算法包括前端處理和后端匹配兩個(gè)部分[3,4],如圖1所示。前端處理包括預(yù)處理和特征提取,常用的特征包括短時(shí)均值能量、短時(shí)均值過零率、預(yù)測系數(shù)、倒譜、共振峰等。這些特征參數(shù)按照時(shí)間序列構(gòu)成待測數(shù)據(jù)集,然后按照特定算法要求同參考模式進(jìn)行匹配得到結(jié)果。目前比較多的模型匹配技術(shù)有DTW[5]、HMM和人工神經(jīng)網(wǎng)絡(luò)(ANN)等[6~8],本文以DTW算法為原型基礎(chǔ)編程實(shí)現(xiàn)。
圖1 聲音識別系統(tǒng)原理框圖Fig 1 Principle block diagram of voice recognition system
DTW算法基于動(dòng)態(tài)規(guī)劃思想,能夠解決發(fā)音長短不一的模板匹配問題,主要用于孤立詞識別,是語音識別中出現(xiàn)較早而且極為經(jīng)典的一種算法。聲音識別參考模板為R={R(1),R(2),…,R(m),…,R(M)},其中,m為訓(xùn)練語音幀的時(shí)序標(biāo)號,R(1)為起點(diǎn)語音幀,R(M)為終點(diǎn)語音幀;聲音識別測試模板為T={T(1),T(2),…,T(n),…,T(N)},n為測試語音幀的時(shí)序標(biāo)號,T(1)為起點(diǎn)語音幀,T(N)為終點(diǎn)語音幀。測量T,R的距離D[T,R],距離越小,則相似度越高。DTW算法實(shí)現(xiàn)過程如下:
1)初始化,申請2個(gè)n×m的距陣D和d,分別為累積距離和幀匹配距離;
2)判斷是否滿足結(jié)束條件,若滿足跳轉(zhuǎn)到第5步;
3)計(jì)算X1=round((2M-N)/3))和X2=round((2N-M)×2/3);
4)根據(jù)X1和X2關(guān)系進(jìn)行匹配計(jì)算;
5)輸出累積距離D。
本文采用聲音采集傳感器、STM公司的STM32F103VCT6作為主要器件來設(shè)計(jì)聲音識別傳感器,系統(tǒng)構(gòu)成如圖2所示。系統(tǒng)由聲音采集傳感器模塊、電源模塊、串口通信模塊、聲音識別結(jié)果顯示模塊以及其它輔助電路組成。
圖2 聲音識別傳感器框圖Fig 2 Block diagram of voice recognition sensor
3.1 聲音采集傳感器
設(shè)計(jì)的聲音采集傳感器內(nèi)置一個(gè)對聲音較敏感的電容式駐極體話筒,當(dāng)有聲波時(shí),聲波推動(dòng)話筒內(nèi)的駐極體薄膜振動(dòng),導(dǎo)致電容的變化,從而產(chǎn)生微小電壓信號。電壓信號經(jīng)過整形放大后送到A/D模塊進(jìn)行A/D轉(zhuǎn)換,得到采集聲音所對應(yīng)的數(shù)字信息,交由處理器進(jìn)行處理識別。設(shè)計(jì)的聲音采集傳感器性能指標(biāo)為:測量范圍為30~120 dB(A);頻率范圍為20 Hz~8 kHz;靈敏度為電壓41.5 mV/dB,電流為0.133 mA/dB;最大誤差為0.5 dB。
3.2 核心處理器與外圍電路設(shè)計(jì)
本文采用STM32F103VCT6為核心處理器,該處理器為ARM 32的Cortex-M3核,最高工作頻率可達(dá)72 MHz,性能達(dá)到1.25DMips/MHz,內(nèi)部集成FLASH和RAM,并且有3個(gè)12位A/D轉(zhuǎn)換器。該處理器功耗低,接口豐富,具有BSP庫,易于快速產(chǎn)品開發(fā)和設(shè)計(jì)。
核心處理器外圍接口電路包括電源模塊、晶振模塊、控制和顯示模塊、聲音采集模塊等。電源模塊采用5 V直流電壓輸入;晶振模塊使用8 MHz晶振和32.768 kHz晶振直接連接到處理器相應(yīng)端口;控制和顯示電路通過GPIO口和處理器進(jìn)行互連;聲音采集模塊通過AD口連接到處理器。
3.3 通信模塊電路設(shè)計(jì)
聲音傳感器和外部器件采用C/S結(jié)構(gòu),通過串口和外部器件相連。外部器件通過串口發(fā)送命令,聲音傳感器通過串口接收命令后進(jìn)行解析、執(zhí)行,并把結(jié)果反饋給外部器件。圖3顯示了聲音傳感器和PC通信過程。
圖3 聲音識別傳感器C/S通信Fig 3 C/S communication of voice recognition sensor
由于外部器件串口電平多為RS—232電平,而聲音識別傳感器的處理器串口電平為TTL電平,因此,聲音識別傳感器內(nèi)部采用MAX3232芯片進(jìn)行電平轉(zhuǎn)換。
3.4 軟件編程與實(shí)現(xiàn)
聲音識別傳感器軟件編程主要包括三部分:語音采集、訓(xùn)練和識別,詳細(xì)步驟如圖4所示。
1)語音采集模塊:采集語音,并保存為“.wav”文件;
2)訓(xùn)練模塊:對錄入的語音進(jìn)行預(yù)處理和Mel倒譜系數(shù)提取,形成語音模板并保存到指定文件中;
3)識別模塊:對待測語音進(jìn)行預(yù)處理和Mel倒譜系數(shù)提取,然后與保存的模板進(jìn)行匹配,并把識別結(jié)果顯示出來。
圖4 語音識別模塊軟件設(shè)計(jì)流程Fig 4 Software design process of phonetic recognition module
4.1 測試環(huán)境搭建
本文為測試聲音識別傳感器性能,搭建智能家居遠(yuǎn)程聲控系統(tǒng)應(yīng)用環(huán)境,如圖5所示。測試系統(tǒng)包括聲音識別傳感器、Zig Bee無線傳輸網(wǎng)絡(luò)以及家用電器控制平臺(tái)。實(shí)驗(yàn)前假設(shè)用戶聲音特征信息已經(jīng)存儲(chǔ)在聲音識別傳感器模塊中。實(shí)驗(yàn)步驟為:1)用戶利用聲音識別傳感器采集語音,進(jìn)行語音識別;2)識別結(jié)果通過串口(UART)向無線家庭網(wǎng)絡(luò)的協(xié)調(diào)器(coordinator)發(fā)送交互指令;3)識別結(jié)果最終到達(dá)家用電器控制平臺(tái),平臺(tái)按照識別結(jié)果內(nèi)容發(fā)出控制指令。
圖5 智能家居系統(tǒng)體系結(jié)構(gòu)Fig 5 Architecture of smart home system
4.2 測試結(jié)果與分析
對于智能家居遠(yuǎn)程聲控系統(tǒng),最重要的就是在某些條件下保證系統(tǒng)的語音識別率、穩(wěn)定性和響應(yīng)時(shí)間。在安靜的環(huán)境和較為嘈雜的環(huán)境下,本文分別對該系統(tǒng)進(jìn)行了不同語音命令的識別率實(shí)驗(yàn)和系統(tǒng)穩(wěn)定性實(shí)驗(yàn)。
針對同一模板,讓特定人與非特定人分別對系統(tǒng)進(jìn)行測試,對每條語音控制命令分別進(jìn)行10次測試,每組的總實(shí)驗(yàn)次數(shù)為40次。表1是在安靜環(huán)境下系統(tǒng)的語音識別率;表2是在一般噪音環(huán)境下系統(tǒng)的語音識別率。
表1 安靜環(huán)境下系統(tǒng)的語音識別率Tab 1 Rate of voice recognition in quiet environments
表2 一般噪音環(huán)境下系統(tǒng)的語音識別率Tab 2 Rate of voice recognition in noise environments
實(shí)驗(yàn)中的一般噪聲指在正常生活情況下的聲音環(huán)境,沒有特別刺耳或尖銳的噪聲,如火車或汽車?yán)嚷?、人受驚嚇時(shí)的尖叫聲等。特定人指測試語音與訓(xùn)練語音為同一個(gè)人發(fā)出,訓(xùn)練模板為男生語音在安靜環(huán)境下經(jīng)訓(xùn)練而得到的;非特定人指測試語音與訓(xùn)練語音由不同的人發(fā)出,測試中非特定人A和非特定人B為男生,非特定人C為女生。
由表中數(shù)據(jù)可得,在安靜環(huán)境下,特定人的識別率達(dá)到了97 %以上,非特定人A和B的識別率達(dá)到了85 %以上,完全可以滿足智能家居的語音控制要求;因選用男聲為模板,所以,對女聲的識別率有所下降。訓(xùn)練樣本時(shí)是在安靜環(huán)境下進(jìn)行的,因此,在噪聲環(huán)境下相應(yīng)的識別率也均有所下降,如表2所示,此時(shí)需要在噪聲環(huán)境下重新訓(xùn)練語音樣本,以提高系統(tǒng)識別時(shí)的抗噪能力。
在安靜環(huán)境下系統(tǒng)的穩(wěn)定性比較好,一般的語音命令發(fā)出1~2遍系統(tǒng)就可以做出正確的響應(yīng);而在噪聲環(huán)境下,系統(tǒng)的穩(wěn)定性有所下降,有的語音需要重復(fù)多遍才能被系統(tǒng)準(zhǔn)確識別。
本文先從理論上研究了語音識別技術(shù),并在此基礎(chǔ)上根據(jù)需求設(shè)計(jì)了語音識別傳感器。傳感器采集語音信息并進(jìn)行識別處理,并通過串口返回識別結(jié)果。本文利用聲音識別傳感器設(shè)計(jì)了一種智能家居遠(yuǎn)程聲控測試系統(tǒng),實(shí)驗(yàn)結(jié)果表明:聲音識別傳感器性能穩(wěn)定,識別率高。
目前系統(tǒng)的語音識別功能,識別語句長度較短,數(shù)量有限,因此,可以進(jìn)一步優(yōu)化語音識別算法,改善硬件電路,增加語句長度,實(shí)現(xiàn)復(fù)雜語句的語音命令識別。
可進(jìn)一步完善基于Zig Bee技術(shù)的智能家居系統(tǒng),可以使用手機(jī)的3G功能遠(yuǎn)程傳輸命令,充分利用網(wǎng)絡(luò)技術(shù),使家庭內(nèi)每一個(gè)家用電器都能通過無線設(shè)備形成獨(dú)立網(wǎng)絡(luò),并和因特網(wǎng)相連,從而在真正意義上實(shí)現(xiàn)家居的網(wǎng)絡(luò)化和智能化。
[1] 夏漢廣.基于網(wǎng)絡(luò)的智能家居系統(tǒng)的研究與應(yīng)用[D].廣州:廣東工業(yè)大學(xué).2005:5-8.
[2] 耿 佳,李 耀,章 磊.一種智能家居監(jiān)控系統(tǒng)的設(shè)計(jì)[J].微計(jì)算機(jī)信息,2009(17):190-192.
[3] 馬 俊.語音識別技術(shù)研究[D].哈爾濱: 哈爾濱工業(yè)大學(xué),2004.
[4] Rabiner L,Juang B H.Fundamentals of speech recognition[M].Beijing:The Machinery and Industry Press,1999.
[5] 劉長明,任一峰.語音識別中DTW特征匹配的改進(jìn)算法研究[J].中北人學(xué)學(xué)報(bào):自然科學(xué)版,2006,27(1):37-40.
[6] 張仁志,崔慧娟. 基于短時(shí)能量的語音端點(diǎn)檢測算法研究[J].電聲技術(shù),2005(7):52-54,59.
[7] 王志強(qiáng).孤立詞語語音識別系統(tǒng)關(guān)鍵問題的研究[D].北京:北京郵電大學(xué),2006.
[8] 肖江南.漢語孤立詞識別系統(tǒng)開發(fā)與研究[D].桂林:廣西師范大學(xué),2004.
Design and application of voice recognition sensor*
LI Chao1,2
(1.National ASIC System Engineering Research Center,Southeast University,Nanjing 210096,China;2.College of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210046,China)
Voice recognition technology is deeply studied and a design of voice recognition sensor is proposed.The sensor aquires voice signal firstly,through shaping,amplification and A/D conversion,extract phonetic feature and use DTW algorithm to identify.The sensor uses C/S architecture to communicate with external devices,receives external device command via serial port,analyzes,processes and returns recognition results.Finally,hardware design for intelligent home environment is accomplished to complete remote control of intelligent home such as turning on/off the lights and other activities,through voice recognition sensor.Experimental results show that the sensor is stable,and has high recognition rate,which can be applied to a variety of occasions.
embedded system; intelligent home; voice recognition sensor
10.13873/J.1000—9787(2014)12—0051—03
2014—09—09
國家“863”高技術(shù)研究發(fā)展計(jì)劃資助項(xiàng)目(2009AA011700); 國家自然科學(xué)基金青年基金資助項(xiàng)目(61302158);江蘇省自然科學(xué)基金資助項(xiàng)目(BK20130869)
TP 212.1
A
1000—9787(2014)12—0051—03
李 超(1975-),男,安徽懷遠(yuǎn)人,博士研究生,副教授,主要研究方向?yàn)榍度胧较到y(tǒng)、信息安全。