徐 婕,沈丹丹,潘 碩,朱習松
(中科芯集成電路有限公司,江蘇無錫 214072)
在現(xiàn)代環(huán)境質量評價體系中,環(huán)境噪聲指標日益受到重視,成為評價一個場所舒適度的重要標準,準確檢測、記錄環(huán)境聲音具有重要的現(xiàn)實意義[1]。在完成聲音能量檢測的同時,確定主要聲音類別,一方面可以指導工作人員確定主要工作方向,盡量杜絕此類聲源以提升環(huán)境質量;另一方面通過捕捉例如尖叫聲、哭喊聲等異常聲音[2],給出報警信息,配合視頻監(jiān)控,有利于安保人員第一時間判斷危險源并進行應急處理,可以彌補視頻監(jiān)控的不足[3]。
本文論述了一種聲音報警系統(tǒng),以模數(shù)轉換、控制、傳輸電路搭建硬件平臺,以聲音的端點檢測、特征參數(shù)提取和分類技術為算法核心,實現(xiàn)對環(huán)境聲音大小的實時檢測及聲音分類、異常報警等功能。
報警系統(tǒng)的硬件部分主要選用國內外成熟的元器件和設備,包括麥克風(MIC)裝置、運算放大器(AMP)、模數(shù)轉換電路(ADC)、電平轉換、FPGA、以太網(wǎng)PHY RJ45 芯片、電源、時鐘系統(tǒng)、配有識別算法及報警顯示的主控計算機,系統(tǒng)結構硬件如圖1 所示。
圖1 系統(tǒng)硬件結構
遠端采集部分器件的功能及選用原則如下:
1)MIC 裝置實現(xiàn)聲音電信號的轉換,需要具有拾音準、干擾小、采集范圍大的特點,此處選用高性能拾音器;2)AMP 有調整模擬信號的作用,可根據(jù)后級器件調整信號幅度,其高輸出電阻特性可有效避免信號失配,考慮后級轉換器件的差分特性,選擇全差分AMP XX6362,其具有全差分、低失調、噪聲小、軌到軌傳輸?shù)奶攸c,能夠滿足系統(tǒng)要求;3)ADC 是聲音采集的核心器件,它將模擬信號轉換為數(shù)字語音,因聲音變化量豐富,選用16 位高精度專用語音電路XX73311;4)電平轉換器件可適配不同電壓的總線互聯(lián),選用XX0108,其具有電壓范圍寬、工作速率快、自適應方向的特點,可應用于推挽或開漏的不同總線信號傳輸;5)遠端控制器主要完成模數(shù)轉換器的配置、數(shù)據(jù)讀取,按照以太網(wǎng)UDP 協(xié)議打包發(fā)送數(shù)據(jù),F(xiàn)PGA可以勝任此項工作,且設計簡單,考慮成本及體積因素,選用XX25-363[4];6)計算機數(shù)據(jù)傳輸選用以太網(wǎng),其速率快且上位機設計方便,經(jīng)實際計算,選用百兆以太網(wǎng)PHY 電路XX83848,其性能穩(wěn)定、使用簡單,協(xié)議部分由FPGA 完成;7)系統(tǒng)中的電源采用多路DC-DC,模擬電源單獨加低噪聲的LDO,時鐘以晶振直接提供,F(xiàn)PGA 的配置電路使用專用的PROM,型號為XX32P。
考慮到系統(tǒng)鏈路較為復雜,本研究主要論述系統(tǒng)的聲音采集部分,XX73311 是一款功能強大的語音芯片,其內部包括1 路16 位Σ-Δ 型ADC、1 路16 位DAC、輸入輸出增益模塊、基準等結構,支持3.3 V 或5 V 2 種電源電壓。采用SPI 接口傳輸配置及數(shù)據(jù)信息,輸入可選交直流耦合模式,最終輸入端口信號需滿足電壓要求??紤]5 V 供電的共模電壓對AMP 的適配性更好,XX73311 及XX6362 均采用5 V 供電。XX6362 承接前端拾音器單端信號,差分輸出給XX73311,XX73311 的數(shù)字接口電壓跟隨電源電壓,因FPGA 端口電壓為3.3 V,使用XX0108 適配兩端器件的接口電壓,時鐘選用16.384 MHz 典型頻率,采集終端硬件電路如圖2 所示。
圖2 采集終端硬件電路
XX73311 時鐘采用多級分頻,其中外部主時鐘MCLK 分頻后,DMCLK 作為內部系統(tǒng)主時鐘,DMCLK 再次分頻后作為SPI 的時鐘SCLK,DMCLK/256 作為編碼時鐘。XX73311 的SPI 總線主要是主控型,SCLK 由其發(fā)出,每個信息須有FS 脈沖信號引領才能識別,并允許最多8 個器件級連,使用時需嚴格按照時序圖的設計。在總線中,XX73311 的讀寫使能位、地址位為1 個字節(jié),每個數(shù)據(jù)位或寄存器為1 個字節(jié),其內部共有5 個功能寄存器。系統(tǒng)配置信息如表1 所示,寄存器用CR 表示,CR-E 默認為初始值。
表1 XX73311 配置表
一般應優(yōu)先配置寄存器B/C/D/E,然后配置寄存器A,使器件從編程模式轉為數(shù)據(jù)收發(fā)模式。XX73311可提供靈活的調試幫助,在編程模式中使能模擬回環(huán)(ALB)、數(shù)字回環(huán)(DLB)2 個回環(huán)模式,可輕松檢查模擬端或數(shù)字段的信號鏈路功能。
本系統(tǒng)算法部分以計算機為平臺,基于MATLAB完成,使用基于MATLAB GUI 的可視化設計,既可以連續(xù)、實時地顯示聲音信號,還可以對異常信息報警[5]。系統(tǒng)工作流程如圖3 所示。
圖3 系統(tǒng)工作流程
在研究階段選用部分公共場所常見聲音作為驗證樣本,有汽車鳴笛聲、人的說話聲、尖叫聲、哭聲、雷聲、狗叫聲、物體撞擊聲和爆炸聲等。根據(jù)聲音代表的信息,將其分為危險聲源和一般聲源。尖叫聲和哭聲有可能表示有人受到侵害,爆炸聲則表示有人違反公共場所管理規(guī)定燃放煙花、爆竹等,將其列為危險聲源,其余聲音為一般聲源[6]。
獲得聲音信號以后,為使信號的頻譜變得平坦,提高信號的高頻部分,保持在低頻到高頻的整個頻段中,能用同樣的信噪比求頻譜,系統(tǒng)需對聲音信號進行預加重處理。預加重有多重形式,本設計選用數(shù)字濾波器實現(xiàn),對n 時刻的采樣值x(n)預加重,得值y(n)為:
式中a 是預加重系數(shù)。
根據(jù)聲音信號的短時平穩(wěn)性特點,系統(tǒng)對聲音信號進行分幀處理。為使特征參數(shù)平滑變化,在分幀過程中,系統(tǒng)采用部分重疊的辦法實現(xiàn)過渡,使聲音特征平滑過渡,保持其連續(xù)性。聲音分幀的效果如圖4所示。
圖4 音頻分幀
對聲音信號x(n)的處理中進行分幀。
式(2)采用卷積形式,相當于通過一個單位沖激響應為ω(m)的FIR 濾波器。
短時能量高是異常聲音最突出的表現(xiàn),實時計算聲音能量既可監(jiān)測聲音強度,又可劃定異常聲音范圍。采用雙門限法可提取異常聲音段[7]。以一段0.3 s 的聲音信號為例,其聲音波形和對應的短時能量波形如圖5 所示。
圖5 中TH 為設定的高門限,TL 為設定的低門限,首先對聲音信號進行逐幀判斷,當某幀能量幅值高于TH 時,往兩邊尋找聲音邊界TL,當某幀能量幅值小于TL 時,即認為聲音結束。
圖5 門限值與能量波形對比
在得到聲音段的起始幀以后,系統(tǒng)需要提取異常聲音段的特征參數(shù),常用的特征參數(shù)有線性預測倒譜系數(shù)(LPCC)和Mel 頻率倒譜系數(shù)(MFCC),鑒于MFCC 在信噪比降低時的良好識別性能,同時較好地利用聽覺模型的研究成果,本研究選用MFCC[8]。MFCC 是在Mel 標度頻率域提取出來的倒譜系數(shù),其特征參數(shù)提取原理如圖6 所示。
圖6 MFCC 特征參數(shù)提取原理
對聲音樣本取幀長256、幀移128 進行預處理、端點檢測、提取MFCC,對樣本的參數(shù)按聲音類別合成匹配文件模板庫,由8 類模板庫組成總模板庫。部分聲音的MFCC 特征參數(shù)三維圖像如圖7 所示,從圖7 中可以很直觀地觀察到信號的MFCC 隨Mel 階數(shù)的變化情況,不同聲音類別之間區(qū)別明顯。
圖7 MFCC 特征參數(shù)三維對比圖
聲音識別屬于模式識別的應用范疇[9],在聲音識別的發(fā)展過程中,有動態(tài)彎折算法[10]、隱馬爾可夫模型[11]、高斯混合模型[12]、神經(jīng)網(wǎng)絡[13]、支持向量機[14]等多種算法,本研究只需要識別出聲音的幾種類別,應用相對簡單,因此選用算法成熟、工具箱函數(shù)豐富的BP 神經(jīng)網(wǎng)絡算法。
以MFCC 模板庫作為BP 神經(jīng)網(wǎng)絡的訓練樣本,對數(shù)據(jù)進行歸一化處理。BP 算法建模包括BP 神經(jīng)網(wǎng)絡的構建、BP 神經(jīng)網(wǎng)絡的訓練和BP 神經(jīng)網(wǎng)絡分類3步。首先是BP 神經(jīng)網(wǎng)絡的初始化,模型拓撲結構包括輸入層、隱含層和輸出層,本研究采用12 階的MFCC,所以BP 神經(jīng)網(wǎng)絡輸入層的神經(jīng)元個數(shù)是12,網(wǎng)絡輸出神經(jīng)元取4 個,目標輸出一個4 位二進制數(shù),足以表示8 類樣本,隱含層設置為15 個神經(jīng)元。取學習率0.1,訓練誤差0.01,訓練次數(shù)2000 次,2 次顯示之間的訓練步長為10,隱含層神經(jīng)元的傳遞函數(shù)采用S 型正切函數(shù),由于輸出模式為0-1,輸出層神經(jīng)元的傳遞函數(shù)采用S 型對數(shù)正切函數(shù)f(x),
式中β 為常數(shù),用于控制曲線扭曲部分的斜率。
在網(wǎng)絡訓練階段根據(jù)預測誤差調整網(wǎng)絡的權值和閾值。定向對比錄制的樣本同類聲源,輸入上述訓練好的神經(jīng)網(wǎng)絡,得到幀特征平均分類成功率,BP 神經(jīng)網(wǎng)絡識別結果如表2 所示。
表2 BP 神經(jīng)網(wǎng)絡識別結果
表2 是逐一輸入單一聲音源的識別結果,若要排除其他聲音尤其是混合聲音需要大量的聲音樣本做訓練,有可能還需要提取更多特征參數(shù)以提高識別精度[15],并且隨著復雜度的增加,識別效果會降低。本試驗主要驗證系統(tǒng)的可行性,因此只是在音源位置等固定的情況下識別聲音信號。
通過實測,系統(tǒng)能夠檢測出異常聲音段并判斷是否為危險信號,如是危險信號則給出報警信息。接到報警信息,值班人員可查看歷史記錄,重聽保存的報警信息,通過錄像或赴現(xiàn)場勘查異常并予以解決。
本研究通過對聲音信號進行預處理、計算幀短時能量,給出環(huán)境實時聲音幅度參數(shù),作為環(huán)境聲音的第一級監(jiān)測;然后通過端點檢測技術區(qū)分出有別于常規(guī)環(huán)境噪聲的有聲段,提取有聲段MFCC 參數(shù),用BP神經(jīng)網(wǎng)絡對參數(shù)分類,對代表危險信息的聲音給出報警信息,作為環(huán)境聲音的第二級監(jiān)測。
今后的研究重點一是考慮遠端直接識別,直接給出判斷信息,減小遠距離數(shù)據(jù)傳輸量,為此考慮使用高性能DSP;二是提高復雜環(huán)境下的識別率,考慮從聲音的基音、共振峰、譜熵等多方面進行分析,構建包含多種特征信息的混合參數(shù)作為分類計算的依據(jù),將近年來模式識別學科的發(fā)展成果運用到聲音識別中,以期獲得更好的效果。