田 野,張曉燦,湯躍忠
(中國電子科技集團公司第三研究所,北京 100015)
隨著我國城市化和現(xiàn)代化的快速發(fā)展,城市環(huán)境中的交通噪聲污染和交通擁堵問題日益凸顯,急需有效的治理手段。交通噪聲雖然看不見摸不著,但對人們的身體健康、生活質(zhì)量的負面影響是真實存在的[1]。不當場所、不當時間下的汽車亂鳴笛聲是常見的交通噪聲,嚴重影響著居民的生活和工作?!兜缆方煌ò踩▽嵤l例》規(guī)定,駕駛機動車不得在禁止鳴喇叭的區(qū)域或者路段鳴喇叭。而交通擁堵問題不僅給市民出行帶來困擾,而且嚴重影響了緊急車輛(救火車、救護車等)的快速出行,延誤緊急事件的最佳處置時機。針對上述問題,本文重點研究面向汽車鳴笛聲、緊急車輛鳴笛聲的音頻檢測識別技術(shù),為鳴笛抓拍系統(tǒng)提供抓拍依據(jù),為智能交通疏導(dǎo)系統(tǒng)提供緊急避讓疏導(dǎo)依據(jù),從而緩解交通噪聲與擁堵問題。
針對車輛鳴笛聲識別任務(wù),大多數(shù)處理方法主要包括特征提取與分類器構(gòu)建兩大環(huán)節(jié)。文獻[2]提出一種基于能頻積的鳴笛聲與非鳴笛聲的區(qū)分方法,文獻[3]提出一種基于子帶譜熵法特征和改進支持向量機(Support Vector Machine,SVM)分類器的汽車鳴笛識別方法,文獻[4]提出一種基于信號分解、梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)與線性預(yù)測倒譜系數(shù)融合特征與BP 神經(jīng)網(wǎng)絡(luò)分類器的汽車鳴笛聲識別方法。這些方法從單一特征到多特征融合,從淺層分類器到深度分類器,整體上向更寬、更深的集成融合方向發(fā)展。
由于不同特征、不同分類器間具有一定的互補性,采用多特征融合與多分類器融合,對于提升鳴笛聲識別效果是一種可行的思路。但從車輛鳴笛聲檢測應(yīng)用的實時性要求方面考慮,采用多特征融合需要對實時音頻提取高維特征,往往比較耗費時間,且特征維度過高對分類器也是一種負擔(dān),而多分類器融合在模型訓(xùn)練時比較耗時、在決策時并不需要耗費很多時間。因此,本文提出一種基于多分類器融合決策的車輛鳴笛聲識別方法,提取道路噪聲、汽車鳴笛聲、緊急車輛鳴笛聲音頻的時域能量、過零率及頻域梅爾頻率倒譜系數(shù)作為特征,采用支持向量機、樸素貝葉斯網(wǎng)絡(luò)、隨機森林這三種在分類識別領(lǐng)域應(yīng)用廣泛且各具特色的方法作為基礎(chǔ)分類器,通過融合三種分類器的識別結(jié)果,并綜合考慮時序關(guān)聯(lián)關(guān)系,提升不同車輛鳴笛聲檢測識別的準確率。
為了從時域、頻域角度獲取不同車輛鳴笛聲間的可區(qū)分性信息,又兼顧特征提取的實時性,本文提取時域能量[5]、過零率[5]以及在聲音信號處理中應(yīng)用最廣的MFCC 特征[6]作為后續(xù)分類器的輸入。本文中的音頻特征提取流程如下。
(1)對音頻進行分幀、加窗。本文中幀長設(shè)置為20 ms,幀移為10 ms,即以50%的重疊度分幀,并采用Hamming 窗避免幀信號前后端信號不連續(xù)的問題。
(2)提取幀特征。對每幀信號提取時域能量、過零率及MFCC 共14 維的特征。
(3)提取段特征。為了緩解幀特征的短時波動,本文對提取的幀特征分段、取均值得到段特征,作為最終的特征向量。本文中,段長設(shè)置為25,段移為10。
1.2.1 支持向量機
支持向量機SVM 是一種應(yīng)用非常廣泛的分類方法,通過在特征空間中找到最優(yōu)超平面,將不同類別的數(shù)據(jù)區(qū)分開?;诜蔷€性映射函數(shù)φ(x),SVM 將在原始空間上線性不可分的輸入數(shù)據(jù),投影到一個更高維度的特征空間,以尋求可分的線性判別函數(shù):f(x)=ω·φ(x)+b。這里,非線性映射的核函數(shù)選擇是分類器構(gòu)建的關(guān)鍵。在SVM 算法中,比較常用的核函數(shù)有多項式核、高斯徑向基核以及指數(shù)徑向基核等。本文考慮所涉及數(shù)據(jù)的特性,選用高斯徑向基核作為SVM 的核函數(shù)。關(guān)于SVM 算法更詳細的原理介紹可參考文獻[7]。
1.2.2 樸素貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)是一種概率圖模型,在分類預(yù)測等不確定性分析問題中有著重要應(yīng)用。貝葉斯網(wǎng)絡(luò)由一個有向無環(huán)圖和一個條件概率表組成,前者用于描述屬性間的依賴關(guān)系,后者描述屬性間的聯(lián)合概率分布[8]。假設(shè)數(shù)據(jù)集的特征屬性集合為D,類別標簽集合C,di是特征屬性Di的取值,則數(shù)據(jù)樣本x={d1,d2,…,dk}屬于類別cj的概率可以表示為:
樸素貝葉斯是一種最基本的貝葉斯網(wǎng)絡(luò)分類器,優(yōu)點是計算高效、泛化能力強。其假設(shè)屬性間相互獨立,則聯(lián)合概率可轉(zhuǎn)換為各屬性邊緣概率的乘積,即
1.2.3 隨機森林
隨機森林(Random Forest,RF)是一種典型的集成學(xué)習(xí)方法,采用Bagging 策略,基于若干個決策樹構(gòu)成集成分類器。決策樹是組成隨機森林分類器的基礎(chǔ)單元,每棵決策樹包含一系列分叉節(jié)點,每次分叉時選擇最佳分類屬性,根據(jù)屬性值確定每個節(jié)點處的劃分結(jié)果。
隨機森林模型的構(gòu)建過程為:
(1)采用Bootstrap 方法從訓(xùn)練數(shù)據(jù)樣本中有放回的抽樣,作為單個決策樹的訓(xùn)練樣本;
(2)基于隨機抽樣的訓(xùn)練數(shù)據(jù)進行決策樹分類訓(xùn)練;
(3)重復(fù)上述操作得到多個決策樹,形成決策森林;
(4)對測試數(shù)據(jù),綜合多個決策樹的分類結(jié)果進行投票,得到最終的分類結(jié)果。
隨機森林模型的構(gòu)建過程中,隨機為每個決策樹選擇訓(xùn)練樣本,并在決策樹每個節(jié)點劃分時隨機選取特征屬性,有效避免了過擬合問題,提升了模型的泛化能力[9]。
在車輛鳴笛聲檢測任務(wù)中,由于道路噪聲干擾,瞬時識別結(jié)果往往不穩(wěn)定。因此,本文考慮識別結(jié)果的前后關(guān)聯(lián)關(guān)系,設(shè)定在實時檢測過程中,后一時刻識別結(jié)果B與前一時刻識別結(jié)果A不同時,連續(xù)檢測后續(xù)8 個時刻的結(jié)果,若其中有5 個時刻的識別結(jié)果為B,則保留結(jié)果B,否則,將識別結(jié)果B改為前序結(jié)果A,從而減少誤報警率,保證識別穩(wěn)定性。
本文的融合決策體現(xiàn)在兩個方面。
(1)基于三個分類器的識別結(jié)果進行投票融合決策,少數(shù)服從多數(shù),各執(zhí)一詞時,以單獨分類時準確率最高的分類器的結(jié)果為主。
(2)在分類器融合的基礎(chǔ)上,考慮時序關(guān)聯(lián)關(guān)系進行二次融合決策,得到最終識別結(jié)果。
本文所提方法的技術(shù)實現(xiàn)流程如圖1 所示,主要包括訓(xùn)練和測試兩個過程。訓(xùn)練過程基于從訓(xùn)練數(shù)據(jù)集提取的特征集,訓(xùn)練得到三種分類算法的模型;測試過程中,由待測音頻提取的特征作為三個分類器的輸入,得到三個識別結(jié)果,結(jié)合時序關(guān)聯(lián)關(guān)系融合決策得到最終的識別結(jié)果。
圖1 本文所提方法的技術(shù)實現(xiàn)流程圖
在本文的案例分析中,道路噪聲音頻數(shù)據(jù)來自谷歌公開的Audioset 數(shù)據(jù)集,汽車鳴笛聲和緊急車輛鳴笛聲音頻數(shù)據(jù)來自UrbanSound8K 數(shù)據(jù)集。
對于三種聲音信號,統(tǒng)一采樣到16 kHz,提取14 維的幀特征與段特征,共得到2 500 組特征數(shù)據(jù)樣本,隨機抽取其中的1 500 組作為訓(xùn)練樣本,剩余1 000 組作為測試樣本數(shù)據(jù)。
基于訓(xùn)練樣本數(shù)據(jù),訓(xùn)練SVM、樸素貝葉斯網(wǎng)絡(luò)及隨機森林分類器?;跍y試樣本數(shù)據(jù)對各分類器的識別性能進行驗證,并采用兩種融合決策方法對識別結(jié)果進行二次處理,得到最終的識別結(jié)果。測試結(jié)果如表1 和圖2 所示。從表1 可以看到,三個分類器的測試分類準確率都在95%上下,隨機森林的準確率最高為95.37%,因此在融合決策中,遇到三者意見不同時以隨機森林分類器的識別結(jié)果為準。通過三個分類器的融合,綜合識別準確率提升到97.5%,說明三個分類器在決策中確實存在著互補性,可以實現(xiàn)整體識別性能的提升。再考慮前后時序關(guān)聯(lián)關(guān)系,最終的識別準確率可以提升到98.60%。從圖2 可以清晰地看到兩種融合過程中識別標簽的變化情況。
圖2 各個分類器及融合決策的結(jié)果標簽情況
表1 各個分類器及融合決策的識別結(jié)果明細
本文針對復(fù)雜交通噪聲背景下對于汽車鳴笛與緊急車輛鳴笛聲的檢測識別任務(wù),提出了一種基于多分類器融合決策的識別方法,利用支持向量機、樸素貝葉斯網(wǎng)絡(luò)、隨機森林三種分類器間的互補特性提高了識別的準確率,并通過考慮前后時序關(guān)聯(lián)關(guān)系,消除因環(huán)境干擾帶來的誤識別,進一步提升了識別的準確率和穩(wěn)定性,減少因鳴笛誤報而給后續(xù)汽車鳴笛抓拍系統(tǒng)或緊急車輛調(diào)度系統(tǒng)帶來的負擔(dān)。