亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于融合特征的汽車鳴笛聲識別方法

2021-03-01 08:45:20王巖松

智能計算機(jī)與應(yīng)用 2021年12期

鄧鑫，王巖松，楊超，郭輝

（上海工程技術(shù)大學(xué) 機(jī)械與汽車工程學(xué)院，上海 201620）

0 引言

語音特征提取方法被廣泛應(yīng)用于各類信號的特征提取。傳統(tǒng)的語音特征提取方法包括：梅爾頻率倒譜系數(shù)（Mel Frequency Cepstrum Coefficient，MFCC）、線性預(yù)測倒譜系數(shù)（Linear Prediction Cepstral Coefficients，LPCC）等。文獻(xiàn)［1－3］中采用MFCC 特征提取，在相應(yīng)病理異常分類識別中取得了良好效果。文獻(xiàn)［4］通過替換離散余弦變換，提高了對家庭中危險聲學(xué)事件的檢測效果。在MFCC的改進(jìn)方面，文獻(xiàn)［5］將SLCF 和SSF 分別與MFCC融合成新特征，降低了孤立字識別系統(tǒng)中的總錯誤率。文獻(xiàn)［6］將譜熵梅爾積與MFCC 結(jié)合，提高了信噪比環(huán)境下，語音端點(diǎn)檢測的準(zhǔn)確率。文獻(xiàn)［7］采用逆MFCC 變換，在DCASE 給定聲學(xué)場景分類中取得較好的準(zhǔn)確率；文獻(xiàn)［8］將Teager 能量算子引入MFCC，在文本獨(dú)立揚(yáng)聲器驗(yàn)證任務(wù)中，識別效果明顯優(yōu)于MFCC 方法；文獻(xiàn)［9］將線性預(yù)測－希爾伯特變換與MFCC 結(jié)合，有效識別不良語音和正常語音。對于非語音信號和非平穩(wěn)信號，MFCC 的特征提取能力不足。LPCC在口譯準(zhǔn)確度［10］、情感分類［11］和文本語音識別［12］方面都有不同程度的研究及應(yīng)用，但是LPCC 對含噪信號特征提取效果不佳。

綜上所述，現(xiàn)實(shí)環(huán)境中背景噪聲大，汽車鳴笛聲信號瞬時性強(qiáng)，因此基于單一特征的汽車鳴笛聲識別方法效果有待提升。

本文提出的基于融合特征的汽車鳴笛聲識別方法，具有識別率高、魯棒性強(qiáng)、計算快速等特點(diǎn)。該方法首先對鳴笛聲信號進(jìn)行變分模態(tài)分解（Variational Modal Decomposition，VMD），獲得多個本征模態(tài)分量，基于峭度準(zhǔn)則篩選出主模態(tài)函數(shù)（Intrinsic Mode Function，IMF），并重構(gòu)信號；隨后，提取重構(gòu)信號的MFCC 和LPCC 特征，并利用ReliefF算法實(shí)現(xiàn)特征降維和特征融合；最后將融合特征輸入BP 神經(jīng)網(wǎng)絡(luò)，實(shí)現(xiàn)汽車鳴笛聲的準(zhǔn)確識別。

1 特征提取及融合算法

1.1 特征提取

MFCC 特征參數(shù)是基于人耳對不同頻率聲音信號的感知能力不同所提出［13］。標(biāo)準(zhǔn)由MFCC 參數(shù)及其一階差分和二階共同組成MFCC 特征參數(shù)。一般取前12 維MFCC 特征作為特征參數(shù)。

Mel 頻率與Hz 頻率的非線性關(guān)系近似表示為：

線性預(yù)測模型是基于最小均方差準(zhǔn)則，對聲音信號實(shí)際值進(jìn)行預(yù)測。當(dāng)實(shí)際值與預(yù)測值誤差最小時，利用Durbin 算法求解得線性預(yù)測系數(shù)LPC。一般將線性預(yù)測系數(shù)通過倒譜域轉(zhuǎn)化為等效參數(shù)，即LPCC 系數(shù)。

式中，(n) 表示預(yù)測值；ak表示線性預(yù)測系數(shù)；s(n－ i) 表示n－ i時刻信號采樣值。

1.2 融合算法

1.2.1 Fisher 融合算法

Fisher 算法通過尋找最佳投影方向，使得不同類樣本間的離散程度最大，同時使得同類樣本間的離散程度最?。?4］。聲音特征參數(shù)有效性Fisher 定義為：

其中，σbetween表示同類樣本內(nèi)的離散程度，σwithin表示不同類樣本間的離散程度。

1.2.2 ReliefF 融合算法

Relief 算法［15］由Kira 等提出。算法根據(jù)樣本類別和各個特征的相關(guān)性，賦予特征不同權(quán)重，僅應(yīng)用于兩類問題的分類。Konoenko 等［16］在此基礎(chǔ)上，提出了ReliefF 算法，應(yīng)用于多類問題的分類。本文采用ReliefF 算法作為融合特征算法。

某一特征i的權(quán)重更新公式為：

式中，H代表與樣本R在特征i上最近鄰的同類樣本；M代表與樣本R在特征i上最近鄰的不同類樣本；m代表算法迭代次數(shù)。

不同樣本在某一特征i上的距離計算公式為：

其中，R1(i) 和R2(i) 表示兩個樣本在特征i上的數(shù)值。

ReliefF 融合特征算法的具體實(shí)現(xiàn)過程如圖1所示。

圖1 基于ReliefF 特征參數(shù)融合流程圖Fig.1 Flow chart of feature parameter fusion based on ReliefF

2 汽車鳴笛聲VMD 處理及融合特征

2.1 VMD 處理

變分模態(tài)分解是由Konstantin Dragomiretskiy等［17］提出的一種非遞歸自適應(yīng)的模態(tài)變分方法，能將復(fù)雜信號分解為中心頻率Uk固定、頻率帶寬有限的多個模態(tài)分量（IMF）。本文利用VMD 分解汽車鳴笛聲信號，取最大分解層數(shù)k＝8，同時計算各分量峭度值，見表1。基于峭度準(zhǔn)則，當(dāng)峭度最大時，確定VMD最佳分解層數(shù)k＝4。

表1 各IMF 分量峭度值Tab.1 Kurtosis value of each IMF component

由圖2、圖3 可知，VMD 分解原始聲音信號獲得4 個模態(tài)分量。當(dāng)分解層數(shù)k＝4 時，原始信號重構(gòu)效果較好。

圖2 VMD 處理的汽車鳴笛聲時域及頻域圖Fig.2 An example of time－frequency domain diagram of car whistle processed by VMD

圖3 各IMF 分量時域及頻域圖Fig.3 Time－frequency domain diagram of each IMF component

2.2 特征分析

2.2.1 MFCC 及LPCC 特征參數(shù)

圖4 中，3 種聲音在第4、6 維MFCC 特征參數(shù)的取值不同，表明其標(biāo)準(zhǔn)MFCC 靜態(tài)特征和一階MFCC動態(tài)特征具有顯著差異性。圖5 中，3 種聲音在第9～12 維LPCC 特征參數(shù)的取值不同，表明3 種聲音的波形及共振峰特征差異明顯。因此，可以利用不同類型聲音在某些特征系數(shù)上的差異性進(jìn)行識別。

圖4 3 種聲音信號中提取的某幀12 維MFCC 特征系數(shù)Fig.4 The 12 dimensional MFCC feature coefficient extracted from three kinds of sound signals in some frame

圖5 3 種聲音信號中提取的某幀12 維LPCC 特征系數(shù)Fig.5 The 12 dimension LPCC feature coefficient extracted from three kinds of sound signals in some frame

2.2.2 融合特征

ReliefF 算法中，權(quán)重值越大，表明該特征參數(shù)對區(qū)分不同類樣本的能力越強(qiáng)；權(quán)重值越小，表明該特征參數(shù)對區(qū)分不同類樣本的能力越弱。

基于Fisher 準(zhǔn)則和ReliefF 算法，圖6、圖7 反映了不同維數(shù)特征在MFCC 和LPCC 特征中的權(quán)重值不同。

圖6 MFCC、LPCC 特征的Fisher 比Fig.6 Fisher ratio of MFCC and LPCC features

圖7 MFCC、LPCC 特征的ReliefF 權(quán)重Fig.7 ReliefF weight of MFCC and LPCC features

由圖6 可見，基于Fisher 準(zhǔn)則的第3 維MFCC 特征權(quán)重值為0.293 6，表明在Fisher 準(zhǔn)則下，標(biāo)準(zhǔn)MFCC靜態(tài)特征比一階、二階MFCC 動態(tài)特征更能反映3 種聲音之間的差異性?；贔isher 準(zhǔn)則的第2 維LPCC特征權(quán)重值為0.368 2，表明3 種聲音的波形及共振峰特征差異在第2 維LPCC 特征參數(shù)差異顯著。

由圖7 可見，基于ReliefF 算法的第1 維MFCC特征權(quán)重值為0.280 5，并且反映動態(tài)特征的一階、二階參數(shù)的權(quán)重值顯著高于Fisher 準(zhǔn)則下對應(yīng)參數(shù)的Fisher 比值。由此表明ReliefF 算法能更加充分利用聲音信號的動態(tài)特征，從而提高對聲音信號幀與幀之間相關(guān)度的利用率?；赗eliefF 算法的第2 維LPCC 特征權(quán)重值為0.240 4，高維LPCC 特征參數(shù)的權(quán)重值顯著高于Fisher 準(zhǔn)則下同類特征，表明ReliefF算法對反映通道特性的特征利用更充分、更全面地反映3 種聲音波形及共振峰特征的差異性。

3 特征識別

3.1 分類器訓(xùn)練

文中采用AudioSet 數(shù)據(jù)庫的聲音樣本，樣本總計300 例聲音信號。其中，100 例汽車鳴笛聲、100例鳥叫聲、100 例雷雨聲。聲音樣本預(yù)處理包括：預(yù)加重、分幀、加窗等。采樣頻率為44.1 KHz，數(shù)字量化為16 bit，幀長為25ms，幀移為10 ms，文件采用Wav 格式保存。BP 神經(jīng)網(wǎng)絡(luò)模型網(wǎng)絡(luò)設(shè)置：中間層10 層，70%為訓(xùn)練樣本、15%為驗(yàn)證樣本、15%為測試樣本。經(jīng)過VMD 處理的聲音信號識別結(jié)果見表2。

表2 經(jīng)過VMD 的聲音信號識別結(jié)果Tab.2 Recognition results of sound signals processed by VMD

由表2 可知，經(jīng)過VMD 處理的聲音信號，MFCC和LPCC 特征參數(shù)在BP 中的識別率分別為94.7%和72.5%。MFCC 特征的識別率顯著高于LPCC 特征的識別率，說明MFCC 對汽車鳴笛聲的表征能力更強(qiáng)。不同特征提取方法在PB 神經(jīng)網(wǎng)絡(luò)中識別結(jié)果見表3。

表3 不同特征提取方法在BP 神經(jīng)網(wǎng)絡(luò)中的識別結(jié)果Tab.3 Recognition results of different feature extraction methods in BP

由表3 可知，通過對單一特征和融合特征在BP神經(jīng)網(wǎng)絡(luò)中識別準(zhǔn)確率進(jìn)行對比，本文提出的基于ReliefF 融合特征算法識別率最高，達(dá)到95.9%，優(yōu)于其余3 種特征的識別率。

3.2 實(shí)驗(yàn)及結(jié)果分析

實(shí)驗(yàn)采用真實(shí)車輛鳴笛聲，音響播放鳥叫聲和雷雨聲。實(shí)驗(yàn)在半消聲室（9.8 m×8.6 m×3.5 m，長×寬×高）內(nèi)進(jìn)行，采用PCB 麥克風(fēng)及LMS SCADAS Mobile 數(shù)據(jù)采集儀測量聲壓信號。

縱向分析表4 可知，在BP模型中，LPCC 特征參數(shù)的識別率最低，僅為80.3%，而其余3 種特征提取方法的識別率均在95%以上?；赗eliefF 融合特征方法識別率優(yōu)于單一特征MFCC 和基于Fisher融合特征方法，達(dá)到98.9%，比LPCC 提高23.2%以上，表明本文所提融合特征方法優(yōu)于單一特征方法。

表4 4 種特征提取方法在BP 神經(jīng)網(wǎng)絡(luò)中的識別率Tab.4 The recognition rate of four feature extraction methods in BP

4 結(jié)束語

本文在聲音信號輸入后利用VMD 算法進(jìn)行信號分解和重構(gòu)，提出基于ReliefF 算法的特征融合，將MFCC 特征參數(shù)和LPCC 特征參數(shù)進(jìn)行融合，相較于其他特征，在汽車鳴笛聲識別的準(zhǔn)確率上有所提升。在未來的工作中，可以考慮對VMD 特征分解層數(shù)或者懲罰因子進(jìn)行尋優(yōu)。實(shí)際環(huán)境中，汽車鳴笛聲還受到許多因素的影響，例如警笛聲信號的干擾等。因此，汽車鳴笛聲的識別還可以利用支持向量機(jī)或卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)，提取更多深層次特征，以提高預(yù)測的準(zhǔn)確度和實(shí)效性。