楊禮強(qiáng),王攀,王杰
(1.重慶大學(xué)機(jī)械與運(yùn)載工程學(xué)院,重慶 400044;2.作業(yè)幫教育科技(北京)有限公司,北京 100085)
聲品質(zhì)是一款汽車脫穎而出、吸引消費(fèi)者的重要因素之一,其科學(xué)高效的評(píng)價(jià)是汽車噪聲、振動(dòng)與 聲 振 粗 糙 度(Noise、Vibration、Harshness,NVH)性能開(kāi)發(fā)設(shè)計(jì)的關(guān)鍵。通過(guò)建立聲品質(zhì)客觀評(píng)價(jià)模型來(lái)替代專家評(píng)審團(tuán)做出符合人類主觀感受的評(píng)價(jià)和分類,可以克服聽(tīng)音試驗(yàn)評(píng)價(jià)的缺點(diǎn),有效節(jié)省成本和時(shí)間。
國(guó)內(nèi)外研究者根據(jù)不同類型的汽車噪聲,如車內(nèi)噪聲、汽車關(guān)門(mén)聲、發(fā)動(dòng)機(jī)噪聲、汽車加速噪聲等,從多元線性回歸、支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)和小波神經(jīng)網(wǎng)絡(luò)等方法中選用一種來(lái)構(gòu)建聲品質(zhì)評(píng)價(jià)模型,這些方法都用到了物理聲學(xué)指標(biāo)和客觀心理聲學(xué)參數(shù),高度依賴于大量的、復(fù)雜的聲學(xué)理論和經(jīng)驗(yàn)知識(shí)。前3種方法通常在響度、尖銳度、粗糙度、波動(dòng)度、A計(jì)權(quán)聲壓級(jí)、AI指數(shù)、主沖擊時(shí)間、低頻延續(xù)時(shí)間、抖動(dòng)度、峰值頻率、語(yǔ)音清晰度和言語(yǔ)干擾級(jí)等聲學(xué)參數(shù)中,選用多個(gè)參數(shù)對(duì)噪聲樣本做預(yù)處理?;谛〔ㄉ窠?jīng)網(wǎng)絡(luò)法,有的研究者引用維格納-威爾分布的時(shí)頻分析方法,建立聲品質(zhì)參量SQP-RW,以此參量輸入小波神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)汽車聲品質(zhì);有的研究者為加快聲品質(zhì)評(píng)價(jià)模型的計(jì)算速度,使用噪聲信號(hào)的能量、均值和標(biāo)準(zhǔn)差對(duì)響度、尖銳度、粗糙度、聲調(diào)做出預(yù)測(cè),采用這4個(gè)參數(shù)對(duì)噪聲樣本做預(yù)處理。
采用深度學(xué)習(xí)法建立車內(nèi)聲品質(zhì)評(píng)價(jià)模型不僅不需要高度依賴于復(fù)雜的聲學(xué)理論和經(jīng)驗(yàn)知識(shí),還可以提取某些可能的未知深層次特征,使最終的聲品質(zhì)評(píng)價(jià)模型具有理想的預(yù)測(cè)準(zhǔn)確度。首先使用對(duì)數(shù)梅爾頻譜和時(shí)頻遮掩相結(jié)合的方法對(duì)噪聲樣本做預(yù)處理;然后建立CNN和LSTM相融合的特征提取模塊,以及使用全連接和Softmax輸出單元組合搭建分類器模塊;最后借助混合輸入得到大量樣本對(duì)所建立的評(píng)價(jià)模型進(jìn)行訓(xùn)練,使其具備理想的精度。
汽車行駛過(guò)程中會(huì)產(chǎn)生發(fā)動(dòng)機(jī)噪聲、輪胎噪聲和風(fēng)振噪聲等,各種噪聲經(jīng)過(guò)不同的途徑傳遞到車內(nèi),在較為封閉的空間內(nèi)互相疊加和反射形成了車內(nèi)噪聲。車輛型號(hào)、車速以及乘坐位置等因素都會(huì)影響駕乘者坐在車內(nèi)的聲音舒適性,這些因素在設(shè)計(jì)車內(nèi)噪聲采集試驗(yàn)時(shí)起到了指導(dǎo)性作用。
為保證車內(nèi)噪聲能夠被真實(shí)有效地記錄到聲音樣本中,在進(jìn)行噪聲采集試驗(yàn)前對(duì)整車的各個(gè)系統(tǒng)進(jìn)行了嚴(yán)格的檢查,確保了各系統(tǒng)都處于正常工作狀態(tài)且無(wú)異響。車內(nèi)噪聲采集試驗(yàn)場(chǎng)地是平滑干燥、無(wú)雜物、往來(lái)車輛少的硬地路面,周圍沒(méi)有高層建筑物,試驗(yàn)當(dāng)天氣溫為16~22℃,沿測(cè)試路線于1.2 m高度測(cè)得風(fēng)速為1.7~2.0 m/s,滿足GB/T 18697—2002《聲學(xué)-汽車車內(nèi)噪聲測(cè)量方法》規(guī)定的測(cè)試環(huán)境。依據(jù)國(guó)標(biāo)對(duì)傳聲器的安裝要求,將傳聲器安裝在座椅頭枕靠近駕駛員和后排乘員左右耳的位置,且傳聲器以最大靈敏度的方向水平指向行駛方向,調(diào)節(jié)駕駛員座椅的靠背,使其處于垂直位置。傳聲器在車內(nèi)的安裝位置如圖1所示。
圖1 傳聲器的車內(nèi)安裝位置
當(dāng)車輛按照預(yù)設(shè)的速度勻速穩(wěn)定行駛時(shí)開(kāi)始采集車內(nèi)噪聲信號(hào),且此時(shí)變速器擋位均處于最高擋位。最終獲得5輛不同品牌乘用車在60、80、100、120 km/h車速下的車內(nèi)不同位置噪聲樣本。
主觀評(píng)價(jià)試驗(yàn)組織了25位來(lái)自振動(dòng)噪聲領(lǐng)域的研究者進(jìn)行聽(tīng)音試驗(yàn),其年齡分布在22~45周歲之間,平均年齡為28歲。使用類別判斷法作為主觀評(píng)價(jià)方法,并對(duì)評(píng)審團(tuán)進(jìn)行聲品質(zhì)的知識(shí)培訓(xùn)以及正式試驗(yàn)前的聽(tīng)音訓(xùn)練。使用煩躁度作為評(píng)價(jià)試驗(yàn)的聲品質(zhì)指標(biāo),參考韓國(guó)現(xiàn)代公司提出的等級(jí)劃分法,將評(píng)價(jià)指標(biāo)由低到高分為很差(0~0.2)、差(0.2~0.4)、合格(0.4~0.6)、良好(0.6~0.8)和很好(0.8~1)5個(gè)等級(jí)供評(píng)審員選擇。評(píng)價(jià)試驗(yàn)在具有良好隔聲效果的實(shí)驗(yàn)室內(nèi)進(jìn)行,回放設(shè)備采用高保真解碼器與某品牌高保真耳機(jī)組合,回放軟件使用Simcenter Testlab軟件下的Jury Testing模塊。評(píng)分結(jié)束后使用皮爾遜相關(guān)分析法對(duì)評(píng)價(jià)分值進(jìn)行檢驗(yàn),剔除相關(guān)系數(shù)低于0.6的3位評(píng)價(jià)者的主觀評(píng)分,最終獲得37個(gè)合格的噪聲樣本主觀評(píng)價(jià)。
5類噪聲樣本的柱狀圖,如圖2所示。由圖可知,各類噪聲樣本的數(shù)量不一致,其中“很好”的噪聲樣本數(shù)量最少,為了平衡各類噪聲樣本的數(shù)量以及增加訓(xùn)練樣本數(shù)量,對(duì)噪聲樣本的長(zhǎng)度進(jìn)行切割,每個(gè)訓(xùn)練樣本長(zhǎng)度為4 s。
圖2 各類噪聲樣本的數(shù)量
基于CNN和LSTM融合特征提取的車內(nèi)聲品質(zhì)評(píng)價(jià)模型的網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示,由預(yù)處理層、CNN層、LSTM層和分類器組成,噪聲樣本首先經(jīng)過(guò)對(duì)數(shù)梅爾頻譜和時(shí)頻遮掩的預(yù)處理,其次進(jìn)入標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)和空洞卷積網(wǎng)絡(luò),接著把得到的三維數(shù)組扁平展開(kāi)成一維數(shù)組進(jìn)入LSTM網(wǎng)絡(luò),之后進(jìn)入分類器獲得預(yù)測(cè)概率值序列,最終輸出最大概率值所對(duì)應(yīng)的噪聲樣本評(píng)價(jià)等級(jí)。
圖3 車內(nèi)聲品質(zhì)評(píng)價(jià)模型的網(wǎng)絡(luò)結(jié)構(gòu)
對(duì)噪聲樣本做預(yù)處理是為了把噪聲樣本的一維波形數(shù)據(jù)轉(zhuǎn)換為高維數(shù)據(jù),以及增強(qiáng)數(shù)據(jù)的特征,以助于CNN和LSTM提取其中深層次特征。本文采用對(duì)數(shù)梅爾頻譜和時(shí)頻遮掩相結(jié)合的方法對(duì)噪聲樣本做預(yù)處理,如圖4所示。
圖4 車內(nèi)聲品質(zhì)評(píng)價(jià)模型的預(yù)處理過(guò)程
2.1.1 對(duì)數(shù)梅爾頻譜
梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)能夠獲取音頻數(shù)據(jù)中符合人耳對(duì)聲音感受的頻率信息,有助于在深度學(xué)習(xí)中進(jìn)行卷積操作和特征提取。MFCC的提取主要包括梅爾濾波和倒譜分析,后者由于刪除了信息和破壞空間信息,不適用于深度學(xué)習(xí)。省略倒譜分析之后便得到對(duì)數(shù)梅爾頻譜,其提取流程為:輸入噪聲樣本,先進(jìn)行預(yù)加重、分幀和加窗,然后做短時(shí)傅里葉變換得到功率譜,之后使用梅爾濾波器濾波,再取對(duì)數(shù)便得到對(duì)數(shù)梅爾頻譜,圖4 b即為對(duì)數(shù)梅爾頻譜。梅爾頻率與物理頻率的轉(zhuǎn)換公式如式(1)所示。
式中:為梅爾頻率,Hz;為物理頻率,Hz。
2.1.2 時(shí)頻遮掩
時(shí)頻遮掩是一種數(shù)據(jù)增強(qiáng)的方法,通過(guò)故意使用受損數(shù)據(jù)來(lái)防止模型過(guò)擬合,有助于訓(xùn)練出更簡(jiǎn)單的網(wǎng)絡(luò),加快網(wǎng)絡(luò)的收斂速度。它包括頻率遮掩和時(shí)間遮掩兩個(gè)部分,具體操作是把對(duì)數(shù)梅爾頻譜指定的時(shí)間區(qū)間、頻率區(qū)間內(nèi)的數(shù)值變?yōu)榱阒?,如圖4 c所示。
CNN是深度學(xué)習(xí)的一類網(wǎng)絡(luò)結(jié)構(gòu),多用于圖像、語(yǔ)音和視頻等的分類和識(shí)別,它通常由標(biāo)準(zhǔn)卷積或空洞卷積、激活和池化構(gòu)成,有時(shí)為了防止模型出現(xiàn)過(guò)擬合和加快訓(xùn)練速度,在卷積和激活之間會(huì)使用批量歸一化,如圖5所示。
圖5 CNN層的網(wǎng)絡(luò)結(jié)構(gòu)
2.2.1 標(biāo)準(zhǔn)卷積與空洞卷積
卷積的過(guò)程是以時(shí)頻遮掩后的對(duì)數(shù)梅爾頻譜為輸入,將卷積核在頻譜上掃描,累加對(duì)應(yīng)項(xiàng)相乘得到輸出,如式(2)所示。
式中:()為輸入;()為卷積核;()為輸出;為步長(zhǎng)。
空洞卷積在標(biāo)準(zhǔn)卷積中添加零值來(lái)擴(kuò)大卷積核尺寸,使其獲得更大的感受野,從而更好地提取特征??斩淳矸e的尺寸由膨脹系數(shù)(Dilation Factor,DF)來(lái)調(diào)整,膨脹系數(shù)為在卷積核相鄰參數(shù)中填充(DF-1)個(gè)0??蓪?biāo)準(zhǔn)卷積看作是膨脹系數(shù)為1的特殊空洞卷積。空洞卷積的輸出定義為:
式中:、分別為輸入特征圖的長(zhǎng)和寬;(,)為該特征圖上(,)位置的特征值;DF為膨脹系數(shù);(,)為該特征圖經(jīng)過(guò)空洞卷積后的輸出。本文的CNN采用一個(gè)標(biāo)準(zhǔn)卷積和一個(gè)膨脹系數(shù)為2的空洞卷積的組合。
2.2.2 批量歸一化、激活函數(shù)和平均池化
批量歸一化是數(shù)據(jù)預(yù)處理中的常用操作,可以統(tǒng)一各特征值的量綱,加快梯度的下降速度,從而縮短尋找最優(yōu)值的時(shí)間。
激活函數(shù)的作用是給網(wǎng)絡(luò)引入非線性特性,增強(qiáng)模型的泛化能力。常用的激活函數(shù)有Sigmoid函數(shù)、Tanh函數(shù)和ReLU函數(shù),本文模型中CNN和全連接的激活函數(shù)均使用ReLU函數(shù),長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的細(xì)胞狀態(tài)激活函數(shù)使用Tanh函數(shù),門(mén)激活函數(shù)使用Sigmoid函數(shù)。
池化是對(duì)上一個(gè)特征圖進(jìn)行一次數(shù)據(jù)過(guò)濾以減少網(wǎng)絡(luò)參數(shù),包括平均池化、最大池化和全局池化,由于平均池化可以保留較多的信息,使提取的特征更完整,所以標(biāo)準(zhǔn)卷積和空洞卷積都采用平均池化,其運(yùn)算過(guò)程為:首先,設(shè)置特征圖上的窗口尺寸和步長(zhǎng),然后在特征圖周圍添加零值,這一步在深度學(xué)習(xí)中稱為“padding”,接著計(jì)算特征圖窗口內(nèi)所有數(shù)值的平均值,這個(gè)平均值作為下一個(gè)特征圖的數(shù)值,窗口從左到右、從上至下按預(yù)設(shè)的步長(zhǎng)滑動(dòng),直至歷遍整個(gè)特征圖。
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)屬于深度學(xué)習(xí)中循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種網(wǎng)絡(luò)結(jié)構(gòu),多用于機(jī)器翻譯、天氣預(yù)測(cè)和音頻識(shí)別等具有時(shí)序特征的識(shí)別和分類任務(wù)。LSTM使用3種門(mén)決定細(xì)胞狀態(tài)中信息通過(guò)的比例,分別為遺忘門(mén)、輸入門(mén)和輸出門(mén),如圖6所示。
圖6 LSTM層的網(wǎng)絡(luò)結(jié)構(gòu)
遺忘門(mén)決定細(xì)胞狀態(tài)遺忘信息,其計(jì)算公式為:
式中:x為輸入門(mén);h為上一時(shí)刻狀態(tài);f為遺忘門(mén);、分別為遺忘門(mén)的權(quán)重和偏置項(xiàng)。
輸入門(mén)決定增加信息到細(xì)胞狀態(tài),其公式為:
更新細(xì)胞狀態(tài):
輸出門(mén)決定輸出什么信息,其計(jì)算公式為:
式中:h為最終的輸出狀態(tài)信息;、分別為輸出門(mén)的權(quán)重和偏置項(xiàng)。
如圖7所示,模型的分類器由兩個(gè)全連接和1個(gè)Softmax輸出單元構(gòu)成,第1個(gè)和第2個(gè)全連接的神經(jīng)元數(shù)量分別為30個(gè)和5個(gè),分類器最后輸出噪聲樣本被預(yù)測(cè)為5個(gè)評(píng)價(jià)等級(jí)的各個(gè)概率值,模型最終輸出的是最大概率值所對(duì)應(yīng)的評(píng)價(jià)等級(jí)。
圖7 分類器的網(wǎng)絡(luò)結(jié)構(gòu)
2.4.1 全連接和隨機(jī)失活
深度學(xué)習(xí)模型的分類器通常使用兩個(gè)全連接,第1個(gè)全連接用于進(jìn)一步提取輸入數(shù)據(jù)的特征,第2個(gè)全連接則用于縮小最終的輸出大小,其神經(jīng)元數(shù)量與模型的分類數(shù)量相等。每個(gè)全連接后面也需要使用激活函數(shù)來(lái)引入非線性特性。
隨機(jī)失活就是按設(shè)定的概率隨機(jī)去掉網(wǎng)絡(luò)當(dāng)中的一些神經(jīng)元,可降低模型對(duì)網(wǎng)絡(luò)中某些神經(jīng)元的依賴性,增強(qiáng)模型的泛化能力,同時(shí)可減少訓(xùn)練過(guò)程中的運(yùn)算量,有效防止過(guò)擬合和加快訓(xùn)練速度。本文在兩個(gè)全連接之間使用1個(gè)失活概率設(shè)置為0.5的隨機(jī)失活。
2.4.2 損失函數(shù)
損失函數(shù)用于評(píng)估預(yù)測(cè)值與真實(shí)值之間的差距,網(wǎng)絡(luò)反向傳播計(jì)算的目標(biāo)就是使損失函數(shù)達(dá)到全局最小值,使預(yù)測(cè)值最接近真實(shí)值。本文的聲品質(zhì)評(píng)價(jià)任務(wù)屬于多分類任務(wù),選用分類交叉熵作為損失函數(shù),如式(10)所示。
式中:為種類數(shù)量;為樣本評(píng)價(jià)等級(jí)向量,如果類別是,則y=1,否則等于0;p為神經(jīng)網(wǎng)絡(luò)的輸出,指預(yù)測(cè)類別為的概率,由選定的輸出單元計(jì)算得出。
2.4.3 Softmax輸出單元
Softmax函數(shù)是一種常用于多分類任務(wù)的輸出單元,能表示個(gè)不同類別的概率分布,其計(jì)算公式為:
式中:y為車內(nèi)噪聲樣本被分類為第類的概率;x和x為Softmax單元的輸入,即第2個(gè)全連接的個(gè)輸出。由于上文將車內(nèi)噪聲分為5個(gè)評(píng)價(jià)等級(jí),所以值為5。
本文的車內(nèi)聲品質(zhì)評(píng)價(jià)模型是在Matlab Deep Network Designer環(huán)境下建立的,首先使用訓(xùn)練集尋找模型的最佳網(wǎng)絡(luò)參數(shù),然后應(yīng)用驗(yàn)證集檢驗(yàn)每次迭代訓(xùn)練后模型的預(yù)測(cè)準(zhǔn)確度,訓(xùn)練全部結(jié)束后使用測(cè)試集評(píng)估模型的性能。深度學(xué)習(xí)模型的訓(xùn)練不僅需要大量的樣本,而且超參數(shù)的選擇對(duì)最終訓(xùn)練出來(lái)的模型性能產(chǎn)生重要的作用?;煜仃囀巧疃葘W(xué)習(xí)中常用于測(cè)試模型性能的方法,可以直觀地看出各類別和全部類別的預(yù)測(cè)結(jié)果。
3.1.1 混合輸入和超參數(shù)
混合輸入通過(guò)對(duì)同一數(shù)據(jù)集的兩個(gè)樣本和目標(biāo)值進(jìn)行插值獲得更多的樣本,從而克服因樣本數(shù)量少而導(dǎo)致訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合的缺點(diǎn),理論上通過(guò)這種方法可獲得無(wú)窮多個(gè)樣本。本文使用混合輸入獲取訓(xùn)練集和驗(yàn)證集,圖4 a為通過(guò)混合輸入獲得的噪聲樣本波形圖。
優(yōu)化器、學(xué)習(xí)率、L2正則化系數(shù)、最小批次數(shù)量、訓(xùn)練集和驗(yàn)證集的樣本數(shù)量等超參數(shù)對(duì)模型最終的預(yù)測(cè)準(zhǔn)確度具有非常重要的影響??晒┻x擇的優(yōu)化器有SGDM、RMSProp和Adam,由于Adam訓(xùn)練速度較快、收斂性更好,所以選擇Adam作為優(yōu)化器,與之相對(duì)應(yīng)的學(xué)習(xí)率通常使用0.001。L2正則化是一種有效防止過(guò)擬合的方法,它在權(quán)重的損失函數(shù)后面添加1個(gè)懲罰項(xiàng),懲罰項(xiàng)前面的系數(shù)就是L2正則化系數(shù),也稱為權(quán)重衰減系數(shù)。最小批次是訓(xùn)練集的子集,用于每次迭代中評(píng)估損失函數(shù)的梯度并更新權(quán)重。訓(xùn)練集用于更新模型的網(wǎng)絡(luò)參數(shù),訓(xùn)練集的樣本數(shù)量太少,容易導(dǎo)致訓(xùn)練出來(lái)的模型過(guò)于簡(jiǎn)單而出現(xiàn)欠擬合現(xiàn)象,訓(xùn)練集的樣本數(shù)量太多,又會(huì)使模型過(guò)于復(fù)雜而出現(xiàn)過(guò)擬合現(xiàn)象,所以需要選擇合適的訓(xùn)練集樣本數(shù)量。驗(yàn)證集用于評(píng)估不同網(wǎng)絡(luò)參數(shù)下模型的性能,根據(jù)模型在驗(yàn)證集上的效果選擇是否停止訓(xùn)練,它的數(shù)量需要與訓(xùn)練集保持一定的比例,一般選擇3∶7或2∶8的比例,本文選擇后者的比例。表1列舉了超參數(shù)的選取情況。
表1 超參數(shù)的選擇
3.1.2 模型的訓(xùn)練結(jié)果
如圖8所示,在共12輪的訓(xùn)練過(guò)程中,訓(xùn)練損失曲線除了在第11輪時(shí)有所回升,總體上穩(wěn)定下降,最終模型的訓(xùn)練損失下降至0.728;訓(xùn)練準(zhǔn)確度曲線在1~3輪快速上升,3~6輪經(jīng)過(guò)大幅下降后大幅回升,6~12輪以較小的波動(dòng)幅度緩慢上升,訓(xùn)練準(zhǔn)確度曲線總體上呈現(xiàn)波動(dòng)上升的趨勢(shì),最終模型的訓(xùn)練準(zhǔn)確度達(dá)到了96.88%。訓(xùn)練損失和訓(xùn)練準(zhǔn)確度的最后結(jié)果說(shuō)明評(píng)價(jià)模型使用訓(xùn)練集學(xué)習(xí)到了理想的網(wǎng)絡(luò)參數(shù),使模型預(yù)測(cè)的2 160個(gè)訓(xùn)練樣本評(píng)價(jià)等級(jí)與真實(shí)評(píng)價(jià)等級(jí)總體上大致接近,同時(shí)也反映了CNN和LSTM共同提取到了噪聲的深層次特征,使分類器能對(duì)大部分噪聲樣本做出正確的分類。
圖8 訓(xùn)練準(zhǔn)確度與訓(xùn)練損失曲線
對(duì)模型的驗(yàn)證分為兩個(gè)部分,第1個(gè)部分使用555個(gè)噪聲樣本作為驗(yàn)證集對(duì)模型進(jìn)行驗(yàn)證,考察其總體準(zhǔn)確度;第2個(gè)部分基于混淆矩陣的方法,使用30個(gè)樣本作為測(cè)試集查看模型對(duì)每一類樣本的分類精度。
第1部分驗(yàn)證的結(jié)果如圖9所示,在0~12輪過(guò)程中驗(yàn)證損失穩(wěn)定下降,最終降至0.681;驗(yàn)證準(zhǔn)確度在第3輪之前快速上升,之后緩慢爬升,在第8輪后波動(dòng)變化,驗(yàn)證準(zhǔn)確度基本保持不變,70明模型的性能基本穩(wěn)定下來(lái)了,最終的驗(yàn)證準(zhǔn)確度為93.69%。
圖9 驗(yàn)證準(zhǔn)確度與驗(yàn)證損失曲線
第2部分驗(yàn)證的結(jié)果如圖10所示,從長(zhǎng)度為4 s的真實(shí)噪聲樣本集中,每一類隨機(jī)挑選6個(gè),總共30個(gè)噪聲樣本作為測(cè)試集輸入已訓(xùn)練好的評(píng)價(jià)模型,獲得預(yù)測(cè)評(píng)價(jià)等級(jí)與真實(shí)評(píng)價(jià)等級(jí)組成的混淆矩陣?;煜仃嚨男写眍A(yù)測(cè)評(píng)價(jià)等級(jí),列代表真實(shí)評(píng)價(jià)等級(jí),對(duì)角線上的數(shù)字和百分比為各類噪聲樣本預(yù)測(cè)正確的樣本數(shù)量和預(yù)測(cè)準(zhǔn)確度,非對(duì)角線上的數(shù)字和百分比則是分類錯(cuò)誤的樣本數(shù)量和預(yù)測(cè)偏差度。從混淆矩陣可以看出,有1個(gè)真實(shí)評(píng)價(jià)等級(jí)為“差”的噪聲樣本被分類為“很差”,有3個(gè)真實(shí)評(píng)價(jià)等級(jí)為“良好”的噪聲樣本被分類為“很好”,這4個(gè)噪聲樣本均被分類于相鄰的評(píng)價(jià)等級(jí),與真實(shí)評(píng)價(jià)等級(jí)差距不大,其余的噪聲樣本均被正確分類,表明模型對(duì)“很差”、“合格”和“很好”樣本預(yù)測(cè)準(zhǔn)確度最高。
圖10 評(píng)價(jià)模型的混淆矩陣
總體來(lái)說(shuō),評(píng)價(jià)模型的預(yù)測(cè)結(jié)果與主觀評(píng)價(jià)結(jié)果有著很高的吻合度,能夠用于車內(nèi)噪聲的聲品質(zhì)評(píng)價(jià)。
本文基于深度學(xué)習(xí)法建立了車內(nèi)聲品質(zhì)評(píng)價(jià)模型,該模型由預(yù)處理層、CNN層、LSTM層和分類器組成。通過(guò)研究得出以下結(jié)論:
(1)使用對(duì)數(shù)梅爾頻譜的方法把一維的波形噪聲變換成二維的頻譜,同時(shí)使用時(shí)頻遮掩法增強(qiáng)數(shù)據(jù)的特征,為模型的CNN層、LSTM層和分類器提供更多、更強(qiáng)的特征信息。
(2)評(píng)價(jià)模型在訓(xùn)練集的訓(xùn)練之下獲得了96.88%的訓(xùn)練準(zhǔn)確度,說(shuō)明模型已獲得理想的網(wǎng)絡(luò)參數(shù),使模型對(duì)大部分樣本的評(píng)價(jià)等級(jí)預(yù)測(cè)正確。
(3)在驗(yàn)證集的檢驗(yàn)下,評(píng)價(jià)模型的驗(yàn)證準(zhǔn)確度為93.69%,使用測(cè)試集對(duì)評(píng)價(jià)模型進(jìn)行評(píng)估,發(fā)現(xiàn)評(píng)價(jià)模型的預(yù)測(cè)結(jié)果與主觀評(píng)價(jià)結(jié)果具有很高的吻合度,證明基于CNN和LSTM融合特征提取的車內(nèi)聲品質(zhì)模型具有足夠的精度,可用于車內(nèi)聲品質(zhì)的評(píng)價(jià)。