亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于CNN和LSTM融合特征提取的車內(nèi)聲品質(zhì)評(píng)價(jià)模型研究

2022-10-12 10:27:06楊禮強(qiáng)王攀王杰

汽車工程學(xué)報(bào) 2022年5期

楊禮強(qiáng)，王攀，王杰

（1.重慶大學(xué)機(jī)械與運(yùn)載工程學(xué)院，重慶 400044；2.作業(yè)幫教育科技（北京）有限公司，北京 100085）

聲品質(zhì)是一款汽車脫穎而出、吸引消費(fèi)者的重要因素之一，其科學(xué)高效的評(píng)價(jià)是汽車噪聲、振動(dòng)與聲振粗糙度（Noise、Vibration、Harshness，NVH）性能開(kāi)發(fā)設(shè)計(jì)的關(guān)鍵。通過(guò)建立聲品質(zhì)客觀評(píng)價(jià)模型來(lái)替代專家評(píng)審團(tuán)做出符合人類主觀感受的評(píng)價(jià)和分類，可以克服聽(tīng)音試驗(yàn)評(píng)價(jià)的缺點(diǎn)，有效節(jié)省成本和時(shí)間。

國(guó)內(nèi)外研究者根據(jù)不同類型的汽車噪聲，如車內(nèi)噪聲、汽車關(guān)門(mén)聲、發(fā)動(dòng)機(jī)噪聲、汽車加速噪聲等，從多元線性回歸、支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)和小波神經(jīng)網(wǎng)絡(luò)等方法中選用一種來(lái)構(gòu)建聲品質(zhì)評(píng)價(jià)模型，這些方法都用到了物理聲學(xué)指標(biāo)和客觀心理聲學(xué)參數(shù)，高度依賴于大量的、復(fù)雜的聲學(xué)理論和經(jīng)驗(yàn)知識(shí)。前3種方法通常在響度、尖銳度、粗糙度、波動(dòng)度、A計(jì)權(quán)聲壓級(jí)、AI指數(shù)、主沖擊時(shí)間、低頻延續(xù)時(shí)間、抖動(dòng)度、峰值頻率、語(yǔ)音清晰度和言語(yǔ)干擾級(jí)等聲學(xué)參數(shù)中，選用多個(gè)參數(shù)對(duì)噪聲樣本做預(yù)處理?；谛〔ㄉ窠?jīng)網(wǎng)絡(luò)法，有的研究者引用維格納-威爾分布的時(shí)頻分析方法，建立聲品質(zhì)參量SQP-RW，以此參量輸入小波神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)汽車聲品質(zhì)；有的研究者為加快聲品質(zhì)評(píng)價(jià)模型的計(jì)算速度，使用噪聲信號(hào)的能量、均值和標(biāo)準(zhǔn)差對(duì)響度、尖銳度、粗糙度、聲調(diào)做出預(yù)測(cè)，采用這4個(gè)參數(shù)對(duì)噪聲樣本做預(yù)處理。

采用深度學(xué)習(xí)法建立車內(nèi)聲品質(zhì)評(píng)價(jià)模型不僅不需要高度依賴于復(fù)雜的聲學(xué)理論和經(jīng)驗(yàn)知識(shí)，還可以提取某些可能的未知深層次特征，使最終的聲品質(zhì)評(píng)價(jià)模型具有理想的預(yù)測(cè)準(zhǔn)確度。首先使用對(duì)數(shù)梅爾頻譜和時(shí)頻遮掩相結(jié)合的方法對(duì)噪聲樣本做預(yù)處理；然后建立CNN和LSTM相融合的特征提取模塊，以及使用全連接和Softmax輸出單元組合搭建分類器模塊；最后借助混合輸入得到大量樣本對(duì)所建立的評(píng)價(jià)模型進(jìn)行訓(xùn)練，使其具備理想的精度。

1 車內(nèi)噪聲測(cè)試與主觀評(píng)價(jià)

1.1 車內(nèi)噪聲數(shù)據(jù)采集

汽車行駛過(guò)程中會(huì)產(chǎn)生發(fā)動(dòng)機(jī)噪聲、輪胎噪聲和風(fēng)振噪聲等，各種噪聲經(jīng)過(guò)不同的途徑傳遞到車內(nèi)，在較為封閉的空間內(nèi)互相疊加和反射形成了車內(nèi)噪聲。車輛型號(hào)、車速以及乘坐位置等因素都會(huì)影響駕乘者坐在車內(nèi)的聲音舒適性，這些因素在設(shè)計(jì)車內(nèi)噪聲采集試驗(yàn)時(shí)起到了指導(dǎo)性作用。

為保證車內(nèi)噪聲能夠被真實(shí)有效地記錄到聲音樣本中，在進(jìn)行噪聲采集試驗(yàn)前對(duì)整車的各個(gè)系統(tǒng)進(jìn)行了嚴(yán)格的檢查，確保了各系統(tǒng)都處于正常工作狀態(tài)且無(wú)異響。車內(nèi)噪聲采集試驗(yàn)場(chǎng)地是平滑干燥、無(wú)雜物、往來(lái)車輛少的硬地路面，周圍沒(méi)有高層建筑物，試驗(yàn)當(dāng)天氣溫為16～22℃，沿測(cè)試路線于1.2 m高度測(cè)得風(fēng)速為1.7～2.0 m/s，滿足GB/T 18697—2002《聲學(xué)-汽車車內(nèi)噪聲測(cè)量方法》規(guī)定的測(cè)試環(huán)境。依據(jù)國(guó)標(biāo)對(duì)傳聲器的安裝要求，將傳聲器安裝在座椅頭枕靠近駕駛員和后排乘員左右耳的位置，且傳聲器以最大靈敏度的方向水平指向行駛方向，調(diào)節(jié)駕駛員座椅的靠背，使其處于垂直位置。傳聲器在車內(nèi)的安裝位置如圖1所示。

圖1 傳聲器的車內(nèi)安裝位置

當(dāng)車輛按照預(yù)設(shè)的速度勻速穩(wěn)定行駛時(shí)開(kāi)始采集車內(nèi)噪聲信號(hào)，且此時(shí)變速器擋位均處于最高擋位。最終獲得5輛不同品牌乘用車在60、80、100、120 km/h車速下的車內(nèi)不同位置噪聲樣本。

1.2 車內(nèi)噪聲主觀評(píng)價(jià)

主觀評(píng)價(jià)試驗(yàn)組織了25位來(lái)自振動(dòng)噪聲領(lǐng)域的研究者進(jìn)行聽(tīng)音試驗(yàn)，其年齡分布在22～45周歲之間，平均年齡為28歲。使用類別判斷法作為主觀評(píng)價(jià)方法，并對(duì)評(píng)審團(tuán)進(jìn)行聲品質(zhì)的知識(shí)培訓(xùn)以及正式試驗(yàn)前的聽(tīng)音訓(xùn)練。使用煩躁度作為評(píng)價(jià)試驗(yàn)的聲品質(zhì)指標(biāo)，參考韓國(guó)現(xiàn)代公司提出的等級(jí)劃分法，將評(píng)價(jià)指標(biāo)由低到高分為很差（0～0.2）、差（0.2～0.4）、合格（0.4～0.6）、良好（0.6～0.8）和很好（0.8～1）5個(gè)等級(jí)供評(píng)審員選擇。評(píng)價(jià)試驗(yàn)在具有良好隔聲效果的實(shí)驗(yàn)室內(nèi)進(jìn)行，回放設(shè)備采用高保真解碼器與某品牌高保真耳機(jī)組合，回放軟件使用Simcenter Testlab軟件下的Jury Testing模塊。評(píng)分結(jié)束后使用皮爾遜相關(guān)分析法對(duì)評(píng)價(jià)分值進(jìn)行檢驗(yàn)，剔除相關(guān)系數(shù)低于0.6的3位評(píng)價(jià)者的主觀評(píng)分，最終獲得37個(gè)合格的噪聲樣本主觀評(píng)價(jià)。

5類噪聲樣本的柱狀圖，如圖2所示。由圖可知，各類噪聲樣本的數(shù)量不一致，其中“很好”的噪聲樣本數(shù)量最少，為了平衡各類噪聲樣本的數(shù)量以及增加訓(xùn)練樣本數(shù)量，對(duì)噪聲樣本的長(zhǎng)度進(jìn)行切割，每個(gè)訓(xùn)練樣本長(zhǎng)度為4 s。

圖2 各類噪聲樣本的數(shù)量

2 車內(nèi)聲品質(zhì)評(píng)價(jià)模型的構(gòu)建

基于CNN和LSTM融合特征提取的車內(nèi)聲品質(zhì)評(píng)價(jià)模型的網(wǎng)絡(luò)結(jié)構(gòu)，如圖3所示，由預(yù)處理層、CNN層、LSTM層和分類器組成，噪聲樣本首先經(jīng)過(guò)對(duì)數(shù)梅爾頻譜和時(shí)頻遮掩的預(yù)處理，其次進(jìn)入標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)和空洞卷積網(wǎng)絡(luò)，接著把得到的三維數(shù)組扁平展開(kāi)成一維數(shù)組進(jìn)入LSTM網(wǎng)絡(luò)，之后進(jìn)入分類器獲得預(yù)測(cè)概率值序列，最終輸出最大概率值所對(duì)應(yīng)的噪聲樣本評(píng)價(jià)等級(jí)。

圖3 車內(nèi)聲品質(zhì)評(píng)價(jià)模型的網(wǎng)絡(luò)結(jié)構(gòu)

2.1 預(yù)處理層

對(duì)噪聲樣本做預(yù)處理是為了把噪聲樣本的一維波形數(shù)據(jù)轉(zhuǎn)換為高維數(shù)據(jù)，以及增強(qiáng)數(shù)據(jù)的特征，以助于CNN和LSTM提取其中深層次特征。本文采用對(duì)數(shù)梅爾頻譜和時(shí)頻遮掩相結(jié)合的方法對(duì)噪聲樣本做預(yù)處理，如圖4所示。

圖4 車內(nèi)聲品質(zhì)評(píng)價(jià)模型的預(yù)處理過(guò)程

2.1.1 對(duì)數(shù)梅爾頻譜

梅爾頻率倒譜系數(shù)（Mel Frequency Cepstrum Coefficient，MFCC）能夠獲取音頻數(shù)據(jù)中符合人耳對(duì)聲音感受的頻率信息，有助于在深度學(xué)習(xí)中進(jìn)行卷積操作和特征提取。MFCC的提取主要包括梅爾濾波和倒譜分析，后者由于刪除了信息和破壞空間信息，不適用于深度學(xué)習(xí)。省略倒譜分析之后便得到對(duì)數(shù)梅爾頻譜，其提取流程為：輸入噪聲樣本，先進(jìn)行預(yù)加重、分幀和加窗，然后做短時(shí)傅里葉變換得到功率譜，之后使用梅爾濾波器濾波，再取對(duì)數(shù)便得到對(duì)數(shù)梅爾頻譜，圖4 b即為對(duì)數(shù)梅爾頻譜。梅爾頻率與物理頻率的轉(zhuǎn)換公式如式（1）所示。

式中：為梅爾頻率，Hz；為物理頻率，Hz。

2.1.2 時(shí)頻遮掩

時(shí)頻遮掩是一種數(shù)據(jù)增強(qiáng)的方法，通過(guò)故意使用受損數(shù)據(jù)來(lái)防止模型過(guò)擬合，有助于訓(xùn)練出更簡(jiǎn)單的網(wǎng)絡(luò)，加快網(wǎng)絡(luò)的收斂速度。它包括頻率遮掩和時(shí)間遮掩兩個(gè)部分，具體操作是把對(duì)數(shù)梅爾頻譜指定的時(shí)間區(qū)間、頻率區(qū)間內(nèi)的數(shù)值變?yōu)榱阒?，如圖4 c所示。

2.2 CNN層

CNN是深度學(xué)習(xí)的一類網(wǎng)絡(luò)結(jié)構(gòu)，多用于圖像、語(yǔ)音和視頻等的分類和識(shí)別，它通常由標(biāo)準(zhǔn)卷積或空洞卷積、激活和池化構(gòu)成，有時(shí)為了防止模型出現(xiàn)過(guò)擬合和加快訓(xùn)練速度，在卷積和激活之間會(huì)使用批量歸一化，如圖5所示。

圖5 CNN層的網(wǎng)絡(luò)結(jié)構(gòu)

2.2.1 標(biāo)準(zhǔn)卷積與空洞卷積

卷積的過(guò)程是以時(shí)頻遮掩后的對(duì)數(shù)梅爾頻譜為輸入，將卷積核在頻譜上掃描，累加對(duì)應(yīng)項(xiàng)相乘得到輸出，如式（2）所示。

式中：()為輸入；()為卷積核；()為輸出；為步長(zhǎng)。

空洞卷積在標(biāo)準(zhǔn)卷積中添加零值來(lái)擴(kuò)大卷積核尺寸，使其獲得更大的感受野，從而更好地提取特征?？斩淳矸e的尺寸由膨脹系數(shù)（Dilation Factor，DF）來(lái)調(diào)整，膨脹系數(shù)為在卷積核相鄰參數(shù)中填充（DF-1）個(gè)0?？蓪?biāo)準(zhǔn)卷積看作是膨脹系數(shù)為1的特殊空洞卷積。空洞卷積的輸出定義為：

式中：、分別為輸入特征圖的長(zhǎng)和寬；(，)為該特征圖上(，)位置的特征值；DF為膨脹系數(shù)；(，)為該特征圖經(jīng)過(guò)空洞卷積后的輸出。本文的CNN采用一個(gè)標(biāo)準(zhǔn)卷積和一個(gè)膨脹系數(shù)為2的空洞卷積的組合。

2.2.2 批量歸一化、激活函數(shù)和平均池化

批量歸一化是數(shù)據(jù)預(yù)處理中的常用操作，可以統(tǒng)一各特征值的量綱，加快梯度的下降速度，從而縮短尋找最優(yōu)值的時(shí)間。

激活函數(shù)的作用是給網(wǎng)絡(luò)引入非線性特性，增強(qiáng)模型的泛化能力。常用的激活函數(shù)有Sigmoid函數(shù)、Tanh函數(shù)和ReLU函數(shù)，本文模型中CNN和全連接的激活函數(shù)均使用ReLU函數(shù)，長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的細(xì)胞狀態(tài)激活函數(shù)使用Tanh函數(shù)，門(mén)激活函數(shù)使用Sigmoid函數(shù)。

池化是對(duì)上一個(gè)特征圖進(jìn)行一次數(shù)據(jù)過(guò)濾以減少網(wǎng)絡(luò)參數(shù)，包括平均池化、最大池化和全局池化，由于平均池化可以保留較多的信息，使提取的特征更完整，所以標(biāo)準(zhǔn)卷積和空洞卷積都采用平均池化，其運(yùn)算過(guò)程為：首先，設(shè)置特征圖上的窗口尺寸和步長(zhǎng)，然后在特征圖周圍添加零值，這一步在深度學(xué)習(xí)中稱為“padding”，接著計(jì)算特征圖窗口內(nèi)所有數(shù)值的平均值，這個(gè)平均值作為下一個(gè)特征圖的數(shù)值，窗口從左到右、從上至下按預(yù)設(shè)的步長(zhǎng)滑動(dòng)，直至歷遍整個(gè)特征圖。

2.3 LSTM層

長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)屬于深度學(xué)習(xí)中循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）的一種網(wǎng)絡(luò)結(jié)構(gòu)，多用于機(jī)器翻譯、天氣預(yù)測(cè)和音頻識(shí)別等具有時(shí)序特征的識(shí)別和分類任務(wù)。LSTM使用3種門(mén)決定細(xì)胞狀態(tài)中信息通過(guò)的比例，分別為遺忘門(mén)、輸入門(mén)和輸出門(mén)，如圖6所示。

圖6 LSTM層的網(wǎng)絡(luò)結(jié)構(gòu)

遺忘門(mén)決定細(xì)胞狀態(tài)遺忘信息，其計(jì)算公式為：

式中：x為輸入門(mén)；h為上一時(shí)刻狀態(tài)；f為遺忘門(mén)；、分別為遺忘門(mén)的權(quán)重和偏置項(xiàng)。

輸入門(mén)決定增加信息到細(xì)胞狀態(tài)，其公式為：

更新細(xì)胞狀態(tài)：

輸出門(mén)決定輸出什么信息，其計(jì)算公式為：

式中：h為最終的輸出狀態(tài)信息；、分別為輸出門(mén)的權(quán)重和偏置項(xiàng)。

2.4 分類器

如圖7所示，模型的分類器由兩個(gè)全連接和1個(gè)Softmax輸出單元構(gòu)成，第1個(gè)和第2個(gè)全連接的神經(jīng)元數(shù)量分別為30個(gè)和5個(gè)，分類器最后輸出噪聲樣本被預(yù)測(cè)為5個(gè)評(píng)價(jià)等級(jí)的各個(gè)概率值，模型最終輸出的是最大概率值所對(duì)應(yīng)的評(píng)價(jià)等級(jí)。

圖7 分類器的網(wǎng)絡(luò)結(jié)構(gòu)

2.4.1 全連接和隨機(jī)失活

深度學(xué)習(xí)模型的分類器通常使用兩個(gè)全連接，第1個(gè)全連接用于進(jìn)一步提取輸入數(shù)據(jù)的特征，第2個(gè)全連接則用于縮小最終的輸出大小，其神經(jīng)元數(shù)量與模型的分類數(shù)量相等。每個(gè)全連接后面也需要使用激活函數(shù)來(lái)引入非線性特性。

隨機(jī)失活就是按設(shè)定的概率隨機(jī)去掉網(wǎng)絡(luò)當(dāng)中的一些神經(jīng)元，可降低模型對(duì)網(wǎng)絡(luò)中某些神經(jīng)元的依賴性，增強(qiáng)模型的泛化能力，同時(shí)可減少訓(xùn)練過(guò)程中的運(yùn)算量，有效防止過(guò)擬合和加快訓(xùn)練速度。本文在兩個(gè)全連接之間使用1個(gè)失活概率設(shè)置為0.5的隨機(jī)失活。

2.4.2 損失函數(shù)

損失函數(shù)用于評(píng)估預(yù)測(cè)值與真實(shí)值之間的差距，網(wǎng)絡(luò)反向傳播計(jì)算的目標(biāo)就是使損失函數(shù)達(dá)到全局最小值，使預(yù)測(cè)值最接近真實(shí)值。本文的聲品質(zhì)評(píng)價(jià)任務(wù)屬于多分類任務(wù)，選用分類交叉熵作為損失函數(shù)，如式（10）所示。

式中：為種類數(shù)量；為樣本評(píng)價(jià)等級(jí)向量，如果類別是，則y=1，否則等于0；p為神經(jīng)網(wǎng)絡(luò)的輸出，指預(yù)測(cè)類別為的概率，由選定的輸出單元計(jì)算得出。

2.4.3 Softmax輸出單元

Softmax函數(shù)是一種常用于多分類任務(wù)的輸出單元，能表示個(gè)不同類別的概率分布，其計(jì)算公式為：

式中：y為車內(nèi)噪聲樣本被分類為第類的概率；x和x為Softmax單元的輸入，即第2個(gè)全連接的個(gè)輸出。由于上文將車內(nèi)噪聲分為5個(gè)評(píng)價(jià)等級(jí)，所以值為5。

3 評(píng)價(jià)模型的訓(xùn)練與驗(yàn)證

本文的車內(nèi)聲品質(zhì)評(píng)價(jià)模型是在Matlab Deep Network Designer環(huán)境下建立的，首先使用訓(xùn)練集尋找模型的最佳網(wǎng)絡(luò)參數(shù)，然后應(yīng)用驗(yàn)證集檢驗(yàn)每次迭代訓(xùn)練后模型的預(yù)測(cè)準(zhǔn)確度，訓(xùn)練全部結(jié)束后使用測(cè)試集評(píng)估模型的性能。深度學(xué)習(xí)模型的訓(xùn)練不僅需要大量的樣本，而且超參數(shù)的選擇對(duì)最終訓(xùn)練出來(lái)的模型性能產(chǎn)生重要的作用?；煜仃囀巧疃葘W(xué)習(xí)中常用于測(cè)試模型性能的方法，可以直觀地看出各類別和全部類別的預(yù)測(cè)結(jié)果。

3.1 評(píng)價(jià)模型的訓(xùn)練

3.1.1 混合輸入和超參數(shù)

混合輸入通過(guò)對(duì)同一數(shù)據(jù)集的兩個(gè)樣本和目標(biāo)值進(jìn)行插值獲得更多的樣本，從而克服因樣本數(shù)量少而導(dǎo)致訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合的缺點(diǎn)，理論上通過(guò)這種方法可獲得無(wú)窮多個(gè)樣本。本文使用混合輸入獲取訓(xùn)練集和驗(yàn)證集，圖4 a為通過(guò)混合輸入獲得的噪聲樣本波形圖。

優(yōu)化器、學(xué)習(xí)率、L2正則化系數(shù)、最小批次數(shù)量、訓(xùn)練集和驗(yàn)證集的樣本數(shù)量等超參數(shù)對(duì)模型最終的預(yù)測(cè)準(zhǔn)確度具有非常重要的影響?？晒┻x擇的優(yōu)化器有SGDM、RMSProp和Adam，由于Adam訓(xùn)練速度較快、收斂性更好，所以選擇Adam作為優(yōu)化器，與之相對(duì)應(yīng)的學(xué)習(xí)率通常使用0.001。L2正則化是一種有效防止過(guò)擬合的方法，它在權(quán)重的損失函數(shù)后面添加1個(gè)懲罰項(xiàng)，懲罰項(xiàng)前面的系數(shù)就是L2正則化系數(shù)，也稱為權(quán)重衰減系數(shù)。最小批次是訓(xùn)練集的子集，用于每次迭代中評(píng)估損失函數(shù)的梯度并更新權(quán)重。訓(xùn)練集用于更新模型的網(wǎng)絡(luò)參數(shù)，訓(xùn)練集的樣本數(shù)量太少，容易導(dǎo)致訓(xùn)練出來(lái)的模型過(guò)于簡(jiǎn)單而出現(xiàn)欠擬合現(xiàn)象，訓(xùn)練集的樣本數(shù)量太多，又會(huì)使模型過(guò)于復(fù)雜而出現(xiàn)過(guò)擬合現(xiàn)象，所以需要選擇合適的訓(xùn)練集樣本數(shù)量。驗(yàn)證集用于評(píng)估不同網(wǎng)絡(luò)參數(shù)下模型的性能，根據(jù)模型在驗(yàn)證集上的效果選擇是否停止訓(xùn)練，它的數(shù)量需要與訓(xùn)練集保持一定的比例，一般選擇3∶7或2∶8的比例，本文選擇后者的比例。表1列舉了超參數(shù)的選取情況。

表1 超參數(shù)的選擇

3.1.2 模型的訓(xùn)練結(jié)果

如圖8所示，在共12輪的訓(xùn)練過(guò)程中，訓(xùn)練損失曲線除了在第11輪時(shí)有所回升，總體上穩(wěn)定下降，最終模型的訓(xùn)練損失下降至0.728；訓(xùn)練準(zhǔn)確度曲線在1～3輪快速上升，3～6輪經(jīng)過(guò)大幅下降后大幅回升，6～12輪以較小的波動(dòng)幅度緩慢上升，訓(xùn)練準(zhǔn)確度曲線總體上呈現(xiàn)波動(dòng)上升的趨勢(shì)，最終模型的訓(xùn)練準(zhǔn)確度達(dá)到了96.88%。訓(xùn)練損失和訓(xùn)練準(zhǔn)確度的最后結(jié)果說(shuō)明評(píng)價(jià)模型使用訓(xùn)練集學(xué)習(xí)到了理想的網(wǎng)絡(luò)參數(shù)，使模型預(yù)測(cè)的2 160個(gè)訓(xùn)練樣本評(píng)價(jià)等級(jí)與真實(shí)評(píng)價(jià)等級(jí)總體上大致接近，同時(shí)也反映了CNN和LSTM共同提取到了噪聲的深層次特征，使分類器能對(duì)大部分噪聲樣本做出正確的分類。

圖8 訓(xùn)練準(zhǔn)確度與訓(xùn)練損失曲線

3.2 評(píng)價(jià)模型的驗(yàn)證

對(duì)模型的驗(yàn)證分為兩個(gè)部分，第1個(gè)部分使用555個(gè)噪聲樣本作為驗(yàn)證集對(duì)模型進(jìn)行驗(yàn)證，考察其總體準(zhǔn)確度；第2個(gè)部分基于混淆矩陣的方法，使用30個(gè)樣本作為測(cè)試集查看模型對(duì)每一類樣本的分類精度。

第1部分驗(yàn)證的結(jié)果如圖9所示，在0～12輪過(guò)程中驗(yàn)證損失穩(wěn)定下降，最終降至0.681；驗(yàn)證準(zhǔn)確度在第3輪之前快速上升，之后緩慢爬升，在第8輪后波動(dòng)變化，驗(yàn)證準(zhǔn)確度基本保持不變，70明模型的性能基本穩(wěn)定下來(lái)了，最終的驗(yàn)證準(zhǔn)確度為93.69%。

圖9 驗(yàn)證準(zhǔn)確度與驗(yàn)證損失曲線

第2部分驗(yàn)證的結(jié)果如圖10所示，從長(zhǎng)度為4 s的真實(shí)噪聲樣本集中，每一類隨機(jī)挑選6個(gè)，總共30個(gè)噪聲樣本作為測(cè)試集輸入已訓(xùn)練好的評(píng)價(jià)模型，獲得預(yù)測(cè)評(píng)價(jià)等級(jí)與真實(shí)評(píng)價(jià)等級(jí)組成的混淆矩陣?；煜仃嚨男写眍A(yù)測(cè)評(píng)價(jià)等級(jí)，列代表真實(shí)評(píng)價(jià)等級(jí)，對(duì)角線上的數(shù)字和百分比為各類噪聲樣本預(yù)測(cè)正確的樣本數(shù)量和預(yù)測(cè)準(zhǔn)確度，非對(duì)角線上的數(shù)字和百分比則是分類錯(cuò)誤的樣本數(shù)量和預(yù)測(cè)偏差度。從混淆矩陣可以看出，有1個(gè)真實(shí)評(píng)價(jià)等級(jí)為“差”的噪聲樣本被分類為“很差”，有3個(gè)真實(shí)評(píng)價(jià)等級(jí)為“良好”的噪聲樣本被分類為“很好”，這4個(gè)噪聲樣本均被分類于相鄰的評(píng)價(jià)等級(jí)，與真實(shí)評(píng)價(jià)等級(jí)差距不大，其余的噪聲樣本均被正確分類，表明模型對(duì)“很差”、“合格”和“很好”樣本預(yù)測(cè)準(zhǔn)確度最高。

圖10 評(píng)價(jià)模型的混淆矩陣

總體來(lái)說(shuō)，評(píng)價(jià)模型的預(yù)測(cè)結(jié)果與主觀評(píng)價(jià)結(jié)果有著很高的吻合度，能夠用于車內(nèi)噪聲的聲品質(zhì)評(píng)價(jià)。

4 結(jié)論

本文基于深度學(xué)習(xí)法建立了車內(nèi)聲品質(zhì)評(píng)價(jià)模型，該模型由預(yù)處理層、CNN層、LSTM層和分類器組成。通過(guò)研究得出以下結(jié)論：

（1）使用對(duì)數(shù)梅爾頻譜的方法把一維的波形噪聲變換成二維的頻譜，同時(shí)使用時(shí)頻遮掩法增強(qiáng)數(shù)據(jù)的特征，為模型的CNN層、LSTM層和分類器提供更多、更強(qiáng)的特征信息。

（2）評(píng)價(jià)模型在訓(xùn)練集的訓(xùn)練之下獲得了96.88%的訓(xùn)練準(zhǔn)確度，說(shuō)明模型已獲得理想的網(wǎng)絡(luò)參數(shù)，使模型對(duì)大部分樣本的評(píng)價(jià)等級(jí)預(yù)測(cè)正確。

（3）在驗(yàn)證集的檢驗(yàn)下，評(píng)價(jià)模型的驗(yàn)證準(zhǔn)確度為93.69%，使用測(cè)試集對(duì)評(píng)價(jià)模型進(jìn)行評(píng)估，發(fā)現(xiàn)評(píng)價(jià)模型的預(yù)測(cè)結(jié)果與主觀評(píng)價(jià)結(jié)果具有很高的吻合度，證明基于CNN和LSTM融合特征提取的車內(nèi)聲品質(zhì)模型具有足夠的精度，可用于車內(nèi)聲品質(zhì)的評(píng)價(jià)。