古依聰 郭 濤 李 成 劉啟明 石 帥
(1.中北大學(xué)電子測試技術(shù)國家重點(diǎn)實(shí)驗室 太原 030051)(2.中國航天科技集團(tuán)有限公司中國運(yùn)載火箭技術(shù)研究院 北京 100000)
肺音聽診是診斷肺病的有效方法之一,但是,肺音中包含了非平穩(wěn)信號,使用傳統(tǒng)的聽診技術(shù)很難將肺音分離和分析[1],并且還受到醫(yī)生經(jīng)驗、聽力水平等因素的影響,導(dǎo)致結(jié)果的誤差。將肺音聽診智能化,對所檢測到的數(shù)據(jù)進(jìn)行實(shí)時分析,能夠?qū)赡艹霈F(xiàn)的健康問題進(jìn)行提示,保護(hù)人們的健康[2]。
肺音中的異常的肺音可以分為兩類,分別是以連續(xù)性為代表喘息音和斷續(xù)性為代表的水泡音[3]。其中,喘息音持續(xù)時間為250ms 左右,頻率在200Hz~600Hz。水泡音持續(xù)時間為20ms左右,頻率在100Hz~300Hz,正常肺音是在100Hz~1000Hz[4]。本文將分類結(jié)果分為四類,分別是正常音、喘鳴音、水泡音、喘鳴水泡混合音。文本通過LBP 和Mixup進(jìn)行數(shù)據(jù)增強(qiáng)后,采用CNN-RSM 混合模型將肺音進(jìn)行分類,相較于其他使用同一數(shù)據(jù)庫的作者,本文識別準(zhǔn)確率提高10.31%。
由于本文篇幅有限,著重介紹準(zhǔn)確率最高的特征提取辦法——梅爾譜圖特征提取。其他特征提取方法的最終結(jié)果,將在后文進(jìn)行進(jìn)行對比的時候體現(xiàn)。
梅爾倒譜系數(shù)是聲音信號處理方面常用的特征參數(shù),以及由它引出的梅爾譜圖特征提取辦法。人耳所能聽到的頻率范圍是在20Hz~20000Hz,1000Hz 以下的人的主觀頻域感知和頻率是線性關(guān)系,1000Hz 以上的時候呈現(xiàn)對數(shù)關(guān)系[5],而梅爾頻譜圖則是根據(jù)人耳的此特征來進(jìn)行設(shè)計的,在頻帶內(nèi)按照臨界帶寬的大小設(shè)置一組濾波器,對信號進(jìn)行濾波,低頻分布密集,高頻分布稀松[6]。將每個濾波器的功率作為信號的基本特征,經(jīng)過進(jìn)一步處理,則可成為神經(jīng)網(wǎng)絡(luò)的輸入?yún)?shù)。
獲得的梅爾譜圖特征,如圖1 所示。水泡音持續(xù)時間短,而且頻率在100Hz~300Hz 之間,而喘鳴音在200Hz~600Hz 之間。同時可以看出梅爾譜圖的低頻信息十分豐富,對信號的低頻信息更敏感,這是由于梅爾濾波器組對低頻分辨率有更好的分辨率。所以適合對肺音這個低頻信號進(jìn)行分析。
圖1 梅爾譜圖
由于數(shù)據(jù)庫中的的6898 個肺音周期,正常肺音為3642 個周期,占比為53%。喘鳴音、水泡音及兩者的混合音只占47%。這種不平恒的數(shù)據(jù)對于訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的泛化能力有較大的影響,而且容易造成過擬合,因此我們需要進(jìn)行數(shù)據(jù)增強(qiáng),以此改善數(shù)據(jù)結(jié)構(gòu)。
本文使用Mixup 的數(shù)據(jù)增強(qiáng)辦法[7],隨機(jī)抽取同一類中的兩個樣本或者不同類中的兩個,按照一定的權(quán)值將其拼接起來,產(chǎn)生新的樣本,擴(kuò)充樣本數(shù)量,增加樣本間的線性表現(xiàn),從后邊的分類結(jié)果來看,還能增強(qiáng)樣本的魯棒性。在訓(xùn)練樣本(xi,yi)與(xj,yj)的混合鄰域分布中隨機(jī)抽樣生成新的特征目標(biāo)向量:
式中λ可以是[0,1]中的固定值。
在將譜圖特征輸入深度學(xué)習(xí)網(wǎng)絡(luò)之前,為了更好地表現(xiàn)譜圖特征,還需要對譜圖進(jìn)行進(jìn)一步優(yōu)化,使用局部二值模式(Local Binary Pattern,LBP)可以提取到譜圖的局部紋理特征[8]。并且LBP 具有計算簡單且旋轉(zhuǎn)不變性和灰度不變性的優(yōu)點(diǎn),可以降低深度學(xué)習(xí)網(wǎng)絡(luò)過擬合的風(fēng)險[9],同時使得神經(jīng)網(wǎng)絡(luò)具有更好的魯棒性。標(biāo)準(zhǔn)的LBP 算法是一個非參數(shù)的3*3 的核,它根據(jù)每個像素與其周圍的8 個像素的強(qiáng)度值作比較,當(dāng)相鄰像素強(qiáng)度值較高時賦值為1,否則為0,當(dāng)這個像素與周圍8 個值作比較后產(chǎn)生8位數(shù)二進(jìn)制數(shù),即為此點(diǎn)的LBP值[10]。
LBP 二進(jìn)制由于數(shù)值只是0 和1 構(gòu)成,且可以轉(zhuǎn)化為十進(jìn)制數(shù),即一個十進(jìn)制數(shù)就可以簡潔明了地反映該區(qū)域的紋理信。濾波后的肺音經(jīng)過Mel特征提取后,進(jìn)行數(shù)據(jù)增強(qiáng),再輸入深度學(xué)習(xí)模型,最終得到分類結(jié)果如圖2所示。
10時40分,他跟科長請假說回家做飯,便回到家里。他轉(zhuǎn)了一圈兒,又找?guī)讉€同學(xué)聊聊,以便日后給他作證,接著,又回到屋里干活。11時05分,他騎著自行車來到林業(yè)俱樂部門前,把車放下后,打一輛出租車來到學(xué)校附近停下。這時已是11時10分了。
圖2 分類分類流程圖
本次研究中卷積神經(jīng)網(wǎng)絡(luò)的輸入是對原始信號進(jìn)行降噪過后的肺音信號,再將信號利用前文所提到的Mel、WT、CQT、STFT 得到的譜圖,輸入到神經(jīng)網(wǎng)絡(luò)中[11],在后續(xù)的分類中進(jìn)行比較,尋找最優(yōu)結(jié)果。
設(shè)計的CNN模型共16層,由數(shù)據(jù)輸入層、卷積層、ReLU層、池化層和全連接層構(gòu)成。通過增加模型中的層數(shù),增加的非線性可以得出目標(biāo)函數(shù)的近似結(jié)構(gòu),擁有更好的特征表達(dá),但是模型的復(fù)雜程度也增加了,使得模型更難優(yōu)化且容易過擬合。選擇CNN 模型合適的層數(shù)就非常重要了。將已經(jīng)提取到的譜圖作為CNN 神經(jīng)網(wǎng)絡(luò)的輸入,進(jìn)行訓(xùn)練。數(shù)據(jù)輸入層主要是針對我們的輸入圖像進(jìn)行預(yù)處理,包括去均值、歸一化、PCA/白化。最終構(gòu)建好的神經(jīng)網(wǎng)絡(luò)中選用了4 個卷積層,其中一個為大小5*5 數(shù)量64 的卷積核,3 個為3*3 數(shù)量為32 的卷積核進(jìn)行運(yùn)算。如圖3所示。
圖3 CNN結(jié)構(gòu)圖
隨機(jī)子空間法(Random Subspace Method,RSM)的主要目的是在特征空間修改訓(xùn)練數(shù)據(jù)。給定訓(xùn)練數(shù)據(jù)集X 以及p 維的特征向量Xi,計算方法如下所示:
式中n是實(shí)例總數(shù),從p維數(shù)據(jù)集中隨機(jī)選擇r個特征,從而得到了原始特征空間r 維隨機(jī)子空間以及r維的特征向量,表達(dá)式如下:
本文采用按比例隨機(jī)抽取測試集的方法進(jìn)行分類。訓(xùn)練集比例為總數(shù)據(jù)的85%,測試集為15%。因為訓(xùn)練集結(jié)果存在過擬合和欠擬合的情況,并不能具有代表性,而測試集代表了實(shí)際使用中的真實(shí)情況,具有魯棒性和泛化能力更好。所以本文將測試集結(jié)果的矩陣作為最終結(jié)果進(jìn)行評估。
在評估深度學(xué)習(xí)網(wǎng)絡(luò)模型時,針對混淆矩陣進(jìn)行評估的主要計分公式有準(zhǔn)確率(Accuracy)、靈敏度(Se)、特異度(Sp)、和ICBHI得分(score)[12]四種評估指標(biāo)。四種評估指標(biāo)的公式如下:
首先本文對Mel、WT、STFT、CQT 四種特征提取方式進(jìn)行評估,將四種譜圖特征輸入CNN 模型進(jìn)行分類,并將測試集結(jié)果進(jìn)行對比,判斷不同特征提取方式對結(jié)果的影響,其結(jié)果如表1所示。
表1 特征提取方式結(jié)果對比
由表中可以看出,四種特征提取方式中,Mel譜圖的準(zhǔn)確率達(dá)到72.38%、靈敏度達(dá)到35.9%、ICBHI 得分達(dá)到61.85%,都為最高,特異度比最高的WT譜圖低了3.22%。靈敏度代表對異常肺音判斷的準(zhǔn)確率,特異度代表著對正確肺音判斷的準(zhǔn)確率。實(shí)際使用中異常肺音的判斷比正常肺音的判斷更重要,且Mel 譜圖靈敏度最高,所以綜合來看Mel譜圖最優(yōu)。本文將Mel譜圖作為本文的特征提取辦法。
再確定了最優(yōu)的特征提取方式后,接著使用最優(yōu)的特征提取方式,將數(shù)據(jù)增強(qiáng)前后的分類結(jié)果進(jìn)行對比分析,將比未確定最優(yōu)的特征提取方式之前直接進(jìn)行四種特征提取方式數(shù)據(jù)增強(qiáng)前后進(jìn)行對比更加簡潔且具有說服力。常用Mel 譜圖特征提取方式進(jìn)行分類的數(shù)據(jù)增強(qiáng)前后對比如表2所示。
表2 數(shù)據(jù)增強(qiáng)前后對比
由表中可以看出,數(shù)據(jù)增強(qiáng)后靈敏度、特異度、ICBHI得分都有提升,尤其是靈敏度提升了11.3%,提升明顯,這表明數(shù)增強(qiáng)明顯的對肺音數(shù)據(jù)進(jìn)行了優(yōu)化,在一定程度上平衡了數(shù)據(jù),增加了異常肺音的占比,使整個數(shù)據(jù)庫變得均衡,這對于CNN 模型的泛化能力有了一定提升。但我們也注意到數(shù)據(jù)增強(qiáng)之后的特異度降低了1.3%,這是由于數(shù)據(jù)庫中異常肺音數(shù)量的增加,同時可以看到特異度與靈敏度的差值由原來的64.5%降低到51.9%,使得官方測試集靈敏度與特異度差值過大的現(xiàn)象得到了一定緩解,數(shù)據(jù)準(zhǔn)確率也提升了2.25%,證明了數(shù)據(jù)增強(qiáng)的重要性,同時也肯定了Mixup 和LBP 的效果。
在選取了最優(yōu)的特征提取方式和對數(shù)據(jù)增強(qiáng)效果進(jìn)行驗證后,將數(shù)據(jù)集輸入CNN 模型及CNN-RSM 模型中進(jìn)行訓(xùn)練,訓(xùn)練結(jié)果如表3 所示,并將訓(xùn)練結(jié)果和使用一樣數(shù)據(jù)庫ICBHI 2017 的論文結(jié)果進(jìn)行比對,對比結(jié)果表明,本文采用的數(shù)據(jù)增強(qiáng)后的CNN-RSM 混合模型的綜合評比結(jié)果最佳。
表3 各模型訓(xùn)練結(jié)果及對比
由表中加黑的數(shù)據(jù)可以看出準(zhǔn)確率最高的結(jié)果為CNN-RSM 模型的結(jié)果,準(zhǔn)確率達(dá)到了76.01%,同時相較于單獨(dú)的CNN 模型,結(jié)果的準(zhǔn)確率、靈敏度、特異度、ICBHI 得分都有提升,其中準(zhǔn)確率提升了3.63%,靈敏度提升了7.17%。這說明在CNN模型的最后一步將350各特征分類得到的4個特征的效果不如RSM,將CNN 善于提取復(fù)雜特征的特點(diǎn)和RSM 針對訓(xùn)練對象的數(shù)量和維度較小時分類效果明顯的優(yōu)點(diǎn)相結(jié)合起來,發(fā)揮各自優(yōu)勢的CNN-RSM模型為所用方法中的最優(yōu)結(jié)果。
對比相同數(shù)據(jù)的其他作者所做的結(jié)果,本文所做的模型在準(zhǔn)確率方面優(yōu)勢明顯,這對于肺音的判別至關(guān)重要,特異度提升了11.7%,ICBHI得分方面也相較與其他作者提升有0.68%,雖然提升較小,但綜合四種評估標(biāo)準(zhǔn)來看,本文的CNN-SVM 模型具有較大優(yōu)勢,這取決于我們對于原始肺音種的降噪、譜圖特征提取方式的選擇、CNN 與RSM 各自優(yōu)點(diǎn)的結(jié)合。在進(jìn)行對比分析后,CNN-RSM 的準(zhǔn)確率達(dá)到76.01%、靈敏度43.07%、特異度89.07%、ICBHI得分66.38%,肺音識別的四種評分標(biāo)準(zhǔn)的得分都較為優(yōu)秀,能夠在一定程度上滿足肺音識別的需求。