亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于集成知識蒸餾的肺病分析

        2021-02-04 05:27:10李堅強黃志超
        控制理論與應用 2021年1期
        關鍵詞:分類實驗模型

        李堅強,王 成,黃志超,陳 杰

        (深圳大學計算機與軟件學院,廣東深圳 518060)

        1 引言

        2019 年12 月以來,新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19)陸續(xù)在世界各地爆發(fā).由于該病毒具有較強的傳染性,醫(yī)護人員必須身穿多層防護服,這給醫(yī)護人員的肺音聽診工作帶來較大的困難.因此,如果肺音能在采集之后,傳遞給后臺進行智能化的分析,輔助醫(yī)療人員的診斷,就可以有效的減少醫(yī)患接觸頻次,降低醫(yī)護人員感染風險.

        預計到2050 年,中國60 歲以上老年人口將達到4.98億[1],隨著年齡的增長,肺纖維化、慢性阻塞性肺疾病的發(fā)病率也逐步上升,這意味著我國患肺部疾病的老年人的護理問題日趨嚴峻.近年來,我國患有呼吸系統疾病的人數在逐漸遞增,呼吸系統疾病成為我國人口主要的死因之一[2].

        呼吸音是衡量肺部生理及病理的一項重要指標,其特征和診斷是肺病理學的重要組成部分.呼吸系統聽診已被證實是鑒別和觀察不同類型肺部疾病的重要診斷手段,可以有效地發(fā)現肺部疾病,并且對于不同年齡或者發(fā)病程度存在差異的患者都能得到很好的應用[3].

        使用聽診器人工聽診的傳統方式可能由于醫(yī)生的經驗不足或人耳對肺音低頻段敏感性低等因素,導致診斷結果不夠準確.在診斷一些異常的患者時,肺音的平穩(wěn)性降低,也會使得醫(yī)生的診斷變得更加困難[4].聽診通常需要在安靜的環(huán)境中進行,最好是病人處于靜止狀態(tài),這樣的環(huán)境要求也就限制了聽診的時間和靈活性.此外,由于呼吸系統癥狀可能發(fā)生在居家環(huán)境、公共場所,甚至夜間,這種由醫(yī)護人員才能進行聽診的方法無法得到普遍的使用.

        與主觀聽診相比,對肺音的計算機分析可以進行可重復的肺音量化[5].隨著計算機技術在各個領域的發(fā)展與應用[6-7],通過計算機技術分析肺音也受到了眾多研究者的關注,已有很多學者專注于研究肺音分析和檢測中的機器學習技術.機器學習算法應用于肺音診斷上,使得聽診工具的準確率得到很大的提升.研究者們提出了很多基于計算機肺部聲音分析的機器學習算法,如人工神經網絡、隱馬爾科夫模型、K近鄰算法、高斯混合模型、遺傳算法和模糊邏輯等[8-10].

        由于肺部聲音信號不穩(wěn)定,因此常規(guī)的頻率分析方法在診斷分類中效果欠佳,學者提出一種使用小波變換分析肺部聲音信號以及使用人工神經網絡進行分類的方法[9],但是這種方法需要人工標記肺音的周期.異常肺音本身是一種非周期信號,其可能不會在整個記錄中出現,Datta等人開發(fā)一種自動肺音分析儀,該工具在不需要額外的流量信號或標記呼吸周期的情況下,就能識別新的時頻域肺部聲音特征[11],但是這種方法主要是區(qū)分正常肺音和異常肺音,如果用于肺音的細類區(qū)分,仍存在一定的局限性.聽診時可能出現各種各樣的不確定音和噪聲干擾肺音診斷,Yamashita等人基于隱馬爾科夫模型提出“異常呼吸置信度”檢測的兩步分類方法[10],但是該工作也只是關注單一類型的肺音;并且,如果通過少量的患者來簡化問題,從小數據集學習到的特征并不具有泛化性,為此,Chamberlain等人利用深度神經網絡,將半監(jiān)督深度學習應用于自動識別肺部聲音[12].減少評估呼吸音時固有的主觀性,能夠提高呼吸音分辨的準確率,Aykanat等人使用支持向量機和卷積神經網絡(convolutional neural network,CNN),開發(fā)了一種性價比高、使用方便的電子聽診器,該電子聽診器能夠通過一種非侵入性的方法對錄音軟件中所記錄的呼吸聲音進行分類[13].

        然而,現有的很多工作主要聚焦在異常呼吸音的分類上,如區(qū)分喘鳴音(wheeze)或者破裂音(crackle)[14],直接利用肺音對肺疾病進行分類的研究較少.文獻[15]使用CNN對肺疾病進行分類,但是復雜的模型不利于實時性的決策[16],除此之外,由于醫(yī)療數據存在隱私保護問題,其也無法勝任多方數據不共享的場景.

        本文為了解決上述的這些問題,受文獻[17]的啟發(fā),提出集成知識蒸餾的肺疾病分類模型.該模型利用分布在各個單位的本地數據建立二分類的教師模型進行肺疾病的異常檢測,通過多教師知識蒸餾模型,指導多分類學生模型學習,從而充分利用隱私受保護的多方肺音數據.同時,知識蒸餾兼顧學生模型規(guī)模與預測準確性,可以有效精簡多分類學生模型,從而提高肺疾病分類的實時性.

        2 集成蒸餾架構

        本文提出集成知識蒸餾的肺疾病分類方法,其蒸餾架構圖如圖1所示.該模型假設不同醫(yī)院間的模型相互獨立,并且可利用醫(yī)院本地數據集訓練二分類(正常與某類肺疾病)模型作為教師模型.

        圖1 集成蒸餾模型Fig.1 Ensemble knowledge distillation model

        對于M種疾病,本文將蒸餾架構中的多個教師模型定義為Ti,i ∈{1,···,M},而醫(yī)療研究基礎較為落后的單位在擁有少量的本地數據條件下,可通過蒸餾多個二分類教師模型的知識,訓練精簡的多分類學生模型S,這樣學生模型S不僅能從輸入的數據中學習,也能向教師模型學習.肺疾病分類任務是提取肺音音頻中的特征,建立特征與肺疾病之間的聯系,而由此對不同的肺疾病進行分類.如圖2所示,該模型將肺疾病分類任務分為音頻數據增強,提取梅爾頻譜(Mel-spectrogram)特征,數據歸一化,建立教師模型,建立學生模型與知識蒸餾.

        圖2 集成知識蒸餾流程Fig.2 Flow chart of ensemble knowledge distillation

        3 數據預處理

        3.1 數據定義

        由于醫(yī)院之間數據互不共享的限制,無法直接的集中分析這些本地數據,因此,由不同的教師模型學習不同來源的數據集.對于第i種肺疾病,本文利用教師模型Ti學習該疾病的本地數據XTi,XTi數據對應的標簽定義為Y Ti.而由學生模型S,學習數據集XS,XS對應的標簽為YS,并且利用知識蒸餾技術將教師模型的知識集中到學生模型上,這也就間接地利用了各個醫(yī)院的數據資源.

        3.2 數據增強

        適當的數據增強有利于提高模型的性能.原始數據進行增強后能夠生成更多的數據,提高模型的泛化能力和魯棒性.下面將介紹本文的3種數據增強的方法:時間變換、音高變換和μ律(μ?law)壓縮.

        時間變換旨在通過改變參數因子而影響音頻的采樣速率.而音高變換就是以半音為單位,對音頻的音調進行調整.在本文中,時間變換和音高變換使用和文獻[15]同樣的變換參數,時間變換4個取值分別為0.5,0.7,1.2,1.5;音高變換4個取值分別為?2,?1,1,2.

        μ律壓縮是一種動態(tài)范圍壓縮算法[18],對于輸入的信號s,?1 ≤s≤1,其計算μ律壓縮如式(1)所示:

        其中:sgn表示符號函數;abs(s)表示取信號s的絕對值;μ為壓縮參數,一般取值為2的冪減1.本文數據增強中μ有4個取值:7,15,31,63.

        3.3 提取梅爾頻譜特征

        本文將采集到的肺音音頻分成音頻片段,然后分別提取音頻片段中的梅爾頻譜特征,梅爾頻譜是一種比較典型的特征表示,也被應用在其他音頻分類任務中[19-20].圖3為從6類肺音音頻中提取特征得到的梅爾頻譜圖,這6 類肺音分別為慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease,COPD)、健康(Healthy)、上呼吸道感染(Upper Respiratory Tract Infection,URTI)、支氣管擴張(Bronchiectasis)、肺炎(Pneumonia)、細支氣管炎(Bronchiolitis).

        圖3 梅爾頻譜特征提取Fig.3 Mel-spectrogram feature extraction

        3.4 數據歸一化處理

        對肺音音頻的分析問題,通過提取音頻的梅爾頻譜之后,轉換為類似圖片分類問題,本文希望評估不同歸一化的方法,找到更加適合處理肺音音頻數據的方法,提高模型的分類性能.在數據的歸一化上,除了評估文獻[15]中提到的3種歸一化方法:均方根歸一化(root mean square normalization)、峰值歸一化(peak normalization)和EBU Standard R128 歸一化(European broadcasting union,EBU),還評估了零均值歸一化(zero mean normalization).

        這里使用的均方根歸一化方法是以音頻信號振幅的均方根(root mean square,RMS)為參考值,然后對音頻進行縮放,該方式可以比較好的衡量出信號振幅的強度.均方根歸一化的方式如式(2)所示:

        其中:|s|表示信號長度,srms表示信號進行RMS歸一化后的結果.

        峰值歸一化即是以信號s中振幅絕對值最大的為參考值,然后將其他所有的振幅值按照該參考值進行縮放.峰值歸一化計算如式(3)所示:

        其中speak表示信號s進行峰值歸一化后的結果.

        EBU Standard R128 歸一化,以下簡稱EBU R128歸一化,該方法是依據歐洲廣播聯盟提出的一個音頻響度標準對音頻進行處理.EBU Standard R128規(guī)定音頻的響度水平為23 LUFS,LUFS(loudness units referenced to full scale)是一種衡量響度的單位.

        零均值歸一化是音頻和圖像處理任務中比較常用的歸一化方法[21].對于信號s,零均值歸一化就是減去信號振幅的均值之后,再除以振幅的標準差,如式(4)所示:

        其中:sˉ表示振幅的均值,σ表示振幅的標準差.

        4 模型定義

        4.1 教師模型

        本文的教師模型使用的是一個CNN模型,模型共有6層l1,···,l6,第l1層是有24個濾波器的卷積層,卷積核大小為(5,5),步幅為(4,2).第l2層同樣是卷積層,包含48個濾波器,卷積核大小、步幅與l1相同.第l3層是一個最大池化層,其pool size為(2,2).第l4層卷積層的濾波器數量和卷積核大小與l2相同.第l5層全連接層有64個隱藏單元,最后一層為輸出層.

        在訓練教師模型的過程中,從音頻片段提取得到的梅爾頻譜特征數據的維度將被重塑,以匹配模型的輸入維度.每個教師模型分別對應一種肺疾病,擬合來自不同醫(yī)院的數據,訓練目標為最小化教師模型的預測結果和真實標簽之間的交叉熵(cross-entropy)損失,對于教師模型Ti,定義其損失函數如式(5)所示:

        4.2 知識蒸餾

        來自多方互不共享的數據,是無法像文獻[22]的工作那樣直接將教師-學生模型同時訓練,在訓練的過程中傳遞知識.對于每一個訓練好的教師模型而言,其已經學習了某一類疾病的數據特征,如果把學生模型遇到的問題,先交由教師模型解答,然后讓學生模型在有參考的前提下進行訓練,同樣可以學習到教師模型的現有知識.

        對于數據集XS中的一個數據點,通過訓練好的教師模型Ti計算其軟標簽時,使用文獻[23]中的定義,如式(6)所示:

        學生模型是在教師模型的基礎上進行簡化的一個模型,模型共有6層l1,···,l6,第l1層是有6個濾波器的卷積層,卷積核大小為(5,5),步幅為(4,2).第l2層同樣是卷積層,包含18個濾波器,卷積核大小、步幅與l1相同.第l3層是一個最大池化層,其pool size為(2,2).第l4卷積層有24個濾波器,卷積核大小與l2相同.第l5層全連接層有32個隱藏單元,然后連接輸出層.

        學生模型的軟標簽計算與教師模型類似,區(qū)別在于學生模型需要考慮M+1個類別,如式(8)所示:

        其中:gj(·)表示學生模型對應類別j ∈{0,···,M}時logits層的輸出,0表示健康類別.

        除此之外,學生模型的學習目標和教師模型也不同,學生模型有兩個學習目標,一方面需要使得輸出的預測盡量接近真實標簽,另外一方面需要使得自身的軟標簽接近教師模型的軟標簽.與真實標簽相比,軟標簽具有更為豐富的信息,其包含樣本中類與類之間的關聯,這些關聯由復雜的教師模型學習得到.學生模型由于自身結構比較簡單,對樣本的學習能力比教師模型弱,但如果在訓練過程中,讓學生模型擬合教師模型學習到的關聯信息,能夠對自身的學習起到輔助作用.然而,教師模型也是存在一定的出錯概率,與僅向教師模型學習相比,添加真實標簽可以減少學生模型學習錯誤知識的可能性.另外,模型最后的輸出相比軟標簽更為離散,各個類別之間的關聯性不強,因而本文讓學生模型的軟標簽接近教師模型的軟標簽,而不是讓學生模型的輸出接近教師模型的軟標簽.學生模型的損失如式(9)所示:

        這里的|XS|表示XS中元素數量,fS表示S的預測函數,λ ∈[0,1]是一個常數,用于學生模型選擇側重真實標簽,還是側重軟標簽.

        5 實驗結果與分析

        本文實驗分為兩個部分:第1部分為歸一化方法評估實驗,用于驗證不同的數據歸一化方法,對肺音音頻數據的梅爾頻譜特征的作用效果;第2部分為集成知識蒸餾評估實驗,驗證精簡的學生模型在集成多個性能優(yōu)異的教師模型的知識后,對其性能的提升作用.

        5.1 數據集描述

        實驗數據集使用的是文獻[24]的公開數據集,該數據集包含8 類音頻:COPD,Healthy,URTI,Bronchiectasis Pneumonia,Bronchiolitis,Asthma 和Lower Respiratory Tract Infection (LRTI),其 中Asthma 與LRTI這兩類數據量很小,不具有統計意義和實驗價值,因此只選用了其他6種類型的音頻用于實驗.這6類肺音原有音頻文件共917 個,每個音頻文件采集時長為20 s,在對其中的5 種類型按照本文闡述的數據增強方式進行增強之后得到音頻文件2653個,每種類型的音頻數量如表1所示.

        表1 原始數據量和增強后數據量Table 1 Original and augmented data size

        實驗中將沒有進行數據增強的原始數據隨機打亂,并分成70%的訓練數據Train1和30%的測試數據Test.而進行過增強的數據Train2與Train1共同作為數據增強后的訓練數據.實驗中,梅爾頻譜特征的抽取基于一個開源的python包librosa[25]實現,抽取出來的特征矩陣將被重塑為模型的輸入維度(128,128,1).

        5.2 歸一化方法評估實驗

        該實驗使用的模型是將教師模型結構用于多分類問題上.模型訓練使用單個Tesla P100 GPU,批處理大小設置為128,epoch 設置為20.該實驗對比了原始數據(original)、進行數據增強(augmentated)、數據增強并且使用峰值歸一化處理(augmentated peak)、數據增強并使用均方根歸一化處理(augmentated RMS)、數據增強并使用EBU R128歸一化處理(augmentated EBU)、數據增強并使用零均值歸一化處理(augmentated Zmean)這6組實驗.表2為對比實驗的結果,使用的評估指標有準確率(accuracy,表中Acc)、精確率(precision,表中Pre)、召回率(recall,表中Rec)、F1分數(F1-score,表中F1).

        表2 歸一化方法評估實驗Table 2 Evaluation experiment of normalization method

        據表2所示,通過對原始數據進行零均值歸一化處理之后,模型的準確率、精確率、召回率、F1分數均達到了98%,這說明該歸一化方式比其他3種方法更加適合處理肺音音頻的梅爾頻譜特征數據,對模型性能的提高作用比較明顯.在使用Peak歸一化和RMS歸一化對數據進行處理之后,各個評價指標有所下降,而使用EBU R128歸一化方法進行處理也沒有明顯的提升效果.另外,從分類原始數據和分類增強后的數據來看,通過對原始數據進行適當的數據增強能夠較好的提高模型的性能.

        5.3 集成知識蒸餾評估實驗

        該實驗從Train1+Train2中隨機抽取第i類疾病數據和健康數據的70%作為XTi,剩下30%的數據作為XS,數據均使用零均值歸一化處理,批處理大小為128.

        表3 為5 個二分類教師模型在測試集Test 上的評估結果,T1至T5依次表示對應疾病Bronchiectasis,Bronchiolitis,COPD,Pneumonia,URTI 的教師模型.該實驗結果顯示,每個二分類教師模型在各個評價指標上均達到99%(或99%以上),表現優(yōu)異.

        表3 教師模型實驗結果Table 3 Evaluation experiment of teacher model

        而在訓練學生模型時,對于參數的選擇,本文使用網格搜索[26]的方法,設置epoch 的搜索范圍為{25,50,75,100},溫度參數t的搜索范圍為{2.0,5.0,7.0,10.0},λ的搜索范圍為{0.1,0.3,0.5,0.7,0.9},該算法會將所有參數的組合逐一枚舉驗證,得出最佳參數.依據網格搜索的結果,實驗將epoch設置為50,t設置為2.0,λ設置為0.5.在模型的對比上,除了測試本文的幾個模型外,還對比了最近的幾個輕量化的模型:Shufflenet?v2[27],Mobilenet-v3-large 和Mobilenet?v3-small[28],這幾個模型都是專門為小型設備設計的高效神經網絡模型.

        表4為集成知識蒸餾的實驗結果,其中:評價指標“Par”表示參數量(parameters),數量級為106;“t”表示模型預測時耗,單位為s;Net1為Shufflenet-v2模型;Net2為Mobilenet-v3-large模型;Net3為Mobilenet-v3-small模型;T-Mul為零均值評估實驗中的多分類模型;S-No為沒有進行知識蒸餾,只使用真實標簽訓練的多分類學生模型;S-Dis為本文進行蒸餾的學生模型,同樣在準確率、精確率、召回率、F1分數4個指標上對各個模型進行了評估.相比模型T-Mul,學生模型S-Dis 在各項指標上僅差0.03,0.02,0.03,0.03,而模型S-No在各指標上比模型T-Mul均差8%.該實驗結果表明,將性能好的教師模型的知識集成到精簡的學生模型上,能夠在一定程度上提高學生模型的分類能力.

        表4 集成知識蒸餾實驗結果Table 4 Ensemble knowledge distillation experiment

        為了更加全面的評估精簡后的學生模型,本文還測試了模型的預測速度.實驗中使用CPU單核處理,對比了各個模型在同等條件下預測8000條數據的時耗.經簡化之后,學生模型S-Dis的參數僅有0.06 M,比模型T-Mul的參數減少了79%,時耗為2.48 s,比模型T-Mul節(jié)省了20%時間.雖然Net 1,Net 2和Net 3在準確率上和S-Dis 相近,但是S-Dis 的參數量,僅有Net 1和Net 2的1%、Net 3的3%.進行相同的預測,SDis的時耗僅有Net 1的3%、Net 2的2%、Net 3的6%.

        學生模型S-Dis雖然在準確率、精確率、召回率、F1分數4個指標上比模型T-Mul略差一點,但是其模型更加精簡,分類預測的速度有著顯著的提升,這也更加符合肺疾病實時性檢測的需求.

        6 結論

        本文提出集成知識蒸餾的肺疾病分類算法,在現有文獻對肺疾病進行簡單分類的基礎上,評估了零均值歸一化方法在處理肺音數據上表現.同時,通過多個教師模型學習多方數據,在保護醫(yī)療數據隱私的前提下,間接融合了多方數據的知識,由教師模型集成到學生模型上,有效的提高了學生模型的準確率,解決了小數據集帶來的泛化問題.而蒸餾得到的學生模型是一個比教師模型更為精簡的模型,參數量減少了79%,預測速度比教師模型提升了20%,能夠更快的對肺疾病做出分析,其預測準確率達95%,在基本接近教師模型準確率的前提下,能更好的滿足實際場景中實時診斷的需求.

        猜你喜歡
        分類實驗模型
        一半模型
        記一次有趣的實驗
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        做個怪怪長實驗
        分類討論求坐標
        數據分析中的分類討論
        教你一招:數的分類
        3D打印中的模型分割與打包
        亚洲女同系列在线观看| 婷婷综合久久中文字幕蜜桃三电影 | 国产无遮挡aaa片爽爽| 伊人精品久久久久中文字幕| 国外亚洲成av人片在线观看| 精品久久综合一区二区| 精品蜜桃在线观看一区二区三区| 免费人成视频网站网址| 亚洲色无码国产精品网站可下载| 亚洲国产夜色在线观看| 亚洲国产不卡免费视频| 精品激情成人影院在线播放| 亚洲中文字幕久久精品无码a| 国产精品区一区第一页| 毛片一级精油按摩无码| 人妻精品久久一区二区三区| 国产做爰又粗又大又爽动漫| 国产xxxx99真实实拍| 亚洲欧美日韩高清专区一区| 日本高清一区二区三区视频 | 国产乱子伦视频一区二区三区| 久久精品国产亚洲av四区| 国产自拍偷拍精品视频在线观看| 国产揄拍国产精品| 蜜桃臀无码内射一区二区三区| 国产呦系列呦交| 国产视频一区二区三区免费| 一区二区三区四区草逼福利视频 | 天天射色综合| 日本一区二区高清视频在线| 人妻少妇精品视频专区二区三区| 狠狠色噜噜狠狠狠狠97首创麻豆| 精品久久久久久无码人妻蜜桃| 亚洲国产精品久久亚洲精品| 亚洲国产综合专区在线电影| 人妻精品久久一区二区三区| 人妻丰满熟妇av无码区| 欧美a视频在线观看| 神马不卡影院在线播放| 日本一级特黄aa大片| 中国熟妇人妻xxxxx|