鄭江鵬,余 平,趙 萌,石 凡,孫續(xù)國,陳勝勇
(1.學(xué)習(xí)型智能系統(tǒng)教育部工程研究中心,天津理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,天津 300384;2.天津醫(yī)科大學(xué)醫(yī)學(xué)檢驗(yàn)學(xué)院,天津 300203)
心肌淀粉樣變是一種滲透性疾病,指的是淀粉樣蛋白在心肌細(xì)胞外間隙沉積的狀況[1-2]。晚期患者會(huì)出現(xiàn)不同程度的心室壁增厚或變硬等癥狀,最終形成多器官衰竭或死亡[3]。目前,病理檢查和影像學(xué)分析是診斷心肌淀粉樣變的主要手段。心肌內(nèi)膜活檢屬于侵入式檢測(cè),存在引起并發(fā)癥的風(fēng)險(xiǎn)并需要醫(yī)學(xué)專家來執(zhí)行[4]。心電圖篩查不具有普適性,研究證明轉(zhuǎn)甲狀腺素蛋白淀粉樣變性的病例中只有40%出現(xiàn)心電圖低壓[3]。心血管磁共振成像不適合作為體內(nèi)含有金屬支架的患者用來篩查和追蹤治療反應(yīng)[5]。核成像方式依賴于放射性核素,因而不可避免地存在電離輻射[6]。因此,有必要設(shè)計(jì)一種高效、準(zhǔn)確、無輻射的診療方案來檢測(cè)心肌淀粉樣變。
太赫茲頻段位于毫米波和紅外波之間[7-8],因其具有高穿透性、光譜指紋特性和非電離性而在生物醫(yī)學(xué)領(lǐng)域得到了廣泛應(yīng)用[9]。近年來,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的發(fā)展為準(zhǔn)確分類太赫茲光譜提供了新的途徑,但已有的用于太赫茲光譜分類的深度學(xué)習(xí)方法在很大程度上依賴于海量數(shù)據(jù),而在生物醫(yī)學(xué)領(lǐng)域,收集和標(biāo)注大量的生物樣本既耗時(shí)又低效[10]。因此,有必要設(shè)計(jì)一種針對(duì)小樣本太赫茲光譜的分類算法,以提高模型的高效性和實(shí)用性。Barz 等[11]證明了對(duì)于小數(shù)據(jù)集而言,在未經(jīng)預(yù)訓(xùn)練的模型上用余弦損失函數(shù)代替交叉熵函數(shù)將具有更好的預(yù)測(cè)性能。Liu 等[12]提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的數(shù)據(jù)增強(qiáng)方法,提高了對(duì)小樣本病理切片中異檸檬酸脫氫酶的狀態(tài)預(yù)測(cè)能力。Wang 等[13]為了改進(jìn)小樣本高光譜分類性能,提出了一種基于雙向長短期記憶網(wǎng)絡(luò)和角度模型的順序聯(lián)合深度學(xué)習(xí)算法。Wang等[14]利用孿生自編碼器網(wǎng)絡(luò)在樣本數(shù)量較少的情況下增加了模型訓(xùn)練次數(shù),實(shí)現(xiàn)了對(duì)小樣本圖像的分類。Cui 等[15]利用生成對(duì)抗網(wǎng)絡(luò)擴(kuò)充了太赫茲光譜數(shù)據(jù)樣本量,實(shí)現(xiàn)了對(duì)10 種物質(zhì)的小樣本數(shù)據(jù)集的分類。這些已報(bào)道的方法對(duì)攻克相關(guān)領(lǐng)域的小樣本分類問題具有重要意義,為設(shè)計(jì)分類模型提供了指導(dǎo)。
然而,利用深度學(xué)習(xí)算法對(duì)心肌淀粉樣變的低信噪比小樣本太赫茲光譜數(shù)據(jù)集進(jìn)行分類仍面臨以下挑戰(zhàn):第一,提取可區(qū)分性特征并分類重疊光譜。采集少量的最低信噪比光譜數(shù)據(jù)能夠極大程度縮短數(shù)據(jù)獲取時(shí)間,以此來提高心肌淀粉樣變檢測(cè)的效率。但是少量樣本能夠提供給模型學(xué)習(xí)的可用特征更少[16],同時(shí),低信噪比光譜中噪聲對(duì)特征的掩蓋效應(yīng)更嚴(yán)重[17]。因此,在這兩種條件下,如何高效地提取可區(qū)分性特征并對(duì)樣本進(jìn)行準(zhǔn)確分類顯得尤為重要。第二,在少量樣本情況下深度學(xué)習(xí)模型面臨的過擬合問題。在數(shù)據(jù)特征維度高、樣本量少的情況下,模型學(xué)習(xí)的特征存在冗余,因此克服過擬合問題是所面臨的嚴(yán)峻挑戰(zhàn)[18]。
為解決上述問題,本文提出了基于低信噪比小樣本太赫茲光譜的心肌淀粉樣變檢測(cè)框架。具體來說,設(shè)計(jì)了一個(gè)基于卷積降噪自編碼器模塊、多尺度特征提取模塊和密集連接模塊的深度學(xué)習(xí)模型,以樣本數(shù)量為100 的低信噪比(光譜平均次數(shù)取1,信噪比約為?50 分貝)數(shù)據(jù)集為輸入,取得了95% 的準(zhǔn)確率、100% 的精確度、92.30%的召回率以及95.99% 的F1 分?jǐn)?shù)。通過調(diào)研大量相關(guān)文獻(xiàn)發(fā)現(xiàn):從未有過對(duì)于正常、淀粉樣變心肌的低信噪比小樣本太赫茲光譜展開的相關(guān)分類研究及報(bào)道。本文的實(shí)驗(yàn)結(jié)果證明,所提出的框架在提升以太赫茲技術(shù)和深度學(xué)習(xí)技術(shù)為基礎(chǔ)的心肌淀粉樣變檢測(cè)方法的實(shí)用性和時(shí)效性方面具有巨大發(fā)展?jié)摿Α?/p>
如圖1(彩圖見期刊電子版)所示,下面將詳細(xì)介紹本文研究的具體流程,包括生物樣本制備、光譜采集設(shè)備的搭建、數(shù)據(jù)預(yù)處理的基本流程以及分類模型的構(gòu)建等。
圖1 整體框架圖Fig.1 Overall framework of the proposed method
實(shí)驗(yàn)中用到的正常和淀粉樣變心肌組織均由中國天津醫(yī)科大學(xué)提供,所開展全部研究均已得到該機(jī)構(gòu)的許可。樣本制備過程分為4 個(gè)步驟:福爾馬林固定細(xì)胞形態(tài)、石蠟包埋形成組織塊、切片并制片。本文中,所有的生物組織均是從人體切除并在具備相同環(huán)境條件(濕度、溫度等)的病理實(shí)驗(yàn)室中制備。首先,將各個(gè)組織置于4%的福爾馬林水溶液中固定細(xì)胞形態(tài)、保持肌體的微結(jié)構(gòu),同時(shí)防止標(biāo)本腐爛。其次,將生物組織置于熔融石蠟中進(jìn)行包埋,待石蠟全部凝結(jié)后取出。然后,利用病理實(shí)驗(yàn)室的醫(yī)用石蠟切片機(jī)進(jìn)行切片。在本項(xiàng)研究中,制備了包含0.2、0.3 和0.4 mm 的正常和淀粉樣變生物組織。最后,為了與所使用的數(shù)據(jù)采集設(shè)備相匹配,將組織樣本固定于厚度為0.5 mm 的JGS1 石英玻璃上,并得到了如圖1 所示的實(shí)驗(yàn)樣本。
本文使用的緊湊型太赫茲時(shí)域光譜系統(tǒng)由德國慕尼黑Menlo Systems GmbH 公司開發(fā),該系統(tǒng)能提供約8 太赫茲的帶寬,并通過網(wǎng)絡(luò)進(jìn)行自動(dòng)測(cè)量和數(shù)據(jù)傳輸。光路設(shè)計(jì)以透射模式為基準(zhǔn),所采集數(shù)據(jù)為太赫茲時(shí)域光譜。如圖1 所示,該時(shí)域光譜儀主要由飛秒激光器、發(fā)射器、透射式光路、探測(cè)器、控制元件等組成。系統(tǒng)提供的發(fā)射器和探測(cè)器的額定功率分別為22.7 mW 和23.9 mW。光譜的時(shí)域范圍是?88~12 皮秒(ps),頻域范圍是0~8 太赫茲(THz),信噪比動(dòng)態(tài)范圍大于100 分貝(dB)。飛秒激光器作為輻射源,在接通電源的情況下產(chǎn)生兩個(gè)超快激光束1 和2。超快激光1 和偏置器產(chǎn)生的偏置電壓一起共同激發(fā)發(fā)射器產(chǎn)生太赫茲脈沖。此后,脈沖束經(jīng)由透鏡1 和透鏡2 聚焦到樣品處,再經(jīng)由透鏡3 和透鏡4 到達(dá)探測(cè)器端。該太赫茲脈沖和超快激光2 一起共同激發(fā)探測(cè)器,以獲取攜帶物質(zhì)信息的電信號(hào)。由于直接獲取的電信號(hào)比較微弱,因此,本系統(tǒng)利用放大器進(jìn)行信號(hào)放大并利用數(shù)模轉(zhuǎn)換器將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),最終傳送到電腦端保存。
光譜采集在空氣環(huán)境下進(jìn)行,無需另外填充氮?dú)猓汉愣?5 °C,濕度固定。實(shí)驗(yàn)獲取的太赫茲光譜未經(jīng)平均處理,即具有光譜采集系統(tǒng)所能提供的最低信噪比,約?50 dB。具體來說,數(shù)據(jù)采集分為兩步:采集參考信號(hào)和獲取樣本信號(hào)。將單層JGS1 石英玻璃對(duì)應(yīng)的太赫茲時(shí)域光譜作為參考信號(hào),將正常及病變心肌組織對(duì)應(yīng)的光譜作為樣本信號(hào)。在采集樣本信號(hào)時(shí),將生物組織置于樣品架上,首先利用太赫茲光譜成像技術(shù)確定樣本所在區(qū)域,然后以0.1 mm 為步長從成像熱力圖中確定多個(gè)二維坐標(biāo),最后依次保存坐標(biāo)對(duì)應(yīng)的光譜數(shù)據(jù)。
如圖1 所示,太赫茲時(shí)域光譜數(shù)據(jù)預(yù)處理包括以下幾個(gè)步驟:首先,利用傅立葉變換實(shí)現(xiàn)時(shí)域到頻域的轉(zhuǎn)換,并以此來確定光譜的有效頻段。以參考信號(hào)為例,高噪聲頻段被摒棄,只留存了0.2~2 THz 的頻域光譜,以減少噪聲對(duì)病變檢測(cè)結(jié)果的干擾,如圖2 所示。其次,為了降低樣本厚度等的干擾,以透射率(Transmittance)值為基準(zhǔn)提取生物樣本的特征光譜,即樣本信號(hào)與參考信號(hào)在0.2~2 THz 范圍內(nèi)的振幅比。除此之外,為避免量綱對(duì)分類結(jié)果的影響,對(duì)透射率進(jìn)行了最大最小歸一化處理。隨后,利用在文獻(xiàn)[19]提出的基于一階差分值的閾值算法進(jìn)行邊緣點(diǎn)去除。最后,利用python 語言編寫代碼,以從所得純凈數(shù)據(jù)中隨機(jī)挑選出100 個(gè)樣本作為本文所使用的小樣本太赫茲光譜數(shù)據(jù)集。最終獲得的數(shù)據(jù)集包含53 個(gè)陽性樣本,47 個(gè)陰性樣本,比例接近1∶1。以陰性、陽性樣本的均值和標(biāo)準(zhǔn)差為依據(jù),利用Origin 2021b 軟件繪制數(shù)據(jù)集的可視化結(jié)果,如圖3(彩圖見期刊電子版)所示。
圖2 參考信號(hào)的時(shí)域及頻域光譜Fig.2 Time-domain and frequency-domain spectra of the reference signal
圖3 陰性、陽性樣本的整體范圍趨勢(shì)圖Fig.3 Overall trends of negative and positive samples
從圖3 可以看出,陽性、陰性樣本存在重疊,無法通過視覺進(jìn)行區(qū)分。為應(yīng)對(duì)空氣環(huán)境中的水蒸氣干擾、噪聲干擾以及特征光譜的重疊問題,有必要設(shè)計(jì)基于深度學(xué)習(xí)的自動(dòng)特征提取和分類模型。
在本文中,模型的架構(gòu)設(shè)計(jì)遵循數(shù)據(jù)降噪、特征提取、增強(qiáng)特征表達(dá)、結(jié)果預(yù)測(cè)4 個(gè)基礎(chǔ)流程,以python 為編程語言。
2.4.1 卷積降噪自編碼器
根據(jù)數(shù)據(jù)集噪聲干擾大的特點(diǎn),設(shè)計(jì)了一個(gè)具有光譜降噪能力的卷積降噪自編碼器[20]模塊。該模塊包括編碼和解碼兩部分[21],它通過將模型的輸入特征進(jìn)行壓縮、重構(gòu)以減少特征之間的相關(guān)性、冗余度。首先,將數(shù)據(jù)預(yù)處理得到的透射率譜線與高斯噪聲進(jìn)行疊加,得到模型的整體輸入。然后,分別利用卷積核大小均為3,濾波器個(gè)數(shù)分別為32 和16 的一維卷積和最大池化操作進(jìn)行編碼。隨后,利用核大小為3,濾波器個(gè)數(shù)為4 的一維卷積進(jìn)行特征壓縮。解碼階段是編碼的逆過程,先對(duì)編碼結(jié)果進(jìn)行上采樣再進(jìn)行卷積,最終得到去除噪聲的光譜特征。在該模塊中,采用指數(shù)線性單元(Exponential Linear Unit,ELU)激活函數(shù)。如公式(1)所示,該函數(shù)同時(shí)兼具非線性和線性:在左側(cè)具有軟飽和性,對(duì)輸入數(shù)據(jù)的噪聲變化更加魯棒;在右側(cè)具有線性特征,能夠緩解梯度消失并加快模型收斂。L1 正則化和L2 正則化是構(gòu)建深度學(xué)習(xí)模型過程中用于防止模型過擬合的常用手段。在本文中,為了降低模型復(fù)雜度造成的過擬合,在每層卷積操作中都設(shè)置了L2 正則化操作,如公式(2)所示。L2 正則化方法通過懲罰系數(shù)來平衡正則項(xiàng)與原始代價(jià)函數(shù)之間的比重,從而實(shí)現(xiàn)對(duì)代價(jià)函數(shù)值變動(dòng)幅度的約束,以此減少過擬合。
2.4.2 多尺度特征提取模塊
考慮到所構(gòu)建的光譜數(shù)據(jù)集來自于具有不同厚度、不同類別的生物組織樣本,不同數(shù)據(jù)間包含的特征強(qiáng)度是不同的。為了捕捉光譜樣本的細(xì)微差異并進(jìn)行有效的特征提取,設(shè)計(jì)了以不同卷積核大小為基礎(chǔ)的多尺度特征提取[22]模塊。首先,將卷積降噪自編碼模塊的輸出結(jié)果進(jìn)行批歸一化(Batch Normalization,BN),以降低不同樣本之間的差異性。隨后,將BN 操作的結(jié)果輸入到卷積核大小依次為1、3、5、7,濾波器個(gè)數(shù)均為16 的4 個(gè)并行卷積層中,并行卷積操作保證了對(duì)模塊原始輸入數(shù)據(jù)進(jìn)行直接處理,避免了串行卷積間的特征損失。除此之外,為每個(gè)并行卷積層執(zhí)行了BN 操作,這能夠在一定程度上加速模型收斂并進(jìn)一步防止過擬合。在每個(gè)卷積操作中,使用線性整流函數(shù)[23](Rectified Linear Unit,RELU)作為激活函數(shù)。如公式(3) 所示,當(dāng)RELU 激活函數(shù)的輸入值大于零時(shí)才會(huì)產(chǎn)生非零輸出值,因此其生成的矩陣具有元素稀疏性,可以防止因?yàn)槎鄠€(gè)并行卷積層帶來的過擬合問題。
其中,x表示輸入值,f(x)表示RELU 激活函數(shù)的輸出。最后,利用concatenate 操作將所提取的不同尺度信息進(jìn)行通道融合,這使得用來描述光譜本身的特征數(shù)增加并保證單一特征的描述信息不變,避免了特征信息冗余。
2.4.3 密集連接模塊
傳統(tǒng)的串行卷積操作會(huì)造成特征傳遞過程中的損失,導(dǎo)致最終用于樣本分類的特征信息被削弱,針對(duì)這一問題,本文設(shè)計(jì)了基于密集連接操作的特征傳遞模塊。在該模塊中,將多尺度模塊所提取的特征作為輸入,并執(zhí)行系列二維卷積操作。首先,設(shè)計(jì)了3 個(gè)尺寸為3×3×32 的串行二維卷積層,并在任意兩個(gè)卷積層間建立密集連接,以保證當(dāng)前層的輸入為此前所有卷積層的輸出在通道方向上的融合。這種在輸入和輸出之間建立直接連接的方式加強(qiáng)了特征的傳遞效應(yīng)并實(shí)現(xiàn)了特征復(fù)用。其次,在密集連接后設(shè)置了尺寸為1×1×1 的卷積層,以減少由于模型復(fù)雜度提升引起的參數(shù)量增加。最后,在每個(gè)卷積層后同樣執(zhí)行了BN 操作,這使得數(shù)據(jù)分布得到約束并防止了該模塊帶來的過擬合問題。
2.4.4 輸出模塊
在模型的輸出部分,首先將上層模塊輸出結(jié)果扁平化到一維,并利用神經(jīng)元個(gè)數(shù)分別為128 和32 的全連接層將模型學(xué)到的特征表示映射到特定的樣本標(biāo)記空間。與此同時(shí),RELU激活函數(shù)被用于對(duì)矩陣加權(quán)計(jì)算結(jié)果進(jìn)行激活。隨后,為了進(jìn)一步抑制過擬合,設(shè)置了Dropout 層[24]使神經(jīng)元以一定的概率隨機(jī)失活,其參數(shù)為dropout_rate。由于在前述模型構(gòu)建過程中已經(jīng)使用了多種防止過擬合的措施,因此,為了保證神經(jīng)元以一定概率失活并同時(shí)防止因?yàn)槭Щ盥蔬^大造成重要分類特征丟失,將dropout_rate 設(shè)置為0.2。最后,Sigmoid 激活函數(shù)用于對(duì)樣本類別進(jìn)行概率預(yù)測(cè),交叉熵?fù)p失函數(shù)被用于度量真實(shí)標(biāo)簽和預(yù)測(cè)值之間的差異程度。
分類模型的輸入數(shù)據(jù)集包含100 個(gè)樣本:陰性樣本47 個(gè),陽性樣本53 個(gè)。按照訓(xùn)練集與測(cè)試集以4∶1 的比例劃分出20%的樣本作為單獨(dú)的測(cè)試集。然后,對(duì)訓(xùn)練集執(zhí)行5 折交叉驗(yàn)證策略,即每次選取80% 訓(xùn)練集用作訓(xùn)練,選取20%訓(xùn)練集用作驗(yàn)證,以對(duì)測(cè)試集樣本進(jìn)行預(yù)測(cè)。下列結(jié)果與討論中保存的實(shí)驗(yàn)結(jié)果均為五折交叉驗(yàn)證結(jié)果的最佳效果值,并將模型優(yōu)化器設(shè)置為Adam,迭代次數(shù)設(shè)為500。
為了全面評(píng)價(jià)該分類模型的分類效果,使用準(zhǔn)確率(Accuracy)、精確度(Precision)、召回率(Recall)和F1 分?jǐn)?shù)(F1-score)4 個(gè)評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià)。本部分將從模型的整體分類性能、參數(shù)設(shè)置、對(duì)比實(shí)驗(yàn)、消融實(shí)驗(yàn)、樣本量分析5 個(gè)方面展開討論。
如圖4(彩圖見期刊電子版)所示,在模型分類預(yù)測(cè)得到的混淆矩陣中,陰性樣本全部被正確預(yù)測(cè),陽性樣本只有1 個(gè)被錯(cuò)分。因此本文所設(shè)計(jì)的檢測(cè)框架不存在假陽性,在一定程度上可以對(duì)陽性樣本實(shí)現(xiàn)高度準(zhǔn)確的預(yù)測(cè)。根據(jù)混淆矩陣計(jì)算得到的各項(xiàng)評(píng)價(jià)指標(biāo),如圖5(彩圖見期刊電子版)所示。從圖5 中可以看出,本文算法的準(zhǔn)確率為95%,精確度為100%,召回率為92.30%,F(xiàn)1分?jǐn)?shù)為95.99%。不僅如此,對(duì)于每個(gè)光譜,其采集時(shí)間均在1 s 以內(nèi),利用訓(xùn)練好的模型進(jìn)行分類的時(shí)間在0.004 s 以內(nèi)。根據(jù)模型的上述綜合分類表現(xiàn)可以看出,本文設(shè)計(jì)的心肌淀粉樣變檢測(cè)框架對(duì)實(shí)現(xiàn)病變的精準(zhǔn)分類具有一定的應(yīng)用潛力,此外,其對(duì)于利用低信噪比、小樣本太赫茲光譜數(shù)據(jù)集進(jìn)行模型時(shí)效性提升具有重要意義。
圖4 模型分類預(yù)測(cè)得到的混淆矩陣Fig.4 Confusion matrix obtained by classification prediction of the model
圖5 該模型的不同評(píng)價(jià)指標(biāo)值Fig.5 Evaluation indicators of the proposed model
為了進(jìn)一步驗(yàn)證模型的性能穩(wěn)定性及實(shí)驗(yàn)結(jié)果的可重復(fù)性,在同等條件下進(jìn)行了10 次獨(dú)立重復(fù)試驗(yàn)。實(shí)驗(yàn)結(jié)果如表1 所示,仍以上述4 個(gè)指標(biāo)進(jìn)行評(píng)估,并加入每個(gè)指標(biāo)的極差作為判斷實(shí)驗(yàn)結(jié)果穩(wěn)定性的輔助工具。
表1 10 次獨(dú)立重復(fù)實(shí)驗(yàn)結(jié)果Tab.1 Results of 10 times of independent repeated tests
從表1 可知,本文模型的準(zhǔn)確率、精確度、召回率和F1 分?jǐn)?shù)的極差分別為0.46%、0.38%、0.66%和0.38%,這表明本文算法的預(yù)測(cè)性能在一定范圍內(nèi)具有穩(wěn)定性,且分類結(jié)果具有可重現(xiàn)性。10 次獨(dú)立重復(fù)實(shí)驗(yàn)中的準(zhǔn)確率在94.66%以上、精確度在99.62%以上、召回率在91.66%以上、F1 分?jǐn)?shù)在95.61%以上,并且各項(xiàng)指標(biāo)的極差分布均在0.66%以內(nèi),由此可知,其在一定程度上符合生物醫(yī)學(xué)中病變檢測(cè)的可靠性要求。除此之外,與心肌淀粉樣變的傳統(tǒng)檢測(cè)手段相比,本文方法在時(shí)間效率上有大幅提升。通常,傳統(tǒng)檢測(cè)方法進(jìn)行病理組織切片約需耗費(fèi)2 day 才能獲取檢測(cè)結(jié)果,心臟磁共振、放射性核素成像、超聲心動(dòng)圖均需耗費(fèi)2 h 左右得到檢測(cè)結(jié)果[19],而本文研究方法最多需要1 h 即可實(shí)現(xiàn)心肌淀粉樣變?cè)\斷:制備生物樣本約需40~5 min 左右,采集一個(gè)平均次數(shù)為1 的太赫茲光譜則耗時(shí)不到1 s,利用訓(xùn)練好的模型分類一個(gè)光譜耗時(shí)低于0.004 s。通過上面對(duì)比可知,本文方法在時(shí)間效率上優(yōu)于傳統(tǒng)醫(yī)學(xué)檢測(cè)方法。
在深度學(xué)習(xí)的模型設(shè)計(jì)中,學(xué)習(xí)率大小和批大小是影響模型分類效果的重要參數(shù)。學(xué)習(xí)率是調(diào)整損失函數(shù)梯度下降的超參,設(shè)置合適的學(xué)習(xí)率數(shù)值有助于加快模型的訓(xùn)練和收斂;批大小作為每次調(diào)整參數(shù)前選取的樣本量大小,其大小對(duì)于網(wǎng)絡(luò)的訓(xùn)練效果具有重要意義。在該部分,為分析參數(shù)變化對(duì)模型分類效果的影響,設(shè)置了兩類學(xué)習(xí)率(0.001、0.000 1)和三類批大?。?、5、10),并在同比對(duì)照條件下通過組合不同的學(xué)習(xí)率和批大小分別進(jìn)行了6 次分類預(yù)測(cè)。將準(zhǔn)確率、精確度、召回率和F1 分?jǐn)?shù)作為綜合評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表2 所示。
從表2 可以看出,當(dāng)學(xué)習(xí)率一定時(shí),模型的分類能力基本隨著批大小的增大而提高,說明對(duì)于所構(gòu)建的模型而言,增大批大小有助于提升模型分類能力。當(dāng)批大小一定時(shí),值為0.000 1 學(xué)習(xí)率下的分類效果優(yōu)于0.001 的學(xué)習(xí)率,說明適當(dāng)減小學(xué)習(xí)率有助于提高本文模型預(yù)測(cè)的準(zhǔn)確性。通過上述分類實(shí)驗(yàn)結(jié)果可知,在學(xué)習(xí)率為0.000 1,批大小為10 的條件下模型性能最優(yōu)。究其原因,在樣本量小的時(shí)候,增大批大小有助于在一次訓(xùn)練迭代中學(xué)習(xí)到更多的樣本特征,使得分類器每次迭代的預(yù)測(cè)效果更加穩(wěn)定,有助于削弱準(zhǔn)確率和損失值的震蕩現(xiàn)象。同時(shí),減小學(xué)習(xí)率使得模型可以學(xué)習(xí)更加優(yōu)化的權(quán)重集合,以使模型收斂到更好的最小值。
表2 不同參數(shù)對(duì)模型分類效果的影響Tab.2 Effects of different parameters on model classification
選取15 種用于一維光譜分類或一維序列分類的機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)算法與本文算法進(jìn)行對(duì)比。具體包括:k-最近鄰算法[25](KNN)、邏輯回歸算法[26](LG)、樸素貝葉斯算法[27](NB)、隨機(jī)森林算法[28](RF)、決策樹算法[29](DT)、線性判別分析算法[30](LDA)、Adaboost 分類器[29](AC)、二次判別分析算法[31](QDA)、支持向量機(jī)[25](SVM)、長短期記憶網(wǎng)絡(luò)[32](LSTM)、雙向長短期記憶網(wǎng)絡(luò)[31](BiLSTM)、卷積長短期記憶網(wǎng)絡(luò)[33](CLSTM)、殘差網(wǎng)絡(luò)[34](ResNet)、密集連接網(wǎng)絡(luò)[35](DenseNet)和卷積神經(jīng)網(wǎng)絡(luò)[36](CNN)。在對(duì)比實(shí)驗(yàn)中,以100 個(gè)樣本作為輸入,并保持所有參數(shù)相同,實(shí)驗(yàn)結(jié)果如圖6(彩圖見期刊電子版)所示。
圖6 與15 種機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)模型的對(duì)比實(shí)驗(yàn)Fig.6 Comparative experiments of proposed model with 15 kinds of machine learning algorithms and deep learning models
從圖6 可以看出,在15 種對(duì)比算法中,機(jī)器學(xué)習(xí)算法得到的各項(xiàng)評(píng)價(jià)指標(biāo)普遍高于深度學(xué)習(xí),這是因?yàn)樯疃葘W(xué)習(xí)的分類能力在一定程度上依賴于數(shù)據(jù)量大小。但盡管如此,本文提出的分類模型在4 個(gè)指標(biāo)上均高于最優(yōu)對(duì)比算法(指標(biāo)提升幅度:準(zhǔn)確率15%,精確度18.44%,召回率11.28%,F(xiàn)1 分?jǐn)?shù)14.71%)——線性判別分析(準(zhǔn)確率80%,精確度81.56%,召回率81.02%,F(xiàn)1 分?jǐn)?shù)81.28),這表明機(jī)器學(xué)習(xí)算法缺乏自動(dòng)從含噪數(shù)據(jù)中提取特征的強(qiáng)大能力,并進(jìn)一步證明了我們的分類模型對(duì)克服低信噪比的小樣本數(shù)據(jù)集帶來的分類挑戰(zhàn)具有重要作用。
為了深入分析本文所構(gòu)建網(wǎng)絡(luò)中主要模塊的貢獻(xiàn)度,針對(duì)卷積降噪自編碼器模塊(模塊1)、多尺度特征提取模塊(模塊2)和密集連接模塊(模塊3)設(shè)計(jì)了相應(yīng)的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖7(彩圖見期刊電子版)所示。
圖7 各模塊的消融實(shí)驗(yàn)結(jié)果Fig.7 Ablation experimental results of different modules
實(shí)驗(yàn)結(jié)果表明,當(dāng)3 個(gè)模塊全部消除時(shí)各項(xiàng)評(píng)價(jià)指標(biāo)均出現(xiàn)大幅度下降,召回率僅為30%,F(xiàn)1 分?jǐn)?shù)僅為42.85%,遠(yuǎn)遠(yuǎn)不能滿足檢測(cè)心肌淀粉樣變的任務(wù)要求。當(dāng)僅使用1 個(gè)模塊時(shí),分類效果均得到提升,且單一的卷積降噪自編碼器模塊具有最高貢獻(xiàn)度,其綜合性能評(píng)價(jià)指標(biāo)F1 分?jǐn)?shù)達(dá)到87.99%。當(dāng)組合使用任意兩個(gè)模塊時(shí),分類效果均較單一模塊高,且最佳F1 分?jǐn)?shù)達(dá)到90%。消融實(shí)驗(yàn)證明本文所設(shè)計(jì)的3 個(gè)模塊對(duì)于分類心肌淀粉樣變的低信噪比小樣本太赫茲光譜數(shù)據(jù)均有一定貢獻(xiàn)度,且3 個(gè)模塊順次組合能使得模型分類效果最大化。與此同時(shí),這也證明所采用的降噪、特征提取、特征表達(dá)的基本流程是合理、正確的。
上述實(shí)驗(yàn)結(jié)果及分析證明了本文所提出的模型在樣本量大小為100 時(shí)具有超越同比機(jī)器學(xué)習(xí)算法及神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢(shì)。本節(jié)將從兩個(gè)方面分析樣本量大小對(duì)模型分類效果的影響。
首先,選取樣本量分別為20、40、60、80、100,分析本文設(shè)計(jì)模型的各項(xiàng)分類指標(biāo),結(jié)果如表3 所示。
表3 樣本量對(duì)本文模型分類效果的影響Tab.3 Influence of the number of sample on model classification effect
實(shí)驗(yàn)結(jié)果表明隨著樣本量的增加,各項(xiàng)指標(biāo)均逐漸提升,并在樣本量為100 時(shí)達(dá)到了最佳效果。當(dāng)樣本量僅為20 時(shí),本文模型仍能達(dá)到70%的準(zhǔn)確率、72.35% 的精確度、64.23% 的召回率和68.04% 的F1 分?jǐn)?shù)。實(shí)驗(yàn)結(jié)果說明本文分類網(wǎng)絡(luò)在應(yīng)對(duì)樣本量變化的條件下具有一定的抗敏感性,并且當(dāng)樣本量下降到60 時(shí),仍能夠取得令人滿意的心肌淀粉樣變檢測(cè)效果。
其次,通過向原始數(shù)據(jù)添加噪聲的方式將本文的實(shí)驗(yàn)數(shù)據(jù)擴(kuò)增到3 000 個(gè)。在此基礎(chǔ)上,利用本文提出的模型進(jìn)行分類,并與ResNet[34]、DenseNet[35]、CNN[36]3 個(gè)用于大型光譜數(shù)據(jù)集分類的模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表4 所示。
表4 擴(kuò)增樣本量對(duì)模型分類效果的影響Tab.4 Influence of the number of expanded samples on model classification effect
實(shí)驗(yàn)結(jié)果表明,本文模型對(duì)于擴(kuò)增數(shù)據(jù)集的準(zhǔn)確率為66.50%,精確度為71.47%,召回率為68.35%,F(xiàn)1 分?jǐn)?shù)為69.87%。與其他3 個(gè)分類模型相比,本文模型的4 個(gè)指標(biāo)均最優(yōu)。盡管如此,本模型在擴(kuò)增樣本后的分類結(jié)果仍與未擴(kuò)增樣本時(shí)有約30%的差距。這進(jìn)一步說明,單純擴(kuò)增樣本量并不能對(duì)低信噪比數(shù)據(jù)進(jìn)行準(zhǔn)確分類,表明本文的研究思路是行之有效的。
心肌淀粉樣變的早期診斷對(duì)于治療該類疾病具有重要意義,已有研究為結(jié)合太赫茲光譜技術(shù)和深度學(xué)習(xí)算法實(shí)現(xiàn)心肌淀粉樣變檢測(cè)提供了指導(dǎo)。但是當(dāng)太赫茲光譜數(shù)據(jù)集具有低信噪比和數(shù)據(jù)量少的特點(diǎn)時(shí),深度學(xué)習(xí)方法難以高效提取可區(qū)分性特征且存在過擬合?;诖耍疚奶岢隽艘环N基于多模塊順序級(jí)聯(lián)的太赫茲光譜分類模型。設(shè)計(jì)了以卷積降噪自編碼器模塊、多尺度特征提取模塊和密集連接模塊為基礎(chǔ)的心肌淀粉樣變檢測(cè)模型。實(shí)驗(yàn)結(jié)果表明,在最低信噪比水平和小樣本量條件下,該模型可以實(shí)現(xiàn)F1 分?jǐn)?shù)為95.99%的心肌淀粉樣變檢測(cè)效果,超越同類機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法。與此同時(shí),獨(dú)立重復(fù)實(shí)驗(yàn)證明了該模型的穩(wěn)定性和可重復(fù)性。因此,本文所設(shè)計(jì)模型在利用低信噪比的少量太赫茲光譜實(shí)現(xiàn)心肌淀粉樣變檢測(cè)方面具有一定應(yīng)用潛力。