卓 力 孫亮亮 張 輝 李曉光 張 菁
(北京工業(yè)大學信息學部 北京 100124)
(北京工業(yè)大學計算智能與智能系統(tǒng)北京重點實驗室 北京 100124)
舌診是中醫(yī)(Traditional Chinese Medicine,TCM)望診中的核心內(nèi)容。舌色作為舌象診察重要特征之一,在中醫(yī)上一般分為淡紅舌、紅舌、暗紅舌、紫舌等4類,其顏色的變化反映了人體臟腑氣血津液的虛實和邪正盛衰[1]。長期以來,舌診主要是通過醫(yī)生的目測觀察、經(jīng)驗來判斷病證。但在臨床實踐中,舌象的診察會受到光線、溫度等外界客觀因素以及醫(yī)生主觀性的影響,進而影響后續(xù)的癥候診斷及依證施方。利用計算機對中醫(yī)舌象進行定量化、客觀化和標準化的處理與分析,已成為當前舌診客觀化研究中的一個基礎性問題。
中醫(yī)舌診客觀化的研究起步于20世紀80年代初期,其中以中醫(yī)舌質(zhì)、苔質(zhì)顏色自動分析為代表的工作可以分為兩個階段:第1階段是傳統(tǒng)方法,普遍采用人工特征+淺層機器學習的框架,對舌色、苔色等進行分析和處理;第2階段是基于深度學習的方法,采用端到端的框架,實現(xiàn)中醫(yī)舌象的智能分析與處理。
在第1階段的研究工作中,通常提取舌圖像的人工特征,如顏色直方圖、顏色集、結(jié)構元素描述符[2]、顏色共生矩陣[3]、圖像矩[4,5]等顏色特征,用于舌色分類。文獻[6]提出了一種多因素相關的塊截斷編碼用于提取圖像的顏色特征,并在圖像分類中取得較好的結(jié)果。文獻[7]提出了一種AdaBoost級聯(lián)分類框架,提高了舌質(zhì)顏色分類的準確率。文獻[8]在RGB空間提取了舌圖像的顏色特征,采用支持向量機作為分類器,實現(xiàn)了舌色分類。文獻[9]利用主色調(diào)直方圖作為顏色特征,在多標記學習算法下對舌質(zhì)與舌苔進行了分類。文獻[10]在先驗模板和標準的色塊作為輔助基礎上,利用K近鄰(KNearest Neighbor, KNN)作為分類器進行分類。王愛民等人[11]采用Fisher比率作為色度空間選擇的依據(jù),實現(xiàn)了舌色和苔色的自動分類。
這一階段的研究工作普遍人工提取舌圖像的顏色特征進行分類,由于顏色特征對于光照變化特別敏感,因此這些方法的魯棒性較差,分類準確性難以令人滿意。
2012年以來,深度學習在圖像分類、自然語言處理等領域取得了巨大突破。在第2階段的研究工作中,研究者嘗試將深度學習應用于中醫(yī)舌診研究中,利用深度學習強大的特征學習和語義表達能力,從大量的樣本數(shù)據(jù)中自動學習舌圖像的特征,實現(xiàn)舌色的分類。文獻[12]采用改進后的CaffeNet網(wǎng)絡結(jié)構對預處理后的舌圖像進行分類。文獻[13]結(jié)合圖像預處理和深度學習,在舌圖像數(shù)據(jù)集中驗證了自搭建的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)的分類性能。文獻[14]為了減小在舌色、苔色分類時,兩者之間的相互干擾,將整張舌圖像按照舌色、苔色分布的區(qū)域分離開來分別送入輕型CNN網(wǎng)絡進行分類。在圖像分類任務中,不同特征的融合往往會取得更好的分類結(jié)果,文獻[15,16]提出了不同的視覺與文本特征融合的方法,并在各自的分類任務中取得了更優(yōu)的性能。
研究結(jié)果表明,基于深度學習的方法可以獲得遠超過傳統(tǒng)方法的性能,舌色分類精度有了顯著的提升。但是,目前基于深度學習的中醫(yī)舌色分類方法還存在以下問題需要解決:
(1)深度神經(jīng)網(wǎng)絡模型結(jié)構復雜,計算復雜度和存儲需求會大大增加。同時,需要大量的有標注樣本對網(wǎng)絡進行訓練,才能獲得理想的性能。而在實際應用中,由于有經(jīng)驗的醫(yī)生標注成本昂貴,數(shù)據(jù)采集困難,往往難以獲得大規(guī)模、有標注的舌象樣本。如何利用小規(guī)模的數(shù)據(jù)集,有針對性地設計深度網(wǎng)絡模型,提升舌色分類的準確性,還需要進行深入的研究;
(2)受醫(yī)生的知識水平、診斷經(jīng)驗的限制,也因為光線、環(huán)境等客觀因素的影響,醫(yī)生的標注樣本中經(jīng)常會出現(xiàn)錯誤,標注的樣本數(shù)據(jù)中不可避免地會存在一定的噪聲,噪聲樣本的存在會對分類網(wǎng)絡模型的訓練造成影響,導致舌色分類的魯棒性和準確性難以令人滿意。針對有噪聲標注樣本情況下的分類問題,學者開展了深入的研究工作,取得了有意義的研究進展。比如,文獻[17]提出一種簡單而有效的注意力特征混合(Attentive Feature Mixup, AFM)策略,利用注意力機制降低噪聲樣本的權重,進而抑制噪聲樣本對分類模型的影響。文獻[18]提出了置信學習的思想,用于識別和過濾錯誤樣本。在過濾錯誤樣本后,調(diào)整樣本類別權重,重新訓練網(wǎng)絡。文獻[19]提出了一種框架用來構建健壯的損失函數(shù),有效解決了損失函數(shù)對噪聲樣本的欠擬合問題。文獻[20]提出了一種基于噪聲分類器預測的標簽校正算法,提升了分類網(wǎng)絡模型的性能。文獻[21]構建了網(wǎng)絡參數(shù)和標簽聯(lián)合優(yōu)化的框架,利用網(wǎng)絡輸出結(jié)果更新標簽,提升分類性能。文獻[22]通過構建一種自治愈網(wǎng)絡實現(xiàn)對噪聲樣本的抑制和噪聲標注的修正,提高了分類的精度。文獻[23]提出了一種不一致的潛在真實偽標注框架IPA2LT,該框架在一定程度上解決了人臉表情注釋的不一致性帶來的問題,提升了表情分類的精度。
上述的研究結(jié)果表明,對有噪聲的樣本進行識別并加以清除,可以有效提升分類模型的性能。但是目前,針對有噪樣本下的舌色分類的研究工作很少,當前舌色分類的魯棒性和準確性難以令人滿意,嚴重阻礙了舌診客觀化研究的進展。
為此,本文提出了一種有噪聲標注情況下的中醫(yī)舌色分類方法,目的是實現(xiàn)舌色的魯棒、準確分類。主要的創(chuàng)新點包括:(1)提出了一種基于2階段的數(shù)據(jù)清洗方法,用于對噪聲標注樣本進行識別并加以清除;(2)針對舌象樣本數(shù)據(jù)規(guī)模小的問題,設計了一種帶通道注意力機制(Channel Attention,CA)[24]的輕型卷積神經(jīng)網(wǎng)絡,以實現(xiàn)舌色的準確分類;(3)提出了一種帶有噪聲樣本過濾機制的知識蒸餾策略,該策略中加入了由教師網(wǎng)絡主導的噪聲樣本過濾機制,進一步剔除噪聲樣本,同時利用教師網(wǎng)絡指導輕型卷積神經(jīng)網(wǎng)絡的訓練,提升了分類模型的性能。在自建的中醫(yī)舌色分類數(shù)據(jù)集上的實驗結(jié)果表明,與現(xiàn)有的分類網(wǎng)絡模型相比,本文提出的方法能以較低的計算復雜度,顯著提升分類性能,分類準確率達到了93.88%。
本文提出的有噪聲標注情況下的中醫(yī)舌色分類方法整體框圖如圖1所示。下面介紹本文提出的兩階段數(shù)據(jù)清洗方法、輕型CNN網(wǎng)絡結(jié)構、帶有噪聲樣本過濾機制的知識蒸餾策略等幾個關鍵部分的具體實現(xiàn)細節(jié)。
圖1 有噪聲標注情況下的中醫(yī)舌色分類方法整體框圖
如上所述,由于舌色類別之間并沒有一個嚴格的界限和醫(yī)生標注者的主觀性等因素的影響,舌象數(shù)據(jù)集中存在一些帶有噪聲標注的樣本,影響分類模型的訓練。為此,本文提出了一種基于2階段的數(shù)據(jù)樣本清洗方法,其處理流程如表1所示。在第1階段,采用ResNet18篩選出數(shù)據(jù)中的噪聲樣本。其基本思想是利用ResNet18網(wǎng)絡從大部分干凈樣本中學習到規(guī)律,篩選出噪聲樣本。通過多次隨機劃分和迭代,實現(xiàn)對數(shù)據(jù)集的初篩。由于在第1階段篩選數(shù)據(jù)的過程中,訓練集中有噪聲樣本的存在,分類模型有可能會誤將干凈的樣本篩選掉。因此,本文又設計了第2階段,利用經(jīng)過第1階段清洗后的數(shù)據(jù)集微調(diào)ResNet18, VGGNet等CNN模型(均在ImageNet上進行了預訓練),對篩選出的噪聲樣本進行修正,盡可能避免誤篩干凈的樣本。清洗后的樣本將用于訓練舌色分類網(wǎng)絡模型。
表1 有噪聲標準舌圖像的數(shù)據(jù)清洗流程
深度學習依賴大數(shù)據(jù)作為支撐。然而,由于醫(yī)生標注數(shù)據(jù)的成本高,臨床數(shù)據(jù)采集困難,因此難以獲得大規(guī)模、有標注的中醫(yī)舌色樣本數(shù)據(jù)。訓練樣本數(shù)據(jù)量的不足很容易導致過擬合現(xiàn)象的發(fā)生,影響網(wǎng)絡模型的訓練性能。因此,本文設計了一種輕型CNN網(wǎng)絡結(jié)構,以防止由于訓練樣本過少帶來的過擬合問題,同時也加入了通道注意力機制,獲得更具表達能力的深度特征。
2.2.1 整體網(wǎng)絡結(jié)構
本文設計的輕型CNN網(wǎng)絡結(jié)構如圖2所示。這是一個端到端的架構,輸入為舌圖像,輸出為預測的舌色類別。網(wǎng)絡由9層卷積層和2層全連接層組成。為了減少網(wǎng)絡的參數(shù)量、避免過擬合現(xiàn)象的發(fā)生,除了第1層使用7×7的卷積核,其余卷積層均采用了3×3的卷積核。此外,每個卷積層之間均使用了批量正則化(Batch Normalization,BN)和ReLU激活操作;其次,為了增強梯度傳播和網(wǎng)絡的泛化能力,采用了殘差網(wǎng)絡的連接方式。具體來說,從第2個卷積層開始,每兩個卷積層組成一個殘差塊;最后,在網(wǎng)絡中加入了通道注意力機制,引導網(wǎng)絡更關注對分類任務重要的特征通道,抑制無關的通道。最后兩個全連接層的神經(jīng)元個數(shù)分別設置為128和4。
圖2 輕型CNN網(wǎng)絡結(jié)構圖
2.2.2 通道注意力機制
為了提升輕型CNN網(wǎng)絡的特征提取與表達能力,本文在網(wǎng)絡中加入了通道注意力機制。通道注意力機制認為網(wǎng)絡中每層不同通道的特征的重要性不同,通過向重要的通道賦予更高的權重使得網(wǎng)絡更加注重對分類任務有用的信息,結(jié)構如圖3所示。
在圖3中,輸入的特征圖(H×W×C)分別經(jīng)過最大池化和平均池化,得到兩個1×1×C的特征圖。接著,將其分別送入一個多層感知機(Multi-Layer Perception, MLP)中。MLP主要用于壓縮輸入特征圖的空間維數(shù)和生成對應的權重,共有兩層:第1層神經(jīng)元個數(shù)為 C/r(r為減少率,本文中r設為16),激活函數(shù)為ReLU;第2層神經(jīng)元個數(shù)為C,這兩層的神經(jīng)網(wǎng)絡權值是共享的。之后,將MLP輸出的特征分別進行加法和Sigmoid激活操作,生成最終的通道注意力特征,即Mc(F)。
圖3 通道注意力網(wǎng)絡結(jié)構
整個通道注意力模塊的計算過程可以表示為
為了進一步篩選數(shù)據(jù)集中的噪聲樣本,同時提高輕型CNN網(wǎng)絡的分類性能,本文提出了一種帶有噪聲樣本過濾機制的知識蒸餾策略,通過一個復雜的教師網(wǎng)絡去指導輕型學生網(wǎng)絡的學習。教師網(wǎng)絡中加入噪聲樣本的過濾機制,進一步濾除噪聲樣本。該過濾機制是基于噪聲樣本相對于干凈樣本的分類損失值會更大的思路,利用教師網(wǎng)絡計算每個批次中樣本的分類損失值,然后按照一定的比例過濾掉損失值較大的樣本,只把損失值小的樣本用于訓練學生網(wǎng)絡。該策略可以在教師網(wǎng)絡將知識傳遞到學生網(wǎng)絡的同時,降低噪聲樣本對學生模型訓練的干擾,使學生網(wǎng)絡盡可能逼近亦或是超過教師網(wǎng)絡的性能,從而以較低的網(wǎng)絡復雜度,獲得較高的分類性能。噪聲樣本的過濾流程如表2所示。
表2 噪聲樣本過濾流程
教師網(wǎng)絡采用ResNet50[25]+SeNet[26]的網(wǎng)絡結(jié)構,而學生網(wǎng)絡則是本文設計的輕型CNN網(wǎng)絡。知識蒸餾策略的整體結(jié)構如圖4所示。采用在ImageNet上訓練好的ResNet50+SeNet對輸入樣本進行分類,輸出結(jié)果作為軟標簽,去指導輕型CNN網(wǎng)絡的訓練。相比于硬標簽來說,軟標簽攜帶了更多有用的信息,可以有效提升學生網(wǎng)絡的訓練性能。
圖4 知識蒸餾的結(jié)構圖
在知識蒸餾中,本文采用的目標函數(shù)為交叉熵損失函數(shù)與K-L散度損失的加權和,具體為
利用這種帶有噪聲樣本過濾機制的知識蒸餾策略,可以進一步去除有噪樣本,同時提升輕型網(wǎng)絡的分類性能。
對待預測舌圖像進行預測時,首先利用上述訓練好的網(wǎng)絡模型提取到舌色特征,接著將特征送入分類器中進行分類。本文采用了Softmax分類器,通過計算當前樣本屬于每一類的概率,選擇具有最高概率的類作為當前樣本的類別。本文將Softmax分類器與輕型網(wǎng)絡結(jié)構相結(jié)合,通過一個端到端的網(wǎng)絡結(jié)構,實現(xiàn)舌色的分類。
為了驗證所提方法的有效性,本文在自建的數(shù)據(jù)集上進行了實驗。在實驗中,首先對比了數(shù)據(jù)清洗前后的分類性能;其次,在清洗后的數(shù)據(jù)集上,對比了本文設計的輕型CNN網(wǎng)絡與其他CNN網(wǎng)絡的分類準確率;然后,又比較了采用知識蒸餾策略之后,輕型CNN網(wǎng)絡的分類性能;最后,針對兩階段的數(shù)據(jù)清洗方法和輕型CNN網(wǎng)絡分別進行了相關的消融實驗,驗證各個部分對分類性能的影響。
數(shù)據(jù)集。本文自建了舌色分類數(shù)據(jù)集,所有數(shù)據(jù)樣本均采集自首都醫(yī)科大學附屬宣武醫(yī)院,采集設備為本課題組研制的中醫(yī)舌象儀,每個樣本由中醫(yī)專家人工進行標注。數(shù)據(jù)集共包含舌圖像樣本430例,舌色共分為4類,其中淡紅舌148例、紅舌133例、暗紅舌106例和紫舌43例。部分示例圖像如圖5所示。
圖5 舌色樣本的示例
分類性能評價指標。本文采用準確率來度量舌色分類性能,定義為
假設C表示舌色類別中的一類,式(7)TP表示類C中的樣本被正確預測為類C的數(shù)量,TN表示不屬于C類的其他類別樣本而被正確預測為其對應類別的數(shù)量,N表示測試集中樣本的總數(shù)量。
數(shù)據(jù)擴充。在訓練輕型CNN網(wǎng)絡時,為了提高模型的訓練性能,避免過擬合,數(shù)據(jù)擴充是必不可少的。本文采用了多種數(shù)據(jù)擴充方法,包括隨機水平和垂直翻轉(zhuǎn)、在—45°和45°之間隨機旋轉(zhuǎn),調(diào)整圖像的大小等。輸入網(wǎng)絡的圖像被統(tǒng)一調(diào)整為224像素×224像素。
參數(shù)的設置。本文設計的輕型CNN網(wǎng)絡是在Pytorch平臺上搭建的,實驗中配置了NVIDIA Ge-Force TX 1080 Ti GPU。采用Adam算法對模型進行優(yōu)化,其中Batch Size設為64、權重衰減為10—4。此外,本文采用自定義策略在訓練過程中調(diào)整學習率,lr=lr0×(0.95)epoch,其中l(wèi) r0值為0.001,損失函數(shù)使用的交叉熵損失,epoch的值為200。實驗中的測試準確率均為每20輪取1次均值所得。
為了驗證提出的兩階段數(shù)據(jù)清洗方法的有效性,本文進行了數(shù)據(jù)清洗前后的分類性能對比實驗。首先,利用表1算法對原始數(shù)據(jù)集進行了清洗,共清洗出21例噪聲樣本。其中第1階段篩選出的樣本數(shù)量為74,第2階段校正了53例樣本。在清洗后的數(shù)據(jù)集中,舌圖像數(shù)量為409例,其中淡紅舌126例,紅舌128例,暗紅舌113例和紫舌42例。圖6所示的是清洗出來的部分樣本示例??梢钥闯?,這些舌圖像在視覺上很難區(qū)分其歸屬舌色類別中哪一類,導致醫(yī)生標注時很有可能給出不一致的結(jié)果。
圖6 清洗出的部分噪聲樣本示例
接下來,將清洗后的數(shù)據(jù)集按照4:1比例隨機劃分為訓練集與測試集。在驗證數(shù)據(jù)清洗對于分類性能的影響時,為了保證測試集的一致性,本文選取清洗后的測試集做測試,而清洗前訓練集的劃分則是由清洗前的數(shù)據(jù)集去除測試集之后得到的,之后采用清洗前后的訓練集對在ImageNet上預訓練后的ResNet18網(wǎng)絡進行微調(diào),數(shù)據(jù)擴充與參數(shù)設置均采用3.1節(jié)所述方式,得到優(yōu)化后的分類網(wǎng)絡模型。數(shù)據(jù)清洗前后的分類對比結(jié)果如表3所示。
從表3可以看出,數(shù)據(jù)清洗之后,無論是對于單個類別還是整體的分類性能都有了顯著的提升。具體來說,淡紅舌與紅舌的分類準確率由75%,76.92%提升到了88%, 88.46%,分別提升了13%和11.54%。這是因為通過清洗,清除了淡紅舌與紅舌中帶有噪聲標注的樣本,提升了分類模型的性能。整體準確率在樣本清洗前僅為82.34%,而清洗后達到了91.81%,提升了9.47%。上述的實驗結(jié)果表明,本文提出的數(shù)據(jù)清洗方法可以有效篩選出帶有噪聲的標注樣本,顯著提升了分類準確率。
表3 數(shù)據(jù)清洗前后分類準確率(%)對比結(jié)果
為了驗證本文設計的輕型CNN網(wǎng)絡的性能,本文將該網(wǎng)絡(未采用知識蒸餾策略)與AlexNet[27],VGG16[28], ResNet18和MobileNetV2[29]等幾種主流的輕型CNN網(wǎng)絡結(jié)構進行了對比。對比時,將清洗后的數(shù)據(jù)按照4:1比例隨機劃分為訓練集和測試集。除了本文提出的輕型CNN網(wǎng)絡,其他網(wǎng)絡均在ImageNet上進行了預訓練,采用訓練集對網(wǎng)絡模型進行微調(diào)。訓練時采用了相同的數(shù)據(jù)擴充方法。
對比結(jié)果如圖7所示??梢钥闯觯鲜鰩追N主流的輕型CNN網(wǎng)絡分別取得了89.53%, 90.69%,90.86%, 91.81%和91.86%的分類準確率。而本文設計的輕型CNN網(wǎng)絡在沒有預訓練的情況下,仍然取得了92.87%的準確率,分類準確率提高了1.01%以上。這是因為本文設計的輕型CNN網(wǎng)絡中加入了通道注意力機制,使得網(wǎng)絡更加關注對分類有用的信息,從而提高了分類的準確率。
圖7 不同分類模型準確率對比
表4所示的是幾種CNN網(wǎng)絡結(jié)構的參數(shù)量??梢钥闯?,相對于AlexNet, VGG16和ResNet18等網(wǎng)絡結(jié)構,本文提出的輕型CNN網(wǎng)絡的參數(shù)量小了很多。雖然比MobileNetV2結(jié)構的參數(shù)量大了1 MB,但是網(wǎng)絡的分類精度卻提高了1.01%以上。綜上,本文設計的輕型CNN網(wǎng)絡不僅網(wǎng)絡結(jié)構簡單,同時也能取得更優(yōu)的分類性能。
表4 各種CNN網(wǎng)絡結(jié)構的參數(shù)量(MB)
為了驗證所提帶有噪聲過濾機制的知識蒸餾策略對于提升輕型CNN網(wǎng)絡性能的有效性,本文將采用知識蒸餾策略前后的輕型CNN網(wǎng)絡分類性能做了對比。教師網(wǎng)絡分別采用了ResNet18+CBAM,R e s N e t 5 0, R e s N e x t 5 0[30], R e s N e t 1 0 1 和ResNet50+SeNet等5種復雜的CNN網(wǎng)絡結(jié)構,網(wǎng)絡訓練方式如2.3節(jié)所述。采用知識蒸餾策略前后得到的實驗結(jié)果如表5所示。
從表5結(jié)果可以看出,在沒有使用知識蒸餾的情況下,輕型CNN網(wǎng)絡的分類準確率為92.87%。而使用了不同的CNN網(wǎng)絡模型作為教師網(wǎng)絡時,輕型CNN網(wǎng)絡的分類準確率均有所提升,尤其是采用ResNet50+SeNet作為教師網(wǎng)絡時,輕型CNN網(wǎng)絡的分類性能達到了最優(yōu),為93.88%,提升了約1%。盡管輕型CNN網(wǎng)絡在分類的性能上可能略低于教師網(wǎng)絡(低0.59%),但是在網(wǎng)絡參數(shù)量方面要遠小于教師網(wǎng)絡。例如ResNet50+SeNet網(wǎng)絡的參數(shù)量為28.1 MB,而本文設計的輕型CNN網(wǎng)絡只有5.2 MB,僅為18.5%。由以上實驗結(jié)果可以看出,采用本文提出的知識蒸餾策略,在網(wǎng)絡參數(shù)量不變的情況下,可以進一步提升輕型網(wǎng)絡模型的分類性能。
表5 采用知識蒸餾前后的對比實驗結(jié)果
為了驗證所提出方法的有效性,本文將其與目前主流的幾種分類網(wǎng)絡進行了比較,主要包含DenseNet121[31], ResNet18, ResNext50, ShuffleNetV2[32], MobileNetV2, EfficientNet-b4[33]等。以上網(wǎng)絡均使用3.2節(jié)的測試集做測試,訓練集由清洗前的數(shù)據(jù)集除去測試集組成,參數(shù)設置均采用3.1節(jié)所述方式。具體實驗結(jié)果如表6所示。
從表6可以看出,本文所提方法取得了最優(yōu)的分類性能,相對于其他分類網(wǎng)絡,提高了10.96%以上。主要原因在于本文所提方法對有噪聲標注的樣本進行了清洗,避免了這類樣本對網(wǎng)絡模型產(chǎn)生不利的影響。實驗結(jié)果再次證明,噪聲樣本會對分類精度產(chǎn)生非常嚴重的影響,如果不進行數(shù)據(jù)清洗,即便采用先進的網(wǎng)絡結(jié)構,也無法獲得令人滿意的分類精度。
表6 不同分類網(wǎng)絡的比較結(jié)果(%)
為了驗證本文方法的不同部分對分類性能的作用,本文進行了消融實驗。下面介紹消融實驗結(jié)果。
(1)兩階段數(shù)據(jù)清洗。在實驗中,分別利用原始舌象數(shù)據(jù)集與經(jīng)過第1階段和第2階段清洗后的數(shù)據(jù)集訓練ResNet18網(wǎng)絡,然后對比訓練后的模型在相同測試集上的分類準確率,結(jié)果如表7所示。數(shù)據(jù)集均按照訓練集與測試集4:1比例隨機劃分,實驗參數(shù)的設置如步驟3.1所述。從表7可以看出,經(jīng)過第1階段后得到的舌象數(shù)據(jù)集相對于原始數(shù)據(jù)集在準確率方面提升了7.68%,主要原因是第1階段清洗掉了有噪樣本,提升了標簽的準確性。而第2階段在第1階段的基礎上,準確率又提升了1.79%,其主要原因是通過對噪聲樣本的修正,增加了訓練樣本的數(shù)量,從而獲得了比第1階段更高的分類準確率。
表7 基于兩階段數(shù)據(jù)清洗方法的消融實驗結(jié)果
(2)輕型CNN網(wǎng)絡。為了驗證輕型CNN網(wǎng)絡中通道注意力機制模塊的有效性,本文在知識蒸餾的基礎上,進行了相關的消融研究。結(jié)果如表8所示。其中基線模型包含9層卷積層和2層全連接層,然后將通道注意力機制模塊嵌入到基線模型中,驗證其對于性能提升的作用。從表8可以得到,采用通道注意力機制,分類的準確率提升了1.1%,這說明通道注意力機制可以提升特征的表達能力,從而提升分類性能。
表8 輕型CNN網(wǎng)絡的消融實驗結(jié)果
本文針對中醫(yī)舌色分類中存在的噪聲樣本問題,提出了一種有噪聲標注情況下的中醫(yī)舌色分類方法。首先,提出一種兩階段的數(shù)據(jù)清洗方法,可以對噪聲樣本進行篩選,并加以清除;然后,設計了一種帶有通道注意力機制的輕型CNN網(wǎng)絡結(jié)構,用于舌色分類;此外,為了進一步提升網(wǎng)絡的性能,采用了帶有噪聲樣本篩選機制的知識蒸餾策略,由教師網(wǎng)絡主導對噪聲樣本進行過濾,利用較少的網(wǎng)絡參數(shù)量就可以獲得較高的分類性能。實驗結(jié)果表明,采用本文提出的方法,可以顯著提升帶有噪聲標注的舌色分類準確性。鑒于實際應用中,有標注的中醫(yī)舌象樣本稀缺,且代價昂貴,未來的工作將考慮采用半監(jiān)督學習的方式,利用大量的無監(jiān)督樣本,進一步提升舌色分類的性能。