李建威,呂曉琪,2,谷宇
(1.內(nèi)蒙古科技大學(xué) 信息工程學(xué)院 內(nèi)蒙古自治區(qū)模式識別與智能圖像處理重點實驗室,內(nèi)蒙古自治區(qū) 包頭 014010;2.內(nèi)蒙古工業(yè)大學(xué) 信息工程學(xué)院,呼和浩特 010051)
皮膚癌是因皮膚細(xì)胞的異常生長而引起的,近年來,其高發(fā)病率已經(jīng)導(dǎo)致重大的公共衛(wèi)生問題,且一旦皮膚癌錯過治療時機(jī),就會危及生命。因此,針對皮膚癌的早期診斷研究具有重要意義[1-2]。
皮膚鏡是一種成像技術(shù),可用來觀察皮膚色素性疾病,利用此技術(shù)可以得到較精確的皮膚色素性疾病診斷效果[3],但從皮膚鏡圖像中手動檢測皮膚疾病是一個困難且耗時的過程。目前,得益于計算機(jī)技術(shù)的發(fā)展,利用深度學(xué)習(xí)的方法在醫(yī)學(xué)圖像領(lǐng)域得到廣泛的應(yīng)用[4-5]。文獻(xiàn)[6]在分析不同深度學(xué)習(xí)模型的參數(shù)量后,提出一種輕量級皮膚癌分類模型,其準(zhǔn)確率為85.8%。文獻(xiàn)[7]采用遷移學(xué)習(xí)和數(shù)據(jù)增強(qiáng)的技術(shù),緩解了訓(xùn)練數(shù)據(jù)不足的問題,最終準(zhǔn)確率為87.7%。文獻(xiàn)[8]提出一種多模態(tài)深度學(xué)習(xí)信息融合框架用于皮膚病變的分割與分類,準(zhǔn)確率為87.02%。文獻(xiàn)[9]設(shè)計出一種深層卷積神經(jīng)網(wǎng)絡(luò),并使用類激活映射技術(shù)實現(xiàn)特征可視化,獲得86.5%的準(zhǔn)確率。文獻(xiàn)[10]提出一種改進(jìn)的MobileNet,實驗結(jié)果表明,改進(jìn)的模型比傳統(tǒng)的MobileNet具有更高的性能。文獻(xiàn)[11]先分割皮膚病變邊界,然后再使用神經(jīng)網(wǎng)絡(luò)對其進(jìn)行分類,準(zhǔn)確率為89.3%。文獻(xiàn)[12]提出一種基于個體優(yōu)勢集成和群體決策的皮膚鏡圖像分類方法,其分類效果優(yōu)于單個卷積神經(jīng)網(wǎng)絡(luò)。
深度學(xué)習(xí)在皮膚鏡圖像自動分類領(lǐng)域具有良好的應(yīng)用前景[13],但目前仍存在不少問題:皮膚鏡圖像不同類別之間具有較高的視覺相似性,分類難度較大;皮膚鏡圖像的收集需要大量的醫(yī)學(xué)知識,數(shù)據(jù)獲取難度較大,能用于深度學(xué)習(xí)訓(xùn)練的數(shù)據(jù)量相對較小。
針對上述問題,本文提出一種基于改進(jìn)ConvNeXt 的皮膚鏡圖像分類方法。ConvNeXt 作為新一代的卷積神經(jīng)網(wǎng)絡(luò),吸收Swin Transformer 的大量優(yōu)秀設(shè)計,并在計算機(jī)視覺領(lǐng)域中取得優(yōu)異的性能。為提升網(wǎng)絡(luò)模型的性能,本實驗在ConvNeXt 模型中加入SimAM 模塊,在無需額外參數(shù)的情況下改善Depthwise Convolution 無法高效利用不同通道在相同空間位置上的特征信息的缺陷。同時,在ConvNeXt 模型中插入通道域注意力模塊,使網(wǎng)絡(luò)模型更有效地學(xué)習(xí)關(guān)鍵特征,減少對非重要信息的關(guān)注,提升網(wǎng)絡(luò)模型的性能。在訓(xùn)練中使用Warmup 策略使模型權(quán)重逐步穩(wěn)定,并設(shè)置學(xué)習(xí)率按照余弦函數(shù)值進(jìn)行衰減,提升模型的分類效果。
在計算機(jī)視覺領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)一直是主流模型[14]。受基于Self-Attention 結(jié)構(gòu)的Transformer在自然語言處理領(lǐng)域的成功的啟發(fā),微軟亞洲研究院 在2021 年提出Swin Transformer模型[15],其 在多個數(shù)據(jù)集中均取得優(yōu)異的表現(xiàn)。
雖然Transformer 在各種計算機(jī)視覺任務(wù)上表現(xiàn)出優(yōu)異的性能,但在圖像處理方面還暫時無法取代卷積神經(jīng)網(wǎng)絡(luò)。此外,Transformer 的優(yōu)秀性能可能歸功于其內(nèi)在結(jié)構(gòu)。基于此項假設(shè),F(xiàn)acebook AI Research(FAIR)將Transformer 的相應(yīng)技術(shù)應(yīng)用在ResNet上,提出ConvNeXt 模型[16]。
ConvNeXt 模型是ResNet 從5 個方面借鑒Swin Transformer 的設(shè)計思想后得到的,其整體結(jié)構(gòu)如圖1所示。
圖1 ConvNeXt 模型結(jié)構(gòu)Fig.1 Model structure of ConvNeXt
1.1.1 宏觀設(shè)計
ResNet 與Swin Transformer均有4 個stage,但Swin Transformer tiny version 中各個stage 的block 堆疊比例為1∶1∶3∶1,由此研究人員將ConvNeXt 模型的堆疊比例調(diào)整為3∶3∶9∶3,使ConvNeXt 模型更接近于Swin Transformer。同時,ConvNeXt 模型參考Swin Transformer 的patchify 操作,將Stem 層設(shè)置為卷積核大小為4,步長為4 的卷積操作。
1.1.2 Depthwise Convolution 操作
人工智能實驗室的研究人員采用ResNeXt[17]的思想,使用Depthwise Convolution,他們認(rèn)為,Depthwise Convolution類似Transformer 的自注意力機(jī)制,只能在每個通道上進(jìn)行空間信息的交互。
1.1.3 逆瓶頸結(jié)構(gòu)
ResNet 為減輕計算量,使用瓶頸結(jié)構(gòu)。而MobileNetV2[18]使用逆瓶頸(Inverted Bottleneck)結(jié)構(gòu),減少信息的損失。人工智能實驗室的研究人員認(rèn)為Transformer 的mlp 模塊與逆瓶頸結(jié)構(gòu)十分相似,因此ConvNeXt 模型也采用類似的設(shè)計。ConvNeXt 模型所使用的逆瓶頸結(jié)構(gòu)如圖2 所示。
圖2 ConvNeXt 模型結(jié)構(gòu)的修改Fig.2 Modification of ConvNeXt model structure
1.1.4 大卷積核
現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)大都使用3×3 的卷積核[19],而在Swin Transformer中,使用的卻是7×7 的自注意力窗口?;诖?,人工智能實驗室的研究人員將ConvNeXt 的Depthwise Convolution 的大小設(shè)置成7×7。
1.1.5 微觀設(shè)計
除上述宏觀尺度的改進(jìn),ConvNeXt 模型還在微觀尺度上做出不少調(diào)整。ConvNeXt 模型將ReLU 函數(shù)替換成GELU 函數(shù),并減少激活函數(shù)的數(shù)量。同時,ConvNeXt 模型采用更少的歸一化層,并把BatchNorm 替換成LayerNorm。ConvNeXt 模型還模仿Swin Tranformer 下采樣設(shè)計,使用步長為2 的2×2卷積進(jìn)行空間下采樣。ConvNeXt 模塊與Swin Transformer 模塊的對比如圖3 所示。
圖3 Swin Transformer 模塊與ConvNeXt 模塊的對比Fig.3 Comparison of Swin Transformer module and ConvNeXt module
1.2.1 SimAM 模塊
人類的視覺機(jī)制極為高效,可以通過調(diào)節(jié)注意力,使視覺關(guān)注到最重要的部分。深度學(xué)習(xí)的研究人員模仿人類的注意力機(jī)制,將其引入到卷積神經(jīng)網(wǎng)絡(luò)上,使性能得到提升。
為降低毛發(fā)、氣泡等復(fù)雜背景的干擾,提升網(wǎng)絡(luò)模型的抗干擾能力,本實驗提出的改進(jìn)模型在Depthwise Convolution 后加入3D 的無參注意力模塊[20],在不額外引入?yún)?shù)的情況下更全面高效地評估特征權(quán)重,提升基礎(chǔ)模型的性能。
中山大學(xué)的研究人員通過模仿生物神經(jīng),提出一種能挖掘神經(jīng)元重要性的SimAM 模塊。該模塊結(jié)構(gòu)簡單,不向原始網(wǎng)絡(luò)添加參數(shù)。SimAM 模塊的結(jié)構(gòu)如圖4 所示。
圖4 SimAM 模塊的結(jié)構(gòu)Fig.4 Structure of SimAM module
在神經(jīng)科學(xué)中,信息量大的神經(jīng)元與周圍神經(jīng)元具有不同的放電模式。此外,活躍的神經(jīng)元還會抑制周圍的神經(jīng)元活動,這種現(xiàn)象被稱為空域抑制[21]。由此可見,在視覺任務(wù)中,應(yīng)該給具有空域抑制的神經(jīng)元更高的優(yōu)先級,找到重要神經(jīng)元的一個簡單方法是測量目標(biāo)神經(jīng)元與其他神經(jīng)元之間的線性可分性,基于此,研究人員定義能量函數(shù),如式(1)所示:
其中:t是指輸入特征X的目標(biāo)神經(jīng)元;μ和σ2是除t以外的所有神經(jīng)元的平均值和方差,當(dāng)系數(shù)λ為0.000 1 時效果較好。通過式(1)可知,能量越低,意味著神經(jīng)元t與周圍神經(jīng)元的差異越大,其重要性也越高。因此,神經(jīng)元的重要性可以通過1/e*得到。最后,根據(jù)各神經(jīng)元的重要性,對特征圖進(jìn)行優(yōu)化,表達(dá)式如式(2)所示:
其中:輸出結(jié)果為增強(qiáng)后的特征;X為輸入特征;⊙為點積運(yùn)算;E為每個通道上的能量函數(shù);Sigmoid函數(shù)用于限制E中可能出現(xiàn)的過大值。
1.2.2 通道注意力機(jī)制
SENet(Sequeeze and Excitation Network)[22]是2017 屆ImageNet 分類比賽的冠軍,它提出一種針對通道方向的注意力機(jī)制,通過在網(wǎng)絡(luò)模型中插入SE模塊,給予重要的皮膚特征更多的關(guān)注,從而讓網(wǎng)絡(luò)提取的特征指向性更強(qiáng),特征利用更充分。
SE 模塊能評估各個特征通道的重要程度,再對不同的特征通道進(jìn)行增強(qiáng)或者抑制。SE 模塊的結(jié)構(gòu)如圖5 所示。
圖5 SE 模塊的結(jié)構(gòu)Fig.5 Structure of SE block
在SE 模塊中,先對輸入特征圖X進(jìn)行Fsq(·)操作(即Squeeze 操作),得到具有全局信息的1×1×C特征向量。然后再進(jìn)行Fex(·,W)操作(即Excitation 操作),通過兩個全連接層融合各個通道的特征圖信息,得到各通道的重要程度。最后的Fscale(·,·)操作則把向量值與特征圖加權(quán),給每個特征通道賦予不同的權(quán)重。
學(xué)習(xí)率是網(wǎng)絡(luò)訓(xùn)練中最為重要的超參數(shù)之一,其設(shè)置的好壞決定目標(biāo)函數(shù)能否收斂到局部最小值以及何時收斂到最小值[23]。在網(wǎng)絡(luò)訓(xùn)練的初期階段,如果此時使用較大的學(xué)習(xí)率,會造成網(wǎng)絡(luò)模型對數(shù)據(jù)的過擬合,偏離最優(yōu)點。
Cosine Warmup[24]是一種學(xué)習(xí)率優(yōu)化方法,通過預(yù)熱學(xué)習(xí)率的方式,能夠先讓網(wǎng)絡(luò)模型在早期訓(xùn)練時使用預(yù)熱的較小學(xué)習(xí)率,使得網(wǎng)絡(luò)模型慢慢趨于穩(wěn)定。待網(wǎng)絡(luò)模型具有一定先驗知識且相對穩(wěn)定后,再使用較大的學(xué)習(xí)率進(jìn)行訓(xùn)練,可以加速網(wǎng)絡(luò)模型的收斂。圖6 所示為使用Cosine Warmup 的學(xué)習(xí)率系數(shù)變化。當(dāng)網(wǎng)絡(luò)模型使用較大的學(xué)習(xí)率訓(xùn)練一段時間后,模型的分布會相對穩(wěn)定,此時不再適合使用較大的學(xué)習(xí)率訓(xùn)練網(wǎng)絡(luò)模型,降低學(xué)習(xí)率能夠使網(wǎng)絡(luò)模型更接近局部最小值。余弦退火(Cosine Annealing)[25]即使用余弦函數(shù)來減小學(xué)習(xí)率,學(xué)習(xí)率先從很小的數(shù)值線性增加到預(yù)設(shè)學(xué)習(xí)率,然后按照cos 函數(shù)值進(jìn)行衰減,這種下降模式可以和學(xué)習(xí)率結(jié)合在一起,達(dá)到較好的效果。
本實驗的模型在Windows10 操作系統(tǒng)上實現(xiàn),采用PyTorch1.7 框架,使用Python 編程語言。實驗的硬件平臺為Intel?Xeon?CPU E5-1650 v3 @ 3.50 GHz 3.49 GHz,NVIDIA GeForce RTX 3090,顯存為24 GB。實驗中的訓(xùn)練迭代次數(shù)為300次,批次樣本數(shù)設(shè)置為8,優(yōu)化器為AdamW。
本實驗使用的數(shù)據(jù)集是國際皮膚影像合作組織(International Skin Imaging Collaboration,ISIC)2018 挑戰(zhàn)賽提供的HAM10000 數(shù)據(jù)集[26-27],該 數(shù)據(jù)集包含10 015 張皮膚損傷的皮膚鏡圖片,包含7 種皮膚?。杭垂饣越腔。ˋctinic keratoses,Akiec)、基底細(xì)胞癌(Basal cell carcinoma,Bcc)、良性角化?。˙enign keratosis-like lesions,Bkl)、皮膚纖維瘤(Dermatofibroma,Df)、黑色素瘤(Melanoma,Mel)、黑素細(xì)胞痣(Melanocytic nevi,Nv)和血管病變(Vascular lesions,Vasc),圖7 所示為皮膚癌示例。
圖7 皮膚癌示例Fig.7 Examples of skin cancer
在數(shù)據(jù)集分布均勻且數(shù)量大的情況下,卷積神經(jīng)網(wǎng)絡(luò)能發(fā)揮出優(yōu)秀的特征提取能力。但醫(yī)學(xué)數(shù)據(jù)集存在著圖像數(shù)量不足和分布不均勻的問題,這將降低卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效果,容易導(dǎo)致過擬合[28]。HAM10000 數(shù)據(jù)集存在分布不均勻的問題,為減輕過擬合現(xiàn)象,對數(shù)據(jù)集進(jìn)行隨機(jī)旋轉(zhuǎn)(0°~10°)、隨機(jī)縮放10%、隨機(jī)移動等操作,增加數(shù)據(jù)集的數(shù)量。圖8 所示為數(shù)據(jù)增強(qiáng)示例。
圖8 數(shù)據(jù)增強(qiáng)示例Fig.8 Examples of data augmentation
為評價網(wǎng)絡(luò)對皮膚鏡圖像的分類效果,本實驗使用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和特異性(Specificity)共同對分類結(jié)果進(jìn)行評估。在實驗中,正樣本是與真實標(biāo)簽一致的樣本,而負(fù)樣本是與真實標(biāo)簽不一致的樣本。其中:TP為模型將正類預(yù)測為正類的樣本數(shù);FN為模型將正類預(yù)測為負(fù)類的樣本數(shù);FP為模型將負(fù)類預(yù)測為正類的樣本數(shù);TN為模型將負(fù)類預(yù)測為負(fù)類的樣本數(shù)。在多分類任務(wù)中,各類別的TP、TN、FP、FN計算方式可由圖9 概括。
圖9 多分類混淆矩陣示例Fig.9 Examples of multi category confusion matrix
準(zhǔn)確率指的是正確分類樣本占總樣本數(shù)的概率,可表示為式(3)所示:
精確率指的是模型正確預(yù)測為正類占全部預(yù)測為正類的比例,可表示為:
召回率指的是模型正確預(yù)測為正類占全部實際為正類的比例,可表示為式(5)所示:
特異性指的是模型正確識別真陰性的比例,可表示為式(6)所示:
2.5.1 Cosine Warmup 訓(xùn)練效果
為驗證Cosine Warmup 的效果,分別在關(guān)閉和開啟Cosine Warmup 時觀察ConvNeXt 模型訓(xùn)練過程中的損失函數(shù)下降曲線。實驗的初始學(xué)習(xí)率設(shè)置為0.000 5,其損失值變化情況如圖10、圖11 所示。
圖10 Cosine Warmup 對損失值的影響(無預(yù)訓(xùn)練)Fig.10 Influence of Cosine Warmup on loss value(without pre-training)
圖11 Cosine Warmup 對損失值的影響(有預(yù)訓(xùn)練)Fig.11 Influence of Cosine Warmup on loss value(with pre-training)
由圖10、圖11 可知,不使用Cosine Warmup 訓(xùn)練策略的ConvNeXt 模型損失值較大,而使用Cosine Warmup 訓(xùn)練策略的ConvNeXt 模型收斂效果較好,且收斂穩(wěn)定后損失較低。因此本文選擇在模型訓(xùn)練的過程中使用Cosine Warmup 策略。
2.5.2 消融實驗
ConvNeXt 模塊的結(jié)構(gòu)如圖12 所示,其中的Depthwise Convolution 用于模擬自注意力中的加權(quán)求和操作,而后兩個1×1 Convolution 用于模擬Swin Transformer中的MLP模塊。
圖12 ConvNeXt 模型結(jié)構(gòu)Fig.12 Structure of ConvNeXt model
為提升ConvNeXt 的性能,本實驗在模型中加入SimAM 模塊。為更好地提升分類準(zhǔn)確率,將SimAM模塊分別放在圖13 所示的3 個位置進(jìn)行實驗,一個是在Depthwise Convolution 后插入,即圖13 中的位置1;另一個是在第1 個1×1 Convolution 后插入,即圖13 中的位置2;最 后1 個是在第2 個1×1 Convolution 后插入,即圖13 中的位置3。
圖13 不同插入位置的SimAM 模塊Fig.13 SimAM modules with different insertion positions
在相同參數(shù)設(shè)置的情況下,本實驗對SimAM 模塊在ConvNeXt 模型中的位置進(jìn)行調(diào)整,得到的測試結(jié)果如表1 所示,表中加粗?jǐn)?shù)字表示該組數(shù)據(jù)最大值。
表1 不同SimAM 插入位置的ConvNeXt模型的性能對比Table 1 Performance comparison of ConvNeXt models with different insertion positions of SimAM %
由表1 可知,在位置1,即在Depthwise Convolution后面插入SimAM 模塊,可得到更高的準(zhǔn)確率。對此,ConvNeXt 的網(wǎng)絡(luò)結(jié)構(gòu)充分借鑒Swin Transformer的結(jié)構(gòu)設(shè)計,在ConvNeXt 模型中,人工智能實驗室的研究人員在參考ResNeXt 與自注意力機(jī)制后,使用Depthwise Convolution。但是在Depthwise Convolution中,由于每個卷積核只對單個通道進(jìn)行卷積操作,因此各個通道之間的信息并沒有得到交流,致使在后續(xù)信息的流動中損失一些通道之間的信息,最終導(dǎo)致網(wǎng)絡(luò)性能下降。而SimAM 模塊能更好地挖掘重要神經(jīng)元,從而提升Depthwise Convolution 的性能。
同理,為更好地利用SE 模塊,本實驗將SE 模塊分別放在圖14 所示的3 個位置進(jìn)行實驗。得到的測試結(jié)果如表2 所示,表中加粗?jǐn)?shù)字表示該組數(shù)據(jù)最大值。
表2 不同SE 模塊插入位置的ConvNeXt 模型性能對比Table 2 Performance comparison of ConvNeXt models with different insertion positions of SE module %
圖14 不同插入位置的SE 模塊Fig.14 SE modules with different insertion positions
由表2可知,在位置3,即在第2 個1×1 Convolution 后面插入SE 模塊,可得到相對較高的準(zhǔn)確率。對此,本實驗認(rèn)為原因是在ConvNeXt 模型中存在著一個Layer Scale 操作[29]。Layer Scale 操作是讓特征圖乘上一個可學(xué)習(xí)的參數(shù),最終實現(xiàn)特征圖通道的縮放。由于SE 模塊也是在通道方向上進(jìn)行操作,于是將SE 模塊插入在Layer Scale 操作前,能夠提升網(wǎng)絡(luò)的性能。
為研究各項改進(jìn)點對網(wǎng)絡(luò)分類準(zhǔn)確率的影響,本文開展消融實驗。在消融實驗中,主要以測試集準(zhǔn)確率為指標(biāo),消融實驗包括加入SimAM 模塊、引入SE 模塊。最終的結(jié)果如表3、表4 所示,表3 括號中的數(shù)據(jù)表示該模型與基線模型(未引入SimAM 模塊和SE 模塊的模型)的差值,加粗?jǐn)?shù)字表示該組數(shù)據(jù)最大值。其中,同時加入SimAM 模塊和SE 模塊后的ConvNeXt 模型如圖15 所示。
表3 消融實驗結(jié)果Table 3 Ablation experimental result %
表4 SE-SimAM-ConvNeXt 模型的分類結(jié)果Table 4 Classification results of SE-SimAMConvNeXt model %
圖15 同時加入SimAM 模塊和SE 模塊后的ConvNeXt 模型結(jié)構(gòu)Fig.15 ConvNeXt model structure after adding both SimAM and SE modules
表3、表4 的數(shù)據(jù)表明,SimAM 模塊與SE 模塊對卷積神經(jīng)網(wǎng)絡(luò)的性能提升起積極作用。但SE-SimAM-ConvNeXt 網(wǎng)絡(luò)對光化性角化?。ˋkiec)、皮膚纖維瘤(Df)、黑色素瘤(Mel)的分類結(jié)果較差,這是因為加入新模塊后的ConvNeXt 模型需要更大的數(shù)據(jù)量去擬合,但這3 類的圖像數(shù)量較少,導(dǎo)致該類的分類結(jié)果不佳。
2.5.3 不同模型的結(jié)果對比
在醫(yī)學(xué)圖像處理領(lǐng)域中,Swin Transformer 作為卷積神經(jīng)網(wǎng)絡(luò)的強(qiáng)力競品,具有與CNN 不相上下的性能。但Vision Transformer 需要非常大的數(shù)據(jù)集才能超過卷積神經(jīng)網(wǎng)絡(luò)的性能,而醫(yī)學(xué)圖像數(shù)據(jù)集的數(shù)據(jù)量通 常比較小。MATSOUKAS等[30]分別在不同初始化策略下對Vision Transformer 與ResNet50進(jìn)行醫(yī)學(xué)圖像測試,結(jié)果顯示在隨機(jī)初始化權(quán)重的情況下,Vision Transformer 的性能比ResNet50 更糟糕。本實驗同樣在不同初始化策略下對Swin Transformer 與ConvNeXt 模型進(jìn)行測試,數(shù)據(jù)如表5所示,表中加粗?jǐn)?shù)字表示該組數(shù)據(jù)最大值。
表5 不同初始化策略的Swin Transformer 與ConvNeXt 模型的性能對比Table 5 Performance comparison between Swin Transformer and ConvNeXt models with different initialization strategies %
表5 中的結(jié)果表明,對不使用預(yù)訓(xùn)練權(quán)重的Swin Transformer 與ConvNeXt 進(jìn)行比較可知,ConvNeXt 的性能表現(xiàn)優(yōu)于Swin Transformer。這可能是因為在數(shù)據(jù)量較少的情況下,卷積神經(jīng)網(wǎng)絡(luò)的歸納偏置會使其表現(xiàn)更好。
在醫(yī)學(xué)圖像領(lǐng)域中,通常是使用ImageNet 預(yù)訓(xùn)練權(quán)重來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。同樣,本實驗對使用ImageNet 預(yù)訓(xùn)練模型的 Swin Transformer 與ConvNeXt 進(jìn)行比較。表5 中的結(jié)果表明,Swin Transformer 與ConvNeXt 均從預(yù)訓(xùn)練模型中獲得收益,且Swin Transformer 的收益略高一些。
在數(shù)據(jù)量較少的情況下,Swin Transformer 的性能比ConvNeXt 更差,而預(yù)訓(xùn)練權(quán)重能夠在一定程度上彌補(bǔ)Vision Transformer 在低數(shù)據(jù)狀態(tài)下性能不足的現(xiàn)象。實驗說明卷積神經(jīng)網(wǎng)絡(luò)可能更適合醫(yī)學(xué)圖像領(lǐng)域的數(shù)據(jù)。同時,SimAM 和SE 模塊的加入使得ConvNeXt 比Swin Transformer 略有優(yōu)勢。
為驗證新型卷積神經(jīng)網(wǎng)絡(luò)ConvNeXt 的有效性,本實驗將所提模型與VGG16、VGG19、ResNeXt50、MobileNetV2 分類模型進(jìn)行對比實驗,得到的測試結(jié)果如表6所示,表中加粗?jǐn)?shù)字表示該組數(shù)據(jù)最大值。
表6 各模型的分類結(jié)果評估Table 6 Evaluation of classification results of each model %
表6 中的結(jié)果表明,在皮膚鏡圖像分類中,相比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型,本實驗所提模型達(dá)到較高的分類準(zhǔn)確率,其分類性能為所有模型中最優(yōu)。這是因為ConvNeXt 借鑒吸收Transformer 的一些先進(jìn)技術(shù),結(jié)合了兩種模型的優(yōu)點,進(jìn)而提升了ConvNeXt 模型的性能。
在HAM10000 數(shù)據(jù)集下本文方法與其他方法的對比結(jié)果如表7 所示。
表7 與其他方法的分類結(jié)果對比Table 7 Comparison of classification results with other methods %
由表7 可知,在皮膚鏡圖像分類中,相較于其他模型,本文方法具有較高的準(zhǔn)確率,且優(yōu)于大部分對比方法。文獻(xiàn)[6]提出一種輕量級的皮膚癌分類模型,但最終分類準(zhǔn)確率較低。文獻(xiàn)[7]以DenseNet201 為基礎(chǔ)網(wǎng)絡(luò),并借助數(shù)據(jù)增強(qiáng)技術(shù)提高網(wǎng)絡(luò)性能,在同一數(shù)據(jù)集下的準(zhǔn)確率有所提升。文獻(xiàn)[8]提出一個多模態(tài)深度學(xué)習(xí)信息融合框架,但融合后特征維數(shù)增加的問題仍需解決。文獻(xiàn)[9]方法的網(wǎng)絡(luò)層數(shù)較淺,難以提取圖像的深層特征。文獻(xiàn)[10]提出一種改進(jìn)的MobileNet 模型進(jìn)行分類,但準(zhǔn)確率有待提升。文獻(xiàn)[11]的網(wǎng)絡(luò)通過輸入分割的皮膚病變圖像,提取出更顯著和更有代表性的特征,提高皮膚病變診斷的分類性能。文獻(xiàn)[12]提出集成的皮膚鏡圖像分類策略,得到較好的分類結(jié)果,但該方法較為復(fù)雜,實用性較差。綜上所述,網(wǎng)絡(luò)模型特征提取能力的強(qiáng)弱決定最終分類結(jié)果,而本文提出的SE-SimAM-ConvNeXt 模型具有較好的泛化能力與特征提取能力,在皮膚鏡圖像分類應(yīng)用領(lǐng)域具有較好的應(yīng)用前景。
本文提出一種基于SE-SimAM-ConvNeXt 卷積神經(jīng)網(wǎng)絡(luò)的皮膚鏡圖像分類方法,在保留ConvNeXt模型主要結(jié)構(gòu)的同時,增加SimAM 和SE 的新模塊,提升網(wǎng)絡(luò)的性能。此外,通過使用Cosine Warmup 學(xué)習(xí)率策略加速模型的收斂。實驗結(jié)果表明,本文方法具有分類能力較優(yōu)、泛化能力較強(qiáng)的特點,對皮膚病的智能診斷有一定指導(dǎo)意義,可在一定程度上滿足臨床應(yīng)用的需求。下一步將針對損失函數(shù)及數(shù)據(jù)增強(qiáng)等策略進(jìn)行研究,以解決樣本分布不均衡問題。