林凱迪,杜洪波*,王鴻菲,朱立軍
(1.沈陽工業(yè)大學 理學院,沈陽 110870; 2.北方民族大學 信息與計算科學學院,銀川 750021)
據(jù)世界衛(wèi)生組織統(tǒng)計,每年有1/3的癌癥是皮膚癌.近年來,我國的皮膚癌發(fā)病率逐年提高,但目前全國的皮膚科醫(yī)生僅有2萬多名,存在嚴重短缺和分布不均的情況,同時皮膚病種類多樣,有2 000多種,存在著不同疾病相似的癥狀,同一疾病不同的癥狀,這都極大地阻礙了醫(yī)生的診斷,尤其是在醫(yī)療資源不發(fā)達的地方,皮膚病的確診率非常低[1].而皮膚鏡是一種無創(chuàng)性顯微圖像分析技術在皮膚癌早期的診斷和篩查中有顯著作用[2-4].因此,運用皮膚鏡圖像來進行計算機輔助診斷技術也應運而生,并得到了廣泛的應用.
Ballerini等[5]對K最近鄰算法進行改進,并實現(xiàn)了皮膚鏡圖像的分類.Celebi等[6]先對皮膚鏡圖像做分割處理,再提取病灶的特征,然后使用支持向量機進行二分類,實現(xiàn)了惡性黑色素瘤的識別.以上方法均需要人工提取病灶的特征.隨著深度學習的發(fā)展,研究人員將深度神經網絡應用到皮膚鏡圖像的檢測中.與傳統(tǒng)計算機輔助檢測方法相比,深度學習方法具有兩種顯著優(yōu)勢:① 自動提取特征;② 識別準確率更高.Codella等[7]將卷積神經網絡與支持向量機結合,實現(xiàn)了皮膚鏡圖像中黑色素瘤的識別.Kawahara等[8]使用改進的AlexNet網絡來提取皮膚病圖像中的特征,再結合支持向量機進行圖像的識別.李航等[9]使用深度殘差網絡提取皮膚鏡圖像的特征,并采用支持向量機進行分類任務,得到了85%的準確率.
但是,對于皮膚鏡圖像的識別與分類問題,由于基于卷積神經網絡的方法在特征提取方面的能力有限,還存在許多缺點和不足,黑色素瘤的識別準確率并不理想.膠囊網絡是Hinton等[10]于2017年提出的一種新型深度學習網絡結構,將神經元由標量提升為向量.用一組神經元組成可以表示特征(或實體)間的空間關系以及特征(或實體)存在的概率來表示膠囊.動態(tài)路由算法使用路由迭代的方式連接不同隱藏層之間的膠囊,使膠囊以更少的模型參數(shù)獲得更強的泛化能力.李勵澤等[11]使用該模型進行了色素新皮膚病識別的研究,準確率達到82.24%.
隨后,Hinton于2018年提出了使用EM(expectation-maximization)算法的矩陣膠囊網絡[12],其膠囊包括姿態(tài)矩陣和激活概率,感受野的增加使得該網絡可以擬合復雜圖像.因此,本文將特征表征能力更強的矩陣膠囊網絡應用到皮膚鏡圖像的分類中,實驗數(shù)據(jù)采用國際皮膚成像組織(international skin imaging collaboration,ISIC)2017年公布的圖像,基于TensorFlow深度學習框架的結果表明,使用矩陣膠囊網絡可以達到更高的準確率.
矩陣膠囊網絡由卷積層、初始膠囊層、卷積膠囊層和全連接層組成[10].其結構如圖1所示,該模型以大小為5×5的卷積層開始,具有32個通道(A=32),步長為2,采用ReLU非線性函數(shù)進行激活.初始膠囊層利用1×1×32×(4×4+1)的卷積核計算得到,通道數(shù)為32(B=32),4×4是姿態(tài)矩陣的大小,1是激活概率;初始膠囊層后是兩個3×3卷積膠囊層(K=3),每個膠囊層有32個膠囊類型(C=D=32),步長分別為2和1.最后一層卷積膠囊層連接到最終的膠囊層,每個輸出級別由動態(tài)路由規(guī)則計算得到一個輸出膠囊[13].
圖1 矩陣膠囊網絡結構Fig.1 Matrix capsule network structure
假設膠囊j∈ΩL+1的姿態(tài)矩陣服從正態(tài)分布,則可以用分布的均值表示該姿態(tài)矩陣的輸出.將L層膠囊i的輸出與轉換矩陣Wij的乘積作為膠囊j姿態(tài)矩陣的分布的觀測值,而每個L層膠囊i連接到膠囊j的概率Rij則是隱藏參數(shù),因此使用了EM算法來實現(xiàn)動態(tài)路由規(guī)則[13].EM算法通過迭代的方式進行參數(shù)估計,由兩步構成.E步:求期望(expectation),根據(jù)M步的結果更新膠囊i到膠囊j的連接概率;M步:求極大(maximization),計算L+1層膠囊j姿態(tài)矩陣的分布期望與是否激活.
首先,初始化膠囊層間的連接概率.假設ΩL為L層膠囊的集合,ΩL+1表示L+1層膠囊的集合,i,j表示不同的膠囊且?i∈ΩL,j∈ΩL+1,則:
(1)
在M步,首先更新膠囊i到膠囊j的連接概率:
Rij=Rij×ai,
(2)
其中,ai為膠囊i的激活概率.接著對膠囊j的均值方差進行點估計:
(3)
(4)
?h:aj←logistic(λ(βa-∑hcosth)).
(5)
其中,βu,β,λ在訓練中得出.接下來進入E步的計算.根據(jù)M步所估計的期望求膠囊i的輸出屬于膠囊j的分布的概率:
(6)
其中,Pj表示分布概率.然后根據(jù)Pj,更新連接概率Rij:
(7)
E步結束.最后,對以上兩個步驟迭代得到動態(tài)路由結果.
實驗仿真環(huán)境為python3.6,Anaconda3,TensorFlow1.15,Keras2.2.4.硬件環(huán)境為深度學習GPU運算塔式服務器主機,采用可支持兩個INTEL XEON SP的可擴展處理器(10核/20線程2.2 G),內存為雙16 G(24個DIMM插槽),GPU使用1塊GeForce RTX3070.
皮膚鏡是一種表皮透光顯微鏡,醫(yī)生診斷可疑皮膚病變的常見非侵入性方法便是采用分析患者皮膚鏡圖像的方法.使用手持式放大設備,讓肉眼看不見的皮膚結構可以看見,以此來區(qū)分惡性皮膚病變與良性黑素細胞痣,在診斷黑色素瘤方面尤為重要[14].為了增強皮膚病變區(qū)域的成像清晰度,皮膚鏡設備包括可放大10到14倍的高質量鏡片和照明系統(tǒng).皮膚鏡及皮膚鏡下的皮膚如圖2和圖3所示.
圖2 非黑色素瘤示例Fig.2 Example of non-melanoma
圖3 黑色素瘤示例Fig.3 Example of melanoma
皮膚鏡圖像是交叉偏振濾光鏡(非接觸式皮膚鏡)或油/凝膠界面(浸入式皮膚鏡)等專業(yè)設備產生的圖片.臨床圖像是由常規(guī)的方法獲取的圖片,如手機或普通相機捕獲的圖像.從臨床圖像相比,皮膚鏡圖像的成像質量更高,有利于圖像處理,因此本文使用皮膚鏡圖像作為實驗數(shù)據(jù).
皮膚鏡圖像數(shù)據(jù)集因為其數(shù)據(jù)的專業(yè)性,分類標記的過程需要醫(yī)生專家的參與,是成本很高的數(shù)據(jù)集.本文采用國際皮膚成像合作組織ISIC(International Skin Imaging Collaboration)于2017年提供的數(shù)據(jù)集,共2 000張皮膚鏡圖像.訓練集和測試集中的黑色素瘤與非黑色素瘤的分布如表1所示.
表1 數(shù)據(jù)集中黑色素瘤與非黑色素瘤數(shù)量Tab.1 Number of melanoma and non-melanoma in the data set
為了使訓練對模型的初始化和超參數(shù)不那么敏感,采用傳播損失(spread loss)作為反向傳播的損失函數(shù).第i類(不是真標簽)的損失被定義為:
Li=(max(0,m-(at-ai)))2,
(8)
其中,at是目標類的激活值,ai是類i的激活值.總損失為:
(9)
模型訓練的傳播損失結果如圖4所示.同時,輸出模型的重構損失如圖5所示.
圖4 傳播損失 圖5 重構損失Fig.4 Spread loss Fig.5 Reconstruction loss
可以看出,當訓練次數(shù)不斷增加,損失值逐漸趨于0.結合學習率(圖6)的結果圖可以得知,模型在訓練到4 000步時達到穩(wěn)定狀態(tài),模型開始收斂.
圖6 學習率 圖7 測試集精確度Fig.6 Learning rate Fig.7 Test set accuracy
測試集的識別準確率如圖7所示,平均準確率為98.2%.這說明,矩陣膠囊網絡在皮膚病識別上的準確率較高,有很大的應用潛力.
F1指數(shù)是根據(jù)準確率和召回率給出的一種綜合評價,是兩者的調和均值.實驗采用F1指數(shù)作為模型性能的評價指標.
(10)
(11)
其中,P為準確率,R為召回率.TP表示真陽性,F(xiàn)P表示假陽性,F(xiàn)N表示假陰性.F1的計算公式如下:
(12)
實驗結果如表2所示.
表2 評價指標結果Tab.2 Evaluation index result
評價一個算法的優(yōu)異常常選用準確率,但在實際應用中很容易實現(xiàn)一個沒有用處的算法,所以選取了F1值來衡量本文的算法,通過引入召回率,也就是被正確識別出來的個體數(shù)與該數(shù)據(jù)集的總體數(shù)的比例.由表2可知該算法的準確率和召回率都較高,最終得到的F1值也較高,可見運用了矩陣膠囊網絡模型的穩(wěn)定性較高.
為了驗證本文模型的有效性和優(yōu)勢,選擇了卷積神經網絡的AlexNet、ResNet、VGGNet以及矩陣膠囊網絡等網絡在ISIC2017數(shù)據(jù)集上進行了對比實驗.
AlexNet發(fā)展了LeNet,在2012年的ILSVRC大賽上奠定了卷積神經網絡在計算機視覺領域的優(yōu)勢地位;VGG網絡在AlexNet的基礎上減小了卷積核的大小,提高了網絡的深度,使得VGGNet有更廣泛的應用;2015年ResNet被提出,通過提出殘差網絡結構有效地解決了隨著網絡層數(shù)增加而產生的梯度消失現(xiàn)象.這幾種網絡模型都是卷積神經網絡中有代表性的模型,本文也將通過與這幾種網絡結構的實驗結果進行對比.
首先,定義識別精度如下:
(13)
其中,Acc為模型的識別精度,α為top1預測正確數(shù),即數(shù)據(jù)集全部識別完成后得到的結果與數(shù)據(jù)集圖像本身標簽相同的圖像數(shù)量.β為測試圖像的總數(shù).
皮膚鏡圖像數(shù)據(jù)集在不同網絡模型上的分類結果如表3所示.從實驗結果可以得出以下結論:①AlexNet因網絡結構較為簡單所以耗時最短,占用內存最少,同時識別精度也較低;VGGNet通過小的卷積核的堆疊來替換大的卷積核的辦法來減少參數(shù)量,提高了其學習能力,獲得了較好的識別精度;ResNet的殘差網絡結構在VGGNet的基礎上進一步提高了識別精度,并且減少了所耗時長.② 在識別精度上,使用EM算法的矩陣膠囊網絡明顯高于其他網絡模型,證明了矩陣膠囊網絡在皮膚病識別領域的優(yōu)勢,同時也說明矩陣膠囊網絡在圖像識別領域中有更大的應用潛力.③VGGNet16、CapsNet和CapsNet(EM)三種網絡更耗時,尤其是CapsNet(EM),因此,如何降低矩陣膠囊網絡的耗費時長,提高網絡的效率成為進一步研究的一個方向.④ 從占用內存的情況來看,矩陣膠囊網絡占用更多的內存,比傳統(tǒng)的神經網絡模型有較大的差距,在以后的研究中應有所改進.
表3 不同模型上的分類結果Tab.3 Classification results on different models
主要研究了對黑色素瘤的分類識別模型,創(chuàng)新性的將矩陣膠囊網絡運用到皮膚病診斷領域,通過搭建訓練CapsNet(EM)網絡結構,在ISIC2017數(shù)據(jù)集上得到了較高的識別準確率,比傳統(tǒng)神經網絡模型準確率高,表明矩陣膠囊網絡在圖像的識別處理上更有潛力,同時實驗結果的識別準確率98.21%也明顯高于文獻[11]中使用向量膠囊網絡獲得的82.24%的識別準確率,可見矩陣膠囊網絡有著廣泛的應用空間,在一些對精度與準確性要求較高的領域也更有優(yōu)勢,具有更大的應用潛力與研究價值.