王 恒,李 霞,沈 茜,徐文龍
(中國計量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)
根據(jù)世界衛(wèi)生組織(WHO)的世界癌癥報告[1],乳腺癌是最常見的癌癥之一。全世界婦女的高發(fā)病率和死亡率患者中乳腺癌患者占25.2%,在女性患者中排名第一,發(fā)病率為14.7%。癌癥的早確診對于病患及時得到治療意義重大。癌癥病理圖像是確診癌癥的金標(biāo)準(zhǔn),病理圖像中包含了大量的特征信息,使得病理圖像的準(zhǔn)確分類識別具有重要的研究價值。
隨著人工智能技術(shù)的發(fā)展,科研人員對于醫(yī)學(xué)圖像的識別分類做了大量的針對性研究[2-3]。在機(jī)器學(xué)習(xí)研究領(lǐng)域,基于人工對病理圖像提取的圖像形狀和紋理特征,WANG等人[4]使用支持向量機(jī)(SVM)分類準(zhǔn)確率為96.19%,但只是操作68幅圖像。ZHANG等人[5]在361幅圖像上達(dá)到92%的精度,使用到PCA方法和人工設(shè)計特征。2015年,SPANHOL等人[6]發(fā)布了BreaKHis數(shù)據(jù)集,設(shè)計提取出6種特征描述子,并使用三種機(jī)器學(xué)習(xí)算法進(jìn)行研究,達(dá)到80%-85%的識別率。由上可知,機(jī)器學(xué)習(xí)對病理圖像的研究中存在公開標(biāo)記數(shù)據(jù)集少、特征的設(shè)計和提取難度大、領(lǐng)域?qū)I(yè)技能需求高等難題,嚴(yán)重阻礙了CAD在臨床中的應(yīng)用。
深度學(xué)習(xí)技術(shù)通過深層非線性網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)低層特征,并將底層特征組合成抽象成如屬性類別或特征等深層表示,可以學(xué)習(xí)到數(shù)據(jù)集的本質(zhì)特征[7]。同時自動化了提取特征環(huán)節(jié),有效避免了傳統(tǒng)機(jī)器學(xué)習(xí)的人工設(shè)計或者提取特征的復(fù)雜工作。深度學(xué)習(xí)在語音識別、計算機(jī)視覺、自然語言處理等領(lǐng)域發(fā)揮越來越大的作用[8-10],同樣深度學(xué)習(xí)在醫(yī)學(xué)圖像領(lǐng)域也取得了不俗的成果[11-12]。學(xué)者們在深度學(xué)習(xí)領(lǐng)域針對BreaKHis數(shù)據(jù)集進(jìn)行了探討:SPANHOL等人[13]使用AlexNet網(wǎng)絡(luò),識別率比文獻(xiàn)[6]中高出6%;BAYRAMOGLU等人[14]采用的是基于放大倍數(shù)獨(dú)立CNN方法,取得約83%的準(zhǔn)確率,但仍不足以用于臨床;WEI等人[15]取得97%的分類正確率,使用類和子類的乳腺癌標(biāo)簽作為先驗知識,以GoogleNet為基礎(chǔ)框架,但是該方法計算量大、訓(xùn)練時間消耗過長。以上問題的存在使得CAD進(jìn)一步受阻。
針對傳統(tǒng)機(jī)器學(xué)習(xí)性能不足、公開標(biāo)記的醫(yī)學(xué)圖像數(shù)據(jù)集較少的難題,本研究通過深度學(xué)習(xí)技術(shù),構(gòu)建病理圖像癌癥識別模型,使用遷移學(xué)習(xí)的手段,避免了過擬合問題的出現(xiàn)。同時,使用新穎的AA增強(qiáng)手段,將數(shù)據(jù)增強(qiáng)自動化,選取適應(yīng)于數(shù)據(jù)集的特定增強(qiáng)策略,提高了數(shù)據(jù)的多樣性,有效提升了模型的識別性能,提出了基于AutoAugment和殘差網(wǎng)絡(luò)的乳腺癌病理圖像分類模型,實現(xiàn)對病理圖像的高精度識別分類。
本文結(jié)合深度學(xué)習(xí)的前沿技術(shù)以及病理圖像的研究現(xiàn)狀,提出基于AutoAugment和殘差網(wǎng)絡(luò)的乳腺癌病理圖像分類模型,達(dá)到高精度的識別病理圖像,有效避免傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中的問題。該模型主要分為遷移學(xué)習(xí)[16]、目標(biāo)數(shù)據(jù)的手動增強(qiáng)和AA增強(qiáng)擴(kuò)充、目標(biāo)數(shù)據(jù)的微調(diào)訓(xùn)練等三個主要內(nèi)容,模型流程圖如圖1。
圖1 模型流程圖Figure 1 Flow chart of model
首先遷移學(xué)習(xí)將用源數(shù)據(jù)上預(yù)訓(xùn)練得到的模型權(quán)重參數(shù)初始化模型的殘差網(wǎng)絡(luò)層。然后使用AA手段得到的增強(qiáng)策略和傳統(tǒng)的增強(qiáng)策略分別對訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)充,并使用這兩個數(shù)據(jù)集分別進(jìn)行微調(diào)訓(xùn)練得到兩個相應(yīng)的最終模型,最后在測試集上對比檢驗?zāi)P偷男阅?,以驗證得到的模型是否達(dá)到滿足臨床使用的高精度要求。下文將對上述內(nèi)容中的技術(shù)原理進(jìn)行詳細(xì)介紹。
殘差網(wǎng)絡(luò)(Residual network, ResNet)可以說是過去幾年中計算機(jī)視覺領(lǐng)域最具開創(chuàng)性的工作之一。由于殘差網(wǎng)絡(luò)強(qiáng)大的表征能力,除了圖像分類外,在機(jī)器視覺其他任務(wù)(例如:目標(biāo)檢測、人臉識別等)中都取得了不同程度的性能提升。
當(dāng)神經(jīng)網(wǎng)絡(luò)中的層數(shù)及每層的神經(jīng)元個數(shù)合適,構(gòu)建的模型就有能力逼近任何的函數(shù)。而當(dāng)整個深度神經(jīng)網(wǎng)絡(luò)模型規(guī)模特別大或所擬合的函數(shù)十分復(fù)雜的時候,在所提供的數(shù)據(jù)下進(jìn)行模型訓(xùn)練就很容易造成網(wǎng)絡(luò)退化,最終導(dǎo)致模型性能表現(xiàn)較差。并且,當(dāng)深度神經(jīng)網(wǎng)絡(luò)模型簡單地通過層與層的堆疊達(dá)到一定的深度,梯度消失的問題往往就會出現(xiàn)在模型訓(xùn)練過程中。此時,傳統(tǒng)的技術(shù)手段如(batch normlization)正則化[17]就不能有效解決問題,導(dǎo)致的后果就是模型訓(xùn)練困難。而殘差網(wǎng)絡(luò)就可以有效解決以上模型設(shè)計和模型訓(xùn)練過程中可能存在的問題,殘差網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 殘差塊結(jié)構(gòu)圖Figure 2 Structure of residual block
從圖2中可以看到,殘差網(wǎng)絡(luò)有別于普通的深度神經(jīng)網(wǎng)絡(luò)之處在于,其引入了恒等快捷連接的操作,此處為方便介紹,將卷積層替換為全連接層。用數(shù)學(xué)語言描述殘差網(wǎng)絡(luò)可以更好的解釋恒等快捷連接操作的過程,數(shù)學(xué)公式為
(1)
深度神經(jīng)網(wǎng)絡(luò)想要達(dá)到較好的性能,通常需要海量數(shù)據(jù)支持。然而數(shù)據(jù)的收集和標(biāo)記通常需要耗費(fèi)很大的人力物力,特別是對于一些需要專業(yè)技術(shù)人員才能標(biāo)記的數(shù)據(jù),更是很難獲得。為解決這一難題,傳統(tǒng)的做法是對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)擴(kuò)充,如采取鏡像、旋轉(zhuǎn)、剪切和縮放等手段進(jìn)行處理。而這種數(shù)據(jù)增強(qiáng)的目的主要是讓模型學(xué)會數(shù)據(jù)中的不變性,盡管也可以通過將這種不變性硬編碼在神經(jīng)網(wǎng)絡(luò)中,如卷積神經(jīng)網(wǎng)絡(luò)擁有平移不變性,但相對于前者,這種將不變性硬編碼到網(wǎng)絡(luò)結(jié)構(gòu)中的手段要更加復(fù)雜。
計算機(jī)視覺領(lǐng)域的絕大多數(shù)工作是在設(shè)計更好的網(wǎng)絡(luò)架構(gòu)[19-20], 如加深、加寬以及加復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)。相比之下,尋找更好的數(shù)據(jù)增強(qiáng)方法使數(shù)據(jù)包含更多不變性卻很少有人去探索。目前常用的數(shù)據(jù)增強(qiáng)手段相對于2012年在ImageNet比賽中推出的數(shù)據(jù)增強(qiáng)方法僅有很小的變化,但是這一通用的數(shù)據(jù)增強(qiáng)手段并不一定適應(yīng)于所有類型的數(shù)據(jù)集,這是因為不同的數(shù)據(jù)集存在不同的對稱性要求。例如對圖像進(jìn)行水平翻轉(zhuǎn)這一數(shù)據(jù)增強(qiáng)策略對于cifar-10數(shù)據(jù)集有效,但是對于mnist數(shù)據(jù)集并不能提升模型的性能。所以尋找一種針對不同數(shù)據(jù)集能自動搜索特定數(shù)據(jù)增強(qiáng)策略的技術(shù)手段,是提升模型性能新的途徑和方法。AutoAugment是由谷歌大腦提出的一種自動搜索合適數(shù)據(jù)增強(qiáng)策略的方法[21],它的基本思路:使用增強(qiáng)學(xué)習(xí)從數(shù)據(jù)本身出發(fā),在數(shù)據(jù)增強(qiáng)策略搜索空間內(nèi)尋找最佳圖像變換策略,對于不同的任務(wù)學(xué)習(xí)不同的增強(qiáng)方法。在搜索空間中,一個策略由5個子策略組成,每個子策略由兩個按順序執(zhí)行的圖像操作組成,每個操作還與執(zhí)行操作的概率和幅度兩個超參數(shù)有關(guān)。本文實驗中使用的操作大多來自PIL(Python Image Library)。本文搜索的操作有16個, 每個操作還帶有默認(rèn)的幅度范圍,具體如表1。
表1 16種操作的幅度范圍和簡介Table 1 Range and introduction of 16 operations
實驗中將幅度范圍和操作應(yīng)用的概率分別均勻間隔離散為10和11個值以便使用離散搜索算法來查找它們,因此尋找每個對應(yīng)子策略成為了(16×10×11)2種可能的空間中的搜索問題。為增加多樣性,要同時找到5個這樣的子策略, 此時搜索空間則具有(16×10×11)10種可能。使用基于強(qiáng)化學(xué)習(xí)的搜索算法,該算法由控制器(一個遞歸神經(jīng)網(wǎng)絡(luò))和訓(xùn)練算法PPO(Proximal Policy Optimization)[24]兩部分組成。每一步操作中,控制器對softmax輸出的結(jié)果預(yù)測產(chǎn)生決策(特征向量),然后將決策作為下一步操作的嵌入向量??刂破鲹碛?0個softmax來分別預(yù)測5個子策略的決策,每個子策略又具有2個操作,而每個操作又需要操作類型、幅度和概率3個參數(shù)。策略的搜索過程如圖3。
圖3中控制器通過獎勵信號和PPO算法進(jìn)行訓(xùn)練優(yōu)化,獎勵信號定義為某個策略對于原始模型泛化能力的優(yōu)化程度,這里的原始模型是用于評價增強(qiáng)策略的神經(jīng)網(wǎng)絡(luò)??刂破鞲鶕?jù)獎勵信號選擇出新的策略,對數(shù)據(jù)進(jìn)行增強(qiáng)擴(kuò)充訓(xùn)練原始模型,循環(huán)執(zhí)行上述操作到一定批次或達(dá)到一定要求時即可。尋找增強(qiáng)策略的整個過程的具體步驟如下:
圖3 搜索算法的工作過程Figure 3 Working process of the search algorithm
步驟1:數(shù)據(jù)增強(qiáng)操作的準(zhǔn)備。選取常用的16個數(shù)據(jù)增強(qiáng)操作作為最佳策略的基本子操作。
步驟2:選取子策略。從16個基本操作中隨機(jī)選取5個操作,以及使用他們的概率和幅度,將其稱為一個策略,也就是包含5個子策略。
步驟3:針對每一個批次中的每一張圖片,隨機(jī)采用5個子策略操作中的一種對其進(jìn)行操作。
步驟4:通過原始模型在驗證集上的泛化能力來反饋,使用基于增強(qiáng)學(xué)習(xí)的搜索算法。經(jīng)過80~100個輪次后開始有效果,能學(xué)習(xí)到子策略。
步驟5:以模型在測試集上的預(yù)測正確率為衡量標(biāo)準(zhǔn),選取使模型表現(xiàn)最好的5個策略,并串接這5個策略,構(gòu)成包含25個子策略的最終策略。
在搜索結(jié)束時,選取5個表現(xiàn)最佳的策略,合并為單個策略,這個最終的策略包含25個子策略。該最終策略中的25個子策略中的每一個都是一個增強(qiáng)策略,每個增強(qiáng)策略包含兩個操作,每個操作又與兩個參數(shù)相關(guān),調(diào)用操作的概率和操作幅度。這里需要注意的是調(diào)用操作的概率和操作的幅度這兩個參數(shù),因為調(diào)用操作存在概率,因此有一定可能不會在該批次中應(yīng)用該操作。但是如果應(yīng)用,則操作固定大小。這個最終的策略將被用于增強(qiáng)訓(xùn)練數(shù)據(jù)集,并用增強(qiáng)擴(kuò)充的訓(xùn)練數(shù)據(jù)集訓(xùn)練產(chǎn)生最終模型。
實驗中選取的數(shù)據(jù)集是BreaKHis,它是由Spanhol等人和P&D實驗室(Pathological Anatomy and Cytopathology)于2015制作發(fā)布。BreaKHis數(shù)據(jù)集圖像數(shù)據(jù)固定大小為460×700像素,模式為RGB三通道圖像。數(shù)據(jù)集的各類分布如表2。
表2 數(shù)據(jù)集的具體分布情況Table 2 Specific distribution of data sets
本實驗將數(shù)據(jù)集按照數(shù)量6∶2∶2劃分為訓(xùn)練集、驗證集和測試集三個部分,且保證了三個數(shù)據(jù)集具有相同的分布。對于訓(xùn)練集,在實驗過程中采用兩種增強(qiáng)擴(kuò)充手段對數(shù)據(jù)進(jìn)行擴(kuò)充,即分別是傳統(tǒng)手動數(shù)據(jù)增強(qiáng)和AA數(shù)據(jù)增強(qiáng)。其中手動數(shù)據(jù)增強(qiáng)主要使用的是水平或豎直鏡像、旋轉(zhuǎn)一定的角度90°/180°/270°、縮放一定比例以及這些方法的組合操作將訓(xùn)練數(shù)據(jù)擴(kuò)充為原來的12倍,近6萬張圖片,而為保證模型對真實數(shù)據(jù)的識別能力,實驗中對驗證集和測試集沒有采取數(shù)據(jù)增強(qiáng)擴(kuò)充操作。
本文中AA策略是在訓(xùn)練集數(shù)據(jù)上搜索,對于搜索策略過程中的原始模型的選取,在文獻(xiàn)[21]中Ekin等人選擇小型的網(wǎng)絡(luò)實現(xiàn)策略的驗證和搜索,如選取使用Wide-ResNet-40-2(40層,擴(kuò)展因子2)作為原始模型,然后在其他更加復(fù)雜的、類型不同的網(wǎng)絡(luò)上如Shake-Shake上使用搜索到的策略,模型的性能仍然得到提升。說明子模型類型選取不會影響最終策略的有效性。本文出于計算成本的考慮,選擇使用小型AlexNet模型作為原始模型。設(shè)定訓(xùn)練120輪,學(xué)習(xí)率為0.01,權(quán)重衰減是10-4。由1.2節(jié)中我們得知,搜索到的最終策略是將將5個最佳策略的子策略連接起來,形成具有25個子策略的單個策略。搜索得到的具有25個子策略的單個策略部分子策略如表3。
表3 具有25個子策略的單個策略Table 3 Single strategy with 25 sub-policies
圖4 搜索策略增強(qiáng)后的圖像Figure 4 Search strategy enhanced image
本實驗中使用基于圖像級別的正確率Iacc和病人級別的正確率Pacc,以及Sensitive(靈敏度)作為模型的評價指標(biāo)。假定所有的驗證圖像數(shù)目為Nall,正確分類的圖像數(shù)目為Nri,則圖像級別的表達(dá)式為:
(2)
假定Np代表病人數(shù),Nrp代表某一病人的病理圖像被正確分類的數(shù)目,Nallp代表該病人的所有病理圖像數(shù)目,則病人級別的正確率表達(dá)式為:
(3)
(4)
正確率的值越大,就代表模型的識別率越高,模型的性能就越好。
同時,本文將選擇靈敏度來評價模型對患者惡性腫瘤不漏查這一能力。假設(shè)Nmag代表測試樣本中惡性腫瘤的數(shù)目,Nrm代表被正確預(yù)測的惡性腫瘤數(shù)目,則靈敏度的表達(dá)式為:
(5)
靈敏度的值越大,就代表模型的漏查率越低,模型的性能就越好。
為增加實驗結(jié)果的對比性,本文中將訓(xùn)練三個模型在測試集測試模型性能,并且三個模型使用的是同一網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)設(shè)置。三個模型分別是在未進(jìn)行數(shù)據(jù)增強(qiáng)擴(kuò)充(no aug)的原始數(shù)據(jù)集上訓(xùn)練的模型、手動數(shù)據(jù)擴(kuò)充(hand aug)數(shù)據(jù)訓(xùn)練得到的模型以及自動擴(kuò)充策略AA擴(kuò)充(AA aug)得到的數(shù)據(jù)訓(xùn)練得到的模型。得到的三個模型隨訓(xùn)練的輪次正確率和損失曲線如圖5。
圖5 增強(qiáng)手段對模型性能的影響對比Figure 5 Comparison of the effects of enhancement methods on model performance
由圖5(a)可知模型在未進(jìn)行數(shù)據(jù)增強(qiáng)的數(shù)據(jù)集上進(jìn)行訓(xùn)練時,可以看到模型在訓(xùn)練達(dá)到100批次左右時即開始最先收斂,但是由于樣本量的不足,該模型的精度屬于最低的。而進(jìn)行了數(shù)據(jù)擴(kuò)充的數(shù)據(jù)集則在性能上均有所提升,其中進(jìn)行AA增強(qiáng)在測試集上的表現(xiàn)相對于相對于未增強(qiáng)擴(kuò)充的模型,識別正確率提高了約1.5個百分點,達(dá)到98.94%的精度;相對于手動數(shù)據(jù)增強(qiáng)的模型,提高了0.8個百分點。由圖5(b)可知AA增強(qiáng)對應(yīng)的模型具有最低的損失誤差,具有最好的性能。
為進(jìn)一步證明本實驗方法的有效性,選擇其他方法與本文方法在BreakHis上基于正確率指標(biāo)進(jìn)行比較,表4為實驗對比結(jié)果。
由表4可知,本文方法相對于其他算法,具有精度高、特征提取便捷等優(yōu)點。表明本文模型在提取到的圖像特征更具有表達(dá)性,使得模型的識別率更高。
表4 不同算法在BreaKHis數(shù)據(jù)集的表現(xiàn)Table 4 Performance of different algorithms in the BreaKHis dataset
對于三個模型在靈敏度指標(biāo)的對比結(jié)果,如圖6。
圖6 三個模型在靈敏度指標(biāo)的對比結(jié)果Figure 6 Comparison of the sensitivity of the three models in the model
在圖6中,橫坐標(biāo)依次對應(yīng)的是未進(jìn)行擴(kuò)充、手動擴(kuò)充、AA擴(kuò)充對應(yīng)的模型,縱坐標(biāo)代表三個模型的靈敏度的百分比。由圖6可知,針對測試集中的惡性腫瘤樣本,AA模型的靈敏度相對于未進(jìn)行擴(kuò)充的模型和手動增強(qiáng)的模型靈敏度均有提升,實驗結(jié)果表明,使用AA增強(qiáng)使得模型對于惡性腫瘤的識別靈敏度得到提升。
綜合以上對比實驗結(jié)果,證明了AA增強(qiáng)策略下的模型具有更好的泛化能力、分類正確率和識別靈敏度。同時也說明AA增強(qiáng)對于模型性能的提升具有很好的幫助,從而為醫(yī)療圖像識別系統(tǒng)模型的性能提升提供了新的途徑和方法。
本文結(jié)合深度學(xué)習(xí)的前沿技術(shù)以及病理圖像的研究現(xiàn)狀,提出基于AutoAugment和殘差網(wǎng)絡(luò)的乳腺癌病理圖像分類模型,實現(xiàn)對病理圖像的高精度識別分類。針對公開標(biāo)記的醫(yī)學(xué)圖像數(shù)據(jù)集較少的難題,本文使用遷移學(xué)習(xí)的手段,避免了過擬合問題的出現(xiàn)。同時,使用新穎的AA增強(qiáng)手段,將數(shù)據(jù)增強(qiáng)自動化,選取適應(yīng)于數(shù)據(jù)集的特定增強(qiáng)策略,提高了數(shù)據(jù)的多樣性,有效提升了模型的識別性能。針對網(wǎng)絡(luò)深度過大而帶來的網(wǎng)絡(luò)退化等問題,本文選取殘差網(wǎng)絡(luò)進(jìn)行解決。本模型具有精度更高、收斂快、易泛化等優(yōu)點,從而為數(shù)據(jù)的擴(kuò)充提供了新的技術(shù)方法,為提高模型識別性能提供新的技術(shù)手段,為早期發(fā)現(xiàn)與早期治療乳腺癌做了有效指導(dǎo),同時也為CAD應(yīng)用于實際臨床醫(yī)療診斷做了可行性論證。