張海濤,劉景鑫,趙曉晴,胡笑含,李慧盈
1. 吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,吉林 長春 130012;2. 吉林大學(xué)中日聯(lián)誼醫(yī)院 放射線科,吉林 長春 130033;3. 吉林大學(xué)第一醫(yī)院 放射線科,吉林 長春 130021
臨床上,醫(yī)生會通過血常規(guī)中正常的白細(xì)胞與非正常的白細(xì)胞所占總細(xì)胞數(shù)量比例進(jìn)行判斷是否患病[1-2]。傳統(tǒng)診斷中,臨床上通過血常規(guī)檢查結(jié)果對患者是否患有白血病進(jìn)行人工判斷,通過血常規(guī)檢查可以了解到患者的血細(xì)胞數(shù)量是否處于正常數(shù)量[3-4]。純?nèi)斯さ姆绞?,費(fèi)時又費(fèi)力,故而當(dāng)前醫(yī)院中更為普遍的分類計(jì)數(shù)方式是通過借助自動血球計(jì)數(shù)儀集合血液圖片人工鏡下檢查進(jìn)行操作[5-6]。這種自動化血球計(jì)數(shù)儀的臨床應(yīng)用減輕了臨床檢驗(yàn)人員的勞動量,促進(jìn)了血液學(xué)實(shí)驗(yàn)室診斷和治療檢測水平的提高,但仍存在分類精度不夠高的問題,容易將形態(tài)差異較小的正常與非正常白細(xì)胞給區(qū)分錯[7-9]。
針對這種不足,醫(yī)學(xué)影像分類逐漸走向智能化處理,如傳統(tǒng)方法中使用FCM聚類算法[10],Mean-Shift聚類[11],決策樹算法[12],樸素貝葉斯分類器[13]、隨機(jī)森林算法[14]等方法對醫(yī)療影像進(jìn)行分類。傳統(tǒng)方法在對醫(yī)學(xué)影像進(jìn)行分類處理時一般具有魯棒性高、處理效率快、容易實(shí)現(xiàn)等特點(diǎn)。但是對于醫(yī)療影像中所表現(xiàn)出來全部的特征,傳統(tǒng)方法所獲取的并不多,故而對于醫(yī)療影像的處理逐漸走向利用神經(jīng)網(wǎng)絡(luò)去獲取圖像中高緯度的病理特征[15-16]?;谌斯ぶ悄艿姆椒芨玫貙W(xué)習(xí)醫(yī)療圖像中所蘊(yùn)含的信息,其中有使用PCA(主成分分析)和LVQ(學(xué)習(xí)矢量量化)神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法[16],前饋反向傳播神經(jīng)網(wǎng)絡(luò)的方法[17],使用ResNet V1 50,ResNet V1 152和ResNet 101[18]進(jìn)行分類的方法,以及以AlexNet和LeNet為網(wǎng)絡(luò)原型構(gòu)建CNN訓(xùn)練平臺,對LeNet網(wǎng)絡(luò)進(jìn)行刪減優(yōu)化,獲得一輕量高效的新結(jié)構(gòu)——CCNet的方法[19]。這些基于人工智能的方法更有利于學(xué)習(xí)圖像的特征,并且能大幅度地提高分類準(zhǔn)確率,在計(jì)算機(jī)圖像分類領(lǐng)域中已經(jīng)得到了廣泛的應(yīng)用。
因此,本文引入此思想對白細(xì)胞進(jìn)行分類,利用VGG16卷積神經(jīng)網(wǎng)絡(luò)針對急性淋巴細(xì)胞白血?。ˋcute Lymphoblastic Leukemia,ALL)患者的血液細(xì)胞顯微圖像進(jìn)行輔助分析,分類出白細(xì)胞是否為患病細(xì)胞。本文中從基于像素的角度分類識別出不同顯微圖像中的紋理特征,不僅能在一定程度上極大的節(jié)省人力的投入,而且能為醫(yī)護(hù)人員提供更高準(zhǔn)確率的分類結(jié)果[20-21]。通過實(shí)驗(yàn)發(fā)現(xiàn),相對于其他的方法,基于VGG16的網(wǎng)絡(luò)模型能更好地學(xué)習(xí)小樣本量的數(shù)據(jù),并在一定時間內(nèi)較快地收斂,大大減少了實(shí)驗(yàn)的資源開支。
由于受到醫(yī)療成像設(shè)備的影響,故而對于所采集到的數(shù)據(jù)會和實(shí)際試驗(yàn)中所需要的樣本有所不一致,故而針對這種情況,本研究中將整個實(shí)驗(yàn)給分為了兩部分,分別是:數(shù)據(jù)預(yù)處理階段和VGG16卷積神經(jīng)網(wǎng)絡(luò)分類識別階段。
在數(shù)據(jù)預(yù)處理階段,我們一共完成了兩項(xiàng)工作,分別是將RGB,即紅(Red)綠(Green)藍(lán)(Blue)顏色空間映射到HSV顏色空間和目標(biāo)區(qū)域的提取。其中顏色空間的映射轉(zhuǎn)換目的是為了提高處理時的敏感程度,而目標(biāo)區(qū)域的提取則是為了盡可能地排除白細(xì)胞以外的各種非目標(biāo)區(qū)域的影響從而保證分類識別的高效性。
1.1.1 圖像色彩空間轉(zhuǎn)換
一般情況下,圖像的顏色空間都是RGB模型,一般以一種三維坐標(biāo)的模型形式表示,圖1顯示出了RGB模型。HSV既色調(diào)(H:hue),飽和度(S:saturation),亮度(V:value),由A.R. Smith在1978年創(chuàng)建的一種顏色空間,也稱六角錐體模型(Hexcone Model)。其中 H:用角度度量,取值范圍為 0°~360°,從紅色開始按逆時針方向計(jì)算,紅色為0°,綠色為120°,藍(lán)色為240°。它們的補(bǔ)色是:黃色為60°,青色為180°,品紅為300°;S:取值范圍為0.0~1.0,值越大,顏色越飽和;V:取值范圍為0(黑色)~255(白色),如圖2所示。
圖1 RGB顏色模型
圖2 HSV顏色模型
由于RGB是加法原色模型,以原色組合的方式定義顏色,而HSV以人類更熟悉的方式封裝關(guān)于顏色的信息,例如:什么顏色?顏色深淺度多少?明暗程度如何等,故而在計(jì)算機(jī)圖形應(yīng)用處理中更多地采用HSV模型,從而需要將一般的RGB圖像給映射到HSV空間上。其映射計(jì)算公式如(1)~(3)所示:
其中max等價于r,g和b中的最大者,而min等于這些值中的最小者。
1.1.2 目標(biāo)區(qū)域提取
由于原始細(xì)胞圖像中所含有的背景等無關(guān)信息較多,為了更好地提取白細(xì)胞的特征,而避免無關(guān)因素的干擾,從而在此部分完成白細(xì)胞目標(biāo)區(qū)域提取的功能。采用超像素的思想標(biāo)記出ALL血液細(xì)胞的輪廓圖,再根據(jù)所標(biāo)記的輪廓將原始圖像進(jìn)行分割從而得到目標(biāo)影像圖,操作示意過程,如圖3所示。
圖3 ALL血液細(xì)胞目標(biāo)區(qū)域提取
在完成目標(biāo)區(qū)域的提取后,在對神經(jīng)網(wǎng)絡(luò)進(jìn)行輸入前還需要對數(shù)據(jù)進(jìn)行歸一化處理,是預(yù)處理模塊中的一項(xiàng)基本且必不可少的工作。由于原始數(shù)據(jù)集中的不同特征往往具有不同的量綱單位,或是數(shù)據(jù)的值域區(qū)別較大。在這樣的情況下,數(shù)據(jù)值將會對數(shù)據(jù)分析的結(jié)果產(chǎn)生較大影響。而對數(shù)據(jù)進(jìn)行歸一化處理,能在一定程度上消除特征之間量綱和取值范圍的影響,從而解決數(shù)據(jù)特征之間的可比性。歸一化公式如下:
牛津大學(xué)在2014年提出來了VGG卷積神經(jīng)網(wǎng)絡(luò)的模型。當(dāng)這個模型被提出時,由于它的簡潔性和實(shí)用性,馬上成為當(dāng)時最流行的卷積神經(jīng)網(wǎng)絡(luò)模型。該網(wǎng)絡(luò)模型在圖像分類和目標(biāo)檢測任務(wù)中都表現(xiàn)出非常好的結(jié)果。而在其變形中VGG16的表現(xiàn)又尤為突出,故而本文采用VGG16卷積神經(jīng)網(wǎng)絡(luò)模型。
1.2.1 VGG16卷積神經(jīng)網(wǎng)絡(luò)模型
VGG網(wǎng)絡(luò)是卷積神經(jīng)網(wǎng)絡(luò)的一種,探索了卷積神經(jīng)網(wǎng)絡(luò)的深度與其性能之間的關(guān)系,通過反復(fù)堆疊3×3的小型卷積核和2×2的最大池化層,VGG Net成功地構(gòu)筑了16/19層深的卷積神經(jīng)網(wǎng)絡(luò),本系統(tǒng)中采用的是VGG16網(wǎng)絡(luò)模型,其中16表示除pooling layer(池化層)外使用conv layer(卷積層)的層數(shù)(圖4)。其主要擁有的特點(diǎn)有:① 將卷積層提升到卷積塊的概念:卷積塊有2~3個卷積層構(gòu)成,使網(wǎng)絡(luò)有更大感受野的同時能降低網(wǎng)絡(luò)參數(shù),同時多次使用ReLu激活函數(shù)有更多的線性變換,學(xué)習(xí)能力更強(qiáng);② 在訓(xùn)練時和預(yù)測時使用Multi-Scale做數(shù)據(jù)增強(qiáng):訓(xùn)練時將同一張圖片縮放到不同的尺寸,在隨機(jī)剪裁到224×224的大小,能夠增加數(shù)據(jù)量。預(yù)測時將同一張圖片縮放到不同尺寸做預(yù)測,最后取平均值。
圖4 VGG16卷積神經(jīng)網(wǎng)絡(luò)宏架構(gòu)圖
1.2.2 模型優(yōu)化算法
卷積神經(jīng)網(wǎng)絡(luò)中有許多優(yōu)化算法,其中比較常用的就是梯度下降優(yōu)化算法。本文采用的則是隨機(jī)梯度下降算法(Stochastic Gradient Descent,SGD),其具有的優(yōu)點(diǎn)有:每次更新時對每個樣本進(jìn)行梯度更新,速度快,可以隨時增加新的樣本相對于非隨機(jī)算法,SGD能更有效地利用信息,特別是信息比較冗余的時候,計(jì)算公式為:
在深度學(xué)習(xí)模型訓(xùn)練完成后,需要對其正確率以及損失值進(jìn)行評估。本系統(tǒng)中損失函數(shù)的計(jì)算采用log對數(shù)損失函數(shù)(邏輯回歸),其計(jì)算過程如下,
本文所使用的數(shù)據(jù)是由意大利米蘭大學(xué)提供的公開血液樣本顯微圖像數(shù)據(jù)集——ALL_IDB2[22]。該數(shù)據(jù)集由2005年9月收集的108幅圖像組成,約包含39000個血液元素,重點(diǎn)針對ALL,用于評估和比較圖像分割和分類算法。
對于數(shù)據(jù)集中的每個圖像,都是使用光學(xué)實(shí)驗(yàn)室顯微鏡和佳能PowerShot G5相機(jī),在300至500的不同放大倍率下拍攝的,所有圖像均為TIF格式,分辨率2592×1944。數(shù)據(jù)集中部分樣本圖,見圖5。
圖5 ALL_IDB2中部分白細(xì)胞顯微圖像
從原始數(shù)據(jù)圖中我們不難發(fā)現(xiàn),圖片里不僅含有我們所需要的白細(xì)胞區(qū)域,同時還帶有大量我們所不需要的背景信息,故而在2.1.2的目標(biāo)區(qū)域提取部分我們引入了超像素的思想對目標(biāo)區(qū)域進(jìn)行了提?。▓D3)。
使用“ALL_IDB2”數(shù)據(jù)集進(jìn)行訓(xùn)練和驗(yàn)證(其中訓(xùn)練集和驗(yàn)證集的比例為8:2),從準(zhǔn)確率和損失函數(shù)值兩個方面給出測試結(jié)果,表2顯示了100輪迭代后的最終準(zhǔn)確率和損失值,圖6和圖7分別展示了100輪迭代訓(xùn)練集和驗(yàn)證集準(zhǔn)確率和損失值的變化圖。
表2 100輪迭代的準(zhǔn)確率和損失值
圖6 100輪迭代準(zhǔn)確率變化對比圖
通過圖6和圖7可以看到本文所采用的VGG16卷積神經(jīng)網(wǎng)絡(luò)模型在100輪較小的迭代次數(shù)中很好地“學(xué)習(xí)”到了ALL血液細(xì)胞顯微白細(xì)胞圖像的特征,在訓(xùn)練集和驗(yàn)證集上分別達(dá)到了98.79%和98.05%的高準(zhǔn)確率,以及0.1767和0.5020的低損失值,這很好地說明了VGG16卷積神經(jīng)網(wǎng)絡(luò)模型能分類出ALL患者的血液細(xì)胞是否為患病細(xì)胞。
圖7 100輪迭代損失值變化對比圖
本文將人工智能的思想應(yīng)用到了醫(yī)學(xué)輔助診斷當(dāng)中,提出了一種基于VGG16卷積神經(jīng)網(wǎng)絡(luò)的ALL血液細(xì)胞顯微圖像分類的方法。針對所獲取的較小樣本量(一共260張?jiān)瓨颖緢D像)的數(shù)據(jù)集,我們將傳統(tǒng)方法中超像素的思想應(yīng)用到了數(shù)據(jù)預(yù)處理當(dāng)中,為后面卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練輸入打下了更好的基礎(chǔ),相對于Othman等[23]在2017年利用前饋反向傳播神經(jīng)網(wǎng)絡(luò)對五類白細(xì)胞進(jìn)行分類,在試驗(yàn)中他們首先將原始的白細(xì)胞顯微圖像進(jìn)行分割得到含有16個主要特征點(diǎn)的100張細(xì)胞圖像,再將其作為輸入對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最后的平均準(zhǔn)確率達(dá)到了96%,我們所提出的基于VGG16的深度學(xué)習(xí)模型具有更高的分類準(zhǔn)確率。而在相比于Habibzadeh等[18]通過計(jì)算機(jī)輔助診斷(CAD)系統(tǒng)和血液學(xué)規(guī)則來評估白細(xì)胞差異計(jì)數(shù),使用了ResNet V1 50,ResNet V1 152和ResNet 101分別對四類主要的白細(xì)胞(中性粒細(xì)胞,嗜酸性粒細(xì)胞,淋巴細(xì)胞和單核細(xì)胞)進(jìn)行分類,以及中國科學(xué)技術(shù)大學(xué)和解放軍福州總醫(yī)院全軍檢驗(yàn)醫(yī)學(xué)研究所則提出了“基于卷積神經(jīng)網(wǎng)絡(luò)的外周血白細(xì)胞分類”的方法[19],雖然我們平均準(zhǔn)確率相比較他們的實(shí)驗(yàn)結(jié)果分別差了1.65%和1.37%的精度,但是在時間消耗上我們卻在更短的時間內(nèi)實(shí)現(xiàn)了收斂。我們下一步的工作則是對于不同深度學(xué)習(xí)網(wǎng)絡(luò)的比較,同時進(jìn)一步做出對于深度學(xué)習(xí)模型的改進(jìn)研究,旨在將白細(xì)胞的分類研究在保證低消耗的同時又能保證高的分類準(zhǔn)確率。
醫(yī)學(xué)圖像高速準(zhǔn)確的分類對于醫(yī)療臨床診斷與精準(zhǔn)治療有著重要的影響,有必要將先進(jìn)的計(jì)算機(jī)計(jì)算技術(shù)與具體的臨床醫(yī)療和學(xué)術(shù)研究相結(jié)合起來,高效的人工智能圖像分類技術(shù)能極大程度的幫助醫(yī)生實(shí)現(xiàn)病灶區(qū)域的判斷,進(jìn)一步節(jié)省了大量的人力工作。未來的醫(yī)學(xué)影像分類應(yīng)當(dāng)朝著一種更加智能化,高效化的方向發(fā)展,在充分利用計(jì)算機(jī)性能的同時也應(yīng)更好的結(jié)合醫(yī)學(xué)領(lǐng)域中的先驗(yàn)知識,發(fā)展出更新的技術(shù),更好地為醫(yī)療影像分類所服務(wù)。