尹 馨, 焦 娟, 常志紅, 夏迎龍, 劉 杰, 關(guān)坤萍
(1. 山西醫(yī)科大學(xué) 公共衛(wèi)生學(xué)院, 山西 太原, 030001;2. 中國(guó)人民解放軍總醫(yī)院第七醫(yī)學(xué)中心 檢驗(yàn)科, 北京, 100700;3. 山西醫(yī)科大學(xué)第二醫(yī)院 檢驗(yàn)科, 山西 太原, 030001)
外周血細(xì)胞形態(tài)學(xué)檢查對(duì)于疾病的臨床診斷至關(guān)重要[1], 其中人工鏡檢法主要依靠檢驗(yàn)人員,不僅耗時(shí)耗力,而且準(zhǔn)確率欠佳,容易誤診或漏診。因此,外周血細(xì)胞的自動(dòng)化分類問(wèn)題亟待解決[2]。自動(dòng)化分類主要依靠深度學(xué)習(xí)實(shí)現(xiàn)[3], 而計(jì)算機(jī)視覺(jué)是深度學(xué)習(xí)的熱門(mén)研究領(lǐng)域。近年來(lái), Transformer模型已經(jīng)從自然語(yǔ)言處理領(lǐng)域轉(zhuǎn)至計(jì)算機(jī)視覺(jué)領(lǐng)域,包括2020年提出的Vision Transformer模型和2021年提出的Swin Transformer模型。目前,大多數(shù)外周血白細(xì)胞分類相關(guān)研究均依靠卷積神經(jīng)網(wǎng)絡(luò),其不足之處在于僅通過(guò)1個(gè)卷積核提取局部特征,而Transformer模型則是通過(guò)注意機(jī)制學(xué)習(xí)整個(gè)圖像的特征[4]。鑒于此,本研究基于Swin Transformer模型進(jìn)行白細(xì)胞分類,并與經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型ResNet進(jìn)行比較,現(xiàn)報(bào)告如下。
本研究符合《赫爾辛基宣言》基本原則,符合國(guó)家相關(guān)法規(guī)與政策,經(jīng)中國(guó)人民解放軍總醫(yī)院第七醫(yī)學(xué)中心倫理委員會(huì)審核批準(zhǔn),并獲得所有患者的知情同意。隨機(jī)選取2022年4—6月在中國(guó)人民解放軍總醫(yī)院第七醫(yī)學(xué)中心就診的100例受試者的外周血樣本(靜脈血2 mL), 置于乙二胺四乙酸二鉀(EDTA-K2)抗凝管,受試者包括白血病患者33例、其他疾病患者34例和健康體檢者(醫(yī)院體檢結(jié)果顯示所有指標(biāo)正常的人群)33例。檢驗(yàn)人員先用SYSMEX-SP10染色機(jī)制備外周血染色涂片,然后用Cella Vision DI60自動(dòng)分析儀采集白細(xì)胞的單個(gè)圖像(分辨率為360×366), 細(xì)胞圖像的類別標(biāo)簽由2位經(jīng)驗(yàn)豐富的檢驗(yàn)人員確認(rèn)。將白細(xì)胞圖像按照各自類別放入不同文件夾中,然后過(guò)濾掉染色異常細(xì)胞。正常細(xì)胞與異常細(xì)胞的圖像見(jiàn)圖1。
本研究采集的白細(xì)胞包括中性粒細(xì)胞、嗜酸性粒細(xì)胞、嗜堿性粒細(xì)胞、淋巴細(xì)胞、單核細(xì)胞5個(gè)類別。本研究采集的外周血白細(xì)胞圖像數(shù)量有限,故需要進(jìn)行數(shù)據(jù)增強(qiáng),數(shù)據(jù)增強(qiáng)的作用是使訓(xùn)練的模型具有更強(qiáng)的泛化能力,避免過(guò)擬合,此外,引入噪聲可以提升模型的魯棒性。本研究選用5種方法對(duì)樣本進(jìn)行數(shù)據(jù)增強(qiáng),包括圖像旋轉(zhuǎn)、增加亮度、增加對(duì)比度、裁剪和圖像添加高斯噪聲。其后,將數(shù)據(jù)進(jìn)行歸一化,使數(shù)據(jù)映射到統(tǒng)一區(qū)間內(nèi),輸出范圍縮小至0~1, 這樣可以更快地找到最優(yōu)解,模型也更容易收斂到最佳水平。
1.3.1 主要軟硬件: 顯卡為NVIDIA Tesla P100 PCIE 16GB, 主板為QC-B365-TDIMM。操作系統(tǒng)為Ubuntu 18.04.5 LTS, ResNet框架為tensorflow-gpu1.15, Swin Transformer框架為PyTorch1.8, 軟件包括cuda10.2、cudnn8.1.1、torchvision0.9、pycharm和Anaconda3。
1.3.2 Swin Transformer工作原理: Swin Transformer是一種基于Transformer的深度學(xué)習(xí)模型,其引入層次化構(gòu)建方式構(gòu)建Transformer, 并引入locality思想對(duì)無(wú)重合的窗口區(qū)域內(nèi)進(jìn)行自注意力計(jì)算。Swin Transformer網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)圖2, 首先將圖片輸入Patch Patition模塊中,分成小塊,每相鄰的4×4像素為1個(gè)patch, 然后在channel方向展平。通過(guò)Linear Embeding層對(duì)每個(gè)像素的channel數(shù)據(jù)進(jìn)行線性變換,通過(guò)4個(gè)Stage構(gòu)建不同大小的特征圖,每個(gè)Stage都是類似的重復(fù)單元。Stage1先通過(guò)1個(gè)Linear Embeding層,其余3個(gè)Stage則先通過(guò)1個(gè)Patch Merging層進(jìn)行下采樣,重復(fù)堆疊Swin Transformer Block, 堆疊次數(shù)為偶數(shù)。Swin Transformer使用窗口多頭自注意力(W-MSA)模塊和移位窗口多頭自注意力(sW-MSA)模塊代替多頭自注意力(MSA)模塊。為了不丟失全局信息, Swin Transformer增加了移位窗口以更好地與其他窗口交互,從而實(shí)現(xiàn)分層特性和線性時(shí)間復(fù)雜度。Transformer中提出的MSA模塊運(yùn)算公式為:
(1)
Transformer中提出的MSA模塊的計(jì)算復(fù)雜度為:Ω(MSA)=4hwC2+2(hw)2C
(2)
Swin Transformer中提出的W-MSA模塊的計(jì)算復(fù)雜度為:Ω(W-MSA)=4hwC2+2M2hwC
(3)
h代表特征圖的高度,w代表特征圖的寬度,C代表特征圖的深度,M代表每個(gè)窗口的大小。
傳統(tǒng)Transformer基于全局圖像計(jì)算注意力,使用標(biāo)準(zhǔn)MSA執(zhí)行全局自注意力,每個(gè)patch之間的關(guān)系根據(jù)其他patch計(jì)算,這會(huì)產(chǎn)生與patch數(shù)量相關(guān)的二次復(fù)雜度,且計(jì)算復(fù)雜度隨著窗口大小呈平方級(jí)增長(zhǎng),計(jì)算復(fù)雜度很高,不適合高分辨率的圖像。Swin Transformer通過(guò)將注意力計(jì)算限制到每個(gè)窗口而減少內(nèi)存和計(jì)算量,能夠進(jìn)行全局信息建模,層級(jí)式的優(yōu)勢(shì)在于提供各個(gè)尺度的特征信息。Swin Transformer窗口是patch的集合,注意力只在每個(gè)窗口內(nèi)計(jì)算,復(fù)雜度呈線性增長(zhǎng),大大降低了序列長(zhǎng)度,效率更高。
1.3.3 訓(xùn)練: ① 參數(shù)調(diào)節(jié)。網(wǎng)絡(luò)的訓(xùn)練參數(shù)在config.py文件中設(shè)定, Batchsize為128, Lr為0.000 012, img size為224, Momentum為0.9, Epochs為300。② 網(wǎng)絡(luò)模型評(píng)價(jià)。訓(xùn)練完成后,用測(cè)試集對(duì)模型的分類性能進(jìn)行評(píng)價(jià),計(jì)算準(zhǔn)確率。計(jì)算公式為準(zhǔn)確率=準(zhǔn)確預(yù)測(cè)的細(xì)胞數(shù)/細(xì)胞總數(shù)×100%。
本研究匯總了5種白細(xì)胞分類的數(shù)量信息,共計(jì)13 940個(gè)白細(xì)胞,包括中性粒細(xì)胞8 485個(gè)、嗜酸性粒細(xì)胞195個(gè)、嗜堿性粒細(xì)胞145個(gè)、淋巴細(xì)胞4 225個(gè)、單核細(xì)胞890個(gè),見(jiàn)表1。將每種類別按照8∶2比例劃分訓(xùn)練集和測(cè)試集,然后將訓(xùn)練集樣本采用圖像旋轉(zhuǎn)、增加亮度、增加對(duì)比度、裁剪和圖像添加高斯噪聲5種方法進(jìn)行增強(qiáng)。
表1 訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集詳細(xì)信息 個(gè)
2.2.1 網(wǎng)絡(luò)結(jié)構(gòu)確定: 研究初期基于經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)ResNet針對(duì)外周血白細(xì)胞分類設(shè)計(jì)一種深度卷積神經(jīng)網(wǎng)絡(luò),為了使模型能夠快速收斂,調(diào)整ResNet層數(shù)為36層,圖3為ResNet結(jié)構(gòu)參數(shù)。結(jié)果發(fā)現(xiàn), Resnet的測(cè)試準(zhǔn)確率較低,僅為95.2%, 不能實(shí)現(xiàn)準(zhǔn)確的醫(yī)學(xué)診斷。本研究隨后改用最新的Swin Transformer模型進(jìn)行訓(xùn)練和測(cè)試,準(zhǔn)確率明顯提升。
2.2.2 學(xué)習(xí)率衰減: 在訓(xùn)練網(wǎng)絡(luò)時(shí),學(xué)習(xí)率的調(diào)節(jié)可控制參數(shù)的更新速度,學(xué)習(xí)率較小會(huì)降低參數(shù)的更新速度,學(xué)習(xí)率較大會(huì)使搜索過(guò)程發(fā)生震蕩,導(dǎo)致參數(shù)在極優(yōu)值附近徘徊。為了防止學(xué)習(xí)率過(guò)大,在收斂到全局最優(yōu)點(diǎn)時(shí)來(lái)回?cái)[蕩,本研究在訓(xùn)練過(guò)程中引入學(xué)習(xí)率衰減(PyTorch中學(xué)習(xí)率衰減的方式包括指數(shù)衰減和分段常數(shù)衰減,本研究選用指數(shù)衰減),曲線見(jiàn)圖4,根據(jù)運(yùn)行Batchsize的輪數(shù),動(dòng)態(tài)更新學(xué)習(xí)率。訓(xùn)練開(kāi)始時(shí),將學(xué)習(xí)率調(diào)節(jié)至較大使模型快速收斂,此后在降低學(xué)習(xí)率的同時(shí)降低收斂速度,從而找到最優(yōu)值。指數(shù)衰減公式為:
lrate為當(dāng)前學(xué)習(xí)率, Init_lrate為初始學(xué)習(xí)率, drop為衰減指數(shù)用, epoch為當(dāng)前迭代次數(shù), epochs_drop為調(diào)整系數(shù)。使用學(xué)習(xí)率衰減策略更容易獲得準(zhǔn)確率高的分類模型。
對(duì)測(cè)試集的2 788張圖片進(jìn)行測(cè)試,結(jié)果顯示, ResNet平均準(zhǔn)確率最終收斂為95.2%, 而Swin Transformer的平均準(zhǔn)確率達(dá)到99.1%。與ResNet相比, Swin Transformer對(duì)5種白細(xì)胞的識(shí)別準(zhǔn)確率均有一定提升,在白細(xì)胞分類領(lǐng)域更為適用。見(jiàn)表2。
表2 Swin Transformer與ResNet的準(zhǔn)確率比較 %
近年來(lái),深度學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域的應(yīng)用日益廣泛[5-9], 其中亦包括外周血白細(xì)胞分類領(lǐng)域。但既往的多數(shù)研究基于公共數(shù)據(jù)庫(kù)進(jìn)行分析,而公共數(shù)據(jù)庫(kù)并不能涵蓋臨床診斷中的各種真實(shí)情況[10-14]。MA L等[13]基于殘差神經(jīng)網(wǎng)絡(luò)提出一種血細(xì)胞圖像分類框架,引入一個(gè)新的損失函數(shù),準(zhǔn)確率達(dá)到91.7%。HEGDE R B等[14]將深度神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(SVM)相結(jié)合進(jìn)行白細(xì)胞分類,獲得了98.8%的分類準(zhǔn)確率。
本研究?jī)?yōu)勢(shì)在于采集的數(shù)據(jù)是醫(yī)院檢驗(yàn)科的真實(shí)數(shù)據(jù),圖像的多樣性和真實(shí)性有助于提升模型的魯棒性和泛化能力。為了從圖像中提取高維特征信息,本研究通過(guò)多種方法對(duì)圖片進(jìn)行數(shù)據(jù)增強(qiáng),如圖像旋轉(zhuǎn)、增加亮度、增加對(duì)比度、裁剪和圖像添加高斯噪聲。本研究以ResNet模型和Swin Transformer模型為基礎(chǔ)設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò),考慮到在學(xué)習(xí)率不變的情況下,梯度下降難以在最后達(dá)到收斂,所以在訓(xùn)練過(guò)程中使用學(xué)習(xí)率衰減策略,隨著梯度下降的進(jìn)行,學(xué)習(xí)率衰減有利于最后收斂至一個(gè)趨近最低點(diǎn)。在白細(xì)胞分類領(lǐng)域,全局信息是區(qū)分不同類別細(xì)胞的關(guān)鍵,如形狀和邊緣特征等。Swin Transformer模型通過(guò)移動(dòng),使得相鄰窗口之間有所交互,上下層之間有跨窗口連接,從而變相達(dá)到一種全局建模效果。同時(shí),該模型通過(guò)限制在窗口內(nèi)使用自注意力,帶來(lái)了更高的效率。此外,該模型層級(jí)式的結(jié)構(gòu)不僅建模各個(gè)尺度的信息,而且計(jì)算復(fù)雜度隨著圖像大小而線性增長(zhǎng),具有高效、低計(jì)算量、高準(zhǔn)確率的特點(diǎn),與經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型ResNet相比具有一定優(yōu)勢(shì)。
綜上所述, Swin Transformer模型可減少計(jì)算量,更適用于白細(xì)胞分類識(shí)別,且準(zhǔn)確率相較于ResNet模型更具優(yōu)勢(shì)(準(zhǔn)確率提高了3.9%)。但本研究尚存在一定局限性,例如選取的樣本來(lái)自于同一家醫(yī)院的100例患者,模型可能偏向于單中心的患者和機(jī)器,另外僅針對(duì)正常5類白細(xì)胞進(jìn)行研究,并未包含異常淋巴細(xì)胞、漿細(xì)胞、原始細(xì)胞、中性早幼粒細(xì)胞等其他細(xì)胞,未來(lái)還需收集多中心樣本并針對(duì)差異小的類別以及干擾圖像的魯棒性進(jìn)一步深入研究,從而提升模型的泛化能力。