郝如茜,王祥舟,張 靜,劉娟秀,杜曉輝,劉 霖
電子科技大學(xué)光電科學(xué)與工程學(xué)院,四川 成都 611731
顯微鏡檢是一種應(yīng)用廣泛的疾病篩查方式,由于顯微圖像中有形成分?jǐn)?shù)量繁多,且背景充滿雜質(zhì),加之門(mén)診患者數(shù)量龐大,醫(yī)生在長(zhǎng)時(shí)間工作下極易產(chǎn)生視覺(jué)疲勞,誤診或漏診的可能性大大增加。而陰道炎是一種常見(jiàn)的婦科疾病,并且該疾病難以一次性治愈,有研究數(shù)據(jù)表明40%至45%的女性首次感染陰道炎后,在一段時(shí)間內(nèi)出現(xiàn)復(fù)發(fā)性感染[1]。常見(jiàn)的感染性陰道炎有三種,分別為霉菌性陰道炎,滴蟲(chóng)性陰道炎和細(xì)菌性陰道炎[2]。白帶常規(guī)人工鏡檢是目前大多數(shù)醫(yī)院對(duì)于陰道炎的篩查方式,該方法可以簡(jiǎn)單且有效地對(duì)疾病進(jìn)行早期診斷[3]。但是,傳統(tǒng)鏡檢需要有經(jīng)驗(yàn)的醫(yī)務(wù)人員在顯微鏡下對(duì)白帶樣本中的各個(gè)有形成分進(jìn)行細(xì)致地觀測(cè),并通過(guò)病理形態(tài)學(xué)的知識(shí)對(duì)霉菌、滴蟲(chóng)和線索細(xì)胞這些常見(jiàn)致病菌進(jìn)行確認(rèn)。因此,本文提出一種采用注意力機(jī)制的顯微圖像智能檢測(cè)方法,并以陰道炎致病微生物檢測(cè)作為應(yīng)用場(chǎng)景,為這一問(wèn)題提供切實(shí)可行的解決方案,具有重要的研究?jī)r(jià)值和臨床意義。
隨著光學(xué)成像技術(shù)的飛速發(fā)展,在顯微醫(yī)學(xué)設(shè)備的前端圖像獲取領(lǐng)域已有很多學(xué)者做出相關(guān)研究成果。比如田鵬等人[4]提出利用均勻球面波數(shù)字同軸全息的顯微成像方式,獲得寬視場(chǎng)且無(wú)臟點(diǎn)和雜光干擾的顯微圖像。Zhang 等人[5]利用非線性光學(xué)技術(shù)進(jìn)行生物樣本的快速、無(wú)標(biāo)記和化學(xué)特異性成像,從而加快對(duì)于生物樣本的研究分析進(jìn)程。顧鑫等人[6]提出一種基于微流體芯片的衍射相位成像系統(tǒng)實(shí)現(xiàn)對(duì)水源性寄生蟲(chóng)的實(shí)時(shí)監(jiān)測(cè)和無(wú)標(biāo)記定量測(cè)量,為單個(gè)微生物研究工作提供了切實(shí)可行的解決方案。崔光茫等人[7]結(jié)合多尺度分析算法和梯度絕對(duì)值算子,提出一種適用于顯微圖像清晰度評(píng)價(jià)算法,該算法有較好魯棒性和抗噪性,具有很好的實(shí)際應(yīng)用價(jià)值。在現(xiàn)有的顯微醫(yī)學(xué)輔助診斷設(shè)備的后端圖像處理部分,仍然主要依賴于傳統(tǒng)的圖像處理方法和機(jī)器學(xué)習(xí)技術(shù),通過(guò)設(shè)計(jì)復(fù)雜的算法提取細(xì)胞的形態(tài)特征后,人為設(shè)置閾值或者訓(xùn)練分類器進(jìn)行分類識(shí)別。比如杜曉輝等人[8]先通過(guò)大津閾值法和連通域標(biāo)記分割前景圖像,再對(duì)每個(gè)前景區(qū)域提取其局部二值紋理特征,最后訓(xùn)練支持向量機(jī)對(duì)上皮細(xì)胞進(jìn)行分類。該方法的不足之處在于其前景圖像提取步驟需要人為設(shè)置閾值,閾值過(guò)高容易漏選上皮細(xì)胞,而閾值過(guò)低則容易選取過(guò)多雜質(zhì)影響整體模型分類速度。由于白帶樣本是液體,具有一定厚度和流動(dòng)性,所以里面的有形成分很容易堆疊,圖像通常存在部分失焦模糊的現(xiàn)象,該前景提取方法魯棒性低,導(dǎo)致準(zhǔn)確率不高。自2012 年Krizhevsky 等人[9]提出AlexNet 并贏得當(dāng)年的ILSVRC 圖像識(shí)別大賽冠軍,深度學(xué)習(xí)方法在很多領(lǐng)域取得了突破性的成就,其中包括目標(biāo)識(shí)別領(lǐng)域。常用的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型架構(gòu)主要分為兩類:雙階段檢測(cè)模型和單階段檢測(cè)模型。雙階段檢測(cè)模型以Faster R-CNN 為代表,在第一階段先通過(guò)區(qū)域推薦網(wǎng)絡(luò)獲得所有感興趣區(qū)域ROI (region of interest),之后第二階段再同時(shí)訓(xùn)練分類器和位置回歸器對(duì)目標(biāo)區(qū)域進(jìn)行分類和定位。Wen 等人[10]對(duì)Faster R-CNN 的區(qū)域推薦網(wǎng)絡(luò)進(jìn)行改進(jìn),采用不規(guī)則比例的錨點(diǎn),在白細(xì)胞、紅細(xì)胞和血小板的識(shí)別中取得了較好的效果。雙階段目標(biāo)檢測(cè)模型大部分時(shí)間浪費(fèi)在選取ROI 區(qū)域上,整體耗時(shí)較長(zhǎng)。為了滿足實(shí)時(shí)檢測(cè)的需求,以YOLO、SSD 為代表單階段目標(biāo)檢測(cè)模型,通過(guò)人為預(yù)先設(shè)置一系列的錨點(diǎn)或者可能的對(duì)象中心的網(wǎng)格,以此來(lái)代替區(qū)域推薦階段,將整體的目標(biāo)檢測(cè)視為一個(gè)簡(jiǎn)單的回歸問(wèn)題,對(duì)預(yù)測(cè)框坐標(biāo)點(diǎn)和對(duì)應(yīng)的目標(biāo)類別概率進(jìn)行計(jì)算。Jia 等人[11]使用SSD 模型對(duì)宮頸癌細(xì)胞檢測(cè),他們?cè)黾恿酥行膿p失函數(shù)以解決類內(nèi)差距比類間差距大的問(wèn)題,提高了檢測(cè)準(zhǔn)確率。Jiang 等人[12]將通道注意力機(jī)制和空間注意力機(jī)制加入原始的YOLO 網(wǎng)絡(luò)中,提高了YOLO 網(wǎng)絡(luò)對(duì)于圖像特征的提取能力,完成了血細(xì)胞計(jì)數(shù)任務(wù)。單階段目標(biāo)檢測(cè)模型雖然速度較快,能完成實(shí)時(shí)檢測(cè)的需求,但是普遍精度不高。本文中檢測(cè)的白帶樣本普遍背景復(fù)雜且致病微生物體積較小,所以這類檢測(cè)模型并不適用于本文的應(yīng)用場(chǎng)景。
Transformer 是一種基于自注意力機(jī)制的新穎的模型框架,它最先被應(yīng)用在自然語(yǔ)言處理領(lǐng)域,并獲得了傲人的成績(jī)[13]。最近學(xué)者們將Transformer 應(yīng)用于圖像分類、目標(biāo)檢測(cè)等圖像處理領(lǐng)域,也取得了優(yōu)異的檢測(cè)指標(biāo)。來(lái)自美國(guó)科技公司Facebook 的Carion 等人[13]提出了一種基于Transformer 的目標(biāo)檢測(cè)模型DETR,該框架利用了Transformer 編碼器-解碼器結(jié)構(gòu)中新穎的基于局部和整體的注意力機(jī)制,從而有效解決重疊目標(biāo)檢測(cè)問(wèn)題,提高了整體目標(biāo)檢測(cè)精度。并且,利用匈牙利二分圖分配算法匹配檢測(cè)結(jié)果和實(shí)際目標(biāo),代替了手動(dòng)設(shè)置錨點(diǎn)和非最大抑制的過(guò)程,將目標(biāo)檢測(cè)轉(zhuǎn)化為一個(gè)集合預(yù)測(cè)問(wèn)題,從而極大簡(jiǎn)化了整體檢測(cè)流程并大大減少了檢測(cè)時(shí)間。DETR 也被應(yīng)用于顯微圖像處理領(lǐng)域,比如Prangemeier等人[14]提出了一種基于DETR 的酵母菌分割圖像算法,證明DETR 的注意力機(jī)制使其對(duì)于重疊的細(xì)胞有著優(yōu)越的目標(biāo)分割性能。
由于白帶鏡檢作為白帶常規(guī)的一項(xiàng)重要檢驗(yàn)項(xiàng)目,在醫(yī)院中需求很大,患者數(shù)量眾多,因此陰道炎致病微生物算法需要處理速度快,能滿足實(shí)時(shí)檢測(cè)的需求。同時(shí)白帶顯微圖像具有細(xì)胞數(shù)量多、背景復(fù)雜、細(xì)胞易堆疊和致病微生物體積較小等特點(diǎn),所以對(duì)于算法的性能和準(zhǔn)確率也要求極高。本文選擇基于注意力機(jī)制的DETR 作為顯微圖像智能檢測(cè)模型,對(duì)DETR模型進(jìn)行改進(jìn),為其中特征提取部分使用的ResNet50模型[15]加入分組卷積機(jī)制,從而提高模型對(duì)于目標(biāo)物體特征的注意力,改進(jìn)后的模型可實(shí)現(xiàn)高精度且高效率地對(duì)顯微圖像中微生物自動(dòng)識(shí)別檢測(cè)。
DETR 中的Transformer 是一種由多個(gè)編碼器和多個(gè)解碼器堆疊的模型架構(gòu),它通過(guò)特有的多頭注意力機(jī)制計(jì)算輸出和輸入的全局對(duì)應(yīng)關(guān)系,從而不僅提高了對(duì)于目標(biāo)區(qū)域的注意力,而且通過(guò)關(guān)注整體的輸入信息降低了背景的干擾[13]。多頭注意力機(jī)制對(duì)于本文中的白帶圖像尤為重要,因?yàn)樗?jì)算了整個(gè)輸入圖像中所有對(duì)象的注意力分?jǐn)?shù)權(quán)重,提高了待檢測(cè)的致病微生物注意力權(quán)重,同時(shí)降低其余有形成分和雜質(zhì)的權(quán)重,因此在細(xì)胞堆疊和雜質(zhì)較多的白帶顯微圖像檢測(cè)中占據(jù)較大優(yōu)勢(shì)。
單頭注意力機(jī)制的工作原理是將輸入的特征先通過(guò)與不同加權(quán)矩陣相乘獲得查詢矩陣、鍵矩陣和值矩陣,再通過(guò)查詢矩陣和鍵矩陣計(jì)算權(quán)重矩陣,最后將值矩陣用所得的權(quán)重矩陣相乘求得加權(quán)和,所得結(jié)果即為注意力矩陣。假設(shè)Q是查詢矩陣,K是鍵矩陣,V是值矩陣,dk是K的維度,單頭注意力的計(jì)算公式如下所示:
本文所用的DETR 中每層Transformer 層都由8個(gè)單頭注意力模塊組成。白帶圖像輸入模型的特征提取部分的主干CNN 后,將獲得的特征圖輸入1×1 的卷積中,降維成一維的特征向量。之后,用所得的特征向量與不同的權(quán)重矩陣進(jìn)行線性變換,得到Q、K和V矩陣,根據(jù)式(1)計(jì)算每個(gè)單頭注意力模塊的注意力矩陣,之后把多個(gè)單頭注意力模塊的輸出連接起來(lái),最后再進(jìn)行線性變換以獲得最終的注意力結(jié)果。
DETR 模型的輸出由兩部分組成,目標(biāo)物體的預(yù)測(cè)框和目標(biāo)物體的種類。該輸出的數(shù)量N是由人為預(yù)先設(shè)定,N應(yīng)遠(yuǎn)大于輸入圖像中目標(biāo)物體的數(shù)目。本文結(jié)合白帶圖像的實(shí)際情況,將N設(shè)置為100。這就意味著,并非所有的預(yù)測(cè)框都是表示待檢測(cè)致病微生物,有一些預(yù)測(cè)框應(yīng)指示背景?。為了確定哪些預(yù)測(cè)框表示目標(biāo),哪些表示背景,DETR 模型采用了基于最小化損失的匈牙利二分圖分配算法[16]。同時(shí),通過(guò)該算法在預(yù)測(cè)和真實(shí)值之間尋找二分匹配,本模型減去了手動(dòng)設(shè)置錨點(diǎn)和非最大抑制的過(guò)程,提高了檢測(cè)效率和準(zhǔn)確率。假設(shè)y是實(shí)際集合,包含著目標(biāo)致病微生物和背景,是預(yù)測(cè)集合,PN代表預(yù)測(cè)集合和實(shí)際集合中的所有可能匹配的排列組合情況,通過(guò)對(duì)所有排列組合情況計(jì)算預(yù)測(cè)和真實(shí)值間的損失大小,用匈牙利二分圖分配算法求得損失最小的最佳組合情況,公式如下所示:
模型的整體損失函數(shù)即為在最佳匹配下的損失。由于DETR 模型的輸出分為預(yù)測(cè)框和種類,則模型的損失函數(shù)也由分類損失和邊界框損失組合而成。分類損失采用交叉熵?fù)p失,如下所示:
邊界框損失則采用LI 損失和GIoU 損失的線性組合,如下所示:
而當(dāng)實(shí)際標(biāo)簽為背景?時(shí),背景并沒(méi)有實(shí)際的目標(biāo)坐標(biāo),所以邊界框損失為0,此時(shí)僅有分類損失,背景和目標(biāo)之間的損失為常數(shù),根據(jù)文獻(xiàn)[13]所述,當(dāng)該常數(shù)設(shè)置為預(yù)測(cè)得到的概率時(shí)效果最好,本文的模型遵從了這一參數(shù)設(shè)定。
原始DETR 中用于圖像特征提取的模型為殘差網(wǎng)絡(luò)ResNet50[15],該模型的基本殘差單元如圖1(a)所示,它將輸入X與卷積模塊的輸出F(X)相加進(jìn)行身份映射,殘差單元的輸出結(jié)果X+F(X)則作為輸入傳入下一殘差單元,實(shí)現(xiàn)整個(gè)模型結(jié)構(gòu)的跳躍連接,實(shí)驗(yàn)證明該模型可有效緩解層數(shù)較多的神經(jīng)網(wǎng)絡(luò)中梯度消失的問(wèn)題。
由于白帶顯微圖像背景復(fù)雜,細(xì)胞特征多變,所以本文對(duì)原始ResNet 模型[15]進(jìn)行改進(jìn),使用具有分組卷積結(jié)構(gòu)的ResNeXt50_32×4d 模型[17],該模型的基本單元結(jié)構(gòu)如圖1(b)所示,每組卷積的具體操作為先將輸入X通過(guò)1×1 卷積進(jìn)行降維,之后再使用3×3卷積核進(jìn)行卷積操作,最后再將用1×1 卷積核將其恢復(fù)為輸入X的維度大小。
圖1 ResNet 和ResNeXt 模型的基本單元。(a) ResNet 模型基本單元;(b) ResNeXt 模型基本單元Fig.1 The basic blocks of ResNet and ResNeXt.(a) Basic block of ResNet;(b) Basic block of ResNeXt
每組卷積的操作都相同,在ResNeXt50_32×4d中基數(shù)設(shè)置為32,即一共分為32 組,而4d 則表示輸入特征圖被1×1 卷積將維度減少成4。這種分組卷積類似于注意力機(jī)制,對(duì)于輸入X通過(guò)使用和訓(xùn)練不同的卷積核進(jìn)行特征提取,可以讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)輸入的不同特征。同時(shí),1×1 的卷積核降維操作也降低了參數(shù)的數(shù)量,大大減少了計(jì)算復(fù)雜度。
本文所使用的顯微圖像智能檢測(cè)模型總體流程圖如圖2 所示,首先將訓(xùn)練集中的白帶圖像直接送入改進(jìn)的圖像特征提取CNN 神經(jīng)網(wǎng)絡(luò)ResNeXt50_32×4d中,該改進(jìn)的CNN 通過(guò)分組卷積機(jī)制進(jìn)行白帶圖像的特征提取,此機(jī)制采用特征降維和不同組卷積核分離訓(xùn)練的方式,大幅提高了神經(jīng)網(wǎng)絡(luò)對(duì)于特征的提取能力。
圖2 算法總體流程圖Fig.2 Workflow of the proposed algorithm
其次,提取到的圖像特征傳入具有多頭注意力機(jī)制的Transformer 編碼器-解碼器中,該模塊的注意力機(jī)制從復(fù)雜的背景中將較大權(quán)重放置于待識(shí)別的目標(biāo)物體上,可有效提升模型對(duì)于重疊細(xì)胞的識(shí)別能力。
最后,輸出的預(yù)測(cè)集合包括預(yù)測(cè)的目標(biāo)類別和定位框。本檢測(cè)模型采用匈牙利二分圖匹配算法將預(yù)測(cè)值和真實(shí)值進(jìn)行匹配,找到使類損失和邊界框損失最小的一種匹配方式。該過(guò)程將預(yù)測(cè)值中的目標(biāo)和背景進(jìn)行區(qū)分,代替了手動(dòng)設(shè)置錨點(diǎn)和非最大抑制的過(guò)程,提高了整體檢測(cè)速率和準(zhǔn)確率。本模型利用找到的最佳匹配方式計(jì)算整體網(wǎng)絡(luò)損失和進(jìn)行反向傳播訓(xùn)練,完成整體的參數(shù)更新。
本文提出的端對(duì)端的顯微圖像智能檢測(cè)模型,結(jié)合分組卷積和注意力機(jī)制,可高準(zhǔn)確率地完成對(duì)三種常見(jiàn)的陰道炎致病微生物霉菌、滴蟲(chóng)和線索細(xì)胞實(shí)時(shí)檢測(cè)的任務(wù)。
顯微白帶圖像光學(xué)采集系統(tǒng)由奧林巴斯CX31 的生物顯微鏡和圖譜EXCCD01400KMA CCD 相機(jī)組成。顯微鏡搭載著40 倍數(shù)值孔徑為0.65 的物鏡。相機(jī)的曝光時(shí)間為每幀40 ms。該光學(xué)采集系統(tǒng)的視場(chǎng)約為0.41 mm × 0.26 mm。
通過(guò)與四川省成都市第六人民醫(yī)院合作,一共采集了來(lái)自112 個(gè)病人的1089 張白帶顯微圖像,每張圖像的分辨率為1920 pixels × 1200 pixels。由醫(yī)生對(duì)每張圖像里的滴蟲(chóng)、霉菌和線索細(xì)胞進(jìn)行標(biāo)注。這三種常見(jiàn)陰道炎致病菌形態(tài)各不相同,圖3(a)~3(c)分別展示了本數(shù)據(jù)集中的霉菌、滴蟲(chóng)和線索細(xì)胞的顯微圖像。
本文數(shù)據(jù)集中一共包含3057 個(gè)標(biāo)注細(xì)胞,具體為2901 個(gè)霉菌,114 個(gè)滴蟲(chóng),42 個(gè)線索細(xì)胞。本文將數(shù)據(jù)集中的圖像按照6:2:2 的比例劃分成訓(xùn)練集,驗(yàn)證集和測(cè)試集,具體的劃分情況見(jiàn)表1。
表1 數(shù)據(jù)集具體劃分情況Table 1 The details of dataset split
為了對(duì)模型對(duì)致病微生物的檢測(cè)效果定量分析,本文采用了目標(biāo)檢測(cè)任務(wù)中的常見(jiàn)評(píng)價(jià)指標(biāo),它們分別為查準(zhǔn)率(precision,P),召回率(recall,R),平均查準(zhǔn)率(average precision,AP)和平均查準(zhǔn)率均值(mean average precision,mAP)。它們的公式如下所示:
其中:TP指實(shí)際為致病微生物,且正確被識(shí)別為致病微生物的數(shù)目;FP指實(shí)際為背景或其他細(xì)胞,但錯(cuò)誤地被識(shí)別為致病微生物的數(shù)目;FN為指實(shí)際為致病微生物,但錯(cuò)誤地被識(shí)別為背景或其他細(xì)胞的數(shù)目。
本文設(shè)定交并比IoU(intersection over union)閾值為0.5,即當(dāng)預(yù)測(cè)的邊界框和實(shí)際目標(biāo)框的交集,與這兩者的并集的比例大于0.5 時(shí),且類別判定正確時(shí),此次預(yù)測(cè)為正確預(yù)測(cè)。
本文中的所有實(shí)驗(yàn)均在型號(hào)為NVIDIA GeForce RTX 2070 顯卡上運(yùn)行,使用的軟件版本為Python 3.8,和開(kāi)源框架PyTorch 1.5.1。本文設(shè)置訓(xùn)練周期epochs數(shù)目為200,每個(gè)訓(xùn)練周期按批給模型輸入白帶圖片,批大小Batch size 設(shè)置為1,模型的CNN 特征提取器和Transformer 的初始學(xué)習(xí)率均設(shè)置為0.00001,并且每100 個(gè)epochs 衰減為原來(lái)的十分之一。同時(shí),使用AdamW 作為模型訓(xùn)練優(yōu)化器,其權(quán)重衰減設(shè)置為0.0001。
本文使用訓(xùn)練集不斷訓(xùn)練更新陰道炎致病微生物檢測(cè)模型,并在每個(gè)epoch 結(jié)束后觀測(cè)所得的模型在驗(yàn)證集上的平均查準(zhǔn)率均值mAP。為了說(shuō)明改進(jìn)的模型可有效提升神經(jīng)網(wǎng)絡(luò)對(duì)于目標(biāo)細(xì)胞的檢測(cè)能力,本文描繪了原始DETR 和改進(jìn)的DETR 在驗(yàn)證集上對(duì)每個(gè)epoch 進(jìn)行評(píng)估的mAP 曲線圖。如圖4 所示,橫軸為訓(xùn)練周期數(shù),縱軸為mAP 指標(biāo),紅色和藍(lán)色分別代表原始的模型和改進(jìn)后的模型。可以看出最開(kāi)始0 至40 epoch 時(shí)原始模型和改進(jìn)后的模型差距并不大,但在40 epoch 至200 epoch 時(shí),改進(jìn)后的模型的表現(xiàn)穩(wěn)定地超過(guò)原始模型,改進(jìn)的模型具有較好的檢測(cè)性能。
圖4 驗(yàn)證集表現(xiàn)結(jié)果對(duì)比Fig.4 The performance of the original DETR and the improved DETR on validation dataset
在經(jīng)歷200 個(gè)epochs 后,本文根據(jù)mAP 的數(shù)值選取在驗(yàn)證集上表現(xiàn)最好的模型作為最終得到的模型,之后將其在測(cè)試集上使用相關(guān)評(píng)價(jià)指標(biāo)進(jìn)行量化分析。原始模型和改進(jìn)的模型在測(cè)試集上分別計(jì)算所得的平均查準(zhǔn)率均值mAP 和不同陰道炎致病微生物的平均查準(zhǔn)率AP 可見(jiàn)表2。本文改進(jìn)模型的mAP 為96.3%,比原始DETR 所得的87.5%mAP 提高約10%。改進(jìn)的模型對(duì)于霉菌、滴蟲(chóng)和線索細(xì)胞的AP 值分別為93%,95.8%和100%,均比原始模型的AP 值更高。其中,線索細(xì)胞的AP 值達(dá)到100%,原因可能與測(cè)試集中線索細(xì)胞樣本較少有關(guān),測(cè)試集中僅有8 個(gè)線索細(xì)胞,所以出現(xiàn)了全部線索細(xì)胞檢測(cè)成功的情況。
表2 原始模型和改進(jìn)模型的mAP 和AP 指標(biāo)對(duì)比Table 2 The comparison of mAP and AP results of the original model and the proposed model
為了進(jìn)一步直觀地表現(xiàn)改進(jìn)的模型和原始模型在各個(gè)陰道炎致病菌檢測(cè)上的性能差異,本文將兩種模型的查準(zhǔn)率-召回率PR (precision-recall)曲線進(jìn)行了對(duì)比,如圖5 所示,橙色代表使用ResNeXt 作為特征提取器的改進(jìn)的模型,藍(lán)色代表使用ResNet 作為主干CNN 的原始模型。對(duì)比橙、藍(lán)兩色曲線,可以看出幾乎每個(gè)子圖的橙色曲線都比藍(lán)色曲線更越靠近右上角,且橙色曲線的下方面積更大,說(shuō)明改進(jìn)后的模型的mAP 值和AP 值均比原始模型更高,即改進(jìn)后的模型檢測(cè)性能優(yōu)于原始模型。
圖5 原始模型和改進(jìn)的模型的PR 曲線對(duì)比。(a) mAP 的PR 曲線;(b)霉菌的PR 曲線;(c)滴蟲(chóng)的PR 曲線;(d)線索細(xì)胞的PR 曲線Fig.5 The comparison of PR curves computed from the original model and the improved model.(a) PR curve of mAP;(b) PR curve of mildew;(c) PR curve of trichomonas;(d) PR curve of clue cell
為了更加詳盡地展示原始模型和改進(jìn)的模型的性能對(duì)比效果,本文分別計(jì)算了在最優(yōu)置信度閾值下對(duì)于三種陰道致病菌的查準(zhǔn)率(precision)和召回率(recall)指標(biāo),如表3 所示,可見(jiàn)本文改進(jìn)的模型所表現(xiàn)的查準(zhǔn)率和召回率均等于或高出原始模型,可見(jiàn)改進(jìn)后的模型性能有了明顯提升。
表3 原始模型和改進(jìn)模型的查準(zhǔn)率和召回率指標(biāo)對(duì)比Table 3 The comparison of precision and recall results of the original DETR and the proposed improved DETR
為了說(shuō)明本文的采用注意力機(jī)制的顯微圖像智能檢測(cè)方法對(duì)于細(xì)胞重疊和復(fù)雜背景的情形均保持較高的準(zhǔn)確率和魯棒性,圖6 展示了部分白帶顯微圖像的檢測(cè)結(jié)果圖。
如圖6(a)所示,霉菌的檢測(cè)結(jié)果用紅色矩形框顯示,該圖有兩個(gè)霉菌目標(biāo),一個(gè)在圖的中間位置,完全重疊在上皮細(xì)胞上,另一個(gè)霉菌在該圖靠近右下角位置,與一個(gè)上皮細(xì)胞緊密相連。如圖6(b)所示,滴蟲(chóng)的檢測(cè)結(jié)果用藍(lán)色矩形框表示,圖中有三個(gè)滴蟲(chóng),但它們因?yàn)樵诎讕б后w的不同層上,對(duì)焦導(dǎo)致左下角的滴蟲(chóng)有邊界模糊的情形。并且,圖中間的細(xì)胞為白細(xì)胞,與滴蟲(chóng)大小類似,但形態(tài)有細(xì)微的差別,本方法成功地將它們區(qū)分。如圖6(c)所示,線索細(xì)胞的檢測(cè)結(jié)果用黃色矩形框表示,該樣本的充滿了球菌、桿菌等陰道菌群,并伴有數(shù)量眾多的上皮細(xì)胞和白細(xì)胞,該白帶圖像的背景極其復(fù)雜,線索細(xì)胞難以從背景中區(qū)分。因此,由圖6 的檢測(cè)結(jié)果可見(jiàn),本文提出的模型對(duì)于難度較高的檢測(cè)場(chǎng)景(比如細(xì)胞重疊、粘連和復(fù)雜背景等)均表現(xiàn)出較強(qiáng)的檢測(cè)性能。同時(shí),本文將改進(jìn)的模型對(duì)整體測(cè)試集的總時(shí)長(zhǎng)除以測(cè)試集的圖片張數(shù),計(jì)算得出平均每張白帶顯微圖像的識(shí)別時(shí)間約為88.8 ms,所以本文提出的采用注意力機(jī)制的顯微圖像智能檢測(cè)方法可滿足實(shí)時(shí)檢測(cè)的需求。
圖6 三種常見(jiàn)陰道炎致病微生物檢測(cè)結(jié)果圖。(a)霉菌檢測(cè)結(jié)果圖;(b)滴蟲(chóng)檢測(cè)結(jié)果圖;(c)線索細(xì)胞檢測(cè)結(jié)果圖Fig.6 The detection results of the three common pathogenic cells.(a) Detection results of mildew;(b) Detection results of trichomonas;(c) Detection results of clue cell
本文對(duì)原始DETR 模型的特征提取部分的模型架構(gòu)進(jìn)行了改進(jìn),通過(guò)引入分組卷積機(jī)制,改進(jìn)后的DETR 模型相較于原始模型提高了對(duì)于復(fù)雜場(chǎng)景的特征提取能力,圖7 對(duì)比了原始模型和改進(jìn)模型對(duì)于同一幅白帶顯微圖像的檢測(cè)結(jié)果及解碼器最末層的注意力權(quán)重可視化結(jié)果。
圖7(a)為原始白帶圖像,圖7(b)為人工標(biāo)注后的目標(biāo)圖像,可見(jiàn)圖的中間和右下角分別有兩個(gè)霉菌目標(biāo)。圖7(c)為原始DETR 的檢測(cè)結(jié)果,可見(jiàn)原始模型對(duì)于右下方與上皮細(xì)胞緊密相連的霉菌未能準(zhǔn)確檢測(cè)。圖7(d)為原始模型注意力權(quán)重可視化圖,同時(shí)為了更好地展示模型的注意力權(quán)重,圖7(e)將注意力熱力圖與原始圖像融合,由這兩幅圖可見(jiàn)原始模型并未關(guān)注到右下角的霉菌目標(biāo),將其當(dāng)成了背景從而導(dǎo)致漏檢。作為對(duì)比,圖7(f)為改進(jìn)的DETR 的檢測(cè)結(jié)果,目標(biāo)細(xì)胞均被成功檢測(cè)。并且,通過(guò)觀察圖7(g)和圖7(h)這兩幅改進(jìn)的模型注意力熱力圖,可見(jiàn)通過(guò)引進(jìn)分組卷積機(jī)制,模型對(duì)于復(fù)雜場(chǎng)景的特征提取能力更強(qiáng),對(duì)于與其他細(xì)胞粘連的目標(biāo)細(xì)胞特征也賦予了注意力權(quán)重,從而成功檢測(cè)出所有待檢測(cè)目標(biāo)。
圖7 模型檢測(cè)結(jié)果和注意力權(quán)重可視化圖對(duì)比。(a) 原始圖像;(b) 人工標(biāo)注的目標(biāo)圖像;(c) 原始模型檢測(cè)結(jié)果圖;(d) 原始模型注意力權(quán)重可視化圖;(e) 原始模型的權(quán)重可視化圖與原圖的融合圖;(f) 改進(jìn)后模型檢測(cè)結(jié)果圖;(g) 改進(jìn)后模型權(quán)重可視化圖;(h) 改進(jìn)后模型的權(quán)重可視化圖與原圖的融合圖Fig.7 Comparison of detection results and attention weights visualization map.(a) Original image;(b) Ground truth;(c) Detection results of original DETR;(d) Attention weights visualization of the original DETR;(e) Attention weights visualization of the original DETR on the original image;(f) Detection results of the improved DETR;(g) Attention weights visualization of the improved DETR;(h) Attention weights visualization of the improved DETR on the original image
本文針對(duì)人工顯微鏡檢耗時(shí)長(zhǎng)、準(zhǔn)確率低和需要大量人力投入等弊端,提出了一種采用注意力機(jī)制的顯微圖像智能檢測(cè)方法,以臨床中白帶常規(guī)檢查為應(yīng)用場(chǎng)景,該方法對(duì)白帶圖像中的三種陰道炎致病微生物(霉菌、滴蟲(chóng)和線索細(xì)胞)進(jìn)行檢測(cè),并針對(duì)顯微圖像中細(xì)胞易重疊以及復(fù)雜背景的特點(diǎn),對(duì)原始的DETR 中圖像特征提取CNN 進(jìn)行改進(jìn),采用具有分組卷積機(jī)制有效地提升了模型對(duì)于目標(biāo)物體特征圖的提取能力。實(shí)驗(yàn)結(jié)果證明,本文改進(jìn)的模型的平均查準(zhǔn)率均值mAP 比原模型提高約10%,達(dá)到96.3%。同時(shí),細(xì)胞檢測(cè)效果圖也表明本文模型對(duì)于細(xì)胞重疊、粘連以及背景有形成分繁多等場(chǎng)景仍有優(yōu)越的檢測(cè)能力。而且,該模型對(duì)于每張顯微白帶圖像的平均檢測(cè)時(shí)間約為88.8 ms,可以滿足實(shí)時(shí)檢測(cè)的需求。因此,本文提出的方法可基本滿足白帶常規(guī)臨床使用的實(shí)際需求。并且本方法有較好的拓展性,可以快速遷移到如糞便常規(guī)鏡檢、尿常規(guī)檢測(cè)和血常規(guī)檢查等顯微臨床應(yīng)用。針對(duì)線索細(xì)胞樣本數(shù)目較少的問(wèn)題,本文將持續(xù)采集圖像、增加標(biāo)注樣本集大小,并考慮引入針對(duì)少類別目標(biāo)加權(quán)采樣的策略,從而減少樣本不均衡現(xiàn)象。同時(shí),對(duì)于DETR 模型訓(xùn)練需要大量樣本的問(wèn)題,本文后續(xù)計(jì)劃進(jìn)行數(shù)據(jù)增強(qiáng)、主動(dòng)學(xué)習(xí)等緩解樣本不足的相關(guān)方法研究。