馮 濤,陳 斌,張躍飛
(1.中國科學(xué)院成都計(jì)算機(jī)應(yīng)用研究所,成都 610041;2.中國科學(xué)院廣州電子技術(shù)研究所,廣州 510075;3.中國科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 101408)
(?通信作者電子郵箱chenbin306@sohu.com)
染色體畸變可能會引起染色體病,致使胎兒罹患嚴(yán)重的出生缺陷[1-2]。核型分析技術(shù)是應(yīng)對染色體病的產(chǎn)前細(xì)胞遺傳學(xué)診斷金標(biāo)準(zhǔn)之一[3],指在顯微成像中對分裂中期染色體進(jìn)行分割、配對和排序以確定染色體畸變的過程。傳統(tǒng)上,在完成標(biāo)本采集、細(xì)胞培養(yǎng)等步驟后,醫(yī)生首先需要將染色體從分裂中期細(xì)胞核中分離出來,并在玻片上染色顯帶,然后借助顯微鏡進(jìn)行觀察攝影,再利用圖像處理軟件對染色體進(jìn)行手動分割,最后進(jìn)行分類、分析和診斷。整個(gè)流程都需要人工參與,周期冗長且工序繁雜,還對操作人員的專業(yè)知識和實(shí)操經(jīng)驗(yàn)有很高要求,因此,自動核型分析系統(tǒng)有其有巨大的研發(fā)價(jià)值[4]。
染色體圖像分割是自動核型分析中的基礎(chǔ)步驟和最具挑戰(zhàn)性的問題之一。其困難在于,染色體照片中通常有大量彎曲變形的染色體,除了雜質(zhì)干擾、難以分辨外,許多染色體還存在相互粘連甚至重疊的情況,這導(dǎo)致傳統(tǒng)圖像分割算法的錯(cuò)誤率很高,意味著大多數(shù)染色體的分割仍然需要人工干預(yù)。為了提高分割性能,近年來有人嘗試用深度卷積神經(jīng)網(wǎng)絡(luò)來解決染色體的分割問題。
本文提出了一種基于Mask R-CNN(Mask Region-based Convolutional Neural Network)[5]改進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò)框架Mask Oriented R-CNN,以期獲得更好的染色體實(shí)例分割效果。實(shí)驗(yàn)表明,本文的方法在染色體分割性能上有顯著一致的提高。
具體而言,本文的主要貢獻(xiàn)如下:
1)指出方向信息在染色體分割中的重要性。利用方向信息,本文提出的網(wǎng)絡(luò)Mask Oriented R-CNN 相對于Mask RCNN來說作了若干構(gòu)造性改進(jìn),獲得了更好的分割性能。
2)為了獲取方向信息并緩解非極大值抑制(Nonmaximum Suppression,NMS)算法的過度抑制,本文提出了一種用于預(yù)測有向包圍框(Oriented Bounding Box,OBB)的分支網(wǎng)絡(luò)。它以RoIAlign 提取的感興趣區(qū)域(Region of Interest,RoI)特征為輸入,用簡單的回歸損失進(jìn)行訓(xùn)練,提高了目標(biāo)實(shí)例的查全率。
3)利用方向信息和包圍框邊的空間位置關(guān)系,本文提出了角度加權(quán)交并比(Angle-weighted Intersection-over-Union,AwIoU)度量。AwIoU不僅可以改進(jìn)非極大值抑制過程中冗余包圍框的判別依據(jù),還可以對包圍框進(jìn)行精修。
4)利用方向信息,本文在Mask R-CNN 的掩模分支中實(shí)現(xiàn)了有向卷積通路(Oriented Convolutional Path,OCP)結(jié)構(gòu),使不同方向的染色體可以在不同的路徑上進(jìn)行訓(xùn)練,減少了粘連和重疊對掩模預(yù)測的干擾。
隨著計(jì)算能力的飛速提升和可用數(shù)據(jù)的大量增加,深度學(xué)習(xí)方法得到了廣泛的應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為深度學(xué)習(xí)的一個(gè)熱點(diǎn),在包括圖像分割在內(nèi)的許多計(jì)算機(jī)視覺領(lǐng)域都取得了令人矚目的成就。作為端到端語義分割網(wǎng)絡(luò)的先驅(qū),全卷積網(wǎng)絡(luò)(Fully-Convolutional Network,F(xiàn)CN)[6]已經(jīng)衍生出一些在生物和醫(yī)學(xué)圖像分割領(lǐng)域非常流行的優(yōu)秀框架,如U-Net[7]。然而,利用深度學(xué)習(xí)方法進(jìn)行染色體圖像分割的研究還不多見。為了解決重疊染色體難以區(qū)分的問題,Hu 等[8]提出一種簡化的UNet 模型對雙染色體圖像進(jìn)行語義分割。Saleh 等[9]改進(jìn)UNet 結(jié)構(gòu),采用測試時(shí)增強(qiáng)(Test Time Augmentation,TTA)策略來提高分割精度,而Altinsoy 等[10]則直接用U-Net 分割中期照片而不是雙染色體圖像。Pardo 等[11]開發(fā)了一個(gè)改進(jìn)的FCN 模型,該模型集成了空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)[12]模塊,用于熒光圖像中的染色體分割。U-Net 和FCN 都屬于語義分割網(wǎng)絡(luò),由于它們不能直接區(qū)分同一類別的不同對象,因此在實(shí)際應(yīng)用中并不能很好地實(shí)現(xiàn)粘連染色體的分割。實(shí)例分割網(wǎng)絡(luò)可能是更好的方法。Xiao 等[13]開發(fā)了一個(gè)基于Faster R-CNN(Faster Region-based Convolutional Neural Network)[14]的目標(biāo)檢測網(wǎng)絡(luò)用于分裂中期圖像染色體計(jì)數(shù),事實(shí)上通過增加語義分割分支就可以使其進(jìn)一步進(jìn)行圖像實(shí)例級分割。但到最近,Xie等[15]才首先利用Mask R-CNN 這一流行的實(shí)例分割框架對染色體圖像進(jìn)行了實(shí)例分割。本文的工作正是基于Mask R-CNN 實(shí)例分割框架,通過引入方向信息對其進(jìn)行了多項(xiàng)改進(jìn)。
Mask R-CNN作為一種基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Regionbased Convolutional Neural Network,R-CNN)框架,是在已有的三種目標(biāo)檢測架構(gòu)的基礎(chǔ)上發(fā)展而來的。R-CNN[16]是最早被提出的,它首先使用選擇搜索算法(Selective Search algorithm)[17]提取區(qū)域推薦(Region Proposals),然后使用預(yù)先訓(xùn)練好的CNN 提取特征,最后使用支持向量機(jī)(Support Vector Machine,SVM)對每個(gè)區(qū)域推薦進(jìn)行分類。由于RCNN 方法速度非常慢,因此又提出了Fast R-CNN(Fast Region-based Convolutional Neural Network)算法[18]。Fast RCNN 仍然使用選擇搜索算法,但放棄了獨(dú)立的支持向量機(jī)分類過程以實(shí)現(xiàn)高效的端到端訓(xùn)練。Fast R-CNN 通過RoIPool模塊提取RoI 特征向量,最后利用兩個(gè)全連接層進(jìn)行對象分類和包圍框坐標(biāo)回歸。然而,獨(dú)立的選擇搜索算法仍然使其推理階段的效率低下。因此,F(xiàn)aster R-CNN 方法被提出,使用區(qū)域推薦網(wǎng)絡(luò)(Region Proposal Network,RPN)直接將區(qū)域推薦的產(chǎn)生融入架構(gòu)中,以取代選擇搜索算法。以上三種基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)都只能完成目標(biāo)檢測任務(wù)。為了同時(shí)完成實(shí)例分割任務(wù),提出的Mask R-CNN 在Faster R-CNN 的基礎(chǔ)上進(jìn)行了兩大改進(jìn):一是用更精確的RoIAlign 模塊代替RoIPool;二是在RoIAlign 之后加入FCN 分支以得到目標(biāo)實(shí)例的二值掩模,從而實(shí)現(xiàn)了實(shí)例級別的圖像分割。盡管在Mask R-CNN 之后又有如PANet(Path Aggregation Network)[19]、Mask Scoring R-CNN(Mask Scoring Region-based Convolutional Neural Network)[20]等許多基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)框架被提出,它們針對Mask R-CNN 架構(gòu)中如尺度融合、分類標(biāo)準(zhǔn)等存在的問題進(jìn)行了改進(jìn),Mask R-CNN 仍然是當(dāng)前最好的實(shí)例分割架構(gòu)之一。本文的工作Mask Oriented R-CNN 則在Mask RCNN的基礎(chǔ)上引入方向信息提出了若干改進(jìn)以提高染色體分割性能。
Mask Oriented R-CNN 架構(gòu)如圖1 所示。首先,為了得到緊湊的包圍框以減輕軸對準(zhǔn)包圍框(Axis-Aligned Bounding Box,AABB)對于重疊染色體的過度抑制,本文在Mask RCNN的頭部引入了一個(gè)有向包圍框的回歸分支。這也使網(wǎng)絡(luò)獲得了實(shí)例的方向信息??紤]到更多的上下文信息更有利于分割,本文所述架構(gòu)仍然使用軸對準(zhǔn)包圍框來執(zhí)行RoIAlign。其次,為了改進(jìn)NMS 中冗余包圍框的判別準(zhǔn)則,本文提出了AwIoU 度量。AwIoU 度量基于方向信息及關(guān)于有向包圍框邊的一些樸素觀察,利用高斯函數(shù)提升染色體目標(biāo)檢測效果。最后,為了改善掩模分支性能,本文基于方向信息提出有向卷積通路結(jié)構(gòu)來代替原有的FCN結(jié)構(gòu)。
2.1.1 研究動機(jī)
在Mask R-CNN 框架中,RPN 生成的區(qū)域推薦被輸入到RoIAlign 層以生成相應(yīng)的RoI 特征,然后RoI 特征被輸入到頭部的三個(gè)并行分支,分別預(yù)測包圍框坐標(biāo)精修偏移、實(shí)例類別和二值掩碼。請注意,區(qū)域推薦是以可能包含實(shí)例的軸對準(zhǔn)包圍框的形式表示的。在預(yù)測階段,NMS 算法將根據(jù)軸對準(zhǔn)包圍框之間的重疊程度,即交并比度量(Intersection-over-Union,IoU),消除冗余的包圍框及對應(yīng)的可能實(shí)例。
通常在上述策略中,軸對準(zhǔn)包圍框可以很好地覆蓋大多數(shù)自然對象的形狀,然而,在染色體分割的任務(wù)中,分裂中期照片中的染色體通常以不同方向的可彎曲條帶物形態(tài)出現(xiàn),導(dǎo)致軸對準(zhǔn)包圍框中存在大量冗余的非目標(biāo)區(qū)域。對于在圖像中密集分布的染色體來說,這將使它們的包圍框出現(xiàn)大量重疊。設(shè)想更極端的情況,兩條相互交叉的染色體之間的軸對準(zhǔn)包圍框可能完全重疊,因此,Mask R-CNN 的這種軸對準(zhǔn)包圍框策略會使NMS 算法出現(xiàn)包圍框過度抑制的現(xiàn)象,錯(cuò)誤地丟棄許多真實(shí)的染色體實(shí)例,從而導(dǎo)致較低的召回率并最終影響分割性能。顯然,使用有向包圍框是一個(gè)更好的選擇。它可以更緊密地覆蓋染色體實(shí)例,大大減少重疊區(qū)域,從而緩解NMS 的過度抑制問題。此外,有向包圍框?qū)嶋H上先驗(yàn)地引入了方向信息,是對實(shí)例更精確建模,有利于位置回歸的準(zhǔn)確性?;谏鲜鱿敕ǎ疚亩x了有向包圍框的形式,并在RoIAlign 層后添加一個(gè)額外分支以預(yù)測每個(gè)RoI 對應(yīng)的有向包圍框。網(wǎng)絡(luò)基于IoU對有向包圍框進(jìn)行NMS處理。
2.1.2 有向包圍框回歸
通過簡單地指定水平邊長為寬、垂直邊長為高以及中心點(diǎn)坐標(biāo),就可以確定地、統(tǒng)一地描述軸對準(zhǔn)包圍框。然而,在引入方向信息后,架構(gòu)需要重新考慮包圍框的形式化描述。參考OpenCV(Open source Computer Vision library)中關(guān)于旋轉(zhuǎn)矩形RotatedRect 類的特性,可以使用類似的表述來表示有向包圍框。如圖2 所示,平面直角坐標(biāo)系以圖像的左上角為原點(diǎn),垂直向下和水平向右分別作為y 軸和x 軸的正方向。x軸逆時(shí)針旋轉(zhuǎn)直到平行于有向包圍框的第一條邊的角度定義為有向包圍框旋轉(zhuǎn)角度α,其弧度范圍為這里,所述第一條邊的兩個(gè)端點(diǎn)按順時(shí)針旋轉(zhuǎn)方向分別定義為頂點(diǎn)1 和頂點(diǎn)2,如此也同時(shí)順時(shí)針確定了頂點(diǎn)0 和頂點(diǎn)3 的位置。本文還令第一條邊(或其平行邊)的長度定義為寬(width),而垂直于寬度邊的邊的長度定義為高(height)。根據(jù)上述定義,任何一個(gè)有向包圍框都可以由其兩個(gè)對角頂點(diǎn)的坐標(biāo)及有向包圍框旋轉(zhuǎn)角度α 唯一確定。設(shè)五元組(x1,y1,x3,y3,α)為一個(gè)有向包圍框表示,其中(x1,y1)和(x3,y3)分別表示頂點(diǎn)1 和頂點(diǎn)3 的坐標(biāo),α 表示有向包圍框旋轉(zhuǎn)角度。請注意,為了便于歸一化,本文在這里不使用寬和高等距離度量來表示有向包圍框,但它們都是定義明確且可計(jì)算的。
圖2 有向包圍框的表示Fig.2 Representation of oriented bounding box
與Mask R-CNN中的軸對準(zhǔn)包圍框類似,有向包圍框回歸的目標(biāo)是訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)從錨框(anchors)坐標(biāo)到實(shí)例的最小包圍框真值的一種數(shù)學(xué)變換形式(偏移量),而不是直接學(xué)習(xí)真值,這樣可以使其更容易學(xué)習(xí)到包圍框的表示。如圖1 所示,除了實(shí)例分類分支和軸對準(zhǔn)包圍框分支外,有向包圍框分支將以一個(gè)額外的全連接層形式與它們共享頭部權(quán)值,以預(yù)測有向包圍框的五元組偏移量。設(shè)t=(tx1,ty1,tx3,ty3,tα)表示網(wǎng)絡(luò)預(yù)測的有向包圍框五元組偏移量表示其真值,其中各個(gè)參數(shù)定義如下:
其中Lreg(t*,t)與文獻(xiàn)[5]中定義的其他分支一樣,直接加入到多任務(wù)損失公式中。在有向包圍框回歸預(yù)測之后,網(wǎng)絡(luò)在NMS中采用由有向包圍框凸多邊形面積計(jì)算得到的skew-IoU(skew Intersection-over-Union)[21]替代原來軸對準(zhǔn)包圍框所使用的IoU度量。
2.2.1 研究動機(jī)
這里首先簡要回顧一下NMS 過程。在Mask R-CNN 框架下,NMS 算法依據(jù)區(qū)域推薦對應(yīng)的實(shí)例分類預(yù)測分?jǐn)?shù)抑制冗余的包圍框。在標(biāo)準(zhǔn)NMS 算法中,最高得分包圍框首先被選擇,接受并認(rèn)為其確實(shí)覆蓋了一個(gè)對象。然后,計(jì)算選定包圍框和其余每個(gè)包圍框之間的IoU。IoU 高于預(yù)設(shè)閾值的任何包圍框都將被視為冗余并被抑制剔除。在剩余的包圍框中,選擇下一個(gè)得分最高的包圍框,重復(fù)上述過程,直到?jīng)]有剩余的包圍框?yàn)橹?。?jīng)過NMS 處理后,將一定數(shù)量排名靠前的選定包圍框?qū)?yīng)的區(qū)域推薦作為最終檢測結(jié)果。
在上述方法中,IoU 作為相似程度的度量,是判斷包圍框是否冗余的關(guān)鍵。更好的包圍框相似性度量有助于提高NMS的性能。事實(shí)上,通過引入有向包圍框,整個(gè)架構(gòu)有了利用方向信息對實(shí)例進(jìn)行更好建模的能力。在圖3 所示軸對準(zhǔn)包圍框的簡單情況下,假設(shè)B1是NMS 當(dāng)前選擇的最高得分包圍框,B1和B2之間的IoU 與B1和B3之間的IoU 相等,因此B2與B3在數(shù)值上對B1有同樣的相似性。然而仍然可以觀察到,在幾何直覺上B2比B3在邊的空間位置關(guān)系上與B1更具有相似性。具體地說,B2和B1的長邊都是垂直的,而B3的長邊卻是水平的;B2和B1的短邊都是水平的,而B3的短邊卻是垂直的。引入有向包圍框后,也有類似的觀察。然而對于兩個(gè)有向包圍框來說,邊垂直或水平只是很少見的情況,因此可以用兩個(gè)有向包圍框各自一組邊之間的夾角來定量地描述它們的位置關(guān)系。注意,長邊與短邊作為一組相對概念是非常不穩(wěn)定的。例如,在矩形邊長非常相似的情況下,微量擾動就足以把長邊技術(shù)上轉(zhuǎn)換為短邊,反之亦然。更極端的情況,由于正方形框的所有邊長都相等,因此長邊和短邊是未定義的。所以,長邊短邊的尺度關(guān)系實(shí)際上決定了觀察者對包圍框相似性觀察的信任程度:當(dāng)長邊短邊尺度差異較大時(shí),觀察者更有信心根據(jù)邊的位置關(guān)系判斷兩個(gè)包圍框相似或不相似;相反,觀察者就很難對自己的判斷有十足的把握。
圖3 IoU相等時(shí)不同邊關(guān)系的兩組軸對準(zhǔn)包圍框?qū)Ρ菷ig.3 Comparison of two groups of axis-aligned bounding boxes with different edge relationships when IoU is equal
基于以上見解,可以開發(fā)一種加權(quán)方法以改進(jìn)包圍框IoU相等情況下的相似性度量。定性地考慮長短邊比例和長邊間夾角兩個(gè)因素,如圖4 所示,兩個(gè)有向包圍框?qū)⒊霈F(xiàn)以下任意情形之一:
a)兩個(gè)有向包圍框具有相對較大的長邊夾角,且它們各自長短邊之間的尺度比例有相對較大的差異。
b)兩個(gè)有向包圍框具有相對較小的長邊夾角,且它們各自長短邊之間的尺度比例有相對較大的差異。
c)至少有一個(gè)有向包圍框長短邊之間的尺度比例有相對較小的差異。
圖4 兩個(gè)有向包圍框的三種存在情形Fig.4 Three existence situations of two oriented bounding boxes
當(dāng)IoU 相等時(shí),觀察者可以判斷情形a)相比情形b)相似的程度更低,換言之更有可能是兩個(gè)不同實(shí)例的包圍框,且相比情形c)中類似的情況觀察者做如此判斷的信心更高,因此希望適當(dāng)降低NMS 的抑制度。為此,應(yīng)該為IoU 設(shè)置一個(gè)相對較小的權(quán)重因子,按相似程度最終趨近于0。對于另外兩種情況,情形b)的包圍框較相似,而情形c)的判斷不可信,因此權(quán)重應(yīng)當(dāng)避免對這兩種情形下NMS 的抑制產(chǎn)生干擾,IoU的權(quán)重因子應(yīng)該盡可能接近1。為此,如圖1 所示,本文提出了角度加權(quán)交并比度量,即AwIoU,它實(shí)際上是方向信息作為先驗(yàn)知識在度量設(shè)計(jì)中應(yīng)用的體現(xiàn)。
2.2.2 AwIoU
為了數(shù)學(xué)表達(dá)的簡潔性和統(tǒng)一性,下文中考察非相似性而不是相似性,這不影響最后的結(jié)論。考慮一個(gè)有向包圍框B,其寬、高和包圍框旋轉(zhuǎn)角度分別表示為wB,hB和αB。本文定義有向包圍框B 的邊長非相似性(edge dissimilarity)φB∈[0,1)為:
邊長非相似性φB是對有向包圍框B 的長短邊長之間尺度差異的度量。當(dāng)長短邊長尺度差異較大時(shí),φB趨向于1,否則趨向于0??紤]以同樣方式定義的另一個(gè)有向包圍框B*。本文將B 和B*兩個(gè)有向包圍框的整體邊長非相似性ΦBB*∈[0,1)定義為:
其中k >0 是用于調(diào)節(jié)有向包圍框的邊長非相似性的顯著程度的參數(shù)。較大的k 意味著有向包圍框的整體邊長非相似性的顯著程度對長短邊長尺度的差異要求較高。通常設(shè)置其為0.3,以在長短邊長具有較小差異時(shí)就可獲得較高的邊長非相似程度。接著,本文將有向包圍框的長邊旋轉(zhuǎn)角度θ ∈(0,π]定義為:
若將有向包圍框B 和B*的長邊旋轉(zhuǎn)角度θ分別表示為θB和θB*,本文定義B 和B*的角度非相似性(angle dissimilarity)ΘBB*∈[0,1]為:
角度非相似性ΘBB*是對有向包圍框B和B*長邊夾角的度量。當(dāng)長邊夾角較大時(shí),ΘBB*趨向于1,否則趨向于0。利用高斯函數(shù)良好的平滑特性,本文構(gòu)造了含邊長非相似性和角度非相似性的如下公式來計(jì)算B 和B*的權(quán)重因子λBB*∈(0,1]:
其中:σang>0和σedg>0是控制高斯函數(shù)曲線陡度的參數(shù),前者通常取一個(gè)較大數(shù),而后者通常取一個(gè)較小數(shù)??梢远ㄐ缘貋矸治靓礏B*,ΘBB*和λBB*的關(guān)系:如果B 和B*的邊非相似性ΦBB*足夠大,則趨向于一個(gè)小的數(shù)。如果它與σang相乘的結(jié)果仍然足夠小,將其視為常數(shù)時(shí)λBB*高斯函數(shù)曲線將在原點(diǎn)附近有一個(gè)陡峭的下坡。這意味著當(dāng)B和B*的角度非相似性ΘBB*足夠大時(shí),λBB*趨向于一個(gè)小的數(shù),這對應(yīng)于前面表述的情形a)。當(dāng)ΘBB*很小時(shí),λBB*趨向于1,這對應(yīng)于情形b)。當(dāng)ΦBB*足夠小時(shí)趨向于1,然后λBB*趨向于由于σang通常很大,因此λBB*高斯曲線在原點(diǎn)附近相對平坦。因此,無論ΘBB*怎樣變化,λBB*仍然足夠接近1,這與情形(c)相對應(yīng)。Φ,Θ 和λ 三者在σedg為0.1、σang為10時(shí)的部分函數(shù)圖像如圖5所示。
圖5 權(quán)重因子λ與邊長非相似性Φ、角度非相似性Θ的函數(shù)圖像(σedg=0.1,σang=10)Fig.5 Function image of weight factor λ,edge dissimilarity Φ and angle dissimilarity Θ(σedg=0.1,σang=10)
最終,有向包圍框B和B*的AwIoU定義如下:
其中IoUBB*是指有向包圍框skew-IoU 值。AwIoU 度量可作為NMS中冗余包圍框的判別準(zhǔn)則。結(jié)合文獻(xiàn)[22]提出的方差投票方法,AwIoU 度量還可以幫助精修有向包圍框以提升坐標(biāo)回歸的結(jié)果。
2.3.1 研究動機(jī)
在Mask R-CNN 框架中,RoIAlign 層將軸對準(zhǔn)包圍框?qū)?yīng)的區(qū)域特征傳送至FCN 分支中,生成區(qū)域推薦的二值掩碼。由于染色體圖像中存在大量方向各異且粘連重疊頻繁的染色體,若仍然采用軸對準(zhǔn)包圍框?qū)?yīng)區(qū)域特征傳至掩膜分支,勢必造成單個(gè)區(qū)域特征內(nèi)包含復(fù)數(shù)條染色體的現(xiàn)象。從FCN分支結(jié)構(gòu)上看,F(xiàn)CN 分支中特征信息通過四個(gè)3×3 卷積層conv1 到conv4,再通過一個(gè)步長2 的2×2 轉(zhuǎn)置卷積層,最后通過一個(gè)1×1卷積層調(diào)整通道數(shù)后輸出分割結(jié)果。整個(gè)掩模分支結(jié)構(gòu)較為簡單,因此可以設(shè)計(jì)更復(fù)雜的結(jié)構(gòu)來榨取潛在的性能提升?;谝陨嫌^察,考慮到本文提出的網(wǎng)絡(luò)有一個(gè)有向包圍框分支,一個(gè)直觀的想法是可以使用類似Rotated RoIAlign[23]等的層代替原來的RoIAlign,從而直接使用有向包圍框來獲得實(shí)例的緊湊特征。這種思路的優(yōu)點(diǎn)是消除了許多冗余特征并減少了噪聲,但是,該方法的缺點(diǎn)是其過程中使用的仿射變換會導(dǎo)致上下文信息丟失。本文認(rèn)為這會使重疊同標(biāo)簽?zāi)繕?biāo)的分割性能下降,因此可能不適合像染色體分割這樣的任務(wù)。在盡可能保留更多上下文信息的基礎(chǔ)上,本文希望利用有向包圍框提供的方向信息作為先驗(yàn)知識提高染色體分割的性能。考慮到粘連重疊染色體的掩膜預(yù)測過程中,染色體方向信息十分有助于網(wǎng)絡(luò)區(qū)分不同實(shí)例,因此本文提出了有向卷積通路。
2.3.2 有向卷積通路結(jié)構(gòu)
網(wǎng)絡(luò)仍然使用Mask R-CNN 的RoIAlign 操作以得到與軸對準(zhǔn)包圍框?qū)?yīng)的特征圖。在此基礎(chǔ)上,如圖1 所示,網(wǎng)絡(luò)將掩模分支的conv1 到conv3 卷積塊拷貝了5 次,最終得到6 條并行的卷積通路,其中各個(gè)卷積塊分別記為conv1_1,conv2_1,conv3_1,conv1_2,conv2_2,…,conv3_6。其余結(jié)構(gòu)保持不變。
圖6 有向卷積通路的裝配操作Fig.6 Assembly operation of oriented convolutional paths
本文將所提出的Mask Oriented R-CNN 框架在收集的染色體分裂中期照片數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并與原始的Mask RCNN模型進(jìn)行了比較。本文還在數(shù)據(jù)集上進(jìn)行了簡單的消融研究。
圖7 是數(shù)據(jù)處理過程中涉及的幾種染色體圖像示例。本文實(shí)驗(yàn)一共收集了181 張分割標(biāo)注的染色體分裂中期照片,包含背景、染色體和雜質(zhì)3 個(gè)對象類別,是尺寸為1 017×896的單通道灰度圖。由于獲取更多標(biāo)注圖片較為困難,還需另想方法擴(kuò)充染色體多樣性。事實(shí)上,本文實(shí)驗(yàn)還收集到了50 107組單染色體圖像,圖像大小為200×200。這些圖像是由醫(yī)生從染色體分裂中期照片中通過圖像處理軟件手工分割,并進(jìn)行對比拉伸等圖像處理過的后處理圖,與原始中期照片中的風(fēng)格不一致,且大部分所對應(yīng)的原始中期照片均已丟失。最終,僅找到1 875條染色體可以找到對應(yīng)的原始中期照片上分割出來的子圖信息。為了充分利用所有的單染色體圖像,本文利用這1 875條染色體的處理后圖像為輸入,對應(yīng)的原始中期分割子圖為真值訓(xùn)練了一個(gè)U-Net,以實(shí)現(xiàn)醫(yī)生手工處理到原始照片風(fēng)格的遷移。利用這個(gè)U-Net,本文對所有50 107組單染色體圖像進(jìn)行推斷遷移得到原始照片風(fēng)格的分割子圖,并將這些染色體子圖與雜質(zhì)圖一起按一定的數(shù)量配比隨機(jī)平移、旋轉(zhuǎn)、粘連,最終合成了15 728張分裂中期原始照片。本文實(shí)驗(yàn)利用這15 728張?jiān)硷L(fēng)格合成分裂中期照片作為訓(xùn)練集,而181 張真實(shí)的原始分裂中期照片作為測試集進(jìn)行所有網(wǎng)絡(luò)的訓(xùn)練。
圖7 幾種染色體圖像示例Fig.7 Examples of several types of chromosome images
至于評價(jià)指標(biāo),本文使用不同IoU 閾值下的平均精度均值(mean Average Precision,mAP)來評估和報(bào)告結(jié)果,這里簡記為AP。本文采取COCO 數(shù)據(jù)集(Dataset of Common Objects in Context Visual Recognition Challenge)定義的計(jì)算方法[24],且算法中的IoU 采用掩膜IoU。這里AP50表示使用IoU 閾值0.5來確定預(yù)測的掩膜在評估中是否為陽性,其余IoU 閾值的指標(biāo)表示方法類似。不帶閾值表示的AP,指IoU 以0.5 到0.95區(qū)間內(nèi)每隔0.05作為閾值時(shí)的平均結(jié)果。
Mask Oriented R-CNN 模型的構(gòu)建是以Abdulla[25]實(shí)現(xiàn)的Mask R-CNN 為基礎(chǔ)加以改進(jìn)的,其采用了如圖1 所示的ResNet(Residual Network)和FPN 作為主干網(wǎng)絡(luò)。本文實(shí)驗(yàn)中采取的是ResNet-101+FPN 的組合。本文網(wǎng)絡(luò)對于原始Mask R-CNN的部分超參數(shù)進(jìn)行了調(diào)整。網(wǎng)絡(luò)修改了數(shù)據(jù)輸入方式使其可以讀入單通道分裂中期原始圖像,并對輸入圖像統(tǒng)一減去灰度均值229。由于染色體中期分裂照片中目標(biāo)實(shí)例尺寸小且數(shù)量多,RPN 的錨框大小改為[8,16,32,64,128]。增加了訓(xùn)練階段最大真值實(shí)例數(shù)到256,而推理階段也增加到384。為了充分發(fā)揮有向包圍框在NMS 中的優(yōu)勢,本文在部分實(shí)驗(yàn)中取消了RPN 階段中的NMS 過程,以在RoIAlign 階段得到更多的區(qū)域推薦。在AwIoU 中本文依據(jù)預(yù)先簡單的實(shí)驗(yàn)得到k 的參數(shù)值為0.3,σedg為0.1,σang為10。實(shí)驗(yàn)還將原始Mask R-CNN的Hard-NMS(Hard Non-Maximum Suppression)方式改進(jìn)為基于高斯函數(shù)的Soft-NMS(Soft Non-Maximum Suppression)[26]以實(shí)現(xiàn)更好的性能,其中設(shè)置Soft-NMS 的σ 為1,丟棄置信度閾值為0.85。本文還以有向包圍框和AwIoU為基礎(chǔ)實(shí)現(xiàn)了文獻(xiàn)[22]中的KL-Loss 及方差投票修正。KLLoss方法將包圍框分支預(yù)測結(jié)果與真值分別建模為高斯分布和狄拉克分布,并以這兩種分布之間的KL 散度(Kullback-Leibler divergence)作為新的包圍框回歸損失,以預(yù)測包圍框的不確定性。本文依照文獻(xiàn)[22]中的建模方法分別對軸對準(zhǔn)包圍框分支和本文所提出的有向包圍框分支進(jìn)行了建模,并將這兩個(gè)分支計(jì)算得到的KL 散度作為兩個(gè)新的損失添加到Mask Oriented R-CNN 的多任務(wù)損失公式中進(jìn)行訓(xùn)練。文獻(xiàn)[22]提出的方差投票修正是指,以KL-Loss 得到的包圍框不確定性(即“方差”)與NMS中各包圍框之間的IoU 為兩個(gè)考察因子,對包圍框的坐標(biāo)預(yù)測進(jìn)行加權(quán)投票精修。這里,實(shí)驗(yàn)將IoU 替換為本文提出的AwIoU,并對軸對準(zhǔn)包圍框和有向包圍框都進(jìn)行了方差加權(quán)精修。在實(shí)現(xiàn)中,方差投票修正σt參數(shù)設(shè)置為0.045,NMS 投票閾值為1E -5。網(wǎng)絡(luò)以COCO 數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重對原始Mask R-CNN對應(yīng)的層進(jìn)行初始化,其余權(quán)重參數(shù)皆進(jìn)行隨機(jī)初始化。使用Adam 優(yōu)化器進(jìn)行訓(xùn)練,β1=0.9,β2=0.999,學(xué)習(xí)率初始化為0.001。所有實(shí)驗(yàn)都以1的批大小進(jìn)行,每次實(shí)驗(yàn)訓(xùn)練135個(gè)epoch,取最后一次迭代的模型評估報(bào)告。實(shí)驗(yàn)機(jī)器為一臺擁有16 GB 內(nèi)存,型號為Intel Core i7-8700 的處理器以及一塊NVIDIA GTX1080Ti獨(dú)立顯卡的64位Windows 10系統(tǒng)的計(jì)算機(jī)。
表1 總結(jié)了在本文實(shí)驗(yàn)的測試集上進(jìn)行染色體分割的不同方法的性能。在有向包圍框(OBB)的情況下,染色體實(shí)例緩解了過度抑制問題,并得到了更加緊實(shí)精確的包圍框,因此相比基準(zhǔn)(Mask R-CNN)而言,除了最苛刻的AP90一項(xiàng)外,無論是低要求指標(biāo)AP50還是較高要求的AP80幾乎全都比基準(zhǔn)要好得多,更是在AP 這一項(xiàng)上提升了2.71 個(gè)百分點(diǎn)的性能。在添加有向卷積通路(OCP)后,AP提升了1.96個(gè)百分點(diǎn)的性能,此外AP50、AP60、AP70均得到了2個(gè)百分點(diǎn)以上的提升。
表1 不同方法的染色體分割性能比較 單位:%Tab.1 Comparisons of different methods on chromosome segmentation performance unit:%
為了更充分地發(fā)揮有向包圍框的作用,網(wǎng)絡(luò)去除了RPN階段的基于軸對準(zhǔn)包圍框的NMS 操作,因此更多的區(qū)域推薦基于有向包圍框進(jìn)行NMS,大部分指標(biāo)的性能再次得到小幅度提升,AP 提升了0.12 個(gè)百分點(diǎn)。然后網(wǎng)絡(luò)實(shí)現(xiàn)了文獻(xiàn)[22]中的KL-Loss 方法,還為有向包圍框?qū)崿F(xiàn)了方差投票方法,由表1 可見這給高要求的AP70、AP80、AP90帶來了較大提升,但與此同時(shí)卻對較低要求的其余指標(biāo)帶來了負(fù)面影響,綜合指標(biāo)AP 也因此下降了0.04 個(gè)百分點(diǎn)。最后,網(wǎng)絡(luò)實(shí)現(xiàn)了AwIoU 度量替代了原先的skew-IoU,盡管幅度不大,但幾乎在所有評價(jià)指標(biāo)中都獲得了提升,AP 再次提升了0.16 個(gè)百分點(diǎn),AP50則提升了0.36個(gè)百分點(diǎn)。最終,Mask Oriented R-CNN相較于基準(zhǔn)的AP 提升了4.91 個(gè)百分點(diǎn),AP50則提升了10.22個(gè)百分點(diǎn)。Mask Oriented R-CNN 分割效果如圖8 所示,左邊為染色體照片輸入原圖,放大的部分中左下角的條帶物為相互粘連的染色體,左上和右下的帶尾的黑團(tuán)為雜質(zhì);右邊是模型分割結(jié)果,目標(biāo)實(shí)例被網(wǎng)絡(luò)預(yù)測得到的掩模所覆蓋,可以看到粘連的染色體和雜質(zhì)均取得較好的分割效果。
圖8 Mask Oriented R-CNN染色體分割效果Fig.8 Chromosome segmentation effect of Mask Oriented R-CNN
本文提出了名為Mask Oriented R-CNN 的實(shí)例分割框架,用于解決核型分析中的染色體分割任務(wù)。本文基于Mask RCNN 設(shè)計(jì)了有向包圍框、AwIoU 度量和有向卷積通路結(jié)構(gòu)等幾個(gè)有效的組件來獲取和應(yīng)用方向信息,并提升了染色體分割性能。本文將方向信息分別以包圍框、冗余性度量和掩膜分支三個(gè)彼此不同卻又緊密相關(guān)的角度融入到了Mask RCNN 框架之中。雖然消融實(shí)驗(yàn)還不夠充分,本文還是得到了令人印象深刻的實(shí)驗(yàn)結(jié)果。未來的其中一個(gè)工作方向是提升Mask Oriented R-CNN 框架的泛用性,將這個(gè)框架應(yīng)用到更多的實(shí)際場景之中。