張家偉,李晨,賀良子,陳昊
1.東北大學(xué) 醫(yī)學(xué)與生物信息工程學(xué)院,遼寧 沈陽(yáng) 110819;2.北京航空航天大學(xué) 生物與醫(yī)學(xué)工程學(xué)院,北京 100191
宮頸癌是發(fā)病率與死亡率雙高的婦科惡性腫瘤,因此對(duì)于宮頸癌的早期診斷與篩查是十分關(guān)鍵與必要的[1]。組織病理學(xué)方法是宮頸癌診斷的金標(biāo)準(zhǔn),但是此方法需經(jīng)驗(yàn)豐富的專家對(duì)大量組織病理學(xué)圖像進(jìn)行分析與診斷,具有很強(qiáng)的主觀性和不確定性[2]。因此,一種高效準(zhǔn)確的診斷方法急需被開發(fā)并應(yīng)用。使用計(jì)算機(jī)人工智能輔助診斷將大幅推動(dòng)宮頸癌篩查與診斷工作的普及。
國(guó)內(nèi)在計(jì)算機(jī)輔助宮頸癌組織病理圖像分析方面的相關(guān)研究較少。趙英紅等[3]在CIELab顏色空間中采用K均值(K-means)彩色聚類算法分割宮頸癌細(xì)胞。寧梓淯等[4]使用支持向量機(jī)對(duì)宮頸癌組織病理學(xué)圖像進(jìn)行分類。
國(guó)外有很多將計(jì)算機(jī)技術(shù)應(yīng)用在組織病理圖像分析方面的相關(guān)研究。Keenan等[5]使用Delaunay三角剖分算法提取了圖像特征,并使用傳統(tǒng)的樹形統(tǒng)計(jì)結(jié)構(gòu)(決策樹)進(jìn)行分類。Naghdy等[6]提出了一個(gè)兩層分類策略,使用Gabor濾波器組進(jìn)行局部分類和全局分類的異常傳播。Purwanti等[7]提出了一種利用人工神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)矢量量化對(duì)正常和異常宮頸細(xì)胞進(jìn)行分類的方法,準(zhǔn)確率達(dá)到了90%。Park等[8]使用了基于條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)模型的分類器,以概率方式去結(jié)合相鄰區(qū)域從而獲得分類結(jié)果。綜上所述,針對(duì)宮頸癌組織病理學(xué)圖像的方面的研究仍有較大的進(jìn)步空間,尤其是將CRF應(yīng)用于宮頸癌病理圖像分析仍未取得突破性的進(jìn)展。
臨床上傳統(tǒng)方法為涂片式檢查,刮取宮頸處的細(xì)胞并涂抹在涂片上,采用免疫組織化的染色方法進(jìn)行染色后放置在高倍顯微鏡下進(jìn)行拍照,獲得組織病理圖像,再由專家進(jìn)行分類鑒定[9]。目前,使用細(xì)胞病理學(xué)的方法對(duì)于宮頸癌進(jìn)行人工診斷相對(duì)普及,此種方法對(duì)于醫(yī)生的要求較高,不同的病理學(xué)家之間以及同一病理學(xué)家在不同狀態(tài)下都有可能對(duì)相同的組織病理學(xué)或細(xì)胞病理學(xué)圖像產(chǎn)生不同的判斷[10]。本文提出的基于CRF的宮頸癌組織病理學(xué)圖像的自動(dòng)分析和診斷,可以提高分類準(zhǔn)確率,達(dá)到提高計(jì)算機(jī)輔助診斷系統(tǒng)效果的目的。
圖1為本文方法的整體流程圖,主要由兩部分組成。首先,提出一種基于紋理特征與CRF的宮頸癌細(xì)胞分類方法。其次,對(duì)圖像進(jìn)行灰度化及網(wǎng)格化的預(yù)處理,并使用灰度共生矩陣(Gray-Level Co-occurrence Matrix,GLCM)研究紋理特征對(duì)于圖像分類準(zhǔn)確率的影響,通過調(diào)整隨機(jī)森林的參數(shù),獲得三種分類器并比較不同的分類器,分別為CRF的一元?jiǎng)莺投獎(jiǎng)葸x擇與其相符合的分類器,并在最終的CRF模型中計(jì)算聯(lián)合概率分布的結(jié)果。
圖1 開發(fā)流程示意圖
由于直接獲取的宮頸癌組織病理學(xué)圖像存在因抖動(dòng)、電子脈沖干擾等因素而導(dǎo)致的圖片失真,需要對(duì)已有的病理學(xué)圖像進(jìn)行預(yù)處理。為了使計(jì)算機(jī)能夠更為高效、準(zhǔn)確地進(jìn)行判定分類,需要對(duì)圖像進(jìn)行去噪和網(wǎng)格化處理。
1.2.1 圖像去噪
根據(jù)實(shí)驗(yàn)圖片的實(shí)際情況,選擇圖像平滑作為主要去噪方式。本實(shí)驗(yàn)采用中值濾波對(duì)圖像進(jìn)行去噪。噪聲處理前后對(duì)比圖像如圖2所示。
圖2 噪聲處理前后對(duì)比圖像
1.2.2 圖像網(wǎng)格化
由于本實(shí)驗(yàn)為基于圖像的每一個(gè)區(qū)塊進(jìn)行特征提取,因此網(wǎng)格化是預(yù)處理中的必要操作。網(wǎng)格化處理后的圖像如圖3所示。
圖3 網(wǎng)格化處理后的圖像與原圖像對(duì)比
本研究中,采用GLCM進(jìn)行紋理特征提取。GLCM是一種通過計(jì)算圖像二階組合的條件概率密度來(lái)區(qū)分不同紋理的特征提取方法,具體表現(xiàn)為在圖像中通過對(duì)具有一定距離、灰度值等狀況進(jìn)行統(tǒng)計(jì)而形成的矩陣[11-13]。
通過不同特征向量及其統(tǒng)計(jì)值的組合最終嘗試實(shí)驗(yàn)了8種情況(其中,像素間距默認(rèn)為1,GLCM的灰度級(jí)分別設(shè)置為4、8、16匹配以下多種情況)。
(1)參數(shù)設(shè)置1:僅使用GLCM本身作為特征向量,其中掃描方向設(shè)置為水平方向,即單方向參數(shù)。
(2)參數(shù)設(shè)置2:僅使用GLCM本身作為特征向量,其中掃描方向設(shè)置為4個(gè)方向參數(shù),即方向、方向、方向及方向(通常情況下4個(gè)方向分別表示為:[0,1],[-1,0],[-1,1],[-1,-1],見圖 4)。
圖4 GLCM 4個(gè)方向參數(shù)
(3)參數(shù)設(shè)置3:選擇GLCM的4種特征值,即對(duì)比度、齊次性、互相關(guān)、能量作為特征向量,其中掃描方向設(shè)置為4個(gè)方向參數(shù),即方向、方向、方向及方向(圖5)。
圖5 宮頸癌組織病理圖像采用4個(gè)方向參數(shù)提取出的4個(gè)GLCM
(4)參數(shù)設(shè)置4:在第3種情況的基礎(chǔ)上,將4種特征向量分別統(tǒng)計(jì)均值及方差,形成最后的8個(gè)統(tǒng)計(jì)特征向量,掃描方向仍為4個(gè)方向。
(5)參數(shù)設(shè)置5:使用3個(gè)GLCM的特征向量,即平滑度、三階矩、一致性,掃描方向仍為4個(gè)方向。
(6)參數(shù)設(shè)置6:將第4種情況及第5種情況相結(jié)合,形成11個(gè)統(tǒng)計(jì)特征,掃描方向仍為4個(gè)方向。
(7)參數(shù)設(shè)置7:使用矩陣的其他4種特征向量,即慣性矩、能量、互相關(guān)、熵,掃描方向仍為4個(gè)方向。
(8)參數(shù)設(shè)置8:將第7種情況的4個(gè)特征分別取均值及方差,形成最后的8統(tǒng)計(jì)特征,掃描方向仍為4個(gè)方向。
以上為實(shí)驗(yàn)當(dāng)中用到的8種GLCM特征提取情況,且為了實(shí)現(xiàn)盡可能高的分類準(zhǔn)確率,將灰度圖的灰度級(jí)做了3種情況的處理,將原灰度圖的灰度級(jí)分別壓縮到4灰度級(jí)、8灰度級(jí)以及16灰度級(jí),這樣每張圖片相當(dāng)于被分為3張灰度級(jí)不同的子圖,最后將3種灰度級(jí)的圖片與8種特征提取情況相匹配獲得24種不同的結(jié)果。
CRF是由Lafferty等[14]于2001年提出的一種概念,它是一種將最大熵模型和隱馬爾可夫模型相結(jié)合的無(wú)向圖模型[15-16]。近年來(lái),其常被應(yīng)用于詞性標(biāo)注和命名實(shí)體標(biāo)識(shí)中,并取得了顯著的成就[17]。CRF是典型的判別模型,通過將其勢(shì)函數(shù)接連相乘從而獲得最終的聯(lián)合概率。本研究設(shè)計(jì)了一種多層隱CRF(Multilayer Hidden CRF,MHCRF)框架用于解決復(fù)雜的宮頸癌組織病理學(xué)圖像問題。MHCRF可以用式(1)來(lái)表示:
其中,Z用公式(2)表示:
圖6為MHCRF的整體框架構(gòu)圖。為了將不同分化程度的病理圖像準(zhǔn)確分類,首先將經(jīng)過免疫組織化學(xué)染色后的圖片分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集,經(jīng)預(yù)處理后,將訓(xùn)練集和驗(yàn)證集的補(bǔ)丁級(jí)組織病理學(xué)圖像輸入到MHCRF框架進(jìn)行弱監(jiān)督學(xué)習(xí)[18],通過隨機(jī)森林分類器對(duì)圖像塊進(jìn)行預(yù)分類。接著基于所選擇的圖像塊的分類結(jié)果,生成MHCRF的一元?jiǎng)莺投獎(jiǎng)荩罱K將一元?jiǎng)菖c二元?jiǎng)萁M合起來(lái)計(jì)算最終圖像級(jí)的分類結(jié)果。
在圖6中,左邊為一元?jiǎng)莸挠?jì)算過程,右邊為二元?jiǎng)莸挠?jì)算過程。第一層顯示了與第二層對(duì)應(yīng)的真實(shí)標(biāo)簽,第一層為不可見層,而第二層為可見層。第三層中,一元?jiǎng)荼硎久總€(gè)補(bǔ)丁級(jí)圖像被提取出來(lái)的紋理特征,而二元?jiǎng)菔歉鶕?jù)布局計(jì)算目標(biāo)圖像塊周圍8個(gè)圖像塊的特征,將特征總和作為中央目標(biāo)圖像塊的最終特征,根據(jù)1.3介紹的8種GLCM參數(shù)設(shè)置情況,將8種參設(shè)條件下一元?jiǎng)莺投獎(jiǎng)萏崛〉奶卣鬏斎氲谒膶?。第四層采用隨機(jī)森林分類器來(lái)獲得補(bǔ)丁級(jí)圖像的先驗(yàn)概率。第五層通過調(diào)整隨機(jī)森林分類器的內(nèi)部參數(shù)獲得多種不同效果的分類器,同時(shí)提取不同的特征向量及其統(tǒng)計(jì)值,接著將分類器與各種特征提取情況分別組合,從中選擇分類效果最優(yōu)的組合作為最終的一元?jiǎng)菖c二元?jiǎng)菽P汀W詈笤诘谄邔又薪Y(jié)合上述模型并獲得最終的MHCRF模型。
圖6 MHCRF(GLCM)框架構(gòu)圖
一元?jiǎng)荩簶?biāo)簽xi取值c(c∈L)的概率與式(1)的一元?jiǎng)莶糠枝読(xi,Y)相關(guān),其中式(1)由φi(xi,Y)∝p(xi=c|fi(Y))給出,圖像的數(shù)據(jù)作為位矢特征向量fi(Y)被表達(dá),并且可能取決于Y的所有數(shù)據(jù)。
在該架構(gòu)中的第三層提取GLCM特征。為了獲得標(biāo)簽概率,將不同的特征提取情況輸入到該MHCRF的第四層,即隨機(jī)森林分類器,并將樹的數(shù)量設(shè)置為2n(n=2,4,8)。最終獲得3×3×8個(gè),即72個(gè)先驗(yàn)準(zhǔn)確率結(jié)果,并從中挑選準(zhǔn)確率最高的一個(gè)作為一元?jiǎng)葑罱K的代表。
二元?jiǎng)荩菏?1)的二元?jiǎng)莶糠?,即φij(xi,xj,Y)表示了相鄰位置的和如何獲取標(biāo)簽(xi,xj)=(c,c')給出的數(shù)據(jù),對(duì)應(yīng)公式為:φij(xi,xj,Y)=p(xi=c;xj=c'|fi(Y)fj(Y))。圖7為實(shí)驗(yàn)中二元?jiǎng)菟玫降牟季?,?shí)驗(yàn)使用這種布局通過計(jì)算該補(bǔ)丁周圍八鄰域的補(bǔ)丁的特征之和來(lái)表征該中心補(bǔ)丁的特征向量。
圖7 二元?jiǎng)莶季?“∑”代表將目標(biāo)補(bǔ)丁的八鄰域特征向量之和作為該補(bǔ)丁的特征向量)
系統(tǒng)平臺(tái):Microsoft Windows 10;
編程語(yǔ)言:Matlab 2018a;
CPU :3.60 GHz Intel Core i7-7700 ;
GPU:GeForce GTX 1080 8 GB;
內(nèi)存:32 GB RAM。
2.2.1 數(shù)據(jù)庫(kù)來(lái)源
本實(shí)驗(yàn)采用宮頸癌組織病理圖像,在細(xì)胞病理學(xué)的角度通常把宮頸癌分為高、中、低分化三個(gè)分化階段。本實(shí)驗(yàn)所用到的宮頸癌組織病理圖像均來(lái)自于中國(guó)醫(yī)科大學(xué)附屬盛京醫(yī)院的病理科醫(yī)生。圖像采用了免疫組化染色法。原圖分辨率為2560×1920,經(jīng)過預(yù)實(shí)驗(yàn)得出,由于顯存過小,此分辨率的圖像無(wú)法穩(wěn)定進(jìn)行實(shí)驗(yàn)。為了加快運(yùn)轉(zhuǎn)速度,且盡可能保留更多的圖片信息,逐步降低圖片分辨率,最終可以穩(wěn)定運(yùn)行實(shí)驗(yàn)的圖像分辨率為1280×960。然后使用100×100的滑動(dòng)窗口從圖像的左上角遍歷到右下角,步長(zhǎng)為像素。裁剪之后無(wú)法整除的邊緣部分直接舍棄,這也是圖像裁剪的常規(guī)操作[19]。
2.2.2 數(shù)據(jù)集劃分
數(shù)據(jù)庫(kù)中共有103張圖片,其中有高分化圖像35張,中分化圖像35張,低分化圖像33張。由于本實(shí)驗(yàn)所用的方法為基于MHCRF框架的弱指導(dǎo)學(xué)習(xí),只需要病理圖像的高、中、低三分類標(biāo)簽,并不需要病灶區(qū)域的像素級(jí)標(biāo)簽。本實(shí)驗(yàn)數(shù)據(jù)中訓(xùn)練集包含9張高分化圖像、9張中分化圖像以及9張低分化圖像;驗(yàn)證集包含9張高分化圖像、9張中分化圖像以及8張低分化圖像;測(cè)試集包含17張高分化圖像、17張中分化圖像以及16張低分化圖像。數(shù)據(jù)集的部分示例如圖8所示。
圖8 數(shù)據(jù)集示例
首先求得在不同參設(shè)條件下的MHCRF分類結(jié)果,接著對(duì)不同參設(shè)條件下的實(shí)驗(yàn)結(jié)果進(jìn)行具體分析,通過比較所有的實(shí)驗(yàn)結(jié)果,從中選出最終MHCRF的一元?jiǎng)菀约岸獎(jiǎng)菽P?,最后?jì)算得出MHCRF在驗(yàn)證集以及測(cè)試集的分類準(zhǔn)確率情況。
根據(jù)1.4中所介紹的MHCRF來(lái)架構(gòu)模型。首先,實(shí)驗(yàn)將在隨機(jī)森林分類器層,獲得針對(duì)于GLCM特征的圖像補(bǔ)丁級(jí)(patch-level)的先驗(yàn)概率。接著將隨機(jī)森林分類器分為n=2、n=4、n=8三種情況,并將三種情況分別應(yīng)用于8種GLCM特征提取。最后將組織病理圖灰度級(jí)分別設(shè)置為4、8、16,此unary-MHCRF-GLCM在第四層獲得數(shù)據(jù),如表1所示。
表1 不同GLCM灰度級(jí)下patch-level一元?jiǎng)莘诸悳?zhǔn)確率
綜合以上情況可以看出,在第二種情況中,即使用具有4個(gè)方向參數(shù)的以GLCM本身作為特征向量進(jìn)行實(shí)驗(yàn)時(shí),在灰度級(jí)為8時(shí)并且隨機(jī)森林含有256棵樹時(shí)獲得的Patch-level分類準(zhǔn)確率最高,為0.5150。因此在unary-MHCRF-GLCM的第五層選取其作為最終的一元?jiǎng)萏卣飨蛄?分類器(Feature-classifier)模型。
與一元?jiǎng)輰?shí)驗(yàn)相類似地,在二元?jiǎng)輰?shí)驗(yàn)中也通過改變隨機(jī)森林的樹木情況(2n),將隨機(jī)森林分類器分為n=2、n=4、n=8三種情況,并將三種情況分別應(yīng)用于8種不同情況的GLCM特征提取,同時(shí)將灰度級(jí)分別設(shè)置為4、8、16,由此binary-MHCRF-GLCM在第四層獲得結(jié)果如表2所示。
表2 不同GLCM灰度級(jí)下patch-level二元?jiǎng)莘诸悳?zhǔn)確率
根據(jù)實(shí)驗(yàn)結(jié)果可以看出在第二種參數(shù)設(shè)置情況時(shí),即使用具有4個(gè)方向參數(shù)的GLCM作為特征向量時(shí),灰度級(jí)設(shè)置為16且隨機(jī)森林樹木為256棵時(shí)獲得的Patchlevel分類準(zhǔn)確率最高,為0.5944。因此在binary-MHCRFGLCM的第五層選取其作為最終的二元?jiǎng)萏卣飨蛄?分類器(Feature-classifier)模型。
通過計(jì)算混淆矩陣來(lái)展示最終的分類結(jié)果[20]?;煜仃囃ㄟ^使用行數(shù)和列數(shù)相等的矩陣來(lái)呈現(xiàn)算法性能的可視化方法,通常用于監(jiān)督學(xué)習(xí)。該矩陣的每一列表示的是預(yù)測(cè)標(biāo)簽,而每一行則表示樣本的實(shí)際標(biāo)簽。根據(jù)以上實(shí)驗(yàn),已經(jīng)完成了在MHCRF的第五層中進(jìn)行的Feature-classifier的選擇,接下來(lái)的實(shí)驗(yàn)將會(huì)在圖像的級(jí)別進(jìn)行操作。將驗(yàn)證集圖像輸入到MHCRF-GLCM模型中,最終在驗(yàn)證集圖像上的一元?jiǎng)?、二元?jiǎng)莘诸惤Y(jié)果如圖9a~9b所示。將獲得的一元?jiǎng)菖c二元?jiǎng)莸姆诸惤Y(jié)果輸入到MHCRF模型的最后一層獲得最終的分類準(zhǔn)確率如圖9c所示,混淆矩陣中綠色方塊代表真陽(yáng)率,即分類正確的比例,而灰色方塊為3個(gè)真陽(yáng)率的和,代表了整體的分類準(zhǔn)確率。
圖9 GLCM分類結(jié)果
本文中所提出的弱監(jiān)督MHCRF模型在驗(yàn)證集和測(cè)試集上的分類結(jié)果分別如圖9c~9d所示,可以看到驗(yàn)證集和測(cè)試集的準(zhǔn)確率分別為69.2%和82.0%。從這些結(jié)果可以看出雖然一元?jiǎng)莺投獎(jiǎng)莸穆?lián)合分布在驗(yàn)證集上是穩(wěn)定的,但它在測(cè)試集上具有改善的分類性能。
在MHCRF-GLCM實(shí)驗(yàn)中,通過表1可以看出,在灰度級(jí)相同時(shí),隨著隨機(jī)森林里樹木的棵數(shù)增多,大多數(shù)情況下的分類準(zhǔn)確率會(huì)有所提升。由此可得,當(dāng)隨機(jī)森林中用于分類的決策樹增多時(shí),在大部分情況下可以起到提高分類準(zhǔn)確率的作用。
本文提出了一種特征提取與分類器相結(jié)合的特征選擇和一種基于弱監(jiān)督的MHCRF。前者首先將隨機(jī)森林分類器做不同的調(diào)整后獲得了三種效果不同的分類器。后者將圖像的標(biāo)簽層、真實(shí)圖像層、特征提取層、隨機(jī)森林分類器層、特征選擇層鏈接起來(lái),獲得了一個(gè)MHCRF結(jié)構(gòu),并通過分別計(jì)算CRF的一元?jiǎng)菁岸獎(jiǎng)葑罱K獲得聯(lián)合概率分布。最終實(shí)驗(yàn)結(jié)果表明,使用MHCRF對(duì)于圖像分類有很大的貢獻(xiàn),其中使用GLCM特征獲得了的最高分類準(zhǔn)確率達(dá)到了82.0%。
本文提出的方法還可以做進(jìn)一步改進(jìn):① 本文僅使用了兩種特征提取方法,未來(lái)可以提取更多的特征,并通過不同的特征融合方式獲得更多的實(shí)驗(yàn)可能性;② 未來(lái)可以使用較新穎的深度學(xué)習(xí)對(duì)數(shù)據(jù)庫(kù)進(jìn)行圖像分類,與傳統(tǒng)的機(jī)器學(xué)習(xí)的分類結(jié)果形成對(duì)比;③ 本文所提出的MHCRF架構(gòu)作為一種較新穎的模型,還存在更多的發(fā)展可能性,通過優(yōu)化內(nèi)部各層的結(jié)構(gòu)以及所使用的方法將它設(shè)計(jì)為一個(gè)可以獲得更高分類準(zhǔn)確率的架構(gòu)模型;④ 本文僅使用組織病理圖像進(jìn)行研究與分類,但是由于不同程度的患病者可能出現(xiàn)不同的生理信號(hào),因此對(duì)于不同數(shù)據(jù)來(lái)源的特征提取以及分類方法還有一定的提升空間。