亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于細胞圖卷積的組織病理圖像分類研究

2020-12-26 02:57:20崔浩陽張敬誼

計算機工程與應用 2020年24期

崔浩陽，丁偕，張敬誼

萬達信息股份有限公司數(shù)據(jù)智能部，上海201112

1 引言

隨著深度學習模型、優(yōu)化算法以及高性能GPU 的出現(xiàn)，使得組織病理學中的計算機輔助診斷研究得到了快速發(fā)展。具體而言是利用深度卷積神經(jīng)網(wǎng)絡（CNN）實現(xiàn)對組織病理切片圖像的細胞分割、腺體分割、癌癥分級、突變鑒定以及預測癌癥復發(fā)等任務[1-2]。CNN 用于各種任務并取得一定表現(xiàn)主要取決于從圖像數(shù)據(jù)中自動挖掘高維特征的能力，并不依賴于人工創(chuàng)建的組織學特征。Campanella 等[3]將前列腺穿刺切片作為數(shù)據(jù)集，進行訓練并測試CNN 模型鑒別前列腺病灶良惡性。2018年Coudray等[4]利用TCGA數(shù)據(jù)庫中有關肺癌的樣本，訓練測試CNN模型鑒別腺癌、鱗癌以及識別基因突變的準確率，取得了肺腺癌、鱗癌AUC 為0.97，基因突變的AUC為0.85的結果。此外，在2015年11月至2016 年11 月舉行的CAMELYON16 大賽[5]，進一步推動了深度卷積網(wǎng)絡在病理圖像識別領域的發(fā)展。但由于病理醫(yī)生的診斷依據(jù)主要是根據(jù)病理圖像中異常細胞的形態(tài)、結構以及空間分布等因素給出最終的病理分析結果。而傳統(tǒng)CNN處理的源數(shù)據(jù)是具有像素值的結構化二維陣列圖像，這種結構化的二維陣列數(shù)據(jù)形式難以表達組織病理學中細胞之間以及腺體之間的關系和組織學特征，也忽略了微觀細胞之間的空間關系，因此可能會丟失提高模型性能的一些關鍵特征信息。

本文引入基于細胞的圖結構，利用細胞之間的拓撲結構對組織病理圖像進行幾何結構建模[6]，使模型學習到細胞本身特征的同時，還學習到細胞之間的空間關系特征。提出了圖卷積神經(jīng)網(wǎng)絡的病理圖像癌癥分類方法，通過提取病理圖中微觀細胞作為圖結構中的節(jié)點，把細胞之間的空間關系視為圖結構中的邊。為了準確獲得節(jié)點的特征信息，本文應用了細胞分割網(wǎng)絡，利用分割出的細胞提取其外觀特征。為了使節(jié)點融合多尺度信息，引入了GraphSAGE模塊作為圖卷積模塊，由于組織學圖像中的細胞數(shù)量眾多，構建出的細胞圖結構會存在大量的冗余節(jié)點，因此，本文將分層池化和全局池化結合，最終獲得具有代表性的節(jié)點特征作為圖結構的表達。

2 相關工作

圖神經(jīng)網(wǎng)絡的表示法最早由Gori 等人[7]在2005 年提出，并在2009年由Scarselli等人[8]進行了進一步闡述，這些早期的研究通過迭代的方式，利用循環(huán)神經(jīng)結構傳播鄰居信息，直到達到一個穩(wěn)定的不動點，來學習節(jié)點的表示，在此過程中計算代價大。在受到CNN 在計算機視覺領域的啟發(fā)后，為了減少計算量，利用卷積的概念重新定義了卷積算子，提出了多種圖卷積神經(jīng)網(wǎng)絡（GCN）[9]，其中主要分為基于頻譜的GCN[10-12]和基于空域的GCN[8，13]。頻譜的圖卷積網(wǎng)絡方法一般處理整個圖結構，難以并行處理和擴展，基于空域的圖卷積方法主要通過聚集節(jié)點信息直接在圖上進行卷積，并結合采樣策略，能夠減少計算復雜度。Hamilton[14]提出的Graph-SAGE 方法引入了節(jié)點特征聚合函數(shù)和小批量訓練策略提高了模型的泛化能力。為了進一步學習更好的圖結構中的層次特征并降低計算復雜度，已經(jīng)提出了很多不同的圖池化方法，其中常見的方法：簡單的在最后一層中將所有節(jié)點特征求和；引入一個連接到圖中所有節(jié)點的虛擬節(jié)點以求平均值；使用深度學習框架聚合節(jié)點特征；也有將CNN 中架構的通道堆疊的方法應用到所有節(jié)點特征中。

GCN 在病理圖像應用方面，Lu 等[15]提出一種圖神經(jīng)網(wǎng)絡的新型模型，將每個從數(shù)字化病理全切片（Whole-Slide Images，WSI）中裁剪的圖塊作為圖結構中的節(jié)點，以此構建整張WSI 的圖結構，從而避免丟失圖塊與圖塊之間的視覺信息，但是該方法并未涉及細胞級圖結構的構建?？紤]到內(nèi)存的限制，常規(guī)技術依賴于切圖塊的方法進行CNN訓練，但由于癌變區(qū)域會聚集在一起，這種方法通常會忽略每個圖塊之間的空間關系，因此Konda 等[16]提出在病理圖像中構建節(jié)點關系，將每個圖塊作為圖結構中的一個節(jié)點，并添加一些人工特征，以此突出GCN 在醫(yī)學數(shù)據(jù)分析的潛力。Zhang[17]等人嘗試在宮頸癌細胞分割的工作中應用GCN，提出一種全卷積網(wǎng)絡和圖方法相結合的分割方法，需要通過掩碼構造圖像的圖結構，并以動態(tài)編程的方式獲取圖結構中最優(yōu)的全局路徑，實現(xiàn)過程復雜。目前GCN 在病理圖像的應用通常是將整個圖塊作為一個節(jié)點以構建整個WSI的圖結構，因此丟失了微觀細胞之間的空間關系特征。本文將細胞圖結構與圖神經(jīng)網(wǎng)絡結合，利用細胞之間的拓撲關系對病理圖像的幾何結構進行建模，使得C-GCN 不但能學習到細胞本身的特征，還學習到細胞之間空間關系特征，從而增強模型分析判別的能力。

3 方法

基于細胞圖卷積的組織病理圖像分類方法主要分為三部分：利用細胞分割網(wǎng)絡獲得細胞掩碼；利用細胞掩碼獲取細胞的顏色、形狀、空間結構以及外觀特征構建細胞圖結構；利用C-GCN 進行圖網(wǎng)絡訓練。技術路線圖如圖1所示。

圖1 C-GCN總體流程

3.1 細胞分割網(wǎng)絡

準確地分割細胞是生成可靠節(jié)點特征的關鍵，因此，本文優(yōu)選高性能的Hover-Net[18]作為細胞分割網(wǎng)絡，其能準確地分割出每個細胞的邊界，Hover-Net 利用細胞像素的垂直和水平距離內(nèi)編碼信息等到它們的質(zhì)心，之后利用距離分類聚集的核，預測出最后的分割結果。本文利用Hover-Net獲得的掩碼提取細胞形狀和外觀特征，選取17 個具有代表性的特征描述子，分別為：平均核強度、前/背景平均差異、細胞強度標準偏差、細胞強度偏度、細胞強度的平均熵、灰度共生矩陣（GLCM）的差異、灰度共生矩陣（GLCM）的同質(zhì)性、灰度共生矩陣（GLCM）的能量、灰度共生矩陣（GLCM）的角二階矩（ASM）、偏心率、面積、軸的最大值、軸的最小值、周長、穩(wěn)定性、方向以及質(zhì)心坐標。

3.2 構建圖結構

為了能夠使用GCN，必須將病理圖像轉為圖形的表示。一個圖的定義為G=(V,E)，V為節(jié)點的集合，E為邊的集合，對于每個節(jié)點i，具有d維的節(jié)點特征xi∈Rd，可用矩陣表示XN×D，其中N表示節(jié)點數(shù)，D表示特征向量的維度。ei,j表示節(jié)點i和節(jié)點j的邊，其屬于集合E。

本文以分割出來的細胞作為節(jié)點，相鄰細胞之間的歐幾里得距離作為邊的屬性，以此構建細胞圖結構。以歐幾里得距離作為相鄰細胞之間分配邊的依據(jù)，其距離單位為像素，本文采用的實驗數(shù)據(jù)均在20倍率下提取，結合實際觀測經(jīng)驗和計算便捷，選擇距離小于100像素作為分配邊的閾值，能夠較好表達病理圖像中細胞之間的關系，不會出現(xiàn)過于稠密或稀疏的細胞圖結構，并將這個數(shù)值作為超參數(shù)，在其他實驗中可根據(jù)具體情況進行調(diào)整。圖結構的構造分為以下兩步：

（1）分割細胞，結合細胞掩碼提取細胞的形狀和外觀特征，總共計算出17個代表性特征，這些特征用于形成節(jié)點特征矩陣。

（2）在細胞圖結構中，將圖結構中的邊定義為兩個細胞之間的相互作用，本文假設歐式距離較小的細胞更可能相互作用，因此在兩個細胞之間的距離固定，則在它們之間分配一條邊，此外，為了能夠使節(jié)點融合到更多鄰接節(jié)點的信息，本文將歐式距離小于100像素的兩個細胞之間均分配一條邊。

3.3 圖網(wǎng)絡結構

細胞圖結構構建完成后，組織病理圖像的癌癥分類任務即可視為對圖的分類問題。GCN通過節(jié)點迭代聚合學習節(jié)點特征的表示，在網(wǎng)絡的隱藏層中計算新的節(jié)點特征向量[12]，整個圖的表示可以通過匯集學習到的所有新節(jié)點特征獲得。本文采用Hamilton[14]提出具有聚合特征的GraphSAGE 圖卷積模塊，對于一個給定的節(jié)點，它將第k層的節(jié)點v特征的輸出表示為k-1 層的節(jié)點v特征與第k層節(jié)點v的所有鄰接節(jié)點特征聚合的拼接。

其中，表示在第k層節(jié)點v的所有鄰接節(jié)點的特征聚合，表示在k層節(jié)點v的特征，表示在k-1層節(jié)點v的特征，(,?u∈N(u))表示在k-1 層中節(jié)點v的鄰接節(jié)點u的特征向量，W 表示參數(shù)矩陣。

圖的節(jié)點特征計算公式可簡化為：

其中，V 為節(jié)點特征矩陣，A 是鄰接矩陣，SAGEConv是GraphSAGE的卷積運算符。為了提高模型的泛化能力，本文引入圖池化模塊，將圖池化過程分為兩個部分，在每次GraphSAGE 之后進行一次分層池化，減少一定數(shù)量的節(jié)點，該過程的作用與CNN中的池化作用類似，它能夠增加模型的魯棒性并能夠提取具有一般性的節(jié)點特征。在分層池化之后再進行一次全局池化，將整個圖中的所有節(jié)點特征進行最大值池化和平均值池化，并將其拼接形成一維特征向量，圖卷積中分層池化的具體工作流程如圖2所示。

圖2 分層池化示意圖

從圖2中看出，分層池化引入了額外的訓練參數(shù)投影向量p，節(jié)點特征矩陣Xl與p 矩陣相乘后得到y(tǒng)，該過程是估計每個節(jié)點到投影向量的分數(shù)，可選擇分數(shù)最大的k個節(jié)點，再按照節(jié)點的索引idx獲得其在原Xl中的節(jié)點特征矩陣X?并與經(jīng)過激活函數(shù)Relu激活后的?進行點乘，從而獲得進攻池化后的節(jié)點特征矩陣Xl+1，其對應新的鄰接矩陣Al+1則按照索引idx在原鄰接矩陣Al中獲得。

全局池化在分層池化之后，將最大值池化和平均值池化進行拼接，作為全連接層的輸入，如圖3所示。

圖3 全局池化示意圖

本文的圖卷積網(wǎng)絡結構如圖4 所示，其中，V 代表節(jié)點矩陣，N為節(jié)點數(shù)量，F(xiàn)為每個節(jié)點的特征維度，A 代表鄰接矩陣，F(xiàn)C表示全連接層。

4 實驗與討論

4.1 數(shù)據(jù)集

Camelyon16 數(shù)據(jù)集[19]來源乳腺癌患者的前哨淋巴結，是數(shù)字化病理全切片圖像（WSI）。由Radboud UMC和UMC Utrecht兩個機構提供（https：//camelyon16.grand-challenge.org/Data/）。它是由400 張完整的淋巴結病理圖像組成，分為270 張用于訓練和130 張用于測試，包含醫(yī)生標注的輪廓信息。本文使用170個淋巴結病理圖像作為訓練集，其中100個正常病理圖像和70個癌變病理圖像；另外再使用100 個病理圖像作為測試集，其中60 個正常病理圖像和40 個癌變病理圖像。使用CNN 模型進行訓練時，將病理圖像進行一系列預處理操作后，裁剪為256×256 大小的圖像塊作為輸入。在使用本文提出的C-GCN 模型進行訓練時，將病理圖像裁剪1 792×1 792 大小的圖像塊作為輸入。病理圖像裁剪流程如圖5所示，其中病理圖像的具體預處理操作可參考文獻[20]。表1為在Camelyon16數(shù)據(jù)集上進行驗證實驗時，訓練集與測試集的樣本數(shù)量分布情況。

圖4 圖網(wǎng)絡結構圖

表1 Camelyon16數(shù)據(jù)集的圖像塊數(shù)量

結直腸癌（CRC）數(shù)據(jù)集[16，21]由300 張非重疊圖像組成（https：//warwick.ac.uk/fac/sci/dcs/research/tia/data/extended_crc_grading/），尺寸大小為4 548×7 548，在20倍率下提取，并根據(jù)腺體分化程度，病理學專家將圖像分別標記為正常組織、低等級腫瘤和高等級腫瘤。由于數(shù)據(jù)量比較少，本文通過翻轉、旋轉、平移等簡單的數(shù)據(jù)增強方法，擴充了280 多張圖像。為進行公平的比較，將數(shù)據(jù)集分為三部分進行交叉驗證[21]。由于受內(nèi)存的限制，CNN 是無法直接對4 548×7 548 大小的高分率圖像進行訓練，但是在高分辨率圖像轉換為圖結構后，可利用GCN模型對其進行訓練，因此，本文將對4 548×7 548大小的圖像直接進行訓練和三分類預測，以驗證本文方法的有效性。其中正常、低等級、高等級三個類別在訓練集和測試集的樣本數(shù)量分布如表2所示。

表2 CRC數(shù)據(jù)集的每個類的數(shù)量

4.2 實驗

利用PyTorch Germetric（PyG）庫[22]實現(xiàn)算法的驗證，在訓練期間，使用Adam優(yōu)化函數(shù)，學習率為5E-4，權重衰減率為1E-4。之后構建Camelyon16和CRC兩個數(shù)據(jù)集對應的細胞圖結構數(shù)據(jù)集，為C-GCN 提供訓練和測試數(shù)據(jù)。圖6 和圖7 分別為Camelyon16 數(shù)據(jù)集和CRC 數(shù)據(jù)集轉換為細胞圖結構后，將其可視化的部分細胞掩碼和細胞圖結構。

圖6 Camelyon16的細胞圖結構可視化

圖5 病理圖像處理流程示意圖

圖7 CRC的細胞圖結構可視化

為證明C-GCN 的有效性，本文在Camelyon16 和CRC兩個數(shù)據(jù)集上分別做兩組實驗。

第一組實驗：在Camelyon16上，本文針對正常病理圖像和腫瘤病理圖像的二分類任務評估六種著名的CNN模型并與C-GCN的分類準確率進行對比。其中六種CNN 分別是GoogLeNet[23]、AlexNet[24]、VGG16[25]、ResNet50[26]、MobileNet[27]、Xception[28]。

從表3中可以看出，與CNN模型相比，C-GCN在組織病理圖像的癌癥分類任務中也能夠獲得較高的分類準確率。

表3 Camelyon16數(shù)據(jù)上不同模型的評估結果

第二組實驗：在CRC 數(shù)據(jù)集上采用兩個分類進行準確率、精確率、召回率和F1 值評估，分別為癌癥和高等級，在癌癥分類中，將低等級和高等級均視為陽性類別，而在高等級分類中，將正常和低等級均視為陰性類別。準確率指標表示真實的陽性和真實的陰性之和占總數(shù)的百分比。表4為癌癥分類和高等級分類的混淆矩陣。

表4 預測結果的混淆矩陣(N=196)

表5 中，C-GCN 模型直接對4 548×7 548 的高分辨率病理圖像進行三分類訓練，從評估指標來看，也獲得了比較高的準確率，并且癌癥和高等級的召回率很高，說明了本文方法能夠準確地將癌變病理圖像進行區(qū)分，雖然高等級分類的精確率比較低，只有0.70，這是由于在高等級分類中，將低等級分化的癌變也視為了陰性類別，所以在高等級分類中，誤將某些傾向于高等級分化的低等級癌變圖像也預測為高等級，從而導致了在高等級分類的精確率較低。從圖8 的AUC-ROC 曲線來看，癌癥與高等級的AUC 值均為0.98，進一步證明了模型在分類預測中具有較高的穩(wěn)定性和魯棒性。

表5 在CRC數(shù)據(jù)上使用不同的指標評估C-GCN

圖8 ROC曲線注意癌癥類別包括低等級和高等級

5 結束語

本文提出了基于C-GCN的組織病理圖像分類預測的方法。該方法將高分辨率組織病理圖像中的細胞作為圖結構的節(jié)點，并將細胞之間的歐氏距離作為邊，以此構建細胞圖結構。這種方法在提取高分辨率組織病理圖像的微觀結構和宏觀結構方面表現(xiàn)優(yōu)異。此外，本文在圖卷積中引入了GraphSAGE 模塊和圖池化模塊，不僅有效地聚合了細胞形態(tài)和微觀結構信息，也減少了計算冗余。并在Camelyon16和CRC兩個數(shù)據(jù)集進行充分驗證，證明了本文方法在病理圖像分類任務中的優(yōu)勢。但是生成的圖結構非常稠密，其中可能會存在大量的噪聲節(jié)點，這些噪聲節(jié)點一方面會影響最終的分類準確率，另一方面也增加了網(wǎng)絡的計算量，因此需要減少噪聲節(jié)點對模型的影響，以構建稀疏的圖結構，進一步提升圖網(wǎng)絡的分類效果。