單怡晴,黃夢醒,張 雨,李玉春,張新華,馮思玲,陳 晶
1.海南大學 計算機與網(wǎng)絡空間安全學院,???570228
2.海南大學 信息與通信工程學院,???570228
3.??谑腥嗣襻t(yī)院 放射科,???570228
在最新的全球癌癥統(tǒng)計報告中,男性病例中最常見的肺癌(14.5%),其次是前列腺癌(13.5%),男性患癌率最高的疾病是前列腺癌的國家已經(jīng)超過100個[1]。在傳統(tǒng)的前列腺癌診斷過程中,病理學專家通過穿刺活檢取得病例樣本,經(jīng)過H&E染色得到病理圖像并在顯微鏡下觀察細胞的組織形態(tài)模式,確認該組織中是否有癌癥存在并進行Gleason評級[2]。
Gleason(格里森)評級模式[3]在評估前列腺癌組織微陣列中是被廣泛接受且認可的一種標準,自1966年發(fā)展至今,由國際泌尿病理學學會修訂多次并已應用于臨床階段[4],不僅僅是病理學的評價指標,也能在臨床診斷中為醫(yī)生診斷提供可靠的依據(jù)。包含活檢的切片中可以顯示前列腺腺體結(jié)構(gòu)的形態(tài)學組織,在低級別的腫瘤中,上皮細胞仍然是腺體結(jié)構(gòu),然而在高級別腫瘤中,腺體結(jié)構(gòu)最終丟失。Gleason中前列腺癌微陣列組織被分為5種生長模式,1到5對應不同細胞組織形態(tài),從預后較好,與正常組織基本無差別到預后較差,細胞分化較差的組織,1和2在前列腺癌診斷中較少出現(xiàn)。按照生長模式的占比大小,將一張病理切片的生長模式分為主要結(jié)構(gòu)和次要結(jié)構(gòu),最終評分結(jié)果由主要結(jié)構(gòu)和次要結(jié)構(gòu)相加得出,根據(jù)分數(shù)不同歸類為不同的預后組,當不超過6分時通常有較好的預后結(jié)果。如表1所示,在最新修改的Gleason評級模式中被分為5個不同的預后組。當分數(shù)不高于3+3時為G1;3+4為G2;4+3為G3;3+5、5+3及4+4為G4;更高的分數(shù)為G5。如圖1所示,分別代表良性,Gleason為6分、8分和10分。
表1 Gleason評級預后組分布Table 1 Gleason rating prognostic group distribution
圖1 前列腺癌組織微陣列示例Fig.1 Prostate cancer tissue microarray example
前列腺癌Gleason自動分級系統(tǒng)中常用的方法是提取特征組織,然后對所選擇的特征使用如SVM(support vector machine,支持向量機)、隨機森林或Bayesian分類器等進行分類。文獻[5]采用ResNet18為基礎模型,認為神經(jīng)網(wǎng)絡可分為區(qū)分網(wǎng)絡和生成網(wǎng)絡,區(qū)分網(wǎng)絡采用分類模型。文獻[6]首先利用腺體的紋理特征識別單個腺體結(jié)構(gòu)的存在,然后從腺體單元獲得的紋理特征和形態(tài)計量學應用到分類階段,最后將圖像標記為1到5級。文獻[7]的研究表明圖像的紋理特征是根據(jù)圖像不同的功率譜進行表示,將輸入的圖像通過分類器分配不同的Gleason評分。除此之外,另一種方法是基于深度學習,特別是卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN),能在一個框架內(nèi)同時執(zhí)行特征學習和分類步驟,當訓練數(shù)據(jù)達到一定規(guī)模時能取得較好結(jié)果,同時并不過度依附于手工標注。
深度學習和計算機視覺[8]的發(fā)展使得CAD(計算機輔助診斷系統(tǒng))在越來越多的醫(yī)療臨床治療中得以使用[9-10]。文獻[11]利用inceptionv3訓練12萬張圖片,通過分類算法達到了皮膚科醫(yī)生專家級的水平。文獻[12]在使用具有確診及最佳轉(zhuǎn)診的組織圖進行上萬次掃描訓練后,使用深度網(wǎng)絡分類器得出預測診斷概率和轉(zhuǎn)診建議。相比較于全卷積神經(jīng)網(wǎng)絡(fully convolutional network,F(xiàn)CN)[13],U-Net[14]在醫(yī)療圖像處理方面更具有優(yōu)勢,兩者共用一個經(jīng)典思路-編碼和解碼(enconderdecoder),U-Net的網(wǎng)絡架構(gòu)兩側(cè)是完全對稱,并且使用的是疊操作(concatenation),與FCN的不同之處在于FCN采用的是加操作(summation)[15-16]。
由于容易受到病理學專家觀察者之間主觀因素的影響,手工觀片工作量大耗時高效率低,且不同的觀察者之間對同一切片的評級也會存在差異,隨著人口老齡化,前列腺癌患者逐年增多,需要進行活檢的人數(shù)也呈現(xiàn)遞增趨勢[17];CAD工具觀察范圍是切片的所有區(qū)域,CAD工具的優(yōu)勢是避免了人工觀察所發(fā)生漏查;并且CAD工具只與內(nèi)部算法有關,與勞動強度和時間大小無關,能夠復用計算機資源來提供可重復的結(jié)果,能大大提高診斷治療效率,緩解醫(yī)患緊張局勢[18]。
與分類器算法不同,本文提出了一種基于卷積神經(jīng)網(wǎng)絡的前列腺癌組織微陣列區(qū)域分割格里森分級研究,如圖2所示,在前列腺癌診斷治療中具有重大的臨床意義。有不少研究表明區(qū)域分割可以成功應用到臨床試驗中[19-20],多數(shù)研究中只注重Gleason3和Gloason4的區(qū)分,本文的研究范圍涵蓋良性及Gleason1~5所有類型,范圍更廣。與對MR圖像及X光片圖像進行分割不同點在于,組織微陣列圖像的分割基于細胞形態(tài)學組織,不同的細胞組織形態(tài)之間,尤其是格里森3級與4級生長模式識別難度系數(shù)高,在癌癥存在的情況下,前列腺活檢中的癌組織細胞占比不高于1%[21],活檢的評估步驟繁瑣易出錯,這將導致在前列腺癌檢測的過程中不能給出正確的格里森評級。本文在原始U-Net基礎上進行改進,增加密集連接塊,經(jīng)過合并特征映射后網(wǎng)絡增加了梯度路徑,使各層之間的計算趨于平衡,既改善了原始U-Net網(wǎng)絡存在的梯度及模型特征利用率不高的問題,又能防止過度重復的信息流占用內(nèi)存流量。通過公開數(shù)據(jù)集上進行訓練和測試,并在??谑腥嗣襻t(yī)院病理科現(xiàn)存的前列腺癌病理圖像上進行驗證,使得實驗結(jié)果更加真實可靠。
圖2 基于區(qū)域分割的Gleason分級Fig.2 Gleason classification based on region segmentation
在本研究中所使用的前列腺組織微陣列圖像由兩部分組成:第一部分來自公開數(shù)據(jù)庫總計886張,帶有詳細的病理學專家注釋;另一部分來自海口市人民醫(yī)院病理科在存前列腺癌病理切片圖像,從中篩選出135張。這些圖像數(shù)據(jù)被分成訓練組、驗證組、測試組3組,每組的詳細情況如表2所示。
表2 Gleason評分在訓練、測試和驗證集中的分布Table 2 Distribution of Gleason scores in training,testing and validation sets
在組織病理學中,掃描樣本通常具有百萬級像素,當前內(nèi)存和顯存限制了對整個圖像的訓練,如圖3所示,原始圖像尺寸為3 100×3 100的RGB圖像,為了獲取最優(yōu)實驗結(jié)果,本文對獲取的原始前列腺癌組織微陣列圖像,首先利用對所有用于測試訓練及驗證中所有的圖像數(shù)據(jù)的原有進行灰度化處理,再將每幅灰度化后的原圖和標簽圖按照對應的順序分割成不重疊的100份,大小為256×256。
圖3 微陣列組織病理切片灰度化Fig.3 Gray processing of microarray histopathological sections
在醫(yī)療圖像分割區(qū)域,慣用的網(wǎng)絡模型有全卷積神經(jīng)網(wǎng)絡(FCN)、DenseNet和U-Net。U-Net網(wǎng)絡架構(gòu)能夠在數(shù)據(jù)集并不充足的基礎上進行模型訓練,并能將底層信息和高層進行結(jié)合,原始的U-Net網(wǎng)絡模型,以端到端的模式從網(wǎng)絡階段的開始到結(jié)束通過特征映射的集成來解決梯度的可變形,經(jīng)過4次,共16倍的下采樣,相對應的再進行4次上采樣,將下采樣過程中得到的特征信息恢復到與原圖相同的大小,并在相互對應的階段采用跳躍鏈接,使得特征圖能融合了底層的信息,使分割和預測結(jié)果更精準。
在分割網(wǎng)絡中,可以被描述為編碼階段U,后面緊跟解碼操作R。當輸入圖像為x時,模型可用g(x)來表示,公式如下:
U表示將輸入圖像x降維并對圖像內(nèi)容進行編碼,R把獲得的特征信息重構(gòu)回像素空間。網(wǎng)絡架構(gòu)的目標是在U-Net架構(gòu)中,先對輸入的圖像下采樣,再上采樣,最后進行回歸操作。前一層需通過卷積操作將學習到的特征信息傳遞給靠后的一層,但每層之間的聯(lián)系稀疏。為了使每一層網(wǎng)絡的特征信息得以充分利用,采用密集連接,使層與層之間的信息進行傳遞,最后一層能獲取豐富的特征信息,實現(xiàn)特征信息復用如圖4所示,特征維度上的拼接使參數(shù)總量比傳統(tǒng)結(jié)構(gòu)少。
圖4 密集連接塊Fig.4 Densely connected blocks
本文在U-Net架構(gòu)中增加部分密集鏈接模塊和部分過渡層,如圖4所示將底層特征映射通過部分密集連接塊,新的特征圖融合上一層輸出的結(jié)果,作為下一個模塊的輸入,每經(jīng)過一個密集連接塊將進行兩次卷積和特征融合操作,改進后的網(wǎng)絡架構(gòu)如圖5所示。為了提高網(wǎng)絡的性能,避免過度擬合及正則項參數(shù)選擇的問題在卷積層后增加了BN層和ReLu激活層。ReLu層能減輕梯度消失問題,相比sigmoid能訓練更深的網(wǎng)絡,速度快,計算代價小。變換重構(gòu)能恢復本層歸一化操作對已存在特征信息的影響,引入可學習的重構(gòu)參數(shù)后,BN層的定義如下:
圖5 改進后的網(wǎng)絡架構(gòu)Fig.5 Improved network architecture
其中,μ是平移參數(shù),σ是縮放函數(shù),m為塊的大小,γ、β為重構(gòu)參數(shù)。上述公式的計算結(jié)果分別為均值、標準差、歸一化、重構(gòu)變換。
本文通過定義loss來優(yōu)化目標函數(shù),網(wǎng)絡架構(gòu)模型設計的目標在于把訓練的標簽與網(wǎng)絡模型輸出層之間的像素損失最小化。本文在訓練過程中,采用sigmoid作為神經(jīng)元的激活函數(shù)且每個訓練標簽是獨立的,在二分類任務中經(jīng)常采用二元交叉熵損失函數(shù)(binary cross entropy),公式如下:
其中,yi為像素點的預測結(jié)果,為像素點的真實分類。假設當標簽為1,預測結(jié)果越大時,loss越小,在理想的情況下預測結(jié)果為1,返回的loss為0;反之預測結(jié)果為0時,預測結(jié)果越小時loss越小。如圖6所示,預測結(jié)果在數(shù)據(jù)分布比較均衡時具有良好的計算效果,并對反向傳播造成不利的影響,容易使訓練變得不穩(wěn)定。針對本研究中像素類別不平衡明顯,使用二元交叉熵損失函數(shù)會被像素較多的類主導,在先前實驗中,當損失函數(shù)采用二元交叉熵為損失函數(shù)時,測試集預測圖像結(jié)果并不理想。
圖6 二元交叉熵損失函數(shù)Fig.6 Binary cross entropy loss function
Dice函數(shù)的提出最初是在V-Net[22]中,對于類別不均衡的問題效果更優(yōu),常被用來計算兩個樣本的相似度,取值范圍在0到1之間。假設用A、B表示兩個輪廓區(qū)域像素相同的集合,那么Dice的定義如下:
也可以表示為:
當目標值和預測值過小時,會導致梯度發(fā)生劇烈變化,不利于模型訓練。
本文將二元交叉熵損失函數(shù)和Dice相結(jié)合BCE_Dice_loss作為本實驗的損失函數(shù),公式如下:
本研究中,每個被訓練的對象x都必須有與之對應的標簽y,選擇與輸入輸出具有相同高度和寬度的標簽圖像完成語義分割任務。卷積神經(jīng)網(wǎng)絡執(zhí)行的語義分割基于像素級。與分類算法不同的是輸出結(jié)果是一個標簽圖像,每個像素都有一個固定的值。共采用了641張標注詳細的前列腺癌病理切片訓練模型,245張數(shù)字病理切片做測試訓練,并在驗證集中隨機抽取一定的數(shù)量進行評價,測試集中由兩位病理學專家進行標注。由于原病理切片較大,首先要用Matlab對每張圖像進行灰度化,再將每張圖分割成大小相同且不重疊的100份,切分完成后的圖像數(shù)據(jù)集擴充了100倍,訓練集和測試集共88 600條數(shù)據(jù)。再把大小設置成256×256,將每張圖按照位置順序從0編碼重命名,然后將預處理的圖像數(shù)據(jù)送入模型中。為了更好地體現(xiàn)該研究的性能,從驗證隊列中隨機抽取若干張圖像進行預測,將結(jié)果與ground truth進行比對。
本文在訓練過程中,采用Adam優(yōu)化器進行優(yōu)化,學習率lr為0.001,選擇BCE_Dice_loss作為目標函數(shù)。在測試集上,采用混合矩陣和Cohen’s Kappa指標。表3是改進后U-Net模型中各層參數(shù)設置。
表3 網(wǎng)絡模型各層的參數(shù)設置Table 3 Parameters setting of each layer of network model
如圖7所示Padding設置為same,metrics為accuracy。
圖7 Padding設置為sameFig.7 Padding set to same
2.3.1 評價指標
本文采用Kappa系數(shù)對NU-Net模型試驗預測結(jié)果與專家手工標注結(jié)果進行一致性檢驗,公式如下:
其中,M為圖像數(shù)據(jù)類目數(shù),i和j代表不同圖像類別,1≤I,j≤M,O i,j是被第一位評分者分類為i且被第二位評分者分類為j的個數(shù),E i,j指預期里希望第一位評分者把圖像標注為i類且第二位評分者把圖像標注為j類的個數(shù)。
2.3.2 實驗
為了對比改進前后U-Net模型與FCN、DenseNet性能,本文在相同訓練集、測試集上訓練和測試上述4個模型。FCN8以預先訓練好的VGG16模型為基礎,步長為8;DenseNet在ImageNet數(shù)據(jù)集上進行測試,步長為2;U-Net模型以標準配置為架構(gòu);NU-Net中添加了密集連接模塊。
本研究在公開數(shù)據(jù)集和??谑腥嗣襻t(yī)院放射科中分別選擇886和135張前列腺癌微陣列組織圖像進行預處理,擁有良好的病理學家標注,分為訓練集、測試集、驗證集三部分,每個數(shù)據(jù)集中的圖像相互獨立且不重復。通過預先訓練好的FCN8、DenseNet、原始U-Net模型及改進后NU-Net的模型在驗證集里隨機抽取的80張圖像進行在實驗對比,結(jié)果如表4所示。
表4 不同模型Gleason分割結(jié)果精確度對比Table 4 Comparison of accuracy of Gleason segmentation results of different models %
改進后的NU-Net模型相比較于原U-Net模型和另外兩個分割算法中主流的模型,在不同等級的Gleason模式識別上都展示了良好的性能,其中原U-Net和DenseNet在識別良性組織和G3、G4、G5的L平均值分別為61.37%、73.35%,結(jié)果顯示在本文的數(shù)據(jù)集上DenseNet模型的性能優(yōu)于U-Net,性能表現(xiàn)最差的是FCN8模型。添加了密集連接塊的U-Net模型L平均值達到了77.73%,在Gleason為3級、4級5級的分割性能上較原U-Net模型均有不同程度的改善。
為了計算改進后NU-Net模型實驗結(jié)果與手動觀片標注結(jié)果ground truth之間的一致性,本文在測試集上進行實驗并使用了Kappa指標進行評價,將模型預測結(jié)果與ground truth標注結(jié)果進行一致性檢驗。實驗結(jié)果如圖8和圖9所示,其中相對Kappa值為每個單元格中的案例數(shù)除以每行的總案例數(shù),模型實驗結(jié)果與ground truth之間的一致性達到了0.797,誤差集中出現(xiàn)在G2、G3上,其次是G4。
圖8 測試集上一致性檢測絕對Kappa值Fig.8 Absolute Kappa value for consistency detection on test set
圖9 測試集上一致性檢測相對Kappa值Fig.9 Relative Kappa value for consistency detection on test set
模型預測與ground truth間的對比如圖10所示,第一行為前列腺癌微陣列組織原圖,中間為ground truth,最后一行為本研究改進后NU-Net模型預測結(jié)果,從整理分割效果來看,NU-Net的分割結(jié)果大體上與ground truth相當。為了更好地展示實驗結(jié)果,標簽圖根據(jù)不同的細胞組織形態(tài)進行了彩色處理,綠色、藍色、黃色、紅色分別代表良性、Gleason為3級、4級和5級。
圖10 專家標示與模型預測結(jié)果對比Fig.10 Comparison of expert mark and model prediction results
實驗結(jié)果表明NU-Net網(wǎng)絡擁有更強的學習能力,能夠批量的進行歸一化操作,對分布均勻的訓練數(shù)據(jù)良好,收斂速度得到改善,模型的性能也有所提高,區(qū)域分割更加準確。
本文提出了一個改進的U-Net模型對前列腺癌微陣列組織進行評級,實驗結(jié)果表明在測試集和驗證集中,在相同評價參照標準下,該模型的實驗結(jié)果與病理學家手工標注結(jié)果具有很高的相似性。本文通過對4種不同的網(wǎng)絡在驗證集上進行實驗,結(jié)果顯示改進后的NU-Net在良性、G3、G4和G5分割效果最優(yōu),L均值為77.73%。在測試集上NU-Net模型的分割結(jié)果在良性、G1、G2等不同評級中與病理學家手工標注結(jié)果具有很高的一致性,Kappa值為0.797。先前研究側(cè)重點在區(qū)分G3和G4,本文對Gleason的評級涵蓋G1~G5,研究更全面。
目前的研究還有需改進之處:首先沒有結(jié)合臨床診斷中病理學家最常見的錯誤;模型關注的重點是前列腺癌微陣列組織分級,在穿刺活檢結(jié)果中可能存在其他類型的細胞組織;實驗中所用到的圖像數(shù)據(jù)染色完好,清晰度高,圖像質(zhì)量好,理想的系統(tǒng)應該能同時處理染色和掃描儀校準等外在技術(shù)因素帶來的差異;本研究中每一個活檢組織檢查都是由病理學家和深度學習模型獨立完成的,在臨床實踐中,需要對每個前列腺不同部位進行多次穿刺檢查;此外,研究中所使用的數(shù)據(jù)基于活檢組織而不是患者,可能會導致過度估計。在新的深度學習模型中,應該立足于多個穿刺活檢組織,并從患者角度出發(fā)給出Gleason等級預測。