李斌,李科宇,湯渝玲,李慧
(1.南華大學(xué)附屬長(zhǎng)沙醫(yī)院,湖南 長(zhǎng)沙 410005;2.長(zhǎng)沙市第一醫(yī)院呼吸內(nèi)科,湖南 長(zhǎng)沙 410005)
目前,肺癌所致死亡占全世界癌癥相關(guān)死亡原因的首位[1]。根 據(jù)2009 至2013 年SEER(surveillance, epidemiology and end results)數(shù)據(jù)庫(kù)結(jié)果顯示,肺癌患者的5年生存率僅為18%左右。早期可切除癌患者的5年生存率約為34%,而不可切除肺癌患者的5 年生存率<10%。因此,肺癌的早期發(fā)現(xiàn)和診斷是提高治療效果的重要環(huán)節(jié)。根據(jù)美國(guó)國(guó)立綜合癌癥網(wǎng)絡(luò)(national comprehensive cancer network,NCCN)指南,對(duì)于疑似腫瘤,需通過(guò)纖維支氣管鏡和活檢病理檢查進(jìn)行早期診斷。活檢病理確診是肺癌診斷的金標(biāo)準(zhǔn),準(zhǔn)確率達(dá)90%以上[2]。肺癌的主要組織學(xué)亞型為鱗癌、腺癌、小細(xì)胞癌和未分化癌。然而,目前龐大的癌癥患者數(shù)量與有限的病理科醫(yī)師并不匹配,難以滿足巨大的臨床需求。人工智能肺癌自動(dòng)診斷系統(tǒng)或可有效解決這一問(wèn)題。
近年來(lái),人工智能技術(shù)在醫(yī)學(xué)病理診斷領(lǐng)域蓬勃發(fā)展。2016年,通過(guò)使用特征提取和選擇算法,深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)tensorflow算法成功檢測(cè)到黑色素瘤病灶,準(zhǔn)確率達(dá)92%[3]。乳腺癌四極阻抗測(cè)量(tetrapolar impedance measurement,TPIM)通過(guò)機(jī)器學(xué)習(xí)提取特征,有效診斷率為84%[4]。在細(xì)胞水平,人工智能技術(shù)對(duì)乳腺癌[5]的診斷率達(dá)95.34%。目前,人工智能在肺癌診斷中的應(yīng)用主要集中在影像學(xué)圖像[6-7]。放射組學(xué)是一個(gè)使用預(yù)定義的、工程算法或深度學(xué)習(xí)方法[4]自動(dòng)量化放射表型特征的過(guò)程。通過(guò)工程CT 圖像分析,放射組學(xué)特征可區(qū)分EGRF-和EGFR+肺癌,及EGFR+和KRAS+肺癌[6]?;贑T 圖像的卷積神經(jīng)網(wǎng)絡(luò)(CNN)在肺癌[7]中的準(zhǔn)確率達(dá)86.4%。然而,與影像學(xué)診斷相比,病理診斷更有優(yōu)勢(shì),因?yàn)榭蓪?duì)組織學(xué)亞型進(jìn)行分類,并為臨床治療提供直接證據(jù)。在過(guò)去的幾十年,研究者們已開(kāi)發(fā)了多種自動(dòng)或半自動(dòng)定量模型來(lái)客觀評(píng)價(jià)顯微鏡下的病理圖像[3,8]。傳統(tǒng)的研究步驟包括病理圖像輸入和數(shù)字化、疾病病灶分割、特征提取和模型構(gòu)建。形狀、邊界、顏色變化和紋理描述是重要的病理特征[9-11]。近年來(lái),深度學(xué)習(xí)(deep learning,DL)算法,尤其是CNN,已成功應(yīng)用于數(shù)字病理圖像分析[12-13]。與傳統(tǒng)的機(jī)器學(xué)習(xí)算法相比,深度學(xué)習(xí)方法無(wú)需任何可能在不同病灶間變化的手工標(biāo)注的特征。雖然許多CNN 都是為自然圖像分析而設(shè)計(jì)的,但遷移學(xué)習(xí)的思想可幫助研究人員利用預(yù)先訓(xùn)練過(guò)的CNN 解決醫(yī)學(xué)圖像中的問(wèn)題。本研究收集33 例肺癌患者的病理性全視野數(shù)字切片(whole slide images,WSIs),由經(jīng)驗(yàn)豐富的病理學(xué)家(超過(guò)20年)在每張幻燈片上畫(huà)出癌癥區(qū)域。本研究旨在比較幾種傳統(tǒng)的基于CNN的算法,以輔助肺癌的診斷。
1.1 臨床資料 選取2016 年1 月至2017 年11 月在長(zhǎng)沙市第一醫(yī)院腫瘤內(nèi)科接受治療的33例患者為研究對(duì)象。根據(jù)美國(guó)癌癥聯(lián)合委員會(huì)(AJCC)分期系統(tǒng),患者首先診斷為肺癌/支氣管癌(部位編碼:C34.1-C34.9;組織學(xué)類型:腺癌、鱗狀細(xì)胞癌和小細(xì)胞癌。納入標(biāo)準(zhǔn):①經(jīng)手術(shù)切除或穿刺活檢病理確診患者;②術(shù)前無(wú)放療;③年齡30~90 歲;④臨床資料完整。排除標(biāo)準(zhǔn):①合并其他惡性腫瘤;②轉(zhuǎn)移性肺癌;③有免疫缺陷或器官移植史;④無(wú)法參與的患者。本研究經(jīng)長(zhǎng)沙市第一醫(yī)院倫理委員會(huì)審核批準(zhǔn)。所有患者均對(duì)本研究知情同意并簽署知情同意書(shū)。收集患者的基本人口學(xué)和臨床信息,如年齡、病理、分期、影像學(xué)記錄、治療史。
1.2 圖像采集和預(yù)處理 組織切片(每例患者3片)用蘇木精-伊紅染色法染色后,分別用自動(dòng)顯微鏡(Olympus VS120)在10、20、40倍下進(jìn)行掃描。20倍數(shù)字病理圖像上標(biāo)注的腫瘤區(qū)域,見(jiàn)圖1。20 倍圖像的完整圖像被裁剪成小塊,大小為256×256,裁剪后的圖像塊,見(jiàn)圖2。圖像塊顏色與正常組織差異較大[14]。由于癌變類型的不同,癌變區(qū)域的外觀也不同。如圖2A-B 為小細(xì)胞肺癌,圖2C-D 為非小細(xì)胞肺癌組織。
圖1 病理WSI 與癌癥區(qū)域的標(biāo)注(圖像放大3 倍,以更好的可視化)Figure 1 Pathological WSI with annotations for cancer regions(the image is zoomed in 3×for better visualization)
圖2 腫瘤圖像塊和正常圖像塊Figure 2 Examples of tumor patches and normal patches
1.3 使用GLCM 和SVM 進(jìn)行預(yù)分析 灰度共生矩陣(graylevel co-occurrence matrix,GLCM)紋理分析在癌癥病理學(xué)中被廣泛應(yīng)用。本研究首先選取30 張載玻片(10 張非癌性、10 張非小細(xì)胞肺癌、10 張小細(xì)胞肺癌)進(jìn)行GLCM 分析。采用中位數(shù)和四分位數(shù)對(duì)腫瘤圖像和正常組織圖像進(jìn)行歸一化處理。將歸一化后的圖像分割成大小為7×7像素的小段。對(duì)每個(gè)圖,利用小片段的參數(shù)均值、方差、同質(zhì)性、對(duì)比度、相異度、熵、二階矩和相關(guān)性提取紋理特征。本研究使用了自主研制的基于支持向量機(jī)(supporting vector machines,SVM)的算法鑒別腫瘤良惡性。
1.4 卷積 神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種專門用于圖像分析的神經(jīng)網(wǎng)絡(luò)。該方法已成功用于[15-16]的圖像分類。CNN 的典型結(jié)構(gòu)包括卷積層、池化層和全連接層。引入了batch normalization[17]、dropout[18]、shortcut connections[19]等先進(jìn)技術(shù),提高了分類精度。
1.5 基于圖像塊的CNN分類 MXNet用于構(gòu)造DL 框架。該框架的性能比Torch 和TensorFlow 等其他框架更快。前期研究測(cè)試了幾種流行的基于圖像塊分類的CNN 架構(gòu):AlexNet[15]、VGG、ResNet 和SqueezeNet。所有的網(wǎng)絡(luò)都是在目前最大的計(jì)算機(jī)視覺(jué)圖像分類數(shù)據(jù)集ImageNet[20]上進(jìn)行預(yù)處理。在微調(diào)實(shí)驗(yàn)中,本研究使用4個(gè)網(wǎng)絡(luò)在ImageNet上預(yù)先訓(xùn)練的權(quán)值作為初始化。實(shí)驗(yàn)選擇VGG-16 和ResNet-50作為VGG和ResNet體系結(jié)構(gòu)的代表。Adam優(yōu)化算法是隨機(jī)最速下降法(stochastic gradient descent,SGD)的擴(kuò)展,最近在計(jì)算機(jī)視覺(jué)的深度學(xué)習(xí)應(yīng)用中被廣泛采用。在這項(xiàng)工作中,本研究使用Adam來(lái)更新網(wǎng)絡(luò)的權(quán)值。遵循遷移學(xué)習(xí)的思想,比較兩種類型的訓(xùn)練方案:從零開(kāi)始訓(xùn)練和對(duì)整個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào)。對(duì)于所有的方法,本研究固定學(xué)習(xí)率(learning rate)=0.000 01,權(quán)重衰減率(weighted decay rate)=0.000 1,一代訓(xùn)練(epoch)=10,批尺寸(batch size)=64。
1.6 實(shí)驗(yàn)設(shè)置 將數(shù)據(jù)隨機(jī)分為26張幻燈片的訓(xùn)練集和7張幻燈片的測(cè)試集。每張幻燈片將256×256像素的圖像塊裁剪為196 像素,保證相鄰圖像塊間有足夠的重疊。最后,在訓(xùn)練集中有大約80 000個(gè)圖像塊,在測(cè)試集中有30 000個(gè)圖像塊。由于此時(shí)標(biāo)注只被指定為癌癥或不是癌癥,本研究只處理二分類的問(wèn)題。
2.1 基于紋理分析和SVM 的樣本分類 根據(jù)2 個(gè)層次的GLCM 分析和SVM,提取7×7 個(gè)單元格樣本圖像塊的紋理特征。30個(gè)樣本的第一層均值和方差的直方圖(見(jiàn)圖3A)。然后將第二層的均值和方差與第一層的比較(見(jiàn)圖3B)。根據(jù)第1 層和第2 層的紋理特征,SVM 在3 組的總準(zhǔn)確率為0.83。但是,3組的level-1-out總準(zhǔn)確率為0.57,見(jiàn)表1。
圖3 第1層和第2層分析的GCLM輸出特征Figure 3 GCLM output features from the 1st and 2nd layer's analysis
表1 利用第一層和第二層GLCM提取特征的線性SVM的準(zhǔn)確率Table 1 Accuracy of linear SVM with 1st and 2nd layer GLCM extracted features
2.2 基于圖像塊的分類 在圖像塊水平上進(jìn)行受試者工作特征(receiver operating characteristic,ROC)分析,用于比較不同CNNs 的ROC 曲線下的面積(area under the ROC curve,AUC)。SqueezeNet、ResNet-50、Alexnet 和VGG-16 的結(jié)果,見(jiàn)圖4~5,分別使用兩種不同的學(xué)習(xí)策略:從零開(kāi)始訓(xùn)練和對(duì)整個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào)。
2.3 基于幻燈片的癌癥區(qū)域檢測(cè)和與人類標(biāo)注比較 結(jié)合之前所有基于圖像塊的分類結(jié)果,進(jìn)行基于幻燈片的癌癥區(qū)域檢測(cè)。計(jì)算每個(gè)WSI的熱圖,見(jiàn)圖6。
在標(biāo)注的區(qū)域內(nèi),可看到大部分區(qū)域的癌癥率均較高。也可在標(biāo)注區(qū)看到一些假陰性區(qū)域(不那么紅的區(qū)域,如綠色箭頭指出的地方)。然而,當(dāng)放大這些區(qū)域(見(jiàn)圖6C 和E)時(shí),可看到假陰性區(qū)域?qū)嶋H上是真陰性區(qū)域。DL 模型還可分出腫瘤區(qū)域和正常區(qū)域的邊界,見(jiàn)圖6D和F]。
圖4 從零開(kāi)始訓(xùn)練的ROC曲線Figure 4 ROC of training from scratch
圖5 對(duì)整個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào)的ROC曲線Figure 5 ROC of fine tuning for whole networks
圖6 腫瘤區(qū)域檢測(cè)可視化Figure 6 Visualization of cancer region detection
本研究測(cè)試了幾種深度學(xué)習(xí)模型用于肺癌的組織病理學(xué)診斷??梢钥闯?,除ResNet-50外,從零開(kāi)始訓(xùn)練AUC要高于對(duì)整個(gè)網(wǎng)絡(luò)的微調(diào)。與其他計(jì)算機(jī)視覺(jué)任務(wù)的微調(diào)不同,本研究中模型似乎并沒(méi)有從imageNet預(yù)先訓(xùn)練的模型中獲益太多。這是因?yàn)楸狙芯康挠蚺cimageNet 域有內(nèi)在的區(qū)別,從imageNet學(xué)到的權(quán)值實(shí)際上對(duì)最終的模型貢獻(xiàn)很小。AlexNet在這兩種訓(xùn)練策略中都給出了最高的AUC。在腫瘤區(qū)域檢測(cè)可視化結(jié)果中,基于深度學(xué)習(xí)的模型可正確地預(yù)測(cè)這些區(qū)域,病理學(xué)家的標(biāo)注也可在尊重模型訓(xùn)練的基礎(chǔ)上得到進(jìn)一步的改進(jìn),但可能需引入另一個(gè)深度學(xué)習(xí)模型來(lái)減少假陽(yáng)性。初步結(jié)果表明,深度學(xué)習(xí)法具有診斷肺癌的潛力,有望在未來(lái)輔助病理醫(yī)生提高病理診斷的準(zhǔn)確度,并減輕其負(fù)擔(dān)。但是,其診斷準(zhǔn)確率低于已報(bào)道的用于其他癌癥診斷的深度學(xué)習(xí)系統(tǒng),顯示出人工智能在肺癌診斷[12]的挑戰(zhàn)。這可能是由于不同載玻片之間的模式差異較大,導(dǎo)致訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)不一致。病理學(xué)家的不精確標(biāo)注也降低了檢測(cè)的準(zhǔn)確性。在未來(lái)的工作中,一方面,本研究將收集更多的訓(xùn)練數(shù)據(jù)來(lái)覆蓋數(shù)據(jù)分布的巨大變化,另一方面,本研究將探討其他技術(shù),如領(lǐng)域自適應(yīng)(domain adaptation)[16]來(lái)解決分布的差異,提高診斷的準(zhǔn)確性。還將創(chuàng)建細(xì)粒度圖像注解(fine grained annotations)來(lái)區(qū)分不同類型的癌癥。