王素英 張慧芝 桂坤 陳炳憲*
(1.寧波市臨床病理診斷中心 浙江省寧波市 315000 2.杭州智團(tuán)信息技術(shù)有限公司 浙江省杭州市 310052)
癌癥是目前人類難以攻克的頑疾,胃癌的發(fā)病率、致死率高居我國(guó)癌癥前列,盡早進(jìn)行胃鏡篩查是降低胃癌發(fā)病率及死亡率的有力手段,然而胃鏡活檢高普及率大大增加了病理醫(yī)生的工作強(qiáng)度及負(fù)擔(dān),其次,傳統(tǒng)的病理診斷存在主觀性強(qiáng)、重復(fù)性差等問(wèn)題,人工智能走進(jìn)臨床病理診斷成為必然趨勢(shì)。因此,我們聯(lián)合病理專家及計(jì)算機(jī)專家,利用計(jì)算機(jī)前沿技術(shù),研發(fā)大數(shù)據(jù)驅(qū)動(dòng)的人工智能軟件,建立胃癌預(yù)測(cè)模型,輔助應(yīng)用于胃癌診斷。首先挑選大量明確診斷胃癌的活檢切片及正常胃活檢切片,將病理切片數(shù)字化(即通過(guò)全自動(dòng)切片掃描儀,將病理切片圖像轉(zhuǎn)化成數(shù)字圖像),病理專家利用標(biāo)識(shí)軟件對(duì)數(shù)字圖像中的腫瘤區(qū)域進(jìn)行人工標(biāo)識(shí),計(jì)算機(jī)專家將已標(biāo)識(shí)的圖像,采用基于深度學(xué)習(xí)的圖像分割技術(shù),建立胃癌預(yù)測(cè)模型,進(jìn)一步進(jìn)行驗(yàn)證及測(cè)試。
在這一章節(jié)中,我們將詳細(xì)介紹胃癌預(yù)測(cè)模型。
整體技術(shù)路線如圖1所示。
圖1:基于深度神經(jīng)網(wǎng)絡(luò)的胃癌預(yù)測(cè)技術(shù)框架
訓(xùn)練階段:在診斷為癌的胃鏡切片中標(biāo)注出患癌組織輪廓,隨后根據(jù)標(biāo)注結(jié)果,截取陽(yáng)性圖塊和陰性圖快,訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),用于預(yù)測(cè)圖塊患癌概率。
應(yīng)用階段:掃描胃活檢病理切片為數(shù)字圖像,通過(guò)全圖推理算法獲取組織前景的一系列圖塊,依次送入訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)中,完成全圖患癌部位的預(yù)測(cè),通過(guò)對(duì)熱力圖的特征提取訓(xùn)練切片級(jí)胃癌預(yù)測(cè)模型,最終完成整張胃活檢切片的癌變概率預(yù)測(cè)。
數(shù)據(jù)標(biāo)注:胃活檢數(shù)字病理圖像尺寸很大,平均10 萬(wàn)×10 萬(wàn)個(gè)像素平方大小。我們研發(fā)了專門的數(shù)據(jù)標(biāo)注工具,用于標(biāo)注胃癌病變區(qū)域和正常組織區(qū)域。對(duì)于患有胃癌的數(shù)字病理圖像,如圖2(a)所示,采用閉合曲線標(biāo)注出所有患癌區(qū)域;對(duì)于陰性切片,如圖2(b)所示,用矩形標(biāo)注工具標(biāo)注正常胃組織。
圖2:切片標(biāo)注示例
標(biāo)注數(shù)據(jù)處理方法:對(duì)于陰性標(biāo)注的圖像處理:首先在1 倍率的數(shù)字圖像中獲取胃組織的前景。具體計(jì)算公式如下所示:
其中,IS, IR, IG, IB分別為原始圖像的S 空間圖像,R,G,B 通道圖像。為對(duì)應(yīng)圖像的otsu 閾值。最終計(jì)算出的It為二值圖像,像素真值部分為前景區(qū)域,零值部分為切片背景區(qū)域。
利用劃窗法截取20 倍率下數(shù)字圖像patch,步長(zhǎng)為200,窗口大小為250*250。若窗口中組織前景的mask 占比大于0.3,則作為陰性圖塊。
對(duì)于陽(yáng)性標(biāo)注的圖像處理:首先在1 倍率數(shù)字圖像下將標(biāo)注曲線進(jìn)行輪廓填充,獲取陽(yáng)性標(biāo)注的mask 圖像。然后用劃窗法截取20 倍率下數(shù)字圖像圖塊,步長(zhǎng)200,窗口大小250*250。若窗口中組織前景的mask 占比大于0.3。則作為陽(yáng)性patch 數(shù)據(jù)。
圖塊的分類網(wǎng)絡(luò)模型,選用Efficientnet 和resnet50 卷積網(wǎng)絡(luò)。Efficientnet 作者提出復(fù)合模型擴(kuò)張方法結(jié)合神經(jīng)結(jié)構(gòu)搜索技術(shù)獲得卷積網(wǎng)絡(luò)合適的depth、width 及resolution。Resnet50 包含四個(gè)殘差塊,最后進(jìn)行全連接操作用于分類任務(wù)。以resnet50 為例,訓(xùn)練輸入圖像為標(biāo)注后處理獲取的陽(yáng)性及陰性圖塊。分類標(biāo)簽為0-陰性圖塊,1-陽(yáng)性圖塊。Loss 設(shè)計(jì)為二值交叉熵代價(jià)函數(shù)。設(shè)有m 個(gè)樣本,y(i)為樣本標(biāo)簽,hθ(x(i))為模型預(yù)測(cè)的結(jié)果,則損失函數(shù)可表示為:
ResNet 模型用于圖塊分類如圖3所示。
圖3:ResNet 模型用于圖塊分類
在全圖推理階段,預(yù)測(cè)整張切片的癌變部位,并以熱力圖的形式展現(xiàn)。該過(guò)程的結(jié)果可以預(yù)測(cè)整張數(shù)字切片中的癌變區(qū)域具體位置,并為下一步切片分類的提供原始特征矩陣。具體的推理流程分為以下三步:
第一步:提取1 倍率下胃活檢數(shù)字病理圖像,獲取組織前景區(qū)域mask。保存為0-1 矩陣It,其中組織前景設(shè)定為1,背景設(shè)定為0。具體計(jì)算公式如下所示:
其中,IS, IR, IG, IB分別為原始圖像的S 空間圖像,R,G,B 通道圖像。為對(duì)應(yīng)圖像的otsu 閾值。最終計(jì)算出的It為二值圖像,像素真值部分為前景區(qū)域,零值部分為切片背景區(qū)域。
第二步:從矩陣It中提取值為1 的坐標(biāo)位置,即為1 倍率下數(shù)字圖像中為前景的像素坐標(biāo)點(diǎn)(xi,yi)。對(duì)每個(gè)這樣的坐標(biāo)點(diǎn),切換到20 倍率下為(20xi,20yi),以此為中心點(diǎn)在20 倍率下截取224×224的矩形作為卷積神經(jīng)網(wǎng)絡(luò)推理圖塊,推理訓(xùn)練好的圖塊分類網(wǎng)絡(luò),預(yù)測(cè)患癌概率
第三步:遍歷所有Itissue的真值,預(yù)測(cè)每個(gè)像素點(diǎn)對(duì)應(yīng)20 倍率圖塊預(yù)測(cè)的生成熱力圖矩陣h:
利用全圖推理后獲取1 倍率下的熱力圖與1 倍率下組織前景信息,進(jìn)行特征工程,提取31 個(gè)特征,詳見表1。訓(xùn)練時(shí)選取了與切片陰陽(yáng)性相關(guān)系數(shù)最高的五個(gè)特征進(jìn)行分類器SVM,random forest,lightgbm 的訓(xùn)練與評(píng)估。片級(jí)分類模型的特征及相關(guān)性詳見表2。
表1:全視野推理結(jié)果的熱力圖特征描述
表2:前五個(gè)主要特征及其與片級(jí)陰陽(yáng)性的相關(guān)性分析
胃活檢數(shù)字病理圖像來(lái)源于寧波市臨床病理診斷中心,挑選了胃癌切片和良性胃活檢切片,采用寧波江豐生物信息技術(shù)有限公司提供的高精度切片掃描儀KF-PRO-400將切片掃描為數(shù)字病理圖像,掃描倍率為20 倍。
胃鏡數(shù)字切片數(shù)量分配如表3所示,截取的20 倍率圖塊數(shù)量統(tǒng)計(jì)如表4所示。
表3:胃鏡數(shù)字切片數(shù)量分配
表4:截取的20 倍率圖塊數(shù)量統(tǒng)計(jì)
在訓(xùn)練集中用圖像增強(qiáng)方法提升模型泛化能力,圖像增強(qiáng)方法如隨機(jī)裁剪為224*224 圖像,隨機(jī)翻轉(zhuǎn),隨機(jī)gamma 變換,隨機(jī)高斯模糊,紋理變換等。訓(xùn)練時(shí)優(yōu)化器為Adam,初始學(xué)習(xí)率0.01,采用early stop 策略,當(dāng)驗(yàn)證集loss 下降到最低點(diǎn)不再下降時(shí),提前終止訓(xùn)練。
圖塊分類網(wǎng)絡(luò)訓(xùn)練時(shí)的圖像增強(qiáng)如圖4所示。
圖4:圖塊分類網(wǎng)絡(luò)訓(xùn)練時(shí)的圖像增強(qiáng)
(1)評(píng)價(jià)視野級(jí)分類性能的指標(biāo):
準(zhǔn)確率 Accuracy = (TP+TN)/(TP+TN+FP+FN),指預(yù)測(cè)正確的樣本數(shù)占總樣本數(shù)的百分比。
(2)評(píng)價(jià)切片級(jí)分類性能的指標(biāo):
ROC 曲線及AUC
ROC 曲線常用于二分類問(wèn)題中的模型比較,主要表現(xiàn)為一種真正例率 (TPR) 和假正例率 (FPR) 的權(quán)衡。具體方法是在不同的分類閾值 (threshold) 設(shè)定下分別以TPR 和FPR 為縱、橫軸作圖。
ROC 曲線圍成的面積即為AUC,AUC 越接近1 分類效果越好。
如表5所示,Efficientnet-b1 深度卷積網(wǎng)絡(luò)模型在驗(yàn)證集和測(cè)試集中分類準(zhǔn)確率最優(yōu)。相交更復(fù)雜的Efficientnet-b2,Efficientnet-b3結(jié)構(gòu)表現(xiàn)更好。
表5:CNN 模型評(píng)估
基于訓(xùn)練得到的Efficientnet-b1 深度卷積網(wǎng)路模型,對(duì)胃活檢數(shù)字切片進(jìn)行全圖推理,獲取癌變區(qū)域熱力圖,如圖5所示,左圖為1 倍率下數(shù)字圖像原圖,右圖為預(yù)測(cè)癌變區(qū)域熱力圖,顏色越接近紅色的區(qū)域表示對(duì)應(yīng)的組織越可能有癌變。
圖5:全圖推理預(yù)測(cè)癌變區(qū)域
下一步對(duì)切片分類訓(xùn)練集和測(cè)試集中的所有切片進(jìn)行全圖推理,獲取對(duì)應(yīng)的預(yù)測(cè)熱力圖。提取預(yù)測(cè)熱力圖中的圖像特征進(jìn)行切片級(jí)分類模型的訓(xùn)練和測(cè)試。
不同分類模型在切片測(cè)試集中的表現(xiàn)如圖6所示。
圖6:不同分類模型在切片測(cè)試集中的表現(xiàn)
在測(cè)試集中,lightgbm 的切片分類效果最優(yōu),靈敏度100%時(shí),特異度達(dá)到53%
自21世紀(jì)以來(lái),人工智能在病理界有了廣泛的應(yīng)用,比如遠(yuǎn)程病理會(huì)診、病理教學(xué)、質(zhì)量控制、切片管理等。近來(lái),人們的研究轉(zhuǎn)向?qū)I 應(yīng)用于病理輔助診斷中來(lái),2017年9月,美國(guó)食品和藥品管理局(FDA)批準(zhǔn)了第一個(gè)全載玻片成像掃描(WSI),2018年批準(zhǔn)Philips IntelliSite 病理解決方案(PIPS)作為第一個(gè)用于病理診斷的WSI 方案。我們聯(lián)合了寧波臨床病理診斷中心的病理專家及寧波江豐生物信息技術(shù)有限公司的計(jì)算機(jī)專家,利用寧波江豐生物信息技術(shù)有限公司自主研發(fā)的高精度切片掃描儀KFPRO-400,將明確診斷胃癌的500 張胃活檢切片及500 張良性切片掃描成數(shù)字圖像,由多位高年資病理專家采用江豐公司自主研發(fā)的標(biāo)注軟件對(duì)腫瘤區(qū)域進(jìn)行標(biāo)注,計(jì)算機(jī)專家探索研發(fā)一種新的計(jì)算機(jī)深度學(xué)習(xí)方法,建立胃癌預(yù)測(cè)模型,用于初步篩選胃活檢標(biāo)本,從而大大提高病理醫(yī)生的工作效率診斷準(zhǔn)確率。
隨著科技發(fā)展,計(jì)算機(jī)硬件的計(jì)算能力不斷的得到提升,深度學(xué)習(xí)開始在圖像語(yǔ)義分割上大放異彩,學(xué)者們提出了一系列有監(jiān)督的模型并取得了卓越的分割效果。我們以胃癌為靶心,圍繞胃鏡病理切片智能識(shí)別、診斷,展開大數(shù)據(jù)與人工智能技術(shù)在胃鏡病理切片診斷及輔助治療上的應(yīng)用。研究基于深度學(xué)習(xí)的粗標(biāo)記胃鏡病理切片圖像分割算法,通過(guò)計(jì)算機(jī)對(duì)病理切片進(jìn)行分割識(shí)別,緩解緊張的醫(yī)療資源,輔助醫(yī)生實(shí)現(xiàn)高準(zhǔn)確性診斷。
傳統(tǒng)的醫(yī)學(xué)圖像分割算法包含區(qū)域的分割方法、邊緣的分割方法、圖論的分割方法和泛函的圖像分割方法等。隨著人工智能和計(jì)算機(jī)視覺等相關(guān)領(lǐng)域的快速發(fā)展,深度學(xué)習(xí)亦被運(yùn)用于醫(yī)學(xué)圖像分割,并取得了顯著效果。Garcia 等[1]提出基于深度學(xué)習(xí)的胃癌免疫組織化學(xué)圖像的淋巴細(xì)胞自動(dòng)檢測(cè)方法,該方法主要是基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型的分類任務(wù),可以從一張免疫組織化學(xué)染色圖像中分辨出患者是否患有癌癥,但不能精確給出癌癥區(qū)域。Sharma 等[3]也提出了一種基于CNN 的分類方法用于識(shí)別胃癌,他們基于典型的AlexNet 網(wǎng)絡(luò)[4]提取圖片特征信息,實(shí)現(xiàn)對(duì)整張數(shù)字病理圖像胃癌的識(shí)別。Ficsor 等[5]提出一種細(xì)胞計(jì)數(shù)方法,Zaitoun 等[6]提出一種基于句法結(jié)構(gòu)的方法。此外,Cosatto 等[7]提出通過(guò)半監(jiān)督學(xué)習(xí)的方法檢測(cè)胃癌細(xì)胞,Sharma等[8]利用神經(jīng)網(wǎng)絡(luò)提取胃癌細(xì)胞核內(nèi)的紋理信息以及支持向量機(jī)(support vector machine,SVM)算法實(shí)現(xiàn)了對(duì)胃癌的識(shí)別。然而,這些方法并不能很好地解決胃癌病理切片的識(shí)別問(wèn)題,大多是基于整張病理切片圖進(jìn)行分類識(shí)別,雖然能識(shí)別出是否為胃癌患者,但不能準(zhǔn)確定位到腫瘤區(qū)域,對(duì)于醫(yī)師的后續(xù)治療不能起到很大作用。為此,本研究采用基于深度學(xué)習(xí)的圖像分割技術(shù)實(shí)現(xiàn)對(duì)病理切片的胃癌區(qū)域識(shí)別,幫助醫(yī)學(xué)專業(yè)人員精準(zhǔn)定位癌癥區(qū)域,以期對(duì)患者的后續(xù)治療產(chǎn)生積極意義?;谏疃染矸e神經(jīng)網(wǎng)絡(luò)搭建的胃鏡活檢數(shù)字圖像預(yù)測(cè)框架,可以準(zhǔn)確定數(shù)字圖像的癌變區(qū)域。在此基礎(chǔ)上通過(guò)特征提取搭建機(jī)器學(xué)習(xí)分類模型,可有效預(yù)測(cè)整張切片的患癌概率,在測(cè)試集中l(wèi)ightgbm 分類模型AUC 為0.963。實(shí)驗(yàn)結(jié)果表明,有良好的切片分類性能??纱蟠鬁p輕病理醫(yī)生的診斷效率,減小誤判。