甄濤 胡大成 姚偉 沈起鈞
特發(fā)性肺纖維化(idiopathic pulmonary fibrosis,IPF)是不明原因的慢性間質(zhì)纖維化性肺炎的一種特殊類型,組織學(xué)表現(xiàn)為普通型間質(zhì)性肺炎(usual interstitial pneumonia,UIP)[1]。IPF 通常在50 歲以后出現(xiàn),從最初確診到死亡的中位生存期3~5 年[2]。因此臨床上的早期診斷及治療至關(guān)重要,其中胸部高分辨率CT(high-resolution CT,HRCT)是重要的檢查手段。而性別-年齡-肺生理變量(gender-age-lung physiology variables,GAP)分期影響患者的預(yù)后,決定患者的治療決策。然而半定量的GAP 分期方法無法區(qū)分同一分期內(nèi)患者病情的嚴重程度[3-4]。本研究旨在通過用于體素醫(yī)學(xué)圖像分割的全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)V-net 對胸部HRCT 檢查發(fā)現(xiàn)的肺間質(zhì)性病變進行自動分割,并基于深度學(xué)習(xí)影像組學(xué)特征模型對IPF 的GAP 分期進行預(yù)測,為臨床分期提供一種新的定量評估手段。
1.1 對象 回顧2020 年1 月至2022 年6 月浙江大學(xué)醫(yī)學(xué)院附屬杭州市第一人民醫(yī)院診斷為IPF 的患者67例,其中男37 例,女30 例,年齡44~84(63.4±10.4)歲,所有患者進行GAP 評分和分期[4]。其中GAP Ⅰ期定義為早期IFP,GAP Ⅱ期及GAP Ⅲ期定義為中晚期IPF,見表1。67 例患者按照8∶2 的比例隨機分成訓(xùn)練組及驗證組。納入標準:(1)根據(jù)美國胸科學(xué)會、歐洲呼吸學(xué)會、日本呼吸學(xué)會和拉丁美洲胸科學(xué)會2018 年更新的IPF 診斷指南[5]:①排除其他已知原因的間質(zhì)性肺?。ㄈ缂彝セ蚵殬I(yè)環(huán)境暴露,結(jié)締組織病和藥物毒性等)和②或③之一;②胸部HRCT 檢查出現(xiàn)UIP 特征;③取得肺組織標本患者可具體結(jié)合HRCT 類型和組織學(xué)類型確定是否為UIP,經(jīng)過包括放射科、呼吸科和風(fēng)濕免疫病專家組成的多學(xué)科團隊評估,診斷為IPF 的患者。(2)患者進行HRCT 檢查時間與肺功能測定時間間隔不超過1 個月。排除標準:(1)檢查時患有惡性腫瘤;(2)由于其他病理原因造成的肺損傷;(3)CT 檢查圖像上嚴重的運動偽影;(4)精神疾病患者;(5)妊娠期或哺乳期者;(6)合并嚴重肝腎功能障礙、心力衰竭、呼吸衰竭和造血系統(tǒng)功能障礙等原發(fā)性疾病患者。本研究經(jīng)浙江大學(xué)醫(yī)學(xué)院附屬杭州市第一人民醫(yī)院醫(yī)學(xué)倫理委員會審查通過(批準文號:KY-20230414-0068-01)。
表1 GAP 評分和分期系統(tǒng)
1.2 臨床資料收集 由同一位呼吸科醫(yī)師完成,包括患者性別、年齡、身高、體重、吸煙史、肺功能等指標,其中肺功能指標包括用力肺活量(forced vital capacity,F(xiàn)VC)、第一秒末用力呼氣量(forced expiratory volume in one second,F(xiàn)EV1)和一氧化碳彌散功能(carbon monoxide diffusing capacity,DLCO)。
1.3 影像學(xué)檢查 采用德國西門子128 排雙源螺旋CT 機?;颊哐雠P位頭先進,囑深吸氣后屏氣狀態(tài)下行CT 平掃,具體掃描參數(shù):管電壓100~120 kV,管電流200~280 mA,層厚5.0 mm,層間距5.0 mm,掃描視野350 mm×350 mm,矩陣512×512。在完成胸部常規(guī)CT 掃描和數(shù)據(jù)采集后,均以高分辨率骨算法行1.25 mm 薄層橫軸位后處理重建。將重建后的CT圖像以DICOM 格式導(dǎo)出。
1.4 圖像分割、特征提取及篩選 基于聯(lián)影智能科研平臺uAI Research Portal(United Imaging Intelligence,中國)軟件中V-net 網(wǎng)絡(luò),用肺間質(zhì)性病變的遷移模型對隨機選出30 例患者的胸部HRCT 圖像進行自動分割,同時由1 位具有10 年以上呼吸系統(tǒng)影像診斷經(jīng)驗的高級職稱醫(yī)師對相同的30 例患者圖像進行手動分割,用Dice 相似性系數(shù)(Dice similariy coefficient,DSC)評估自動分割模型的效能,隨后用自動分割模型分割剩余的37 例患者圖像,并應(yīng)用軟件上的組學(xué)分析模塊進行自動分割感興趣區(qū)(region of interest,ROI)的特征提取,使用Z值歸一化算法進行標準化,通過最小絕對緊縮與選擇算子(least absolute shrinkage and selection operator,LASSO)回歸對各個特征進行降維篩選,得到差異有統(tǒng)計學(xué)意義的影像組學(xué)特征,同時計算影像組學(xué)標簽(Radscore)。
1.5 模型的建立與驗證 基于Radscore 建立構(gòu)建影像組學(xué)模型,繪制ROC 曲線,采用AUC 評估影像組學(xué)模型對GAP 分期的預(yù)測效能。
1.6 統(tǒng)計學(xué)處理 采用medcalc 19.1 及R 4.1.2 統(tǒng)計軟件。正態(tài)分布的計量資料以表示,組間比較采用兩獨立樣本t檢驗;非正態(tài)分布的計量資料以M(P25,P75)表示,組間比較采用Wilcoxon 檢驗;計數(shù)資料以例(%)表示,組間比較采用χ2檢驗或Fisher 確切概率法。用DSC 評價自動分割模型的分割效能,DSC 是一種集合相似度度量指標,通常用于計算兩個樣本的相似度,范圍為0~1,1 表示分割結(jié)果最好,0 表示分割結(jié)果最差,計算公式:s=2×|A∩B|/(|A|+|B|)。A 代表手動分割結(jié)果,B 代表自動分割結(jié)果,s 的取值范圍為0~1;0.75≤DSC<1 認為分割效能較好,0.40≤DSC<0.75,認為分割效能一般,DSC<0.40 認為分割效能差。對影像組學(xué)模型進行ROC 曲線分析其預(yù)測效能,計算AUC、靈敏度、特異度和準確度。采用Hosmer-Lemeshow 檢驗分析模型擬合度,P>0.05 提示模型擬合較好。P<0.05為差異有統(tǒng)計學(xué)意義。
2.1 自動分割模型效能 將30 例患者的V-net 自動分割結(jié)果與人工分割結(jié)果比較計算DSC,DSC 為0.55~0.93(0.83±0.10)。臨床特征選擇根據(jù)GAP 評分和分期系統(tǒng),早期IPF 40 例,中晚期IPF 27 例,兩組患者年齡、性別、FVC 占預(yù)計值百分比(FVCpre%)及DLCO 占預(yù)計值百分比(DLCOpre%)比較差異均有統(tǒng)計學(xué)意義(均P<0.05),見表2。67 例患者按照8∶2 的比例隨機分成訓(xùn)練組53 例及驗證組14 例,兩組患者的一般資料比較見表3。
表2 早期和中晚期IPF 患者GAP 分期指標比較
表3 訓(xùn)練組及驗證組不同GAP 分期IPF 患者的一般資料比較
2.2 影像組學(xué)特征篩選及模型建立 67 例患者圖像最終提取出2 400 個組學(xué)特征,經(jīng)過LASSO(λ=0.1)回歸分析最終篩選出5 類,8 個最優(yōu)影像組學(xué)特征,包括2 個肺炎特異性特征ROI_segment10_infected_rates(RSIR)和ROI_segment15_infected_mean_HU(RSIMH),1 個一階直方圖特征中的曲率流分布curvatureflow_firstorder_range(CFR),2 個高階紋理特征中的灰度共生矩陣特征Gray Level Co-occurence Matrix(GLCM)中的最大概率original_glcm_maximumprobability(OGM)和突出聚類discretegaussian_glcm_clusterprominence(DGC),2 個小波變換特征中的大依賴性高灰度水平強調(diào)wavelet_gldm_ wavelet-lhl-largedependencehighgraylevelemphasis(WGWLL)和峰度wavelet_firstorder_wavelet-lhhkurtosis(WFWLK),1 個拉普拉斯變換特征log_firstorder_log-sigma-4-0-mm-3d-90percentile(LFLS),見圖1,特征間的相關(guān)系數(shù)見圖2,通過相關(guān)系數(shù)加權(quán)求和計算Radscore,見圖3,公式如下Radscore=0.093 718 074×(RSIR)+0.070 571 646×(RSIMH)+0.063 054 5×(CFR)+0.027 729 482×(OGM)+ 0.025 432 792×(WFWLK)+0.007 874 882×(WGWLL)+0.001 407 807×(DGC)+(-0.022 971 317)×(LFLS)+0.425 925 94。GAPⅡ、Ⅲ期患者Radscore 在訓(xùn)練組及驗證組均高于GAPⅠ期患者,且在訓(xùn)練組中差異有統(tǒng)計學(xué)意義(P<0.01)?;赗adscores 構(gòu)建出用于預(yù)測GAP 分期的影像組學(xué)特征模型,訓(xùn)練組及驗證組的模型擬合度良好,均P>0.05。訓(xùn)練組及驗證組的AUC分 別 為0.862(95%CI:0.740~0.941)、0.854(95%CI:0.568~0.981),見圖4,模型效能見表4。
圖1 最優(yōu)影像組學(xué)特征組合及其系數(shù)
圖2 最優(yōu)影像組學(xué)特征間的相關(guān)系數(shù)
圖3 訓(xùn)練組和驗證組GAP 分期Radscore 比較的小提琴圖
圖4 訓(xùn)練組和驗證組影像組學(xué)模型的ROC 曲線(A:訓(xùn)練組;B:驗證組)
表4 訓(xùn)練組及驗證組的影像組學(xué)模型效能
本研究基于V-net 網(wǎng)絡(luò)用遷移模型構(gòu)建了胸部HRCT 的肺間質(zhì)性病變自動分割模型,并基于自動分割結(jié)果的影像組學(xué)特征構(gòu)建了用于預(yù)測IPF 患者GAP 分期的影像組學(xué)模型。結(jié)果顯示基于V-net 網(wǎng)絡(luò)的肺間質(zhì)性病變遷移模型的自動分割效能較高,有較高實用性。同時發(fā)現(xiàn)影像組學(xué)特征模型不僅能預(yù)測IPF 患者GAP 分期,而且可以對同一分期內(nèi)的患者進行定量區(qū)分。
組學(xué)分析的圖像標注是一項繁瑣的工作,人工分割不僅耗時,而且重復(fù)性差,而深度學(xué)習(xí)的自動分割恰好能解決這一局限性。深度學(xué)習(xí)的自動分割算法已在多個領(lǐng)域,如各種腫瘤以及部分大器官的分割中展現(xiàn)出較好的可靠性與實用性[6-11]。然而針對一些非腫瘤性疾病的研究相對較少,如UIP。V-net 是近期開發(fā)的專門用于體素醫(yī)學(xué)圖像分割的FCN,它在醫(yī)學(xué)圖像的自動分割方面,表現(xiàn)出強大的實用性和穩(wěn)定性[12-15]。V-net 于2016 年由Milletarid 等[16]首先提出,主要是針對醫(yī)學(xué)三維圖像,與常見二維數(shù)據(jù)有區(qū)別,但其實做法類似,最后輸出是單通道的三維數(shù)據(jù),代表每個像素為前景或背景概率,如果概率>0.5 則是前景。V-net 數(shù)據(jù)集多是二進制分類任務(wù),因此其使用醫(yī)學(xué)圖像中常用的Dice 損失進行計算,相比同樣基于FCN 的U-net,它可以加速收斂的速度,占用更小的內(nèi)存,理論上有更快的計算速度。本研究由于樣本量較少,因此使用了基于V-net 網(wǎng)絡(luò)的遷移模型,并用部分患者進行了模型的效能評估,最終模型的DSC 超過0.8,顯示了其較高的分割效能。另外,V-net 網(wǎng)絡(luò)可以基于一個較小的樣本量構(gòu)建自動分割模型,并且可以實現(xiàn)批量分割,能節(jié)省大量的人工分割成本。
然而,在病變分類方面深度學(xué)習(xí)所需數(shù)據(jù)量相對龐大,且結(jié)果的解釋性較差[17-19]。影像組學(xué)由于需要人為監(jiān)督,分類效能相對較高[20],且較深度學(xué)習(xí)有更好的解釋性,能很好解決這一局限性,而且它已被大量的研究證明其在疾病分期、分級、療效評估及預(yù)測等方面具有一定優(yōu)勢[21-23]。不同GAP 分期的IPF 患者,雖然癥狀明顯不同,但是其影像學(xué)表現(xiàn)卻可能相似,肉眼有時難以分辨。有研究報道肺纖維化評分與肺功能的相關(guān)性較弱,便是很好的佐證[24]。肺纖維化評分是基于人工視覺觀察對肺間質(zhì)性病變進行的半定量分析,其重復(fù)性較差,并且是基于肺分區(qū)的非精確性的半定量分析方法,即使是有經(jīng)驗的高級職稱醫(yī)師之間也存在差異。影像組學(xué)高通量提取信息的能力,正好可以解決這一局限性。Park 等[25]發(fā)現(xiàn)IPF 患者肺纖維化邊緣的高斯曲率直方圖特征隨著病情的進展表現(xiàn)出更高的異質(zhì)性,它和IPF 患者的生存率呈負相關(guān)。然而這項研究,只評估纖維化的肺表面,雖然IPF多發(fā)生在胸膜下,肺表面易累及,但也不能僅以局部病變評價整體情況。而本研究應(yīng)用的影像組學(xué)模型不僅包含灰度直方圖特征,還包含形態(tài)特征、紋理特征以及小波特征,能更加全面地評估病變的異質(zhì)性,本研究最終篩選出的8 個特征中,包括兩個肺炎特異性特征:RSIR 和RSIMH,提示發(fā)生在兩下肺肺段的間質(zhì)性病變特征對疾病分期具有提示作用。肺間質(zhì)纖維化有從下往上發(fā)展的趨勢,這也提示下肺的病變往往更明顯,對臨床分期更有意義。另外,一階直方圖特征中的曲率流分布(CFR)和小波變換后的峰度(WFWLK)特征提示病灶的分布及密度峰值分布也對疾病的分期有貢獻?;叶裙采仃嚕℅LCM)中的突出聚類(DGC)和最大概率(OGM)也影響臨床分期,突出聚類是對GLCM 的偏度和不對稱的度量,更高的值意味著更不對稱的均值,而較低的值表示峰值接近均值,也意味著均值的變化更少。經(jīng)過小波變換的灰度依賴矩陣中的大依賴性高灰度水平強調(diào)(WGWLL)也可以反映病變的異質(zhì)性。
GAP 評分及分期系統(tǒng)引入性別、年齡、FVC 和DLCO 對IPF 患者進行評分及分期,并且可以預(yù)測患者的死亡率[4]。由于其操作簡單,被廣泛應(yīng)用于臨床,以改善預(yù)后及指導(dǎo)臨床診療。然而GAP 分期屬于半定量方法,它無法區(qū)分同一分期內(nèi)患者疾病的嚴重程度。影像組學(xué)基于患者的胸部HRCT 影像,其測量重復(fù)性較高,并且本研究影像組學(xué)模型能對每一例患者進行精確定量,不僅能對GAP 分期進行預(yù)測,而且能區(qū)分同一分期內(nèi)患者疾病的嚴重程度,隨著Radscore 的增大,肺纖維化程度也逐漸增加。本研究影像組學(xué)模型的AUC 較高,訓(xùn)練組及驗證組的AUC 分別為0.862(95%CI:0.74~0.941)、0.854(95%CI:0.568~0.981),也提示模型有較高的可靠性,未來可能作為患者預(yù)后的潛在生物學(xué)標記。
本研究的不足與展望:本研究樣本量小,且來自于單一醫(yī)療機構(gòu),未來樣本量的擴大及多中心的合作,會使得該研究成果有更普遍的適用性。本研究未納入除亞洲人以外的人種,由于不同種族的肺功能測量存在差異,因此使本研究存在一定局限性。
綜上所述,本研究基于V-net 深度學(xué)習(xí)分割結(jié)果構(gòu)建的影像組學(xué)模型,可以作為預(yù)測IPF 患者GAP 分期的臨床工具,同時可對患者疾病進行精確的定量評估,將來有望成為一種新的評價IPF 嚴重程度的定量生物學(xué)指標,輔助臨床做治療決策,實現(xiàn)個體化精準醫(yī)療。