劉 鵬,王麗嘉,馬 超
人工智能(artificial intelligence,AI)和醫(yī)學(xué)成像技術(shù)發(fā)展迅速,使得醫(yī)學(xué)圖像可轉(zhuǎn)換為適合深度挖掘的高維數(shù)據(jù)[1],影像組學(xué)(radiomics)應(yīng)運(yùn)而生,成為AI 領(lǐng)域的重要組成部分[2]。作為醫(yī)工交叉的產(chǎn)物,影像組學(xué)有著廣闊的臨床應(yīng)用前景,筆者就影像組學(xué)概念及相關(guān)分析工具等展開(kāi)綜述。
影像組學(xué)屬于計(jì)算機(jī)輔助診斷 (computer-aided diagnosis,CAD)的范疇。2012年由荷蘭學(xué)者Lambin P等[3]提出,當(dāng)時(shí)主要使用計(jì)算機(jī)體層攝影術(shù)(computed tomography,CT)數(shù)據(jù)。近幾年影像組學(xué)的概念不斷被完善,數(shù)據(jù)從CT 擴(kuò)展到磁共振成像(magnetic resonance imaging,MRI)、超聲(ultrasound,US)等[4],即高通量地從影像圖像中提取并分析大量的影像學(xué)定量特征。影像組學(xué)從醫(yī)學(xué)圖像中提取特征,通過(guò)統(tǒng)計(jì)學(xué)方法建立用于疾病診斷、預(yù)后預(yù)測(cè)、療效評(píng)價(jià)的模型,以指導(dǎo)治療方式的選擇、實(shí)現(xiàn)個(gè)性化和精準(zhǔn)化治療[5,6]。近年來(lái),影像組學(xué)已用于多種疾病研究,如膠質(zhì)瘤[7]、肺癌[8]、乳腺癌[9]、肝腫瘤[10]、胰腺腫瘤[11]、前列腺癌[12]等。
影像組學(xué)分析步驟包括獲取影像數(shù)據(jù)、感興趣區(qū)(region of interest,ROI)分割、特征提取、特征選擇、模型建立與結(jié)果分析。
影像組學(xué)可用于CT、MRI、正電子發(fā)射計(jì)算機(jī)體層攝影術(shù)(positron emission tomography,PET)、X 射線和US 等多種模態(tài)影像數(shù)據(jù)[4],研究者要根據(jù)臨床需求選擇合適的成像方式。臨床使用的影像設(shè)備種類(lèi)繁多,圖像采集和重建缺乏跨中心的標(biāo)準(zhǔn)協(xié)議,圖像的信噪比、對(duì)比度和空間分辨率等會(huì)影響形狀、直方圖、紋理和高階特征[13]?;贑T 研究發(fā)現(xiàn)體素大小對(duì)圖像特征的可重復(fù)性影響顯著,尤其是層厚,而管電壓、管電流等對(duì)圖像特征的可重復(fù)性影響較小,推薦使用1.0~2.5 mm 層厚的CT 圖像進(jìn)行影像組學(xué)分析。Dercle L 等[14]統(tǒng)計(jì)了161 項(xiàng)影像組學(xué)研究,發(fā)現(xiàn)多數(shù)PET-CT 研究使用18F-氟代脫氧葡萄糖 (18F-fluorodeoxyglucose,18F-FDG)作為示蹤劑;40%MRI 研究中除了T1和T2序列外,還使用擴(kuò)散加權(quán)成像(diffusion weighted imaging,DWI),患者數(shù)量的中位數(shù)為64,僅少數(shù)研究(9%)是多中心的。研究者可采用大隊(duì)列數(shù)據(jù)進(jìn)行影像組學(xué)研究,以降低成像參數(shù)引起的誤差,也可使用相同參數(shù)影像數(shù)據(jù)的小隊(duì)列開(kāi)展相關(guān)研究[15]。
ROI 分割是影像組學(xué)的關(guān)鍵步驟之一,需要較高的可重復(fù)率和準(zhǔn)確度,因?yàn)橛跋窠M學(xué)特征主要是從ROI 中提取的。有手動(dòng)分割、半自動(dòng)分割和全自動(dòng)分割3 種方式,手動(dòng)分割精度高但耗時(shí);半自動(dòng)分割方法通過(guò)人機(jī)交互提高了分割速度,對(duì)邊界模糊的區(qū)域可以通過(guò)人工二次矯正以提高分割的精度;全自動(dòng)分割由計(jì)算機(jī)獨(dú)立完成,重復(fù)性好、耗時(shí)短且工作量小,但對(duì)于邊界模糊的腫瘤或病變的高精確度分割較為困難[16],目前尚無(wú)通用的腫瘤或病變的自動(dòng)分割工具。傳統(tǒng)自動(dòng)分割方法有基于弱先驗(yàn)知識(shí)的閾值、區(qū)域生長(zhǎng)和邊緣檢測(cè)算法等,基于強(qiáng)先驗(yàn)知識(shí)的可變形模型、多圖譜等[17]。深度學(xué)習(xí)在自動(dòng)分割中展示出優(yōu)于傳統(tǒng)方法的性能,常用的圖像分割網(wǎng)絡(luò)框架包括全卷積網(wǎng)絡(luò) (fully convolutional networks,F(xiàn)CN)、U 型網(wǎng)絡(luò)(U-net)等,已應(yīng)用于腦[18]、肺[19]、胰腺[20]、前列腺[21]和多器官[22]圖像的分割。
常用影像組學(xué)特征有4 類(lèi):形態(tài)特征,一階統(tǒng)計(jì)特征,紋理特征,基于濾波或變換的特征。形態(tài)特征用于描述腫瘤的幾何形態(tài),包括形狀和大小等;一階統(tǒng)計(jì)特征用來(lái)分析ROI 內(nèi)的體素強(qiáng)度分布;紋理特征用來(lái)描繪圖像中灰度值的空間分布關(guān)系,量化腫瘤異質(zhì)性,需要先提取圖像紋理特性,保存到變換矩陣(例如灰度共生矩陣)后再計(jì)算相應(yīng)特征;基于濾波或變換的特征是通過(guò)對(duì)原圖進(jìn)行變換后再提取變換圖像的灰度或紋理特征,常用變換方法有小波變換、高斯濾波等。見(jiàn)表1。
表1 常用影像組學(xué)特征Tab.1 Features of radiomics
國(guó)際成像生物標(biāo)記物標(biāo)準(zhǔn)化倡議小組(Image Biomarker Standardization Initiative,IBSI) 提出了11種特征174 個(gè)參數(shù)作為影像組學(xué)特征提取的參考[23](表2)。紋理特征沒(méi)有明確標(biāo)準(zhǔn),不同的研究?jī)?nèi)容所需的圖像處理方式多樣,研究人員可以根據(jù)研究需要進(jìn)行圖像變換,探究不同變換下特征對(duì)研究目標(biāo)的影響。
表2 IBSI 標(biāo)準(zhǔn)化特征Tab.2 Standardization features of IBSI
影像組學(xué)提取的特征數(shù)量較多,樣本量有限時(shí)會(huì)導(dǎo)致預(yù)測(cè)模型出現(xiàn)過(guò)擬合并增加特征分析和模型訓(xùn)練的時(shí)間,因此需要對(duì)特征進(jìn)行降維以獲取與結(jié)果相關(guān)性最大、彼此相關(guān)性最小的最優(yōu)特征子集。根據(jù)數(shù)據(jù)具有的標(biāo)簽(ground truth),特征選擇可以分為有監(jiān)督(有標(biāo)簽)、無(wú)監(jiān)督(無(wú)標(biāo)簽)和半監(jiān)督(部分標(biāo)簽)3種方式[24](表3)。Parmar C 等[25]評(píng)估了14 種基于濾波的特征選擇方法對(duì)兩組肺癌患者的預(yù)測(cè)能力,其中Wilcoxon 檢驗(yàn)法預(yù)測(cè)結(jié)果最好。在監(jiān)督法中,嵌入式可以同時(shí)實(shí)現(xiàn)特征選擇和模型構(gòu)建,常用的如最小絕對(duì)收斂和選擇算子(least absolute shrinkage and selection operator,LASSO)[26],封裝式根據(jù)不同特征子集得到的模型性能選擇特征;特征選擇后需要重新構(gòu)建模型,常用的有回歸特征消除(recursive feature elimination,RFE)等。在實(shí)際研究中,獲得完整的標(biāo)簽數(shù)據(jù)較為困難,此時(shí)可以同時(shí)使用有標(biāo)簽和無(wú)標(biāo)簽的數(shù)據(jù)進(jìn)行特征選擇,即半監(jiān)督方法[27]。無(wú)監(jiān)督方法常用的有主成分分析 (principal components analysis,PCA)、聚類(lèi)等;在實(shí)際應(yīng)用中,研究人員可以通過(guò)試驗(yàn)不同方法以獲得最佳結(jié)果。
表3 常用的特征選擇方法Tab.3 Methods of features selection
影像組學(xué)通常使用監(jiān)督學(xué)習(xí)算法來(lái)構(gòu)建模型,即通過(guò)分析特征分布,建立從特征到目標(biāo)問(wèn)題的映射模型,以達(dá)到研究目的[28]。模型構(gòu)建方法的選擇通常是根據(jù)研究任務(wù)及研究人員的經(jīng)驗(yàn),在模型的預(yù)測(cè)能力和解釋能力兩個(gè)方面進(jìn)行權(quán)衡,最終選擇適合目標(biāo)問(wèn)題的方法進(jìn)行建模。Parmar C 等[25]評(píng)估了12 種分類(lèi)方法對(duì)兩組肺癌患者的預(yù)測(cè)能力,其中隨機(jī)森林分類(lèi)器結(jié)合大多數(shù)特征選擇技術(shù)的表現(xiàn)最好,貝葉斯模型最穩(wěn)定,而在臨床研究中,通常對(duì)建立的模型有性能好、穩(wěn)定、可復(fù)現(xiàn)性高的要求。
機(jī)器學(xué)習(xí)模型通常可以分為分類(lèi)模型和回歸模型。在分類(lèi)任務(wù)中,可選擇邏輯回歸進(jìn)行疾病的二分類(lèi);支持向量機(jī)求解劃分?jǐn)?shù)據(jù)集;隨機(jī)森林分類(lèi)器利用多個(gè)決策樹(shù)進(jìn)行分類(lèi),通過(guò)統(tǒng)計(jì)每個(gè)決策樹(shù)的結(jié)果,選擇投票數(shù)最多的結(jié)果作為其最終結(jié)果。在生存分析任務(wù)中,可選擇比例風(fēng)險(xiǎn)回歸模型(cox proportional hazards model,Cox),該模型能同時(shí)分析眾多因素對(duì)生存期的影響。
除了常用于分類(lèi)回歸的模型外,深度學(xué)習(xí)也是重要方法,其使用多次線性加權(quán)和非線性激活函數(shù)的組合來(lái)對(duì)特征進(jìn)行映射,得到目標(biāo)問(wèn)題。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)可從圖像中學(xué)習(xí)特征并進(jìn)行預(yù)測(cè),不需要特征選擇。深度學(xué)習(xí)也分為監(jiān)督、半監(jiān)督和無(wú)監(jiān)督3 種方式,研究人員可自行設(shè)計(jì)CNN,也可以使用現(xiàn)有的網(wǎng)絡(luò),如視覺(jué)幾何群網(wǎng)絡(luò) (visual geometry group network,VGG)[29]、殘差網(wǎng)絡(luò)(residual network,ResNet)[30]等,根據(jù)數(shù)據(jù)大小,可以選擇固定參數(shù)或使用遷移學(xué)習(xí)對(duì)網(wǎng)絡(luò)參數(shù)微調(diào)。
影像組學(xué)的目標(biāo)是得到一個(gè)高精度和高效率的預(yù)測(cè)模型,模型計(jì)算結(jié)果和泛化性等需要通過(guò)性能指標(biāo)來(lái)衡量,因此需要數(shù)據(jù)來(lái)訓(xùn)練和驗(yàn)證模型(內(nèi)部驗(yàn)證),通常使用交叉驗(yàn)證的方法優(yōu)化模型,也可提供其他來(lái)源數(shù)據(jù)評(píng)估模型的準(zhǔn)確度(外部驗(yàn)證)。在分類(lèi)任務(wù)中,性能指標(biāo)包括受試者工作特性(receiver operating characteristic,ROC)曲線和曲線下面積(area under curve,AUC)等,其中AUC 越接近1 說(shuō)明結(jié)果越好。也可使用臨床相關(guān)指標(biāo),如準(zhǔn)確度、靈敏度、特異度等。對(duì)于預(yù)測(cè)風(fēng)險(xiǎn)比和生存曲線等任務(wù),主要衡量一致性指數(shù),即比較觀察結(jié)果與預(yù)測(cè)結(jié)果之間的一致性,越接近1 說(shuō)明結(jié)果越好。生存分析還可繪制Kaplan-Meier(KM)曲線,通過(guò)對(duì)數(shù)秩檢測(cè)(Log-rank test)等方法進(jìn)行評(píng)估[31]。
多個(gè)研究小組開(kāi)發(fā)了軟件/工具包用于影像組學(xué)研究(表4)。ITK-SNAP 是一款醫(yī)學(xué)圖像處理軟件,能對(duì)數(shù)據(jù)可視化和分割,支持多種格式的數(shù)據(jù),如醫(yī)學(xué)數(shù)字成像與通信 (digital imaging and communications in medicine,DICOM)、神經(jīng)成像信息技術(shù)倡議(neuroimaging informatics technology initiative,NiFTI)、近原始光柵數(shù)據(jù)(nearly raw raster data,NRRD)、可視化工具箱(visualization Tool kit,VTK)等,對(duì)計(jì)算機(jī)配置要求較低,軟件提供了手動(dòng)和自動(dòng)分割方式。自動(dòng)化方法使用的是可調(diào)參數(shù)的活動(dòng)輪廓方法,在冠狀面、矢狀面及橫斷面三個(gè)方向上進(jìn)行分割并可以三維顯示。三維slicer 可在Linux、MacOSX 和Windows 等多種操作系統(tǒng)上使用,支持DICOM、NiFTI、NRRD、VTK、位圖(Bitmap,BMP)等格式;同樣支持三個(gè)方向的分割,可實(shí)現(xiàn)配準(zhǔn)及二維、三維和四維數(shù)據(jù)集的可視化功能,其半自動(dòng)分割方法有追蹤相同強(qiáng)度值、區(qū)域生長(zhǎng)、選定閾值等;其擴(kuò)展的PyRadiomics 包可用于圖像特征的提取。影像標(biāo)記物開(kāi)發(fā)軟件(imaging biomarker explorer,IBEX) 使用MATLAB 和C/C++編程語(yǔ)言開(kāi)發(fā),可以在Windows 系統(tǒng)和1 GB 內(nèi)存的計(jì)算機(jī)上運(yùn)行,支持DICOM 和Pinnacle 數(shù)據(jù),能構(gòu)建特征集,方便用戶進(jìn)行特征提取,支持在三個(gè)方向上的分割,但不能顯示三維結(jié)果。LIFEx 可以從PET、單光子發(fā)射計(jì)算機(jī)體層攝影術(shù) (single-photon emission computed tomography,SPECT)、MRI、CT 和US 圖像或任何成像模式的組合中計(jì)算紋理和形狀特征,使用該軟件不需要任何編程技能,適用于Windows、Linux 和Mac 操作系統(tǒng),支持DICOM、NiFTI、聯(lián)合圖像專(zhuān)家組(joint photographic experts group,JPEG)、標(biāo)簽圖像文件格式(tag image file format,TIFF)、可移植網(wǎng)絡(luò)圖形格式(portable network graphic format,PNG)和BMP 等格式的數(shù)據(jù)。MaZda 是一個(gè)廣泛用于圖像分析任務(wù)的二維和三維圖像紋理分析軟件,包括簡(jiǎn)單的輪廓工具和一些用于特征降維及分析的工具。長(zhǎng)庚圖像紋理分析工具(Chang Gung image texture analysis,CGITA)是長(zhǎng)庚紀(jì)念醫(yī)院研究人員基于MATLAB 開(kāi)發(fā)的紋理分析軟件,可用于分子影像、CT、MRI 數(shù)據(jù)的分析。PyRadiomics 是一個(gè)開(kāi)源python 包,可擴(kuò)展到其他軟件,旨在為影像組學(xué)分析建立一個(gè)參考標(biāo)準(zhǔn),并提供一個(gè)經(jīng)過(guò)測(cè)試和維護(hù)的易于重復(fù)的特征提取平臺(tái)。特征探索者(FeAture Explorer,F(xiàn)AE)由華東師范大學(xué)上海市磁共振重點(diǎn)實(shí)驗(yàn)室開(kāi)發(fā),可用于影像組學(xué)特征提取及模型參數(shù)的建立,支持NiFTI 格式文件,其提供了一個(gè)超參數(shù)探索平臺(tái),包括多種數(shù)據(jù)處理方法及模型建立方法,方便研究人員橫向比較不同方法在處理特定數(shù)據(jù)時(shí)的效果。
表4 影像組學(xué)分析開(kāi)源軟件/工具包Tab.4 Open source softwares/toolkits of radiomics analysis
選擇分割工具首先要確定軟件支持的數(shù)據(jù)格式和ROI 保存格式,確保數(shù)據(jù)的成功導(dǎo)入和保存;其次,軟件界面應(yīng)簡(jiǎn)潔友好,以便用戶能快速正確地進(jìn)行相應(yīng)操作;另外,軟件對(duì)計(jì)算機(jī)的硬件配置需求也在考慮范圍內(nèi)[40]。分割工具使用流程如圖1所示。
ITK-SNAP 是應(yīng)用廣泛的ROI 分割軟件,對(duì)計(jì)算機(jī)要求較低,操作簡(jiǎn)便,且支持保存的格式較多,圖2展示了ROI 分割具體操作流程。
影像組學(xué)特征提取時(shí)首先要確定特征數(shù)量及類(lèi)別,選擇特征提取工具時(shí)應(yīng)考慮是否能導(dǎo)入相應(yīng)的圖像和ROI 格式,還要注意結(jié)果的保存格式和對(duì)計(jì)算機(jī)的配置要求等。不同軟件之間特征的命名及計(jì)算方式不盡相同,即便在使用同一軟件進(jìn)行特征提取時(shí),研究人員也應(yīng)確認(rèn)其使用的參數(shù)是否相同。
FAE 兼具特征提取及建模工具,包括特征提取、數(shù)據(jù)清洗、模型建立和結(jié)果描述4 個(gè)模塊。圖3展示了其特征提取功能,在導(dǎo)入數(shù)據(jù)前,每例數(shù)據(jù)需要把原始圖像和ROI 圖像放在一個(gè)單獨(dú)文件夾中。FAE 可選擇圖像的變換及特征類(lèi)型,結(jié)果保存為數(shù)據(jù)表格形式,進(jìn)一步分析前需手動(dòng)添加標(biāo)簽信息來(lái)標(biāo)記臨床結(jié)論或分類(lèi)。
影像組學(xué)提取的特征較多,但并不是所有提取的特征都對(duì)研究任務(wù)有意義,因此數(shù)據(jù)分析和任務(wù)模型建立是重要的步驟。FAE 軟件有多種數(shù)據(jù)處理和建模方法可供選擇,圖4為模型建立模塊,F(xiàn)AE 對(duì)不同的建模方法進(jìn)行組合以橫向比較各方法的效果,建模結(jié)果保存為字符分隔值 (comma-separated values,csv)格式文件。
模型結(jié)果的好壞需要通過(guò)性能指標(biāo)來(lái)衡量。圖5展示了FAE 對(duì)分類(lèi)模型結(jié)果的描述,以表格方式顯示了不同模型在訓(xùn)練集、驗(yàn)證集和獨(dú)立測(cè)試集上的臨床指標(biāo)(如AUC、靈敏度、特異度等),并展示了ROC曲線及不同模型的AUC 比較,以及特定模型的特征貢獻(xiàn)程度。同時(shí)FAE 以csv 格式保存了模型建立過(guò)程中的所有中間結(jié)果,從而允許研究者進(jìn)行后續(xù)的分析。
統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)和報(bào)告準(zhǔn)則可以有效地提高影像組學(xué)模型的質(zhì)量和準(zhǔn)確度。Lambin P 等[6]提出了影像組學(xué)質(zhì)量評(píng)分(radiomics quality score,RQS)來(lái)評(píng)估研究結(jié)果,其包含16 個(gè)評(píng)分準(zhǔn)則,滿分36 分。目前有多個(gè)組織正努力構(gòu)建影像組學(xué)研究的標(biāo)準(zhǔn)化,如前文所述的IBSI 為影像組學(xué)特征提供標(biāo)準(zhǔn)定義、命名和計(jì)算方法、報(bào)告指南等。另外有定量成像網(wǎng)絡(luò)[41]、北美放射學(xué)會(huì)、定量成像生物標(biāo)志物聯(lián)盟[42]、中國(guó)醫(yī)學(xué)影像AI 產(chǎn)學(xué)研用創(chuàng)新聯(lián)盟等都致力于建立標(biāo)準(zhǔn)化成像協(xié)議。
影像組學(xué)研究增長(zhǎng)顯著,大多數(shù)影像組學(xué)的研究結(jié)果并沒(méi)有得到充分驗(yàn)證,患者人群的普適性不高[43],其數(shù)據(jù)來(lái)源多為單一機(jī)構(gòu)且樣本數(shù)量較少,缺乏有效的外部驗(yàn)證。量大高質(zhì)的數(shù)據(jù)集和共享對(duì)提高研究的有效性有巨大幫助,也是影像組學(xué)研究需要努力的方向[44]。
對(duì)于回顧性影像組學(xué)研究,需要進(jìn)行獨(dú)立的外部驗(yàn)證,以保證結(jié)果的準(zhǔn)確度;在前瞻性影像組學(xué)研究中,研究者在試驗(yàn)設(shè)計(jì)時(shí)需制定完善和統(tǒng)一的影像采集標(biāo)準(zhǔn)和臨床數(shù)據(jù)搜集方案,以獲得高質(zhì)量的圖像和臨床信息,避免因設(shè)計(jì)缺陷或人工失誤帶來(lái)的數(shù)據(jù)損失,提高處理效率,推薦使用標(biāo)準(zhǔn)化的電子病歷系統(tǒng)和結(jié)構(gòu)化報(bào)告等,以建立數(shù)據(jù)間的有效鏈接和數(shù)據(jù)的深度挖掘。應(yīng)加強(qiáng)學(xué)術(shù)交流,建立多中心間的合作,推動(dòng)標(biāo)準(zhǔn)化成像協(xié)議發(fā)展,促進(jìn)數(shù)據(jù)共享、研究過(guò)程及結(jié)果共享,以便于影像組學(xué)模型的對(duì)比和改進(jìn)。
筆者介紹了影像組學(xué)的分析流程和相關(guān)軟件,旨在使研究人員能便捷地開(kāi)展影像組學(xué)研究,還有許多影像組學(xué)分析軟件沒(méi)有涉及,且每個(gè)軟件都有各自的優(yōu)缺點(diǎn),研究人員應(yīng)根據(jù)實(shí)際需求進(jìn)行權(quán)衡和選擇。影像組學(xué)具有廣闊的臨床應(yīng)用前景,臨床醫(yī)生和影像學(xué)家應(yīng)共同合作,快速掌握分析方法。當(dāng)然,有條件的小組或?qū)嶒?yàn)室也可以招募一些計(jì)算機(jī)領(lǐng)域或生物醫(yī)學(xué)工程背景的專(zhuān)業(yè)人員進(jìn)行相關(guān)軟件的開(kāi)發(fā)等,以提高模型的魯棒性,不斷為實(shí)現(xiàn)精準(zhǔn)醫(yī)療和臨床實(shí)踐而努力。