李靜,范文亮,雷子喬,余建明
1.華中科技大學同濟醫(yī)學院附屬協(xié)和醫(yī)院 放射科,湖北 武漢 430022;2.分子影像湖北省重點實驗室,湖北 武漢 430022
帕金森病(Parkinson’s Disease,PD)主要以黑質(zhì)多巴胺能神經(jīng)元進行性退變和路易小體形成的病理變化,紋狀體區(qū)多巴胺遞質(zhì)降低、多巴胺與乙酰膽堿遞質(zhì)失平衡的生化改變,以動作遲緩、靜止性震顫和肌張力增高臨床表現(xiàn)為顯著特征,是一種常見的中老年神經(jīng)系統(tǒng)退行性疾病[1-2]。隨著年齡增長,患病率逐年增高,80歲以上人群患病率超過 3%[2-3],帶來巨大的社會和醫(yī)療負擔,PD的早期診斷對治療和預后影響重大。
隨著人工智能在醫(yī)學各應用場景下的落地,智能醫(yī)學影像取得飛速發(fā)展,有效提高醫(yī)學影像對于疾病的篩查、診斷和治療決策功能[4-5]。一方面在個體水平上滿足了疾病精準診療的需求,另外一方面也能為疾病的智能診斷發(fā)掘潛在的影像學標記[6-7]。目前基于多模態(tài)影像的PD分類研究,樣本量一般較少[8-10],影響模型的泛化能力。為探索基于彌散張量的PD神經(jīng)影像學標志物,為PD的診療提供影像依據(jù),本研究基于較大的樣本量,使用機器學習方法,利用 磁共振擴散張量成像(Diffusion Tensor Imaging,DTI) 腦影像的4個指標作為數(shù)據(jù)特征,構(gòu)建區(qū)分PD患者和健康對照者的機器學習模型,尋找 PD可能的神經(jīng)影像學標記物,以期為 PD 的臨床診療提供更多線索。
收集2015年6月至2019年12月在本院神經(jīng)內(nèi)科就診的PD患者289例,同時期收集健康對照志愿者131例。納入標準:① 符合臨床診斷的PD;② 右利手;③ 獲得病人或家屬的知情同意并能夠配合完成所涉及的量表評估及磁共振研究。排除標準:① 可能存在精神障礙病史的(包括癡呆,精神分裂癥,雙相情感障礙等);② 既往有物質(zhì)(毒品、酒精或其他精神活性物質(zhì))濫用史;③ 磁共振上有明顯器質(zhì)性病變或其他神經(jīng)系統(tǒng)疾??;④ 合并其他嚴重的軀體疾??; ⑤ 對檢查不合作或不能有效完成測驗者。420 例受試者按 7:3 隨機分為訓練集294 例和測試集 126 例。訓練集及測試集中兩組性別和年齡比較差異均無統(tǒng)計學意義(P值均>0.05)。兩組組內(nèi) PD 患者和健康對照人群性別和年齡比較差異均無統(tǒng)計學意義(P值均>0.05)。本研究經(jīng)華中科技大學同濟醫(yī)學院倫理委員會批準,所有被試者在磁共振掃描前簽署知情同意書。
所有被試者采用西門子3.0 T超導磁共振(Siemens-Trio Tim)12通道頭部線圈進行MRI數(shù)據(jù)采集。被試者平躺在檢查床上,頭部用軟墊從兩側(cè)固定,以減少掃描過程中被試者的頭部運動,同時雙耳塞入棉塞以減少掃描過程中的噪音。掃描序列包括用于頭部常規(guī)臨床序列:T1WI、T2WI及 FLAIR序列,以及本研究所需的高分辨T13D序列(磁化準備快速梯度回波序列)及DTI 掃描序列。高分辨T13D序列參數(shù)如下:回波重復時間(Repetition Time,TR):2250 ms,回波時間(Echo Time,TE):2.26 ms,翻轉(zhuǎn)時間(Time-Reversal,TI): 900 ms,翻轉(zhuǎn)角 9°,視野(Field of View,F(xiàn)OV):256 mm × 256 mm,采集矩陣:256 ×256,體素大小 :1.0 mm × 1.0 mm × 1.0 mm,矢狀位掃描176 層。DTI 序列使用的是單次激發(fā)自旋回波平面成像序列,參數(shù)如下:回波TR:6000 ms,TE:93 ms,翻轉(zhuǎn)角 :90°,B =1000 s/mm2,64 個方向(加上一個 B=0 的圖像共計 65 個全腦圖像),體素大?。?.0 mm × 2.0 mm× 2.0 mm,F(xiàn)OV:200 mm × 200 mm,采集矩陣大?。?28 × 128,平行前后聯(lián)合軸位采集,包含全腦采集 44 層。
數(shù)據(jù)處理及機器學習模型構(gòu)建流程圖如圖1所示。DTI 數(shù)據(jù)處理使用MATLAB平臺下集成FSL工具包的PANDA[11]軟件(http://www.nitrc.org/projects/panda),包括數(shù)據(jù)格式轉(zhuǎn)換、運動及渦流校正、彌散張量參數(shù)計算等。具體為使用FMRIB里面的FLIRT工具包對彌散加權(quán)圖像進行運動校正和渦流偽影校正。校正之后的圖像使用Brain Extraction Tool(BET)工具包剝除非腦組織成分。最后使用FSL提供的DTIFIT工具包計算每個被試個體腦空間中每個體素的各向異性分數(shù)(Fractional Anisotropy,F(xiàn)A)、平均擴散率(Mean Diffusivity,MD)、軸向彌散系數(shù)(Axial Diffusivity,AD)、徑向彌散系數(shù)(Radial Diffusivity,RD)值。最后將個體空間的各彌散參數(shù)指標圖像,通過空間標準化,投射到標準空間,使用Mori的2008年ICBM-DTI-81白質(zhì)模板,提取每個被試50個核心腦區(qū)的FA、MD、AD及RD值。
圖1 實驗方案流程圖
將提取的每個被試50個腦區(qū)的FA、MD、AD及RD值順序連接,構(gòu)成一個200維的向量,此向量即為后續(xù)進行數(shù)據(jù)降維與建模分析的原始數(shù)據(jù)。本研究使用5種機器學習分類器來構(gòu)建PD分類識別模型,包括Logistic、GLM_LASSO、GLM_PCA、SVM_Linear、na?ve Bayes。首先對數(shù)據(jù)進行歸一化處理,將原始數(shù)據(jù)映射到0-1 之上;為了避免特征值過多導致的過擬合,進行特征篩選;使用機器學習分類模型的方法進行訓練;根據(jù)訓練出來的模型對測試集進行預測,獲得相關受試者工作(Receiver Operating Characteristic,ROC)曲線以及曲線下面積(Area Under Curve,AUC),同時獲得對預測有貢獻的特征定位,得到有貢獻的腦區(qū)。
采用 SPSS 22.0 統(tǒng)計軟件對各變量進行統(tǒng)計分析。計量資料以(±s)表示,組間比較采用獨立樣本t檢驗。計數(shù)資料組間比較采用χ2檢驗。P<0.05 為差異有統(tǒng)計學意義。
本研究共納入420名受試者,其中PD患者289例,健康對照131名。按照7:3 分為訓練集和測試集后,其中訓練集共計294 名,包括PD 患者202 例,年齡(65.5±10.6)歲,男性132 名;健康對照92 名,年齡(63.7±12.7)歲,男性61 例。測試集共計126 名,包括PD 患者87 名,年齡(65.3±11.9)歲,男性57 名;健康對照39 名,年齡(63.5±13.6)歲,男性24 名。組間在年齡和性別分布上沒有顯著的統(tǒng)計學差異。
構(gòu)建的不同機器學習PD分類模型性能表現(xiàn)如表1所示,SVM_Linear模型在訓練集和測試集上的表現(xiàn)優(yōu)于其他模型,其中訓練集上的AUC為0.897,準確度為0.867,特異度為0.89,敏感度為0.833;在測試集上的AUC為0.878,準確度為0.853,特異度為0.884,敏感度為0.793。經(jīng)過特征選擇后,SVM_Linear模型共使用12個DTI參數(shù)構(gòu)建分類模型,這些參數(shù)包括胼胝體膝、右側(cè)腦腳、右側(cè)下輻射冠、左側(cè)扣帶回、右側(cè)穹窿、左側(cè)毯的FA值,右側(cè)鉤束的MD值,右側(cè)內(nèi)囊前肢、左側(cè)上輻射冠、左側(cè)扣帶回、左側(cè)毯的AD值,右側(cè)穹窿的RD值。各特征重要性排序如圖2所示,特征之間的相關系數(shù)及聚類分析如圖3所示。
表1 不同機器學習模型的PD分類性能表現(xiàn)
圖2 SVM_Linear模型各特征重要性排序
圖3 各特征之間的相關系數(shù)及聚類分析
隨著人工智能技術的發(fā)展,基于影像的臨床疾病分類方法被廣泛應用于各類神經(jīng)[12-13]及精神疾病的研究[4-5]。本研究基于DTI常用參數(shù)(FA、MD、AD、RD 值),經(jīng)過特征篩選的降維方法,構(gòu)建了用于PD與健康對照的不同機器學習方法,探討可用于PD的影像標記物。結(jié)果表明,使用12個腦區(qū)DTI參數(shù)構(gòu)建的SVM_Linear分類模型在訓練集和測試集上都具有良好的分類效能。
本研究中構(gòu)建的機器學習分類模型,發(fā)現(xiàn)胼胝體、扣帶回、輻射冠、穹窿等腦區(qū)對分類模型有貢獻,提示我們PD患者可能在這些腦區(qū)存在白質(zhì)完整性的異常,這也和先前的報道中PD患者放射冠區(qū)、胼胝體、丘腦等在內(nèi)的腦區(qū)存在廣泛的白質(zhì)結(jié)構(gòu)改變相一致[13-16],結(jié)合其他基于DTI數(shù)據(jù)構(gòu)建腦網(wǎng)絡并結(jié)合機器學習方法對PD進行分類的研究[17-18]一起表明,這些腦區(qū)有作為PD影像診斷標記物的潛力[19-20]。當然,考慮到在不同的模型中,不同的腦區(qū)的模型貢獻度差別很大,所以在實際應用中,如何利用這些影像標記物的腦區(qū),還需要進一步研究。
本研究中構(gòu)建的模型在訓練集和測試集上敏感度、特異度與準確率均有不錯的表現(xiàn),說明構(gòu)建的模型沒有出現(xiàn)過擬合現(xiàn)象,具有一定的泛化能力,不同模型最終選定的特征數(shù)差別較大,提示我們在構(gòu)建機器學習模型時,需要考慮模型性能與復雜度之間的非線性關系。同時,我們發(fā)現(xiàn)并不是所有PD與健康對照有差異的參數(shù)指標經(jīng)過特征篩選后被保留下來,推測可能是不同DTI參數(shù)之間存在多重共線性,或者是由于具有差異的指標,不一定都對模型構(gòu)建有貢獻。
本研究仍然存在一定的局限性。首先,為了獲得更大的樣本集以及構(gòu)建泛化能力較強的機器學習模型,在本研究中將不同病程分期的PD病人合并到一組,可能會影響PD病人組樣本的同質(zhì)性;其次,本研究主要構(gòu)建的是基于腦區(qū)水平的機器學習模型。在以后的研究中,可以利用基于神經(jīng)網(wǎng)絡的深度學習模型,探索構(gòu)建體素水平的PD分類模型。
基于DTI數(shù)據(jù)特征向量構(gòu)建的機器學習分類模型,能有效區(qū)分PD患者和健康對照者。PD患者大腦胼胝體、扣帶回、穹窿等大腦區(qū)域的DTI參數(shù),有作為PD神經(jīng)影像學標志物的潛力,用于輔助PD的臨床診療。