亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學習的阿爾茲海默癥分類預測

        2020-04-06 02:08:38李彩范炤
        中國醫(yī)學物理學雜志 2020年3期
        關鍵詞:特征選擇海馬病程

        李彩,范炤

        1.山西醫(yī)科大學基礎醫(yī)學院,山西太原030001;2.山西醫(yī)科大學轉(zhuǎn)化醫(yī)學研究中心,山西太原030001

        前言

        阿爾茲海默病(Alzheimer′s Disease,AD)是一種以認知和智力損害、行為生活能力下降為主要特點的神經(jīng)退行性腦疾病,發(fā)病原因尚不明確,且缺少有效徹底的治療方案,是臨床上導致癡呆的主要原因[1-2]。輕度認知障礙(Mild Cognitive Ⅰmpairment,MCⅠ)是介于正常衰老和癡呆之間的一種過渡狀態(tài),在6年后有80%轉(zhuǎn)化為癡呆[3]。如果在AD 早期階段對患者進行干預治療,可延緩AD 發(fā)病時間[4]。所以,針對早期AD患者的高效診斷、識別AD的前驅(qū)階段的研究十分有必要。目前廣泛應用于AD 分類預測的辦法是應用各種機器學習算法,利用單模態(tài)影像學數(shù)據(jù)或多模態(tài)影像數(shù)據(jù),或結(jié)合人口統(tǒng)計學特征和遺傳學資料作為特征變量,以尋求最佳分類預測解決方案。邏輯回歸已經(jīng)用于多種臨床應用[5-7],但對AD 分類還少有研究,邏輯回歸的大量應用和迅速發(fā)展為其用于AD 分類提供了良好借鑒。Challis等[8]采用貝葉斯高斯過程邏輯回歸對77 例受試者分類,區(qū)分正常老年人(Normal Controls,NC)和早期輕度認知障礙(Early Mild Cognitive Ⅰmpairment,EMCⅠ)患者、EMCⅠ患者和AD 患者之間的差異,結(jié)果并不理想,且模型樣本量相對特征數(shù)量較小,可能存在過擬合問題。此外,該模型沒有考慮正規(guī)教育年限和性別對疾病的影響。Desikan 等[9]用邏輯回歸建立自動核磁共振成像(Magnetic Resonance Ⅰmaging,MRⅠ)測量內(nèi)嗅皮層厚度、海馬體積和超邊緣回厚度,以識別MCⅠ患者和AD 患者的模型,該模型雖然在臨床診斷的AD 和MCⅠ群體得到推廣,但在存在一系列認知障礙和癡呆亞型的臨床環(huán)境中,這些程序可能不太準確。已有的研究要么是使用單一影像學方法,要么樣本含量不大,所得出的準確率都不是很高。由于使用多模態(tài)影像學數(shù)據(jù)檢測會給患者帶來經(jīng)濟壓力,應用其他模型的分類器雖然獲有不錯的分類精確度,但在臨床實際應用中仍存在困難。本研究基于結(jié)構(gòu)性MRⅠ(Structural MRⅠ,sMRⅠ)影像學資料、人口統(tǒng)計學特征(年齡、性別、受教育程度)和簡易智力狀態(tài)檢查量表(Mini-Mental State Examination,MMSE),提出來一種基于L1 正則Logistic 回歸(L1-Regularized Logistic Regression, L1-LR)特征選擇和自動識別NC、EMCⅠ患者、晚期MCⅠ(Late MCⅠ,LMCⅠ)患者和AD 患者的輔助診斷工具,使病程分類更加細化,更清楚準確地判斷病程階段。

        1 方法

        1.1 預處理及特征分析

        本研究把NC、EMCⅠ患者、LMCⅠ患者和AD患者這4 組作為研究對象,進行sMRⅠ,得到三維結(jié)構(gòu)圖像。用Freesurfer工具箱進行一系列算法,sMRⅠ圖像經(jīng)空間標準化、圖像平滑、分割、調(diào)制等預處理,計算得到各個大腦區(qū)域的面積、體積等形態(tài)學指標。

        提取的形態(tài)學指標包括海馬亞區(qū)體積(Hippocampal Subfield, HS)、皮層體積(Cortical Volume,CV)、皮層表面積(Surface Area,SA)、皮層下體積(Subcortical Volume, SV)、皮層厚度(Cortical Thicknesses,TA),作為特征選擇的基礎。

        1.2 L1-LR方法

        在特征選擇和分類之前,首先要對數(shù)據(jù)進行歸一化處理,把全部數(shù)據(jù)映射到0~1。轉(zhuǎn)換的函數(shù)為(X - Min)/(Max - Min)。

        1.2.1 L1-LR特征選擇 本研究的每位研究對象均有272個形態(tài)學指標,涵蓋全部大腦的皮層和海馬亞區(qū)。文獻[10]指出AD病變腦區(qū)并非全腦,若使用全腦特征過于冗余,影響分類效果,所以必須進行特征選擇。

        L1-LR是一種組合的機器學習的特征選擇方法,根據(jù)每個特征的最大數(shù)似然函數(shù)(Log-Likehood,LL)值,選擇對分類模型準確率的因變量的貢獻率達到一定程度的指標才進入分類模型,剔除無貢獻或貢獻很小的特征變量。偏差值D=-2(當前模型的LL值-飽和模型的LL 值)。飽和模型指各模型參數(shù)相同,似然值等于1。D值越小代表當前特征越重要。當加入一個新特征,D值和似然比的減小等價。當樣本量N足夠大時,似然比呈分布,因此用似然比當作判斷某一特征的依據(jù)。加入某一特征,如果前后模型偏差值的差大于或等于某一限定值,則認為此特征在類的判定中有比較大的貢獻,否則認為此特征冗余。

        本研究的特征選擇分兩部分完成特征空間維數(shù)壓縮。首先,選擇272 項sMRⅠ數(shù)據(jù)進行L1-LR 方法篩選,并按照貢獻率大小進行排序,并組成特征數(shù)據(jù)集;然后,在272 項sMRⅠ數(shù)據(jù)的基礎上引入年齡、性別、受教育程度、MMSE 量表評分,共276 項指標,再次使用L1-LR 方法篩選,組成新的特征集,得到用于訓練分類器的特征集合。L1-LR特征選擇的過程為:

        (1)i= 1,令S=φ,R=(x1,…,xk);

        (2)i=i+ 1,k*= arg minkDk,k= 1,…,‖R‖,‖R‖為集合R的勢;令S=S?{xk},R=R{xk};

        (3)對任何非負λ,正則化形式為L(λ,β) =arg min(y-X′β)2+λP(β);其中P(β)代表正則化項;

        (4)若Di-1-Di<[]-1(0.01)循環(huán)結(jié)束;且S=S{xk*};否則執(zhí)行(2);直至選出所有最優(yōu)特征,算法結(jié)束。

        A{a}代表從集合A中剔除元素a。在此算法中,兩模型D值之差可近似看作自由度為DF的χ2分布。DF 大小取決于評價的特征數(shù),限值定為0.01。當[]-1(p)為限值p時,自由度為DF的χ2分布的倒數(shù)。

        1.2.2 L1-LR 分類模型 L1-LR 模型是一種稀疏的邏輯回歸模型[11],模型是在廣泛應用于二分類的邏輯回歸模型[12]的損失函數(shù)中加入懲罰項,正則化技術[13]能解決過擬合問題,提高魯棒性,優(yōu)化模型分類能力。在樣本數(shù)相對于樣本特征維數(shù)有點小的數(shù)據(jù)集中,L1-LR性能優(yōu)于其他模型。

        響應變量y∈{0,1},每次觀測的p個預測變量值表示成向量,x=[x1,x2,…,xp]對應的響應變量隸屬于類別1的后驗概率:

        其中,β=(β1,β2,…,βp)為回歸模型參數(shù)。

        假定存在n個訓練樣本Dn={(xi,yi)}依據(jù)樣本數(shù)據(jù)及隸屬類別Dn去除β,優(yōu)化損失函數(shù)為對數(shù)似然函數(shù):

        依據(jù)最小絕對收縮和選擇算法的思想,在邏輯回歸的損失函數(shù)中加入對模型系數(shù)的L1 范數(shù)懲罰項,得到L1-LR模型函數(shù):

        本研究比較了另外兩種常用的二分類模型,一種是L1 正則支持向量機(L1-Support Vector Machine,L1-SVM),是在AD 二元分類中最常使用的支持向量機的決定函數(shù)中加入L1 懲罰項,試圖找到性能更好的SVM 模型[14]。另一種是梯度提升樹(Gradient Boosting Decison Tree, GBDT),是一種迭代的決策樹算法,可以靈活處理各種類型的數(shù)據(jù),魯棒性強[15]。有研究指出該機器學習算法的預測準確率高于SVM[16]。最后選取分類效果最好的模型作為分類預測模型。

        本研究選擇10-折交叉驗證(10-fold Cross-Validation)評價模型性能,可以確保進行小樣本訓練的實驗結(jié)果無偏差估計,確保測試精確度。具體方法是隨機將樣本分為10 份,隨機抽取9 份作為訓練樣本,剩余1 份為測試樣本,每次試驗L1-LR 模型后得到訓練和測試正確率(或差錯率),重復10次,將10次訓練準確率和測試準確率的平均值作為L1-LR 模型最終的分類準確率的估計。

        2 實驗數(shù)據(jù)

        數(shù)據(jù)由ANDⅠ數(shù)據(jù)庫(Alzheimer's Disease Neuroimaging Ⅰnitiative)提供,受試者年齡選擇55~90歲,能夠提供獨立的功能評估,排除特定的精神活性藥物。數(shù)據(jù)包括543 例的sMRⅠ腦圖像、MMSE 量表評分、年齡、性別、受教育程度這5 項資料。獲得NC組共139 例(男65,女74);EMCⅠ組共220 例(男119,女101);LMCⅠ組共108 例(男58,女50);AD 組共76例(男44,女32)。

        sMRⅠ數(shù)據(jù)統(tǒng)一選取場強3.0T飛利浦MRⅠ掃描儀的數(shù)據(jù),BOLD序列:射頻重復時間/回波時間(TR/TE)6.8 ms/3.1 ms,翻轉(zhuǎn)角(FA)9°,視野大小(FOV)RL204 mm、AP 240 mm、FH 256 mm;分辨率(1.0×1.0×1.2)mm3,層厚1.2 mm,共170層。

        3 實驗結(jié)果

        3.1 L1-LR特征選擇結(jié)果

        3.1.1 272項sMRⅠ特征組結(jié)果 首先對實驗數(shù)據(jù)集預處理后,獲得272 項sMRⅠ形態(tài)學指標,使用L1-LR 特征選擇模型進行特征提取。在分類NC-EMCⅠ組中,272項sMRⅠ特征中有65個特征被挑選進入下一步驟的L1-LR 分類預測模型;同樣的,在對NC-LMCⅠ、NC-AD、EMCⅠ-LMCⅠ、EMCⅠ-AD、LMCⅠ-AD 分類中,分別有37、22、52、38、41 個特征進入L1-LR 分類模型。特征選擇結(jié)果按對分類的組別貢獻由大到小依次給出,顯示貢獻最大的前10項特征,見表1。

        表1 272項sMRI特征中最重要的前10項特征Tab.1 Top 10 important features of 272 sMRI features

        3.1.2 276項特征結(jié)果 為進一步增強分類準確率,本研究在272項形態(tài)學指標的基礎上,再引入不同模態(tài)的3項人口學指標和1項MMSE量表評分。在NC-EMCⅠ、NC-LMCⅠ、NC-AD、EMCⅠ-LMCⅠ、EMCⅠ-AD、LMCⅠ-AD分類中,分別有67、42、11、56、21、20個特征進入L1-LR分類模型。這里同樣顯示前10貢獻率的指標,見表2。

        表2 276項特征中最重要的前10項特征Tab.2 Top 10 important features of 276 features

        3.1.3 特征選擇結(jié)果分析 272項結(jié)果中,只測試形態(tài)學指標sMRⅠ時,在識別NC-EMCⅠ、NC-AD、EMCⅠ-AD、LMCⅠ-AD 分組時,TA-左顳橫回對判斷處于哪個病程階段最為重要,顳橫回為聽覺皮質(zhì)區(qū),在AD 疾病進程中,聽覺的不斷弱化是判斷病程的重要依據(jù)。NC-LMCⅠ組中,SA-左顳下回占分類決策的權重最大,顳下回負責學習和記憶,在進展為LMCⅠ的時候,病人的學習記憶表現(xiàn)出更多差異;在EMCⅠ-LMCⅠ病程很接近難以區(qū)分的組中,CV-左扣帶回后部起最重要的作用,后扣帶回參與情感和自我評價功能,說明在EMCⅠ進化為LMCⅠ的過程中,病人的情感和自我評價功能有較明顯的差別。值得注意的是,除了EMCⅠ-LMCⅠ組,其余組HS-左右海馬前下托都可作為一個很重要特征去識別分類,尤其是HS-右海馬前下托貢獻更大,而海馬與近期記憶有關,海馬體積變化發(fā)生在疾病進展全程,說明記憶障礙體現(xiàn)在從發(fā)病開始持續(xù)到AD階段。

        276項結(jié)果中,在引入MMSE量表評分、年齡、性別、受教育程度后,特征選擇結(jié)果改變,特征貢獻率也發(fā)生變化,其中MMSE 量表評分作為非常重要的特征用于識別各階段的疾病,臨床上可將MMSE 視為必不可少的依據(jù),以提高診斷準確率。年齡和受教育程度是影響NC-EMCⅠ、NC-LMCⅠ、EMCⅠ-LMCⅠ、EMCⅠ-AD、LMCⅠ-AD 疾病進展的重要因素。在NCAD 識別中,性別因素占很大比重,但年齡因素被剔除,說明性別差異導致男女患AD 的可能性不同,在決定一個人患AD 可能性大小的時候,性別比年齡因素更重要。

        3.2 不同機器學習分類結(jié)果

        比較L1-LR、L1-SVM、GBDT的分類準確率,分別是(85.93±2.53)%、(80.73±4.89)%、(71.77±6.79)%。結(jié)果顯示L1-LR 具有更好的分類效果。本研究選擇L1-LR作為分類預測AD病程的模型。

        為了進一步提高分類準確率,本研究在272 項sMRⅠ特征的基礎上引入年齡、性別、受教育年限、MMSE 評分;經(jīng)特征選擇后,構(gòu)建另一個L1-LR 分類預測模型。比較兩種不同特征集合的分類效果,結(jié)果如表3、表4所示。

        表3 基于兩種特征數(shù)據(jù)集的分類準確率(%)Tab.3 Classification accuracy based on two different feature datasets(%)

        表4 基于兩種特征數(shù)據(jù)集的敏感度、特異性、AUC值Tab.4 Sensitivity,specificity and AUC values based on two different feature datasets

        相比272 項特征組模型,276 項特征組L1-LR 分類模型在識別NC-EMCⅠ、NC-LMCⅠ、NC-AD、EMCⅠ-LMCⅠ、EMCⅠ-AD、LMCⅠ-AD 組分類準確率依次提高2.92%、3.14%、11.42%、0.89%、6.07%、4.91%。尤其在早期識別EMCⅠ、LMCⅠ和AD 時,準確率高達94.28%、91.24%,同時在區(qū)分難以鑒別的EMCⅠ和LMCⅠ時也可以達到82.93%的準確率。結(jié)合引入的4 項特征后,特征選擇中年齡、性別、受教育年限、MMSE 量表評分占很大貢獻率,分類預測準確率的提高,說明在實際臨床診斷時這幾項指標可以看作很重要的輔助診斷病程階段因素,尤其是MMSE 量表評分的評價。

        用受試者工作特征(Receiver Operating Characteristic,ROC)曲線下面積(AUC)評估兩種特征集的分類性能,AUC值越大,分類性能越好。圖1為兩種特征集的ROC曲線圖(0、1、2、3分別代表NC組、EMCⅠ組、LMCⅠ組、AD組)。圖1a為基于L1-LR的272項特征集的ROC曲線下面積,為0.925 9±0.386 2;圖1b為基于L1-LR的276項特征集的ROC曲線下面積,為0.953 2±0.475 4,從圖中看出后者有更好的分類性能。

        圖1 兩種特征數(shù)據(jù)集的ROC曲線Fig.1 Receiver operating characteristic curves of two different feature datasets

        4 結(jié)論

        以往AD分類研究一般只指出大腦哪些區(qū)域發(fā)生病變,本研究不僅發(fā)現(xiàn)識別分組時的關鍵特征,還發(fā)現(xiàn)關鍵病變部位是體積或面積的變化,更有助于預測病程進展方向。本研究發(fā)現(xiàn)識別各組的特征集中在海馬體、海馬旁回、扣帶回、大部分顳葉、島葉、梭狀回。其中NC-MCⅠ變化集中發(fā)生在海馬下托、海馬旁回、海馬前下托、上中下顳回、杏仁核、扣帶回、梭狀回、島葉;MCⅠ-AD變化主要集中在海馬體、海馬旁回、前扣帶回,其中左右海馬體積變化和海馬亞區(qū)體積變化更為明顯。已有研究發(fā)現(xiàn)在NC發(fā)展為MCⅠ的過程,主要是負責認知功能的海馬體和顳葉的萎縮,MCⅠ發(fā)展為AD的過程,認知進一步下降,同時負責行為障礙和生活能力的前扣帶回萎縮更嚴重[17-18]。本研究的研究重點是對NC-EMCⅠ、EMCⅠ-LMCⅠ和LMCⅠ-AD組的識別,除了與已有研究一致的腦部形態(tài)學變化之外,本研究還發(fā)現(xiàn)僅在某個分組中的特征變化有助于預測病程判斷,在臨床判斷該組分類時評價這些指標更有識別度和價值。SA-左島葉、SA-左額上回、TA-右額中回下部、TA-左中央后回、TA-右扣帶回后部、CV-右眶回、TA-右眶回、SA-右額眶回外側(cè)、SA-左額中回后部、CV-左海馬旁回、CV-左島葉、SV-右脈絡叢、SA-右額上回、CV-右枕葉外側(cè)部、CV-左眶回、TA-左扣帶回峽部、SA-左海馬旁回部位的變化僅在判斷NC-EMCⅠ分類時占有較大貢獻率;而CV-左扣帶回后部、CV-左額上回、SV-左側(cè)小腦白質(zhì)、SA-左中央旁小葉、CV-右中央后回、SV-幕上、TA-左額中回后部、CV-右扣帶回后部、CV-右三角部、SA-右顳上回、TA-左額上回、CV-右額中回下部、CV-左額中回后部、TA-右楔前葉的變化只發(fā)生在EMCⅠ與LMCⅠ的分類中。CV-顳極、CV-右島蓋、TA-左右中央前回、CV-右楔前葉、SV-右丘腦、SA-右中央前回、TA-左額眶回外側(cè)的變化在EMCⅠ到AD的過程中發(fā)生得更明顯。MMSE量表評分是很重要的影響診斷的因素,臨床工作務必認真準確測評量表;另外,年齡和受教育年限、性別也作為重要影響因素影響疾病進展。

        本研究比較了3種常用機器學習方法,提出了一種基于sMRⅠ圖像的AD及前驅(qū)階段的自動識別分類模式,結(jié)果證明L1-LR分類器可以作為臨床輔助診斷AD病程的有效工具。實驗采用sMRⅠ數(shù)據(jù)+年齡+性別+受教育年限+MMSE量表評分特征集實現(xiàn)最優(yōu)分類精度,能實現(xiàn)早期識別,起到阻礙病程進展的作用,提高輔助診斷系統(tǒng)的準確率。本研究在NC-AD組中達到97.66%的準確率,明顯高于Bi 等[14]利用支持向量機得到的94.44%的準確率和楊晨暉[19]應用隨機森林得到的93%的準確率。在MCⅠ-AD的識別中平均準確率為92.76%,高于Ardekani等[20]基于多模態(tài)隨機森林獲得的82.3%的準確率,Bi等[14]的研究也僅達88.73%。NC-MCⅠ組中,本實驗達到89.38%的平均準確率,Bi等[14]的研究僅有81.45%。在與本文數(shù)據(jù)類型相似的研究中,齊雪丹[21]比較了支持向量機、隨機森林、決策樹、K近鄰對AD做分類預測,NC-EMCⅠ、NC-LMCⅠ、NC-AD、EMCⅠ-LMCⅠ、EMCⅠ-AD、LMCⅠ-AD 組識別最高準確率為77.78%、88.00%、96.45%、81.82%、90.00%、84.21%,本研究中使用的L1-LR模型準確率在各分組分別提高9.16%、3.87%、1.21%、1.11%、4.28%、7.06%,且與之不同的是,本研究還將人口學指標和MMSE量表評分引入模型。并且本研究提出的L1-LR分類器僅需檢測sMRⅠ,獲取人口統(tǒng)計學指標和測評MMSE量表即可,具有經(jīng)濟實惠的社會效益。

        sMRⅠ是AD進行分類研究的基礎,本研究的后續(xù)將通過增加認知評價、人口統(tǒng)計學資料、正電子發(fā)射型計算機斷層顯像、功能性磁共振成像、腦脊液檢查等數(shù)據(jù)類型形成多模態(tài)數(shù)據(jù),同時加大實驗數(shù)據(jù)量,以獲得更高精度、更穩(wěn)定的分類器用于預測AD病程分類,以期達到延緩疾病進展、提高生活質(zhì)量、減輕國家和個人負擔的目標。

        猜你喜歡
        特征選擇海馬病程
        海馬
        海馬
        “海馬”自述
        Kmeans 應用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標特征選擇算法
        中西醫(yī)結(jié)合治療對急性胰腺炎病程的影響
        手術科室用血病程記錄缺陷評析
        海馬
        高頻超聲評價糖尿病膝關節(jié)病變與病程的關系
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        国产精品1区2区| 无码区a∨视频体验区30秒| 国产精品va无码一区二区| 精品国产免费Av无码久久久| 亚洲蜜桃视频在线观看| 邻居美少妇张开腿让我爽了一夜| 国产福利视频一区二区| 国内少妇人妻丰满av| 久久久久AV成人无码网站| 国产精品国产自产拍高清| 制服丝袜中文字幕在线| 亚洲精品国产成人AV| 日本av在线精品视频| 国产免费观看久久黄av麻豆| 欧美人妻少妇精品久久黑人| 欧美亚洲综合另类| 久久国产劲爆内射日本| 日本女优在线一区二区三区| 国产精品成人观看视频| 国产内射XXXXX在线| 亚洲综合有码中文字幕| 国产精品亚洲精品日韩已方| 亚洲精品国产av成拍色拍| 国产品精品久久久久中文| 免费精品人妻一区二区三区| 亚洲精品久久区二区三区蜜桃臀| 国产一品道av在线一二三区| 亚洲老女人区一区二视频| 国产一级一级内射视频| 乱人伦中文无码视频在线观看| 中国精品视频一区二区三区| 日韩精品人妻视频一区二区三区| 男人和女人做爽爽视频| 日产精品久久久久久久| 蜜桃视频在线免费观看一区二区 | 久久男人av资源网站无码| 自拍偷拍韩国三级视频| 国产偷久久久精品专区| 国产在线高清视频| 国产一区二区三区在线观看免费版| 国产 精品 自在 线免费|