楊邦坤,汪樂生,聶穎,熊文平△
(1.武漢大學中南醫(yī)院神經(jīng)外科,武漢 430071;2.武漢市第一醫(yī)院兒科,武漢 430033)
隨著人口老齡化進程的加快,老年人患阿爾茲海默癥的幾率日益上升[1]。阿爾茲海默癥病情復雜多樣,其不僅給患者和家人的正常生活帶來重大危害,還對醫(yī)療機構以及國家造成沉重負擔。目前,阿爾茲海默癥的診斷方法主要由醫(yī)生根據(jù)患者的MRI圖像對病情進行判斷,主觀性較強,且風險性較高[2-3]。雖然無法避免老年人的患病風險,但在患病初期階段進行干預治療,可有效控制病情,因此,正確辨識阿爾茲海默癥初期行為尤為重要。
目前相關的研究成果有很多,如卓奕楠等[4]和郁松等[5]分別使用多模態(tài)典型相關特征表達和3D-ResNet方法辨識阿爾茲海默癥初期行為,兩者均具有較穩(wěn)定、準確的辨識效果,但辨識精度仍需進一步細化,且耗時、延遲較高。
近年來,機器學習被廣泛應用于各個領域,本研究基于機器學習的阿爾茲海默癥初期行為的辨識方法,通過核支持向量機和十折交叉驗證保證辨識效果,為阿爾茲海默癥初期行為辨識準確性的提高和臨床診斷提供可靠依據(jù)。
基于機器學習的阿爾茲海默癥初期行為辨識流程見圖1。
圖1 機器學習算法流程圖
以ADNI公共數(shù)據(jù)庫作為本研究的數(shù)據(jù)來源,在432例受檢者中包含126例阿爾茲海默癥(AD)、258例輕度認知障礙(MCI)和48例正常對照組(NC)。從數(shù)據(jù)庫獲取sMRI圖像,詳情見表1。將各受檢者的sMRI圖像,通過Freesurfer軟件執(zhí)行圖像平滑、分割、時間層校正等操作,使其轉(zhuǎn)換為282個sMRI數(shù)據(jù)[6-8],詳情見表2。
表1 sMRI圖像詳情
表2 sMRI數(shù)據(jù)詳情
使用內(nèi)核局部Fisher判別分析算法(KLFDA)提取sMRI數(shù)據(jù)特征[9-10],具體步驟如下:
(1)將采集的原始數(shù)據(jù)集執(zhí)行標準化操作,劃分為訓練與測試兩組數(shù)據(jù)集。
(2)局部類間圖,用Gb描述;局部類內(nèi)圖,用Gw描述;對訓練數(shù)據(jù)集的兩圖進行創(chuàng)建。
(5)內(nèi)核局部類間散度矩陣,用KLb描述;內(nèi)核局部類內(nèi)散度矩陣,用KLw描述;對二者進行計算。
(6)LLbα=λKLwα表示新廣義特征方程,與λ(即最大特征值)相對應的αopt(即特征向量),可通過對該方程執(zhí)行計算獲得。
使用核支持向量機(KSVM)分類提取的sMRI數(shù)據(jù)特征。
設置測試樣本,用V={v1,...vj,...vm}描述,式(1)描述了KSVM的決策函數(shù):
(1)
訓練樣本以及對應的類別標簽,分別用xi、yi描述;偏差項用b描述;拉格朗日乘子,用αi描述;核矩陣用k描述[11-13]。
式(2)描述了徑向基函數(shù)內(nèi)核的形式:
(2)
核中尺度因子用σ表示,徑向基函數(shù)內(nèi)核樣本以及對應的類別標簽分別用xm、xn描述。將解決優(yōu)化問題的公式帶入投影訓練式內(nèi),得到式(3)描述的KSVM訓練函數(shù):
(3)
樣本數(shù)用N表示,KSVM訓練樣本以及對應的類別標簽分別用ym、yn描述,投影訓練樣本以及對應的類別標簽,分別用αm、αn描述。
為保證辨識準確性,利用十折交叉驗證進行分析評估。將原始數(shù)據(jù)集劃分為10個子樣本,9個子樣本對算法進行訓練,1個子樣本對算法進行測試,每次操作后均會得到KSVM算法的訓練準確率及測試準確率,各子樣本均需驗證,重復操作10次,對10次結果求平均值,即KSVM算法的最終分類結果[14-15]。
衡量本研究方法的性能,可通過靈敏度(SEN)、曲線下面積(AUC)、準確率(ACC)、特異性(SPE)及受試者工作特征曲線(ROC)五個指標完成[16-18],定義如下:
(4)
(5)
(6)
正確分類的患者數(shù)量用TP描述;患者分類為正常對照組的數(shù)量用FN描述;正常對照組分類正確的數(shù)量用TN描述;正常對照組分類為患者的數(shù)量用FP描述。分類精度越高,AUC值越大,ROC曲線越向左上角靠近[19-20]。
以ADNI數(shù)據(jù)庫中432例受檢者的sMRI圖像作為實驗對象,驗證本研究方法的有效性與可行性,受檢者詳情見表3。
表3 受檢者詳情
實驗分析十折交叉驗證的評估性能,以AD和NC兩組數(shù)據(jù)作為測試對象,將其分別賦值為2、5,共計174例,劃分的測試樣本數(shù)為18,利用十折交叉驗證得到的分類結果與真實結果的對比情況,見圖2。
圖2 十折交叉驗證分類結果與真實結果對比
實驗分析對AD和NC、MCI和NC以及AD和MCI三種情況的辨識效果,并設計對比實驗,選擇基于多模態(tài)典型相關特征表達的阿爾茲海默病辨識方法(多模態(tài)辨識方法)[4]和基于3D-ResNet的阿爾茲海默癥辨識方法(3D-ResNet辨識方法)[5]作為本研究的對比方法,三種方法的靈敏度、特異性、準確率以及曲線下面積四個指標的統(tǒng)計結果分別見圖3、圖4和圖5。
圖3 不同方法對AD-NC的辨識結果
圖4 不同方法對MCI-NC的辨識結果
圖5 不同方法對AD-MCI的辨識結果
使用受試者工作特征曲線(ROC)評估三種方法對AD-NC、MCI-NC和AD-MCI三種情況的辨識效果,結果見圖6。
圖6 受試者工作特征曲線評估結果
由圖2可知,利用十折交叉驗證得到的分類結果與真實結果基本一致,僅有1個樣本分類錯誤,分類準確率為94.44%。由此說明,十折交叉驗證具有較好的算法評估性能,可保證本研究方法的KSVM算法評估準確性。
由圖3和圖4可知,本研究方法對AD-NC及MCI-NC兩種情況的分類靈敏度、特異性、準確率、曲線下面積四個指標均優(yōu)于其它兩種方法,且數(shù)值在95%以上;與之相比,3D-ResNet辨識方法對AD-NC的各項分類指標數(shù)值最低,僅為73%、80%、79%、82%;多模態(tài)辨識方法對MCI-NC的各項分類指標數(shù)值最低,分別為80%、77%、82%、72%。
由圖5可知,本研究方法對AD-MCI的分類指標數(shù)值仍保持最高,而其它兩種方法的分類指標數(shù)值大幅度下降。對比可知,3D-ResNet辨識方法與多模態(tài)辨識方法的分類性能相對較差,尤其是對阿爾茲海默癥和輕度認知障礙(AD-MCI)之間的辨識效果不明顯;本研究方法具有較優(yōu)異的分類性能,不僅能在患者與健康人之間進行有效辨識,在兩類不同患者中,依舊能獲得較好的辨識效果,阿爾茲海默癥初期行為辨識能力優(yōu)勢顯著。
由圖6可知,本研究方法的受試者工作特征曲線最靠近左上角,分類精度較高;3D-ResNet辨識方法的受試者工作特征曲線距離左上角最遠,分類精度低。由此可以說明,本研究方法具有更好的阿爾茲海默癥初期行為辨識效果,其次是多模態(tài)辨識方法,3D-ResNet辨識方法的效果最差。
為及時發(fā)現(xiàn)阿爾茲海默癥患者大腦的早期病變,本研究基于機器學習的阿爾茲海默癥初期行為辨識方法,使用KLFDA算法提取經(jīng)預處理的sMRI數(shù)據(jù)特征,并利用KSVM算法對其進行分類,完成阿爾茲海默癥初期行為辨識。為獲得更精準、穩(wěn)定的分類性能,使本研究方法更好地用于阿爾茲海默癥初期行為辨識,后續(xù)會增加人口統(tǒng)計學資料、功能性磁共振成像等數(shù)據(jù)類型,并擴大樣本的數(shù)據(jù)量,為阿爾茲海默癥的臨床診斷提供科學、可靠的數(shù)據(jù)支持。