郝 杰 張 博 朱 紅 馬金鳳 張昌明
(徐州醫(yī)科大學醫(yī)學信息學院,江蘇 徐州 221000)
?
基于弱匹配典型相關性分析的阿爾茨海默病識別
郝杰張博1,2,3朱紅馬金鳳張昌明
(徐州醫(yī)科大學醫(yī)學信息學院,江蘇徐州221000)
〔摘要〕目的為了增強阿爾茨海默病(AD)的識別能力。方法該文采用多模態(tài)異構生物標志物數(shù)據(jù)在統(tǒng)計意義上潛在的相關性,利用互補原理,最大化不同模態(tài)數(shù)據(jù)之間的相關性,并在典型相關性分析的基礎上,引入流形正則化技術提出了弱匹配典型相關性分析算法。結果解決了弱匹配多模態(tài)數(shù)據(jù)相關性建模問題。結論多模態(tài)異構生物標志物數(shù)據(jù)融合方法的預測性能優(yōu)于單模態(tài),能對AD的發(fā)病和病理研究提供更準確的信息。
〔關鍵詞〕阿爾茨海默?。欢嗄B(tài)數(shù)據(jù)融合;典型相關性分析;弱匹配多模態(tài)數(shù)據(jù)
老年認知障礙逐年增多,其中最常見的阿爾茨海默病(AD),AD是一種進行性發(fā)展的致死性神經退行性疾病,通常被認為是由于腦疾病等原因造成神經細胞和神經元突觸的大量喪失所導致〔1,2〕。輕度認知障礙(MCI)被廣泛認為是AD與正常老齡化之間的一種過渡狀態(tài)〔3~5〕。MCI狀態(tài)并不是一個穩(wěn)定的中間狀態(tài),病情有可能好轉,也有可能發(fā)展成為完全的AD。有研究報道,每年由MCI轉化成AD的比例約為10%~15%〔6〕。因此,對MCI的早期診斷與早期干預是臨床診療工作的關鍵,延緩MCI向AD的轉化速度,可降低患病率、死亡率,有效地提高患者的存活率和患者的生活質量。目前,大部分研究使用單模態(tài)分析法研究神經影像數(shù)據(jù)或其他生物標志物。所謂的單模態(tài)分析是指利用從單一信息渠道獲得的觀察樣本進行識別的技術,如使用主成分分析(PCA)分析正電子發(fā)射斷層掃描(PET)腦顯像,使用獨立成分分析(ICA)分析功能磁共振成像(MRI)數(shù)據(jù)。這些研究都是將AD群體和MCI群體的腦結構與正常老年人的腦結構相比,分析其腦結構的異常,評價從正常的認知老齡化到MCI、從MCI到輕度的AD和從輕度到重度癡呆這一過程的進展,以及利用這些標記物做早期診斷。然而,單模態(tài)數(shù)據(jù)的統(tǒng)計分析存在以下問題①許多生物標志物研究是基于以往臨床標準診斷的病例,病例選擇的準確性直接關系到單一標志物驗證的準確性;②部分生物標志物在許多非AD人群也會出現(xiàn),如斑塊和纏結,需要大量縱向觀察才能得出這些標志物在認知正常者中存在的意義和預測價值的客觀結論,這需要付出大量的資金和人力成本。不同類型的生物標志物特征之間存在著關聯(lián)信息。這些信息作為一種附加特征是有效且重要的,它們能在對AD預測和診斷的過程中有效地完成信息的互補和增強。本文采用多模態(tài)異構生物標志物數(shù)據(jù)在統(tǒng)計意義上潛在的相關性,如MRI與PET的融合、MRI與腦脊液(CSF)或蛋白質組等非影像生物標志特征融合。利用互補原理,最大化不同模態(tài)數(shù)據(jù)之間的相關性,減少數(shù)據(jù)之間的不確定性,從而達到增強識別能力的目的。由于在生物標記物的開發(fā)使用中,多個指標聯(lián)合使用會比單個指標更有優(yōu)勢,所以通過多模態(tài)異構數(shù)據(jù)源的融合,可以對AD的發(fā)病和病理研究提供更準確的信息,同時也能在發(fā)病前,至少是發(fā)病的早期階段預測到認知功能的下降。
1資料與方法
其中,
cxx=XXT∈Rp×Rp和cyy=YYT∈Rq×Rq
表示集合內協(xié)方差矩陣,cxy=XYT∈Rp×Rq表示集合間協(xié)方差矩陣,且Cyx=CxyT。
常將CCA問題等價地描述為以下特征值問題:
1.2弱匹配多模態(tài)數(shù)據(jù)的相關性建模在生物醫(yī)學研究中,數(shù)據(jù)不完整的樣本無處不在。如本文實驗中使用的ADNI數(shù)據(jù)庫,超過一半的受試者缺少CSF數(shù)據(jù),還有很多的受試者沒有FDG-PET或蛋白質組學數(shù)據(jù)。如圖1所示,819組樣本中,只有203份數(shù)據(jù)完整的樣本,1~199號樣本缺少CSF數(shù)據(jù),403~819號樣本缺少PET數(shù)據(jù),609~819號樣本只有MRI數(shù)據(jù)。數(shù)據(jù)缺失的原因很多,可能是由于某些檢查的成本過高(如PET掃描)或屬有創(chuàng)性檢查(如CSF需要腰椎穿刺),不是所有的研究參與者都愿意參與,也可能是一些長期的縱向隨訪研究中,研究參與者可能會錯過定期評價中的一些科目或者受試者中途退出等。
圖1 ADNI數(shù)據(jù)庫——819組患者樣本
CCA中兩組相關的隨機變量可以來自多種信息來源(如同一個人的聲音和圖像),也可以是從同一來源的信息中抽取的不同特特征(如圖像的顏色特征和紋理特征),但訓練數(shù)據(jù)必須一對一嚴格匹配。面向弱匹配多模態(tài)數(shù)據(jù)的CCA有兩種基本的方法:①丟棄未匹配數(shù)據(jù),只使用CCA處理嚴格匹配的多模態(tài)數(shù)據(jù);②根據(jù)特定準則,匹配多模態(tài)數(shù)據(jù)。但這兩種方法都無法獲得理想的結果。
為了解決弱匹配多模態(tài)數(shù)據(jù)相關性建模問題,本文使用流形正則化技術改進CCA,提出了弱匹配算法。弱匹配CCA算法構造了以下優(yōu)化問題:
(1)
s.t.
1.3弱匹配CCA求解方法弱匹配CCA算法的求解過程描述如下。為解式(1),使用Lagrange乘子法。令:
(2)
(3)
用αT和βT分別乘以式(3)兩邊,得:
(4)
由式(4)得:
λ2=λ1
記λ2=λ1=λ,式(3)表示為以下矩陣形式:
(5)
式(5)是一個典型的廣義特征值問題,可以直接進行求解。只要對矩陣進行特征值分解,依次取大特征值對應的特征向量,便可得到最終的典型(投影)向量。
求得d階典型(投影)向量和后,對于任意樣本,即可用如下方式進行特征融合:
ATx+BTy
(6)
(7)
其中A=〔α1,α2,···,αd〕,B=〔β1,β2,···,βd〕,d≤min(p,q)?;谑?6)和式(7)的特征組合方法分別簡稱為“并行組合”與“串行組合”。組合后的特征可用于任何分類器進行分類,本文中采用隨機森林算法。
2結果
本文首先通過一個簡單的模擬數(shù)據(jù)實驗直觀地考察經過弱匹配CCA算法降維后的組合特征對分類效果的影響,然后在ADNI數(shù)據(jù)庫上檢驗弱匹配CCA算法降維后對正常老年人、MCI群體和AD群體識別能力的影響。
+:第一類樣本;□第二類樣本,下圖同圖2 二維樣本的分布情況
圖3 原始數(shù)據(jù)集與經CCA降維后對組合特征的分布
圖4 CCA提取第一對組合特征的分布
圖5 弱匹配CCA提取第一對組合特征的分布
可以看出:①CCA揭示了特征之間的線性關系,但降維后兩類之間存在一定程度的重疊,不利于分類;②在缺少30%樣本的情況下,CCA出現(xiàn)了過擬合現(xiàn)象,樣本間的相關程度降低;③在弱匹配CCA算法實驗中,由于引入了各模態(tài)全部樣本集合中蘊含的內部結構信息,獲得了較為理想的結果,同時WXij的計算過程使得同類樣本盡可能地靠近,不同類樣本盡可能遠離,所以兩類樣本可以被較好地分開。實驗結果表明,弱匹配CCA算法提取的特征有利于分類。
2.2AD識別實驗本文中,實驗數(shù)據(jù)都是來自于ADNI數(shù)據(jù)庫。ADNI是有史以來規(guī)模最大的醫(yī)學影像學項目之一,其數(shù)據(jù)庫涉及正常老年人、MCI群體和AD群體的結構磁共振成像(sMRI),功能磁共振成像(fMRI)和PET等腦影像數(shù)據(jù)和血液、脊髓、年齡、性別、患病時間和臨床評分等各種生物指標。ADNI項目始于2004年10月,其數(shù)據(jù)庫不斷更新。ADNI項目的主要目的是通過腦影像的綜合研究來了解MCI與早期AD的發(fā)病歷程,試圖找出有效的臨床治療方案和預防措施。有關ADNI數(shù)據(jù)庫的具體介紹請登錄網(wǎng)站查詢(其網(wǎng)站鏈接為http://adni.loni.ucla.edu/)。
2.2.1特征提取實驗中使用ADNI數(shù)據(jù)庫提供的819份樣本(193例AD患者,397例MCI患者,229例正常人)建立AD分類模型。MRI腦影像數(shù)據(jù)的預處理使用基于Ubuntu操作系統(tǒng)的Maltab 7.0平臺下的Statistical Parametric Mapping(SPM5,http://www.fil.ion.uel.ae.uk/spm)軟件包,對原始數(shù)據(jù)進行空間標準化,把原始的結構腦影像配準到標準空間中,然后對配準好的圖像進行組織分割,去除非腦組織后,把腦組織分割成灰質、白質和腦脊液三部分,提取305為特征向量。對PET圖像,使用AAL(Automated Anatomical Labeling)算法提取116維ACOI興趣點作為特征向量。CSF數(shù)據(jù)提取Aβ1~42濃度、t-tau和p-tau水平以及t-tau/Aβ1~42、p-tau/Aβ1~42組成5維特征向量。見圖6。
圖6 特征向量提取
2.2.2實驗設置和結果分析MRI特征集和PET特征集,分別使用PCA降維至50維,典型向量的階數(shù)設置為5,10,15,…50。使用“串行”融合策略生成最終的分類特征。分類基于隨機森林算法(Random Forests)〔9〕,直接使用Random forest-matlab軟件包 。
為了對比分析,本文選取了3種比例的數(shù)據(jù)作為訓練集,剩余進行測試,進行50次實驗取均值。實驗結果如表1~表3所示,列出了單特征方法,兩組和三組異構特征融合方法、弱匹配CCA融合分類結果。對該組實驗結果的分析:①由于多個指標聯(lián)合使用會比單個指標更有優(yōu)勢,所以較之單特征方法,兩組或三組異構特征融合的方法具有一定的識別優(yōu)勢。②相對于單特征方法與異構特征融合的方法,弱匹配CCA融合的方法具有顯著的識別優(yōu)勢。而且,這表明,弱匹配CCA直接提取了各異構特征間的綜合相關特征,最大化了不同模態(tài)數(shù)據(jù)之間的相關性,同時減少數(shù)據(jù)之間的不確定性,使相同類型的樣本盡可能靠近,不同類型的樣本盡可能遠離,從而達到增強識別能力的目的。因此具有更高的分類精度。③整體而言,各方法分類精度隨著訓練集中樣本數(shù)量的增加而提高。
表1 訓練集大小50%的分類準確率(%)
AD:AD患者;NL:正常人群;MCI:MCI患者,下表同
表2 訓練集大小66.7%的分類準確率(%)
表3 訓練集大小75%的分類準確率(%)
3討論
與傳統(tǒng)單模態(tài)分析法研究神經影像數(shù)據(jù)或其他生物標志物的方法不同,本文使用弱匹配CCA方法分析多模態(tài)異構生物標志物數(shù)據(jù)在統(tǒng)計意義上潛在的相關性,最大化不同模態(tài)數(shù)據(jù)之間的相關性,同時減少數(shù)據(jù)之間的不確定性,使相同類型的樣本盡可能靠近,不同類型的樣本盡可能遠離,從而達到增強識別能力的目的。本實驗表明,在生物標記物的開發(fā)使用中,多個指標聯(lián)合使用會比單個指標更有優(yōu)勢,而且通過弱匹配CCA方法對各模態(tài)異構數(shù)據(jù)源的融合,可以對AD的發(fā)病和病理研究提供更準確的信息,同時也能在發(fā)病前,至少是發(fā)病的早期階段預測到認知功能的下降。多重集典型相關性分析(MCCA)是CCA向多個數(shù)據(jù)集的自然推廣,用于分析多個(多于2個)數(shù)據(jù)集合變量間的線性關系。1971年Kettenring〔10〕提出了一系列的MCCA,并給出了迭代解法。2003年Yamanishi等〔11〕提出了多重集的核典型相關性分析(MKCCA),用于提取多基因組的相關性。
4參考文獻
1Terry RD,Masliah E,Salmon DP,etal.Physical basis of cognitive alterations in Alzheimer′s disease:synapse loss is the major correlate of cognitive impairment〔J〕.Ann Neurol,1991;4(30):572-80.
2Wenk GL.Neuropathologic changes in Alzheimer′s disease〔J〕.J Clin Psychiatry,2003;(64):7-10.
3Petersen RC,Smith GE,Waring SC,etal.Mild cognitive impairment:clinical characterization and outcome〔J〕.Arch Neurol,1999;56(3):303-8.
4Morris JC,Storandt M,Miller JP,etal.Mild cognitive impairment represents early-stage Alzheimer disease〔J〕.Arch Neurol,2001;58(3):397-405.
5Rombouts SARB,Barkhof F,Goekoop R,etal.Altered resting state networks in mild cognitive impairment and mild Alzheimer′s disease:An fMRI study〔Z〕.Wiley Subscription Services,Inc.,A Wiley Company,2005:231-9.
6Grundman M,Petersen RC,F(xiàn)erris SH,etal.Mild cognitive impairment can be distinguished from Alzheimer disease and normal aging for clinical trials〔J〕.Arch Neurol,2004;61(6):59-66.
7Belkin M,Niyogi P,Sindhwani V.Manifold regularization:a geometric framework for learning from labeled and unlabeled examples〔J〕.J Mach Learning,2006;7:2399-434.
8彭巖,張道強.半監(jiān)督典型相關分析算法〔J〕.軟件學報,2008;19(11):2822-32.
9Liaw A,Wiener M.Classification and regression by random forest〔J〕.R News,2002;2(3):18-22.
10Kettenring J.Canonical analysis of several sets of variables〔J〕.Biometrika,1971;(58):433-51.
11Yamanishi Y,Vert JP,Nakaya A,etal.Extraction of correlated gene clusters from multiple genomic data by generalized kernel canonical correlation analysis〔J〕.Bioinformatics,2003;19(Suppl 1):i323-30.
〔2014-12-06修回〕
(編輯趙慧玲/曹夢園)
通訊作者:朱紅(1970-),女,副教授,博士,主要從事屬性約簡、聚類分析、粒度計算研究。
〔中圖分類號〕TP391
〔文獻標識碼〕A
〔文章編號〕1005-9202(2016)13-3259-05;
doi:10.3969/j.issn.1005-9202.2016.13.081
1中國科學院計算技術研究所智能信息處理重點實驗室
2中國礦業(yè)大學計算機科學與技術學院3中國科學院研究生院
第一作者:郝杰(1980-),女,副教授,碩士,主要從事人工智能、機器學習研究。