李江華,范葉飛,劉文鋒
計算機的普及與發(fā)展使得對海量數(shù)據(jù)進行分析與處理成為可能,與此相適應(yīng),采用“系統(tǒng)論”的方法從系統(tǒng)、整體的角度進行研究也日漸成為 21世紀科學研究的主流趨勢。體育科研也不例外,尤其是運動人體科學、基因組學、蛋白質(zhì)組學、代謝組學等主流的系統(tǒng)生物學研究方法已開始頻繁用于相關(guān)的研究中。由于對系統(tǒng)性和整體性的追求,系統(tǒng)論指導(dǎo)下的研究方法往往會產(chǎn)生大量的數(shù)據(jù),要想解讀如此復(fù)雜的信息,或者說從中提取有用的信息,就必須借助以計算機信息技術(shù)為基礎(chǔ)發(fā)展起來的模式識別技術(shù)。偏最小二乘法 (PLS)是 20世紀 80年代才發(fā)展起來的一種新型的模式識別方法,它集多元線性回歸法(MLR)和主成分分析法 (PCA)的基本功能于一體[7]。在高維數(shù)據(jù)處理中,如果樣本類別已知,PLS不但比傳統(tǒng)降維方法“PCA”的降維效果更好,而且以此為基礎(chǔ)發(fā)展起來的偏最小二乘法判別分析 (PLS-DA)也比傳統(tǒng)的線性判別分析 (LDA)具有更好的預(yù)測識別能力[10,12];另外,PLS進行降維的同時還可以輕松實現(xiàn)“奇異樣本”的發(fā)現(xiàn)與剔除和自變量因子 (各觀測指標)的重要性程度分析,而其他類似的數(shù)據(jù)處理方法功能相對比較單一,難以同時實現(xiàn)這些分析。因其對高維度數(shù)據(jù)強大的處理能力,PLS已在生物信息學、藥學、社會科學等領(lǐng)域得到了廣泛的應(yīng)用,而在體育界,PLS的研究與應(yīng)用相對緩慢,其功能還有待于更多的研究與開發(fā)。為此,本研究以參加第 15屆亞運會中短距離比賽的中國游泳隊男運動員的核磁共振 (NMR)數(shù)據(jù)為例,通過與 SPSS軟件中常用的 PCA降維及 LDA數(shù)據(jù)處理效果進行比較,闡述 PLS分析的優(yōu)越性以及如何利用PLS進行降維、發(fā)現(xiàn)奇異樣本、分析自變量因子 (各觀測指標)的重要性程度和實現(xiàn)判別分析。
2.1 數(shù)理分析
通過簡單分析 PLS的計算過程,闡述 PLS分析的基本原理與思路。
2.2 案例分析
利用 SIMCA-P 10.0軟件,以參加第 15屆亞運會中短距離比賽的中國游泳隊男運動員的核磁共振 (NMR)數(shù)據(jù)為例,闡述 PLS分析的基本功能與實現(xiàn)過程,并通過與SPSS軟件中的 PCA降維及 LDA數(shù)據(jù)處理效果進行比較,闡述 PLS分析的優(yōu)越性。
2.2.1 取樣與測試
亞運會賽前一個月內(nèi),每周 1次,連續(xù)收集運動員晨尿 3次。運動員根據(jù)亞運會的比賽成績是否進入前 8名,分為決賽運動員組 (FG)和非決賽運動員組 (NF),其中, FG樣本 19個,NF樣本 30個。所有樣品進行預(yù)處理后,在500.13MHZ磁場共振頻率下進行一維核磁共振氫譜(1H NMR)測試。
2.2.2 數(shù)據(jù)處理
為了消除核磁共振采集信號過程中壓水峰所造成的影響,去除了水峰和尿素峰附近 6.2~4.6 ppm這一區(qū)段(圖 1)。然后對 10~0.2 ppm進行分段積分,每段為 0.02 ppm,結(jié)果從每個樣本的1H NMR獲得了 409個相應(yīng)的積分數(shù)據(jù)[1,2]。積分數(shù)據(jù)經(jīng)過常規(guī)歸一化處理后,即可導(dǎo)入SIMCA-P 10.0軟件,進行 PLS分析,計算公式如下:
式中,xik為第k個樣本,i區(qū)段的原始積分數(shù)據(jù);為標準化以后的數(shù)據(jù)。
圖 1 傅立葉變換后的一維核磁共振氫譜圖
與主成分分析一樣,PLS也是通過提取主成分的方法達到降維的目的,即將原變量進行轉(zhuǎn)換,從而產(chǎn)生少數(shù)幾個新變量(主成分),這些新變量是原變量的線性組合,同時,這些新變量要盡可能多地表征原變量的數(shù)據(jù)結(jié)構(gòu)而盡量少丟失信息,并且新變量即主成分互不相關(guān),即正交。如果從數(shù)學上進行解釋,即為:設(shè)有p個原始指標(x1,x2, x3,Λ,xp),用來對n個樣本進行評價,則共有np個數(shù)據(jù)。提取主成分的目的是要將這些原始指標組合成新的相互獨立的綜合指標:y1,y2,y3,L,yp,這些綜合指標表現(xiàn)為原始指標的線性函數(shù)[3]:
PLS與主成分分析不同點在于主成分分析法只考慮一個自變量矩陣,而偏最小二乘法還有一個因變量矩陣,在各自提取主成分的同時還要考慮兩個矩陣之間相關(guān)關(guān)系。因此,PLS分析的基本思路可以概括為:“同時提取因變量主成分和自變量主成分并使兩者的相關(guān)性達到最大”。具體要求:1)各主成分必須是原變量的線性組合,為了盡可能多地攜帶變量的變異信息,要求它們的方差達到最大;2)為了使自變量成分對因變量成分有最大的解釋能力或預(yù)測能力,要求兩者的相關(guān)性達到最大[4]。從數(shù)學上進行解釋,即為:設(shè)有因變量Y={Y1,Y2,…,Ym}和自變量集合X={X1,X2,…,Xm},為了研究Y與X間的統(tǒng)計關(guān)系,首先在X與Y中提出主成分t1和u1,PLS方法在提取這兩個主成分時要求同時滿足:1)t1和u1盡可能多地攜帶它們各自數(shù)據(jù)表中的變異信息;2)t1和u1的相關(guān)程度能夠達到最大[9]。綜合以上兩點要求,可以歸結(jié)為使兩者的協(xié)方差達到最大[4]。
4.1 降維與發(fā)現(xiàn)奇異樣本
圖 2 偏最小二乘法(PLS)降維效果圖(t1 vs t2)
PLS分析的中心目的是降維,以排除眾多信息共存中相互重疊的信息。與傳統(tǒng)降維方法相比,由于考慮了樣本的類別信息,其后續(xù)分類效果較好,并且往往只需提取較少的幾個主成分進行分析即可實現(xiàn)對總體的綜合評價。這一優(yōu)點使得數(shù)據(jù)可視化成為可能,通過 PLS的二維或三維主成分散點圖的直觀表征,人們可以輕易地對樣本類別信息進行觀察與分析,有利于進一步挖掘數(shù)據(jù)的內(nèi)在特征。經(jīng) PLS降維后,第一成分t1對第二成分t2的散點圖顯示(圖2) ,決賽運動員組( FG)和非決賽運動員組(NF)樣本各自聚集,分離性較好。這一結(jié)果表明,高水平運動員尿液核磁共振 (NMR)數(shù)據(jù)能在一定程度上反映運動員之間競技水平的差異,利用 NMR進行尿液分析實現(xiàn)對高水平運動員的狀態(tài)監(jiān)控具有一定的可行性。
同時,在實驗或觀測過程中難免會有偶然誤差產(chǎn)生,由此引起某些樣本的數(shù)據(jù)出現(xiàn)異常,PLS在實現(xiàn)降維的過程中還可以實現(xiàn)異常數(shù)據(jù)的發(fā)現(xiàn)與剔除。其基本原理是通過第i個樣本點對第h個成分th的貢獻率t2hi來發(fā)現(xiàn)樣本點集合中的異常數(shù)據(jù)[6]。
在 PLS模型中,定義樣本點i對成分t1,t2,…,tm的累計貢獻率為:
上式表示的圖形為一橢圓,在t1/t2二維平面圖上,可以做出 T2橢圓圖。如果所有的樣本點都落在橢圓區(qū)內(nèi),則認為所有樣本點的分布是均勻的,落在橢圓區(qū)外的樣本點為異常點[6]。
圖 2中的絕大多數(shù)樣本點都落在橢圓區(qū)內(nèi),第 34號樣本落在橢圓區(qū)外,可見本研究的案例中,運動員的樣本點總體上是分布均勻的,只有 34號樣本屬于奇異值。至此,一方面,在建模時或進一步進行數(shù)據(jù)處理時應(yīng)將此樣本剔除;另一方面,還可以據(jù)此對實驗過程進行回顧,查找奇異值產(chǎn)生的原因。剔除 34號樣本后,重新進行 PLS的結(jié)果如圖 3所示,相對于圖 2,決賽運動員組 (FG)和非決賽運動員組 (NF)樣本得到了更好的分離效果。而主成分分析 (PCA)的降維效果則明顯較差 (圖 4),決賽選手和非決賽選手的樣本分布散亂,相互交錯,沒有出現(xiàn)明顯的分離。
圖 3 剔除奇異點后的偏最小二乘法(PLS)降維效果圖(t1 vs t2)
4.2 自變量因子 (各觀測指標)的重要性程度分析
PLS分析主要用于多維數(shù)據(jù)的降維,需要進行 PLS的數(shù)據(jù)往往含有多個觀測指標 (也稱自變量因子),如本研究所分析的案例,從每個樣本的1H NMR就產(chǎn)生了 409個相應(yīng)的數(shù)據(jù),即有 409個自變量因子。那么,這么多的自變量因子對因變量的解釋能力都相等嗎?因此,在對多維數(shù)據(jù)進行分析的過程中,往往需要找出對因變量的解釋能力較強的自變量因子,即重要性較高的觀測指標進行進一步分析。PLS分析中,觀測指標的重要性程度可以用變量投影重要性指標VIPj(variab le importance in p rojection,V IP)來量化。從 PLS建模過程可知,若所提取的成分th對Y的解釋能力越強,而自變量因子xj在構(gòu)造th時又起到了相當重要的作用,則xj對Y的解釋能力就越大。所以,對于自變量因子x,可計算其重要性指標VIP[8]:
圖 4 主成分分析(PCA)降維效果圖(PC1 vs PC2)
通過對運動員尿液樣本的1H NMR所產(chǎn)生的 409個自變量因子的VIPj進行計算和排序,1H NMR譜中對運動員之間競技水平差異解釋能力較強的各區(qū)段及其所代表的代謝產(chǎn)物如表 1所示,對這些代謝產(chǎn)物的進一步的分析與討論可見筆者前期發(fā)表的相關(guān)文獻[11,12]。
表 1 對競技水平差異解釋能力較強的1 H NM R各區(qū)段及其所代表的代謝產(chǎn)物一覽表
4.3 實現(xiàn)判別分析 (PLS-DA)
偏最小二乘法判別分析 (partial least squares-discrim iannt analysis,PLS-DA)是基于 PLS回歸的一種判別分析方法,由于在構(gòu)造因素時考慮到了輔助矩陣以代碼形式提供的類成員信息,因此,比傳統(tǒng)的判別分析法具有更高效的鑒別能力,也使出現(xiàn)假陽極鑒別的概率有所降低[5]。其核心思想是將測試的樣本人為地分為“訓練集”和“預(yù)測集”,其中,“訓練集”用來訓練建模,“預(yù)測集”則用來檢驗所建模型的預(yù)測能力,具體判別過程如下:
表 2 偏最小二乘法判別分析(PLS-DA)與線性判別分析(LDA)對運動員預(yù)測集樣本類別的識別結(jié)果比較一覽表
1.利用“訓練集”數(shù)據(jù)對計算機進行訓練 (建立模型)。例如,對于兩類的情況,在訓練集中,有一些樣本屬于 A類,另外一些樣本屬于 B類,然后教給計算機,建立分類變量與觀測數(shù)據(jù)間的 PLS回歸模型。
2.根據(jù)所建立的 PLS模型,輸入“預(yù)測集”各樣本的觀測數(shù)據(jù),計算機計算識別這些“未知樣本 (不輸入這些樣本的分類信息)”的類別。
本研究的案例共有樣本 49個,其中的 33個樣本 (約2/3)為訓練集,16個樣本 (約 1/3)為預(yù)測集。計算機經(jīng)過訓練之后,對預(yù)測集樣本類別的識別結(jié)果如表 2所示:3個樣本的類別識別錯誤,13個樣本的類別識別正確,總判別正確率為 81.25%。而在所有的數(shù)據(jù)條件完全相同的情況下,線性判別分析的結(jié)果則相對較差,總判別正確率僅為68.75%(表 2)。
偏最小二乘法 (PLS)對高維度數(shù)據(jù)具有強大的處理能力。在體育科研中,同樣可以根據(jù) PLS分析的基本原理,利用 PLS進行降維、發(fā)現(xiàn)異常數(shù)據(jù)、分析自變量因子 (各觀測指標)的重要性程度和實現(xiàn)判別分析,并且在已知樣本類別的條件下,PLS比傳統(tǒng)降維方法“PCA”及“LDA”具有更好的數(shù)據(jù)處理效果。
[1]李江華,劉承宜,徐曉陽,等.2006多哈亞運會短距離游泳男運動員志愿者代謝組學研究[J].體育科學,2008,28(2):42-46.
[2]李江華,劉承宜,沙海燕,等.高水平男子中短距離游泳成績預(yù)測代謝組學模型[J].體育學刊,2010,17(4):103-106.
[3]聶馥霖.淺談統(tǒng)計綜合評價中主成分分析法的應(yīng)用[J].陜西綜合經(jīng)濟,2007,(5):46-48.
[4]錢國華,茍鵬,程陳峰,等.偏最小二乘法降維在微陣列數(shù)據(jù)判別分析中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2007,24(2):120-123.
[5]楊忠,任海青,江澤慧,等.PLS-DA法判別分析木材生物腐朽的研究[J].光譜學與光譜分析,2008,28(4):793-796.
[6]楊杰,方俊,胡德秀,等.偏最小二乘法回歸在水利工程安全監(jiān)測中的應(yīng)用[J].農(nóng)業(yè)工程學報,2007,25(3):136-140.
[7]張琳,張黎明,李燕,等.偏最小二乘法在傅里葉變換紅外光譜中的應(yīng)用及進展[J].光譜學與光譜分析,2005,25(10):1610-1613.
[8]周強,歐陽一鳴,胡學鋼,等.數(shù)據(jù)挖掘中應(yīng)用偏最小二乘法發(fā)現(xiàn)異常值[J].微電子學與計算機,2005,22(1):25-27.
[9]周秀平,王文圣,曾懷金.偏最小二乘與人工神經(jīng)網(wǎng)絡(luò)耦合模型在酸雨 pH值預(yù)測中的應(yīng)用[J].水利水電科技進展,2006,26 (4):50-52.
[10]BOULESTEIX A L,PORZEL IUSC,DAUM ERM.M icroarray-based classification and clinical p redictors:on combined c lassifiers and additional p redictive value[J].B ioinformatics,2008,24(15): 1698-706.
[11]L IJH,L IU TCY,YUAN JQ,etal.Performance-enhancing photobiomodu lation[J].Laser Su rgM ed,2007,39(S19):68.
[12]NGUYEN D,ROCKE D M.Tumor classification by partial least squares usingm icroarray gene exp ression data[J].B ioinformatics, 2002,18(1):39-50.