哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150086) 柯朝甫 武曉巖 李 康
PLS-DA模型四種診斷統(tǒng)計量在代謝組學(xué)應(yīng)用中的比較*
哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150086) 柯朝甫 武曉巖 李 康Δ
目的比較PLS-DA模型四種診斷統(tǒng)計量在代謝組學(xué)數(shù)據(jù)分析中的檢驗效能和穩(wěn)定性。方法采用雙重交叉驗證和置換檢驗的PLS-DA模型驗證策略,并分別使用四種診斷統(tǒng)計量對模擬數(shù)據(jù)和實際數(shù)據(jù)進行分析。結(jié)果AUC統(tǒng)計量較誤判數(shù)(率)、Q2和DQ2統(tǒng)計量具有更高的檢驗效能;同時,AUC統(tǒng)計量與其他三種診斷統(tǒng)計量相比較,具有更高的穩(wěn)定性。結(jié)論AUC統(tǒng)計量是PLS-DA模型驗證過程中一種穩(wěn)定有效的診斷統(tǒng)計量,推薦作為代謝組學(xué)研究中進行PLS-DA分析時的首選診斷統(tǒng)計量。
PLS-DA 代謝組學(xué) 診斷統(tǒng)計量 雙重交叉驗證 置換檢驗
近年來,偏最小二乘判別分析(PLS-DA)在高維組學(xué)數(shù)據(jù)分析中應(yīng)用十分普遍,特別在代謝組學(xué)領(lǐng)域,已成為一種常用的數(shù)據(jù)分析方法[1-2]。PLS-DA是一種集合了主成分分析、典型相關(guān)分析和多元線性回歸特點的數(shù)據(jù)分析方法,與主成分分析相同的是都試圖提取出反映數(shù)據(jù)變異的最大信息,但主成分分析法只考慮自變量矩陣,而偏最小二乘法還需要同時考慮應(yīng)變量(通常有病編碼為1,無病編碼為0),即通過自變量數(shù)據(jù)之間的協(xié)方差及與應(yīng)變量之間的協(xié)方差構(gòu)建正交得分向量(潛變量或主成分)[3]。在建立PLS-DA模型時,需要事先指定用于建模的主成分,不同的主成分?jǐn)?shù)對應(yīng)著不同的PLS-DA模型,一般按照一定的準(zhǔn)則選取前面幾個主成分建立PLS-DA模型。
然而,作為一種判別分析方法,PLS-DA在處理高維(如m>1000)、小樣本(n<100)的組學(xué)數(shù)據(jù)時很容易產(chǎn)生過擬合現(xiàn)象,實際中為了判斷是否產(chǎn)生過擬合可以采用交叉驗證、置換檢驗等方法對模型進行診斷。目前最常用的診斷統(tǒng)計量有誤判數(shù)(誤判率)、受試者工作特征曲線下面積(AUC)、Q2及DQ2[4],這四種診斷統(tǒng)計量在應(yīng)用上存在一定的差異。本文在簡要介紹這四種診斷統(tǒng)計量的基礎(chǔ)上,結(jié)合模擬實驗和實例分析,為如何選擇診斷統(tǒng)計量提供一定的依據(jù)。
模型驗證的最好方法是采用前瞻性外部驗證,但在實際中由于樣本量不足,驗證模型的有效性通常采用交叉驗證方法(如5~7折交叉驗證),即將整個數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)兩部分,使用訓(xùn)練數(shù)據(jù)建立基于一定主成分?jǐn)?shù)的PLS-DA模型并對測試數(shù)據(jù)預(yù)測,這種形式的交叉驗證稱之為簡單交叉驗證。但是,建立PLS-DA模型時如果主觀選擇主成分?jǐn)?shù),容易產(chǎn)生過擬合現(xiàn)象。為此,針對PLS-DA模型,Westerhuis等提出使用雙重交叉驗證的方法[5],即將整個數(shù)據(jù)集隨機分為三部分,包括訓(xùn)練數(shù)據(jù)、驗證數(shù)據(jù)和測試數(shù)據(jù),使用訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)建立模型并優(yōu)化模型參數(shù),然后使用測試數(shù)據(jù)進行預(yù)測。雙重交叉驗證在建模選擇主成分時,通過內(nèi)嵌在建模數(shù)據(jù)中的驗證數(shù)據(jù)確定,避免了過擬合的問題。模型評價可以采用下述四種統(tǒng)計量。
1.誤判數(shù)
通過PLS-DA模型分析,可以獲得每個樣品的預(yù)測類別,通過與真實類別相比較結(jié)果分別為真陽性、假陽性、真陰性和假陰性四種結(jié)果,誤判數(shù)為假陽性數(shù)目與假陰性數(shù)目之和,由此可以算出誤判率。在樣本例數(shù)一定的情況下,誤判數(shù)直接反映了PLS-DA模型誤判的樣品例數(shù),簡單直觀。
2.受試者工作特征曲線下面積
使用PLS-DA模型進行分析,可以得到二分類應(yīng)變量的偏最小二乘回歸結(jié)果,并可以根據(jù)交叉驗證的測試數(shù)據(jù)計算出受試者工作特征曲線下面積(AUC)[6]。這是一種把靈敏度和特異度結(jié)合起來綜合評價預(yù)測準(zhǔn)確度的一種方法,當(dāng)AUC>0.5時,其值越接近1,說明兩組的可區(qū)分度越高;同理,當(dāng)AUC<0.5時,AUC越接近0,說明兩組的可區(qū)分度越高;當(dāng)AUC=0.5時,說明兩組完全不可區(qū)分。
3.Q2統(tǒng)計量
Q2是目前代謝組學(xué)研究中應(yīng)用最多的一種診斷統(tǒng)計量,用來衡量PLS-DA模型的預(yù)測效果,是代謝組學(xué)中使用最多的診斷統(tǒng)計量,其定義為
其中Ym為每個樣品的真實標(biāo)簽,m為通過交叉驗證得到的每個樣品的預(yù)測值,m為所有樣品的平均值為預(yù)測殘差平方和,它定量地衡量了樣品預(yù)測值偏離真實標(biāo)簽的程度[7]。Q2的意義和線性回歸分析中的決定系數(shù)R2相似,區(qū)別在于后者反映的是模型的擬合效果,而Q2則通過交叉驗證的測試數(shù)據(jù)計算得到,描述的是模型的預(yù)測能力。Q2的取值可以是負值(-∞<Q2≤1),其值越接近1說明模型的預(yù)測效果越好,如果其值為負值則表示預(yù)測能力差或完全沒有預(yù)測能力。
4.DQ2統(tǒng)計量
由于PLS-DA是一個線性判別模型,在兩組數(shù)據(jù)情況下(有病=1,正常=0),每個樣品的預(yù)測值m取值范圍并非為[0,1],有可能超出這一范圍,這時無論預(yù)測是否準(zhǔn)確,都會增加預(yù)測殘差。例如,一個樣品的原始標(biāo)簽是1,PLS-DA模型的預(yù)測值為2,雖然預(yù)測非常準(zhǔn)確,但是同樣會增加預(yù)測殘差值使Q2減小。為此,Westerhuis等提出使用DQ2統(tǒng)計量解決這種不合理的現(xiàn)象[8]。
DQ2是對Q2的改進,即當(dāng)預(yù)測值在原始標(biāo)簽的同方向范圍以外,則將該樣品對殘差的貢獻視作0,具體定義為
這樣,當(dāng)原始標(biāo)簽為1而PLS-DA模型預(yù)測值為2時,該次預(yù)測對PRESSD的貢獻為0,DQ2值不會因為正確的預(yù)測而受到懲罰。由此可見,DQ2更加符合真實預(yù)測情況。
實驗?zāi)康模涸诮咏鎸嵈x組數(shù)據(jù)結(jié)構(gòu)和樣本量時,比較四種診斷統(tǒng)計量在不同總體參數(shù)設(shè)置條件下的估計值及標(biāo)準(zhǔn)差,并考核其置換檢驗的效能。
模擬方法:模擬產(chǎn)生樣本量為45的A、B兩組數(shù)據(jù),變量個數(shù)為8,其中A組中各變量服從N(0,1)的正態(tài)分布,B組中各變量服從N(μd,1)的正態(tài)分布,任意兩變量間的相關(guān)系數(shù)設(shè)為ρ=0.5。為了保持代謝組學(xué)的實際數(shù)據(jù)結(jié)構(gòu),取90例正常人血漿樣本得到代謝組學(xué)數(shù)據(jù)Z=(Z1,Z2,…,Z535),并將其隨機等分為兩組(n1=n2=45),與上面模擬產(chǎn)生的A、B兩組差異變量數(shù)據(jù)合并(圖1)。為了模擬病例組數(shù)據(jù)和對照組數(shù)據(jù)之間不同程度的差異,每次產(chǎn)生A、B兩組數(shù)據(jù)時分別按照μd=0,0.2,0.4,0.6,…2.0進行設(shè)置,合計共產(chǎn)生11次不同差異的模擬數(shù)據(jù)。
按照上述方法,根據(jù)不同的μd取值每種情況模擬1000次,擬合PLS-DA模型,并使用7折雙重交叉驗證,計算四種診斷統(tǒng)計量的均數(shù)及標(biāo)準(zhǔn)差。四種統(tǒng)計量的假設(shè)檢驗采用置換檢驗方法,原假設(shè)H0的統(tǒng)計量分布通過模擬數(shù)據(jù)和真實數(shù)據(jù)不斷打亂標(biāo)簽形成。
圖1 模擬實驗數(shù)據(jù)結(jié)構(gòu)示意圖
模擬結(jié)果:隨著類別間差異的增大,整體上模型分類效果變好。從表1看出:①當(dāng)8個差異變量的均值相差為1.0時,AUC值已達0.7128,但Q2和DQ2此時分別為0.0206和0.0362;②在差別較小時(μd<1),Q2和DQ2為負值;③當(dāng)AUC值較大(如大于0.85)時,Q2和DQ2亦顯示出較高的判別效果。
圖2給出了檢驗效能結(jié)果。結(jié)果顯示,當(dāng)一類錯誤α控制在0.05時,并且在組間差異較小的情況下(μd<1.4),AUC的檢驗效能最高,其次為誤判數(shù)(率),DQ2和Q2的檢驗效能最低。另外,當(dāng)一類錯誤α控制在0.01時,AUC在組間具有一定差異情況下(如μd<1.6)的檢驗效能顯著高于另外三個統(tǒng)計量,而誤判數(shù)(率)則與Q2和DQ2相當(dāng)。當(dāng)兩組間的差異足夠大時(如μd=1.6),AUC、誤判數(shù)、Q2和DQ2的檢驗效能在兩種情況下均趨近于1。綜上所述,AUC與誤判數(shù)、Q2、DQ2相比較,能夠發(fā)現(xiàn)微小的組間差異,具有更高的檢驗效能。
表1 模擬1000次不同組間差異時PLS-DA模型的分類效果(均數(shù)±標(biāo)準(zhǔn)差)
圖2 四種PLS-DA診斷統(tǒng)計量在兩種不同檢驗水準(zhǔn)時檢驗效能比較
2009年9月至2010年5月期間在哈醫(yī)大附屬腫瘤醫(yī)院收集了50例卵巢癌患者血漿樣本、50例卵巢良性腫瘤血漿樣本,經(jīng)過UPLC-MS-Q-TOF儀器檢測分析和預(yù)處理后得到535個變量。
對卵巢癌和卵巢良性腫瘤代謝組學(xué)數(shù)據(jù)進行2000次7折PLS-DA雙重交叉驗證,然后計算四種診斷統(tǒng)計量的各種統(tǒng)計描述指標(biāo)如均數(shù)、標(biāo)準(zhǔn)差等,結(jié)果見表2。由表2可見,AUC的均值達到0.8564,Q2和DQ2值都在0.32以上,說明卵巢癌患者與卵巢良性腫瘤患者的血漿代謝輪廓存在較大差異。根據(jù)上面的模擬實驗可知,當(dāng)AUC=0.8223(μd=1.4)時,按照α=0.05檢驗水準(zhǔn),四種診斷統(tǒng)計量的檢驗效能將均接近1。該實例通過置換檢驗給出四種診斷統(tǒng)計量的P值,經(jīng)過2000次置換檢驗,四種統(tǒng)計量的絕大多數(shù)P值小于0.0005,其中AUC統(tǒng)計量均有P<0.0005,另外三種統(tǒng)計量均有P<0.05,說明卵巢癌患者與卵巢良性腫瘤患者的血漿代謝輪廓之間的差異是具有統(tǒng)計學(xué)意義的。
為了進一步對四種診斷統(tǒng)計量的穩(wěn)定性能進行比較,計算2000次7折PLS-DA雙重交叉驗證后所得四種診斷統(tǒng)計量的變異系數(shù)。從圖3可以看出,AUC的變異系數(shù)明顯小于其余三種診斷統(tǒng)計量,說明AUC比其余三個診斷統(tǒng)計量更為穩(wěn)定。為了更加全面客觀地考察四種診斷統(tǒng)計量的變異性,我們基于前20個主成分?jǐn)?shù)依次進行2000次7折PLS-DA簡單交叉驗證,并計算相應(yīng)的四種診斷統(tǒng)計量的變異系數(shù)(圖4)。結(jié)果顯示,AUC的變異系數(shù)均最小,誤判數(shù)的變異系數(shù)略高,而Q2和DQ2在利用前面幾個主成分建模時其變異性尚可,而當(dāng)主成分?jǐn)?shù)大于10時,其變異系數(shù)明顯增大,Q2的穩(wěn)定性最差。綜上所述,AUC在四個診斷統(tǒng)計量中最為穩(wěn)定,其他依次為誤判數(shù)、DQ2和Q2。
表2 2000次雙重交叉驗證中四種診斷統(tǒng)計量分布的統(tǒng)計描述指標(biāo)
圖3 2000次雙重交叉驗證中四種診斷統(tǒng)計量的變異系數(shù)
圖4 2000次簡單交叉驗證中四種診斷統(tǒng)計量的變異系數(shù)
AUC、誤判數(shù)、Q2和DQ2是PLS-DA模型在代謝組學(xué)應(yīng)用中最常用的四種診斷統(tǒng)計量,但如何選用存在一定爭議。這四種診斷統(tǒng)計量的特點是,既可以用來衡量兩組的分類效果,同時可以通過置換檢驗的方法做假設(shè)檢驗。另一重要問題,目前計算這些統(tǒng)計量采用的是簡單交叉驗證方法,通常由主觀確定主成分?jǐn)?shù),容易出現(xiàn)過擬合現(xiàn)象,因此本文推薦使用雙重交叉驗證方法,即主成分?jǐn)?shù)通過內(nèi)嵌在建模數(shù)據(jù)中的驗證數(shù)據(jù)確定,可以使檢驗結(jié)果更加可信。代謝組學(xué)研究中,生物樣品之間的變異性較大,而各種生物狀態(tài)之間的差異和相互關(guān)系復(fù)雜,尋找一種檢驗效能高而又穩(wěn)定的診斷統(tǒng)計量具有重要的現(xiàn)實意義。本文通過模擬實驗和實例驗證的方法對四種診斷統(tǒng)計量在PLS-DA模型驗證過程中的檢驗效能和穩(wěn)定性進行了研究和比較。結(jié)果顯示,在檢驗效能方面,AUC比誤判數(shù)、Q2和DQ2更容易發(fā)現(xiàn)較小的差異,這與Westerhuis等近期的研究結(jié)論是一致的[4]。此外,AUC統(tǒng)計量比其他三個診斷統(tǒng)計量具有更高的穩(wěn)定性。綜上所述,AUC是PLS-DA模型驗證過程中一種穩(wěn)定有效的診斷統(tǒng)計量,可作為代謝組學(xué)研究中進行PLS-DA分析時的首選診斷統(tǒng)計量。本研究中的雙重交叉驗證計算程序用R語言編寫。
1.Bryan K,Brennan L,Cunningham P.MetaFIND:a feature analysis tool formetabolomics data.BMC Bioinformatics,2008,9(1):470-482.
2.Zhang T,Wu XY,Ke CF,etal.Identification of Potential Biomarkers for Ovarian Cancer by Urinary Metabolomic Profiling.J Proteome Res,2013,12(1):505-516.
3.蔣紅衛(wèi),夏結(jié)來,李園,等.偏最小二乘判別分析在基因微陣列分型中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2007,24(4):372-374.
4.Szymanska E,Saccenti E,Smilde AK,et al.Double-check:validation of diagnostic statistics for PLS-DA models in metabolomics studies.Metabolomics,2012,8(Suppl1):3-16.
5.Westerhuis JA,Hoefsloot HCJ,Smit S,etal.Assessmentof PLSDA cross validation.Metabolomics,2008,4(1):81-89.
6.李康,林一帆.評價判別模型診斷效果的AUC分析.中國衛(wèi)生統(tǒng)計,1996,13(3):9-12.
7.Cruciani G,Baroni M,Clementi S,et al.Predictive ability of regression models.Part I:Standard-deviation of prediction errors(SDEP).Journal of Chemometrics,1992,6(6):335-346.
8.Westerhuis JA,van Velzen EJJ,Hoefsloot HCJ,et al.Discrim inant Q2(DQ2)for improved discrim ination in PLSDA models.Metabolom ics,2008,4(4):293-296.
(責(zé)任編輯:郭海強)
A Com parative Analysis of Four PLS-DA Diagnostic Statistics in the Application of M etabolom ics
Ke Chaofu,Wu Xiaoyan,Li Kang(DepartmentofBiostatistics,HarbinMedicalUniversity(150086),Harbin)
ObjectiveTo compare the statistical power and stability of four PLS-DA diagnostic statistics in the analysis ofmetabolomic data.MethodsThe simulated data and realistic data were analyzed based on the PLS-DA validation strategy of double cross validation and permutation test in conjunction w ith four diagnostic statistics.ResultsAUC showed higher statistical power than misclassification number(rate),Q2andDQ2;in themeanwhile,AUC wasmore stable than the other diagnostic statistics.ConclusionAUC is a stable and effective diagnostic statistic in the validation of PLS-DA models,and is recommended as the preferred diagnostic statistic in the PLS-DA analysis ofmetabolomic studies.
PLS-DA;Metabolom ics;Diagnostic statistic;Double cross validation;Permutation test
*國家支撐項目資助(2011BAI09B02);國家自然科學(xué)基金(81172767)
Δ通信作者:李康,likang@ems.hrbmu.edu.cn