哈爾濱醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081)
高 兵 孫 琳 謝 彪 王文佶 曲思楊 劉美娜△ 張秋菊△
【提 要】 目的 建立權(quán)重概率主成分分析模型,通過模擬實(shí)驗(yàn)進(jìn)行模型評(píng)價(jià),選擇最優(yōu)模型進(jìn)行代謝組學(xué)數(shù)據(jù)分析,為代謝組學(xué)數(shù)據(jù)分析提供降噪優(yōu)化的分析方法。方法 使用折刀抽樣法計(jì)算變量載荷的置信區(qū)間和變異系數(shù),利用變量載荷的變異信息設(shè)計(jì)倒數(shù)式、開根式、對(duì)數(shù)式三種加權(quán)方式進(jìn)行原始數(shù)據(jù)中的變量加權(quán),結(jié)合概率主成分分析模型建立權(quán)重概率主成分分析模型;通過模擬實(shí)驗(yàn)從第一主成分載荷的估計(jì)和預(yù)測(cè)效能進(jìn)行模型評(píng)價(jià),選擇最優(yōu)權(quán)重概率主成分分析模型;繪制代謝組學(xué)數(shù)據(jù)主成分得分圖,利用中心距離比較權(quán)重概率主成分分析模型與概率主成分分析模型在可視化分組效果。結(jié)果 倒數(shù)式加權(quán)概率模型在第一主成分載荷的估計(jì)和模型預(yù)測(cè)方面優(yōu)于另外兩種權(quán)重概率模型。在可視化方面,權(quán)重概率主成分分析不僅縮小了模型估計(jì)的不確定性,而且增大組間的中心距離。結(jié)論 構(gòu)建了權(quán)重概率主成分分析模型,不僅結(jié)果解釋和可視化優(yōu)于概率主成分分析模型,而且為差異變量的篩選提供了一個(gè)較小的參考范圍。
在高維組學(xué)數(shù)據(jù)分析中,權(quán)重主成分分析(weighted principal component analysis,WPCA)[1]是根據(jù)變量或觀測(cè)的相對(duì)重要性等一些先驗(yàn)信息,賦予變量或觀測(cè)不同縮放比例的權(quán)重,削弱噪聲變量或干擾因素對(duì)分析結(jié)果的影響。概率主成分分析[2]模型將概率框架引入主成分分析,保留主成分分析對(duì)高維數(shù)據(jù)降維的特點(diǎn),同時(shí)利用期望最大化算法(EM)對(duì)模型參數(shù)進(jìn)行估計(jì)[3];主成分得分的概率分布可以直觀體現(xiàn)模型分析結(jié)果的不確定性,通過折刀法計(jì)算出的模型的載荷置信區(qū)間,識(shí)別對(duì)數(shù)據(jù)分析影響較大的變量。概率主成分分析雖然在可視化方面凸顯了模型分析結(jié)果的不確定性,但模型參數(shù)的極大似然估計(jì)與主成分一致[4],分析過程并未有效控制噪聲變量對(duì)數(shù)據(jù)分析的影響。
本文在概率主成分分析和權(quán)重主成分分析的基礎(chǔ)上提出權(quán)重概率主成分分析模型(weighted probabilistic principal component analysis,WPPCA),保留概率主成分分析在可視化方面的優(yōu)點(diǎn),借鑒權(quán)重主成分分析加權(quán)的思想,降低噪聲變量對(duì)數(shù)據(jù)分析的影響,增強(qiáng)數(shù)據(jù)可視化效果,提供更小差異變量篩選的參考范圍。
概率主成分分析最早由Tipping和Bishop提出[2],在高斯?jié)撟兞磕P偷幕A(chǔ)上將概率框架引入主成分分析。模型表達(dá)式如下:
Xi=Wui+μ+εi
Xi=(xi1,…,xip)T代表觀測(cè)i的原始變量,ui=(ui1,…,uiq)T代表降維之后與之相對(duì)應(yīng)的潛變量,W是一個(gè)p×q的載荷矩陣,μ是一個(gè)均數(shù)向量。εi代表觀測(cè)i的殘差項(xiàng),p(εi)=MVNp(0,σ2I),I代表單位矩陣。
假定潛變量ui滿足多元高斯分布,即p(ui)=MVNq(0,I),在給定潛變量后觀測(cè)變量的條件分布為:p(xi|ui)=MVNp(Wui+μ,σ2I)。由p(ui)和p(xi|ui)可知觀測(cè)i的分布為p(xi)=MVNp(μ,WWT+σ2I),根據(jù)貝葉斯原理在給定原始觀測(cè)后潛變量滿足如下分布:p(ui|xi)=MVNq(M-1WT(xi-μ),σ2M-1),M=WTW+σ2I。概率主成分模型中的參數(shù)W,μ和σ2可以通過期望最大化算法進(jìn)行估計(jì),其最大的優(yōu)點(diǎn)是不僅通過E(ui)=M-1WT(xi-μ)實(shí)現(xiàn)了數(shù)據(jù)的降維,減小了數(shù)據(jù)的復(fù)雜性,而且通過σ2M-1估計(jì)了潛變量的變異范圍。
在對(duì)組學(xué)數(shù)據(jù)分析時(shí),有時(shí)存在一些與組學(xué)數(shù)據(jù)相關(guān)的先驗(yàn)信息。權(quán)重主成分分析將這些先驗(yàn)信息轉(zhuǎn)化為權(quán)重,納入數(shù)據(jù)分析。權(quán)重主成分分析通過最小化其損失函數(shù)實(shí)現(xiàn)數(shù)據(jù)分析[5-7],其損失函數(shù)h如下:
在主成分分析中,通過各主成分所對(duì)應(yīng)的載荷向量可以判斷每一原始變量對(duì)數(shù)據(jù)結(jié)構(gòu)的影響,解釋數(shù)據(jù)特征。在主成分分析中由于各個(gè)原始變量所對(duì)應(yīng)的載荷不為零的特點(diǎn),當(dāng)數(shù)據(jù)的變量數(shù)遠(yuǎn)遠(yuǎn)大于觀測(cè)數(shù)時(shí),大量噪聲變量的存在很難根據(jù)各主成分的載荷向量對(duì)數(shù)據(jù)特征進(jìn)行解釋。在主成分分析的基礎(chǔ)上引入概率模型雖然進(jìn)一步增強(qiáng)模型結(jié)果的解釋能力,放寬模型分析對(duì)數(shù)據(jù)的要求,但在分組方面與主成分分析相比卻沒有實(shí)質(zhì)上的差別,因此本文利用權(quán)重主成分思想結(jié)合概率主成分模型構(gòu)建權(quán)重概率主成分分析模型(WPPCA模型)。
構(gòu)建權(quán)重概率主成分分析模型的基本思想:在某主成分中,當(dāng)某一變量的載荷置信區(qū)間包含零時(shí),則該變量對(duì)此主成分可能是噪聲變量。相反若載荷的置信區(qū)間不包含零,則該變量可能為潛在差異變量,根據(jù)這些變量的載荷變異信息,對(duì)原始變量賦予不同的權(quán)重W,X′=XWTL,L1×p=[1,…,1],對(duì)X′進(jìn)行概率主成分分析。該方法既可以保留概率主成分分析在可視化方面的優(yōu)點(diǎn),減弱噪聲變量對(duì)數(shù)據(jù)結(jié)構(gòu)特征的影響,增強(qiáng)數(shù)據(jù)可視化效果,同時(shí)也為差異變量提供了一個(gè)較小的參考范圍。
關(guān)于權(quán)重的選擇,對(duì)于載荷置信區(qū)間不包括零的變量,為了加強(qiáng)其對(duì)數(shù)據(jù)分析的作用,按載荷變異信息利用程度賦予不同的權(quán)重[1]:
方法(1):Wj=SV(Wj)-1+1。
方法(3):Wj=lnSV(Wj)-1+1。
方法(1)直接利用載荷變異系數(shù)的倒數(shù)對(duì)變量進(jìn)行加權(quán);方法(2)采用變異系數(shù)倒數(shù)的平方根加權(quán);方法(3)采用變異系數(shù)倒數(shù)的自然對(duì)數(shù)加權(quán)。對(duì)于載荷置信區(qū)間包括零的變量,為了弱化噪聲變量對(duì)數(shù)據(jù)結(jié)構(gòu)的影響,對(duì)其施加的權(quán)重為1/max(Wj)。
本研究通過各個(gè)權(quán)重模型在載荷估計(jì)和模型預(yù)測(cè)能力等方面分別進(jìn)行數(shù)據(jù)模擬實(shí)驗(yàn)并與PCA對(duì)比,選擇最優(yōu)模型。
模擬實(shí)驗(yàn)數(shù)據(jù)設(shè)置如下:
表1 模擬實(shí)驗(yàn)結(jié)果:PCA與WPPCA對(duì)第一主成分載荷的估計(jì)
表2給出測(cè)試樣本方差中位數(shù)及其中位完全偏差:WPPCA模型的預(yù)測(cè)效能優(yōu)于PCA;三種不同權(quán)重的WPPCA模型,方法(1)在各種條件的情況下均優(yōu)于方法(2)和方法(3),尤其在n
本研究選取課題組絕經(jīng)期婦女骨質(zhì)疏松8人、非骨質(zhì)疏松8人,測(cè)得其血漿代謝圖譜,每個(gè)研究對(duì)象包含350個(gè)質(zhì)譜色譜數(shù)據(jù)。結(jié)合實(shí)際代謝組學(xué)數(shù)據(jù),繪制各觀測(cè)的前兩個(gè)主成分得分散點(diǎn)圖。圖1為PPCA模型前兩個(gè)主成分得分的散點(diǎn)圖,數(shù)據(jù)結(jié)構(gòu)可視化方面不僅保留了主成分分析在不同維度上進(jìn)行變異的最大化分解的特點(diǎn),而且提供主成分的變異信息,可以直觀地理解數(shù)據(jù)模型分析結(jié)果的可靠性。PPCA模型的載荷矩陣與得分矩陣的最大期望值與PCA保持一致,在分組方面兩者效果相同,兩組間第一主成分的中心距離為2.87;圖2為WPPCA模型前兩個(gè)主成分得分的散點(diǎn)圖,組間分布的中心距離增大,兩組間第一主成分的中心距離為3.87,更加清晰地揭示數(shù)據(jù)分組情況,同時(shí)也縮小參數(shù)的置信區(qū)間,使對(duì)主成分得分的估計(jì)更精確。
表2 模擬實(shí)驗(yàn)結(jié)果:PCA與WPPCA對(duì)模型預(yù)測(cè)能力的比較
圖1 PPCA的主成分得分圖
圖2 WPPCA的主成分得分圖
通過折刀法估計(jì)因子載荷95%的可信區(qū)間確定非零載荷,結(jié)果顯示在350個(gè)變量中有70個(gè)變量的第一因子載荷的置信區(qū)間不包括零。圖3為繪制變量載荷的頻率圖,選擇因子載荷大于0.8的變量為兩組間潛在差異變量的參考范圍;圖4為所選差異變量第一主成分載荷的均值及95%置信區(qū)間;圖5為與之相對(duì)應(yīng)的權(quán)重。主成分分析一般只注重前幾個(gè)變異信息較大的主成分,根據(jù)前幾個(gè)主成分中載荷較大的變量對(duì)數(shù)據(jù)進(jìn)行解釋,忽略了那些載荷較小變量。然而研究發(fā)現(xiàn)這些載荷較小的變量可能在圖像分析有重要的意義[11],WPPCA模型對(duì)因子載荷變異較小的變量有時(shí)賦予較高的權(quán)重,見圖5。
圖3 載荷頻率圖
圖4 第一主成分中因子載荷大于0.8的變量的載荷及其置信區(qū)間
圖5 第一主成分因子載荷大于0.8的變量的權(quán)重
權(quán)重概率主成分分析直接利用折刀抽樣法所獲得變量載荷變異系數(shù)的倒數(shù)給原始變量賦予不同的權(quán)重,一方面有效地控制了噪聲變量對(duì)數(shù)據(jù)分析的影響,減小主成分得分的置信區(qū)間,使模型的參數(shù)估計(jì)更加
穩(wěn)健;另一方面增強(qiáng)了潛在差異變量對(duì)數(shù)據(jù)結(jié)構(gòu)的影響,使樣本主成分得分的組間距離增大,模型估計(jì)的結(jié)果更加準(zhǔn)確。本研究實(shí)際數(shù)據(jù)中組間距離的增大,驗(yàn)證模型中權(quán)重的選擇、差異變量篩選的合理性。此外,權(quán)重概率主成分分析作為一種概率模型能夠與其他模型相結(jié)合,增強(qiáng)模型的可拓展性,模型中期望最大化算法在數(shù)據(jù)含有缺失值情況下也可進(jìn)行參數(shù)估計(jì)[3],增強(qiáng)了模型的數(shù)據(jù)適應(yīng)性。
主成分分析本質(zhì)上是觀察變量到潛變量的一種線性投影[12],當(dāng)這種線性假設(shè)不成立,即觀測(cè)數(shù)據(jù)中存在潛在的分類結(jié)構(gòu)時(shí),基于單個(gè)權(quán)重概率主成分分析所進(jìn)行的數(shù)據(jù)分析獲得的可能是虛假數(shù)據(jù)結(jié)構(gòu)特征,并不能揭示數(shù)據(jù)中觀測(cè)的真正分組情況。如果將幾個(gè)權(quán)重概率主成分分析模型相結(jié)合形成混合權(quán)重概率主成分分析模型,在數(shù)據(jù)分析過程中降低噪聲變量對(duì)數(shù)據(jù)分析影響的同時(shí),實(shí)現(xiàn)觀測(cè)樣本的確切分組和數(shù)據(jù)降維,這將是下一步的研究方向。