亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        權(quán)重概率主成分分析模型的建立及應(yīng)用研究*

        2018-12-29 03:58:18哈爾濱醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室150081
        關(guān)鍵詞:置信區(qū)間分析模型權(quán)重

        哈爾濱醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081)

        高 兵 孫 琳 謝 彪 王文佶 曲思楊 劉美娜△ 張秋菊△

        【提 要】 目的 建立權(quán)重概率主成分分析模型,通過模擬實(shí)驗(yàn)進(jìn)行模型評(píng)價(jià),選擇最優(yōu)模型進(jìn)行代謝組學(xué)數(shù)據(jù)分析,為代謝組學(xué)數(shù)據(jù)分析提供降噪優(yōu)化的分析方法。方法 使用折刀抽樣法計(jì)算變量載荷的置信區(qū)間和變異系數(shù),利用變量載荷的變異信息設(shè)計(jì)倒數(shù)式、開根式、對(duì)數(shù)式三種加權(quán)方式進(jìn)行原始數(shù)據(jù)中的變量加權(quán),結(jié)合概率主成分分析模型建立權(quán)重概率主成分分析模型;通過模擬實(shí)驗(yàn)從第一主成分載荷的估計(jì)和預(yù)測(cè)效能進(jìn)行模型評(píng)價(jià),選擇最優(yōu)權(quán)重概率主成分分析模型;繪制代謝組學(xué)數(shù)據(jù)主成分得分圖,利用中心距離比較權(quán)重概率主成分分析模型與概率主成分分析模型在可視化分組效果。結(jié)果 倒數(shù)式加權(quán)概率模型在第一主成分載荷的估計(jì)和模型預(yù)測(cè)方面優(yōu)于另外兩種權(quán)重概率模型。在可視化方面,權(quán)重概率主成分分析不僅縮小了模型估計(jì)的不確定性,而且增大組間的中心距離。結(jié)論 構(gòu)建了權(quán)重概率主成分分析模型,不僅結(jié)果解釋和可視化優(yōu)于概率主成分分析模型,而且為差異變量的篩選提供了一個(gè)較小的參考范圍。

        在高維組學(xué)數(shù)據(jù)分析中,權(quán)重主成分分析(weighted principal component analysis,WPCA)[1]是根據(jù)變量或觀測(cè)的相對(duì)重要性等一些先驗(yàn)信息,賦予變量或觀測(cè)不同縮放比例的權(quán)重,削弱噪聲變量或干擾因素對(duì)分析結(jié)果的影響。概率主成分分析[2]模型將概率框架引入主成分分析,保留主成分分析對(duì)高維數(shù)據(jù)降維的特點(diǎn),同時(shí)利用期望最大化算法(EM)對(duì)模型參數(shù)進(jìn)行估計(jì)[3];主成分得分的概率分布可以直觀體現(xiàn)模型分析結(jié)果的不確定性,通過折刀法計(jì)算出的模型的載荷置信區(qū)間,識(shí)別對(duì)數(shù)據(jù)分析影響較大的變量。概率主成分分析雖然在可視化方面凸顯了模型分析結(jié)果的不確定性,但模型參數(shù)的極大似然估計(jì)與主成分一致[4],分析過程并未有效控制噪聲變量對(duì)數(shù)據(jù)分析的影響。

        本文在概率主成分分析和權(quán)重主成分分析的基礎(chǔ)上提出權(quán)重概率主成分分析模型(weighted probabilistic principal component analysis,WPPCA),保留概率主成分分析在可視化方面的優(yōu)點(diǎn),借鑒權(quán)重主成分分析加權(quán)的思想,降低噪聲變量對(duì)數(shù)據(jù)分析的影響,增強(qiáng)數(shù)據(jù)可視化效果,提供更小差異變量篩選的參考范圍。

        模型介紹

        1.概率主成分分析模型

        概率主成分分析最早由Tipping和Bishop提出[2],在高斯?jié)撟兞磕P偷幕A(chǔ)上將概率框架引入主成分分析。模型表達(dá)式如下:

        Xi=Wui+μ+εi

        Xi=(xi1,…,xip)T代表觀測(cè)i的原始變量,ui=(ui1,…,uiq)T代表降維之后與之相對(duì)應(yīng)的潛變量,W是一個(gè)p×q的載荷矩陣,μ是一個(gè)均數(shù)向量。εi代表觀測(cè)i的殘差項(xiàng),p(εi)=MVNp(0,σ2I),I代表單位矩陣。

        假定潛變量ui滿足多元高斯分布,即p(ui)=MVNq(0,I),在給定潛變量后觀測(cè)變量的條件分布為:p(xi|ui)=MVNp(Wui+μ,σ2I)。由p(ui)和p(xi|ui)可知觀測(cè)i的分布為p(xi)=MVNp(μ,WWT+σ2I),根據(jù)貝葉斯原理在給定原始觀測(cè)后潛變量滿足如下分布:p(ui|xi)=MVNq(M-1WT(xi-μ),σ2M-1),M=WTW+σ2I。概率主成分模型中的參數(shù)W,μ和σ2可以通過期望最大化算法進(jìn)行估計(jì),其最大的優(yōu)點(diǎn)是不僅通過E(ui)=M-1WT(xi-μ)實(shí)現(xiàn)了數(shù)據(jù)的降維,減小了數(shù)據(jù)的復(fù)雜性,而且通過σ2M-1估計(jì)了潛變量的變異范圍。

        2.權(quán)重主成分分析

        在對(duì)組學(xué)數(shù)據(jù)分析時(shí),有時(shí)存在一些與組學(xué)數(shù)據(jù)相關(guān)的先驗(yàn)信息。權(quán)重主成分分析將這些先驗(yàn)信息轉(zhuǎn)化為權(quán)重,納入數(shù)據(jù)分析。權(quán)重主成分分析通過最小化其損失函數(shù)實(shí)現(xiàn)數(shù)據(jù)分析[5-7],其損失函數(shù)h如下:

        構(gòu)建權(quán)重概率主成分分析模型

        在主成分分析中,通過各主成分所對(duì)應(yīng)的載荷向量可以判斷每一原始變量對(duì)數(shù)據(jù)結(jié)構(gòu)的影響,解釋數(shù)據(jù)特征。在主成分分析中由于各個(gè)原始變量所對(duì)應(yīng)的載荷不為零的特點(diǎn),當(dāng)數(shù)據(jù)的變量數(shù)遠(yuǎn)遠(yuǎn)大于觀測(cè)數(shù)時(shí),大量噪聲變量的存在很難根據(jù)各主成分的載荷向量對(duì)數(shù)據(jù)特征進(jìn)行解釋。在主成分分析的基礎(chǔ)上引入概率模型雖然進(jìn)一步增強(qiáng)模型結(jié)果的解釋能力,放寬模型分析對(duì)數(shù)據(jù)的要求,但在分組方面與主成分分析相比卻沒有實(shí)質(zhì)上的差別,因此本文利用權(quán)重主成分思想結(jié)合概率主成分模型構(gòu)建權(quán)重概率主成分分析模型(WPPCA模型)。

        構(gòu)建權(quán)重概率主成分分析模型的基本思想:在某主成分中,當(dāng)某一變量的載荷置信區(qū)間包含零時(shí),則該變量對(duì)此主成分可能是噪聲變量。相反若載荷的置信區(qū)間不包含零,則該變量可能為潛在差異變量,根據(jù)這些變量的載荷變異信息,對(duì)原始變量賦予不同的權(quán)重W,X′=XWTL,L1×p=[1,…,1],對(duì)X′進(jìn)行概率主成分分析。該方法既可以保留概率主成分分析在可視化方面的優(yōu)點(diǎn),減弱噪聲變量對(duì)數(shù)據(jù)結(jié)構(gòu)特征的影響,增強(qiáng)數(shù)據(jù)可視化效果,同時(shí)也為差異變量提供了一個(gè)較小的參考范圍。

        1.權(quán)重的確定

        關(guān)于權(quán)重的選擇,對(duì)于載荷置信區(qū)間不包括零的變量,為了加強(qiáng)其對(duì)數(shù)據(jù)分析的作用,按載荷變異信息利用程度賦予不同的權(quán)重[1]:

        方法(1):Wj=SV(Wj)-1+1。

        方法(3):Wj=lnSV(Wj)-1+1。

        方法(1)直接利用載荷變異系數(shù)的倒數(shù)對(duì)變量進(jìn)行加權(quán);方法(2)采用變異系數(shù)倒數(shù)的平方根加權(quán);方法(3)采用變異系數(shù)倒數(shù)的自然對(duì)數(shù)加權(quán)。對(duì)于載荷置信區(qū)間包括零的變量,為了弱化噪聲變量對(duì)數(shù)據(jù)結(jié)構(gòu)的影響,對(duì)其施加的權(quán)重為1/max(Wj)。

        2.折刀法抽樣對(duì)參數(shù)置信區(qū)間的估計(jì)

        模擬實(shí)驗(yàn)

        本研究通過各個(gè)權(quán)重模型在載荷估計(jì)和模型預(yù)測(cè)能力等方面分別進(jìn)行數(shù)據(jù)模擬實(shí)驗(yàn)并與PCA對(duì)比,選擇最優(yōu)模型。

        模擬實(shí)驗(yàn)數(shù)據(jù)設(shè)置如下:

        1.載荷估計(jì)

        表1 模擬實(shí)驗(yàn)結(jié)果:PCA與WPPCA對(duì)第一主成分載荷的估計(jì)

        2.模型預(yù)測(cè)

        表2給出測(cè)試樣本方差中位數(shù)及其中位完全偏差:WPPCA模型的預(yù)測(cè)效能優(yōu)于PCA;三種不同權(quán)重的WPPCA模型,方法(1)在各種條件的情況下均優(yōu)于方法(2)和方法(3),尤其在n

        實(shí)例應(yīng)用

        本研究選取課題組絕經(jīng)期婦女骨質(zhì)疏松8人、非骨質(zhì)疏松8人,測(cè)得其血漿代謝圖譜,每個(gè)研究對(duì)象包含350個(gè)質(zhì)譜色譜數(shù)據(jù)。結(jié)合實(shí)際代謝組學(xué)數(shù)據(jù),繪制各觀測(cè)的前兩個(gè)主成分得分散點(diǎn)圖。圖1為PPCA模型前兩個(gè)主成分得分的散點(diǎn)圖,數(shù)據(jù)結(jié)構(gòu)可視化方面不僅保留了主成分分析在不同維度上進(jìn)行變異的最大化分解的特點(diǎn),而且提供主成分的變異信息,可以直觀地理解數(shù)據(jù)模型分析結(jié)果的可靠性。PPCA模型的載荷矩陣與得分矩陣的最大期望值與PCA保持一致,在分組方面兩者效果相同,兩組間第一主成分的中心距離為2.87;圖2為WPPCA模型前兩個(gè)主成分得分的散點(diǎn)圖,組間分布的中心距離增大,兩組間第一主成分的中心距離為3.87,更加清晰地揭示數(shù)據(jù)分組情況,同時(shí)也縮小參數(shù)的置信區(qū)間,使對(duì)主成分得分的估計(jì)更精確。

        表2 模擬實(shí)驗(yàn)結(jié)果:PCA與WPPCA對(duì)模型預(yù)測(cè)能力的比較

        圖1 PPCA的主成分得分圖

        圖2 WPPCA的主成分得分圖

        通過折刀法估計(jì)因子載荷95%的可信區(qū)間確定非零載荷,結(jié)果顯示在350個(gè)變量中有70個(gè)變量的第一因子載荷的置信區(qū)間不包括零。圖3為繪制變量載荷的頻率圖,選擇因子載荷大于0.8的變量為兩組間潛在差異變量的參考范圍;圖4為所選差異變量第一主成分載荷的均值及95%置信區(qū)間;圖5為與之相對(duì)應(yīng)的權(quán)重。主成分分析一般只注重前幾個(gè)變異信息較大的主成分,根據(jù)前幾個(gè)主成分中載荷較大的變量對(duì)數(shù)據(jù)進(jìn)行解釋,忽略了那些載荷較小變量。然而研究發(fā)現(xiàn)這些載荷較小的變量可能在圖像分析有重要的意義[11],WPPCA模型對(duì)因子載荷變異較小的變量有時(shí)賦予較高的權(quán)重,見圖5。

        圖3 載荷頻率圖

        圖4 第一主成分中因子載荷大于0.8的變量的載荷及其置信區(qū)間

        圖5 第一主成分因子載荷大于0.8的變量的權(quán)重

        討 論

        權(quán)重概率主成分分析直接利用折刀抽樣法所獲得變量載荷變異系數(shù)的倒數(shù)給原始變量賦予不同的權(quán)重,一方面有效地控制了噪聲變量對(duì)數(shù)據(jù)分析的影響,減小主成分得分的置信區(qū)間,使模型的參數(shù)估計(jì)更加

        穩(wěn)健;另一方面增強(qiáng)了潛在差異變量對(duì)數(shù)據(jù)結(jié)構(gòu)的影響,使樣本主成分得分的組間距離增大,模型估計(jì)的結(jié)果更加準(zhǔn)確。本研究實(shí)際數(shù)據(jù)中組間距離的增大,驗(yàn)證模型中權(quán)重的選擇、差異變量篩選的合理性。此外,權(quán)重概率主成分分析作為一種概率模型能夠與其他模型相結(jié)合,增強(qiáng)模型的可拓展性,模型中期望最大化算法在數(shù)據(jù)含有缺失值情況下也可進(jìn)行參數(shù)估計(jì)[3],增強(qiáng)了模型的數(shù)據(jù)適應(yīng)性。

        主成分分析本質(zhì)上是觀察變量到潛變量的一種線性投影[12],當(dāng)這種線性假設(shè)不成立,即觀測(cè)數(shù)據(jù)中存在潛在的分類結(jié)構(gòu)時(shí),基于單個(gè)權(quán)重概率主成分分析所進(jìn)行的數(shù)據(jù)分析獲得的可能是虛假數(shù)據(jù)結(jié)構(gòu)特征,并不能揭示數(shù)據(jù)中觀測(cè)的真正分組情況。如果將幾個(gè)權(quán)重概率主成分分析模型相結(jié)合形成混合權(quán)重概率主成分分析模型,在數(shù)據(jù)分析過程中降低噪聲變量對(duì)數(shù)據(jù)分析影響的同時(shí),實(shí)現(xiàn)觀測(cè)樣本的確切分組和數(shù)據(jù)降維,這將是下一步的研究方向。

        猜你喜歡
        置信區(qū)間分析模型權(quán)重
        基于BERT-VGG16的多模態(tài)情感分析模型
        定數(shù)截尾場(chǎng)合三參數(shù)pareto分布參數(shù)的最優(yōu)置信區(qū)間
        p-范分布中參數(shù)的置信區(qū)間
        多個(gè)偏正態(tài)總體共同位置參數(shù)的Bootstrap置信區(qū)間
        權(quán)重常思“浮名輕”
        列車定位中置信區(qū)間的確定方法
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        層次分析模型在結(jié)核疾病預(yù)防控制系統(tǒng)中的應(yīng)用
        全啟發(fā)式語(yǔ)言分析模型
        日本人妻精品有码字幕| 亚洲精品无码久久久久久| 精品麻豆国产色欲色欲色欲www | 天堂网日韩av在线播放一区| 女女同恋一区二区在线观看| 高潮毛片无遮挡高清视频播放| 日韩欧美成人免费观看| 欧美人伦禁忌dvd放荡欲情| 东北妇女肥胖bbwbbwbbw| 国产美女在线精品亚洲二区| 成人女同av免费观看| 国产区一区二区三区性色| 亚州终合人妖一区二区三区| 亚洲国产精品一区二区成人片国内| 久久精品国产亚洲av四虎| 亚洲日韩图片专区小说专区| 高清少妇一区二区三区| 精品人妻伦一二三区久久| 国产精品久线在线观看| 97久久香蕉国产线看观看| 亚洲地区一区二区三区| 亚洲精品日本久久久中文字幕| 一级内射免费观看视频| 少妇被粗大的猛进出69影院| 九九久久精品无码专区| 午夜AV地址发布| 国产一区亚洲欧美成人| 亚洲国产不卡免费视频| 久久久亚洲免费视频网| 巨大巨粗巨长 黑人长吊| 国产草草视频| 涩涩国产在线不卡无码| 深夜一区二区三区视频在线观看 | 7m精品福利视频导航| 国产高清无码在线| 高潮社区51视频在线观看| 精品人妻午夜中文字幕av四季| 亚洲处破女av日韩精品中出| аⅴ资源天堂资源库在线| 成人国产永久福利看片| 成人在线视频亚洲国产|