亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        縱向組學(xué)數(shù)據(jù)統(tǒng)計分析方法和研究策略*

        2022-09-14 09:58:28呂嘉麗范冰冰魏夢珂
        中國衛(wèi)生統(tǒng)計 2022年3期
        關(guān)鍵詞:高維降維組學(xué)

        呂嘉麗 范冰冰 魏夢珂 張 濤△

        近年來,隨著高通量檢測技術(shù)與機(jī)器學(xué)習(xí)方法的發(fā)展,以前瞻性隊列設(shè)計為基礎(chǔ)的縱向組學(xué)研究已經(jīng)成為系統(tǒng)生物學(xué)研究新趨勢[1]。統(tǒng)計學(xué)上,縱向數(shù)據(jù)統(tǒng)計分析方法已經(jīng)形成了系統(tǒng)的統(tǒng)計分析框架,但這些方法主要集中于變量數(shù)目小于觀察單位數(shù)的低維醫(yī)學(xué)縱向數(shù)據(jù)[2]。而針對縱向組學(xué)數(shù)據(jù),目前仍缺乏成熟的統(tǒng)計分析策略。本文擬對近年來國內(nèi)外研究者提出的縱向組學(xué)數(shù)據(jù)統(tǒng)計分析方法進(jìn)行介紹,并系統(tǒng)地總結(jié)各個方法的核心思想及優(yōu)缺點,給出縱向組學(xué)數(shù)據(jù)統(tǒng)計分析策略。

        縱向組學(xué)研究設(shè)計與數(shù)據(jù)特點

        在不同的生命及疾病狀態(tài)下,機(jī)體組學(xué)標(biāo)記物濃度處于連續(xù)動態(tài)變化過程。縱向組學(xué)研究設(shè)計是指在疾病發(fā)生發(fā)展過程中或采取干預(yù)措施后采集多個時間點的生物標(biāo)本,進(jìn)行高通量組學(xué)檢測。該研究設(shè)計可以分析組學(xué)標(biāo)記物的動態(tài)變化規(guī)律,探討生物體對危險因素累積的反應(yīng)過程及疾病發(fā)生發(fā)展機(jī)制。

        在數(shù)據(jù)特點上,縱向組學(xué)數(shù)據(jù)包含個體、時間、組學(xué)標(biāo)記物、相關(guān)暴露因素及結(jié)局測量信息(如表1所示)??v向組學(xué)數(shù)據(jù)具有以下特征:(1)非平衡性:不同觀察單位隨訪時間點不一樣,同一觀察單位間的隨訪間隔也不一樣;(2)自相關(guān)性:同一觀察單位的不同測量變量之間具有復(fù)雜的相關(guān)與因果調(diào)控關(guān)系;(3)測量誤差:組學(xué)研究常常需要借助高通量檢測儀器完成生物樣本測量,數(shù)據(jù)集難免存在由于測量誤差引起的變異;(4)時依混雜:在縱向組學(xué)研究中,組學(xué)測量數(shù)據(jù)及環(huán)境暴露因素均隨時間而動態(tài)變化,會對因果效應(yīng)估計產(chǎn)生影響;(5)高維災(zāi)難:縱向組學(xué)數(shù)據(jù)除具有一般縱向數(shù)據(jù)特點外,還存在一般高維小樣本組學(xué)數(shù)據(jù)的高維災(zāi)難問題。

        表1 縱向組學(xué)數(shù)據(jù)結(jié)構(gòu)

        縱向組學(xué)數(shù)據(jù)常用統(tǒng)計分析方法

        縱向組學(xué)研究設(shè)計的研究目的包括:(1)研究不同組別間組學(xué)標(biāo)記物的動態(tài)輪廓差異,發(fā)現(xiàn)不同組別間的動態(tài)差異組學(xué)標(biāo)記物;(2)研究組學(xué)標(biāo)記物隨時間變化的動態(tài)趨勢;(3)基于動態(tài)差異組學(xué)標(biāo)記物,建立預(yù)測模型。根據(jù)上述研究目標(biāo)及數(shù)據(jù)特點,常見縱向組學(xué)設(shè)計分析方法主要有以下三類[3-5]:(1)單變量統(tǒng)計分析:用于識別隨時間變化而改變的差異動態(tài)標(biāo)記物;(2)聚類方法:對標(biāo)記物的動態(tài)變化進(jìn)行趨勢分析,對變化趨勢一致的標(biāo)記物進(jìn)行聚類;(3)降維方法:考慮到變量間的復(fù)雜相關(guān)性,利用多變量統(tǒng)計分析方法對高維小樣本數(shù)據(jù)進(jìn)行降維,發(fā)現(xiàn)組學(xué)標(biāo)記物在不同組別間的組學(xué)輪廓差異。

        1.單變量分析

        重復(fù)測量方差分析(repeated measures ANOVA) 是早期用于縱向數(shù)據(jù)分析的方法[6]。目前,混合效應(yīng)模型(mixed effects models)及廣義估計方程(generalized estimating equations)是縱向組學(xué)數(shù)據(jù)分析的常用單變量統(tǒng)計方法[2]。曹紅艷等[7]在廣義估計方程基礎(chǔ)上提出了一種懲罰廣義估計方程(penalized generalized estimating equations),并運用該方法對小鼠進(jìn)行糖尿病發(fā)病關(guān)聯(lián)基因位點篩選。該方法的核心思想是基于LASSO或SCAD等懲罰方法進(jìn)行廣義估計方程建模,不僅保持了廣義估計方程的重要特性,同時將該方法推廣到高維數(shù)據(jù)分析,適用于協(xié)變量個數(shù)p隨樣本例數(shù)n同階變化的情況。

        2.聚類分析

        聚類分析(clustering analysis)能同時考察所有變量,識別變化趨勢一致、功能相似的組學(xué)標(biāo)記物,對于生物機(jī)制的研究具有重要意義[8]。時間序列聚類(time series clustering)根據(jù)時間序列相似度對研究對象進(jìn)行聚類,從而使不同聚類的類間距離最大,類內(nèi)距離最小。模糊C均值聚類(fuzzy c-means clustering) 是動態(tài)組學(xué)研究設(shè)計中應(yīng)用最為廣泛的一種算法[9-10]。其核心思想是對j個觀察單位X={X1,X2…Xj}尋找c個模糊組,并求每組的聚類中心,使得目標(biāo)函數(shù)達(dá)到最小。模糊C聚類的優(yōu)點在于能適應(yīng)分離性不好的數(shù)據(jù)集,允許數(shù)據(jù)性質(zhì)的模糊性,為數(shù)據(jù)結(jié)構(gòu)描述提供了詳細(xì)信息[11]。一項模擬研究表明,相較于K均值聚類算法,模糊聚類算法具有相對較高的聚類效能[12]。但該算法的性能尚依賴于聚類個數(shù)和初始隸屬度矩陣。

        3.降維分析

        常用于組學(xué)數(shù)據(jù)的降維方法包括主成分分析(principal component analysis,PCA)、偏最小二乘判別分析(partial least squares-discriminant analysis,PLSDA)與平行因子分析(parallel factor analysis)等[3]。然而,這些降維方法均未將縱向組學(xué)數(shù)據(jù)集的時間順序信息納入模型,即打亂時間順序后仍然能得到相同的結(jié)果,且并不適用于非線性組學(xué)數(shù)據(jù)[13]。目前,已開發(fā)的降維方法主要包括基于多水平思想的線性降維方法及基于核函數(shù)的非線性降維方法。

        (1)線性降維方法

        縱向數(shù)據(jù)具有多水平結(jié)構(gòu)資料的特征,觀察單位為1水平單位,該觀察單位的重復(fù)測量資料為2水平單位。多水平模型的核心思想是通過估計兩個水平上的方差,并考慮解釋變量對方差的影響,充分利用各水平內(nèi)的聚集信息,從而獲得回歸系數(shù)的有效估計,提供正確的標(biāo)準(zhǔn)誤與置信區(qū)間[14-15]。

        多水平同步成分分析(multilevel simultaneous component analysis,MSCA) 是結(jié)合多水平思想與主成分分析思想的降維方法[16-17]。多水平同步成分分析模型將數(shù)據(jù)集總變異分為個體間和個體內(nèi)兩個水平上的變異。在相同的成分?jǐn)?shù)下,PCA與MSCA相比,解釋的變異相同或更多,對MSCA施加限制越多則解釋變異越小。但MSCA相較于PCA的可解釋度更好,其中不同的亞模型能夠解釋數(shù)據(jù)中不同的變異,其個體內(nèi)模型比PCA能更好地展示數(shù)據(jù)中的動態(tài)變異,而個體間模型又比PCA更好地展示個體間的非動態(tài)變異。

        多水平偏最小二乘判別分析(multilevel PLS-DA,ML-PLS-DA) 的核心思想是將個體間和個體內(nèi)兩水平的變異分開解釋[18-19]。數(shù)據(jù)分析時,首先將個體間變異和個體內(nèi)變異的部分分開,其中個體間變異是對個體兩次測量的均值分析得到,而個體內(nèi)變異是對個體前后兩次測量的差值進(jìn)行分析。當(dāng)使用ML-PLS-DA來描述個體內(nèi)變異時,主要是關(guān)注個體間相同的處理效應(yīng)。因此,ML-PLS-DA的第一主成分描述主要效應(yīng),其后的成分描述個體間不同的處理效應(yīng)。

        (2)非線性降維方法

        線性降維方法計算簡便,原理簡單,易于解釋。但該類方法在處理非線性組學(xué)數(shù)據(jù)時,仍然存在一定局限性。為更精確挖掘非線性組學(xué)數(shù)據(jù)信息,研究者在傳統(tǒng)降維分析方法中引入非線性。其中,應(yīng)用最廣泛的是基于核函數(shù)的主成分方法(kernel principal component analysis)[20],核主成分分析方法將原始數(shù)據(jù)空間RM中的樣本x映射至特征空間F(Φ:RM→F;x→X),在特征空間內(nèi)對樣本X實現(xiàn)主成分分析[20-21]。該方法較傳統(tǒng)主成分分析方法有以下優(yōu)點[22]:① 引入了非線性映射函數(shù)Φ,將原始數(shù)據(jù)映射至特征空間,能夠更好地解釋原始數(shù)據(jù)中非線性變異部分;②可使用不同核函數(shù),對不同種類非線性組學(xué)數(shù)據(jù)實現(xiàn)降維;③能提供比主成分分析更多的特征數(shù)目,可以最大限度地提取特征信息。與核主成分分析類似,核偏最小二乘判別分析(kernel partial least squares-discriminant analysis)也是利用核函數(shù)方法將原始數(shù)據(jù)映射至特征空間,以描述特征間的非線性關(guān)系[23]。除基于核函數(shù)的分析方法外,非線性降維方法還包括局部線性嵌入、等距映射、多尺度變換等流形學(xué)習(xí)方法。

        縱向組學(xué)數(shù)據(jù)統(tǒng)計分析策略

        縱向組學(xué)研究設(shè)計在成為研究生命體功能變化有力手段的同時,也給統(tǒng)計分析帶來了新的機(jī)遇與挑戰(zhàn)。研究者們在進(jìn)行縱向組學(xué)數(shù)據(jù)分析過程中,常常忽略了數(shù)據(jù)集的時序性及相應(yīng)統(tǒng)計分析方法原理與前提假設(shè),降低了研究結(jié)論的可靠性。本文針對縱向組學(xué)數(shù)據(jù)特點,探索了組學(xué)統(tǒng)計分析策略,具體總結(jié)如圖1所示。

        高通量測量技術(shù)中的實驗環(huán)境、儀器性能及人工操作等均會對數(shù)據(jù)質(zhì)量產(chǎn)生影響。因此,組學(xué)測量數(shù)據(jù)變異來源廣泛,除生物變異外,還包括環(huán)境影響及測量誤差等。目前常用數(shù)據(jù)預(yù)處理方法包括噪聲濾除、基線校正及標(biāo)準(zhǔn)化處理。

        圖1 縱向組學(xué)數(shù)據(jù)統(tǒng)計分析策略流程圖

        單變量統(tǒng)計分析思想簡單,易于理解,常用于快速篩選組學(xué)研究中隨時間動態(tài)變化的組學(xué)標(biāo)記物[24-25]。在單變量統(tǒng)計分析過程中,重復(fù)測量方差分析對數(shù)據(jù)資料要求極為嚴(yán)格,須同時滿足方差分析條件及協(xié)方差陣球?qū)ΨQ性,混合效應(yīng)模型及廣義估計方程能考慮到縱向數(shù)據(jù)的相關(guān)性,處理缺失值問題,但后者無法處理高維縱向數(shù)據(jù)的非平衡性問題,存在一定局限性。此外,高維情境常涉及多重比較問題,需著重考慮對假設(shè)檢驗的檢驗水準(zhǔn)α進(jìn)行校正,目前常用校正方法包括Bonferroni校正法及FDR(false discovery rate) 校正法[26-27]。

        聚類方法常用于組學(xué)標(biāo)記物時序變化趨勢分析。在經(jīng)單變量分析后,可通過聚類算法篩選出規(guī)律變化的不同類組學(xué)標(biāo)記物,對不同類的組學(xué)標(biāo)記物選擇不同的模型進(jìn)行研究。K均值聚類算法計算簡便快捷,適應(yīng)性廣,但在聚類過程中未考慮到縱向數(shù)據(jù)的時間序列信息;有序樣品聚類大多用于樣品聚類,是一種特殊條件系統(tǒng)聚類算法,但難以直接得出相關(guān)序列特征的結(jié)論;模糊聚類算法用于時間序列數(shù)據(jù)時,以時間為維度,計算隸屬度,同時允許了數(shù)據(jù)性質(zhì)的模糊性,為數(shù)據(jù)結(jié)構(gòu)的描述提供了詳細(xì)的信息。

        主成分分析與偏最小二乘法判別分析是組學(xué)研究中常用的降維方法。線性降維方法計算簡便,原理簡單,易于解釋。在降維的同時,考慮到數(shù)據(jù)的時序信息,能更好地展示數(shù)據(jù)集的動態(tài)變異。非線性降維方法在降維分析中進(jìn)一步引入非線性,更精確構(gòu)建判別模型,挖掘非線性數(shù)據(jù)信息。最終,使用外部測試集評價潛在組學(xué)標(biāo)記物預(yù)測效果,探索潛在組學(xué)標(biāo)記物的生物學(xué)功能,為分析結(jié)果提供合理的生物學(xué)解釋。

        由于縱向組學(xué)數(shù)據(jù)的復(fù)雜特性,上述分析手段能在一定程度上解決組學(xué)數(shù)據(jù)統(tǒng)計分析問題,但仍存在局限性。目前組學(xué)標(biāo)記物變量篩選的方法主要依靠單變量統(tǒng)計分析及后續(xù)改進(jìn)的偏最小二乘法判別分析等方法。數(shù)據(jù)發(fā)生輕微變化時,變量篩選效果也會受到影響,因此建立穩(wěn)定有效的縱向高維數(shù)據(jù)變量篩選方法仍然值得研究者們進(jìn)行探討[28]。此外,利用縱向組學(xué)數(shù)據(jù)進(jìn)行因果推斷分析時,如何校正時依混雜因素對因果效應(yīng)估計的影響也需要進(jìn)一步研究[29-30]。以上兩個關(guān)鍵科學(xué)問題的解決將會對縱向組學(xué)數(shù)據(jù)提供新的思路與契機(jī)。

        猜你喜歡
        高維降維組學(xué)
        Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        口腔代謝組學(xué)研究
        一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
        基于UHPLC-Q-TOF/MS的歸身和歸尾補血機(jī)制的代謝組學(xué)初步研究
        基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
        一般非齊次非線性擴(kuò)散方程的等價變換和高維不變子空間
        代謝組學(xué)在多囊卵巢綜合征中的應(yīng)用
        高維Kramers系統(tǒng)離出點的分布問題
        拋物化Navier-Stokes方程的降維仿真模型
        計算物理(2014年1期)2014-03-11 17:00:18
        国产日产亚洲系列首页| 日本一区二区不卡视频| 99久久久精品免费香蕉| 亚洲成AV人国产毛片| 国产另类人妖在线观看| 漂亮人妻被强了完整版| 品色堂永远免费| 亚洲尺码电影av久久| 日韩不卡av高清中文字幕| 亚洲av无一区二区三区综合| 日本精品久久久久中文字幕| 久久精品女人天堂av| 香蕉国产人午夜视频在线观看| 丰满人妻一区二区三区免费| 日韩精品一区二区在线天天狠天| 人人妻人人爽人人澡欧美一区| 国产精品国语对白露脸在线播放| 国产精品亚洲美女av网站| 九七青青草视频在线观看| 国产乱码卡二卡三卡老狼| 欧美成年黄网站色视频| 99re国产电影精品| 国产成人精品一区二区三区av| 国内精品久久久久影院优| 亚洲欧美另类激情综合区| 国产综合精品久久亚洲| 人妻丰满精品一区二区| 乱中年女人伦| 亚洲欧美国产双大乳头| 水蜜桃一二二视频在线观看免费 | 在线播放亚洲丝袜美腿| 午夜福利理论片高清在线观看| 国产a级午夜毛片| 久久久人妻丰满熟妇av蜜臀| 中文字幕人妻丝袜成熟乱| 日本阿v网站在线观看中文| 丁香六月久久| 最近更新中文字幕一区二区| 欧美一性一乱一交一视频| 另类专区欧美在线亚洲免费| 中文字幕亚洲视频三区|