張韶凱 張巖波△ 張克讓 孫 寧 徐 勇
復雜性狀疾病(complex diseases)是指由多種基因控制、遺傳因素與環(huán)境因素相互作用的疾病,如糖尿病、高血壓、抑郁癥等。人類基因組單體型結構及應用的研究,在過去幾年取得了很大進步,但是仍存在很多問題有待解決。伴隨單體型數(shù)據(jù)的劇增,更為迫切需要的是發(fā)展更為有效的設計與統(tǒng)計分析手段,從而在研究中考慮到更多的多態(tài)位點、更復雜的性狀、單體域間的連鎖、系譜信息等問題,使得我們對單體型、單體域的研究更為有效與完善〔1〕。貝葉斯網(wǎng)潛變量分析既可以有效地體現(xiàn)單體型和高維SNPs的綜合效應,又可以充分發(fā)揮貝葉斯網(wǎng)絡結構分析的特征,分析SNPs復雜的網(wǎng)絡結構關系,是分析大規(guī)?;驍?shù)據(jù)的一種有效的方法。本文采用基于貝葉斯(Bayesian)網(wǎng)絡的潛變量模型來進行高維度基因組數(shù)據(jù)的分析。
1.資料來源
研究資料為山西醫(yī)科大學第一醫(yī)院抑郁障礙性疾病的單核苷酸多態(tài)性SNPs檢測數(shù)據(jù),每個研究對象分別測量7個SNP,一共檢測了801個個體。SNPs檢測指標見表1。
2.研究方法
采用Bayesian網(wǎng)絡的潛變量模型對數(shù)據(jù)進行分析。分析工具采用LANTERN潛變量分析軟件,該軟件由香港科技大學計算機科學工程學系開發(fā)。
(1)貝葉斯網(wǎng)潛類模型
貝葉斯網(wǎng)絡是變量之間概率依賴關系的一種圖形表示形式,每個節(jié)點代表一個隨機變量,結點之間的線表示結點間存在概率依賴關系,且依賴的程度是一個概率參數(shù)。貝葉斯網(wǎng)絡由網(wǎng)絡結構和條件概率分布兩部分組成。貝葉斯網(wǎng)潛類模型是由潛變量和顯變量組成的貝葉斯網(wǎng)。在實際工作中,潛變量代表沒有觀測到的潛在因子,顯變量Y1,Y2…,Yn代表潛在因子的外部表現(xiàn)。比如X代表個人的“社會經(jīng)濟地位”,Y可以代表職業(yè)、學歷、收入等社會經(jīng)濟地位的的外在體現(xiàn)。變量X可以取不同的數(shù)值,這些不同的數(shù)值代表不同的類別,這些類別不能觀測到,所以稱之為潛在類別(latent class)。假如X代表的是“社會經(jīng)濟地位”,那么潛在類別就是“社會經(jīng)濟地位高(的人群)”、“社會經(jīng)濟地位低(的人群)”等。潛類模型與樸素貝葉斯模型具有相同的網(wǎng)絡結構,不同的是潛類模型中的類別變量是潛變量,而樸素貝葉斯網(wǎng)模型中的類別變量是顯變量。
表1 抑郁障礙性疾病患者SNPs指標
(2)潛類模型的可識別性
由于模型存在冗余部分,使得模型變得不可識別,所以應當盡量去掉這些冗余部分,得到一個最簡約的模型。一個模型是否為最簡模型,可以用正則性來判斷。Goodman(1974)提出在潛類模型中,如果其潛變量的個數(shù)|X|和其顯變量的個數(shù)|Yi|(i=1,2,…,n)滿足如下關系〔2〕:
則稱潛類模型是正則的。
新動能就是新一輪科技革命和產(chǎn)業(yè)變革中形成的經(jīng)濟社會發(fā)展新動力,包括新技術、新產(chǎn)業(yè)、新業(yè)態(tài)、新模式等等。舊動能是指低效率、低質量、高耗能、高污染的傳統(tǒng)產(chǎn)業(yè)和傳統(tǒng)經(jīng)營管理模式。新舊動能轉換就是通過新的科技革命和產(chǎn)業(yè)變革中形成經(jīng)濟社會發(fā)展新動力,用新技術、新產(chǎn)業(yè)、新業(yè)態(tài)、新模式等轉換更迭傳統(tǒng)以資源和政府為導向的經(jīng)濟發(fā)展模式。新舊動能轉換既來自“無中生有”的新技術、新業(yè)態(tài)、新模式,也來自“有中出新”的傳統(tǒng)產(chǎn)業(yè)改造升級。兩者相輔相成、有機統(tǒng)一。
(3)潛類模型學習
潛類模型學習是從一組顯變量數(shù)據(jù)Y1,Y2,…,Yn,出發(fā),確定兩方面內容:①潛變量的類別;②潛變量X的概率分布P(X)及每個顯變量的條件概率P(Yi/X)。確定潛變量的類別等于確定潛類的個數(shù),確定P(X)及P(Yi/X)就是確定每個潛類的統(tǒng)計特性。因此,潛類分析可以看作是一種基于模型的聚類分析〔3〕。
(4)參數(shù)估計
貝葉斯網(wǎng)參數(shù)學習是指對于給定的貝葉斯網(wǎng)模型結構η和數(shù)據(jù)集D,利用先驗知識確定貝葉斯網(wǎng)絡模型各節(jié)點的條件概率θ。常見的參數(shù)學習方法對貝葉斯網(wǎng)絡和數(shù)據(jù)集做了一些假定〔4〕:①變量是類別變量;②全局和局部獨立;③樣本獨立同分布。常用的貝葉斯網(wǎng)絡參數(shù)學習方法有最大似然估計、貝葉斯估計和期望最大化算法。
(5)模型的選擇
評分函數(shù)是用來指導模型選擇的標準。設η是數(shù)據(jù)D的一個貝葉斯?jié)撟兞磕P停P挺窍鄬τ跀?shù)據(jù)D擬合的優(yōu)劣可以用評分函數(shù)來衡量,即以評分函數(shù)作為標準來選擇模型。潛變量模型常用的評分有BIC,AIC,HVL,BICe,CS 等〔5-6〕。
(6)模型優(yōu)化
經(jīng)過分析后得到的最優(yōu)貝葉斯網(wǎng)潛變量模型結構,模型中含有一個潛變量X,X的類別為2,表示綜合考慮7個SNPs的整體效應,可以將人群總的分為兩類,每個類別代表不同特征的人群。模型中與潛變量相連的7個SNPs為顯變量,它們與潛變量的關系由每一條直線表示,線的粗細代表每個SNP與潛變量X的兩兩互信息,即與X的相關度,線越粗,代表互信息量越大,與潛變量X的關系越密切。從得到的模型結構圖中可以看出,與潛變量X關系最為密切的SNP為rs11568817和 rs130058,其次為 rs6298,其余的 SNPs與潛變量X的相關度比較小。
圖1是包含每個SNP與潛變量X的互信息和累積信息覆蓋度的信息曲線。為了解釋潛變量X的含義,LANTERN會選取若干個與潛變量X相關度最高的顯變量,并基于這些顯變量來進行解釋。累積信息覆蓋度決定了所得到的解釋結果覆蓋了多少潛變量X所包含的信息。累積信息覆蓋度越高,選取的顯變量就越多,解釋結果所覆蓋的潛變量X的信息也就越多,但是,隨著模型選取的顯變量個數(shù)的增加,所得到的解釋結果也就越復雜。因此,在一般情況下,累積信息覆蓋度的默認值選為95%。
圖1 各SNP的信息曲線
為考察每個SNP的互信息,將所有的SNPs都納入,因此信息覆蓋度達100,重復抽樣次數(shù)默認值10000,分析得到圖1中的信息曲線圖。圖中橫軸從左到右是7個SNPs顯變量,左側的縱軸是互信息的絕對值,右側的縱軸則是信息覆蓋度的大小。下方的曲線是各顯變量與潛變量X的兩兩互信息或者相關度的大小。從左到右,各顯變量X與潛變量的相關度呈下降趨勢。上方的曲線是當截取到各顯變量時它們與潛變量X的累積互信息的大小。顯然,截取的顯變量越多,累積互信息越大,但是到達一定程度時,累積互信息量不再增加。從數(shù)據(jù)分析后得到的信息曲線可以看出,兩兩互信息量最大的SNP是rs1156881,其次是rs130058和rs6298,其余的SNPs與潛變量的互信息量很小。各個SNPs的信息情況見表2。從表中可以看出,rs1156881與rs130058兩者的累積互信息量就能夠達到95%以上,rs5569,rs2242446,rs6295與 rs6313幾乎不提供任何信息,說明這些SNPs的在診斷抑郁癥方面的價值不大。
表3-4是各SNP在潛變量X中的類概率分布表。表3是潛變量X的類別為1時各SNP的類概率分布,潛變量X的先驗類別概率為0.216,表4是潛變量X的類別為2時各SNP的類概率分布,潛變量X的先驗類別概率為0.784。類概率分布解釋了潛變量與顯變量之間的關系,可以幫助研究者解釋潛變量各類別的內容和性質〔7〕。潛變量X的各類別概率總和為1。本例中潛變量第二個類別所占的比重(0.784)遠大于第一個類別的比重(0.216),超過全體樣本的一半,說明潛變量的第二個類別對7個SNPs的影響較大。具體到每一個 SNP中,由于 rs5569,rs2242446,rs6295與rs6313的信息量為0,所以可以判斷這4個SNPs在兩組之間的類概率分布差異應該不明顯,而從它們的類概率分布表中得出的結論與此一致。比如rs613,它在潛變量類別為1時的條件概率分別為0.23,0.50和0.27,在潛變量類別為2時的條件概率分別為0.22,0.50和0.27,基本上是一樣的,因此,潛變量在這個SNP上并不具有特異性,即該SNP并不能作為劃分抑郁癥病人類別的依據(jù)。其余3個信息量為0的 SNPs與rs613類似。相反,rs11568817,rs130058和rs6298的類概率分布在潛變量的不同類別上存在差異,這與它們的互信息量的大小也是一致的,我們可以根據(jù)這三個SNPs來對所有的抑郁癥病人進行合理歸類。從表4可以看出,導致我們潛變量模型中潛在類別含義不同的正是從屬于HTR1B基因(5-羥色胺受體1B基因)的3個SNPs。
表2 各SNP的信息情況
表3 各SNP的類概率分布表(X=1,先驗概率=0.216)
表4 各SNP的類概率分布表(X=2,先驗概率=0.784)
按照累積信息覆蓋度達95% 的原則,rs11568817和rs130058的累積信息覆蓋度達到98%,能夠解釋潛變量幾乎所有的信息,因此我們選取這兩個SNPs來對抑郁癥患者進行合理的聚類與解釋。在潛變量X潛在類別為1的條件下,rs11568817和rs130058第2個狀態(tài)的條件概率分別為0.92和0.76,條件概率值遠遠大于其它類別的條件概率值,因此,潛變量XX在第一個類別上反映的是這兩個SNPs第二個狀態(tài)的信息。rs11568817第二個狀態(tài)為GT,rs130058第二個狀態(tài)為AT,都為雜合子,所以,在潛在類別為1的抑郁癥患者的SNPs中,以含rs11568817和rs130058的雜合子為主,此類患者占總患者人數(shù)的22%;在潛變量X潛在類別為2的條件下,rs11568817第三個狀態(tài)的條件概率值為0.98,rs130058第一個狀態(tài)的條件概率值為1,遠大于各自SNP其它狀態(tài)的條件概率,因此潛變量X在第二個類別上綜合反映的是rs11568817第三個狀態(tài)和rs130058第一個狀態(tài)的信息。rs11568817第三個狀態(tài)為TT,rs130058第一個狀態(tài)為AA,都為純合子,所以,在潛在類別為2的抑郁癥患者的SNPs中,以含rs11568817和rs130058的純合子為主,此類患者占總患者人數(shù)的78%。
實例分析中根據(jù)抑郁癥患者的7個SNPs,將患者分為兩個潛在類別。這兩個類別分別代表不同特征的抑郁癥患者,據(jù)此可以探索SNPs的整體效應,比如這些患者可能有不同藥物的反應,不同的行為特征等。實現(xiàn)在SNPs變量水平上的降維和個體水平上的聚類以后,根據(jù)不同患者類別的不同特征,可以針對性的采取不同的個性化治療方案。
除了對被研究的患者進行分類以外,我們還能利用得到的貝葉斯網(wǎng)潛變量模型對新加入的患者進行歸類。歸類的方法是考慮新加入患者的每個SNPs狀態(tài),將這些狀態(tài)賦值以后,代入到貝葉斯網(wǎng)潛變量模型中,模型會根據(jù)這些狀態(tài)的具體情況,獲得概率預測值,將新加入患者進行歸類,為基因治療提供重要依據(jù)。
單核苷酸基因多態(tài)性與單體型的研究在探討復雜性疾病的遺傳機理,遺傳風險與藥物反應不同中有著重要的意義,已經(jīng)成為了許多領域研究的焦點。基于貝葉斯網(wǎng)絡的潛變量模型為多基因,多位點SNPs數(shù)據(jù)的分析提供了一種新的思路。貝葉斯網(wǎng)潛變量分析可以有效的體現(xiàn)高維度SNPs的整體效應,充分發(fā)揮貝葉斯網(wǎng)絡結構分析的特征來分析SNPs與疾病之間復雜的結構關系,是分析高維基因數(shù)據(jù)的一種有效方法。
此外,貝葉斯網(wǎng)潛變量模型研究結果可以用多種方式陳列,從不同側面反映數(shù)據(jù)的內在結構,結果解釋簡單,并且通過類概率分布情況,我們可以一目了然的看出各類別概率。
1.李婧,潘玉春,李亦學,等.人類基因組單核苷酸多態(tài)性和單體型的分析及應用.遺傳學報,2005,32(8):879-889.
2.Goodman L A.Exploratory latent structure analysis using both identifiable and unidentifiable models.Biometrika,1974(61):215-231.
3.張巖波.潛變量分析.北京:高等教育出版社,2009.
4.張連文,郭海鵬.貝葉斯網(wǎng)引論.北京:科學出版社,2006,204-220.
5.Geiger D,Heckerman D,et al.Asymptotic model selection for directed networks with hidden variables.In Proceedings of the twelfth annual conference on uncertainty in artificial intelligence(UAI-96).San Francisco:Morgan Kaufmann Publishers,1996:283-290.
6.Cheesman P,Stutz J.Bayesion classification:Theory and results.In PSUM Fayyad G piatetsky Shapiro,R Uthrusamy,editors.Advances in Knowledge Discovery and Data Mining.Menlo Park:The AAAI Press,1995:153-180.
7.裴磊磊,張巖波,張克讓,等.抑郁癥單核苷酸多態(tài)性(SNPs)分布特征的潛在類別分析.中國衛(wèi)生統(tǒng)計,2010,27(1):7-10.