張燕
[摘 要] 貝葉斯網(wǎng)絡(luò)有著很好的理論知識(shí)和清楚的知識(shí)表達(dá)形式,是統(tǒng)計(jì)學(xué)中不確定性研究的一種重要方法,在數(shù)據(jù)挖掘中有著重要作用。將其引入基因數(shù)據(jù)的分析中,能較好地構(gòu)建網(wǎng)絡(luò)模型,分析各基因間的相互作用與影響,可廣泛應(yīng)用于生物學(xué)和腫瘤學(xué)的研究,觀察疾病所引起的基因表達(dá)變化,并找出重要作用的變量基因。
[關(guān) 鍵 詞] 基因數(shù)據(jù);統(tǒng)計(jì)學(xué);結(jié)構(gòu)學(xué)習(xí)
[中圖分類號(hào)] G648 [文獻(xiàn)標(biāo)志碼] A [文章編號(hào)] 2096-0603(2018)16-0137-01
隨著人類基因組序列草圖的完成,有關(guān)功能基因組的研究在生命科學(xué)領(lǐng)域中占據(jù)越來(lái)越重要的地位。闡明基因選擇性表達(dá)所依賴的調(diào)控信息及其相互作用的分子機(jī)制,成為揭示生命現(xiàn)象本質(zhì)的核心問(wèn)題,是功能組研究的重要內(nèi)容。隨著基因組學(xué)研究的深入展開(kāi),基因的表達(dá)調(diào)控研究已經(jīng)從單個(gè)基因、線性的調(diào)控拓展到立體層面上多基因、基因簇乃至整個(gè)基因組的調(diào)控網(wǎng)絡(luò)。如何有效地利用已有的基因組學(xué)數(shù)據(jù),充分整合多學(xué)科的思路,建立新的試驗(yàn)系統(tǒng)和技術(shù)體系,闡明基因組表達(dá)的調(diào)控網(wǎng)絡(luò),分析基因之間的相互制約關(guān)系,已經(jīng)成為功能基因組學(xué)領(lǐng)域內(nèi)國(guó)際競(jìng)爭(zhēng)的焦點(diǎn)。
貝葉斯網(wǎng)絡(luò)方法將概率理論知識(shí)與圖論結(jié)合,其有圖形化表示、因果關(guān)系清晰以及不確定性推理等優(yōu)點(diǎn),本文將貝葉斯網(wǎng)絡(luò)引入基因數(shù)據(jù)中并進(jìn)行分析,從概率角度描述了各基因間的依賴關(guān)系,從而闡明了整個(gè)基因組之間的調(diào)控網(wǎng)絡(luò)。
一、對(duì)基因數(shù)據(jù)的預(yù)處理
貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)是一個(gè)NP-Hard問(wèn)題,而構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)最常見(jiàn)的方法是在結(jié)點(diǎn)變量的順序已經(jīng)確定的情況下,采用局部搜索算法。在基因表達(dá)譜數(shù)據(jù)中,由于沒(méi)有任何先驗(yàn)知識(shí),本實(shí)驗(yàn)中對(duì)網(wǎng)絡(luò)的構(gòu)建使用的是K2算法,而K2算法需要預(yù)先知道網(wǎng)絡(luò)變量的先后順序,本文將重點(diǎn)介紹決策樹(shù)算法,將ID3算法用于確定各結(jié)點(diǎn)的順序。
二、結(jié)構(gòu)學(xué)習(xí)
在建模之前需要完成的最后一步工作是需要把樣本數(shù)據(jù)分成訓(xùn)練集和檢驗(yàn)集,分別用于訓(xùn)練檢驗(yàn)和模型檢驗(yàn)。數(shù)據(jù)經(jīng)過(guò)離散化之后,除去預(yù)留幾個(gè)樣本的各基因表達(dá)情況用作模型驗(yàn)證,其余的樣本作為訓(xùn)練集導(dǎo)入實(shí)驗(yàn)軟件matlab中。
在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的構(gòu)建過(guò)程中,最大父結(jié)點(diǎn)個(gè)數(shù)的設(shè)置問(wèn)題直接影響了所得網(wǎng)絡(luò)的規(guī)模與結(jié)構(gòu)。隨著父結(jié)點(diǎn)個(gè)數(shù)越多,所得的網(wǎng)絡(luò)結(jié)構(gòu)就越復(fù)雜,雖然能更多地揭示各結(jié)點(diǎn)之間的相互關(guān)系,但是計(jì)算復(fù)雜性越高,學(xué)習(xí)時(shí)間也將大大增加,同時(shí)基因之間的相關(guān)性也被擴(kuò)大,可能會(huì)有不必要的有向弧也出現(xiàn)在網(wǎng)絡(luò)中的情況,從而可能會(huì)引入不必要的關(guān)聯(lián)。在實(shí)驗(yàn)中我們逐漸增加父結(jié)點(diǎn)的個(gè)數(shù),會(huì)出現(xiàn)由于網(wǎng)絡(luò)過(guò)于復(fù)雜而程序運(yùn)行時(shí)內(nèi)存不足的情況,此時(shí)程序無(wú)法運(yùn)行下去。
由于貝葉斯網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)常常存在貝葉斯等價(jià)類,而在沒(méi)有先驗(yàn)知識(shí)的情況下,貝葉斯等價(jià)類所代表的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可以看成是表示了相同的聯(lián)合分布,所以本文還可以通過(guò)學(xué)習(xí)得到與上圖互為等價(jià)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),繼而得到相應(yīng)的連接矩陣,通過(guò)比較分析得到部分變量之間的有向弧的方向可以反轉(zhuǎn)。因此在沒(méi)有任何先驗(yàn)知識(shí)的情況下,可以根據(jù)K2得到的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步進(jìn)行參數(shù)學(xué)習(xí);如果通過(guò)其他方法獲得了一定的先驗(yàn)知識(shí),比如實(shí)驗(yàn),則可以根據(jù)等價(jià)的拓?fù)浣Y(jié)構(gòu),改變相應(yīng)的變量間的有向弧的方向,得到最新的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。因此我們可以找到等價(jià)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。本文利用貝葉斯網(wǎng)絡(luò)的等價(jià)類知識(shí),并利用BNT,可以構(gòu)造出Cpdag鄰接矩陣,并從矩陣中找到可以反轉(zhuǎn)的部分有向弧。Cpdag鄰接矩陣中如果(i,j)=1,(j,i)=1,則變量i與變量j的連接弧是可反向的,從而可以得到所有可以反向的弧。
三、參數(shù)學(xué)習(xí)
1.完整數(shù)據(jù)的參數(shù)學(xué)習(xí)。本研究是通過(guò)研究網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中各結(jié)點(diǎn)的父結(jié)點(diǎn)、子結(jié)點(diǎn)的數(shù)目以及各結(jié)點(diǎn)間的有向弧尋找在網(wǎng)絡(luò)中起到關(guān)鍵性作用的變量結(jié)點(diǎn),這對(duì)網(wǎng)絡(luò)的認(rèn)識(shí)理解有關(guān)鍵性的幫助作用。
2.已知網(wǎng)絡(luò)結(jié)構(gòu)時(shí)缺失數(shù)據(jù)下的參數(shù)學(xué)習(xí)。對(duì)于含有缺失值的情況,由于此時(shí)不能用MLE直接估計(jì),所以采用EM算法進(jìn)行MLE參數(shù)估計(jì)。由于EM算法本身需要設(shè)置迭代的次數(shù)以及迭代的閾值,也就是兩次迭代的對(duì)數(shù)似然比log-likelihood的相差值。分別隨機(jī)設(shè)置幾個(gè)不同的缺失值,并設(shè)置含缺失值的迭代次數(shù),即可最終所得的log-likelihood值。EM算法對(duì)含有缺失值的數(shù)據(jù)有較好的處理能力,只是當(dāng)缺失值比較多時(shí),需要迭代的次數(shù)較多,但依舊不影響其收斂性。
通過(guò)對(duì)完整數(shù)據(jù)集和不完整數(shù)據(jù)集求參數(shù)估計(jì),完整數(shù)據(jù)集與不完整數(shù)據(jù)集都能判斷出父結(jié)點(diǎn)對(duì)子結(jié)點(diǎn)的調(diào)控作用,同時(shí)兩種方法的學(xué)習(xí)結(jié)果是相同的:獨(dú)立地判斷了父結(jié)點(diǎn)對(duì)子結(jié)點(diǎn)的促進(jìn)或抑制作用,且對(duì)子結(jié)點(diǎn)起促進(jìn)作用的結(jié)點(diǎn)多,起抑制作用的結(jié)點(diǎn)少。
3.未知網(wǎng)絡(luò)結(jié)構(gòu)時(shí)缺失數(shù)據(jù)下的參數(shù)學(xué)習(xí)。同結(jié)構(gòu)已知,含有缺失值的數(shù)據(jù)的情況類似,我們將完整的基因數(shù)據(jù)隨機(jī)設(shè)置一定的缺失值,并使用SEM算法同時(shí)進(jìn)行網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和參數(shù)結(jié)構(gòu)的學(xué)習(xí)。
四、模型驗(yàn)證
1.考慮在完整數(shù)據(jù)集時(shí)。
2.考慮在已知網(wǎng)絡(luò)結(jié)構(gòu)、存在缺失數(shù)據(jù)時(shí)。
3.考慮在網(wǎng)絡(luò)結(jié)構(gòu)未知、存在缺失數(shù)據(jù)時(shí)。
在貝葉斯網(wǎng)絡(luò)模型的構(gòu)建中,我們已經(jīng)留出幾個(gè)樣本進(jìn)行模型驗(yàn)證,考慮關(guān)鍵結(jié)點(diǎn)的預(yù)測(cè)表達(dá)情況。
本文完整地研究了在完整數(shù)據(jù)集和含缺失數(shù)據(jù)集的情況下的貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)的過(guò)程,最終得到了基因間依賴關(guān)系的網(wǎng)絡(luò),并表達(dá)了基因間的調(diào)控作用。最后通過(guò)模型驗(yàn)證證明了整個(gè)學(xué)習(xí)過(guò)程的合理性。
參考文獻(xiàn):
[1]黃解軍.貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)及其在數(shù)據(jù)挖掘中的應(yīng)用研究[D].武漢大學(xué),2005:1-80.
[2]鄧勇施,文康,陳良州.基于模型診斷的貝葉斯解釋及應(yīng)用[J].上海交通大學(xué)學(xué)報(bào),2003,37(1):5-8.