亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

關(guān)于基因數(shù)據(jù)的統(tǒng)計(jì)學(xué)研究

2018-05-14 16:20:40張燕

現(xiàn)代職業(yè)教育·高職高專 2018年6期

張燕

[摘要] 貝葉斯網(wǎng)絡(luò)有著很好的理論知識(shí)和清楚的知識(shí)表達(dá)形式，是統(tǒng)計(jì)學(xué)中不確定性研究的一種重要方法，在數(shù)據(jù)挖掘中有著重要作用。將其引入基因數(shù)據(jù)的分析中，能較好地構(gòu)建網(wǎng)絡(luò)模型，分析各基因間的相互作用與影響，可廣泛應(yīng)用于生物學(xué)和腫瘤學(xué)的研究，觀察疾病所引起的基因表達(dá)變化，并找出重要作用的變量基因。

[關(guān) 鍵詞] 基因數(shù)據(jù)；統(tǒng)計(jì)學(xué)；結(jié)構(gòu)學(xué)習(xí)

[中圖分類號(hào)] G648 [文獻(xiàn)標(biāo)志碼] A [文章編號(hào)] 2096-0603（2018）16-0137-01

隨著人類基因組序列草圖的完成，有關(guān)功能基因組的研究在生命科學(xué)領(lǐng)域中占據(jù)越來(lái)越重要的地位。闡明基因選擇性表達(dá)所依賴的調(diào)控信息及其相互作用的分子機(jī)制，成為揭示生命現(xiàn)象本質(zhì)的核心問(wèn)題，是功能組研究的重要內(nèi)容。隨著基因組學(xué)研究的深入展開(kāi)，基因的表達(dá)調(diào)控研究已經(jīng)從單個(gè)基因、線性的調(diào)控拓展到立體層面上多基因、基因簇乃至整個(gè)基因組的調(diào)控網(wǎng)絡(luò)。如何有效地利用已有的基因組學(xué)數(shù)據(jù)，充分整合多學(xué)科的思路，建立新的試驗(yàn)系統(tǒng)和技術(shù)體系，闡明基因組表達(dá)的調(diào)控網(wǎng)絡(luò)，分析基因之間的相互制約關(guān)系，已經(jīng)成為功能基因組學(xué)領(lǐng)域內(nèi)國(guó)際競(jìng)爭(zhēng)的焦點(diǎn)。

貝葉斯網(wǎng)絡(luò)方法將概率理論知識(shí)與圖論結(jié)合，其有圖形化表示、因果關(guān)系清晰以及不確定性推理等優(yōu)點(diǎn)，本文將貝葉斯網(wǎng)絡(luò)引入基因數(shù)據(jù)中并進(jìn)行分析，從概率角度描述了各基因間的依賴關(guān)系，從而闡明了整個(gè)基因組之間的調(diào)控網(wǎng)絡(luò)。

一、對(duì)基因數(shù)據(jù)的預(yù)處理

貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)是一個(gè)NP-Hard問(wèn)題，而構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)最常見(jiàn)的方法是在結(jié)點(diǎn)變量的順序已經(jīng)確定的情況下，采用局部搜索算法。在基因表達(dá)譜數(shù)據(jù)中，由于沒(méi)有任何先驗(yàn)知識(shí)，本實(shí)驗(yàn)中對(duì)網(wǎng)絡(luò)的構(gòu)建使用的是K2算法，而K2算法需要預(yù)先知道網(wǎng)絡(luò)變量的先后順序，本文將重點(diǎn)介紹決策樹(shù)算法，將ID3算法用于確定各結(jié)點(diǎn)的順序。

二、結(jié)構(gòu)學(xué)習(xí)

在建模之前需要完成的最后一步工作是需要把樣本數(shù)據(jù)分成訓(xùn)練集和檢驗(yàn)集，分別用于訓(xùn)練檢驗(yàn)和模型檢驗(yàn)。數(shù)據(jù)經(jīng)過(guò)離散化之后，除去預(yù)留幾個(gè)樣本的各基因表達(dá)情況用作模型驗(yàn)證，其余的樣本作為訓(xùn)練集導(dǎo)入實(shí)驗(yàn)軟件matlab中。

在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的構(gòu)建過(guò)程中，最大父結(jié)點(diǎn)個(gè)數(shù)的設(shè)置問(wèn)題直接影響了所得網(wǎng)絡(luò)的規(guī)模與結(jié)構(gòu)。隨著父結(jié)點(diǎn)個(gè)數(shù)越多，所得的網(wǎng)絡(luò)結(jié)構(gòu)就越復(fù)雜，雖然能更多地揭示各結(jié)點(diǎn)之間的相互關(guān)系，但是計(jì)算復(fù)雜性越高，學(xué)習(xí)時(shí)間也將大大增加，同時(shí)基因之間的相關(guān)性也被擴(kuò)大，可能會(huì)有不必要的有向弧也出現(xiàn)在網(wǎng)絡(luò)中的情況，從而可能會(huì)引入不必要的關(guān)聯(lián)。在實(shí)驗(yàn)中我們逐漸增加父結(jié)點(diǎn)的個(gè)數(shù)，會(huì)出現(xiàn)由于網(wǎng)絡(luò)過(guò)于復(fù)雜而程序運(yùn)行時(shí)內(nèi)存不足的情況，此時(shí)程序無(wú)法運(yùn)行下去。

由于貝葉斯網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)常常存在貝葉斯等價(jià)類，而在沒(méi)有先驗(yàn)知識(shí)的情況下，貝葉斯等價(jià)類所代表的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可以看成是表示了相同的聯(lián)合分布，所以本文還可以通過(guò)學(xué)習(xí)得到與上圖互為等價(jià)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)，繼而得到相應(yīng)的連接矩陣，通過(guò)比較分析得到部分變量之間的有向弧的方向可以反轉(zhuǎn)。因此在沒(méi)有任何先驗(yàn)知識(shí)的情況下，可以根據(jù)K2得到的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步進(jìn)行參數(shù)學(xué)習(xí)；如果通過(guò)其他方法獲得了一定的先驗(yàn)知識(shí)，比如實(shí)驗(yàn)，則可以根據(jù)等價(jià)的拓?fù)浣Y(jié)構(gòu)，改變相應(yīng)的變量間的有向弧的方向，得到最新的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。因此我們可以找到等價(jià)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。本文利用貝葉斯網(wǎng)絡(luò)的等價(jià)類知識(shí)，并利用BNT，可以構(gòu)造出Cpdag鄰接矩陣，并從矩陣中找到可以反轉(zhuǎn)的部分有向弧。Cpdag鄰接矩陣中如果（i，j）=1，（j，i）=1，則變量i與變量j的連接弧是可反向的，從而可以得到所有可以反向的弧。

三、參數(shù)學(xué)習(xí)

1.完整數(shù)據(jù)的參數(shù)學(xué)習(xí)。本研究是通過(guò)研究網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中各結(jié)點(diǎn)的父結(jié)點(diǎn)、子結(jié)點(diǎn)的數(shù)目以及各結(jié)點(diǎn)間的有向弧尋找在網(wǎng)絡(luò)中起到關(guān)鍵性作用的變量結(jié)點(diǎn)，這對(duì)網(wǎng)絡(luò)的認(rèn)識(shí)理解有關(guān)鍵性的幫助作用。

2.已知網(wǎng)絡(luò)結(jié)構(gòu)時(shí)缺失數(shù)據(jù)下的參數(shù)學(xué)習(xí)。對(duì)于含有缺失值的情況，由于此時(shí)不能用MLE直接估計(jì)，所以采用EM算法進(jìn)行MLE參數(shù)估計(jì)。由于EM算法本身需要設(shè)置迭代的次數(shù)以及迭代的閾值，也就是兩次迭代的對(duì)數(shù)似然比log-likelihood的相差值。分別隨機(jī)設(shè)置幾個(gè)不同的缺失值，并設(shè)置含缺失值的迭代次數(shù)，即可最終所得的log-likelihood值。EM算法對(duì)含有缺失值的數(shù)據(jù)有較好的處理能力，只是當(dāng)缺失值比較多時(shí)，需要迭代的次數(shù)較多，但依舊不影響其收斂性。

通過(guò)對(duì)完整數(shù)據(jù)集和不完整數(shù)據(jù)集求參數(shù)估計(jì)，完整數(shù)據(jù)集與不完整數(shù)據(jù)集都能判斷出父結(jié)點(diǎn)對(duì)子結(jié)點(diǎn)的調(diào)控作用，同時(shí)兩種方法的學(xué)習(xí)結(jié)果是相同的：獨(dú)立地判斷了父結(jié)點(diǎn)對(duì)子結(jié)點(diǎn)的促進(jìn)或抑制作用，且對(duì)子結(jié)點(diǎn)起促進(jìn)作用的結(jié)點(diǎn)多，起抑制作用的結(jié)點(diǎn)少。

3.未知網(wǎng)絡(luò)結(jié)構(gòu)時(shí)缺失數(shù)據(jù)下的參數(shù)學(xué)習(xí)。同結(jié)構(gòu)已知，含有缺失值的數(shù)據(jù)的情況類似，我們將完整的基因數(shù)據(jù)隨機(jī)設(shè)置一定的缺失值，并使用SEM算法同時(shí)進(jìn)行網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和參數(shù)結(jié)構(gòu)的學(xué)習(xí)。

四、模型驗(yàn)證

1.考慮在完整數(shù)據(jù)集時(shí)。

2.考慮在已知網(wǎng)絡(luò)結(jié)構(gòu)、存在缺失數(shù)據(jù)時(shí)。

3.考慮在網(wǎng)絡(luò)結(jié)構(gòu)未知、存在缺失數(shù)據(jù)時(shí)。

在貝葉斯網(wǎng)絡(luò)模型的構(gòu)建中，我們已經(jīng)留出幾個(gè)樣本進(jìn)行模型驗(yàn)證，考慮關(guān)鍵結(jié)點(diǎn)的預(yù)測(cè)表達(dá)情況。

本文完整地研究了在完整數(shù)據(jù)集和含缺失數(shù)據(jù)集的情況下的貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)的過(guò)程，最終得到了基因間依賴關(guān)系的網(wǎng)絡(luò)，并表達(dá)了基因間的調(diào)控作用。最后通過(guò)模型驗(yàn)證證明了整個(gè)學(xué)習(xí)過(guò)程的合理性。

參考文獻(xiàn)：

[1]黃解軍.貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)及其在數(shù)據(jù)挖掘中的應(yīng)用研究[D].武漢大學(xué)，2005：1-80.

[2]鄧勇施，文康，陳良州.基于模型診斷的貝葉斯解釋及應(yīng)用[J].上海交通大學(xué)學(xué)報(bào)，2003，37（1）：5-8.