亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于 XGBoost 的基因靜態(tài)數(shù)據(jù)調(diào)控網(wǎng)絡(luò)推斷方法

        2020-06-03 02:30:42車(chē)丹丹姜青山
        集成技術(shù) 2020年2期
        關(guān)鍵詞:特征選擇貝葉斯重構(gòu)

        車(chē)丹丹 郭 順 姜青山

        1(中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院 深圳 518055)

        2(中國(guó)科學(xué)院大學(xué)深圳先進(jìn)技術(shù)學(xué)院 深圳 518055)

        1 引 言

        解析基因調(diào)控網(wǎng)絡(luò)(Gene Regulatory Networks,GRNs)的結(jié)構(gòu)對(duì)生物信息學(xué)至關(guān)重要,因?yàn)樗鼮樯镉袡C(jī)體的發(fā)展機(jī)理及功能等提供了一個(gè)新的研究視角。隨著微陣列技術(shù)的發(fā)展,全基因組范圍上的基因表達(dá)都可被觀測(cè)到,這為從基因表達(dá)數(shù)據(jù)上推導(dǎo)調(diào)控網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)提供了契機(jī)?;蛘{(diào)控建模是根據(jù)基因表達(dá)數(shù)據(jù)所蘊(yùn)含的信息而建立的反映基因與基因之間調(diào)控關(guān)系的網(wǎng)絡(luò),而重構(gòu)基因調(diào)控網(wǎng)絡(luò)是后基因組時(shí)代非常重要的研究領(lǐng)域[1]。基因調(diào)控網(wǎng)絡(luò)對(duì)所有生物種類(lèi)和系統(tǒng)的作用是顯而易見(jiàn)的,因?yàn)槠湓诰S持生物有機(jī)體的功能方面發(fā)揮著重要作用[2]。因此,重構(gòu)基因調(diào)控網(wǎng)絡(luò)有著廣泛的應(yīng)用前景,它為藥物設(shè)計(jì)和醫(yī)療相關(guān)領(lǐng)域等提供了重要信息。

        基因是遺傳信息的基本載體。雖然一個(gè)有機(jī)體中的所有基因都是相同的,但它們可以根據(jù)基因間的相互作用及網(wǎng)絡(luò)在不同組織中準(zhǔn)確表達(dá)并執(zhí)行特定的功能[3]。在研究和認(rèn)識(shí)基因之間及相應(yīng)網(wǎng)絡(luò)的相互作用工作中,重構(gòu)的基因調(diào)控網(wǎng)絡(luò)可作為一種工作模型,為研究者在實(shí)驗(yàn)設(shè)計(jì)上提供輔助和形成新的假說(shuō)。例如,Hecker 等[4]將重構(gòu)基因調(diào)控網(wǎng)絡(luò)應(yīng)用于卵巢癌,產(chǎn)生了一系列可檢驗(yàn)的假說(shuō),并發(fā)現(xiàn)了一個(gè)潛在的藥物靶點(diǎn)。Camacho 等[5]提出機(jī)器學(xué)習(xí)和網(wǎng)絡(luò)生物學(xué)相結(jié)合的交叉學(xué)科有望在疾病生物學(xué)、藥物發(fā)現(xiàn)、微生物研究和合成生物學(xué)等領(lǐng)域取得重大突破。

        Boosting 方法是一種強(qiáng)大且常用的統(tǒng)計(jì)學(xué)習(xí)方法,主要貢獻(xiàn)在于可以將弱學(xué)習(xí)算法提升為強(qiáng)學(xué)習(xí)算法,具有許多傳統(tǒng)方法所沒(méi)有的優(yōu)點(diǎn),故其在基因表達(dá)數(shù)據(jù)上的應(yīng)用十分廣泛。在分類(lèi)學(xué)習(xí)中,Boosting 方法通過(guò)反復(fù)修改訓(xùn)練數(shù)據(jù)的權(quán)值分布,構(gòu)建一系列基本分類(lèi)器,并將這些分類(lèi)器進(jìn)行線性組合,構(gòu)成一個(gè)強(qiáng)分類(lèi)器。對(duì)于回歸問(wèn)題,Boosting 方法通過(guò)多次對(duì)訓(xùn)練樣本做重抽樣建模,學(xué)習(xí)多個(gè)回歸器,并將這些回歸器進(jìn)行組合,可較大幅度提高回歸模型的性能[6]。

        本文針對(duì)靜態(tài)基因表達(dá)數(shù)據(jù),致力于研究基因調(diào)控網(wǎng)絡(luò)重構(gòu)方法,目標(biāo)在于構(gòu)建具有更好可靠性及準(zhǔn)確率的基因調(diào)控網(wǎng)絡(luò)。具體地,針對(duì)真實(shí)的靜態(tài)基因表達(dá)數(shù)據(jù),建立特征選擇集成框架,選擇 Boosting 模型計(jì)算基因調(diào)控關(guān)系的初始權(quán)重,并在初始排序基礎(chǔ)上增加歸一化和統(tǒng)計(jì)方法以提高模型準(zhǔn)確率。

        2 基因調(diào)控網(wǎng)絡(luò)推斷方法研究現(xiàn)狀

        調(diào)控網(wǎng)絡(luò)已廣泛應(yīng)用于各種生物系統(tǒng)的結(jié)構(gòu)建模,且已開(kāi)發(fā)出一系列方法來(lái)構(gòu)建可靠的生物網(wǎng)絡(luò)[7]。Lee 和 Tzou[8]通過(guò)分析從基因表達(dá)數(shù)據(jù)上推導(dǎo)調(diào)控網(wǎng)絡(luò)的不同計(jì)算方法,表明現(xiàn)有方法均具有不同程度的準(zhǔn)確性和復(fù)雜性,雖然實(shí)用性已有所提高,但準(zhǔn)確率仍待提高。由于是從基因表達(dá)數(shù)據(jù)來(lái)推導(dǎo)調(diào)控網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),因此這些方法被稱(chēng)為基因調(diào)控網(wǎng)絡(luò)的逆向工程(Reverse-Engineering),也可稱(chēng)為重構(gòu)基因調(diào)控網(wǎng)絡(luò)(Reconstructing GRNs)。

        按照時(shí)間順序,國(guó)內(nèi)外學(xué)者從基因表達(dá)數(shù)據(jù)上推導(dǎo)調(diào)控網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的問(wèn)題研究工作主要有 4 個(gè)階段(見(jiàn)圖 1):基于統(tǒng)計(jì)分析的方法[9]、基于信息論的方法[10-12]、基于概率圖模型的方法[13-17]和基于機(jī)器學(xué)習(xí)的方法[18-26]。

        圖 1 現(xiàn)有研究方法發(fā)展歷程Fig. 1 Development of existing research methods

        2.1 基于統(tǒng)計(jì)分析的方法

        1989 年,一種基于統(tǒng)計(jì)分析的重構(gòu)基因調(diào)控網(wǎng)絡(luò)方法被提出[9],該方法使用相關(guān)系數(shù)來(lái)定義基因之間的相似性度量并以此推導(dǎo)基因網(wǎng)絡(luò)。這種方法的主要缺點(diǎn)是相關(guān)系數(shù)很難識(shí)別基因之間更加復(fù)雜的依賴(lài)關(guān)系。

        2.2 基于信息論的方法

        為解決基于統(tǒng)計(jì)分析方法的局限性,研究者提出了一些基于信息論的方法——使用基因之間的互信息(Mutual Information)作為度量并以此推導(dǎo)調(diào)控網(wǎng)絡(luò)[10-12]。由于在相關(guān)網(wǎng)絡(luò)中,一般存在間接調(diào)控關(guān)系,故需采用一些方法來(lái)消除間接調(diào)控關(guān)系的影響。例如,CMI2NI[10]通過(guò)計(jì)算包含和排除兩個(gè)基因之間邊緣的假設(shè)分布之間的 Kullback-Leibler 差異,來(lái)量化給定兩個(gè)基因之間的相互信息;BC3NET(Bagging C3NET)[11]使用基于對(duì)互信息值連同最大步長(zhǎng)(Maximization Step)的估計(jì)來(lái)進(jìn)一步提高所重構(gòu)基因調(diào)控網(wǎng)絡(luò)的識(shí)別率;ANOVerence[12]引入元信息(Meta-Information)來(lái)推導(dǎo)調(diào)控網(wǎng)絡(luò)并使用基于相關(guān)系數(shù)的評(píng)分來(lái)估計(jì)基因之間的依賴(lài)關(guān)系。以上僅基于信息論的方法均存在一個(gè)缺點(diǎn)——識(shí)別率有限,對(duì)于大量冗余和不相關(guān)特征無(wú)法做有效識(shí)別。

        2.3 基于概率圖模型的方法

        自 2000 年起,許多基于概率圖模型的方法(如貝葉斯網(wǎng)絡(luò)方法)被廣泛應(yīng)用于重構(gòu)基因調(diào)控網(wǎng)絡(luò)。Friedman 等[13]首次提出了基于貝葉斯網(wǎng)絡(luò)來(lái)表示統(tǒng)計(jì)依賴(lài)關(guān)系的框架——利用貝葉斯網(wǎng)絡(luò)學(xué)習(xí)工具從微陣列數(shù)據(jù)中恢復(fù)基因相互作用;Liu 等[14]提出了局部貝葉斯網(wǎng)絡(luò)方法,利用網(wǎng)絡(luò)分解策略和偽正邊緣消除方法從基因表達(dá)數(shù)據(jù)中推斷 GRNs。DBNCS(Dynamic Bayesian Network Comprehensive Score)算法將綜合評(píng)分與動(dòng)態(tài)貝葉斯模型相結(jié)合,首次構(gòu)造出具有多重時(shí)延的 GRNs[15];Xing 等[16]提出了一種基于互信息和斷點(diǎn)檢測(cè)的候選自動(dòng)選擇算法(CAS)來(lái)限制搜索空間,以加速貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程,但效率仍低于同期部分其他方法。De Campos 等[17]利用結(jié)構(gòu)約束的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)算法來(lái)對(duì)基因表達(dá)數(shù)據(jù)構(gòu)建 GRNs。

        然而,靜態(tài)貝葉斯網(wǎng)絡(luò)方法只能構(gòu)建無(wú)環(huán)網(wǎng)絡(luò),并需將數(shù)據(jù)進(jìn)行離散化處理從而造成信息丟失,而動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)方法則通常局限于在時(shí)間序列數(shù)據(jù)上的應(yīng)用。另外,無(wú)論是從理論上還是從計(jì)算效率上來(lái)看,貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)都是一項(xiàng)很大的挑戰(zhàn),尤其是當(dāng)該類(lèi)方法應(yīng)用于維度特別高的基因表達(dá)數(shù)據(jù)的時(shí)候。

        2.4 基于機(jī)器學(xué)習(xí)的方法

        自 2009 年起,出現(xiàn)了許多對(duì)重構(gòu)基因調(diào)控網(wǎng)絡(luò)方法比較評(píng)估方面的研究。其中,DREAM(Dialogue for Reverse Engineering Assessments and Methods)挑戰(zhàn)[18]為相關(guān)領(lǐng)域的研究者們提供了基準(zhǔn)數(shù)據(jù)集來(lái)驗(yàn)證評(píng)估他們的工作。其中,基于特征選擇框架的集成方法在 DREAM 挑戰(zhàn)基準(zhǔn)數(shù)據(jù)集上有較為突出的識(shí)別率。例如,GENIE3(GEne Network Inference with Ensemble of Trees)[19]在學(xué)習(xí)過(guò)程中使用隨機(jī)森林(Random Forests)的特征選擇方法,但該方法在理論上不具有較好的可理解性。為此,TIGRESS[20]在學(xué)習(xí)過(guò)程中使用最小角回歸方法(Least Angle Regression)的特征選擇方法并結(jié)合穩(wěn)定性選擇(Stability Selection)來(lái)解決重構(gòu)基因調(diào)控網(wǎng)絡(luò)問(wèn)題。NIMEFI(Network Inference Using Multiple Ensemble Feature Importance Algorithms)[21]考慮了不同基于特征選擇框架的集成方法的互補(bǔ)性,將 GENIE3、E-SVR(Ensemble Support Vector Regression)以及 E-EL(Ensemble Elasitc Net)等方法置于統(tǒng)一的框架下進(jìn)行學(xué)習(xí),并以此解決重構(gòu)基因調(diào)控網(wǎng)絡(luò)問(wèn)題。然而,NIMEFI 最大的問(wèn)題在于其所需的參數(shù)遠(yuǎn)大于其他方法,這給模型的參數(shù)選擇帶來(lái)很大的挑戰(zhàn),并且極大地增加了該模型的不確定性。Guo 等[22]利用基于偏最小二乘的線性方法對(duì) GRNs 進(jìn)行建模,但在真實(shí)實(shí)驗(yàn)的數(shù)據(jù)集上該線性模型仍存在明顯局限性,模型準(zhǔn)確率低;Chi 和 Liu[23]利用基于模糊邏輯和神經(jīng)網(wǎng)絡(luò)的認(rèn)知模糊影響圖(FCMs)對(duì) GRNs 進(jìn)行建模,但預(yù)測(cè)結(jié)果準(zhǔn)確率不高;Deng 等[24]利用微分方程進(jìn)行網(wǎng)絡(luò)推斷,并引入了一個(gè)具有自適應(yīng)數(shù)值微分的線性微分方程模型,該模型可擴(kuò)展到非常大的調(diào)節(jié)網(wǎng)絡(luò);Petralia 等[25]提出了一個(gè)靈活統(tǒng)一的集成框架,允許將來(lái)自異類(lèi)數(shù)據(jù)的信息共同考慮用于 GRNs 推斷;Zheng 等[26]提出了一種結(jié)合互信息的集成框架,首先對(duì)候選調(diào)控基因進(jìn)行預(yù)加權(quán),然后利用 MARS(Multivariate Adaptive Regression Splines)檢測(cè)非線性調(diào)控鏈,但該方法存在模型過(guò)擬合問(wèn)題,無(wú)法準(zhǔn)確提取基因調(diào)控關(guān)系。

        由于基因表達(dá)數(shù)據(jù)通常含有大量冗余和不相關(guān)特征,而現(xiàn)有基于機(jī)器學(xué)習(xí)的模型或結(jié)構(gòu)復(fù)雜參數(shù)過(guò)多導(dǎo)致過(guò)擬合嚴(yán)重,模型不穩(wěn)定;或使用線性模型等簡(jiǎn)單模型進(jìn)行擬合,效果差、準(zhǔn)確率低。本文提出一種基于 Boosting 集成模型的方法[6](XGBoost),應(yīng)用隨機(jī)化和正則化來(lái)解決模型過(guò)擬合問(wèn)題,同時(shí)針對(duì)不同子問(wèn)題建模所得權(quán)重不一致問(wèn)題,對(duì)初始權(quán)重增加歸一化和統(tǒng)計(jì)學(xué)方法處理。

        3 基于 XGBoost 的基因靜態(tài)數(shù)據(jù)調(diào)控網(wǎng)絡(luò)推斷方法

        (2)學(xué)習(xí)過(guò)程:為了識(shí)別所有潛在的調(diào)控關(guān)系,學(xué)習(xí)過(guò)程將每個(gè)子集定義為統(tǒng)計(jì)上的特征選擇問(wèn)題。對(duì)于小樣本的數(shù)據(jù),直接通過(guò)特征選擇方法來(lái)求解效果并不理想,本文選擇 XGBoost 模型,通過(guò)改變訓(xùn)練樣本的權(quán)重,同時(shí)學(xué)習(xí)多個(gè)基模型,并將多個(gè)基模型線性組合以提高性能。

        (3)融合過(guò)程:該過(guò)程將學(xué)習(xí)過(guò)程得到的每個(gè)子集的調(diào)控關(guān)系進(jìn)行融合,最終將所有的調(diào)控關(guān)系根據(jù)權(quán)重大小進(jìn)行排序。對(duì)于不同子問(wèn)題分別建模得到的權(quán)重,存在量綱不一致問(wèn)題,本文在初始排序基礎(chǔ)上增加歸一化和統(tǒng)計(jì)方法以提高模型準(zhǔn)確率。

        3.1 分解過(guò)程

        圖 2 調(diào)控網(wǎng)絡(luò)推斷方法流程圖Fig. 2 Flow chart of regulation network inference method

        圖 3 基因表達(dá)數(shù)據(jù)處理流程圖Fig. 3 Gene expression data processing flow chart

        3.2 學(xué)習(xí)過(guò)程

        本文選擇 Boosting 模型評(píng)估基因調(diào)控關(guān)系的重要性,多次對(duì)訓(xùn)練樣本做重抽樣并建模,學(xué)習(xí)多個(gè)回歸器,并將這些回歸器進(jìn)行組合,提高回歸性能。由于傳統(tǒng)的 Boosting 集成學(xué)習(xí)方法需要學(xué)習(xí)多個(gè)弱學(xué)習(xí)器,訓(xùn)練時(shí)間相對(duì)較長(zhǎng),而 XGBoost 模型[6]使用二階導(dǎo)數(shù)的信息來(lái)幫助迭代訓(xùn)練,損失函數(shù)值將能更快地下降,提高訓(xùn)練速度,獲得高性能模型。XGBoost 的目標(biāo)函數(shù)可以表述為:

        其中,T 為樹(shù)結(jié)構(gòu)中的樹(shù)的葉子節(jié)點(diǎn)個(gè)數(shù); 和 λ 為控制收縮的參數(shù);w 為葉子權(quán)重。正則化項(xiàng)可以對(duì)最終學(xué)習(xí)得到的權(quán)重進(jìn)行平滑,即 XGBoost 模型通過(guò) LASSO(L1)和 Ridge(L2)正則化來(lái)懲罰更復(fù)雜的模型,從而避免過(guò)擬合問(wèn)題。

        本文應(yīng)用特征變量 Gi的個(gè)數(shù) Ni來(lái)分割所有樹(shù)結(jié)構(gòu)中的目標(biāo)變量,作為 Gi的重要性。分割標(biāo)準(zhǔn)和其他細(xì)節(jié)可參考文獻(xiàn)[6]。針對(duì)靜態(tài)表達(dá)式數(shù)據(jù),本文選擇 XGBoost 模型作為公式(1)中的 f 來(lái)解決問(wèn)題,其中模型是通過(guò)公式(2)構(gòu)建的。

        3.3 融合過(guò)程

        由于每個(gè)子問(wèn)題的建模過(guò)程都是獨(dú)立的,所以不能簡(jiǎn)單地使用從每個(gè)子問(wèn)題評(píng)估的監(jiān)管關(guān)系的可信度進(jìn)行全局排名。因此,本文采用基于 L2 范數(shù)的規(guī)范化方法來(lái)解決這個(gè)問(wèn)題,并且每個(gè)子問(wèn)題的權(quán)重 wi,j被規(guī)范化為:

        其中,p 為每個(gè)子問(wèn)題中基因 j 的候選調(diào)控因子的數(shù)目。

        此外,本文還使用統(tǒng)計(jì)方法,通過(guò)更新全局權(quán)重 wi,j來(lái)進(jìn)一步細(xì)化推斷 GRN。這種改進(jìn)是基于這樣一個(gè)假設(shè):如果一個(gè)候選調(diào)控因子 i 調(diào)控多個(gè)靶基因,那么它將是一個(gè)重要的調(diào)控因子,并且所有調(diào)控關(guān)系的可信度都應(yīng)該提高。根據(jù)這一點(diǎn),本文將權(quán)重 wi,j更新表述為:

        4 結(jié)果分析與評(píng)估

        4.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

        本課題的數(shù)據(jù)集及評(píng)價(jià)指標(biāo)均來(lái)自于 DREAM 挑戰(zhàn)平臺(tái)(基因調(diào)控網(wǎng)絡(luò)挑戰(zhàn))[18]。該平臺(tái)為生物學(xué)和醫(yī)學(xué)的研究者們提出了眾多挑戰(zhàn),并提供了基準(zhǔn)數(shù)據(jù)集來(lái)驗(yàn)證評(píng)估他們的工作。其中,DREAM5 是第一個(gè)利用大規(guī)模真實(shí)數(shù)據(jù)集構(gòu)建 GRNs 的挑戰(zhàn),其中靶基因達(dá)到 O(103)數(shù)量級(jí)、調(diào)控基因則為 O(102)。

        DREAM5 數(shù)據(jù)集共包含 4 個(gè)網(wǎng)絡(luò):網(wǎng)絡(luò) 1 是通過(guò) in-silico 模擬導(dǎo)出的,另外 3 個(gè)網(wǎng)絡(luò)則是從不同實(shí)驗(yàn)中獲得的。其中,網(wǎng)絡(luò) 2 來(lái)源于金葡萄桿菌(S.Aureus)相關(guān)實(shí)驗(yàn),網(wǎng)絡(luò) 3 來(lái)源于原核生物(E.coli)實(shí)驗(yàn),網(wǎng)絡(luò) 4 則來(lái)源于真核生物(S.cerevisiae)實(shí)驗(yàn)。網(wǎng)絡(luò) 3 和 4 調(diào)控關(guān)系的金標(biāo)準(zhǔn)來(lái)自于 RegulonDB 和 Gene Ontology(GO)兩個(gè)數(shù)據(jù)庫(kù),而網(wǎng)絡(luò) 2 沒(méi)有對(duì)應(yīng)的金標(biāo)準(zhǔn),故本文暫不考慮。最終選取 DREAM5 挑戰(zhàn)的 1、3 和 4 網(wǎng)絡(luò)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)。

        本文選取來(lái)自 DREAM5 挑戰(zhàn)的靜態(tài)基因表達(dá)數(shù)據(jù)集,基本信息如表 1 所示。其中,insilico 網(wǎng)絡(luò)包括 1 643 個(gè)靶基因、195 個(gè)轉(zhuǎn)錄因子(Transcription Factors),金標(biāo)準(zhǔn)中共有 4 012 條調(diào)控關(guān)系;E.coli 網(wǎng)絡(luò)包括 4 511 個(gè)靶基因、334 個(gè)轉(zhuǎn)錄因子,金標(biāo)準(zhǔn)中共有 2 066 條調(diào)控關(guān)系;S.cerevisiae 網(wǎng)絡(luò)包括 5 950 個(gè)靶基因、333 個(gè)轉(zhuǎn)錄因子,金標(biāo)準(zhǔn)中共有 3 940 條調(diào)控關(guān)系。

        表 1 靜態(tài)基因表達(dá)數(shù)據(jù)集Table 1 Steady gene expression data set

        為評(píng)價(jià)該方法的性能,本文考慮兩種常用的評(píng)價(jià)指標(biāo):接受者操作特征曲線面積(Area Under Receiver Operating Characteristic,AUROC)和正確率-召回率曲線面積(Area Under Precision-Recall Curves,AUPR)。其中,AUROC 是基于真陽(yáng)率(True Positive Rate,TPR)與假陽(yáng)率(False Positive Rate,F(xiàn)PR)的接受者操作特征(ROC)范圍,AUPR 是根據(jù)精確度(Precision)與召回率(Recall)得出的領(lǐng)域。真陽(yáng)率(TPR)為檢測(cè)出來(lái)的真陽(yáng)性樣本數(shù)除以所有真實(shí)陽(yáng)性樣本數(shù);假陽(yáng)率(FPR)為檢測(cè)出來(lái)的假陽(yáng)性樣本數(shù)除以所有真實(shí)陰性樣本數(shù);召回率為真陽(yáng)性樣本在所有檢測(cè)正確樣本總數(shù)中的占比。

        其中,TP(True Positive)為真陽(yáng)性的數(shù)量;TN(True Negative)為真陰性的數(shù)量;FP(False Positive)為假陽(yáng)性的數(shù)量;FN(False Negative)為假陰性的數(shù)量。

        4.2 隨機(jī)化和正則化

        前人的研究表明,隨機(jī)化和正則化在重建 GRNs 中是有效的。其中,隨機(jī)化包括樣本抽樣和特征選擇,如引導(dǎo)程序和子特征。正則化是通過(guò)將懲罰項(xiàng)添加到目標(biāo)函數(shù),進(jìn)而控制模型的復(fù)雜性,回歸模型中最常用的正則化技術(shù)是 LASSO(L1)和 Ridge(L2)。

        本文方法 XGBNet 基于 XGBoost。其中,XGBoost python 軟件包提供了用于實(shí)現(xiàn)的各種參數(shù),本文選擇決策樹(shù)作為基學(xué)習(xí)器。參數(shù) max_depth 和 min_child_weight 與模型中每棵樹(shù)的結(jié)構(gòu)相關(guān),且都設(shè)置為 4;將控制每棵樹(shù)中訓(xùn)練樣本比率的參數(shù) subsample 設(shè)置為 0.7;參數(shù)colsample_bytree 控制每棵樹(shù)中特征(候選調(diào)節(jié)器)的比率,并在此處設(shè)置為 0.9;學(xué)習(xí)率 eta 設(shè)置為 0.000 8,樹(shù)的數(shù)量設(shè)置為 1 000,與大多數(shù)“基于樹(shù)的”方法的默認(rèn)設(shè)置相同。

        4.3 實(shí)驗(yàn)結(jié)果

        在 DREAM5 數(shù)據(jù)集中采用 in-silico 模擬數(shù)據(jù)、E.coli 和 S.cerevisiae 實(shí)驗(yàn)數(shù)據(jù)來(lái)對(duì)所提出模型的性能進(jìn)行評(píng)估。更進(jìn)一步地,選擇了幾種最新的 GRNs 推斷方法,包括 iRafNet[25]、HiDi[24]、PLSNET[22]和 DREAM 挑戰(zhàn)賽[18]的獲勝者與本文結(jié)果進(jìn)行對(duì)比分析,具體結(jié)果如表 2 所示。

        表 2 為不同方法在 DREAM5 數(shù)據(jù)集中 3 種網(wǎng)絡(luò)上的 AUPR 和 AUROC。其中,KO(Knock Out Data)為剔除某個(gè)基因后的基因表達(dá)數(shù)據(jù);SS(Steady-State Expression Data)為平穩(wěn)基因表達(dá)數(shù)據(jù)。從表 2 可以看出,iRafNet 和 HiDi 都集成了穩(wěn)態(tài)表達(dá)數(shù)據(jù)和剔除數(shù)據(jù),而 DREAM5 挑戰(zhàn)賽的冠軍僅使用穩(wěn)態(tài)表達(dá)數(shù)據(jù),本方法也僅需用到穩(wěn)態(tài)表達(dá)數(shù)據(jù),但就網(wǎng)絡(luò) 1 的 AUPR 和 AUROC 以及網(wǎng)絡(luò) 3 和 4 的 AUROC 而言,XGBNet 仍然比其他方法具有更好的性能。一個(gè)主要原因可能是,由于不完整的 KO 數(shù)據(jù)所提供的信息很少,對(duì)于推斷出 GRNs 所起的作用很小。此外,由于生物實(shí)驗(yàn)數(shù)據(jù)的采集誤差大、獲取途徑不一致等問(wèn)題,導(dǎo)致 5 種方法在網(wǎng)絡(luò) 3 和 4 的 AUPR 值均較低。

        從表 2 數(shù)值可看出,本文方法在 in-silico 生成的模擬數(shù)據(jù)集中,AUPR 和 AUROC 兩個(gè)評(píng)估指標(biāo)均顯著優(yōu)于現(xiàn)有方法;在 E.coli 和 S.cerevisiae 兩種生物的真實(shí)實(shí)驗(yàn)數(shù)據(jù)中,AUROC 指標(biāo)均高于現(xiàn)有最優(yōu)方法。推測(cè)原因在于,本文所提出方法建立特有的集成框架,通過(guò)在目標(biāo)函數(shù)中加入 2 種不同的懲罰項(xiàng),以及限制樹(shù)結(jié)構(gòu)和剪枝過(guò)程,盡可能地避免過(guò)擬合,較大幅度地提高了預(yù)測(cè)準(zhǔn)確率;同時(shí)用于基因調(diào)控網(wǎng)絡(luò)的多為 bagging 集成方法(以隨機(jī)森林為典型代表),而以 XGBoost 和 AdaBoost 為主的 Boosting 集成方法性能則通常優(yōu)于 bagging 集成。兩種方法的主要區(qū)別在于 bagging 的每個(gè)弱學(xué)習(xí)器都是獨(dú)立并行學(xué)習(xí)的,而 Boosting 則順序地學(xué)習(xí)這些弱學(xué)習(xí)器(每個(gè)基礎(chǔ)模型都依賴(lài)于前面的模型),并按照某種確定性的策略將它們組合起來(lái)。

        4.4 討論與分析

        現(xiàn)階段對(duì)基因靜態(tài)數(shù)據(jù)調(diào)控網(wǎng)絡(luò)推斷的研究,主要集中在基于信息論、概率圖和機(jī)器學(xué)習(xí)的方法中。Zhang 等[10]、Ricardo 等[11]和 Küffner 等[12]使用基因之間的互信息作為度量并以此推導(dǎo)調(diào)控網(wǎng)絡(luò),來(lái)進(jìn)一步消除間接調(diào)控關(guān)系的影響,然而僅使用互信息仍不能足夠多地提取基因調(diào)控的有效信息;Liu 等[14]、Yu 等[15]、Xing 等[16]和 de Campos 等[17]利用葉斯網(wǎng)絡(luò)學(xué)習(xí)工具從靜態(tài)基因數(shù)據(jù)中計(jì)算基因相互作用,從最初的靜態(tài)貝葉斯到改良的動(dòng)態(tài)貝葉斯,做出了很多的突破,然而效率仍低于現(xiàn)有部分其他方法,同時(shí)模型準(zhǔn)確率也有待提高;Huynh-Thu 等[19]、Haury 等[20]、Ruyssinck 等[21]和 Guo 等[22]構(gòu)建基于特征選擇框架的集成方法,且用于基因調(diào)控網(wǎng)絡(luò)的多為 bagging 集成方法(以隨機(jī)森林為典型代表)。與上述基因靜態(tài)數(shù)據(jù)調(diào)控網(wǎng)絡(luò)推斷研究不同的是,本文選擇基于 XGBoost 的集成方法,每個(gè)弱學(xué)習(xí)器都依賴(lài)于前一個(gè)模型,并按照某種確定性的策略將其組合起來(lái),且著重解決模型過(guò)擬合問(wèn)題,并對(duì)集成模型的結(jié)果增加歸一化和統(tǒng)計(jì)學(xué)方法處理。當(dāng)然,本文還存在不足之處,未來(lái)工作的重點(diǎn)是進(jìn)一步研究利用先驗(yàn)信息進(jìn)行特征選擇,并增強(qiáng)方法的可移植性。

        表 2 不同方法結(jié)果比較Table 2 Results of different methods

        5 結(jié) 論

        本文提出一種基于 Boosting 集成模型的特征選擇框架:針對(duì)基因靜態(tài)數(shù)據(jù)進(jìn)行調(diào)控網(wǎng)絡(luò)推斷,建立特有的集成框架,同時(shí)通過(guò)在目標(biāo)函數(shù)中加入 2 種不同的懲罰項(xiàng),以及限制樹(shù)結(jié)構(gòu)和剪枝過(guò)程,盡可能地避免過(guò)擬合,較大幅度地提高了預(yù)測(cè)準(zhǔn)確率。另外,對(duì)于不同子問(wèn)題分別建模得到的權(quán)重存在量綱不一致的問(wèn)題,本文在初始排序基礎(chǔ)上增加歸一化和統(tǒng)計(jì)方法以提高模型準(zhǔn)確率。使用來(lái)自 DREAM5 挑戰(zhàn)的基準(zhǔn)數(shù)據(jù)集測(cè)試結(jié)果表明,本文所提出的 XGBoost 比現(xiàn)有其他方法獲得更好的性能。在未來(lái)的研究中,將進(jìn)一步研究利用先驗(yàn)信息進(jìn)行特征選擇,充分結(jié)合多方數(shù)據(jù),并增強(qiáng)該方法在其他生物物種基因調(diào)控關(guān)系應(yīng)用中的可移植性。

        猜你喜歡
        特征選擇貝葉斯重構(gòu)
        長(zhǎng)城敘事的重構(gòu)
        攝影世界(2022年1期)2022-01-21 10:50:14
        北方大陸 重構(gòu)未來(lái)
        北京的重構(gòu)與再造
        商周刊(2017年6期)2017-08-22 03:42:36
        貝葉斯公式及其應(yīng)用
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        論中止行為及其對(duì)中止犯的重構(gòu)
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
        久久88综合| 亚洲人成电影网站色| 大肉大捧一进一出好爽视频| 尤物99国产成人精品视频| 人妻爽综合网| 亚洲国产人成综合网站| 国产成人无码精品久久久露脸 | 亚洲av天堂免费在线观看| 欧洲熟妇色xxxx欧美老妇多毛| 亚洲国产精品线路久久| 日韩精品一二区在线视频| 精品亚洲一区二区三区四区五| 男人进去女人爽免费视频| 99热精品成人免费观看| 国产白浆精品一区二区三区| 久久国内精品自在自线| 初女破初的视频| 亚洲AⅤ无码国精品中文字慕 | 欧美日韩一区二区三区色综合| 久久精品国产亚洲不卡| 五月天激情电影| 八戒网站免费观看视频| 亚洲成a人片在线观看中| 中国少妇久久一区二区三区| 在线观看精品视频网站| 热久久这里只有| 国产偷国产偷亚洲高清| 久久精品国产亚洲av果冻传媒| 国内精品无码一区二区三区| 国产精品香蕉网页在线播放| 国产一区亚洲二区三区极品| 18禁黄久久久aaa片| 日本成人字幕在线不卡| 国产爽快片一区二区三区| 亚洲国产精品无码久久| 亚洲V日韩V精品v无码专区小说| 少妇激情一区二区三区久久大香香| 成人av片在线观看免费| 亚洲欧美日韩精品久久亚洲区| 免费大学生国产在线观看p| 国产自拍在线观看视频|