哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081)
榮志煒 王文杰 李 康△
網(wǎng)絡(luò)既擁有簡(jiǎn)潔的表達(dá)形式,又能夠闡釋復(fù)雜的生物分子間的關(guān)系。目前已經(jīng)有多種的網(wǎng)絡(luò)構(gòu)建方法,如基于相關(guān)系數(shù)、互信息、距離相關(guān)等相關(guān)性網(wǎng)絡(luò),還有可以將調(diào)控方向納入其中的貝葉斯網(wǎng)絡(luò)(BN)、基于lasso線性回歸和隨機(jī)森林(RF)[1]回歸構(gòu)建的網(wǎng)絡(luò)等。由于組學(xué)數(shù)據(jù)維數(shù)高、調(diào)控關(guān)系復(fù)雜,網(wǎng)絡(luò)構(gòu)建過程中容易做出假陽(yáng)性的調(diào)控關(guān)系,其中間接效應(yīng)是主要問題。如圖1所示,其中實(shí)線代表真實(shí)調(diào)控關(guān)系,虛線代表可能產(chǎn)生的間接邊。變量A和變量B間存在關(guān)聯(lián),變量B和變量C間也存在關(guān)聯(lián),則即使變量A和變量C間無(wú)調(diào)控關(guān)系,建網(wǎng)時(shí)也可能會(huì)表現(xiàn)為兩節(jié)點(diǎn)之間具有一定的關(guān)聯(lián)。如圖1(b)所示,各種間接效應(yīng)疊加可能使得在建網(wǎng)時(shí)出現(xiàn)許多虛假的調(diào)控邊。解卷積(network deconvolution,ND)和沉默算法(silencing)兩種網(wǎng)絡(luò)優(yōu)化方法可用于改善間接邊的問題。本研究將結(jié)合多種網(wǎng)絡(luò)構(gòu)建方法,對(duì)上述兩種優(yōu)化方法進(jìn)行研究。
圖1 原始網(wǎng)絡(luò)與具有間接效應(yīng)的網(wǎng)絡(luò)
網(wǎng)絡(luò)解卷積(ND)方法由Feize(2013)提出[2],它是一種可用于優(yōu)化高維數(shù)據(jù)網(wǎng)絡(luò)的方法,這種方法能夠利用網(wǎng)絡(luò)結(jié)構(gòu)的信息推斷網(wǎng)絡(luò)中的直接相關(guān),移除由于級(jí)聯(lián)效應(yīng)產(chǎn)生的間接相關(guān)邊。設(shè)有N個(gè)變量,其基本原理:根據(jù)實(shí)際數(shù)據(jù)建立任意兩變量的關(guān)聯(lián)矩陣Gobs(如Pearson相關(guān)系數(shù)),Gobs為N×N階矩陣,將其分解為具有直接關(guān)聯(lián)和各種長(zhǎng)度的間接關(guān)聯(lián)的矩陣之和,即
(1)
可以利用矩陣的特征值分解
Gdir=UΛdirU-1
(2)
(3)
(4)
對(duì)Gobs直接進(jìn)行特征值分解
(5)
結(jié)合(4)和(5)可以有如下關(guān)系
(6)
這樣就可以由Gobs得到Gdir的特征值,進(jìn)而可以得到矩陣Gdir。這里解卷積方法本身有兩個(gè)基本假設(shè):①間接效應(yīng)是級(jí)聯(lián)各直接效應(yīng)的乘積;②Gobs是直接效應(yīng)和所有間接效應(yīng)之和。
網(wǎng)絡(luò)沉默方法(silencing)由Barzel(2013)提出[3],也是一種高維數(shù)據(jù)網(wǎng)絡(luò)優(yōu)化方法。其基本原理:將網(wǎng)絡(luò)看做一個(gè)動(dòng)力學(xué)系統(tǒng),系統(tǒng)達(dá)到穩(wěn)定狀態(tài)時(shí)各變量之間的關(guān)系
xi=fi(x1,…,xi-1,xi+1,…,xN),i=1,…,N
(7)
N為變量的數(shù)目。當(dāng)xj(j≠i)產(chǎn)生一個(gè)小的擾動(dòng)?xj時(shí),變量xi也會(huì)產(chǎn)生相應(yīng)變化?xi(i=1,…,N),于是變量xi與xj的Gdir可以用兩者之間的比值來(lái)衡量
(8)
在單獨(dú)考慮xj對(duì)xi的影響時(shí),則有
(9)
根據(jù)微分學(xué)鏈?zhǔn)椒▌t兩者有以下關(guān)系
(10)
對(duì)于對(duì)角線元素,有近似的關(guān)系
(11)
其中I指單位矩陣,從而得到下面的網(wǎng)絡(luò)沉默算法
(12)
diag(·)指取矩陣的對(duì)角線元素構(gòu)成的對(duì)角矩陣。
為了真實(shí)體現(xiàn)基因網(wǎng)絡(luò)數(shù)據(jù)的特點(diǎn),本研究選擇使用基因逆向工程評(píng)估與方法對(duì)話平臺(tái)(DREAM)的研究數(shù)據(jù)[4]。DREAM5主要針對(duì)于高維靜態(tài)網(wǎng)絡(luò),符合本研究前述兩種方法的測(cè)試條件?,F(xiàn)選取其中的三個(gè)網(wǎng)絡(luò)數(shù)據(jù)(insilico,E.coli,S.cerevisiae)進(jìn)行評(píng)價(jià)。三個(gè)網(wǎng)絡(luò)的基本信息如下表1所示,其中E.coli是大腸桿菌的基因調(diào)控網(wǎng)絡(luò),S.cerevisiae是酵母菌的基因調(diào)控網(wǎng)絡(luò),這兩個(gè)網(wǎng)絡(luò)都有較強(qiáng)的實(shí)驗(yàn)證據(jù)支持,基因表達(dá)數(shù)據(jù)來(lái)自GEO。insilico則是利用E.coli和S.cerevisiae的子網(wǎng)絡(luò)使用微分方程模型模擬得到[5]。
表1 DREAM5網(wǎng)絡(luò)數(shù)據(jù)驗(yàn)證平臺(tái)
為了能夠充分評(píng)價(jià)兩種優(yōu)化方法的性能,選擇了7種基本方法來(lái)構(gòu)建網(wǎng)絡(luò)。這7種方法涵蓋了靜態(tài)基因調(diào)控網(wǎng)絡(luò)構(gòu)建的常見類型,其基本情況如表2所示。
表2 7種不同網(wǎng)絡(luò)構(gòu)建方法得特點(diǎn)
多數(shù)建網(wǎng)方法首先得到的是一個(gè)關(guān)于邊的權(quán)重值,然后再根據(jù)權(quán)重值來(lái)決定邊的存在與否。網(wǎng)絡(luò)評(píng)價(jià)采用基于ROC曲線和PR曲線的評(píng)分方法[4]。具體步驟:事先隨機(jī)產(chǎn)生250000個(gè)隨機(jī)網(wǎng)絡(luò),構(gòu)建ROC曲線下面積(AUROC)和PR曲線下面積(AUPR)在零假設(shè)下的分布,由此可以計(jì)算出構(gòu)建的每個(gè)網(wǎng)絡(luò)AUROC和AUPR的p值,再計(jì)算以下的評(píng)分
i∈{in.silico,E.coli,S.aureus}
(13)
該式綜合了ROC曲線和PR曲線來(lái)評(píng)價(jià)所構(gòu)建的網(wǎng)絡(luò)效果。ROC曲線下面積的計(jì)算公式為
(14)
其中TPR(k)=TP(k)/P,FPR(k)=FP(k)/N。TP(k)為建網(wǎng)得出的k條邊在與金標(biāo)準(zhǔn)比較后正確邊的數(shù)量,P為金標(biāo)準(zhǔn)中陽(yáng)性邊的數(shù)量,FP(k)為建網(wǎng)得出的k條邊在與金標(biāo)準(zhǔn)比較后錯(cuò)誤邊的數(shù)量,N為金標(biāo)準(zhǔn)中陰性邊的數(shù)量,c為網(wǎng)絡(luò)邊數(shù)。PR曲線下面積為
(15)
其中PRE(k)=TP(k)/k。
另外,特定的網(wǎng)絡(luò)構(gòu)建方法可能對(duì)網(wǎng)絡(luò)中的不同結(jié)構(gòu)識(shí)別效果不同[4],本研究提取出網(wǎng)絡(luò)中三種常見的結(jié)構(gòu),分別用FFL、Core和Casc表示,結(jié)構(gòu)如表3所示。其中,實(shí)線表示相應(yīng)的邊存在,虛線表示相應(yīng)的邊不存在,計(jì)算曲線下面積時(shí)是針對(duì)圖中的AB邊進(jìn)行的,1和0分別為所用的標(biāo)簽值。兩種優(yōu)化方法作為去除間接邊的方法,應(yīng)該提高FFL和Core的重建能力,而不降低Casc的重建能力。本研究使用三個(gè)數(shù)據(jù)中預(yù)測(cè)最好的網(wǎng)絡(luò)來(lái)進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)分析。
表3 網(wǎng)絡(luò)中常見的結(jié)構(gòu)
各個(gè)網(wǎng)絡(luò)的得分如圖2,其中Overall表示三個(gè)網(wǎng)絡(luò)得分的均值。結(jié)果顯示,網(wǎng)絡(luò)解卷積和網(wǎng)絡(luò)沉默都能夠提高無(wú)方向網(wǎng)絡(luò)的性能,其中網(wǎng)絡(luò)解卷積在Pearson相關(guān)系數(shù)、Spearman相關(guān)系數(shù)、MI和ARACNE上的表現(xiàn)要優(yōu)于網(wǎng)絡(luò)沉默;網(wǎng)絡(luò)沉默在CLR上的表現(xiàn)優(yōu)于網(wǎng)絡(luò)解卷積,并且達(dá)到了無(wú)方向網(wǎng)的最高水平。對(duì)于RF建網(wǎng),網(wǎng)絡(luò)解卷積優(yōu)化后網(wǎng)絡(luò)的準(zhǔn)確性有所提高,而網(wǎng)絡(luò)沉默優(yōu)化后則基本沒有改變。對(duì)于TIGRESS,兩種方法都沒有能夠提高其網(wǎng)絡(luò)的準(zhǔn)確性。
結(jié)構(gòu)分析結(jié)果如圖3所示。因?yàn)閕nsilico數(shù)據(jù)網(wǎng)絡(luò)的總體預(yù)測(cè)準(zhǔn)確性是最好的,所以使用它做網(wǎng)絡(luò)結(jié)構(gòu)分析??梢钥闯?對(duì)于FFL和Core兩種結(jié)構(gòu),在使用解卷積和沉默算法優(yōu)化后,網(wǎng)絡(luò)的準(zhǔn)確度都有一定程度的提高,特別是對(duì)Core結(jié)構(gòu),兩種優(yōu)化算法對(duì)網(wǎng)絡(luò)準(zhǔn)確度的提升都很明顯;但對(duì)于Casc結(jié)構(gòu)則略有降低。
圖2 基于7種構(gòu)建網(wǎng)絡(luò)方法優(yōu)化前后評(píng)分
圖3 in silico網(wǎng)絡(luò)中三種結(jié)構(gòu)網(wǎng)絡(luò)優(yōu)化后準(zhǔn)確度的變化
網(wǎng)絡(luò)解卷積雖然可對(duì)有方向網(wǎng)絡(luò)進(jìn)行優(yōu)化,但通常是將其方向去除后對(duì)網(wǎng)絡(luò)優(yōu)化,得到的是個(gè)無(wú)方向網(wǎng)絡(luò),而網(wǎng)絡(luò)沉默則可以保留網(wǎng)絡(luò)的方向性。RF和TIGRESS是七種建網(wǎng)方法中對(duì)方向也進(jìn)行預(yù)測(cè)的方法,其中網(wǎng)絡(luò)沉默方法對(duì)其優(yōu)化效果不明顯。
對(duì)FFL、Core和Casc三種網(wǎng)絡(luò)結(jié)構(gòu)AUPR優(yōu)化后有比較明顯的變化。對(duì)于FFL和Core,兩種優(yōu)化方法都有提高,特別是對(duì)于Core,解卷積方法提高所有的網(wǎng)絡(luò),而沉默方法則提高了部分建網(wǎng)方法的準(zhǔn)確性。注意到對(duì)Casc的優(yōu)化略有下降,說(shuō)明可能存在一些真實(shí)的邊被當(dāng)作間接效應(yīng)給去除了,但下降不多。
總體上看,RF建網(wǎng)后解卷積優(yōu)化(RF+ND)是最優(yōu)的建網(wǎng)策略。但考慮到RF建網(wǎng)在建立大型網(wǎng)絡(luò)時(shí)耗費(fèi)的時(shí)間較多,并且解卷積算法需要進(jìn)行參數(shù)調(diào)整,在維數(shù)較高(如m>500)的情況下,CLR建網(wǎng)后使用沉默算法優(yōu)化(CLR+Silencing)計(jì)算量小,是一種值得考慮的建網(wǎng)策略。
中國(guó)衛(wèi)生統(tǒng)計(jì)2019年1期