鄧 甦, 姜 楊, 付長(zhǎng)賀
(1. 沈陽(yáng)師范大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院, 沈陽(yáng) 110034;2. 內(nèi)蒙古財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院, 呼和浩特 010070)
細(xì)胞中2個(gè)基因同時(shí)突變有時(shí)會(huì)產(chǎn)生一種表現(xiàn)型異常于單個(gè)基因突變的效應(yīng),這種現(xiàn)象被稱為基因相互作用[1-2]?;蛳嗷プ饔貌煌诘鞍踪|(zhì)之間的物理聯(lián)系(通過(guò)共價(jià)鍵形成蛋白質(zhì)復(fù)合體),其表現(xiàn)為基因之間的功能聯(lián)系,如:互補(bǔ)基因、異位顯性基因、修飾基因、抑制基因、調(diào)節(jié)基因等[3]。此外,基因相互作用還可以有效地解釋有性生殖和重組的選擇優(yōu)勢(shì)[4]以及輔助識(shí)別細(xì)胞信號(hào)通路[5-7]。近些年,基因相互作用的研究已經(jīng)變得越來(lái)越系統(tǒng),尤其在模式生物酵母菌中實(shí)驗(yàn)規(guī)模也越來(lái)越大[8-12]。這些實(shí)驗(yàn)數(shù)據(jù)為定量定義基因相互作用提供了機(jī)會(huì),也為基因表達(dá)的潛因子分析提供了新的思路[13-14]。
定量方式定義基因相互作用需要2個(gè)部分:數(shù)據(jù),即生物體由于基因突變而觀測(cè)到的可量化的表型測(cè)量,通常包括單個(gè)基因突變的表型測(cè)量數(shù)據(jù)(單突變值)、一對(duì)基因同時(shí)突變的表型測(cè)量數(shù)據(jù)(對(duì)突變值)和重復(fù)實(shí)驗(yàn)的偏移度等;預(yù)期中立函數(shù)或預(yù)期函數(shù),用于預(yù)測(cè)2個(gè)單突變同時(shí)發(fā)生卻互不影響情況下的表型值,一般有乘法型、加法型、對(duì)數(shù)型和最小型[15]。定量形式定義的基因相互作用就是對(duì)突變值偏離于這2個(gè)單突變的預(yù)期中立函數(shù)值。因此,這種定義方式可以定義2種基因相互作用,如果對(duì)突變值小于預(yù)期值,則這對(duì)基因的相互作用就被定義為惡化型(synergistic),若相反則定義為弱化型(alleviating)。這種偏移如果很小就認(rèn)為這對(duì)基因之間沒(méi)有相互作用。
目前,大多數(shù)基因相互作用研究都以酵母菌為模式生物,采用的表型測(cè)量基本都是適合度(fitness),即微生物種群的生長(zhǎng)效率,而根據(jù)不同的適合度測(cè)量方法出現(xiàn)了乘法型、加法型、對(duì)數(shù)型的預(yù)期中立函數(shù)[3,15-17]。此外,還有一種最小型期望函數(shù),即取2個(gè)單突變值的最小值作為返回值。最小型期望函數(shù)的理論假設(shè)是2個(gè)單突變都破壞了一個(gè)限制細(xì)胞生長(zhǎng)的細(xì)胞通路,因此其中一個(gè)突變實(shí)質(zhì)上比另一個(gè)更具限制性,而對(duì)突變可能會(huì)表現(xiàn)出最大限制單突變體的表型[18-19]。關(guān)于上述4種方法,文獻(xiàn)[15]指出,即使是同一形式變種的乘法型、加法型、對(duì)數(shù)型預(yù)期函數(shù),在同一數(shù)據(jù)集上也會(huì)得到不同的相互作用。盡管如此,還是有一些有趣的結(jié)果被發(fā)現(xiàn),對(duì)于獨(dú)立且比較小的適應(yīng)性突變,乘法型定義和加法型定義結(jié)果基本一致,而與其他定義不同[16];當(dāng)其中一個(gè)單突變具有野生型適應(yīng)度時(shí)(突變未引起適合度顯著變化),所有預(yù)期函數(shù)得到的基因相互作用都相同[17]??偟膩?lái)說(shuō),目前研究表明,對(duì)于大多數(shù)情況,沒(méi)有實(shí)際經(jīng)驗(yàn)可供參考該如何選擇預(yù)期函數(shù),也不清楚是否存在其他類型的期望函數(shù),更不清楚對(duì)于其他表型測(cè)量方法上述預(yù)期函數(shù)是否適用。
鑒于上述問(wèn)題,本文設(shè)計(jì)了一種數(shù)據(jù)驅(qū)動(dòng)的基因相互作用定義方法,該方法基于機(jī)器學(xué)習(xí)思想,從實(shí)驗(yàn)數(shù)據(jù)出發(fā)構(gòu)建符合數(shù)據(jù)特征的中立函數(shù)。該方法克服了經(jīng)典固定中立函數(shù)極易受到實(shí)驗(yàn)批次效應(yīng)等環(huán)境因素影響的缺點(diǎn),基于實(shí)驗(yàn)數(shù)據(jù)自身特征通過(guò)回歸擬合方法構(gòu)建期望中立函數(shù),進(jìn)而定義更為精準(zhǔn)的基因相互作用。為了去除惡化型和弱化型對(duì)突變回歸中立方程的影響,該方法采用迭代回歸的框架,每次迭代首先回歸出中立函數(shù),然后計(jì)算每組估計(jì)對(duì)突變表型值和實(shí)際觀察值之間的殘差,最后剔除殘差相對(duì)比較大的樣本,使用新的數(shù)據(jù)進(jìn)行下一次循環(huán)。在包含8000組對(duì)突變的數(shù)據(jù)集中使用本方法,發(fā)現(xiàn)了2 000對(duì)惡化型和1 000對(duì)弱化型基因相互作用,比經(jīng)典定義方法更為精準(zhǔn)。
青櫻不覺(jué)苦笑,柔聲道:“你生下三阿哥才三個(gè)多月,這樣跟著我疾走,豈不傷了身子?”青櫻見(jiàn)她身體姿孱孱,愈加不忍,“是我不好,沒(méi)察覺(jué)你跟著我來(lái)了。”
為了獲得精確的回歸中立函數(shù),采用迭代的過(guò)程逐批剔除殘差絕對(duì)值比較大的點(diǎn),這里設(shè)置了一個(gè)剔除參數(shù)cutoff,表示每次迭代剔除多少個(gè)樣本,此參數(shù)設(shè)置大小可影響迭代次數(shù)以及結(jié)果的精確度,可以作為超參數(shù)調(diào)節(jié)。ε為收斂精度參數(shù),可根據(jù)數(shù)據(jù)質(zhì)量適當(dāng)調(diào)節(jié)。原始數(shù)據(jù)如果不是乘法型適應(yīng)度表型值可以事先轉(zhuǎn)換,并全部取對(duì)數(shù)以滿足模型(3),算法大致流程如圖1所示。
y=x1·x2
(1)
情況 3 v9不染1, 不失一般性,假設(shè)它染3,則可用上述的方法將窮點(diǎn)v1,v5的顏色2改染為顏色1, 并用2 來(lái)染v。
(2)
使用python語(yǔ)言的pandas包、sklearn包和matplolib包對(duì)數(shù)據(jù)進(jìn)行分析。通過(guò)超參數(shù)調(diào)整,最后設(shè)定cutoff=100,ε=0.000 1,程序運(yùn)行了20次迭代后趨于收斂,獲得的回歸系數(shù)為b1=1.003,b2=1.091,C=0.991。把這些系數(shù)帶入公式(2)可得回歸中立函數(shù)為
式(4)看上去和經(jīng)典式(1)沒(méi)有太大的差別(只有接近于1的系數(shù)差別),但是使用這個(gè)函數(shù)定義的基因相互作用為惡化型有81 555對(duì),弱化型有80 856對(duì),而傳統(tǒng)函數(shù)定義的數(shù)字是惡化型有100 108對(duì),弱化型有521 163對(duì)。可見(jiàn)回歸中立函數(shù)(4)定義的基因相互作用更為均勻,通過(guò)回歸系數(shù)調(diào)節(jié)使得回歸超平面更適合當(dāng)前數(shù)據(jù)的分布,得到的結(jié)果更符合生物客觀規(guī)律。
lny=lnC+b1lnx1+b2lnx2
(3)
將在上一小節(jié)中獲得的b1,b2,exp(C)直接帶入公式(2)中即可得到回歸中立方程,相對(duì)傳統(tǒng)中立方程公式(1),加入的3個(gè)參數(shù)是通過(guò)數(shù)據(jù)回歸獲得的,這使得其更貼合當(dāng)前數(shù)據(jù)特征。在定義基因相互作用時(shí),由于實(shí)驗(yàn)誤差等隨機(jī)因素存在,所以一般不會(huì)直接把突變值減去中立預(yù)期值小于零定義為惡化型,大于零定義為弱化型,而是預(yù)設(shè)一個(gè)閾值,一般為0.08或0.12,只有差值絕對(duì)值大于這些閾值才被定義為基因相互作用。
線性回歸模型在許多領(lǐng)域都有廣泛應(yīng)用,主要是針對(duì)乘法型預(yù)期中立函數(shù)的微生物適合度表型數(shù)據(jù)建立回歸模型,其經(jīng)典的乘法型預(yù)期函數(shù)如下:
圖1 算法流程圖Fig.1 Algorithm flow chart
這里并沒(méi)有對(duì)誤差項(xiàng)進(jìn)行討論,假設(shè)公式(3)誤差項(xiàng)服從正態(tài)分布。對(duì)于公式(3),可以對(duì)原始數(shù)據(jù)取對(duì)數(shù),再采用經(jīng)典線性回歸方法估計(jì)出其中參數(shù)。
為了驗(yàn)證本文方法的有效性,將這一方法應(yīng)用于文獻(xiàn)[11]數(shù)據(jù)中定義基因相互作用并同傳統(tǒng)定義方法進(jìn)行比較。該數(shù)據(jù)集是一個(gè)酵母菌雙突變表型數(shù)據(jù)集,包含了660多萬(wàn)條記錄,每條記錄有13列,主要包括查詢基因名、陣列基因名、查詢單突變值、陣列突變值、對(duì)突變值以及實(shí)驗(yàn)p值等,提取其中p值小于0.05的記錄,以避免較大的實(shí)驗(yàn)誤差。而對(duì)于對(duì)稱記錄(一對(duì)基因分別作為查詢基因和陣列基因成為2條記錄)的矛盾問(wèn)題,剔除這對(duì)記錄對(duì)突變值之差的絕對(duì)值大于0.04的記錄。最后的實(shí)驗(yàn)數(shù)據(jù)集一共包含了將近68萬(wàn)條記錄。
其中:參數(shù)b1和b2的作用是調(diào)節(jié)x1和x2對(duì)于y的影響;C控制總體偏移。顯然,對(duì)公式(2)兩邊取對(duì)數(shù)可以得到經(jīng)典的線性回歸模型:
(4)
“我不信你一點(diǎn)兒也不重要,可是梁兒對(duì)此深信不疑。他堅(jiān)信你懷了他的孩子,找我大吵大鬧,最后不惜和我決裂?!秉S書記又說(shuō)。
其中:y表示預(yù)期中立值;x1和x2分別表示突變的單個(gè)表型值。建立模型如下:
通過(guò)實(shí)現(xiàn)銅冶煉工廠的自動(dòng)化、數(shù)字化、模型化、集成化、智能化,構(gòu)建企業(yè)的智能決策、智能生產(chǎn)管理、智能執(zhí)行與感知體系,打造從管理決策到執(zhí)行反饋的閉環(huán)管控結(jié)構(gòu),實(shí)現(xiàn)制造效率、成本、質(zhì)量等資源優(yōu)化配置的智能化工廠。
進(jìn)一步對(duì)2種方法定義的基因相互作用得分進(jìn)行分析,ε定義如下:
隨著人工智能技術(shù)的發(fā)展,萬(wàn)物皆媒,全息傳播的智媒體時(shí)代已經(jīng)到來(lái),我們必須強(qiáng)化戰(zhàn)略意識(shí)和危機(jī)意識(shí),加強(qiáng)法制建設(shè)和科技攻關(guān),深化文化體制改革,牢牢掌握馬克思主義的領(lǐng)導(dǎo)權(quán)話語(yǔ)權(quán),努力增強(qiáng)新聞傳播特別是網(wǎng)絡(luò)傳播信息安全的責(zé)任感,加強(qiáng)中國(guó)哲學(xué)社會(huì)科學(xué)話語(yǔ)體系建設(shè)和構(gòu)建意識(shí)形態(tài)安全防御體系,創(chuàng)新講好中國(guó)故事,為構(gòu)建人類命運(yùn)共同體提供正確的精神指引。
ε=yo-ye
(5)
式中:yo為實(shí)際觀測(cè)到的對(duì)突變值;ye是通過(guò)式(1)或式(4)計(jì)算的期望中立值。由2種方法定義的基因相互作用得分ε的分布,不難得出經(jīng)典式(1)定義的基因相互作用得分均值正向偏移,而本文方法定義的幾乎以零值對(duì)稱,進(jìn)一步證明了本文方法的有效性。
基于迭代回歸的基因相互作用定義方法,充分利用當(dāng)前表型數(shù)據(jù)集蘊(yùn)含的信息定義,更符合生物規(guī)律的基因相互作用,克服了經(jīng)典方法中固定中立函數(shù)帶來(lái)的不足。本文設(shè)計(jì)的方法只針對(duì)乘法型適定性表型測(cè)量數(shù)據(jù),對(duì)于最小型等其他類型還在進(jìn)一步研究當(dāng)中。
沈陽(yáng)師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年5期