薛艷鋒 李 春 高永強(qiáng)
1(山西大學(xué)復(fù)雜系統(tǒng)研究所 山西 太原 030006) 2(呂梁學(xué)院計算機(jī)科學(xué)與技術(shù)系 山西 呂梁 033000) 3(太原理工大學(xué)信息與計算機(jī)學(xué)院 山西 太原 030024)
基因表達(dá)譜數(shù)據(jù)可被用于基因功能預(yù)測、作物優(yōu)化、疾病相關(guān)基因發(fā)現(xiàn)和藥物篩選等[1-4],但獲取過程繁雜、成本極高,難以開展大規(guī)模全基因組表達(dá)譜分析。人類基因組中包含約2萬到2.5萬個基因,利用表達(dá)之間的關(guān)聯(lián)性,可確定調(diào)節(jié)因子和target基因構(gòu)建基因調(diào)控網(wǎng)絡(luò)[5]。由于大約有1 000個基因擁有80%CMap 數(shù)據(jù)的信息,所以測量這1 000個基因(命名為landmark基因)的表達(dá)譜可以預(yù)測剩余基因(命名為target基因)的表達(dá)[6]。文獻(xiàn)[6]采用線性回歸(LR)預(yù)測模型,雖然LR具有極高的泛化性能,但無法建模landmark和target基因之間固有的非線性關(guān)系[7]。核函數(shù)方法已被應(yīng)用于非線性模型的構(gòu)建中[8],然而隨著數(shù)據(jù)維度升高及數(shù)據(jù)增加,其泛化性能急劇下降。
深度神經(jīng)網(wǎng)絡(luò)可以建模非線性關(guān)系[9]。Peng等[10]在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上增加了輸入層與輸出層的直接連接建模了兩者之間的線性和非線性映射關(guān)系。Pao等[11]在輸入層與輸出層之間增加隨機(jī)向量可迭代獲得最優(yōu)解。
基于此,本文首先提出一種基于直連輸入輸出的深度神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)的基因表達(dá)回歸預(yù)測模型——直連輸入輸出的深度神經(jīng)網(wǎng)絡(luò)基因預(yù)測模型(Direct Connect Input and Output-Deep Neural Network Gene predict Model,DCIO-DNN_GM),直連輸入輸出的具體含義為在經(jīng)典神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)上,輸入層與輸出層之間有連邊連接。該模型可同時建模landmark和target基因的線性和非線性映射關(guān)系,利用遷移學(xué)習(xí)和正則化技術(shù)在GTEx小數(shù)據(jù)集上訓(xùn)練模型,并驗(yàn)證和比較DCIO-DNN_GM模型的跨平臺預(yù)測能力。最后以多指標(biāo)、多角度分析不同模型的預(yù)測效果;結(jié)果表明:DCIO-DNN_GM模型的各項(xiàng)指標(biāo)更高。
深度神經(jīng)網(wǎng)絡(luò)(DNN)的層與層之間是全連接的,第k層第j個神經(jīng)元的計算公式為:
(1)
遷移學(xué)習(xí)[12-13]的思想是為任務(wù)A開發(fā)的模型MA被重用為任務(wù)B模型的起點(diǎn),具體在深度學(xué)習(xí)中,固定模型MA前面部分權(quán)重或參數(shù)再利用任務(wù)B的數(shù)據(jù)繼續(xù)訓(xùn)練,其核心是找到任務(wù)A與B的相似性或某種映射關(guān)系[14]。
Gene Expression Omnibus(GEO)數(shù)據(jù)集[15]和Genotype-Tissue Expression(GTEx)數(shù)據(jù)集[16]來自不同的平臺,如表1所示,且兩平臺測量的單位及量綱不同,因此調(diào)用Python庫Sklearn[17]的MinMaxScaler方法進(jìn)行數(shù)據(jù)歸一化預(yù)處理,進(jìn)而達(dá)到相同的表達(dá)水平。
表1 數(shù)據(jù)集信息
傳統(tǒng)的DNN網(wǎng)絡(luò)模型包括輸入層、輸出層和若干隱藏層,其中輸入層的節(jié)點(diǎn)取決于數(shù)據(jù)的特征個數(shù),輸出層的節(jié)點(diǎn)取決于問題本身,隱藏層通過調(diào)整權(quán)重實(shí)現(xiàn)特征數(shù)據(jù)到標(biāo)簽數(shù)據(jù)的逼近。本文提出的DCIO-DNN_GM模型,如圖1所示。其輸出層的結(jié)果不但經(jīng)過了隱藏層的非線性映射,而且融入了輸入層的線性組合。所以DCIO-DNN_GM可以建模輸入數(shù)據(jù)與輸出數(shù)據(jù)的線性和非線性映射。
圖1 DCIO-DNN_GM的網(wǎng)絡(luò)結(jié)構(gòu)
DCIO-DNN_GM模型的學(xué)習(xí)過程為隱含層的輸出C和輸出層的輸出O:
C=f(∑W1X+α)
(2)
O=∑W3X+∑W2C+γ
(3)
式中:f表示隱藏層的雙曲正切激活函數(shù);W1表示隱藏層與輸入層的權(quán)重;X表示輸入數(shù)據(jù);α表示隱藏層的偏置向量;W3表示輸入層與輸出層權(quán)重(圖1中虛線部分);W2表示輸出層與隱藏層權(quán)重;γ表示輸出層的偏置向量。
本文所有實(shí)驗(yàn)都采用損失函數(shù)為均方誤差(MSE),性能指標(biāo)包括平均絕對值誤差(MAE)、歸一化均方根誤差(NRMSE)以及決定系數(shù)(R2),計算公式分別如下:
(4)
(5)
(6)
(7)
本文實(shí)驗(yàn)分別對應(yīng)線性模型(LR)、傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)模型(D-GM)、本文模型(DCIO-DNN_GM)在誤差性能、跨平臺預(yù)測能力和擬合效果三方面的對比分析。
實(shí)驗(yàn)一:對比LR、D-GM和DCIO-DNN_GM在GEO數(shù)據(jù)上的MAE和NRMSE,結(jié)果如表2所示。本文模型不同參數(shù)組在GEO驗(yàn)證集的誤差如表3所示。
表2 不同回歸模型在GEO驗(yàn)證集的誤差
表3 DCIO-DNN_GM模型不同參數(shù)組在GEO驗(yàn)證集的誤差
“±”后的值是所有target基因MAE的標(biāo)準(zhǔn)偏差。如表2所示,LR模型分別采用L1和L2正則化技術(shù),D-GM和DCIO-DNN_GM模型采用Dropout技術(shù)且參數(shù)配置相同(只包含一層隱藏層)。如表3所示,依據(jù)MAE和NRMSE最小的原則,選擇神經(jīng)元數(shù)量與Dropout率的最優(yōu)組合進(jìn)行后續(xù)比較分析,結(jié)果如表4所示。
表4 不同回歸預(yù)測模型在GEO測試集上的實(shí)驗(yàn)誤差
由表4可知,相比于LR-L1和D-GM,DCIO-DNN_GM在兩個指標(biāo)上都有所降低,提升了誤差性能。
實(shí)驗(yàn)二:采用遷移學(xué)習(xí)方法解決GTEx數(shù)據(jù)集小樣本(如表1所示)無法直接訓(xùn)練模型的難題。
表5給出了不同模型在GTEx測試集上的實(shí)驗(yàn)結(jié)果,其中LR-L1模型僅使用GTEx數(shù)據(jù)擬合,D-GM和DCIO-DNN_GM模型使用遷移學(xué)習(xí)技術(shù)。具體方法為:首先將GTEx數(shù)據(jù)分成GTEx訓(xùn)練集和GTEx測試集,在實(shí)驗(yàn)一的基礎(chǔ)上結(jié)合遷移學(xué)習(xí)的微調(diào)策略,將D-GM和DCIO-DNN_GM模型隱藏層的前兩層權(quán)重參數(shù)固定,然后使用GTEx訓(xùn)練集數(shù)據(jù)訓(xùn)練D-GM和DCIO-DNN_GM模型,最后使用GTEx測試集數(shù)據(jù)檢驗(yàn)不同模型在GTEx數(shù)據(jù)集上的預(yù)測能力。相比于LR-L1和D-GM,DCIO-DNN_GM在MAE指標(biāo)上有所降低,提升了跨平臺預(yù)測能力。
表5 不同模型在GTEx測試集數(shù)據(jù)上的實(shí)驗(yàn)誤差
綜上,本文提出的DCIO-DNN_GM模型誤差更小,可遷移性更高,通過5組GEO測試集中target基因表達(dá)值的真實(shí)值和預(yù)測值的箱線圖對比(如圖2所示),證明了DCIO-DNN_GM模型可以預(yù)測target基因表達(dá)值。
圖2 target基因真實(shí)表達(dá)值與預(yù)測表達(dá)值對比箱線圖
實(shí)驗(yàn)三:使用決定系數(shù)(R2)比較LR-L1、D-GM和DCIO-DNN_GM模型的擬合能力。
表6給出了三種回歸模型預(yù)測9 520個探針的target基因R2分布情況。由表6可知,在[0.8,1.0)區(qū)間內(nèi),DCIO-DNN_GM模型分別是LR-L1和D-GM模型的1.92倍和1.74倍。在[0,0.6) 區(qū)間內(nèi),LR-L1和D-GM模型分別是DCIO-DNN_GM模型的1.57倍和1.49倍。結(jié)果證明DCIO-DNN_GM擬合效果更好。
表6 決定系數(shù)R2分布情況
針對基因表達(dá)譜數(shù)據(jù)高維度、少樣本和非線性的現(xiàn)實(shí)問題,本文提出DCIO-DNN模型并獲得更低的MAE和NRMSE,然后提出DCIO-DNN_GM解決了GTEx數(shù)據(jù)集小樣本無法訓(xùn)練的問題。再通過箱線圖比較了該模型可以預(yù)測target基因表達(dá)值,最后通過R2分布區(qū)間說明該模型的擬合數(shù)據(jù)能力更強(qiáng)。
然而該模型是數(shù)據(jù)驅(qū)動建模,整個過程都是利用深度神經(jīng)網(wǎng)絡(luò)擬合數(shù)據(jù)的能力而未考慮基因表達(dá)本身的機(jī)理,結(jié)合基因表達(dá)本身的機(jī)理與神經(jīng)網(wǎng)絡(luò)擬合數(shù)據(jù)的能力建模是未來研究的方向。