張奕,鄭婧,蔡鋼生,王真梅
(1.桂林理工大學 信息科學與工程學院,廣西 桂林 541004;2.廣西嵌入式技術與智能系統(tǒng)重點實驗室,廣西 桂林 541004)
長鏈非編碼RNA(long non-coding RNA,lncRNA)是非編碼RNA 家族中的一個組成部分,它擁有長度超過200 個核苷酸的轉錄產(chǎn)物[1]。研究表明lncRNA 異常表達會導致多種復雜疾病。探尋導致疾病的lncRNA,有助于理解疾病產(chǎn)生的機理,為疾病治療及預后提供參考[2]。
由于生物實驗費時費力,在現(xiàn)實生活中大多采用可計算模型代替生物實驗來實現(xiàn)lncRNA-疾病的關聯(lián)預測,為生物實驗提供高效的更準確的候選項。目前,常用基于生物網(wǎng)絡和基于機器學習這兩類計算方法預測lncRNA-疾病關聯(lián)。
基于生物網(wǎng)絡的方法通常需要構建基因相似性網(wǎng)絡,構建完成后,根據(jù)lncRNA-疾病的關聯(lián)得分大小對候選的lncRNA 進行排序來預測致病基因。最常用的是標簽傳播算法,如重啟隨機游走和KATZ 算法,它們的主要區(qū)別在于不同的傳播算法應用的底層網(wǎng)絡不同。文獻[3]根據(jù)lncRNA 功能相似性網(wǎng)絡建立了全局的重啟隨機游走算法RWRlncD,從而對潛在的關聯(lián)信息進行預測。但是該模型不能預測沒有任何已知相關lncRNA 的新疾病或沒有任何已知相關疾病的孤立lncRNA。文獻[4]基于“與多種相同miRNA 有關的lncRNA 會導致相似疾病”這一生物假設建立了RWRHLD 模型,從而預測lncRNA-疾病的關聯(lián)信息。該模型將miRNA 信息加入到lncRNA-lncRNA 網(wǎng)絡中,與疾病相似性網(wǎng)絡和已知的lncRNA-疾病關聯(lián)網(wǎng)絡整合成新網(wǎng)絡,在這個新網(wǎng)絡中實施重啟隨機游走。但是該模型不適用于預測沒有已知lncRNA-miRNA 相互作用的lncRNA,模型實用性較差。文獻[5]結合已知的lncRNA-疾病關聯(lián)、lncRNA 表達譜、lncRNA 功能相似性、疾病語義相似性和高斯相互作用譜核相似性建立基于KATZ 的lncRNA-疾病關聯(lián)預測模型KATZLDA。雖然該模型可以發(fā)現(xiàn)新疾病或孤立lncRNA,但是模型預測精度不高。
基于機器學習的方法是根據(jù)與疾病相關的已知lncRNA 和沒有任何已知關聯(lián)的lncRNA-疾病對來訓練分類器和建立模型的。文獻[6]將已知的疾病-lncRNA 關聯(lián)和lncRNA 表達譜信息進行整合,構建了LRLSLDA 計算模型來預測潛在的lncRNA-疾病關聯(lián)。該模型不需要負樣本且適用于預測孤立lncRNA,但是模型最優(yōu)參數(shù)的選取復雜,且模型分別將疾病空間和lncRNA 空間作為兩個分類器,對于同一個lncRNA-疾病對會產(chǎn)生兩個不同的得分,不同分數(shù)的選取會得出不同的預測結果。文獻[7]基于貝葉斯算法整合已知的與疾病相關的lncRNA 和多種生物學數(shù)據(jù)(基因組數(shù)據(jù)、調控和轉錄生物數(shù)據(jù)),預測潛在的lncRNA-疾病關聯(lián)。該模型雖然預測性能良好,但是貝葉斯分類器想要提高預測性能必須使用足夠多的負樣本,而此類研究缺少負樣本,隨機選擇負樣本不利于優(yōu)化貝葉斯分類器的性能。文獻[8]提出基于矩陣分解的lncRNA-疾病關聯(lián)預測模型MFLDA。該模型通過矩陣分解將數(shù)據(jù)轉換為低秩矩陣,不同的數(shù)據(jù)擁有各自的權重,并進一步引入迭代解,同時對權重矩陣和低秩矩陣進行優(yōu)化。優(yōu)化后得到的矩陣用來重建lncRNA-疾病關聯(lián),從而預測出潛在的lncRNA-疾病關聯(lián)。MFLDA 具有較好的適用性,很容易集成各種異構數(shù)據(jù)源來預測不同類型實體之間的關聯(lián),但是該模型尋找低秩矩陣最優(yōu)秩過程復雜,且模型更偏向于選擇稀疏的數(shù)據(jù)矩陣,導致模型預測精度不高。
為彌補上述不足,深度學習技術逐漸成為研究的熱點。圖作為一種能夠抽象出實體與實體之間關系的數(shù)據(jù)結構得到廣泛應用[9],圖結構可以將節(jié)點與節(jié)點間的關系通過邊的權重表現(xiàn)出來。目前,圖神經(jīng)網(wǎng)絡主要應用于相鄰節(jié)點間的信息傳遞和匯聚。文獻[10]將圖神經(jīng)網(wǎng)絡中的雙向門控循環(huán)網(wǎng)絡和標簽注意力機制結合,提出基于圖深度學習的金融文本多標簽分類算法,提升了文本分類性能。文獻[11]在動態(tài)網(wǎng)絡異常檢測中引入圖神經(jīng)網(wǎng)絡,使得結構和屬性上的異??梢酝瑫r被獲知,提升了異常檢測的準確度。文獻[12]將圖神經(jīng)網(wǎng)絡應用到會話序列推薦算法中,引入注意力機制,提出基于復雜結構信息的圖神經(jīng)網(wǎng)絡序列推薦算法,提升了會話向量在推薦過程中的準確性。文獻[13]將圖神經(jīng)網(wǎng)絡用于網(wǎng)絡中物理鏈路與路由方案路徑建模,實現(xiàn)了對延遲抖動等端到端性能指標的有效預估。
近年來,圖注意力網(wǎng)絡(Graph Attention Network,GAT)[14-15]也被應用于一些生物信息學任務中,如文獻[16]提出一種新的基于圖注意力網(wǎng)絡的方法GATMDA 識別微生物-疾病關聯(lián),文獻[17]基于圖注意力網(wǎng)絡提出預測circRNA-疾病關聯(lián)的方法GATCDA,文獻[18]基于圖注意力網(wǎng)絡預測藥物ADMET 分類。但截止到目前,較少有使用圖注意力網(wǎng)絡進行l(wèi)ncRNA-疾病關聯(lián)預測的工作。另一方面,歸納矩陣補全(Inductive Martix Completion,IMC)技術廣泛應用于生物信息領域[19-21],但也普遍存在預測精度不高的問題。如何更好地將生物信息相似性網(wǎng)絡與歸納矩陣補全技術相結合,進一步提升預測性能,是有待研究的一個問題。
本文提出一種基于圖注意力網(wǎng)絡和歸納矩陣補全技術的雙融合機制lncRNA-疾病關聯(lián)預測模型(Dual Fusion Mechanism Prediction model for lncRNADisease Association,DFMP-LDA)。引入n頭注意力機制,設計帶有雙重聚合器的圖注意力網(wǎng)絡。傳統(tǒng)的圖注意力網(wǎng)絡雖然可以穩(wěn)定自我注意的過程,但由于節(jié)點的獨立性,訓練后的節(jié)點特征不明顯,本文通過設計雙重聚合器增強lncRNA 節(jié)點與疾病節(jié)點特征,避免傳統(tǒng)可計算模型中因已知數(shù)據(jù)稀疏性導致預測精度不高的問題。在此基礎上,利用歸納矩陣補全技術恢復lncRNA-疾病關聯(lián)矩陣中缺失的元素,應用增強后的節(jié)點特征重建lncRNA-疾病關聯(lián),并使用Adam 優(yōu)化器[22]進一步提高預測精度。
如圖1 所示,DFMP-LDA 模型框架主要包括3 個步驟,具體如下:
圖1 DFMP-LDA 模型框架Fig.1 Framework of DFMP-LDA model
1)相似性網(wǎng)絡建立。整合疾病集成相似性網(wǎng)絡∈Rnd×nd和lncRNA 集成相似性網(wǎng)絡∈Rnl×nl,得到lncRNA-疾病的特征矩陣X∈R(nl+nd)×(nl+nd)。其中,nl和nd代表lncRNA 和疾病的數(shù)量。
2)lncRNA 特征、疾病特征增強。使用帶有雙重聚合器的n頭圖注意力網(wǎng)絡訓練特征矩陣X,先計算矩陣X中任意節(jié)點i與鄰居節(jié)點集的注意力分數(shù),再將節(jié)點i的特征和鄰居節(jié)點集特征進行“加”和“連接”雙重聚合操作,得到帶有注意力分數(shù)的特征矩陣Z∈R(nl+nd)×(nl+nd)。
3)lncRNA-疾病關聯(lián)重建。將第2)步得到的特征矩陣Z進行分解,得到疾病特征矩陣ZD∈Rnd×(nl+nd)和lncRNA特征矩陣ZD∈Rnl×(nl+nd),通過歸納矩陣補全技術重建原始ALD關聯(lián)網(wǎng)絡,得到新的補全后的lncRNA-疾病關聯(lián)Q∈Rnl×nd,再通過Adam優(yōu)化器進行模型優(yōu)化。
1.2.1 疾病語義相似性網(wǎng)絡建立
利用文獻[23]提出的有向無環(huán)圖(Directed Acyclic Graph,DAG)計算疾病之間的語義相似性。任意疾病dt對疾病di的語義貢獻值用(dt)表示,計算公式如下:
其中:參數(shù)γ為語義貢獻系數(shù),參考文獻[23]的研究結果,將γ設為其最優(yōu)值0.5。
由文獻[23]可知,兩種疾病的DAG 圖的重疊部分越多,兩者相似程度越高。矩陣DS∈Rnd×nd表示疾病語義相似性網(wǎng)絡,矩陣元素DS(di,dj)表示疾病di和dj的語義相似性,計算公式如下:
其中:表示疾病di的DAG 圖;S(di)表示疾病di的語義值。S(di)計算公式如下:
1.2.2 lncRNA 功能相似性網(wǎng)絡建立
由文獻[23]可知,功能相似的lncRNA 往往與表型相似的疾病有關,計算兩個lncRNA 的功能相似性首先要理解疾病的語義相似性及其與lncRNA之間的關系。用集合D={d1,d2,…,dt,…,dnd}表示疾病集,max(dt,D)表示任意疾病dt在疾病集合D中語義相似性最大值,如式(4)所示:
矩陣FS∈Rnl×nl表示lncRNA 功能相似性網(wǎng)絡,矩陣元素FS(li,lj)表示lncRNAli和lj之間的功能相似性,計算公式如式(5)所示:
其中:集合D1表示與lncRNAli有關聯(lián)的疾病集合;集合D2表示與lncRNAlj有關聯(lián)的疾病集合;m、n分別表示集合D1和集合D2中疾病的數(shù)目。
1.2.3 高斯譜核相似性網(wǎng)絡建立
如果疾病di與lncRNAlj存在經(jīng)實驗驗證的已知關聯(lián),則定義IP(di)=1;如果疾病di與任何lncRNA都不存在經(jīng)實驗驗證的已知關聯(lián),則定義IP(di)=0。因為某些疾病不具備語義相似性,所以為了降低數(shù)據(jù)稀疏性對模型的影響,將高斯核函數(shù)[24]應用到生物信息節(jié)點之間拓撲結構的關聯(lián)關系網(wǎng)絡中。核函數(shù)在機器學習以及諸多生物信息分類中被證實是高效有用的方法,使用高斯核函數(shù)計算出的疾病高斯譜核相似性(以下簡稱高斯相似性)可以代替疾病語義相似性。矩陣GD∈Rnd×nd表示疾病的高斯相似性網(wǎng)絡,矩陣元素GD(di,dj)表示疾病di和疾病dj的高斯相似性,計算公式如式(6)所示:
在式(6)中,λD是標準化的核帶寬,計算公式如式(7)所示:
同理,用矩陣GL∈Rnl×nl表示lncRNA 的高斯相似性網(wǎng)絡,矩陣元素GL(li,lj)表示lncRNAli和lj的高斯相似性,計算公式如式(8)所示:
在式(8)中,λl是標準化的核帶寬,計算公式如式(9)所示:
1.2.4 集成相似性網(wǎng)絡建立
由于并非所有疾病都可以找到相關的lncRNA,如果給定疾病缺乏相關基因,將無法得到該疾病與其他疾病的語義相似性。為了提高疾病語義相似性的準確性,將疾病的高斯相似性和疾病語義相似性進行集成。如果疾病di與疾病dj之間存在語義相似性,則將di與dj之間的語義相似性定義為疾病語義相似性DS(di,dj)和疾病高斯相似性GD(di,dj)的平均值,否則等于疾病高斯相似性GD(di,dj),由此得到疾病集成相似性網(wǎng)絡,矩陣元素(di,dj)表示疾病di與dj的集成相似性,計算公式如式(10)所示:
同理,用矩陣表示lncRNA 集成相似性網(wǎng)絡,矩陣元素(li,lj)表示lncRNAli和lj的集成相似性,計算公式如式(11)所示:
將疾病集成相似性網(wǎng)絡和lncRNA 集成相似性網(wǎng)絡結合,定義對角矩陣X表示lncRNA-疾病的特征矩陣,用于后續(xù)的模型計算。矩陣X如式(12)所示:
1.3.1 帶有雙重聚合器的n頭圖注意力網(wǎng)絡構建
原始圖注意力網(wǎng)絡通過注意力分數(shù)在節(jié)點更新時自適應聚合鄰居節(jié)點信息,通過為不同的鄰居節(jié)點分配不同的權重來學習圖上節(jié)點的表示。GAT 利用多頭注意力機制穩(wěn)定自我注意的過程,每個注意頭采用“連接”的方式聚合特征,對于特征向量的提取效果還有待改進。為更好地提取lncRNA 特征向量和疾病特征向量,根據(jù)文獻[16]設計帶有雙重聚合器的n頭圖注意力網(wǎng)絡,在每個注意頭設計中加入雙重聚合器,對節(jié)點特征進行“加”和“連接”雙重操作,并將前一個注意頭的輸出特征作為下一個注意頭的輸入特征,經(jīng)過n次迭代,構造出帶有雙重聚合器的n頭圖注意力網(wǎng)絡,達到強化節(jié)點間特征的目的。
1.3.2 注意頭中的特征增強過程
在注意頭中,特征增強過程具體如下:
1)注意特征訓練層
在特征矩陣X中任選一個元素作為節(jié)點i,根據(jù)圖注意力網(wǎng)絡的設計思想,計算節(jié)點i的鄰居節(jié)點j對節(jié)點i在第k次迭代中的注意力分數(shù),計算公式如下:
其中:f(·)表示單層神經(jīng)網(wǎng)絡;表示節(jié)點i在第k次(1≤k≤n)迭代過程中的特征向量;W∈R(nl+nd)×l表示權重矩陣。
為了使特征矩陣X中所有節(jié)點的注意力分數(shù)值在[0,1]區(qū)間,使用Softmax 函數(shù)進行標準化,標準化后的注意力分數(shù)用表示,計算公式如式(14)所示:
其中:Ni表示矩陣X中節(jié)點i的鄰居節(jié)點集合。
表示節(jié)點i在第k次迭代時鄰居節(jié)點集特征,計算公式如式(15)所示:
2)神經(jīng)特征聚合層
在原始圖注意力網(wǎng)絡中,神經(jīng)特征聚合層僅僅是將注意特征訓練層的特征進行“連接”操作,為增強節(jié)點特征,本文在注意特征訓練層得到節(jié)點i在第k次迭代時的鄰居節(jié)點集特征后,根據(jù)文獻[16]設計雙重聚合器,通過“加”和“連接”雙重聚合操作,實現(xiàn)對特征和的聚合。以Zk表示第k次聚合后的特征向量,計算公式如下:
其中:LeakyReLU(·)表示激活函數(shù);“+”表示加操作;“||”表示連接操作;W1∈R(nl+nd)×k表示權重矩陣。
最后,每次聚合后的特征Zk經(jīng)過n頭圖注意力網(wǎng)絡,得到最終的特征矩陣Z:
其中:ZD表示疾病特征矩陣;ZL表示lncRNA特征矩陣。
注:特征矩陣Z是原始特征矩陣X經(jīng)過n頭圖注意力網(wǎng)絡得到的,故特征矩陣Z的前nd行表示疾病特征矩陣,其維數(shù)為nd×(nl+nd),其余行表示lncRNA 特征矩陣。
在lncRNA-疾病關聯(lián)預測方面,研究者常采用矩陣補全的方式,用低秩的關聯(lián)矩陣表示lncRNA-疾病的關聯(lián)關系,通過較少的已知關聯(lián)恢復原始矩陣[25]。但傳統(tǒng)的矩陣補全技術依賴于現(xiàn)存的lncRNA-疾病關聯(lián)進行預測,由于關聯(lián)矩陣中存在整行、整列數(shù)據(jù)缺失的情況,會導致冷啟動發(fā)生,因此不能達到理想的預測效果。DFMP-LDA 采用歸納式矩陣補全技術,打破傳統(tǒng)矩陣補全的局限,使矩陣補全不只是單純依賴關聯(lián)矩陣,而是還加入了樣本和未標記信息,實現(xiàn)預測未知樣本的功能。
DFMP-LDA 模型使用上一步推導得到的疾病特征向量ZD和lncRNA 特征向量ZL補全已知的關聯(lián)矩陣ALD,重建lncRNA-疾病關聯(lián),得到補全后的關聯(lián)矩陣Q,計算公式如下:
在此基礎上,通過最小化損失函數(shù)實現(xiàn)參數(shù)訓練,根據(jù)文獻[22],選擇Adam 優(yōu)化器對矩陣Q進行優(yōu)化,具體優(yōu)化過程如下:
其中:L表示損失函數(shù);η表示衰減系數(shù);λ表示平衡正則項的平衡因子,其值設置為1;W2表示權重矩陣。
對原始數(shù)據(jù)庫LncRNA Disease v2.0[26]進行預處理,收集與人類疾病關系密切的lncRNA 及其關聯(lián),去除重復疾病和lncRNA,最終得到本文使用的數(shù)據(jù)集Dataset1。Dataset1中含有352個經(jīng)實驗驗證的lncRNA-疾病已知關聯(lián)對,涉及156 種lncRNA 和190 種疾病。為了建立模型,用矩陣Ald表示352 個已知的lncRNA-疾病關聯(lián),nl和nd代表lncRNA 和疾病的數(shù)量。矩陣元素ALD(i,j)=1,表示lncRNAli與疾病dj之間存在經(jīng)實驗驗證的已知關聯(lián);矩陣元素ALD(i,j)=0,表示lncRNAli與疾病dj之間不存在經(jīng)實驗驗證的已知關聯(lián)。所有實驗均在配置Intel Core i5-10210U,1.60 GHz CPU和64位處理器以及Windows 10 操作系統(tǒng)的計算機上完成。
本文采用五折交叉驗證法,將已知的lncRNA-疾病關聯(lián)隨機分成5組,實驗過程中依次選擇1組lncRNA-疾病關聯(lián)(即正樣本)和1 組相同大小的未知關聯(lián)lncRNA-疾病對(即負樣本)作為測試樣本,剩下的4 組lncRNA-疾病關聯(lián)以及其余未知lncRNA-疾病對用來訓練模型。通過設置不同的閾值,獲得真陽率(True Positive Rate,TPR)、假陽率(False Positive Rate,F(xiàn)PR)、召回率、精度4 個模型評價指標,根據(jù)這4 個評價指標繪制ROC 曲線和PR 曲線,模型性能通過ROC 曲線下面積(AUC)和PR 曲線下面積(AUPR)衡量。為了避免隨機分組的影響,每組實驗重復進行10 次,最后根據(jù)10 次重復實驗的平均值計算AUC 值和AUPR 值。
本節(jié)分析注意頭數(shù)目n和Adam 優(yōu)化器中衰減系數(shù)η對模型DFMP-LDA 預測性能的影響。首先根據(jù)文獻[16]將注意頭數(shù)目n設置為4,分析衰減系數(shù)η對DFMP-LDA 的影響。將參數(shù)值η從5E-6 增加到5E-1(步長為E-1),對數(shù)據(jù)集Dataset1 執(zhí)行五折交叉驗證,得到的AUC值如圖2所示。可以看出,當η為5E-3時,AUC值為最優(yōu)值0.9528;當η為5E-2時,得到AUC的最小值0.822 8。類似地,將η設置為5E-3 后,改變注意頭數(shù)目n,發(fā)現(xiàn)當n為5 時,得到最優(yōu)值0.932 2,如圖3 所示。綜合以上兩步,通過設置注意頭數(shù)目n為5,衰減系數(shù)η為5E-3,DFMP-LDA獲得最佳AUC 值0.932 2。
圖2 不同衰減系數(shù)下的AUC值Fig.2 AUC values under different delay factors
圖3 不同數(shù)目注意頭下的AUC值Fig.3 AUC values under different number of attention heads
將DFMP-LDA與現(xiàn)有的3種基于機器學習和基于矩陣分解的計算方法SDLDA[27]、DMF-LDA[28]、TPGLDA[29]在相同的數(shù)據(jù)集Dataset1上進行比較。SDLDA使用奇異值分解提取lncRNA和疾病的線性特征,使用具有2 個完全連接層的神經(jīng)網(wǎng)絡學習lncRNA和疾病的非線性特征,將線性特征和非線性特征結合成一個向量用于最終預測。DMF-LDA 使用帶有一系列非線性隱藏層的神經(jīng)網(wǎng)絡,從lncRNA-疾病關聯(lián)矩陣中提取lncRNA 和疾病的潛在特征,然后將這2 個特征融合成一個新的向量,用其執(zhí)行預測任務。TPGLDA將基因疾病關聯(lián)與lncRNA 疾病關聯(lián)相結合,基于分配算法預測潛在的lncRNA 疾病關聯(lián)。五折交叉驗證后,得到DFMP-LDA 與其他3 種模型的ROC 曲線、PR 曲線、AUC 值、AUPR 值和預測時間,分別如圖4、圖5 和表1 所示。
圖4 DFMP-LDA 與其他模型的ROC 曲線Fig.4 ROC curves of DFMP-LDA and other models
圖5 DFMP-LDA 與其他模型的PR 曲線Fig.5 PR curves of DFMP-LDA and other models
表1 DFMP-LDA 與其他模型的預測性能對比Table 1 Prediction performance comparison of DFMP-LDA and other models
由表1 可知,從AUC 值和AUPR 值來看,DFMPLDA的預測性能優(yōu)于SDLDA和DMFLDA,雖然DFMPLDA 的AUC 值比TPGLDA 低了0.76%,但是AUPR 值比TPGLDA 高1.75%,而且在預測時間上DFMP-LDA較TPGLDA 節(jié)省了16.12%。從AUC 值、AUPR 值和預測時間3 個方面得出,DFMP-LDA 的綜合性能最優(yōu)。
本文建立一種融合圖注意力網(wǎng)絡和歸納矩陣補全技術的lncRNA-疾病關聯(lián)預測模型,該模型利用圖注意力網(wǎng)絡的n頭注意力機制對節(jié)點及其鄰居節(jié)點集特征進行加權,并通過注意頭中的雙重聚合操作進一步增強節(jié)點特征。在此基礎上,增強后的特征矩陣輸入到歸納矩陣補全過程中,補全原始關聯(lián)矩陣中缺失元素,重建lncRNA-疾病關聯(lián)網(wǎng)絡。五折交叉驗證結果顯示,DFMP-LDA 與對比的3 種計算模型相比AUPR值最優(yōu),AUC 值分別比SDLDA 模型和DMFLDA 模型高7.64%、10.18%,雖然AUC 略低于TPGLDA 模型,但是預測時間節(jié)省了16.12%。以上結果顯示,DFMP-LDA模型是一個可靠的lncRNA-疾病關聯(lián)預測模型。
如何整合多種lncRNA 和疾病的生物信息是未來主要的研究方向。此外,因為無法獲得新lncRNA和孤立疾病的特征,所以DFMP-LDA 不能對這些基因和疾病進行預測。后續(xù)將考慮結合基因測序等手段收集更多的生物信息,同時對聚合器進行優(yōu)化,進一步提高預測準確性。