劉曉燕,陳希,郭茂祖,2,車凱,王春宇
(1. 哈爾濱工業(yè)大學 計算機科學與技術學院,黑龍江 哈爾濱 150001; 2. 北京建筑大學 電氣與信息工程學院,北京 100044)
MicroRNAs(miRNAs)是一類很小的內(nèi)源性非編碼RNA,長度約為20~24個核苷酸,通過堿基配對與其靶向的mRNA的3'端非編碼區(qū)相結(jié)合,導致靶mRNA的降解或翻譯抑制,從而在轉(zhuǎn)錄后水平上調(diào)控基因表達[1-3]。越來越多的證據(jù)表明,miRNA在免疫反應、轉(zhuǎn)錄、增殖、分化、信號傳導和胚胎發(fā)育等[4-7]生物過程中起著重要的作用,miRNA突變、miRNA的生物合成和miRNA與其靶mRNA的功能失調(diào)可能會導致各種疾病。因此,識別miRNA與疾病之間的互作關系至關重要。早期研究采用生物學實驗方法確定miRNA與特定疾病的關系,然而生物學實驗方法實驗周期長、成本高。因此計算生物學方法分析、預測miRNAs和疾病的關聯(lián)問題成為了當前的研究熱點。
目前,miRNA和疾病的關聯(lián)預測主要分為基于網(wǎng)絡拓撲結(jié)構的方法和機器學習的方法。
基于網(wǎng)絡拓撲結(jié)構的研究方法建立在“功能相似的miRNA調(diào)控的疾病也比較相似,反之亦然[8-9]”這個假設基礎上,文獻[10-19]就此展開了一系列研究工作。2010年,Jiang等[10]首次提出一種計算方法,構建功能相關miRNA網(wǎng)絡和人類疾病表型-miRNA網(wǎng)絡,將人類的miRNA組按照與疾病關聯(lián)得分的大小排序,預測miRNA與疾病的關聯(lián)。這是以前用基于網(wǎng)絡的方法預測與疾病相關的編碼蛋白基因的合理延伸。2010年,Jiang等[11]又提出一種基于基因組數(shù)據(jù)融合的新方法,用樸素貝葉斯模型融合多種來源的數(shù)據(jù),構建一個模型預測基因之間的功能相關性。分別用兩個向量表示疾病與基因之間的關聯(lián)、miRNA與靶基因之間的關聯(lián)。對于給定的疾病,計算其與每個miRNA的相似得分,并從高到低排序,最高得分為與該疾病相關的miRNA。Chen等[12]將隨機游走算法應用到miRNA-miRNA功能相似網(wǎng)絡,在給定的種子結(jié)點處開始,將已知的關聯(lián)關系的大小作為轉(zhuǎn)移概率,模擬網(wǎng)絡中當前結(jié)點擴散到其鄰結(jié)點的過程,以此來挖掘網(wǎng)絡中可能潛在的關聯(lián)關系。Chen等[13]在2013年又提出一種基于相似度的方法,分為3個策略:基于miRNA的相似度推斷 (miRNA-based similarity inference,MBSI)、基于表型的相似度推斷(phenotype-based similarity inference,PBSI)和基于網(wǎng)絡一致性的推斷(networkconsistency-based inference,NetCBI);Shi等[14]于2013年提出一種基于可重啟的隨機游走 (random walk with restart,RWR)算法的新方法,將疾病基因和miRNA靶基因映射到蛋白質(zhì)?蛋白質(zhì)互作(protein-protein interaction,PPI)網(wǎng)絡上,設置不同的種子應用RWR算法;Xuan等[15]后又提出名為HDMP的方法——基于加權最相似k近鄰的方法,預測與疾病相關的miRNA;Xu等[16]主要通過比對miRNA與mRNA表達譜融合多種疾病的表型關聯(lián),預測與癌癥相關的miRNA;2013年,Mork等[17]提出一種蛋白質(zhì)介導的預測方法,通過miRNA與蛋白質(zhì)之間的關聯(lián)、蛋白質(zhì)與疾病之間的關聯(lián)預測miRNA與疾病之間的關系;2016年,Sun等[19]提出了基于已知的miRNA-疾病網(wǎng)絡拓撲相似性,以挖掘更多潛在的與疾病相關的miRNA,利用二分投影的方法,來完成miRNA與疾病的關聯(lián)預測工作。
到目前為止,基于網(wǎng)絡拓撲結(jié)構的研究方法處理miRNAs和疾病的關聯(lián)預測問題上,更多的傾向于基于已知的關聯(lián)關系來挖掘其中潛在的關系,而對缺少已知關聯(lián)信息的miRNAs和疾病,其結(jié)果往往呈現(xiàn)隨機化。
在機器學習方法研究上。2012年,Xu等[20]首先使用機器學習方法預測miRNA與疾病之間的關系。這種方法旨在從大規(guī)模的反例中分辨出正例關聯(lián),核心是從miRNA-疾病網(wǎng)絡中提取特征,訓練一個SVM分類器。2013年,Jiang等[21]又通過構建不同于Xu的特征集——一個關于miRNA信息的特征集和一個關于疾病表型信息的特征集,應用此方法得到相近的結(jié)果。2014年,Chen等[22]提出一種半監(jiān)督的全局化方法(regularized least squares for mirna-disease association,RLSMDA),在沒有負例集的情況下預測miRNA與疾病的關聯(lián)。用正則化最小二乘法構建一個連續(xù)的分類函數(shù),表示每個miRNA與給定疾病相關的概率,對于未知相關miRNA的疾病,該方法也適用。
基于機器學習的方法能夠取得與“基于網(wǎng)絡拓撲結(jié)構方法”相近或者更好結(jié)果,有的甚至很好地處理未知miRNA的疾病,例如RLSMDA。而機器學習主要受制于miRNAs與疾病特征的表示,以及對如何處理有正樣本數(shù)據(jù)的模型設計。
基于矩陣分解的算法用高維空間的向量解決了特征表示的問題,算法同時構建miRNAs和疾病在高維空間的表示,并以此為基礎獲得其關聯(lián)關系,用迭代最小二乘法求解出最終的miRNA-疾病關聯(lián)關系的概率。這個求解思路來源于推薦系統(tǒng)中當前所流行的矩陣分解方法,對解決類似的關聯(lián)關系預測問題在近年來也被證明非常有效。Shen[23]在2017年首次提出基于矩陣分解的方法對miRNAs和疾病的關聯(lián)關系進行預測,并取得了比Chen[22]更好的效果,但在其迭代求解的過程中,受到其損失函數(shù)的影響無法使用最小二乘法,導致其每個變量都需要迭代求解,這在同時要求多個變量迭代求解的情況下,其結(jié)果很大程度上依賴于初始解的選擇,在很多的情況下甚至無法收斂,算法的穩(wěn)定性難以保證。
本文提出的LMFMDA算法,首先構建miRNAs相似性網(wǎng)絡、疾病相似性網(wǎng)絡和miRNA-疾病關聯(lián)網(wǎng)絡;進而構建矩陣分解算法模型,算法在利用迭代最小二乘法優(yōu)化求解的過程中,通過引入輔助miRNAs和疾病變量的方法,提高計算速度,解決收斂結(jié)果最優(yōu)的問題,確保算法的穩(wěn)定性。
在本節(jié)介紹LMFMDA算法所使用的數(shù)據(jù)和處理方法。數(shù)據(jù)來源如表1所示。
表 1 數(shù)據(jù)材料及其來源表題Table 1 Data materials and the sources
直接從MISIM數(shù)據(jù)庫獲得miRNAs的功能相似度網(wǎng)絡MS,網(wǎng)絡中miRNA之間的相似度被表示為[0, 1]的實數(shù)。
疾病的語義相似性通過MeSH得到,計算方法來自Wang[24],假設疾病t是疾病d的一個祖先,或者 d=t,令:
疾病1和疾病2之間的語義相似性DS(d1,d2)即
在HMDD數(shù)據(jù)庫下載了現(xiàn)有的miRNAs-疾病關聯(lián)關系網(wǎng)絡。網(wǎng)絡包含了378個疾病、571個miRNAs及其構成的10 381個關聯(lián)關系。關聯(lián)矩陣R中,如果miRNA m(i)和疾病 d(j)被認為有關,則 R(m(i)、d(j))為 1,否則,為 0。
將上述3個數(shù)據(jù)庫的數(shù)據(jù)進行融合,最終得到了重合的446個miRNAs和322個疾病,和已經(jīng)確認的5 152條miRNAs-疾病關聯(lián)關系。
在疾病上的分布如圖1所示。
圖1 miRNAs-疾病關聯(lián)關系在疾病中的分布圖Fig. 1 Distribution map of the miRNAs-disease association in diseases
在miRNA上的分布如圖2所示。
圖2 miRNAs-疾病關聯(lián)關系在miRNA中的分布圖Fig. 2 Distribution map of the miRNAs-disease association in miRNAs
本文中,引入了矩陣分解的思想來解決miRNAs-疾病關聯(lián)關系預測問題。
首先,通過整合miRNAs功能相似度網(wǎng)絡和疾病語義相似性網(wǎng)絡得到最終的miRNAs相似度矩陣MS和疾病相似度矩陣DS,以及已經(jīng)被實驗驗證的miRNAs-疾病關聯(lián)網(wǎng)絡R。
首先,對每個miRNA和疾病,給定它們在固定長度為k的維度空間的初始化投影向量,并以其內(nèi)積來表示miRNAs和疾病的關聯(lián)關系,可以用式(3)表示:式中:M是由m(本文中m=446)個k維列向量組成的k行m列的矩陣,同樣的,D是k行d列(本文中d=322)的矩陣。我們的目標即是通過求解合適的M和D來最小化R′和真實關系R的距離,即
考慮到這樣的函數(shù)是二次的形式,在迭代優(yōu)化時很難化簡為不含有自身變量的等式,這會使得在迭代的過程中無法取得最優(yōu)解,我們引入了輔助矩陣X和Y來進行優(yōu)化,式(4)可以變形為
經(jīng)驗性地,我們對需要約束的M、D加入二范數(shù)的約束,以防止模型陷入過擬合。最終的損失函數(shù)如式(6)所示:
我們采用迭代最小二乘的方式來優(yōu)化這個問題,先固定D、X、Y,求解M。對M求導,有
同樣,固定其他參數(shù),分別求解D、X、Y,有:
具體算法步驟如下:
1) 初始化miRNAs和疾病的向量矩陣M、D,以及輔助向量X、Y,并構建損失函數(shù);
2) 用迭代最小二乘法求解M和D;
3)根據(jù)M和D預測miRNAs-疾病的關聯(lián)關系。
算法框架如圖3所示。
圖3 LMFMDA算法模型框圖Fig. 3 The flow chat of LMFMDA algorithm model
空間復雜度上,LMFMDA要求MS、DS、R、M、D、X和Y的存儲空間,其空間復雜度為
實驗采用留一交叉驗證方式進行,對每個關系,將同一疾病下的未知關聯(lián)視為負例,當前關聯(lián)視為正例,最終得到的AUC作為評價結(jié)果。
miRNAs與疾病的向量矩陣M與D初始化為取值在[0, 1]上的隨機向量,X與Y分別初始化為等同于M和D。
在第1節(jié)得到的446個miRNAs和322個疾病上分別實驗了 RWRMDA[13]、RLSMDA[22]、CMFMDA[23]以及本文提出的LMFMDA算法。實驗結(jié)果如圖4所示,LMFMDA的效果明顯好于其他3種方法。
圖4 RWRMDA、CMFMDA、RLSMDA和LMFMDA的AUC結(jié)果Fig. 4 The AUC results of RWRMDA, CMFMDA, RLSMDA and LMFMDA
我們分別記錄了已知關聯(lián)數(shù)>60的21個疾病的實驗結(jié)果(見表2、表3),以及已知關聯(lián)數(shù)=1的部分疾病的實驗結(jié)果。已知關聯(lián)數(shù)為1的疾病在進行留一法實驗時,會將唯一一個已知的關聯(lián)miRNA抹去,此時其已知關聯(lián)數(shù)變?yōu)?,可以用于考察算法在新疾病中的應用效果。
表 2 高關聯(lián)疾病在不同算法下的AUC結(jié)果Table 2 The AUC results of high association diseases on different algorithm
續(xù)表2
表 3 新疾病在不同算法下的AUC結(jié)果Table 3 The AUC results of new diseases on different algorithm
可以看到,不論是在關聯(lián)數(shù)較多的疾病或關聯(lián)數(shù)極少的疾病上,LMFMDA均表現(xiàn)出了優(yōu)異的效果。
在提出LMFMDA的損失函數(shù)前,曾試圖對每個miRNA和疾病標注一個先驗關聯(lián)值,作為第k+1維,也是不參與運算的常數(shù)維。即:
然而其k值和AUC關聯(lián)關系如圖5所示。
圖5 帶常數(shù)維模型中k與AUC關系圖Fig. 5 The relation diagram of k and AUC in a model with constant dimensional
可以看到,在k>100時,AUC值基本趨于穩(wěn)定。而對k=100維這樣的子空間來說,單獨的常數(shù)維并不會對結(jié)果有很大的影響,于是刪除了假設的先驗關聯(lián)值,最終確定了預測模型。
本文基于矩陣分解和迭代最小二乘的方法(LMFMDA)對miRNAs和疾病的關聯(lián)關系進行預測。首先對miRNAs相似度矩陣、疾病相似度矩陣和miRNAs-疾病關聯(lián)關系進行數(shù)據(jù)融合,采用迭代最小二乘法求解miRNAs和疾病的表達向量,最后利用miRNAs和疾病的表達向量完成對miRNA與疾病關聯(lián)關系的預測。同時,通過引入輔助miRNAs和疾病變量的方法,解決了收斂結(jié)果的最優(yōu)問題。實驗顯示,LMFMDA在高關聯(lián)疾病和新疾病預測中相對于其他方法均取了較優(yōu)的結(jié)果。
綜上,本文提出的miRNA與疾病關聯(lián)預測算法LMFMDA,一方面可以處理未知相關miRNAs的疾病、或者未知相關疾病的miRNAs;另一方面,實驗結(jié)果也表明,LMFMDA算法在miRNAs和疾病的關聯(lián)關系預測上相較其他算法有更好的效果。