亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種預測miRNA與疾病關聯(lián)關系的矩陣分解算法

2018-11-05 09:12:40劉曉燕陳希郭茂祖車凱王春宇

智能系統(tǒng)學報 2018年6期

劉曉燕，陳希，郭茂祖,2，車凱，王春宇

（1. 哈爾濱工業(yè)大學計算機科學與技術學院,黑龍江哈爾濱 150001; 2. 北京建筑大學電氣與信息工程學院，北京 100044）

MicroRNAs(miRNAs)是一類很小的內(nèi)源性非編碼RNA，長度約為20～24個核苷酸，通過堿基配對與其靶向的mRNA的3'端非編碼區(qū)相結(jié)合，導致靶mRNA的降解或翻譯抑制，從而在轉(zhuǎn)錄后水平上調(diào)控基因表達[1-3]。越來越多的證據(jù)表明，miRNA在免疫反應、轉(zhuǎn)錄、增殖、分化、信號傳導和胚胎發(fā)育等[4-7]生物過程中起著重要的作用，miRNA突變、miRNA的生物合成和miRNA與其靶mRNA的功能失調(diào)可能會導致各種疾病。因此，識別miRNA與疾病之間的互作關系至關重要。早期研究采用生物學實驗方法確定miRNA與特定疾病的關系，然而生物學實驗方法實驗周期長、成本高。因此計算生物學方法分析、預測miRNAs和疾病的關聯(lián)問題成為了當前的研究熱點。

1 相關工作

目前，miRNA和疾病的關聯(lián)預測主要分為基于網(wǎng)絡拓撲結(jié)構的方法和機器學習的方法。

基于網(wǎng)絡拓撲結(jié)構的研究方法建立在“功能相似的miRNA調(diào)控的疾病也比較相似，反之亦然[8-9]”這個假設基礎上，文獻[10-19]就此展開了一系列研究工作。2010年，Jiang等[10]首次提出一種計算方法，構建功能相關miRNA網(wǎng)絡和人類疾病表型-miRNA網(wǎng)絡，將人類的miRNA組按照與疾病關聯(lián)得分的大小排序，預測miRNA與疾病的關聯(lián)。這是以前用基于網(wǎng)絡的方法預測與疾病相關的編碼蛋白基因的合理延伸。2010年，Jiang等[11]又提出一種基于基因組數(shù)據(jù)融合的新方法，用樸素貝葉斯模型融合多種來源的數(shù)據(jù)，構建一個模型預測基因之間的功能相關性。分別用兩個向量表示疾病與基因之間的關聯(lián)、miRNA與靶基因之間的關聯(lián)。對于給定的疾病，計算其與每個miRNA的相似得分，并從高到低排序，最高得分為與該疾病相關的miRNA。Chen等[12]將隨機游走算法應用到miRNA-miRNA功能相似網(wǎng)絡，在給定的種子結(jié)點處開始，將已知的關聯(lián)關系的大小作為轉(zhuǎn)移概率，模擬網(wǎng)絡中當前結(jié)點擴散到其鄰結(jié)點的過程，以此來挖掘網(wǎng)絡中可能潛在的關聯(lián)關系。Chen等[13]在2013年又提出一種基于相似度的方法，分為3個策略：基于miRNA的相似度推斷 (miRNA-based similarity inference，MBSI)、基于表型的相似度推斷(phenotype-based similarity inference，PBSI)和基于網(wǎng)絡一致性的推斷(networkconsistency-based inference，NetCBI)；Shi等[14]于2013年提出一種基于可重啟的隨機游走 (random walk with restart，RWR)算法的新方法，將疾病基因和miRNA靶基因映射到蛋白質(zhì)?蛋白質(zhì)互作(protein-protein interaction，PPI)網(wǎng)絡上，設置不同的種子應用RWR算法；Xuan等[15]后又提出名為HDMP的方法——基于加權最相似k近鄰的方法，預測與疾病相關的miRNA；Xu等[16]主要通過比對miRNA與mRNA表達譜融合多種疾病的表型關聯(lián)，預測與癌癥相關的miRNA；2013年，Mork等[17]提出一種蛋白質(zhì)介導的預測方法，通過miRNA與蛋白質(zhì)之間的關聯(lián)、蛋白質(zhì)與疾病之間的關聯(lián)預測miRNA與疾病之間的關系；2016年，Sun等[19]提出了基于已知的miRNA-疾病網(wǎng)絡拓撲相似性，以挖掘更多潛在的與疾病相關的miRNA，利用二分投影的方法，來完成miRNA與疾病的關聯(lián)預測工作。

到目前為止，基于網(wǎng)絡拓撲結(jié)構的研究方法處理miRNAs和疾病的關聯(lián)預測問題上，更多的傾向于基于已知的關聯(lián)關系來挖掘其中潛在的關系，而對缺少已知關聯(lián)信息的miRNAs和疾病，其結(jié)果往往呈現(xiàn)隨機化。

在機器學習方法研究上。2012年，Xu等[20]首先使用機器學習方法預測miRNA與疾病之間的關系。這種方法旨在從大規(guī)模的反例中分辨出正例關聯(lián)，核心是從miRNA-疾病網(wǎng)絡中提取特征，訓練一個SVM分類器。2013年，Jiang等[21]又通過構建不同于Xu的特征集——一個關于miRNA信息的特征集和一個關于疾病表型信息的特征集，應用此方法得到相近的結(jié)果。2014年，Chen等[22]提出一種半監(jiān)督的全局化方法(regularized least squares for mirna-disease association，RLSMDA)，在沒有負例集的情況下預測miRNA與疾病的關聯(lián)。用正則化最小二乘法構建一個連續(xù)的分類函數(shù)，表示每個miRNA與給定疾病相關的概率，對于未知相關miRNA的疾病，該方法也適用。

基于機器學習的方法能夠取得與“基于網(wǎng)絡拓撲結(jié)構方法”相近或者更好結(jié)果，有的甚至很好地處理未知miRNA的疾病，例如RLSMDA。而機器學習主要受制于miRNAs與疾病特征的表示，以及對如何處理有正樣本數(shù)據(jù)的模型設計。

基于矩陣分解的算法用高維空間的向量解決了特征表示的問題，算法同時構建miRNAs和疾病在高維空間的表示，并以此為基礎獲得其關聯(lián)關系，用迭代最小二乘法求解出最終的miRNA-疾病關聯(lián)關系的概率。這個求解思路來源于推薦系統(tǒng)中當前所流行的矩陣分解方法，對解決類似的關聯(lián)關系預測問題在近年來也被證明非常有效。Shen[23]在2017年首次提出基于矩陣分解的方法對miRNAs和疾病的關聯(lián)關系進行預測，并取得了比Chen[22]更好的效果，但在其迭代求解的過程中，受到其損失函數(shù)的影響無法使用最小二乘法，導致其每個變量都需要迭代求解，這在同時要求多個變量迭代求解的情況下，其結(jié)果很大程度上依賴于初始解的選擇，在很多的情況下甚至無法收斂，算法的穩(wěn)定性難以保證。

本文提出的LMFMDA算法，首先構建miRNAs相似性網(wǎng)絡、疾病相似性網(wǎng)絡和miRNA-疾病關聯(lián)網(wǎng)絡；進而構建矩陣分解算法模型，算法在利用迭代最小二乘法優(yōu)化求解的過程中，通過引入輔助miRNAs和疾病變量的方法，提高計算速度，解決收斂結(jié)果最優(yōu)的問題，確保算法的穩(wěn)定性。

2 實驗數(shù)據(jù)

在本節(jié)介紹LMFMDA算法所使用的數(shù)據(jù)和處理方法。數(shù)據(jù)來源如表1所示。

表 1 數(shù)據(jù)材料及其來源表題Table 1 Data materials and the sources

2.1 miRNAs功能相似度網(wǎng)絡

直接從MISIM數(shù)據(jù)庫獲得miRNAs的功能相似度網(wǎng)絡MS，網(wǎng)絡中miRNA之間的相似度被表示為[0, 1]的實數(shù)。

2.2 疾病語義相似性網(wǎng)絡

疾病的語義相似性通過MeSH得到，計算方法來自Wang[24]，假設疾病t是疾病d的一個祖先，或者 d=t，令：

疾病1和疾病2之間的語義相似性DS(d1,d2)即

2.3 miRNAs-疾病關聯(lián)關系網(wǎng)絡

在HMDD數(shù)據(jù)庫下載了現(xiàn)有的miRNAs-疾病關聯(lián)關系網(wǎng)絡。網(wǎng)絡包含了378個疾病、571個miRNAs及其構成的10 381個關聯(lián)關系。關聯(lián)矩陣R中，如果miRNA m(i)和疾病 d(j)被認為有關，則 R(m(i)、d(j))為 1，否則，為 0。

2.4 數(shù)據(jù)融合

將上述3個數(shù)據(jù)庫的數(shù)據(jù)進行融合，最終得到了重合的446個miRNAs和322個疾病，和已經(jīng)確認的5 152條miRNAs-疾病關聯(lián)關系。

在疾病上的分布如圖1所示。

圖1 miRNAs-疾病關聯(lián)關系在疾病中的分布圖Fig. 1 Distribution map of the miRNAs-disease association in diseases

在miRNA上的分布如圖2所示。

圖2 miRNAs-疾病關聯(lián)關系在miRNA中的分布圖Fig. 2 Distribution map of the miRNAs-disease association in miRNAs

3 LMFMDA算法模型

3.1 損失函數(shù)

本文中，引入了矩陣分解的思想來解決miRNAs-疾病關聯(lián)關系預測問題。

首先，通過整合miRNAs功能相似度網(wǎng)絡和疾病語義相似性網(wǎng)絡得到最終的miRNAs相似度矩陣MS和疾病相似度矩陣DS，以及已經(jīng)被實驗驗證的miRNAs-疾病關聯(lián)網(wǎng)絡R。

首先，對每個miRNA和疾病，給定它們在固定長度為k的維度空間的初始化投影向量，并以其內(nèi)積來表示miRNAs和疾病的關聯(lián)關系，可以用式(3)表示：式中：M是由m(本文中m=446)個k維列向量組成的k行m列的矩陣，同樣的，D是k行d列(本文中d=322)的矩陣。我們的目標即是通過求解合適的M和D來最小化R′和真實關系R的距離，即

考慮到這樣的函數(shù)是二次的形式，在迭代優(yōu)化時很難化簡為不含有自身變量的等式，這會使得在迭代的過程中無法取得最優(yōu)解，我們引入了輔助矩陣X和Y來進行優(yōu)化，式(4)可以變形為

經(jīng)驗性地，我們對需要約束的M、D加入二范數(shù)的約束，以防止模型陷入過擬合。最終的損失函數(shù)如式(6)所示：

3.2 優(yōu)化

我們采用迭代最小二乘的方式來優(yōu)化這個問題，先固定D、X、Y，求解M。對M求導，有

同樣，固定其他參數(shù)，分別求解D、X、Y，有：

3.3 關聯(lián)關系預測

3.4 算法框架

具體算法步驟如下：

1) 初始化miRNAs和疾病的向量矩陣M、D，以及輔助向量X、Y，并構建損失函數(shù)；

2) 用迭代最小二乘法求解M和D；

3)根據(jù)M和D預測miRNAs-疾病的關聯(lián)關系。

算法框架如圖3所示。

圖3 LMFMDA算法模型框圖Fig. 3 The flow chat of LMFMDA algorithm model

3.5 復雜度分析

空間復雜度上，LMFMDA要求MS、DS、R、M、D、X和Y的存儲空間，其空間復雜度為

4 實驗結(jié)果

實驗采用留一交叉驗證方式進行，對每個關系，將同一疾病下的未知關聯(lián)視為負例，當前關聯(lián)視為正例，最終得到的AUC作為評價結(jié)果。

4.1 實驗參數(shù)

miRNAs與疾病的向量矩陣M與D初始化為取值在[0, 1]上的隨機向量，X與Y分別初始化為等同于M和D。

4.2 結(jié)果評價

在第1節(jié)得到的446個miRNAs和322個疾病上分別實驗了 RWRMDA[13]、RLSMDA[22]、CMFMDA[23]以及本文提出的LMFMDA算法。實驗結(jié)果如圖4所示，LMFMDA的效果明顯好于其他3種方法。

圖4 RWRMDA、CMFMDA、RLSMDA和LMFMDA的AUC結(jié)果Fig. 4 The AUC results of RWRMDA, CMFMDA, RLSMDA and LMFMDA

4.3 分析

我們分別記錄了已知關聯(lián)數(shù)＞60的21個疾病的實驗結(jié)果(見表2、表3)，以及已知關聯(lián)數(shù)=1的部分疾病的實驗結(jié)果。已知關聯(lián)數(shù)為1的疾病在進行留一法實驗時，會將唯一一個已知的關聯(lián)miRNA抹去，此時其已知關聯(lián)數(shù)變?yōu)?，可以用于考察算法在新疾病中的應用效果。

表 2 高關聯(lián)疾病在不同算法下的AUC結(jié)果Table 2 The AUC results of high association diseases on different algorithm

續(xù)表2

表 3 新疾病在不同算法下的AUC結(jié)果Table 3 The AUC results of new diseases on different algorithm

可以看到，不論是在關聯(lián)數(shù)較多的疾病或關聯(lián)數(shù)極少的疾病上，LMFMDA均表現(xiàn)出了優(yōu)異的效果。

5 討論

在提出LMFMDA的損失函數(shù)前，曾試圖對每個miRNA和疾病標注一個先驗關聯(lián)值，作為第k+1維，也是不參與運算的常數(shù)維。即：

然而其k值和AUC關聯(lián)關系如圖5所示。

圖5 帶常數(shù)維模型中k與AUC關系圖Fig. 5 The relation diagram of k and AUC in a model with constant dimensional

可以看到，在k＞100時，AUC值基本趨于穩(wěn)定。而對k=100維這樣的子空間來說，單獨的常數(shù)維并不會對結(jié)果有很大的影響，于是刪除了假設的先驗關聯(lián)值，最終確定了預測模型。

6 結(jié)論

本文基于矩陣分解和迭代最小二乘的方法(LMFMDA)對miRNAs和疾病的關聯(lián)關系進行預測。首先對miRNAs相似度矩陣、疾病相似度矩陣和miRNAs-疾病關聯(lián)關系進行數(shù)據(jù)融合，采用迭代最小二乘法求解miRNAs和疾病的表達向量，最后利用miRNAs和疾病的表達向量完成對miRNA與疾病關聯(lián)關系的預測。同時，通過引入輔助miRNAs和疾病變量的方法，解決了收斂結(jié)果的最優(yōu)問題。實驗顯示，LMFMDA在高關聯(lián)疾病和新疾病預測中相對于其他方法均取了較優(yōu)的結(jié)果。

綜上，本文提出的miRNA與疾病關聯(lián)預測算法LMFMDA，一方面可以處理未知相關miRNAs的疾病、或者未知相關疾病的miRNAs；另一方面，實驗結(jié)果也表明，LMFMDA算法在miRNAs和疾病的關聯(lián)關系預測上相較其他算法有更好的效果。