亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于GAT 雙聚合運算與歸納式矩陣補全的關聯(lián)預測

2022-12-13 13:51:58張奕鄭婧蔡鋼生王真梅

計算機工程 2022年12期

張奕，鄭婧，蔡鋼生，王真梅

（1.桂林理工大學信息科學與工程學院，廣西桂林 541004；2.廣西嵌入式技術與智能系統(tǒng)重點實驗室，廣西桂林 541004）

0 概述

長鏈非編碼RNA（long non-coding RNA，lncRNA）是非編碼RNA 家族中的一個組成部分，它擁有長度超過200 個核苷酸的轉錄產(chǎn)物［1］。研究表明lncRNA 異常表達會導致多種復雜疾病。探尋導致疾病的lncRNA，有助于理解疾病產(chǎn)生的機理，為疾病治療及預后提供參考［2］。

由于生物實驗費時費力，在現(xiàn)實生活中大多采用可計算模型代替生物實驗來實現(xiàn)lncRNA-疾病的關聯(lián)預測，為生物實驗提供高效的更準確的候選項。目前，常用基于生物網(wǎng)絡和基于機器學習這兩類計算方法預測lncRNA-疾病關聯(lián)。

基于生物網(wǎng)絡的方法通常需要構建基因相似性網(wǎng)絡，構建完成后，根據(jù)lncRNA-疾病的關聯(lián)得分大小對候選的lncRNA 進行排序來預測致病基因。最常用的是標簽傳播算法，如重啟隨機游走和KATZ 算法，它們的主要區(qū)別在于不同的傳播算法應用的底層網(wǎng)絡不同。文獻［3］根據(jù)lncRNA 功能相似性網(wǎng)絡建立了全局的重啟隨機游走算法RWRlncD，從而對潛在的關聯(lián)信息進行預測。但是該模型不能預測沒有任何已知相關lncRNA 的新疾病或沒有任何已知相關疾病的孤立lncRNA。文獻［4］基于“與多種相同miRNA 有關的lncRNA 會導致相似疾病”這一生物假設建立了RWRHLD 模型，從而預測lncRNA-疾病的關聯(lián)信息。該模型將miRNA 信息加入到lncRNA-lncRNA 網(wǎng)絡中，與疾病相似性網(wǎng)絡和已知的lncRNA-疾病關聯(lián)網(wǎng)絡整合成新網(wǎng)絡，在這個新網(wǎng)絡中實施重啟隨機游走。但是該模型不適用于預測沒有已知lncRNA-miRNA 相互作用的lncRNA，模型實用性較差。文獻［5］結合已知的lncRNA-疾病關聯(lián)、lncRNA 表達譜、lncRNA 功能相似性、疾病語義相似性和高斯相互作用譜核相似性建立基于KATZ 的lncRNA-疾病關聯(lián)預測模型KATZLDA。雖然該模型可以發(fā)現(xiàn)新疾病或孤立lncRNA，但是模型預測精度不高。

基于機器學習的方法是根據(jù)與疾病相關的已知lncRNA 和沒有任何已知關聯(lián)的lncRNA-疾病對來訓練分類器和建立模型的。文獻［6］將已知的疾病-lncRNA 關聯(lián)和lncRNA 表達譜信息進行整合，構建了LRLSLDA 計算模型來預測潛在的lncRNA-疾病關聯(lián)。該模型不需要負樣本且適用于預測孤立lncRNA，但是模型最優(yōu)參數(shù)的選取復雜，且模型分別將疾病空間和lncRNA 空間作為兩個分類器，對于同一個lncRNA-疾病對會產(chǎn)生兩個不同的得分，不同分數(shù)的選取會得出不同的預測結果。文獻［7］基于貝葉斯算法整合已知的與疾病相關的lncRNA 和多種生物學數(shù)據(jù)（基因組數(shù)據(jù)、調控和轉錄生物數(shù)據(jù)），預測潛在的lncRNA-疾病關聯(lián)。該模型雖然預測性能良好，但是貝葉斯分類器想要提高預測性能必須使用足夠多的負樣本，而此類研究缺少負樣本，隨機選擇負樣本不利于優(yōu)化貝葉斯分類器的性能。文獻［8］提出基于矩陣分解的lncRNA-疾病關聯(lián)預測模型MFLDA。該模型通過矩陣分解將數(shù)據(jù)轉換為低秩矩陣，不同的數(shù)據(jù)擁有各自的權重，并進一步引入迭代解，同時對權重矩陣和低秩矩陣進行優(yōu)化。優(yōu)化后得到的矩陣用來重建lncRNA-疾病關聯(lián)，從而預測出潛在的lncRNA-疾病關聯(lián)。MFLDA 具有較好的適用性，很容易集成各種異構數(shù)據(jù)源來預測不同類型實體之間的關聯(lián)，但是該模型尋找低秩矩陣最優(yōu)秩過程復雜，且模型更偏向于選擇稀疏的數(shù)據(jù)矩陣，導致模型預測精度不高。

為彌補上述不足，深度學習技術逐漸成為研究的熱點。圖作為一種能夠抽象出實體與實體之間關系的數(shù)據(jù)結構得到廣泛應用［9］，圖結構可以將節(jié)點與節(jié)點間的關系通過邊的權重表現(xiàn)出來。目前，圖神經(jīng)網(wǎng)絡主要應用于相鄰節(jié)點間的信息傳遞和匯聚。文獻［10］將圖神經(jīng)網(wǎng)絡中的雙向門控循環(huán)網(wǎng)絡和標簽注意力機制結合，提出基于圖深度學習的金融文本多標簽分類算法，提升了文本分類性能。文獻［11］在動態(tài)網(wǎng)絡異常檢測中引入圖神經(jīng)網(wǎng)絡，使得結構和屬性上的異?？梢酝瑫r被獲知，提升了異常檢測的準確度。文獻［12］將圖神經(jīng)網(wǎng)絡應用到會話序列推薦算法中，引入注意力機制，提出基于復雜結構信息的圖神經(jīng)網(wǎng)絡序列推薦算法，提升了會話向量在推薦過程中的準確性。文獻［13］將圖神經(jīng)網(wǎng)絡用于網(wǎng)絡中物理鏈路與路由方案路徑建模，實現(xiàn)了對延遲抖動等端到端性能指標的有效預估。

近年來，圖注意力網(wǎng)絡（Graph Attention Network，GAT）［14-15］也被應用于一些生物信息學任務中，如文獻［16］提出一種新的基于圖注意力網(wǎng)絡的方法GATMDA 識別微生物-疾病關聯(lián)，文獻［17］基于圖注意力網(wǎng)絡提出預測circRNA-疾病關聯(lián)的方法GATCDA，文獻［18］基于圖注意力網(wǎng)絡預測藥物ADMET 分類。但截止到目前，較少有使用圖注意力網(wǎng)絡進行l(wèi)ncRNA-疾病關聯(lián)預測的工作。另一方面，歸納矩陣補全（Inductive Martix Completion，IMC）技術廣泛應用于生物信息領域［19-21］，但也普遍存在預測精度不高的問題。如何更好地將生物信息相似性網(wǎng)絡與歸納矩陣補全技術相結合，進一步提升預測性能，是有待研究的一個問題。

本文提出一種基于圖注意力網(wǎng)絡和歸納矩陣補全技術的雙融合機制lncRNA-疾病關聯(lián)預測模型（Dual Fusion Mechanism Prediction model for lncRNADisease Association，DFMP-LDA）。引入n頭注意力機制，設計帶有雙重聚合器的圖注意力網(wǎng)絡。傳統(tǒng)的圖注意力網(wǎng)絡雖然可以穩(wěn)定自我注意的過程，但由于節(jié)點的獨立性，訓練后的節(jié)點特征不明顯，本文通過設計雙重聚合器增強lncRNA 節(jié)點與疾病節(jié)點特征，避免傳統(tǒng)可計算模型中因已知數(shù)據(jù)稀疏性導致預測精度不高的問題。在此基礎上，利用歸納矩陣補全技術恢復lncRNA-疾病關聯(lián)矩陣中缺失的元素，應用增強后的節(jié)點特征重建lncRNA-疾病關聯(lián)，并使用Adam 優(yōu)化器［22］進一步提高預測精度。

1 DFMP-LDA 模型

1.1 模型框架

如圖1 所示，DFMP-LDA 模型框架主要包括3 個步驟，具體如下：

圖1 DFMP-LDA 模型框架Fig.1 Framework of DFMP-LDA model

1）相似性網(wǎng)絡建立。整合疾病集成相似性網(wǎng)絡∈Rnd×nd和lncRNA 集成相似性網(wǎng)絡∈Rnl×nl，得到lncRNA-疾病的特征矩陣X∈R(nl+nd)×(nl+nd)。其中，nl和nd代表lncRNA 和疾病的數(shù)量。

2）lncRNA 特征、疾病特征增強。使用帶有雙重聚合器的n頭圖注意力網(wǎng)絡訓練特征矩陣X，先計算矩陣X中任意節(jié)點i與鄰居節(jié)點集的注意力分數(shù)，再將節(jié)點i的特征和鄰居節(jié)點集特征進行“加”和“連接”雙重聚合操作，得到帶有注意力分數(shù)的特征矩陣Z∈R(nl+nd)×(nl+nd)。

3）lncRNA-疾病關聯(lián)重建。將第2）步得到的特征矩陣Z進行分解，得到疾病特征矩陣ZD∈Rnd×(nl+nd)和lncRNA特征矩陣ZD∈Rnl×(nl+nd)，通過歸納矩陣補全技術重建原始ALD關聯(lián)網(wǎng)絡，得到新的補全后的lncRNA-疾病關聯(lián)Q∈Rnl×nd，再通過Adam優(yōu)化器進行模型優(yōu)化。

1.2 相似性網(wǎng)絡建立

1.2.1 疾病語義相似性網(wǎng)絡建立

利用文獻［23］提出的有向無環(huán)圖（Directed Acyclic Graph，DAG）計算疾病之間的語義相似性。任意疾病dt對疾病di的語義貢獻值用(dt)表示，計算公式如下：

其中：參數(shù)γ為語義貢獻系數(shù)，參考文獻［23］的研究結果，將γ設為其最優(yōu)值0.5。

由文獻［23］可知，兩種疾病的DAG 圖的重疊部分越多，兩者相似程度越高。矩陣DS∈Rnd×nd表示疾病語義相似性網(wǎng)絡，矩陣元素DS(di，dj)表示疾病di和dj的語義相似性，計算公式如下：

其中：表示疾病di的DAG 圖；S(di)表示疾病di的語義值。S(di)計算公式如下：

1.2.2 lncRNA 功能相似性網(wǎng)絡建立

由文獻［23］可知，功能相似的lncRNA 往往與表型相似的疾病有關，計算兩個lncRNA 的功能相似性首先要理解疾病的語義相似性及其與lncRNA之間的關系。用集合D={d1，d2，…，dt，…，dnd}表示疾病集，max(dt，D)表示任意疾病dt在疾病集合D中語義相似性最大值，如式（4）所示：

矩陣FS∈Rnl×nl表示lncRNA 功能相似性網(wǎng)絡，矩陣元素FS(li，lj)表示lncRNAli和lj之間的功能相似性，計算公式如式（5）所示：

其中：集合D1表示與lncRNAli有關聯(lián)的疾病集合；集合D2表示與lncRNAlj有關聯(lián)的疾病集合；m、n分別表示集合D1和集合D2中疾病的數(shù)目。

1.2.3 高斯譜核相似性網(wǎng)絡建立

如果疾病di與lncRNAlj存在經(jīng)實驗驗證的已知關聯(lián)，則定義IP(di)=1；如果疾病di與任何lncRNA都不存在經(jīng)實驗驗證的已知關聯(lián)，則定義IP(di)=0。因為某些疾病不具備語義相似性，所以為了降低數(shù)據(jù)稀疏性對模型的影響，將高斯核函數(shù)［24］應用到生物信息節(jié)點之間拓撲結構的關聯(lián)關系網(wǎng)絡中。核函數(shù)在機器學習以及諸多生物信息分類中被證實是高效有用的方法，使用高斯核函數(shù)計算出的疾病高斯譜核相似性（以下簡稱高斯相似性）可以代替疾病語義相似性。矩陣GD∈Rnd×nd表示疾病的高斯相似性網(wǎng)絡，矩陣元素GD(di，dj)表示疾病di和疾病dj的高斯相似性，計算公式如式（6）所示：

在式（6）中，λD是標準化的核帶寬，計算公式如式（7）所示：

同理，用矩陣GL∈Rnl×nl表示lncRNA 的高斯相似性網(wǎng)絡，矩陣元素GL(li，lj)表示lncRNAli和lj的高斯相似性，計算公式如式（8）所示：

在式（8）中，λl是標準化的核帶寬，計算公式如式（9）所示：

1.2.4 集成相似性網(wǎng)絡建立

由于并非所有疾病都可以找到相關的lncRNA，如果給定疾病缺乏相關基因，將無法得到該疾病與其他疾病的語義相似性。為了提高疾病語義相似性的準確性，將疾病的高斯相似性和疾病語義相似性進行集成。如果疾病di與疾病dj之間存在語義相似性，則將di與dj之間的語義相似性定義為疾病語義相似性DS(di，dj)和疾病高斯相似性GD(di，dj)的平均值，否則等于疾病高斯相似性GD(di，dj)，由此得到疾病集成相似性網(wǎng)絡，矩陣元素(di，dj)表示疾病di與dj的集成相似性，計算公式如式（10）所示：

同理，用矩陣表示lncRNA 集成相似性網(wǎng)絡，矩陣元素(li，lj)表示lncRNAli和lj的集成相似性，計算公式如式（11）所示：

將疾病集成相似性網(wǎng)絡和lncRNA 集成相似性網(wǎng)絡結合，定義對角矩陣X表示lncRNA-疾病的特征矩陣，用于后續(xù)的模型計算。矩陣X如式（12）所示：

1.3 lncRNA 特征與疾病特征加強

1.3.1 帶有雙重聚合器的n頭圖注意力網(wǎng)絡構建

原始圖注意力網(wǎng)絡通過注意力分數(shù)在節(jié)點更新時自適應聚合鄰居節(jié)點信息，通過為不同的鄰居節(jié)點分配不同的權重來學習圖上節(jié)點的表示。GAT 利用多頭注意力機制穩(wěn)定自我注意的過程，每個注意頭采用“連接”的方式聚合特征，對于特征向量的提取效果還有待改進。為更好地提取lncRNA 特征向量和疾病特征向量，根據(jù)文獻［16］設計帶有雙重聚合器的n頭圖注意力網(wǎng)絡，在每個注意頭設計中加入雙重聚合器，對節(jié)點特征進行“加”和“連接”雙重操作，并將前一個注意頭的輸出特征作為下一個注意頭的輸入特征，經(jīng)過n次迭代，構造出帶有雙重聚合器的n頭圖注意力網(wǎng)絡，達到強化節(jié)點間特征的目的。

1.3.2 注意頭中的特征增強過程

在注意頭中，特征增強過程具體如下：

1）注意特征訓練層

在特征矩陣X中任選一個元素作為節(jié)點i，根據(jù)圖注意力網(wǎng)絡的設計思想，計算節(jié)點i的鄰居節(jié)點j對節(jié)點i在第k次迭代中的注意力分數(shù)，計算公式如下：

其中：f(·)表示單層神經(jīng)網(wǎng)絡；表示節(jié)點i在第k次(1≤k≤n)迭代過程中的特征向量；W∈R(nl+nd)×l表示權重矩陣。

為了使特征矩陣X中所有節(jié)點的注意力分數(shù)值在［0，1］區(qū)間，使用Softmax 函數(shù)進行標準化，標準化后的注意力分數(shù)用表示，計算公式如式（14）所示：

其中：Ni表示矩陣X中節(jié)點i的鄰居節(jié)點集合。

表示節(jié)點i在第k次迭代時鄰居節(jié)點集特征，計算公式如式（15）所示：

2）神經(jīng)特征聚合層

在原始圖注意力網(wǎng)絡中，神經(jīng)特征聚合層僅僅是將注意特征訓練層的特征進行“連接”操作，為增強節(jié)點特征，本文在注意特征訓練層得到節(jié)點i在第k次迭代時的鄰居節(jié)點集特征后，根據(jù)文獻［16］設計雙重聚合器，通過“加”和“連接”雙重聚合操作，實現(xiàn)對特征和的聚合。以Zk表示第k次聚合后的特征向量，計算公式如下：

其中：LeakyReLU(·)表示激活函數(shù)；“+”表示加操作；“||”表示連接操作；W1∈R(nl+nd)×k表示權重矩陣。

最后，每次聚合后的特征Zk經(jīng)過n頭圖注意力網(wǎng)絡，得到最終的特征矩陣Z：

其中：ZD表示疾病特征矩陣；ZL表示lncRNA特征矩陣。

注：特征矩陣Z是原始特征矩陣X經(jīng)過n頭圖注意力網(wǎng)絡得到的，故特征矩陣Z的前nd行表示疾病特征矩陣，其維數(shù)為nd×(nl+nd)，其余行表示lncRNA 特征矩陣。

1.4 lncRNA-疾病關聯(lián)重建

在lncRNA-疾病關聯(lián)預測方面，研究者常采用矩陣補全的方式，用低秩的關聯(lián)矩陣表示lncRNA-疾病的關聯(lián)關系，通過較少的已知關聯(lián)恢復原始矩陣［25］。但傳統(tǒng)的矩陣補全技術依賴于現(xiàn)存的lncRNA-疾病關聯(lián)進行預測，由于關聯(lián)矩陣中存在整行、整列數(shù)據(jù)缺失的情況，會導致冷啟動發(fā)生，因此不能達到理想的預測效果。DFMP-LDA 采用歸納式矩陣補全技術，打破傳統(tǒng)矩陣補全的局限，使矩陣補全不只是單純依賴關聯(lián)矩陣，而是還加入了樣本和未標記信息，實現(xiàn)預測未知樣本的功能。

DFMP-LDA 模型使用上一步推導得到的疾病特征向量ZD和lncRNA 特征向量ZL補全已知的關聯(lián)矩陣ALD，重建lncRNA-疾病關聯(lián)，得到補全后的關聯(lián)矩陣Q，計算公式如下：

在此基礎上，通過最小化損失函數(shù)實現(xiàn)參數(shù)訓練，根據(jù)文獻［22］，選擇Adam 優(yōu)化器對矩陣Q進行優(yōu)化，具體優(yōu)化過程如下：

其中：L表示損失函數(shù)；η表示衰減系數(shù)；λ表示平衡正則項的平衡因子，其值設置為1；W2表示權重矩陣。

2 實驗與評價

2.1 實驗數(shù)據(jù)集與實驗環(huán)境

對原始數(shù)據(jù)庫LncRNA Disease v2.0［26］進行預處理，收集與人類疾病關系密切的lncRNA 及其關聯(lián)，去除重復疾病和lncRNA，最終得到本文使用的數(shù)據(jù)集Dataset1。Dataset1中含有352個經(jīng)實驗驗證的lncRNA-疾病已知關聯(lián)對，涉及156 種lncRNA 和190 種疾病。為了建立模型，用矩陣Ald表示352 個已知的lncRNA-疾病關聯(lián)，nl和nd代表lncRNA 和疾病的數(shù)量。矩陣元素ALD(i，j)=1，表示lncRNAli與疾病dj之間存在經(jīng)實驗驗證的已知關聯(lián)；矩陣元素ALD(i，j)=0，表示lncRNAli與疾病dj之間不存在經(jīng)實驗驗證的已知關聯(lián)。所有實驗均在配置Intel Core i5-10210U，1.60 GHz CPU和64位處理器以及Windows 10 操作系統(tǒng)的計算機上完成。

2.2 評價指標

本文采用五折交叉驗證法，將已知的lncRNA-疾病關聯(lián)隨機分成5組，實驗過程中依次選擇1組lncRNA-疾病關聯(lián)（即正樣本）和1 組相同大小的未知關聯(lián)lncRNA-疾病對（即負樣本）作為測試樣本，剩下的4 組lncRNA-疾病關聯(lián)以及其余未知lncRNA-疾病對用來訓練模型。通過設置不同的閾值，獲得真陽率（True Positive Rate，TPR）、假陽率（False Positive Rate，F(xiàn)PR）、召回率、精度4 個模型評價指標，根據(jù)這4 個評價指標繪制ROC 曲線和PR 曲線，模型性能通過ROC 曲線下面積（AUC）和PR 曲線下面積（AUPR）衡量。為了避免隨機分組的影響，每組實驗重復進行10 次，最后根據(jù)10 次重復實驗的平均值計算AUC 值和AUPR 值。

2.3 參數(shù)選擇

本節(jié)分析注意頭數(shù)目n和Adam 優(yōu)化器中衰減系數(shù)η對模型DFMP-LDA 預測性能的影響。首先根據(jù)文獻［16］將注意頭數(shù)目n設置為4，分析衰減系數(shù)η對DFMP-LDA 的影響。將參數(shù)值η從5E-6 增加到5E-1（步長為E-1），對數(shù)據(jù)集Dataset1 執(zhí)行五折交叉驗證，得到的AUC值如圖2所示。可以看出，當η為5E-3時，AUC值為最優(yōu)值0.9528；當η為5E-2時，得到AUC的最小值0.822 8。類似地，將η設置為5E-3 后，改變注意頭數(shù)目n，發(fā)現(xiàn)當n為5 時，得到最優(yōu)值0.932 2，如圖3 所示。綜合以上兩步，通過設置注意頭數(shù)目n為5，衰減系數(shù)η為5E-3，DFMP-LDA獲得最佳AUC 值0.932 2。

圖2 不同衰減系數(shù)下的AUC值Fig.2 AUC values under different delay factors

圖3 不同數(shù)目注意頭下的AUC值Fig.3 AUC values under different number of attention heads

2.4 性能比較

將DFMP-LDA與現(xiàn)有的3種基于機器學習和基于矩陣分解的計算方法SDLDA［27］、DMF-LDA［28］、TPGLDA［29］在相同的數(shù)據(jù)集Dataset1上進行比較。SDLDA使用奇異值分解提取lncRNA和疾病的線性特征，使用具有2 個完全連接層的神經(jīng)網(wǎng)絡學習lncRNA和疾病的非線性特征，將線性特征和非線性特征結合成一個向量用于最終預測。DMF-LDA 使用帶有一系列非線性隱藏層的神經(jīng)網(wǎng)絡，從lncRNA-疾病關聯(lián)矩陣中提取lncRNA 和疾病的潛在特征，然后將這2 個特征融合成一個新的向量，用其執(zhí)行預測任務。TPGLDA將基因疾病關聯(lián)與lncRNA 疾病關聯(lián)相結合，基于分配算法預測潛在的lncRNA 疾病關聯(lián)。五折交叉驗證后，得到DFMP-LDA 與其他3 種模型的ROC 曲線、PR 曲線、AUC 值、AUPR 值和預測時間，分別如圖4、圖5 和表1 所示。

圖4 DFMP-LDA 與其他模型的ROC 曲線Fig.4 ROC curves of DFMP-LDA and other models

圖5 DFMP-LDA 與其他模型的PR 曲線Fig.5 PR curves of DFMP-LDA and other models

表1 DFMP-LDA 與其他模型的預測性能對比Table 1 Prediction performance comparison of DFMP-LDA and other models

由表1 可知，從AUC 值和AUPR 值來看，DFMPLDA的預測性能優(yōu)于SDLDA和DMFLDA，雖然DFMPLDA 的AUC 值比TPGLDA 低了0.76%，但是AUPR 值比TPGLDA 高1.75%，而且在預測時間上DFMP-LDA較TPGLDA 節(jié)省了16.12%。從AUC 值、AUPR 值和預測時間3 個方面得出，DFMP-LDA 的綜合性能最優(yōu)。

3 結束語

本文建立一種融合圖注意力網(wǎng)絡和歸納矩陣補全技術的lncRNA-疾病關聯(lián)預測模型，該模型利用圖注意力網(wǎng)絡的n頭注意力機制對節(jié)點及其鄰居節(jié)點集特征進行加權，并通過注意頭中的雙重聚合操作進一步增強節(jié)點特征。在此基礎上，增強后的特征矩陣輸入到歸納矩陣補全過程中，補全原始關聯(lián)矩陣中缺失元素，重建lncRNA-疾病關聯(lián)網(wǎng)絡。五折交叉驗證結果顯示，DFMP-LDA 與對比的3 種計算模型相比AUPR值最優(yōu)，AUC 值分別比SDLDA 模型和DMFLDA 模型高7.64%、10.18%，雖然AUC 略低于TPGLDA 模型，但是預測時間節(jié)省了16.12%。以上結果顯示，DFMP-LDA模型是一個可靠的lncRNA-疾病關聯(lián)預測模型。

如何整合多種lncRNA 和疾病的生物信息是未來主要的研究方向。此外，因為無法獲得新lncRNA和孤立疾病的特征，所以DFMP-LDA 不能對這些基因和疾病進行預測。后續(xù)將考慮結合基因測序等手段收集更多的生物信息，同時對聚合器進行優(yōu)化，進一步提高預測準確性。