羅 洪,楊 杰
(西南民族大學計算機科學與技術(shù)學院,計算機系統(tǒng)國家民委重點實驗室,四川 成都 610041)
人類是細菌、病毒和真菌等微生物的宿主,這些微生物通常存在于人體的肺、皮膚、腸道和口腔等人體器官中.大多數(shù)微生物具有促進人體新陳代謝的能力以及協(xié)助調(diào)節(jié)胃腸道的發(fā)育的功能.據(jù)報道,在一個成年腸道中生活著大量的微生物,它們可以提供多種基因產(chǎn)物,這些基因產(chǎn)物有助于人體的各種生化和代謝活動[1-3].例如常見的腸道細菌可以通過幫助消化多糖來促進營養(yǎng)的吸收.反之,微生物群落異常水平的失衡會影響人類的健康和疾病的發(fā)生,甚至影響基因的轉(zhuǎn)錄和表達,從而導致癌癥、糖尿病、肥胖癥和過敏性哮喘等疾病的發(fā)生[4-9].
研究潛在的微生物疾病間的關系可以幫助了解疾病的發(fā)病機理,為有關疾病的預防、診斷和治療提供幫助.傳統(tǒng)生物實驗方法存在研究周期長成本昂貴等問題,而采用計算方法有助于傳統(tǒng)方法確定研究目標范圍和縮短研究周期.近年來,國內(nèi)外學者運用多種計算方法已經(jīng)對疾病相關的微生物進行了預測研究.例如文獻[10]基于KATZ指標首次提出了KATZHMDA計算模型對潛在微生物和疾病的關系進行了預測;文獻[11]采用基于路徑的方法提出了PBHMDA算法對潛在微生物和疾病的關系進行了預測;文獻[12]基于雙隨機游走提出了BiRWHMDA計算方法對潛在微生物和疾病的關系進行了預測.本文利用已知微生物疾病關系相互作用網(wǎng)絡、拉普拉斯規(guī)范化后的高斯核微生物和疾病相似性網(wǎng)絡構(gòu)建,構(gòu)建了異質(zhì)網(wǎng)絡,并利用重啟的隨機游走算法在異質(zhì)網(wǎng)絡中游走預測潛在的微生物和疾病的關系.本文算法LRWRHMDA經(jīng)過在拉普拉斯規(guī)范化后的高斯核微生物和疾病相似性網(wǎng)絡構(gòu)建的同一異質(zhì)網(wǎng)絡數(shù)據(jù)集上與KATZHMDA和BiRWHMDA算法進行五折交叉驗證比較,實驗結(jié)果驗證了本文算法LRWRHMDA的有效性.
若矩陣L=[L(i,j)],i,j=1,2,3,…,N,是個對稱矩陣.D是矩陣L的對角矩陣:當i≠j,D(i,j)=0;當i的值等于矩陣L第i行的和.矩陣L通過規(guī)范化,結(jié)果仍然是一個對稱矩陣.對稱矩陣的元素可表示為:
上述過程就是矩陣L的拉普拉斯規(guī)范化過程,可用于網(wǎng)絡帶權(quán)矩陣的規(guī)范化,尤其是隨機游走算法中概率轉(zhuǎn)移矩陣的規(guī)范化[13].
已有研究表明存在這樣的假設:功能相似的微生物常常與相同的疾病相互作用.根據(jù)這樣的假設我們可以利用已知的微生物和疾病相似性網(wǎng)絡計算微生物和疾病各自高斯相似性矩陣.已知微生物和疾病網(wǎng)絡的鄰接矩陣AMD,對于微生物mi,存在行向量Mmi,若值為0表示和已知某種疾病無關,若為1表示和某已知疾病相關.則對微生物mi和mj間的高斯核相似性GSM可表示為:
其中參數(shù)γm控制核的范圍,它可通過另一個范圍參數(shù)γ′m通過每個微生物與疾病的平均關聯(lián)數(shù)規(guī)范化后求得.參數(shù)γm的計算公式如下:
同理,疾病di和dj間的高斯核相似性GSD可由以下公式求得:
若存在已知的微生物和疾病關系網(wǎng)絡的鄰接矩陣AMD、疾病di和dj間的高斯核相似性GSD和微生物mi和mj間的高斯核相似性GSM,則異質(zhì)網(wǎng)絡H的鄰接矩陣可表示為:
其中,AMD、LGSm(m×m)和LGSD(n×n)分別代表已知微生物和疾病鄰接矩陣、拉普拉斯規(guī)范化后的微生物和疾病高斯核相似矩陣,AMDT表示矩陣AMD的轉(zhuǎn)置.
異質(zhì)網(wǎng)絡H的概率轉(zhuǎn)移矩陣可以表示為:其中MGSM和MGSD表示微生物和疾病子網(wǎng)的概率轉(zhuǎn)移矩陣,MMD和MDM表示網(wǎng)間概率轉(zhuǎn)移矩陣[14].
令λ表示網(wǎng)間的跳轉(zhuǎn)概率,則從微生物mi跳轉(zhuǎn)到疾病dj的轉(zhuǎn)移概率可表示為:
同理,從疾病dj跳轉(zhuǎn)到微生物mi的轉(zhuǎn)移概率可表示為:
從微生物mi跳轉(zhuǎn)到mj的概率可表示為:
從疾病di跳轉(zhuǎn)到dj的概率可表示為:
令微生物網(wǎng)絡的初始概率為μ0,疾病網(wǎng)絡的初始概率為v0.則異質(zhì)網(wǎng)絡H的初始概率p0可表示為:
令γ∈(0,1)表示重啟概率,M表示異質(zhì)網(wǎng)絡的轉(zhuǎn)移矩陣,則第t+1步的概率pt+1可表示為:
每游走一步,隨機游走者返回種子點的概率都為γ,當隨機游走到一定步后,概率將達到一個穩(wěn)定狀態(tài),此時微生物和疾病則可基于各自的穩(wěn)態(tài)概率來排序,從而預測微生物和疾病間的關聯(lián)關系.
本文采用HMDAD數(shù)據(jù)庫[15]中的數(shù)據(jù)集進行LRWRHMDA算法的致病微生物預測應用分析.該數(shù)據(jù)集從已發(fā)布的文獻中收集和整理了39種人類疾病、292種微生物和483對已知微生物-疾病關系對.經(jīng)過整理去掉重復的關系對,本文以39種人類疾病、292種微生物和450對已知微生物-疾病關系對為基礎構(gòu)建微生物和疾病網(wǎng)絡鄰接矩陣.
交叉驗證的基本思想把數(shù)據(jù)集劃分成較小子集的訓練集合測試集,訓練集用于模型的訓練,測試集用于驗證模型的穩(wěn)定性和可靠性.K-折交叉驗證通常把數(shù)據(jù)集分成k份,一份用作測試集,其它K-1份用作訓練集,每次驗證一份重復K次,結(jié)果取K次的平均值.本文采用5-折交叉驗證類評估LRWRMDH算法的性能,其中5-折交叉驗證重復執(zhí)行100次再取平均值.并用經(jīng)過拉普拉斯規(guī)范化后的高斯核微生物和疾病相似性網(wǎng)絡構(gòu)建的同一異質(zhì)網(wǎng)絡與KATZHMDA和BiRWHMDA算法進行了5-折交叉驗證比較,5-折交叉驗證下LRWRHMDA、BiRWHMDA和KATZHMDA的AUC值分別為0.9069、0.8844和0.8127,得到的ROC曲線[16]如圖1所示.
圖1 三種方法5-折交叉驗證ROC曲線圖Fig.1 The ROC curves of three methods based on 5-fold CV
為了進一步驗證本文算法的預測效果,我們對哮喘(Asthma)和炎癥性腸病(IBD)預測的相關排名前10位的微生物進行了驗證,結(jié)果如表1和表2所示.
表1 預測哮喘相關前10位微生物Table 1 Prediction results of the top 10 asthma-associated microbes
表2 預測炎癥性腸病相關前10位微生物Table 2 Prediction results of the top 10 IBD-associated microbes
4 Veillonella unconfirmed 5 Haemophilus unconfirmed 6 Clostridiumcoccoides PMID:19235886 7 Bacteroidaceae Maukonen et al.,2009 8 Bacteroides Maukonen et al.,2009 9 Streptococcus PMID:23679203 10 Lactobacillus PMID:26340825
綜合實驗分析可知,LRWRHMDA與其它兩種算法相比五折交叉驗證下的AUC值較優(yōu),預測的預測哮喘相關前10位微生物僅排在第10位的沒有得到已知文獻驗證,預測炎癥性腸病相關前10位微生物僅排在第4位和第5位的沒有得到已知文獻驗證.
微生物對人類健康的重要作用得到了越來越多的研究證明,研究微生物與疾病的關聯(lián)關有助于揭示疾病的發(fā)病機理和疾病的診斷和預防.在本文中我們基于已知微生物疾病關系互作網(wǎng)絡、拉普拉斯規(guī)范化高斯核微生物和疾病相似性網(wǎng)絡構(gòu)建的異質(zhì)網(wǎng)絡上的重啟的隨機游走算法,對微生物和疾病的潛在關系進行了研究和預測,并與其它預測算法進行了五折交叉驗證比較.比較結(jié)果和預測驗證結(jié)果驗證了本文算法的有效性.鑒于本文算法采用數(shù)據(jù)集的單一性和異質(zhì)網(wǎng)絡游走依賴于已知的關系對,因此本文算法也存在局限性,這是將來需要進一步改進的方向.