浦建宇,陳 蕾,2,3+,邵 楷
1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,南京 210023
2.江蘇省無線傳感網(wǎng)高技術(shù)研究重點(diǎn)實(shí)驗(yàn)室,南京 210023
3.南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 210016
疾病的發(fā)生與遺傳、生活環(huán)境等很多因素有關(guān),其中很大一部分疾病的產(chǎn)生與特定的基因有著密不可分的關(guān)系。生活中常見的癌癥[1-3]、老年癡呆癥[4]、糖尿病[5]等都屬于多種基因缺陷導(dǎo)致的疾病。因此,發(fā)現(xiàn)疾病的致病基因,對(duì)于了解疾病發(fā)生原因、疾病的臨床診斷和早期的預(yù)防治療有著重要作用,也是人類基因組研究的重要目標(biāo),具有極大的科學(xué)與社會(huì)意義。另一方面,在當(dāng)前的生物醫(yī)藥領(lǐng)域,率先發(fā)現(xiàn)疾病的相關(guān)致病基因,對(duì)于搶先研發(fā)出疾病的治療手段和治療藥物有著不可忽視的作用,其所帶來的經(jīng)濟(jì)效益也是巨大的。
早期開展基因-疾病關(guān)聯(lián)研究都是基于臨床及生物實(shí)驗(yàn)的方法進(jìn)行的,這種方法通常會(huì)耗費(fèi)大量的人力物力,不僅極大地限制了致病基因研究的發(fā)展,也嚴(yán)重影響著相關(guān)公共數(shù)據(jù)集的數(shù)據(jù)質(zhì)量。例如,廣泛使用的人類孟德爾遺傳數(shù)據(jù)庫(online Mendelian inheritance in man,OMIM)[6]和遺傳關(guān)聯(lián)數(shù)據(jù)庫(genetic association database)[7]都只記錄了極少部分基因-疾病間已經(jīng)確定存在的關(guān)聯(lián)關(guān)系,絕大部分基因-疾病間是否存在關(guān)聯(lián)關(guān)系并未可知,從而一方面導(dǎo)致數(shù)據(jù)集中基因-疾病間的已知關(guān)聯(lián)數(shù)據(jù)極為稀疏,另一方面導(dǎo)致數(shù)據(jù)集存在嚴(yán)重的數(shù)據(jù)偏斜問題,也就是說這些數(shù)據(jù)集只包含部分基因-疾病間確定的有關(guān)聯(lián)關(guān)系(本文稱之為Positive關(guān)系),并沒有包含任何基因-疾病間確定的無關(guān)聯(lián)關(guān)系(本文稱之為Negative關(guān)系)。對(duì)那些未知的基因-疾病關(guān)聯(lián)關(guān)系(本文稱之為Unlabeled關(guān)系),需要預(yù)測它們之間是否存在關(guān)聯(lián)。這類問題在機(jī)器學(xué)習(xí)領(lǐng)域通常稱之為PU(positive and unlabeled)學(xué)習(xí)問題,現(xiàn)有研究已經(jīng)表明負(fù)類(Negative)關(guān)系的缺失將嚴(yán)重影響著PU學(xué)習(xí)問題的學(xué)習(xí)效果[8]。而近年來,通過高通量測序、生物醫(yī)學(xué)文本挖掘等手段,可以獲得大量如基因陣列信息、基因內(nèi)在特性、基因間相似性信息、疾病間相似性信息等有用的生物信息。此類信息的出現(xiàn),也為研究新的預(yù)測方法來緩解以上不足提供了契機(jī)。首先,開發(fā)出了Katz這種基于網(wǎng)絡(luò)相似度度量的方法,其通過融入基因間相似性信息、疾病間相似性信息和基因-疾病關(guān)聯(lián)信息構(gòu)建基因-疾病異構(gòu)網(wǎng)絡(luò),通過在異構(gòu)網(wǎng)絡(luò)上預(yù)測來緩解數(shù)據(jù)稀疏的缺陷。但該方法對(duì)于未連接到網(wǎng)絡(luò)中的節(jié)點(diǎn)無法進(jìn)行有效預(yù)測并且會(huì)受到所構(gòu)建的網(wǎng)絡(luò)質(zhì)量的影響[9-10]。之后,Natarajan等人[11]轉(zhuǎn)而引入機(jī)器學(xué)習(xí)領(lǐng)域流行的歸納式矩陣補(bǔ)全(inductive matrix completion,IMC)方法來對(duì)基因-疾病關(guān)聯(lián)關(guān)系進(jìn)行預(yù)測,該方法利用基因和疾病的特征信息,能夠有效克服冷啟動(dòng)問題。然而,該方法不僅遭受著數(shù)據(jù)稀疏的影響,而且也受到PU問題的影響。
針對(duì)以上問題,本文提出了一種基于Katz增強(qiáng)歸納型矩陣補(bǔ)全的基因-疾病關(guān)聯(lián)關(guān)系預(yù)測(Katz boosted inductive matrix completion for gene-disease associations prediction,KIMC)模型。該模型的動(dòng)機(jī)是利用傳統(tǒng)的Katz方法來優(yōu)化新近提出的歸納式矩陣補(bǔ)全方法,本質(zhì)上屬于步進(jìn)式基因-疾病預(yù)測范型,包括基于Katz方法的預(yù)估計(jì)和基于歸納式矩陣補(bǔ)全方法的精化估計(jì)兩個(gè)步驟。具體地,首先利用Katz方法基于所構(gòu)建的基因-疾病異構(gòu)網(wǎng)絡(luò)對(duì)所有基因-疾病對(duì)進(jìn)行Unlabeled關(guān)系的關(guān)聯(lián)預(yù)估計(jì)。由于所估算出的關(guān)聯(lián)評(píng)分?jǐn)?shù)據(jù)中接近于1的數(shù)據(jù)可視為正關(guān)聯(lián)信息,接近于0的數(shù)據(jù)可視為負(fù)關(guān)聯(lián)信息,因此通過Katz預(yù)估計(jì)不僅緩解了數(shù)據(jù)稀疏缺陷,也緩解了PU問題對(duì)后續(xù)歸納式矩陣補(bǔ)全方法的影響。然而,受限于所構(gòu)建的基因-疾病異構(gòu)網(wǎng)絡(luò)質(zhì)量,基于Katz方法預(yù)估計(jì)出的基因-疾病關(guān)聯(lián)信息不可避免地包含了一定程度的噪聲。為了克服這些噪聲對(duì)歸納式矩陣補(bǔ)全方法的影響,本文將彈性網(wǎng)正則化技術(shù)[12]引入新近提出的歸納式矩陣補(bǔ)全方法以增強(qiáng)其魯棒性,進(jìn)而利用改進(jìn)的彈性網(wǎng)正則化歸納型矩陣補(bǔ)全模型來精化基因-疾病關(guān)聯(lián)預(yù)測效果。OMIM數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文提出的KIMC方法與其他幾種競爭性方法比較,不僅在查全率和查準(zhǔn)率上有顯著提高,同時(shí)也能解決基因-疾病關(guān)聯(lián)預(yù)測中常見的冷啟動(dòng)問題。
本文的主要貢獻(xiàn)如下:
(1)提出了一種基于Katz增強(qiáng)歸納型矩陣補(bǔ)全的基因-疾病關(guān)聯(lián)預(yù)測模型。該模型不僅融合了Katz方法和歸納型矩陣補(bǔ)全方法的優(yōu)點(diǎn),而且通過引入彈性網(wǎng)正則化機(jī)制增強(qiáng)了模型的容噪性能,能有效緩解傳統(tǒng)方法易遭受的數(shù)據(jù)稀疏和PU問題的影響。
(2)采用近鄰前向后向分裂技術(shù)設(shè)計(jì)了一種有效的彈性網(wǎng)正則化歸納式矩陣補(bǔ)全優(yōu)化算法,同時(shí)從理論上證明了該算法的收斂性。
(3)OMIM數(shù)據(jù)集上的多組實(shí)驗(yàn)結(jié)果表明,所提出的KIMC模型不僅能夠取得比現(xiàn)有預(yù)測方法更好的預(yù)測效果,而且能解決針對(duì)新疾病或新基因進(jìn)行有效預(yù)測的冷啟動(dòng)問題。
在過去的十幾年間,已經(jīng)提出了許多基于不同基因-疾病數(shù)據(jù)集的致病基因預(yù)測算法。主要分為基于網(wǎng)絡(luò)相似度度量的方法和基于機(jī)器學(xué)習(xí)的方法。
Wu等人[13]提出了CIPHER(correlating protein interaction network and phenotype network to predict disease genes)方法,其假設(shè)在相互作用網(wǎng)絡(luò)中更接近的兩個(gè)基因可能會(huì)導(dǎo)致更相似的疾病??梢杂没蛳嗨菩詠斫忉尲膊∠嗨菩裕谜麄€(gè)疾病相似性網(wǎng)絡(luò)和PPI(protein-protein interaction)網(wǎng)絡(luò)計(jì)算得到一個(gè)得分,通過這個(gè)得分衡量一個(gè)基因是特定疾病致病基因的可能性。Li等人[14]對(duì)隨機(jī)游走方法進(jìn)行改進(jìn),提出基于異構(gòu)網(wǎng)絡(luò)的隨機(jī)游走(random walk with restart on heterogeneous network,RWRH)模型。首先利用基因間相似性信息、疾病間相似性信息和基因-疾病關(guān)聯(lián)信息構(gòu)建基因-疾病異構(gòu)網(wǎng)絡(luò),這個(gè)方法充分考慮到了整個(gè)網(wǎng)絡(luò)的全局信息。用一個(gè)隨機(jī)游走粒子沿著網(wǎng)絡(luò)連接關(guān)系進(jìn)行擴(kuò)散來捕獲節(jié)點(diǎn)間的相似性,從而計(jì)算基因和疾病間的關(guān)系。基于Li等構(gòu)建的基因-疾病異構(gòu)網(wǎng)絡(luò),Singh-Blom等人[15]引入在社交網(wǎng)絡(luò)分析中廣泛使用的Katz方法,在異構(gòu)網(wǎng)絡(luò)上利用兩個(gè)節(jié)點(diǎn)間不同步長的游走路徑數(shù)量來計(jì)算節(jié)點(diǎn)間的相似性,從而預(yù)測基因和疾病的關(guān)聯(lián)關(guān)系。Wang等人[9]以及Zou等人[10]對(duì)上述基于網(wǎng)絡(luò)相似度度量的方法進(jìn)行了比較細(xì)致的分析比較,這些方法通過計(jì)算網(wǎng)絡(luò)中的候選基因和疾病節(jié)點(diǎn)之間的相似度來預(yù)測基因-疾病關(guān)聯(lián)。這類算法的優(yōu)點(diǎn)是能夠?qū)⒉煌愋偷幕蛳嗨菩孕畔⒑图膊∠嗨菩孕畔⑷谌氲交?疾病異構(gòu)網(wǎng)絡(luò)中,增強(qiáng)數(shù)據(jù)信息量;其缺點(diǎn)也很明顯,對(duì)于那些沒有連接到異構(gòu)網(wǎng)絡(luò)中的基因和疾病節(jié)點(diǎn),不能有效預(yù)測,同時(shí)依賴于構(gòu)建高質(zhì)量的生物網(wǎng)絡(luò)模型。
基于以上方法的局限,一些研究者又提出了基于機(jī)器學(xué)習(xí)的方法。例如:Singh-Blom等人[15]提出了CATAPULT(combining data across species using positiveunlabeled learning techniques)方法。該方法是一種監(jiān)督機(jī)器學(xué)習(xí)方法,通過訓(xùn)練帶偏置的SVM(support vector machine)分類器,進(jìn)行基因-表型關(guān)聯(lián)分類,從而挖掘出致病基因。接著,Natarajan等人[11]提出IMC方法,能夠從基因微陣列數(shù)據(jù)、基因功能相互作用數(shù)據(jù)、不同物種的同源基因-表型數(shù)據(jù)中提取基因特征;從疾病相似性網(wǎng)絡(luò),疾病的臨床表現(xiàn)數(shù)據(jù),大量的醫(yī)學(xué)文獻(xiàn)中獲取疾病特征,融入該方法中,彌補(bǔ)標(biāo)準(zhǔn)矩陣補(bǔ)全(matrix completion,MC)只能依賴于現(xiàn)有的可觀察到的關(guān)聯(lián)關(guān)系進(jìn)行預(yù)測的局限,使得該方法具有一定的歸納性,能夠?qū)π碌幕蚝图膊∵M(jìn)行預(yù)測,解決了MC方法會(huì)遇到的冷啟動(dòng)問題,相較于之前提出的方法,預(yù)測效果有了很大的提升。
本章主要介紹現(xiàn)有的幾種不同的基因-疾病關(guān)聯(lián)預(yù)測方法。
本文的主要目標(biāo)是預(yù)測疾病的潛在致病基因,現(xiàn)在所使用的基因和疾病數(shù)據(jù)集通常只有少量的已知基因-疾病關(guān)聯(lián)。通常,構(gòu)建一個(gè)已知基因-疾病關(guān)聯(lián)矩陣P∈RNg×Nd,如下:
行和列分別對(duì)應(yīng)基因和疾病,Ng表示基因總數(shù),Nd表示疾病總數(shù),Pij=1表示基因i與疾病j之間存在關(guān)聯(lián),Pij=0表示基因i與疾病j之間關(guān)聯(lián)未知(可能存在關(guān)聯(lián),也可能不存在)。由于該矩陣包含大量未知關(guān)聯(lián),因此所構(gòu)建的基因-疾病關(guān)聯(lián)矩陣是一個(gè)極度稀疏的矩陣,同時(shí)由于這里只有正關(guān)聯(lián)數(shù)據(jù),因此該問題是一個(gè)典型的PU學(xué)習(xí)問題。主要的任務(wù)就是通過設(shè)計(jì)有效的方法,將其中的未知關(guān)聯(lián)預(yù)測出來,以達(dá)到預(yù)測致病基因的目的。
Katz方法類似于CIPHER[13]、RWRH[14]等算法,這些方法的本質(zhì)都是基于網(wǎng)絡(luò)相似性度量的算法。具體說來,Katz方法是基于基因和疾病關(guān)系網(wǎng)絡(luò)計(jì)算基因和疾病間的相似性評(píng)分,并根據(jù)相似性評(píng)分對(duì)疾病對(duì)應(yīng)的基因進(jìn)行排序,選出合適的候選致病基因。Katz方法在社交網(wǎng)絡(luò)關(guān)系預(yù)測中有著很成功的應(yīng)用[16],它利用兩個(gè)節(jié)點(diǎn)間不同步長的游走路徑數(shù)量來計(jì)算節(jié)點(diǎn)間的相似性,在基因和疾病關(guān)系網(wǎng)絡(luò)中,也是通過同樣的方法計(jì)算節(jié)點(diǎn)間的相似性評(píng)分。
這里,利用基因-基因相似性網(wǎng)絡(luò)、基因-疾病關(guān)聯(lián)網(wǎng)絡(luò)、疾病-疾病相似性網(wǎng)絡(luò)構(gòu)建一個(gè)基因-疾病關(guān)系異構(gòu)網(wǎng)絡(luò),然后在異構(gòu)網(wǎng)絡(luò)上利用Katz方法預(yù)測基因-疾病關(guān)聯(lián)。異構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)如圖1。圖示異構(gòu)網(wǎng)絡(luò)的鄰接矩陣表示為:
其中,G表示基因-基因相似性網(wǎng)絡(luò);D表示疾病-疾病相似性網(wǎng)絡(luò);P表示基因-疾病關(guān)聯(lián)網(wǎng)絡(luò)。
Fig.1 Structure of heterogeneous networks圖1 異構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)
由于在網(wǎng)絡(luò)中基因Gi與疾病Dj之間有直接關(guān)聯(lián)的數(shù)量并不多,因此,需要通過計(jì)算節(jié)點(diǎn)間不同長度路徑的數(shù)量來表示基因與疾病之間的關(guān)聯(lián)關(guān)系。(Cl)ij表示基因Gi到疾病Dj之間路徑長度為l的路徑數(shù)量。在C上定義節(jié)點(diǎn)間相似性如下:
其中,β為一個(gè)非負(fù)常數(shù),用來控制不同長度路徑的影響,β的取值范圍為(0,min{1,1/‖‖C2})。將式(3)轉(zhuǎn)換為矩陣形式,則相應(yīng)的關(guān)聯(lián)評(píng)分矩陣可表示如下:
但是,在Katz方法中,沒有必要去考慮所有長度的路徑數(shù)量,因?yàn)檩^短路徑長度的路徑傳達(dá)的節(jié)點(diǎn)之間的相似性信息更多,而距離較遠(yuǎn)的節(jié)點(diǎn)所傳遞的信息很少,所以只需要考慮有限路徑長度的和。已有研究結(jié)果表明[17],較小的k值(通常取k=3或k=4)能夠表現(xiàn)出很好的性能。在實(shí)驗(yàn)中,取k=3,取出對(duì)應(yīng)的基因-疾病相似性Katz評(píng)分矩陣可表示為:
利用式(5)求基因和疾病間的評(píng)分。該方法將基因-基因相似性網(wǎng)絡(luò)、疾病-疾病相似性網(wǎng)絡(luò)這類輔助信息融入到基因-疾病異構(gòu)網(wǎng)絡(luò)中,有效提高了預(yù)測的效果。
由于Katz等基于網(wǎng)絡(luò)的關(guān)聯(lián)預(yù)測方法的明顯缺陷,提出利用矩陣補(bǔ)全理論進(jìn)行基因-疾病關(guān)聯(lián)預(yù)測。最初,利用MC方法預(yù)測基因-疾病關(guān)聯(lián)關(guān)系,該方法將目標(biāo)矩陣分解為兩個(gè)低秩矩陣W∈RNg×k和H∈RNd×k的乘積,其中k?Ng,Nd。因此,預(yù)測基因-疾病關(guān)聯(lián)可以寫成求解以下優(yōu)化問題:
由于使用現(xiàn)有生物數(shù)據(jù)集構(gòu)建的基因-疾病關(guān)聯(lián)矩陣P是非常稀疏的。從OMIM數(shù)據(jù)庫中獲取的數(shù)據(jù)集中,大多疾病只有一個(gè)已知相關(guān)基因,大多數(shù)基因沒有相關(guān)疾病。在這里,利用標(biāo)準(zhǔn)矩陣補(bǔ)全不能預(yù)測關(guān)聯(lián)矩陣中那些完全沒有元素的行和列,即遭遇冷啟動(dòng)問題。
由于使用標(biāo)準(zhǔn)矩陣補(bǔ)全預(yù)測基因-疾病關(guān)聯(lián)時(shí),所利用的數(shù)據(jù)類型單一(只利用已知基因-疾病關(guān)聯(lián)),諸如生物醫(yī)學(xué)文獻(xiàn),功能注釋,蛋白質(zhì)-蛋白質(zhì)相互作用,不同物種的同源表型,基因微陣列等大量生物特征信息得不到有效利用。在預(yù)測時(shí)會(huì)遭遇冷啟動(dòng)問題,預(yù)測效果也不理想。針對(duì)以上問題,需要尋找一種能夠有效利用這類基因和疾病的特征信息。Yu等人[18]提出的多標(biāo)簽學(xué)習(xí)問題能夠很好地利用此類特征信息。在多標(biāo)簽學(xué)習(xí)中,需要學(xué)習(xí)一個(gè)低秩線性模型Z∈Rd×L,其中每一個(gè)樣本(基因)由d個(gè)特征表示,并且有L個(gè)標(biāo)簽(疾?。?。如果x∈Rd表示一個(gè)基因的特征向量,對(duì)應(yīng)疾病j的預(yù)測可表示為xTZj,其中Zj表示矩陣Z的第j列。
將IMC[19]模型應(yīng)用于基因-疾病關(guān)聯(lián)預(yù)測問題,IMC假設(shè)通過將與其行和列實(shí)體相關(guān)的特征向量應(yīng)用于低秩矩陣來生成關(guān)聯(lián)矩陣,用P中觀察到的元素來恢復(fù)Z。令分別表示基因i和疾病j的特征向量,表示Ng個(gè)基因的訓(xùn)練特征矩陣,其每一行代表一個(gè)基因的特征向量,表示Nd個(gè)疾病的特征訓(xùn)練矩陣,其每一行代表一個(gè)疾病的特征向量。IMC將建模為,需要恢復(fù)低秩矩陣Z,即Z=WHT,其中因此,基因-疾病關(guān)聯(lián)預(yù)測建模為解決如下問題:
一個(gè)在訓(xùn)練數(shù)據(jù)中不存在的新疾病j′,如果有其特征向量yj′,那么對(duì)于所有基因i,能夠計(jì)算出其所有的關(guān)聯(lián)Pij′。同樣,對(duì)于一個(gè)新的基因也是如此,而且能夠有效解決MC方法所遭遇的冷啟動(dòng)問題。當(dāng)特征數(shù)量很大時(shí),取一個(gè)較小的k值,此時(shí)需要學(xué)習(xí)的參數(shù)個(gè)數(shù)小于fg×fd,在標(biāo)準(zhǔn)矩陣補(bǔ)全中,需要學(xué)習(xí)的參數(shù)個(gè)數(shù)為(Ng+Nd)×k,不難發(fā)現(xiàn),IMC中需要學(xué)習(xí)的參數(shù)不依賴于基因和疾病的數(shù)量,僅取決于基因和疾病的特征數(shù)量。
MC問題可以看成是IMC問題的一個(gè)特例,即當(dāng)基因的特征矩陣X為一個(gè)大小為Ng的單位矩陣,疾病的特征矩陣Y為一個(gè)大小為Nd的單位矩陣。在這里,使用交替最小化(即固定W求H或固定H求W,交替迭代求解)求解式(7),目標(biāo)函數(shù)是一個(gè)凸函數(shù),當(dāng)W或H中的一個(gè)固定時(shí),求解只有一個(gè)變量(W或H)的凸函數(shù)時(shí),使用共軛梯度下降法求解。
由于現(xiàn)有的基因-疾病數(shù)據(jù)的極度稀疏性以及基因-疾病數(shù)據(jù)庫中大多數(shù)只記錄確定基因-疾病關(guān)聯(lián),現(xiàn)有的方法都會(huì)遭受數(shù)據(jù)稀疏和PU問題的影響。因此,需要尋求一種較為穩(wěn)定的方法,能夠緩解基因-疾病關(guān)聯(lián)數(shù)據(jù)稀疏問題的影響以及PU問題的影響。
于是提出了集成Katz方法在基因-疾病異構(gòu)網(wǎng)絡(luò)上的關(guān)聯(lián)預(yù)測和歸納型矩陣補(bǔ)全模型的KIMC方法。首先,在構(gòu)建異構(gòu)網(wǎng)絡(luò)時(shí),能夠從被業(yè)界廣泛認(rèn)可的數(shù)據(jù)庫中獲取已被證實(shí)的基因-基因相似性信息和疾病-疾病相似性信息,與基因-疾病關(guān)聯(lián)信息一起構(gòu)成異構(gòu)網(wǎng)絡(luò)。相比使用特征信息的方法,Katz方法使用的這類信息能夠更直接地傳達(dá)基因-疾病相關(guān)信息。融合IMC方法,增強(qiáng)預(yù)測效果的同時(shí),又不會(huì)失去其具有歸納性的特點(diǎn),將問題建模為:
由于受構(gòu)建的網(wǎng)絡(luò)質(zhì)量影響,引入殘差矩陣R會(huì)帶來一部分噪聲,直接使用歸納型矩陣補(bǔ)全求解會(huì)影響預(yù)測效果和穩(wěn)定性,因此引入矩陣彈性網(wǎng)正則化[12]來緩解這個(gè)問題,將求解殘差R建模為:
進(jìn)一步可將問題(10)轉(zhuǎn)換成等價(jià)的罰函數(shù)形式:
本文擬采用近鄰前向后向分裂(proximal forward backward splitting,PFBS)[20]技術(shù)對(duì)問題(11)進(jìn)行優(yōu)化求解。不妨令:
則問題(11)可形式化為如下一般形式:
根據(jù)PFBS規(guī)則,可對(duì)Z進(jìn)行如下方式的迭代求解:
其中,δ為更新步長,且:
根據(jù)文獻(xiàn)[21],對(duì)于矩陣B∈Rfg×fd和常數(shù)τ>0,有:
因此,對(duì)Z的迭代更新可轉(zhuǎn)換為:
進(jìn)一步,文獻(xiàn)[20]的定理3.4表明:
命題1若最優(yōu)化問題(13)的最小值存在且0<δ<2/Lf,則對(duì)任意初始參數(shù)Z0,解序列(14)收斂到式(13)的最小值。其中Lf為函數(shù)F2(Z)的Lipschitz連續(xù)梯度,即對(duì)于一個(gè)凸函數(shù)F(X?),Lf>0,對(duì)?X1,X2,有如下不等式成立:
根據(jù)命題1,如果可以找到一個(gè)常數(shù)Lf>0并且使F2(Z)滿足式(18),則解序列(14)收斂,則KIMC算法收斂,根據(jù)文獻(xiàn)[22]引理1證明如下:
因此,Lipschitz常數(shù)為:
本文將無彈性網(wǎng)正則化項(xiàng)的KIMC模型和加入彈性網(wǎng)正則化項(xiàng)的KIMC模型分別表示為KIMC1和KIMC2,其中KIMC2求解過程如算法1所示。
算法1基于Katz增強(qiáng)歸納型矩陣補(bǔ)全
輸入:基因和疾病特征矩陣X、Y,關(guān)聯(lián)矩陣P,采樣下標(biāo)集合Ω,基因相似性矩陣G,疾病相似性矩陣D,參數(shù)β、δ、ρ、λ以及迭代次數(shù)Maxiter。
在本章中,介紹實(shí)驗(yàn)所用到的基因-疾病數(shù)據(jù)集和基因與疾病特征來源,以及基因-疾病關(guān)聯(lián)預(yù)測所通用的評(píng)價(jià)標(biāo)準(zhǔn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行詳細(xì)分析,比較幾種方法的性能。
本文使用的基因和疾病信息來自O(shè)MIM數(shù)據(jù)庫,該數(shù)據(jù)庫不僅收錄了以孟德爾方式遺傳的所有單基因病的相關(guān)資料,而且還收錄了染色體病、多基因病、線粒體病方面的資料,涵蓋病種豐富。其還提供了已知有關(guān)致病基因的連鎖關(guān)系,染色體定位,結(jié)構(gòu)與功能信息,同時(shí)描述了各種遺傳病的臨床信息,其信息更新及時(shí),具有權(quán)威性。實(shí)驗(yàn)使用文獻(xiàn)[15]所提供的基因-疾病數(shù)據(jù)集,該數(shù)據(jù)集包括從OMIM數(shù)據(jù)庫采集的基因-疾病關(guān)聯(lián)關(guān)系,其中有12 331個(gè)基因,3 209個(gè)疾病,共有3 954個(gè)已知基因-疾病關(guān)聯(lián);12 331個(gè)基因的基因-基因相似性信息和3 209個(gè)疾病的表型-表型相似性數(shù)據(jù)(即疾病-疾病相似性數(shù)據(jù))。另外,本文所需的基因特征和疾病特征可以從不同類型、不同來源的生物數(shù)據(jù)中提取。例如,從基因微陣列數(shù)據(jù),基因功能相互作用數(shù)據(jù),不同物種的同源基因-表型數(shù)據(jù)中提取基因特征;從疾病相似性網(wǎng)絡(luò),疾病的臨床表現(xiàn)數(shù)據(jù),大量的醫(yī)學(xué)文獻(xiàn)分析數(shù)據(jù)中獲取疾病特征。面對(duì)這類復(fù)雜的數(shù)據(jù),通常會(huì)利用PCA(principal component analysis)進(jìn)行降維來提取基因和疾病的主要特征,本實(shí)驗(yàn)使用文獻(xiàn)[11]提供的基因和疾病特征。
與上文提到 Katz[15]、MC[11]、IMC[11]方法一樣,實(shí)驗(yàn)使用3折交叉驗(yàn)證進(jìn)行評(píng)估。評(píng)價(jià)預(yù)測性能時(shí),使用top-r排序的方法(即對(duì)預(yù)測結(jié)果中每一個(gè)疾病列對(duì)應(yīng)的基因評(píng)分值由大到小排序,取前r個(gè)基因作為對(duì)應(yīng)疾病的候選致病基因)與另幾種基因-疾病關(guān)聯(lián)預(yù)測方法比較。在評(píng)價(jià)不同方法性能時(shí),通過取不同閾值r所對(duì)應(yīng)的疾病相關(guān)的致病基因,對(duì)比測試集中記錄的已知關(guān)聯(lián),比較每種方法的查全率(Recall)。計(jì)算公式如下:
同時(shí),也需要對(duì)實(shí)驗(yàn)結(jié)果的查準(zhǔn)率(Precision)進(jìn)行分析,其計(jì)算公式如下:
其中,TP表示測試集中已知基因-疾病關(guān)聯(lián)中被正確判定的關(guān)聯(lián)數(shù)量,F(xiàn)N表示測試集中已知基因-疾病關(guān)聯(lián)中沒有被正確判定的關(guān)聯(lián)數(shù)量,F(xiàn)P表示未知基因-疾病關(guān)聯(lián)中被判定為存在關(guān)聯(lián)的數(shù)量。在現(xiàn)在的生物學(xué)研究領(lǐng)域中,希望在一個(gè)較小的閾值范圍取得好的預(yù)測效果,通常取r≤100。其次,在評(píng)估預(yù)測方法全局性能同時(shí),相較于一些被廣泛研究的基因和疾病,研究者更關(guān)注那些存在研究空白的新基因和新疾病,希望能夠不斷發(fā)現(xiàn)有價(jià)值的新的基因和疾病關(guān)聯(lián),以促進(jìn)醫(yī)學(xué)研究的發(fā)展。因此,這里也關(guān)注各種方法對(duì)于新基因(即在數(shù)據(jù)集中僅有一個(gè)已知關(guān)聯(lián),但在訓(xùn)練時(shí)沒有關(guān)聯(lián)的基因)和新疾病(即在數(shù)據(jù)集中僅有一個(gè)已知關(guān)聯(lián),但在訓(xùn)練時(shí)沒有關(guān)聯(lián)的疾病)的預(yù)測能力。同時(shí),為進(jìn)一步驗(yàn)證本文所提出方法的有效性,選取8種常見病的前10個(gè)候選基因,與數(shù)據(jù)庫及文獻(xiàn)報(bào)道進(jìn)行了對(duì)比分析。
實(shí)驗(yàn)中對(duì)比了最近提出的幾種基因-疾病關(guān)聯(lián)預(yù)測方法:MC方法、IMC方法、Katz方法。3折交叉驗(yàn)證的查全率(Recall)結(jié)果如圖2(a)所示,其中橫坐標(biāo)表示不同閾值r的取值,縱坐標(biāo)表示查全率。本文提出的KIMC1方法和KIMC2方法在取不同的閾值r時(shí)性能都優(yōu)于其他幾種對(duì)比方法。在閾值取r=100時(shí),幾種方法的查全率分別為:MC方法為6.7%,Katz方法為11.3%,IMC方法為23.2%,KIMC1方法為26.5%,KIMC2方法為27.6%。加入彈性網(wǎng)正則化的KIMC2方法相較于之前提出的集成基因疾病特征的IMC方法有了一定提高。本文提出的方法同時(shí)集成了Katz方法和歸納性矩陣補(bǔ)全方法的優(yōu)勢,整體表現(xiàn)有了進(jìn)一步提高,同時(shí)從圖中可以看出加入彈性網(wǎng)正則化,可以有效緩解數(shù)據(jù)噪聲的影響,提高了預(yù)測效果和穩(wěn)定性。其次,這里同樣給出了實(shí)驗(yàn)結(jié)果的查準(zhǔn)率-查全率曲線圖(precision-recall curves)。如圖2(b),其橫坐標(biāo)為查全率,縱坐標(biāo)為查準(zhǔn)率。從圖中可以發(fā)現(xiàn),當(dāng)查全率大于4%時(shí),在相同的查準(zhǔn)率下,KIMC1和KIMC2的查全率相較于其他3種方法都有一定提升。這里也對(duì)比了有/無彈性網(wǎng)正則化時(shí)不同閾值下的曲線,可以發(fā)現(xiàn)加入彈性網(wǎng)正則化后的KIMC2相較于KIMC1查準(zhǔn)率也顯著提高。
Fig.2 Overall performance at different thresholdr圖2 取不同閾值r時(shí)的全局性能
在基因-疾病關(guān)聯(lián)關(guān)系預(yù)測中,往往會(huì)存在一個(gè)很容易被忽視的問題:現(xiàn)有的數(shù)據(jù)庫中記錄的多數(shù)都是認(rèn)知度和關(guān)聯(lián)度很高的基因和疾病,只有少部分關(guān)聯(lián)單一的基因和疾病,因此在實(shí)驗(yàn)評(píng)估時(shí),這類認(rèn)知度和關(guān)聯(lián)度較高的基因和疾病往往被預(yù)測出的幾率更大,而在現(xiàn)實(shí)中研究者更關(guān)注那些處于研究空白的基因和疾病。因此,這里僅關(guān)注那些在數(shù)據(jù)集中已知關(guān)聯(lián)單一的基因和疾病,在訓(xùn)練時(shí)將這些已知關(guān)聯(lián)隱藏,以此來展現(xiàn)不同方法對(duì)新基因和新疾病的預(yù)測能力。在閾值r≤100的范圍內(nèi),新基因查全率如圖3(a)所示,其橫坐標(biāo)表示不同閾值,縱坐標(biāo)表示新基因查全率。在閾值范圍為0<r≤45時(shí),Katz方法利用基因-基因相似性網(wǎng)絡(luò)和疾病-疾病相似性網(wǎng)絡(luò)作為輔助信息時(shí),相較于IMC,預(yù)測效果更好。因?yàn)樵诋悩?gòu)網(wǎng)絡(luò)中,此類數(shù)據(jù)能夠更直接地反映出基因和疾病之間的關(guān)聯(lián)。而IMC將不同的基因和疾病數(shù)據(jù)提取特征使用時(shí),在此閾值范圍內(nèi)表現(xiàn)欠佳。當(dāng)r>45時(shí),IMC方法的預(yù)測效果明顯提高,利用特征信息進(jìn)行預(yù)測的優(yōu)勢得到體現(xiàn)。本文提出的KIMC1方法和KIMC2方法集成了Katz方法和IMC方法的優(yōu)點(diǎn),在提高預(yù)測效率的同時(shí),使其在不同的閾值范圍內(nèi)預(yù)測表現(xiàn)更穩(wěn)定。當(dāng)r=100時(shí),KIMC2方法的新基因查全率為17.4%。新疾病查全率如圖3(b)所示,其橫坐標(biāo)表示閾值,縱坐標(biāo)表示新疾病查全率。從圖中可以發(fā)現(xiàn),KIMC1方法和KIMC2對(duì)于新疾病的預(yù)測能力也優(yōu)于其他幾種對(duì)比方法。
Fig.3 Recall at different thresholdrfor new genes and diseases圖3 取不同閾值r時(shí)的新基因和新疾病的查全率
上述對(duì)新基因的預(yù)測能力的分析僅在OMIM數(shù)據(jù)庫中的已知基因-疾病關(guān)聯(lián)數(shù)據(jù)集上進(jìn)行驗(yàn)證,對(duì)于一些沒有記錄在數(shù)據(jù)庫中的致病基因無法進(jìn)行評(píng)估驗(yàn)證,因此整體效果會(huì)偏低,同時(shí)對(duì)基因間的關(guān)聯(lián)性也無法進(jìn)行分析。這里選取幾種現(xiàn)實(shí)生活中常見疾病排名前10的致病基因預(yù)測結(jié)果進(jìn)行分析,對(duì)本文提出方法的效果進(jìn)一步補(bǔ)充說明。這里選取了8種常見病,分別為:白血?。╨eukemia)、阿爾茲海默?。╝lzheimer disease)、抗胰島素癥(insulin resistance)、前列腺癌(prostate cancer)、精神分裂癥(schizophrenia)、乳腺癌(breast cancer)、胃癌(gastric cancer)、結(jié)腸癌(colorectal cancer)。實(shí)驗(yàn)時(shí),將訓(xùn)練數(shù)據(jù)中這8種疾病的相關(guān)致病基因信息全部隱藏(即這8種常見病對(duì)應(yīng)的列全部置“0”),預(yù)測的疾病前10個(gè)候選致病基因如表1所示,表中疾病后的數(shù)字(如MIM:601626)表示其在OMIM數(shù)據(jù)庫中對(duì)應(yīng)編號(hào),基因后的數(shù)字(如PAX6(5080))表示基因在NCBI數(shù)據(jù)庫中對(duì)應(yīng)編號(hào)。表中基因順序按照預(yù)測評(píng)分由大到小排列。通過對(duì)表中候選致病基因的分析,可發(fā)現(xiàn)該方法預(yù)測出的致病基因并不僅限于基因-疾病關(guān)聯(lián)數(shù)據(jù)集中已記錄的基因,還能預(yù)測出一些后期研究發(fā)現(xiàn)的疾病相關(guān)基因。如與阿爾茲海默病相關(guān)的基因有PSEN1、PSEN2[4]等,這些已被證實(shí)的疾病相關(guān)基因在表中加粗顯示。其次,從表中可以發(fā)現(xiàn),這8種疾病的前10預(yù)測基因之間有很高的重疊度,有些基因在8種疾病中相互共享,如TP53、KRAS、RAD51已被證實(shí)與多種癌癥的產(chǎn)生有密切關(guān)系[33],因此有充分理由相信,這些共享的基因?qū)嶋H上反映了不同疾病間的病因關(guān)聯(lián)。即這類共享的基因會(huì)導(dǎo)致多種疾病的發(fā)生。通過對(duì)這類共享基因的分析,進(jìn)一步驗(yàn)證了KIMC方法的預(yù)測結(jié)果能夠展現(xiàn)出一些基因的共性。因此,KIMC方法能夠?yàn)檠芯咳藛T發(fā)現(xiàn)致病基因和研究致病基因間的關(guān)聯(lián)提供有效的參考。
Table 1 Prediction of top-10 candidate pathogenic genes for KIMC表1 KIMC預(yù)測前10個(gè)候選致病基因
本文提出了一種基于Katz增強(qiáng)歸納型矩陣補(bǔ)全(KIMC)模型的基因-疾病關(guān)聯(lián)預(yù)測算法。該算法融合Katz方法和IMC方法的優(yōu)點(diǎn),能夠有效緩解遭遇的PU問題的影響,面對(duì)極度稀疏的基因-疾病關(guān)聯(lián)數(shù)據(jù),能夠有效緩解現(xiàn)有方法都會(huì)遭遇的數(shù)據(jù)稀疏性問題。其次,通過引入彈性網(wǎng)正則化緩解數(shù)據(jù)噪聲的影響,在提升預(yù)測效果的同時(shí)增強(qiáng)算法的容噪性。相較于現(xiàn)有預(yù)測方法,KIMC方法預(yù)測效果顯著提高,同時(shí)對(duì)于研究者比較關(guān)注的新基因和新疾病也能有效預(yù)測。該方法對(duì)于降低研究成本,幫助研究者深入研究不同疾病的致病基因和基因相關(guān)性有很大的意義。
基于本文提出的KIMC方法,后期的研究可以考慮融入更多不同類型的生物數(shù)據(jù)源,研究如何高效地從這些生物信息中提取關(guān)聯(lián)度更高的基因和疾病的特征信息,以幫助提高預(yù)測效果。