基于圖注意力網(wǎng)絡(luò)的環(huán)狀RNA與疾病關(guān)聯(lián)關(guān)系預(yù)測(cè)

2023-11-22 08:22:36張瀚元趙博偉尤著宏

計(jì)算機(jī)技術(shù)與發(fā)展 2023年11期

張瀚元,趙博偉,胡倫*,王磊,尤著宏

(1.中國(guó)科學(xué)院大學(xué) 中國(guó)科學(xué)院新疆理化技術(shù)研究所,新疆烏魯木齊 830011;2.廣西科學(xué)院大數(shù)據(jù)與智能計(jì)算研究中心,廣西南寧 530007;3.西北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院大數(shù)據(jù)存儲(chǔ)與管理工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室,陜西西安 710072)

0 引言

環(huán)狀RNA是一類(lèi)收尾相連具有環(huán)狀結(jié)構(gòu)的轉(zhuǎn)錄RNA,它產(chǎn)生于DNA轉(zhuǎn)錄過(guò)程或轉(zhuǎn)錄后的修飾[1-2],具體的產(chǎn)生機(jī)制還在研究中。雖然細(xì)胞內(nèi)的RNA主要是以線性結(jié)構(gòu)為主,但環(huán)狀RNA也大量存在,并且發(fā)現(xiàn)環(huán)狀RNA往往會(huì)高表達(dá)轉(zhuǎn)錄。近年來(lái)隨著高通量測(cè)序技術(shù)的發(fā)展,環(huán)狀RNA能夠通過(guò)被反向比對(duì)的雙端(two-paired)短序列識(shí)別出。數(shù)據(jù)分析表明,它們?cè)诎┌Y等多種復(fù)雜疾病組織與正常組織的比對(duì)中有顯著的轉(zhuǎn)錄差異,這些有差異的環(huán)狀RNA被認(rèn)為與該疾病發(fā)生和發(fā)展有關(guān)系[3]。比如,Hsa_circ_0046430在最近研究中參與miR-6785-5p/SRCIN1的ceRNA調(diào)控網(wǎng)絡(luò)促進(jìn)結(jié)腸癌的生長(zhǎng)[4],CircRNA DDX21則參與miR-1264/QKI的ceRNA調(diào)控網(wǎng)絡(luò)以弱化三陰性乳腺癌的生長(zhǎng)[5],而利用環(huán)狀RNA基因表達(dá)數(shù)據(jù)則可以挖掘出新的胃癌標(biāo)志物[6]等等。然而,通過(guò)實(shí)驗(yàn)手段發(fā)現(xiàn)的環(huán)狀RNA與疾病的關(guān)聯(lián)關(guān)系畢竟有限,研究人員希望通過(guò)現(xiàn)有的研究信息和生物知識(shí),借助機(jī)器學(xué)習(xí)和人工智能的方法,預(yù)測(cè)和挖掘環(huán)狀RNA與疾病的關(guān)聯(lián)關(guān)系[7]。

1 研究背景

建立生物基因型與表型性狀的關(guān)聯(lián)關(guān)系一直是生命科學(xué)研究的重要問(wèn)題[8]。研究人員已經(jīng)通過(guò)計(jì)算手段來(lái)挖掘這種關(guān)聯(lián)關(guān)系,如小RNA(microRNA)與疾病[9]、非編碼RNA(LncRNA)與疾病[10]、環(huán)狀RNA(Circular RNA,CircRNA)與疾病[11-13]的關(guān)聯(lián)關(guān)系。由于已有知識(shí)的局限,以及不同生物分子對(duì)應(yīng)的疾病特征不同,目前多數(shù)有效的環(huán)狀RNA與疾病的預(yù)測(cè)方法是通過(guò)鏈路預(yù)測(cè)(Link prediction)對(duì)已知的環(huán)狀RNA與疾病關(guān)系的補(bǔ)全,關(guān)聯(lián)關(guān)系(Association prediction)預(yù)測(cè)可以認(rèn)為是鏈路預(yù)測(cè)的一種特例[14]。主要關(guān)于鏈路預(yù)測(cè)的方法都有嘗試在環(huán)狀RNA與疾病關(guān)系預(yù)測(cè)問(wèn)題上進(jìn)行研究,比如KATZHCDA方法通過(guò)KATZH圖信息指標(biāo)對(duì)環(huán)狀RNA與疾病的關(guān)系進(jìn)行預(yù)測(cè)。KATZH指標(biāo)是一種通過(guò)節(jié)點(diǎn)間鏈路個(gè)數(shù)來(lái)衡量節(jié)點(diǎn)間關(guān)系程度并用于鏈路關(guān)系的預(yù)測(cè)[15]。iCircDA-MF通過(guò)矩陣分解的方法整合環(huán)狀RNA與疾病的相關(guān)信息進(jìn)行鏈路預(yù)測(cè)[16]。也有通過(guò)深度學(xué)習(xí)模型構(gòu)建分類(lèi)器進(jìn)行相關(guān)關(guān)系的預(yù)測(cè),如MSFCNN方法通過(guò)融合多源信息后利用兩層卷積網(wǎng)絡(luò)進(jìn)行關(guān)系預(yù)測(cè)[17]。GIS-CDA也是一種采用了圖注意力機(jī)制的模型,但主要是利用數(shù)據(jù)融合的技術(shù)和歸納式矩陣補(bǔ)全[12]。以上關(guān)于圖鏈路預(yù)測(cè)的傳統(tǒng)方法都有應(yīng)用在環(huán)狀RNA與疾病關(guān)系的預(yù)測(cè)中。AE-DNN方法通過(guò)構(gòu)建編碼器(AutoEncoder)和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network)進(jìn)行關(guān)系預(yù)測(cè)[18]。AANE-SAE[19]利用屬性網(wǎng)絡(luò)編碼算法(AANE)獲得淺層特征,并利用堆疊的自動(dòng)編碼器(SAE)獲得深層特征,最后利用XGboost分類(lèi)器進(jìn)行預(yù)測(cè)。一般來(lái)說(shuō)利用信息指標(biāo)進(jìn)行鏈路預(yù)測(cè)只局限于部分結(jié)構(gòu),無(wú)法利用到全面的圖結(jié)構(gòu)信息。單純利用傳統(tǒng)的機(jī)器學(xué)習(xí)模型雖然也能取得較好的訓(xùn)練效果,但是在驗(yàn)證中相對(duì)來(lái)說(shuō)具有較高的假陽(yáng)性率,不利于生物實(shí)驗(yàn)的驗(yàn)證。矩陣分解方法的結(jié)果假陽(yáng)性率低,但是偏重于已有知識(shí)的強(qiáng)化,發(fā)現(xiàn)新知識(shí)的能力較弱。

為了能夠提高預(yù)測(cè)的能力,就需要引入更多生物知識(shí)及其關(guān)系網(wǎng)絡(luò)來(lái)提取特征信息,比如構(gòu)建生物知識(shí)的異構(gòu)網(wǎng)絡(luò)等[20]。隨著近年來(lái)圖表示學(xué)習(xí)(graph represent learning)算法的發(fā)展,圖表示學(xué)習(xí)在人類(lèi)社會(huì)網(wǎng)絡(luò)鏈路預(yù)測(cè)的相關(guān)問(wèn)題上取得了較好的結(jié)果[21]。一些圖表示學(xué)習(xí)方法被用于環(huán)狀RNA與疾病關(guān)聯(lián)關(guān)系的預(yù)測(cè),如Lei通過(guò)隨機(jī)游走算法實(shí)現(xiàn)特征的提取,并利用K鄰接聚類(lèi)的方法實(shí)現(xiàn)環(huán)狀RNA與疾病關(guān)聯(lián)關(guān)系的預(yù)測(cè)[22];本課題組發(fā)表的iGRLCDA通過(guò)因子圖卷積網(wǎng)絡(luò)(factor Graph Convolution Network)在異構(gòu)圖上提取特征[23],利用隨機(jī)森林分類(lèi)器實(shí)現(xiàn)環(huán)狀RNA與疾病關(guān)聯(lián)關(guān)系的預(yù)測(cè),取得了較好的結(jié)果。理論上,圖卷積網(wǎng)絡(luò)也可以直接做鏈路預(yù)測(cè)[14],但是不容易訓(xùn)練成功。考慮到環(huán)狀RNA與疾病的關(guān)系中大部分關(guān)系未知,所以iGRLCDA利用因子圖卷積網(wǎng)絡(luò)在主要的圖結(jié)構(gòu)上對(duì)節(jié)點(diǎn)分類(lèi)(node classification)。依據(jù)節(jié)點(diǎn)分類(lèi)模型提取出所有節(jié)點(diǎn)的特征,最后依據(jù)分類(lèi)器實(shí)現(xiàn)鏈路關(guān)系預(yù)測(cè)。在iGRLCDA的設(shè)計(jì)過(guò)程中,發(fā)現(xiàn)對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行調(diào)優(yōu)的過(guò)程比較費(fèi)時(shí)且需要一定技巧,希望設(shè)計(jì)一種具有自適應(yīng)且綜合性能良好的模型來(lái)實(shí)現(xiàn)環(huán)狀RNA與疾病關(guān)聯(lián)關(guān)系的預(yù)測(cè)。深度學(xué)習(xí)模型無(wú)疑具有較好的自適應(yīng)性,但目前對(duì)于環(huán)狀RNA與疾病關(guān)系預(yù)測(cè)深度學(xué)習(xí)AE-DNN模型[18]部分性能并不出眾,反映非平衡數(shù)據(jù)性能的MCC指標(biāo)為0.58,低于iGRLCDA[23]的0.714 6。此外,在驗(yàn)證集上AE-DNN模型的AUC為0.85,也低于iGRLCDA[23]的0.928 7。在實(shí)現(xiàn)自動(dòng)編碼器(AutoEncoder,AE)與深度全連接神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的基礎(chǔ)上,嵌入圖注意力機(jī)制(Graph Attention Network,GAT)[24],實(shí)現(xiàn)了GAT-AE-DNN結(jié)構(gòu)的端到端的深度學(xué)習(xí)模型GATECDA,在環(huán)狀RNA與疾病預(yù)測(cè)的CircR2Disease數(shù)據(jù)集中[25],其綜合性能AUC得分為0.961 8,MCC關(guān)系為0.757 6。GATECDA采用端到端的GAT-AE-DNN深度學(xué)習(xí)模型,具有自適應(yīng)性、易于泛化和拓展等特點(diǎn),訓(xùn)練過(guò)程也更容易。

2 基于圖表示學(xué)習(xí)方法的預(yù)測(cè)

基于圖表示學(xué)習(xí)方法進(jìn)行特征提取并預(yù)測(cè)關(guān)聯(lián)關(guān)系的基礎(chǔ)在于從圖中學(xué)習(xí)相應(yīng)的知識(shí)并將圖結(jié)構(gòu)信息融合入圖中節(jié)點(diǎn)的特征。相較于傳統(tǒng)上只利用節(jié)點(diǎn)內(nèi)部的信息,圖表示學(xué)習(xí)可以利用節(jié)點(diǎn)有聯(lián)系的不同節(jié)點(diǎn)的特征來(lái)強(qiáng)化自身以反映與相關(guān)節(jié)點(diǎn)的聯(lián)系。以環(huán)狀RNA參與的ceRNA調(diào)控網(wǎng)絡(luò)為例,如果只考慮其自身的序列信息,那么可能在表示中無(wú)法反映出環(huán)狀RNA通過(guò)吸附miRNA來(lái)調(diào)節(jié)LncRNA的關(guān)系。但利用圖表示學(xué)習(xí)方法提取特征后,所提取的特征來(lái)源于環(huán)狀RNA自身,但也能把現(xiàn)有的調(diào)控關(guān)系反映出來(lái)。

目前,主要的圖表示學(xué)習(xí)方法有矩陣分解的方法、隨機(jī)游走的方法、圖神經(jīng)網(wǎng)絡(luò)的方法等。其中圖注意力網(wǎng)絡(luò)(Graph attention networks,GATs)也是圖神經(jīng)網(wǎng)絡(luò)中一種主要的方法[21,24],在多個(gè)同質(zhì)數(shù)據(jù)集上的鏈路預(yù)測(cè)中取得了較好的性能。研究中首先建立異構(gòu)的環(huán)狀RNA與疾病關(guān)系的網(wǎng)絡(luò)。所謂異構(gòu)是因?yàn)榄h(huán)狀RNA或疾病在各自向量空間內(nèi)存在關(guān)系圖,如圖1所示,需要在不同向量空間表述的節(jié)點(diǎn)關(guān)系中挖掘關(guān)聯(lián)關(guān)系。比如關(guān)系圖G=(u,v),其中的u與v分別表示不同類(lèi)型的節(jié)點(diǎn),它們各自在自身的向量空間存在不同的維度u_feature和v_feature。已經(jīng)知道部分u與v之間存在聯(lián)系,因此構(gòu)成了異構(gòu)關(guān)系圖。圖表示學(xué)習(xí)方法實(shí)質(zhì)就是在考慮異構(gòu)關(guān)系圖G的結(jié)構(gòu)上把u_feature和v_feature映射到同一個(gè)空間成為node_feature,該node_feature可以區(qū)分整體關(guān)系圖G中不同節(jié)點(diǎn)的類(lèi)別。

隨后,u與v之間的已知關(guān)系(u,v)->R為預(yù)測(cè)的正樣本集,隨機(jī)產(chǎn)生的關(guān)系(u,v)->R*為預(yù)測(cè)的負(fù)樣本,正負(fù)樣本具有相同的大小N(N=739)并一同作為大小為2N的訓(xùn)練集。在訓(xùn)練集上采用五折交叉驗(yàn)證。此外,為了驗(yàn)證不同模型的性能,從訓(xùn)練集中拿出n(n=50)個(gè)關(guān)系作為驗(yàn)證集。最后,將提取的節(jié)點(diǎn)特征聯(lián)系起來(lái)利用分類(lèi)器進(jìn)行預(yù)測(cè)。圖1展示了GATECDA的整體流程,從異構(gòu)生物知識(shí)中獲得環(huán)狀RNA與疾病的特征,并用深度模型預(yù)測(cè)關(guān)聯(lián)關(guān)系。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

研究工作在一臺(tái)雙路Intel至強(qiáng)2365V2處理器的工作站上實(shí)現(xiàn),內(nèi)存為96 GB。在實(shí)現(xiàn)過(guò)程中,實(shí)際使用內(nèi)存不超過(guò)16 GB,主要在屬性節(jié)點(diǎn)的特征提前上花費(fèi)較多。GATECDA模型采用python 3.7語(yǔ)言實(shí)現(xiàn),模型利用tensorflow 2.7張量流計(jì)算框架和keras深度學(xué)習(xí)框架封裝構(gòu)建,GAT層的實(shí)現(xiàn)采用了dgl圖神經(jīng)網(wǎng)絡(luò)工具包。

3.2 數(shù)據(jù)集

考慮通過(guò)環(huán)狀RNA的序列信息相似性,疾病關(guān)系的語(yǔ)義信息相似性和由已知的環(huán)狀RNA與疾病關(guān)系信息相似性來(lái)建立異構(gòu)網(wǎng)絡(luò)。其中,環(huán)狀RNA序列信息源自circBase[26]數(shù)據(jù)庫(kù)中基于hg19基因組的推測(cè)的環(huán)狀RNA選擇性剪切序列。疾病關(guān)系的語(yǔ)義信息采用引用字典Mesh的關(guān)系獲得[27]。環(huán)狀RNA與疾病關(guān)系信息由CircR2Disease數(shù)據(jù)庫(kù)[25]中經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證的關(guān)系獲得。部分因數(shù)據(jù)庫(kù)環(huán)狀RNA的id對(duì)應(yīng)不上的序列也可以由CircR2Disease數(shù)據(jù)庫(kù)[25]提供的基因組位置或?qū)?yīng)的基因Symbol獲得。一共獲得739個(gè)環(huán)狀RNA與疾病關(guān)系作為正樣本集,涉及到661個(gè)環(huán)狀RNA和100種疾病。在這個(gè)關(guān)系中,還存在65 261個(gè)未標(biāo)注的環(huán)狀RNA與疾病的隨機(jī)關(guān)系,隨機(jī)從里面取得739個(gè)作為負(fù)樣本集。最后從1 478個(gè)正負(fù)樣本關(guān)系中取出50個(gè)關(guān)系作為驗(yàn)證集,剩余的1 428個(gè)關(guān)系作為訓(xùn)練集。

3.3 環(huán)狀RNA與疾病的特征提取

根據(jù)獲得的數(shù)據(jù)信息,可以構(gòu)建三組節(jié)點(diǎn)間相似關(guān)系信息,包括環(huán)狀RNA與疾病、環(huán)狀RNA與環(huán)狀RNA、疾病與疾病。

(1)環(huán)狀RNA與疾病關(guān)聯(lián):所有從CircR2Disease[25]的739個(gè)環(huán)狀RNA與疾病關(guān)系,涉及到661個(gè)環(huán)狀RNA和100種疾病,可以構(gòu)成661×100的關(guān)系矩陣RD,其中有關(guān)系為1,否則為0。從該關(guān)系矩陣就可以通過(guò)Gaussian Interaction Profile (GIP)方法獲得單個(gè)環(huán)狀RNA或疾病的特征向量。GIP方法也是藥物與疾病關(guān)系等預(yù)測(cè)中常使用的方法[28],可以通過(guò)函數(shù)SE(p(i),p(j))從關(guān)系矩陣中兩個(gè)表示為0-1向量V(p)獲得節(jié)點(diǎn)i與j的相似性,如公式(1)。

(1)

(2)

其中,V(p(i))-V(p(j))表示兩個(gè)0-1向量間的差異,通過(guò)L2范式獲得差異的距離,乘以歸一化因子θ后獲得e指數(shù)的冪。最后,通過(guò)冪指數(shù)函數(shù)SE可以獲得0-1關(guān)系矩陣RD中任意兩個(gè)節(jié)點(diǎn)間的相似性,進(jìn)而原來(lái)稀疏的0-1關(guān)系矩陣就轉(zhuǎn)化為稠密關(guān)系。其中環(huán)狀RNA或疾病可以獲得761個(gè)維度的特征。

(2)環(huán)狀RNA與環(huán)狀RNA相似性:可以獲得環(huán)狀RNA的序列信息,并通過(guò)序列相似性獲得環(huán)狀RNA與環(huán)狀RNA的661×661的相似矩陣CC。由此,可生成單個(gè)環(huán)狀RNA的特征向量。這里的環(huán)狀RNA的相似性由skip-gram結(jié)構(gòu)的word2vec生成[29]。因?yàn)镽NA序列結(jié)構(gòu)的復(fù)雜性,RNA序列的作用區(qū)域可能局限于內(nèi)部的短序列片段中,直接獲取兩條RNA序列的相似性不能反映它們相互作用的關(guān)系[30]。word2vec模型在自然預(yù)言處理中廣泛使用,它通過(guò)一個(gè)單詞在上下文中的出現(xiàn)關(guān)系來(lái)挖掘其特征表示。在生物序列的挖掘中,定義6-mer,如“ACCATC”為一個(gè)單詞w。

(3)

word2vec在該任務(wù)中是尋找參數(shù)Θ使得所有屬于語(yǔ)料T中每個(gè)句子S內(nèi)單詞W的聯(lián)合概率乘積最大。在訓(xùn)練中語(yǔ)料T包括13 000條環(huán)狀RNA序列。

(4)

(3)疾病與疾病相似性: 建立疾病與疾病100×100的相似關(guān)系,就可以獲得單個(gè)疾病100個(gè)維度的特征信息。疾病與疾病的相似關(guān)系源自MeSH數(shù)據(jù)庫(kù)。作為醫(yī)學(xué)引用詞典,MeSH數(shù)據(jù)庫(kù)通過(guò)分析大量醫(yī)學(xué)論文的引用關(guān)系提供了醫(yī)學(xué)主題詞關(guān)系。利用醫(yī)學(xué)主題詞關(guān)系,基于王等人[31]發(fā)表的方法,可以獲得關(guān)于疾病間的相似關(guān)系。醫(yī)學(xué)主題詞關(guān)系構(gòu)建了有向無(wú)環(huán)圖(DAG)?？梢杂浤骋患膊參與的DAG(d)=(d,N(d),E(d)),其中N(d)表示與某一疾病相關(guān)的所有節(jié)點(diǎn),包括疾病或者癥狀;E(d)表示與之涉及的所有邊。如果在DAG(d)中還存在另一疾病s,那么可以通過(guò)如下公式計(jì)算疾病d與疾病s的關(guān)系:

(5)

在公式(5)中如果疾病d與疾病s關(guān)聯(lián),那么它們的關(guān)系為1,否則找出疾病d到疾病s所有共同關(guān)聯(lián)的子節(jié)點(diǎn)數(shù)量,作為它們之間的關(guān)系。在復(fù)雜疾病中,疾病d的影響力為所有與之有關(guān)疾病的關(guān)系的累加和,定義如下:

(6)

有了以上(6)的信息,可以定義兩個(gè)疾病間的互信息SS1:

在公式(7)中,兩兩疾病間的相似關(guān)系可以理解為與它們相關(guān)所有節(jié)點(diǎn)的關(guān)系除以?xún)蓚€(gè)疾病的整體影響。但是有些疾病可能影響的節(jié)點(diǎn)少,但它卻很重要,于是設(shè)計(jì)了另一個(gè)指標(biāo)DCd(s):

(8)

其中,num(contain(DAG(d),s))表示DAG(d)圖中包含疾病s的數(shù)量,num(diseases)表示所有的疾病。這樣關(guān)聯(lián)數(shù)量少的疾病DC的分就越高。于是,有了第二個(gè)衡量疾病關(guān)系的互信息SS2:

(9)

最后,將SS1與SS2共同考慮得到SS=0.5*SS1+0.5*SS2,作為最后疾病之間的語(yǔ)義相似關(guān)系。

3.4 GATECDA模型的實(shí)現(xiàn)

在GATECDA的實(shí)現(xiàn)如圖2所示。首先,構(gòu)建了環(huán)狀RNA與疾病的初始特征,計(jì)算環(huán)狀RNA與疾病之間關(guān)聯(lián)關(guān)系的相似性,疾病的語(yǔ)義相似性和環(huán)狀RNA的序列相似性。其次,GATECDA加入了圖注意力網(wǎng)絡(luò)(Graph attention networks,GATs)提取環(huán)狀RNA與疾病異質(zhì)關(guān)系圖中的特征表示。最后,將得到的環(huán)狀RNA與疾病的特征表示送入AE-DNN深度學(xué)習(xí)模型進(jìn)行關(guān)系預(yù)測(cè),其中包含了自動(dòng)編碼器(AutoEncoder,AE)和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)。筆者認(rèn)為GAT起到了特征提取與融合的作用,AE起到了特征降維的作用,DNN起到了分類(lèi)器的作用。單層圖注意力網(wǎng)絡(luò)GAT也是由數(shù)個(gè)神經(jīng)元組成的單元,一般不超過(guò)三層,比圖卷積網(wǎng)絡(luò)更容易達(dá)到訓(xùn)練效果[24]。相比圖卷積網(wǎng)絡(luò)是一種淺層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),因?yàn)楸旧韺儆谏窠?jīng)網(wǎng)絡(luò),所以可以嵌入到深度學(xué)習(xí)模型中。

圖2 GATECDA模型深度學(xué)習(xí)模型的結(jié)構(gòu)

模型首先接受生物知識(shí)圖G及其節(jié)點(diǎn)特征。圖G可以認(rèn)為是一個(gè)M*N的二部圖(bipartie graph)。M可以認(rèn)為是所有的環(huán)狀RNA,而N為疾病,同時(shí)M和N各自的特征也被作為參數(shù)。圖注意力網(wǎng)絡(luò)在接受數(shù)據(jù)后完成了以下工作:

Wupdatenode=[sigmoid(X*[F(j),F(i)])]

(10)

(11)

(12)

F*(i)=LeakyReLU(α*F(i))

(13)

其中,j表示i節(jié)點(diǎn)的所有鄰接節(jié)點(diǎn)。Wupdatenode構(gòu)成了輸入層的神經(jīng)網(wǎng)絡(luò),X*[F(j),F(i)]為該層輸入的數(shù)據(jù),其中X為自定義特征矩陣,[F(j),F(i)]表示i和j的聯(lián)合特征向量。在學(xué)習(xí)一遍所有節(jié)點(diǎn)后,希望單個(gè)節(jié)點(diǎn)更新后在整體中起到最大作用,這里用α體現(xiàn)特征的更新,F*是更新后的特征。此外,作為一種隨機(jī)過(guò)程,每更新一輪被認(rèn)為是1個(gè)頭(head)的注意力,更新k次為多個(gè)頭(k-heads)的注意力,在GATECDA中k為8。最后,所有1至k次的特征更新都被均方和作為最后的特征,如公式(14):

(14)

注意力的思想與word2vec一致,就是每個(gè)節(jié)點(diǎn)都朝著在整體背景中最顯著去改變。而多頭的概念與主成分分析(PCA)的概念相似。所以認(rèn)為多頭注意力網(wǎng)絡(luò)起到了特征提取與融合的作用。隨后的AE-DNN模型由自動(dòng)編碼器(AutoEncoder,AE)和深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)組成,是深度學(xué)習(xí)中的經(jīng)典模型,在很多機(jī)器翻譯任務(wù)中都有較為出色的表現(xiàn)。AE層接受稀疏的數(shù)據(jù),在不斷收窄的多層網(wǎng)絡(luò)中實(shí)現(xiàn)信息的融合、壓縮與標(biāo)準(zhǔn)化,之后又以多層變寬的網(wǎng)絡(luò)壓縮后的數(shù)據(jù)還原回輸入數(shù)據(jù)。AE具有降維的作用,在GATECDA中,如圖2(2)把兩層GAT網(wǎng)絡(luò)得到的1 522維的特征壓縮為128維的特征。經(jīng)過(guò)AE處理過(guò)的數(shù)據(jù)又被送入深度神經(jīng)網(wǎng)絡(luò)6層神經(jīng)網(wǎng)絡(luò)構(gòu)建的DNN進(jìn)行關(guān)聯(lián)關(guān)系的分類(lèi)預(yù)測(cè),如圖2(3)。在所有的AE-DNN層中,都使用了Batch normalization和dropout機(jī)制。Batch normalization是一種歸一化方法,可以減小異常數(shù)據(jù)的干擾。dropout機(jī)制是在每一層反饋梯度時(shí),只更新一定比例的神經(jīng)元,該模型訓(xùn)練時(shí)dropout的值為0.3。Batch normalization和dropout機(jī)制都是為了防止模型過(guò)擬合,提高模型泛化能力。

3.5 評(píng)估指標(biāo)

在取得對(duì)預(yù)測(cè)結(jié)果評(píng)估矩陣的真陽(yáng)性率(True Positive,TP)、真陰性率(True Negative,TN)、假陽(yáng)性率(False Positive,FP)、假陰性率(False Negative,FN)后,采用了準(zhǔn)確率(Acc.)、敏感度(Sen.)、精準(zhǔn)率(Pre.)、F1打分(F1)和Matthews關(guān)系(MCC)來(lái)較全面地評(píng)估模型的性能,這些也是機(jī)器學(xué)習(xí)領(lǐng)域的主流評(píng)價(jià)方法,如下:

(15)

(16)

(17)

(18)

MCC=

(19)

在五折交叉驗(yàn)證的測(cè)試下,衡量受試者工作特征曲線(ROC)下面積(AUC)也是機(jī)器學(xué)習(xí)領(lǐng)域里衡量模型性能的主要指標(biāo)。通過(guò)模型在逐一增長(zhǎng)的測(cè)試集上預(yù)測(cè)結(jié)果真陽(yáng)性率(TPR)與假陽(yáng)性率(FPR)的平面坐標(biāo)位置,就可以做出ROC曲線。

3.6 模型能力評(píng)估

為了評(píng)估GATECDA模型的能力,在CircR2Disease數(shù)據(jù)集上進(jìn)行五折交叉驗(yàn)證,即將訓(xùn)練集劃分為5等份,進(jìn)行五次訓(xùn)練。每次以其中四份進(jìn)行訓(xùn)練,一份進(jìn)行測(cè)試(285個(gè)樣本)。圖3展示了GATECDA模型的訓(xùn)練過(guò)程的ROC曲線及AUC值。GATECDA模型的五折交叉驗(yàn)證平均AUC值為0.961 8,每次的AUC值分別為0.947 6,0.952 0,0.963 7和0.979 5。其綜合性能在表1中體現(xiàn),平均準(zhǔn)確率為87.53%,敏感度為93.62%,精準(zhǔn)度為83.80%,F1打分為88.35%,MCC關(guān)系為0.757 6, 精準(zhǔn)度-召回曲線下面積AUPRC為0.903 2,ROC曲線下面積AUC為0.961 8。

表1 GATECDA在CircR2Disease數(shù)據(jù)集上五折交叉驗(yàn)證

圖3 GATECDA模型在CircR2Disease 數(shù)據(jù)集生成的ROC曲線

3.7 不同預(yù)測(cè)模型比較

比較了已經(jīng)發(fā)表的環(huán)狀RNA與疾病關(guān)聯(lián)關(guān)系預(yù)測(cè)的幾種方法在CircR2Disease[25]數(shù)據(jù)集上五折交叉驗(yàn)證中的AUC值, 見(jiàn)表2。它們包括基于圖表示學(xué)習(xí)方法GATECDA、iGRLCD[23]和GIS-CDA[12],深度學(xué)習(xí)模型AE-DNN[18]與AANE-SAE[19],以上模型在文中研究背景中均有介紹。通過(guò)比較可以看出,GATE-CDA在五折交叉驗(yàn)證中平均的AUC為0.961 8,高于iGRLCDA[23]的0.928 7和AE-DNN[18]的0.930 3。對(duì)于衡量不平衡數(shù)據(jù)集上性能的MCC值,GATECDA的0.757 6,也高于AE-DNN的0.583 6和iGRLCDA模型的0.714 6。其中GIS-CDA與GATECDA模型都采用了圖注意力機(jī)制,不過(guò)GIS-CDA是先用編碼器融合不同維度的特征后再使用圖注意力機(jī)制, GATECDA模型首先使用圖注意力機(jī)制而不是進(jìn)行編碼的信息融合,因而比GIS-CDA模型的AUC略高。筆者認(rèn)為在設(shè)計(jì)異構(gòu)網(wǎng)絡(luò)模型時(shí),越能完整和直接地利用圖結(jié)構(gòu)信息,越有利于模型的預(yù)測(cè)。GATECDA不足在于實(shí)現(xiàn)的圖注意力機(jī)制(CAT)是一種淺學(xué)習(xí)[14,24],對(duì)于以后更大規(guī)模數(shù)據(jù)集或知識(shí)圖譜上能力提升空間不如圖卷積網(wǎng)絡(luò)(GCN)模型[21]

表2 不同預(yù)測(cè)模型的比較

3.8 不同分類(lèi)器比較

比較GATECDA和不同分類(lèi)器模型在驗(yàn)證集上的預(yù)測(cè)能力。其中KNN、RF、XGboost和SVM為iLearnPlus工具[32]封裝好的分類(lèi)器。GATECDA是該文提出的端到端圖注意力網(wǎng)絡(luò)、自動(dòng)編碼器與深度神經(jīng)網(wǎng)絡(luò)結(jié)合的深度學(xué)習(xí)模型(GAT_AE_DNN),其中AE是自動(dòng)編碼器加輸出層的分類(lèi)器,DNN是深度神經(jīng)網(wǎng)絡(luò)分類(lèi)器。SVM是支持向量機(jī)(Support Vector Machine),KNN是K鄰接分類(lèi)器(K-nearest Neighbor),RF是隨機(jī)森林分類(lèi)器(Random Forest),XGboost是極限學(xué)習(xí)分類(lèi)器(Extreme Gradient boost)。以上所有模型都在1 428個(gè)正負(fù)關(guān)系構(gòu)成的訓(xùn)練集上加以訓(xùn)練,并在獨(dú)立劃分出的50個(gè)樣本的驗(yàn)證集上做性能比較。從圖4中可以看出,在驗(yàn)證集樣本上GATECDA的AUC最高為0.972 6, XGboost的AUC值為0.895 0,KNN為0.733 3,RF為0.640 8, SVM為0.667 2。

圖4 不同分類(lèi)器模型在驗(yàn)證集上的ROC曲線

3.9 特征消融實(shí)驗(yàn)

為了分析圖結(jié)構(gòu)的已有知識(shí)信息與節(jié)點(diǎn)屬性信息對(duì)模型能力的貢獻(xiàn),設(shè)計(jì)了特征消融實(shí)驗(yàn),見(jiàn)表3。研究中,GATECDA模型既使用已有知識(shí)構(gòu)建圖G,也采用節(jié)點(diǎn)屬性特征,得到的預(yù)測(cè)結(jié)果AUC為0.961 8,AUPR為0.903 2。GATECDA-F是GATECDA模型只包含圖結(jié)構(gòu)信息,得到的預(yù)測(cè)結(jié)果AUC為0.582 7,AUPR為0.785 7。GATECDA-G是GATECDA模型只包含節(jié)點(diǎn)屬性特征,得到的預(yù)測(cè)結(jié)果AUC為0.491 5,AUPR為0.732 8。最后為該結(jié)果符合預(yù)期,圖注意力網(wǎng)絡(luò)在考慮圖結(jié)構(gòu)和節(jié)點(diǎn)屬性特征時(shí)可以強(qiáng)化特征信息。

表3 特征消融實(shí)驗(yàn)

4 案例研究

通過(guò)GATECDA從661個(gè)環(huán)狀RNA和100種疾病的65 261個(gè)未標(biāo)注潛在組合中預(yù)測(cè)3 743個(gè)關(guān)聯(lián)關(guān)系,約占未標(biāo)注總數(shù)的5.7%。表4列出預(yù)測(cè)結(jié)果排名前30的關(guān)聯(lián)關(guān)系,并且通過(guò)文獻(xiàn)檢索查到相關(guān)CircRNA或其所在基因在以前的生物實(shí)驗(yàn)中有發(fā)現(xiàn)與相關(guān)疾病存在聯(lián)系。在預(yù)測(cè)的結(jié)果得到的前30個(gè)環(huán)狀RNA與疾病的關(guān)聯(lián)關(guān)系中,其中有25個(gè)關(guān)聯(lián)能夠在最近醫(yī)學(xué)文獻(xiàn)中被發(fā)現(xiàn)存在關(guān)聯(lián)。預(yù)測(cè)結(jié)果可以幫助研究人員縮小篩查范圍,盡快找到與疾病相關(guān)的關(guān)鍵標(biāo)志物。實(shí)驗(yàn)中獲得的差異信息很多,一般的方法是做富集分析或是在基因共表達(dá)網(wǎng)絡(luò)尋找關(guān)鍵基因。如果結(jié)合已有知識(shí)對(duì)環(huán)狀RNA與疾病的關(guān)聯(lián)關(guān)系預(yù)測(cè)可以為尋找關(guān)鍵基因和疾病標(biāo)志物提供一種新的角度。

表4 預(yù)測(cè)排名前30個(gè)環(huán)狀RNA與疾病的關(guān)系及文獻(xiàn)檢索

續(xù)表4

5 挑戰(zhàn)與發(fā)展

筆者認(rèn)為,目前采用圖表示學(xué)習(xí)提取特征進(jìn)行環(huán)狀RNA與疾病關(guān)聯(lián)關(guān)系預(yù)測(cè)的方法比其他方法能獲得較好的綜合性能。針對(duì)目前取得的進(jìn)展,一方面需要利用更豐富的生物網(wǎng)絡(luò)知識(shí),即利用復(fù)雜異構(gòu)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)任意環(huán)狀RNA與疾病的預(yù)測(cè),同時(shí)保持驗(yàn)證中較低的假陽(yáng)性率。從這一點(diǎn)上看,GATECDA的基礎(chǔ)在于已有知識(shí)的補(bǔ)全,因而更適合于降低假陽(yáng)性率的新知識(shí)的挖掘。另一方面,研究環(huán)狀RNA與疾病關(guān)系的預(yù)測(cè)最初也是想實(shí)現(xiàn)環(huán)狀RNA、調(diào)控分子、生物過(guò)程、生物性狀到疾病完整鏈路的預(yù)測(cè),但相關(guān)的知識(shí)和計(jì)算方法以前達(dá)不到一定的積累。隨著圖神經(jīng)網(wǎng)絡(luò)、圖表示學(xué)習(xí)和生物信息等方法在相關(guān)方面的進(jìn)展,關(guān)聯(lián)關(guān)系預(yù)測(cè)方法與生物知識(shí)的不斷積累,圖表示學(xué)習(xí)的方法能夠在與大規(guī)模知識(shí)圖譜不斷結(jié)合與發(fā)展。利用GATECDA多頭注意力機(jī)制和易于訓(xùn)練的特點(diǎn),在多目標(biāo)的二部圖(bipartite graph)結(jié)構(gòu)中應(yīng)當(dāng)會(huì)比較適用,挖掘出中間的調(diào)控過(guò)程,實(shí)現(xiàn)鏈路預(yù)測(cè)。

6 結(jié)束語(yǔ)

環(huán)狀RNA與疾病關(guān)聯(lián)關(guān)系預(yù)測(cè)模型在利用圖表示學(xué)習(xí)機(jī)制后性能有所提升,圖神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)結(jié)合的模型更易于訓(xùn)練與泛化。筆者認(rèn)為利用人工智能技術(shù)挖掘已有生命科學(xué)知識(shí)進(jìn)行相關(guān)的預(yù)測(cè),其結(jié)果可以有助于解釋在高通量實(shí)驗(yàn)中發(fā)現(xiàn)的大量異常信息,為研究人員推薦出與研究背景相關(guān)的關(guān)鍵信息,這將加快和提高相關(guān)領(lǐng)域的研究進(jìn)展。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放