亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖數(shù)據(jù)增強(qiáng)的疾病與基因關(guān)聯(lián)挖掘

        2024-05-20 00:00:00賈祥虎吳舜堯
        關(guān)鍵詞:關(guān)聯(lián)方法

        摘要:

        針對(duì)現(xiàn)有關(guān)聯(lián)數(shù)據(jù)不完整和利用多源組學(xué)數(shù)據(jù)不充分等問(wèn)題,設(shè)計(jì)基于三跳局部拓?fù)湎嗨菩缘挠?jì)算指標(biāo),識(shí)別具有生物學(xué)意義但尚未映射的蛋白質(zhì)相互作用(Protein-Protein Interactions, PPI),提出了一種基于圖數(shù)據(jù)增強(qiáng)的新型圖神經(jīng)網(wǎng)絡(luò)方法(GDaEPred)用于疾病與基因關(guān)聯(lián)挖掘。實(shí)驗(yàn)結(jié)果表明,GDaEPred的平均精確率提升了4.1%,精確率、召回率和F1score也均有提升。

        關(guān)鍵詞:

        圖神經(jīng)網(wǎng)絡(luò);圖數(shù)據(jù)增強(qiáng);致病基因預(yù)測(cè)

        中圖分類號(hào):TP391

        文獻(xiàn)標(biāo)志碼:A

        收稿日期:2023-08-13

        基金項(xiàng)目:

        山東省自然科學(xué)基金(批準(zhǔn)號(hào):ZR2019PF012)資助;山東省高等學(xué)校科技計(jì)劃項(xiàng)目(批準(zhǔn)號(hào):J18KA356)資助。

        通信作者:

        吳舜堯,男,博士,講師,主要研究方向數(shù)據(jù)挖掘與復(fù)雜網(wǎng)絡(luò)。E-mail: wushunyao@qdu.edu.cn

        基因突變或基因異常是導(dǎo)致許多疾病發(fā)生的關(guān)鍵因素[1],與特定疾病或疾病風(fēng)險(xiǎn)相關(guān)的基因稱之為致病基因[2]。研究和預(yù)測(cè)致病基因可更好地了解疾病的發(fā)生機(jī)制和風(fēng)險(xiǎn)因素,為疾病的預(yù)防、早期治療和個(gè)體化治療提供科學(xué)依據(jù)[3]。致病基因研究也有助于揭示基因與疾病之間的關(guān)聯(lián),推動(dòng)醫(yī)學(xué)科學(xué)的發(fā)展和進(jìn)步。近幾十年,高通量測(cè)序技術(shù)快速發(fā)展,生物分子之間已識(shí)別的相互作用數(shù)量呈現(xiàn)指數(shù)級(jí)增長(zhǎng),涌現(xiàn)出大量的疾病基因關(guān)聯(lián)[4],這使得通過(guò)現(xiàn)有的疾病基因關(guān)聯(lián)推斷疾病和基因之間是否存在關(guān)聯(lián)成為可能。目前,基于分子網(wǎng)絡(luò)的計(jì)算方法尋找疾病相關(guān)基因成為了重點(diǎn)研究領(lǐng)域[5-7],根據(jù)致病基因預(yù)測(cè)的方法和原理,現(xiàn)有研究可分為基于結(jié)構(gòu)和功能、基于網(wǎng)絡(luò)和基于機(jī)器學(xué)習(xí)三類方法?;诮Y(jié)構(gòu)和功能[8-9]的方法主要通過(guò)分析蛋白質(zhì)的結(jié)構(gòu)和分析基因或者蛋白質(zhì)的功能注釋、互作關(guān)系、代謝途徑等,預(yù)測(cè)蛋白質(zhì)和基因是否具有致病性。基于網(wǎng)絡(luò)的方法主要利用生物分子網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和關(guān)系信息預(yù)測(cè)致病基因,例如基于蛋白質(zhì)相互作用網(wǎng)絡(luò)[10]、基因共表達(dá)網(wǎng)絡(luò)[11]等。基于機(jī)器學(xué)習(xí)的方法主要是利用機(jī)器學(xué)習(xí)算法從大規(guī)模的基因或蛋白質(zhì)數(shù)據(jù)中學(xué)習(xí)致病基因的特征和模式,如支持向量機(jī)、隨機(jī)森林等[12-13]。然而,現(xiàn)有關(guān)聯(lián)的記錄仍然不足,缺失的人類蛋白質(zhì)相互作用的數(shù)量超過(guò)了實(shí)驗(yàn)記錄的相互作用[14-15],識(shí)別潛在的蛋白質(zhì)相互作用仍然是一項(xiàng)昂貴且耗時(shí)的任務(wù)[2]。為此,本文基于三跳局部拓?fù)湎嗨菩裕═hree-hop local topological similarity, 3LTS)的網(wǎng)絡(luò)路徑方法[16]獲取了具有生物學(xué)意義但尚未映射的蛋白質(zhì)相互作用(Protein-Protein Interactions PPI),提出了基于圖數(shù)據(jù)增強(qiáng)的圖神經(jīng)網(wǎng)絡(luò)方法,將融合PPI的生物分子網(wǎng)絡(luò)模塊引入圖神經(jīng)網(wǎng)絡(luò),通過(guò)聚合鄰居節(jié)點(diǎn)的特征信息,不斷地訓(xùn)練模型,從而挖掘疾病與基因之間的關(guān)聯(lián)。

        1 基于3LTS的圖數(shù)據(jù)增強(qiáng)

        本文設(shè)計(jì)了3種基于3LTS(P=M*3)的計(jì)算指標(biāo),用于獲取PPI(圖1)。

        目前,最先進(jìn)的基于網(wǎng)絡(luò)的鏈路預(yù)測(cè)方法依賴于三元閉合原理(Ternary Closure Principle,TCP)[17-18]。如圖1所示,根據(jù)TCP原理,蛋白質(zhì)X和蛋白質(zhì)Y共享多個(gè)相互作用伙伴(A、B、C),那么X和Y很可能相互作用。然而,蛋白質(zhì)之間相互作用通常需要互補(bǔ)的界面[17]。因此,具有相似界面(圖1中的灰色標(biāo)識(shí))的X和Y不能保證直接相互作用。相反,X的一個(gè)額外相互作用伙伴(蛋白質(zhì)D)可能與Y相互作用。這樣的鏈路可以通過(guò)3LTS來(lái)獲取。

        最簡(jiǎn)單的相似性指標(biāo)是公共鄰居(Common Neighbor,CN)[19],用于衡量?jī)蓚€(gè)節(jié)點(diǎn)在網(wǎng)絡(luò)中共享的鄰居數(shù)量?;贑N指標(biāo),本文設(shè)計(jì)了CN_3LTS指標(biāo)、AA(Adamic-Adar,AA)_3LTS指標(biāo)和RA(Resource Allocation,RA)_3LTS指標(biāo),作用于PPI網(wǎng)絡(luò),計(jì)算兩個(gè)節(jié)點(diǎn)的途徑鄰居(Path Neighbor,PN)信息。

        CN_3LTS指標(biāo)衡量?jī)蓚€(gè)節(jié)點(diǎn)的PN數(shù)量,PN越多,相互作用的可能性越大。CN_3LTS指標(biāo)定義為

        CN_3LTSuv={z|z∈τu∪τv,z∈Len3}(1)

        其中,τ(u)和τ(v)分別表示節(jié)點(diǎn)u和v的一階鄰居節(jié)點(diǎn)集合,u和v的最短路徑長(zhǎng)度為3,Len3代表長(zhǎng)度為3的路徑,z包含u和v的一階鄰居節(jié)點(diǎn),均在Len3上,即z代表PN集合。

        AA_3LTS指標(biāo)考慮兩個(gè)節(jié)點(diǎn)PN的度信息,節(jié)點(diǎn)的度數(shù)越大,與其相關(guān)的信息共享越普遍,對(duì)相似性的貢獻(xiàn)越小。AA_3LTS指標(biāo)為

        AA_3LTSuv=∑z∈τ(u)∪τ(v),z∈Len31lg |r(z)|(2)

        其中,|r(z)|代表的是每個(gè)PN的度數(shù),分值較高表示節(jié)點(diǎn)間相互作用的可能性較大。

        RA_3LTS指標(biāo)基于一個(gè)假設(shè),即節(jié)點(diǎn)作為傳輸者,通過(guò)PN相互傳遞資源,資源均勻分布給所有PN,因此,節(jié)點(diǎn)間的相似性可以通過(guò)傳輸?shù)馁Y源量衡量[20]。指標(biāo)為節(jié)點(diǎn)分配的權(quán)重值等于該節(jié)點(diǎn)度的倒數(shù)(即1/度數(shù)),指標(biāo)數(shù)值越大,表示兩個(gè)節(jié)點(diǎn)之間的資源分配越高,相互作用的概率越大。RA_3LTS指標(biāo)為

        RA_3LTSuv=∑z∈τ(u)∪τ(v),z∈Len31|r(z)|(3)

        2 基于圖卷積神經(jīng)網(wǎng)絡(luò)的致病基因預(yù)測(cè)模型

        本文研究框架包括生成圖嵌入表示向量、圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Neural Network,GCN)和解碼預(yù)測(cè)3部分(圖2)。

        2.1 生成圖嵌入表示向量

        使用Deep Graph Library(DGL)將疾病基因關(guān)聯(lián)網(wǎng)絡(luò)和PPI網(wǎng)絡(luò)轉(zhuǎn)化為圖結(jié)構(gòu),構(gòu)建異構(gòu)生物分子網(wǎng)絡(luò)G,G=(V,E),其中,V代表包含疾病和蛋白質(zhì)(基因)兩種類型的節(jié)點(diǎn)集合,E代表疾病基因關(guān)聯(lián)和PPI的集合。然后,利用Node2vec學(xué)習(xí)網(wǎng)絡(luò)中節(jié)點(diǎn)的低維表示[21],并引入兩個(gè)非常重要的超參數(shù):p和q,分別控制隨機(jī)游走的返回概率和進(jìn)一步探索的概率。通過(guò)調(diào)整p和q值,可以生成節(jié)點(diǎn)的隨機(jī)游走序列,利用隨機(jī)游走序列為節(jié)點(diǎn)生成初始特征向量。

        2.2 圖卷積神經(jīng)網(wǎng)絡(luò)

        GCN是圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNN)最經(jīng)典的一種模型,輸入是由節(jié)點(diǎn)和邊組成的圖,節(jié)點(diǎn)代表實(shí)體,包含屬性,邊則描述實(shí)體之間的關(guān)系。傳統(tǒng)的GNN通?;卩徑泳仃嚫鹿?jié)點(diǎn)特征

        Hl+1i=σ(Q-12M*GQ12HliWl+bl)(4)

        其中,σ表示激活函數(shù)RELU,Q為圖的度矩陣,M*G為圖G的鄰接矩陣,Hli代表節(jié)點(diǎn)i在第l層的低維特征向量表示,l=0時(shí),H0i代表節(jié)點(diǎn)i的初始特征向量表示,Wl和bl代表可訓(xùn)練的權(quán)重矩陣和偏置矩陣。

        GCN基于卷積操作,通過(guò)圖的鄰接關(guān)系傳播節(jié)點(diǎn)信息。圖卷積操作時(shí),利用DGL計(jì)算鄰接矩陣,可以節(jié)省內(nèi)存空間,減少計(jì)算量,使用兩層圖卷積可以最佳地捕捉節(jié)點(diǎn)的局部和全局特征[22-23]。圖卷積層[22]的定義為

        cj,i= Sj Si(5)

        Hl+1i=σ∑j∈Si1cj,iHliWl+bl(6)

        其中,Si為節(jié)點(diǎn)i的鄰居節(jié)點(diǎn)集合,cj,i為節(jié)點(diǎn)度的平方根的乘積,用來(lái)描述節(jié)點(diǎn)i和節(jié)點(diǎn)j之間連接強(qiáng)度的度量值。

        在圖神經(jīng)網(wǎng)絡(luò)中添加注意力機(jī)制可以提高模型性能和表達(dá)能力,注意力機(jī)制為每個(gè)節(jié)點(diǎn)賦予不同的重要性權(quán)重,使模型能夠更加關(guān)注對(duì)任務(wù)重要的節(jié)點(diǎn)。圖注意力層更新節(jié)點(diǎn)的方式為

        Hl+1i=∑j∈Siαi,jWlHli(7)

        其中,αi,j是節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的注意力得分。

        2.3 解碼預(yù)測(cè)

        拼接節(jié)點(diǎn)的初始特征向量和經(jīng)過(guò)GNN更新后的特征向量,生成節(jié)點(diǎn)的輸出特征向量

        Hi=Hold,Hnew(8)

        其中,Hold為節(jié)點(diǎn)i的初始特征向量,Hnew為節(jié)點(diǎn)i經(jīng)過(guò)GNN處理后的特征向量。

        對(duì)于給定的樣本(基因疾病對(duì)),計(jì)算基因節(jié)點(diǎn)g和疾病節(jié)點(diǎn)d的輸出特征向量?jī)?nèi)積dot_scoreg,d以及L2范數(shù),將內(nèi)積和范數(shù)乘積L2_scoreg,d相除,得到的分?jǐn)?shù)Z︿g,d作為評(píng)估的關(guān)聯(lián)強(qiáng)度,得分越高,樣本對(duì)之間的關(guān)聯(lián)性就越強(qiáng)

        dot_scoreg,d=Hg×Hd(9)

        L2_scoreg,d= ∑mn=1an2 ∑mn=1bn2(10)

        Z︿g,d=dot_scoreg,dL2_scoreg,d(11)

        其中,an和bn代表基因和疾病節(jié)點(diǎn)的輸出特征向量中第n個(gè)元素,m是節(jié)點(diǎn)的向量維度。

        訓(xùn)練過(guò)程中,使用間隔損失函數(shù)Loss優(yōu)化學(xué)習(xí)參數(shù)

        Loss=max0,1-Zg,d·Z︿g,d(12)

        其中,Zg,d代表基因節(jié)點(diǎn)和疾病節(jié)點(diǎn)之間的真實(shí)關(guān)系,Zg,d=1時(shí),表示樣本對(duì)之間存在連邊關(guān)系,否則Zg,d=0。

        3 實(shí)驗(yàn)設(shè)置與結(jié)果分析

        3.1 數(shù)據(jù)集與預(yù)處理

        實(shí)驗(yàn)所用數(shù)據(jù)集來(lái)源于HerGePred[24]和DisGeNet數(shù)據(jù)庫(kù)[25],遵循HerGePred數(shù)據(jù)設(shè)置。其中,HerGePred中含有15 964個(gè)蛋白質(zhì)節(jié)點(diǎn)和213 888條PPI。根據(jù)PPI數(shù)據(jù),使用DGL構(gòu)建初始PPI網(wǎng)絡(luò),基于3LTS生成63 766 068條潛在PPI,通過(guò)設(shè)置不同的關(guān)聯(lián)度閾值進(jìn)行過(guò)濾,保留具有一定強(qiáng)度的PPI關(guān)聯(lián),獲取243 379條PPI。457 267條PPI共同組成了基于3LTS的PPI網(wǎng)絡(luò)。由于基因編碼蛋白質(zhì)的關(guān)系,PPI網(wǎng)絡(luò)實(shí)質(zhì)是基因關(guān)聯(lián)網(wǎng)絡(luò),蛋白質(zhì)節(jié)點(diǎn)代表對(duì)應(yīng)的基因。從DisGeNet數(shù)據(jù)庫(kù)整理出130 820條疾病基因關(guān)聯(lián),包含13 074種疾病和8 947個(gè)致病基因。使用10折交叉驗(yàn)證,將數(shù)據(jù)劃分為10個(gè)大小相等的子集,每次選取其中一個(gè)子集作為測(cè)試集,其余9個(gè)子集作為訓(xùn)練集。訓(xùn)練集訓(xùn)練預(yù)測(cè)模型,測(cè)試集評(píng)估模型性能。DisGeNet的其余數(shù)據(jù)用于外部驗(yàn)證[24],經(jīng)過(guò)去重和篩選,整理出包含1 186種疾病和2 552個(gè)基因的10 066條關(guān)聯(lián)。

        3.2 參數(shù)設(shè)置與評(píng)估指標(biāo)

        本文優(yōu)化所有超參數(shù),調(diào)整主要超參數(shù)設(shè)置:隨機(jī)游走的長(zhǎng)度設(shè)為50,游走次數(shù)設(shè)為10,p和q設(shè)為1,初始特征向量的大小為128,Skip-gram的窗口大小為20,激活函數(shù)為RELU,采用Adam優(yōu)化方法,學(xué)習(xí)率為0.000 9,GCN和解碼器通過(guò)20次的迭代訓(xùn)練。

        在實(shí)驗(yàn)中,Precision、Recall、F1score和AP用于評(píng)估基因優(yōu)先排序的性能。將T(d)定義為測(cè)試集中疾病d真實(shí)相關(guān)的基因,F(xiàn)x(d)定義為Top-x中d的預(yù)測(cè)基因,N代表測(cè)試集中涉及的疾病種類的總數(shù)量。Precision、Recall、F1score和AP定義為

        Precisionx=1N∑d∈NTd∩FxdFxd,"" x=1,2,3,…,10(13)

        Recallx=1N∑d∈NTd∩FxdTd, x=1,2,3,…,10(14)

        F1scorex=2×precision×recallprecision+recall, x=1,2,3,…,10(15)

        AP=1N∑d∈NTd∩FkdFkd, k=Td(16)

        3.3 性能展示和結(jié)果分析

        為了說(shuō)明GDaEPred的優(yōu)越性,與3種經(jīng)典的方法進(jìn)行比較:DADA[26]、PageRank[27]和HerGePred[24],添加了獲取PPI的方法用*標(biāo)識(shí)。

        (1)DADA:基于網(wǎng)絡(luò)的疾病基因排序方法,通過(guò)分析基因之間的相互作用網(wǎng)絡(luò),為與特定疾病相關(guān)的基因提供排序和優(yōu)先級(jí)。

        (2)PageRank:基于隨機(jī)游走的思想,用于評(píng)估網(wǎng)頁(yè)重要性的方法?;蛑g的相互關(guān)系相當(dāng)于網(wǎng)頁(yè)之間的鏈接關(guān)系,基因的權(quán)重類似于網(wǎng)頁(yè)的PageRank值。通過(guò)計(jì)算得到基因權(quán)重,生成基因排序列表。

        (3)HerGePred:基于隨機(jī)游走的方法,利用節(jié)點(diǎn)的特征向量計(jì)算樣本對(duì)的余弦相似性,評(píng)估基因的優(yōu)先級(jí)。

        (4)GDaEPred:基于圖數(shù)據(jù)增強(qiáng)和深度學(xué)習(xí)的方法,G代表“Graph”;DaE代表“Data Enhancement”;Pred代表“Prediction”。GDaEPred使用DGL創(chuàng)建圖對(duì)象,根據(jù)3.1節(jié)的數(shù)據(jù)設(shè)置,將節(jié)點(diǎn)、邊和初始特征向量添加到圖對(duì)象中,再將圖和標(biāo)簽數(shù)據(jù)輸入到圖神經(jīng)網(wǎng)絡(luò)模型中,通過(guò)反向傳播和優(yōu)化算法進(jìn)行模型訓(xùn)練,獲得候選基因排序結(jié)果。

        內(nèi)部數(shù)據(jù)集上十折交叉驗(yàn)證結(jié)果見(jiàn)表1,添加PPI的方法在預(yù)測(cè)基因和疾病之間的關(guān)聯(lián)強(qiáng)度時(shí),所有評(píng)估指標(biāo)優(yōu)于未添加PPI的方法,說(shuō)明添加PPI起到了一定的積極作用,提高了致病基因預(yù)測(cè)的準(zhǔn)確性。GDaEPred獲得了0.280的AP,顯著高于其他對(duì)比方法獲取的值,在Top-3和Top-10基因的精確率和F1score取得最優(yōu),主要原因是GDaEPred方法在更新節(jié)點(diǎn)信息時(shí),添加了注意力機(jī)制,靈活的捕捉了不同節(jié)點(diǎn)的重要特征。

        實(shí)驗(yàn)使用DisGeNet的外部數(shù)據(jù)集進(jìn)一步評(píng)估這些方法,結(jié)果見(jiàn)表2。GDaEPred在Top-3和Top-10基因取得了最優(yōu)的召回率和F1score,外部數(shù)據(jù)集的驗(yàn)證結(jié)果證明了添加PPI以及GDaEPred方法的有效性。在外部數(shù)據(jù)集得到的所有指標(biāo)的結(jié)果均低于表1中的結(jié)果,原因是外部數(shù)據(jù)集包含了許多未知的基因,并且與訓(xùn)練集和測(cè)試集中的重疊關(guān)聯(lián)全部被去除。

        圖3展示的是使用GDaEPred預(yù)測(cè)Top-x基因的評(píng)估指標(biāo)條形圖,其中x的取值范圍從1到10,隨著x取值的不斷增大,精確率逐漸降低。x=1時(shí),精確率達(dá)到了最大值0.321,即Top-1中的預(yù)測(cè)基因是真實(shí)關(guān)聯(lián)基因的平均概率是32.1%;同時(shí),召回率隨著x取值的增大而上升,x=10時(shí),召回率達(dá)到了最大值0.384,即Top-10的預(yù)測(cè)基因中包含38.4%的真實(shí)關(guān)聯(lián)基因;x=2時(shí),F(xiàn)1score達(dá)到了最大值0.201。

        4 結(jié)論

        本文設(shè)計(jì)3種計(jì)算指標(biāo)獲取PPI,并在生物分子網(wǎng)絡(luò)中添加生成的PPI,以增強(qiáng)圖數(shù)據(jù)的表達(dá)能力。相較于經(jīng)典的方法,在添加PPI后,評(píng)估指標(biāo)均有顯著提升,表明通過(guò)豐富網(wǎng)絡(luò)結(jié)構(gòu),可以提高預(yù)測(cè)的準(zhǔn)確性,從而達(dá)到了圖數(shù)據(jù)增強(qiáng)的效果。對(duì)比傳統(tǒng)的GNN模型,GDaEPred可學(xué)習(xí)節(jié)點(diǎn)的最優(yōu)特征,提高預(yù)測(cè)的性能。后續(xù)工作考慮利用節(jié)點(diǎn)的度分布、多種生物分子之間的相互作用等網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息,繼續(xù)豐富節(jié)點(diǎn)的特征信息,增強(qiáng)預(yù)測(cè)的可信度和精確性。

        參考文獻(xiàn)

        [1]SCHULTE-SASSE R, BUDACH S, HNISZ D, et al. Integration of multiomics data with graph convolutional networks to identify new cancer genes and their associated molecular mechanisms[J]. Nature Machine Intelligence, 2021, 3(6): 513-526.

        [2]AWADA Z, BOUAOUN L, NASR R, et al. LINE-1 methylation mediates the inverse association between bodymass index and breast cancer risk: A pilot study in the Lebanese population[J]. Environmental Research, 2021, 197: 111094.

        [3]LUO P, TIAN L P, RUAN J, et al. Disease gene prediction by integrating PPI networks, clinical rna-seq data and omim data[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2017, 16(1): 222-232.

        [4]MANOLIO T A.Genomewide association studies and assessment of the risk of disease[J]. New England Journal of Medicine, 2010, 363(2): 166-76.

        [5]GHIASSIAN S D, MENCHE J, BARABSI A L. A DIseAse MOdule Detection(DIAMOnD) algorithm derived from a systematic analysis of connectivity patterns of disease proteins in the human interactome[J]. PLOS Computational Biology, 2015, 11(4): e1004120.

        [6]WANG L X, WU M X, WU Y L, et al. Prediction of the disease causal genes based on heterogeneous network and multi-feature combination method[J]. Computational Biology and Chemistry, 2022, 97: 107639.

        [7]LIN C H, KONECKI D M, LIU M, et al. Multimodal network diffusion predicts future disease-gene-chemical associations[J]. Bioinformatics, 2019, 35(9): 1536-1543.

        [8]EDUARD P, VICTORIA R, SAMUEL V, et al. The structural coverage of the human proteome before and after alphafold[J]. PLoS Computational Biology, 2022, 18(1): e1009818.

        [9]JIAN Y Y, IVAN A, HAHNBEOM P, et al. Improved protein structure prediction using predicted inter-residue orientations[J]. Cold Spring Harbor Laboratory, 2019. DOI:10.1101/846279.

        [10] EMRE G, BALDO O. Exploiting protein-protein interaction networks for genome-wide disease-gene prioritization[J]. Plos One, 2012, 7(9): e43557.

        [11] ZHOU H Y, SKOLNICK J. A knowledge-based approach for predicting gene-disease associations[J]. Bioinformatics, 2016, 32(18): 2831-2838.

        [12] JOWKAR G H, MANSOORI E G. Perceptron ensemble of graph-based positive-unlabeled learning for disease gene identification[J]. Computational Biology and Chemistry, 2016, 64:263-270.

        [13] LUO P, LI Y Y, TIAN L P, et al. Enhancing the prediction of disease-gene associations with multimodal deep learning[J]. Bioinformatics, 2019, 35(19): 3735-3742.

        [14] LUCK K, SHEYNKMAN G M, ZHANG I, et al. Proteome-scale humaninteractomics[J]. Trends in Biochemical Sciences, 2017, 42(5): 342-354.

        [15] GABRIEL V. The landscape of virus-host protein-protein interaction databases[J]. Frontiers in Microbiology. 2022, 13: 827742.

        [16] KOVCS I A, LUCK K, SPIROHN K, et al. Network-based prediction of protein interactions[J]. Nature Communications, 2019, 10(1): 1240.

        [17] KESKIN O, TUNCBAG N, GURSOY A. Predicting protein-protein interactions from the molecular to the proteome level[J]. Chemical Reviews, 2016, 116(8): 4884-909.

        [18] BASS J I F, DIALLO A, NELSON J, et al. Using networks to measure similarity between genes: Association index selection[J]. Nature Methods, 2013, 10(12): 1169-1176.

        [19] LIN Y, LU N W, L P, et al. Link prediction based on common-neighbors for dynamic social network[J]. Procedia Computer Science, 2016, 83:82-89.

        [20] ALI B.Dynamic resource allocation in cloud computing: analysis and taxonomies[J]. Computing, 2022, 104(3):681-710.

        [21] GROVER A, LESKOVEC J.Node2vec: Scalable feature learning for networks[C]// 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Sar Francisco, 2016: 855-864.

        [22] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[DB/OL].[2023-08-02]. https://arxiv.org/pdt/1609.02907.pdf.

        [23] AHMED N K, ROSSI R A, ZHOU R, et al. Inductive representation learning in large attributed graphs[DB/OL].[2023-08-02]. https://arxiv.org/abs/1710.09471.

        [24] YANG K, WANG R Y, LIU G M, et al.HerGePred: Heterogeneous network embedding representation for disease gene prediction[J]. IEEE Journal of Biomedical and Health Informatics, 2019, 23(4): 1805-1815.

        [25] PIERO J, BRAVO A, QUERALT-ROSINACH N, et al.DisGeNET: A comprehensive platform integrating information on human disease-associated genes and variants[J]. Nucleic Acids Research, 2017, 45(D1): D833-D839.

        [26] ERTEN S, BEBEK G, EWING R M, et al. DADA:Degree-aware algorithms for network-based disease gene prioritization[J]. Biodata Mining, 2011, 4(1):19.

        [27] ZHAO L S, TING Z H, BRUNO C, et al. An efficient elimination strategy for solving pagerank problems[J]. Applied Mathematics amp; Computation, 2017, 298: 111-122.

        Disease and Gene Association Mining Based on Graph Data Enhancement

        JIA Xiang-hu, WU Shun-yao

        (School of Computer Science and Technology, Qingdao University, Qingdao 266071, China)

        Abstract:

        In view of the incompleteness of existing association data and the inadequacy of multi-source omics data, computational indexes based on three-hop local topological similarity were designed to identify biologically significant but unmapped Protein-Protein Interactions (PPI). A novel graph neural network method (GDaEPred) based on graph data enhancement was proposed for mining disease-gene associations. Experimental results showed that the average accuracy of GDaEPred was improved by 4.1%, and the precision, recall and F1 score were also improved.

        Keywords: graph neural networks; graph data enhancement; disease gene prediction

        猜你喜歡
        關(guān)聯(lián)方法
        不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
        “苦”的關(guān)聯(lián)
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        學(xué)習(xí)方法
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        狠狠亚洲超碰狼人久久老人| 日本亚洲视频免费在线看| 亚洲国产精品成人av在线不卡| 国产高清在线观看av片| 麻豆久久久9性大片| 亚洲美女啪啪| 丝袜欧美视频首页在线| 国产精品av免费网站| 国产一区二区三区小向美奈子| 完整版免费av片| 久久亚洲国产成人精品性色| 亚洲色婷婷免费视频高清在线观看| 少妇一区二区三区乱码| 在线观看国产成人av天堂野外| 国产精品自在拍在线拍| 爱a久久片| 最大色网男人的av天堂| 人妻制服丝袜中文字幕| 久久香蕉国产线看观看精品yw| 久久网视频中文字幕综合| 亚洲一道一本快点视频| 中文字幕人妻互换激情| 男人扒开女人双腿猛进视频| 日本边添边摸边做边爱的网站| 91精品国产91| 亚洲性av少妇中文字幕| 特级做a爰片毛片免费看| 亚洲av片不卡无码久久| 美女窝人体色www网站| 最新69国产精品视频| 特黄熟妇丰满人妻无码| 欧美z0zo人禽交欧美人禽交| 久久99热精品免费观看欧美| 久久精品国产亚洲不卡| 野花香社区在线视频观看播放| 国产成人一区二区三区| 亚洲专区欧美| 国产噜噜亚洲av一二三区| 人人妻人人澡人人爽精品日本| 中国丰满熟妇xxxx| 爆乳无码AV国内|