亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多信息集成的藥物靶標(biāo)預(yù)測方法研究

        2022-03-25 03:07:12李永杰潘海明黃可馨陳慶鋒
        關(guān)鍵詞:靶標(biāo)編碼器蛋白質(zhì)

        譚 凱,李永杰,潘海明,黃可馨,邱 杰,陳慶鋒

        (1.廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院, 廣西 南寧 530004; 2. 廣西醫(yī)科大學(xué), 廣西 南寧 530021; 3. 玉林師范學(xué)院 計(jì)算機(jī)科學(xué)與工程學(xué)院, 廣西 玉林 537000)

        通過計(jì)算方法識別藥物-靶標(biāo)相互作用(drug-target interaction,DTI)可縮小用于后續(xù)生物實(shí)驗(yàn)的候選藥物的巨大搜索空間,從而顯著降低開發(fā)新藥的成本和時(shí)間。藥物-靶標(biāo)相互作用的計(jì)算預(yù)測已成為藥理學(xué)發(fā)展的重要組成部分,其可以發(fā)現(xiàn)和解釋當(dāng)前的藥物作用機(jī)理及潛在的未知靶標(biāo)活性[1-3]。盡管傳統(tǒng)的生物學(xué)實(shí)驗(yàn)可以有效地檢測藥物與靶標(biāo)之間的相互作用,但需要消耗大量時(shí)間和成本[4-5],因此越來越多的計(jì)算方法被用來預(yù)測藥物-靶標(biāo)關(guān)系。隨著各種藥物、靶標(biāo)和相互作用數(shù)據(jù)的增長[6],計(jì)算方法不僅可以為預(yù)測可能的藥物靶標(biāo)相互作用提供一種經(jīng)濟(jì)有效的替代方法,而且可以確保進(jìn)一步實(shí)驗(yàn)的可靠性。

        當(dāng)前的藥物篩選輔助方法主要有基于分子對接[7]、配體相似性[8]和機(jī)器學(xué)習(xí)的方法[9]。基于分子對接的方法需要已知靶蛋白的3D結(jié)構(gòu),因?yàn)檫@種結(jié)構(gòu)很少且通常不泛用,故該方法受限于已知蛋白配體的復(fù)雜結(jié)構(gòu)。基于配體相似性的方法利用已知配體相互作用的知識進(jìn)行預(yù)測,但是當(dāng)目標(biāo)只有少量配體時(shí),可能會導(dǎo)致較差的預(yù)測結(jié)果?;跈C(jī)器學(xué)習(xí)的方法是目前最流行且最有效的預(yù)測方法,這類方法可以充分探究藥物的相關(guān)特征以及藥物與靶標(biāo)之間的潛在相關(guān)性。近年來,研究人員提出了多種預(yù)測潛在DTI的計(jì)算方法,大致可分為核方法、矩陣分解和多源信息集成等。

        Yamanishi等[10]最先提出基于化學(xué)和基因組信息的二分局部模型(BLM),使用核函數(shù)回歸方法來預(yù)測藥物靶標(biāo)。之后,為了克服二分局部模型對計(jì)算能力高要求的局限性,Bleakley等[11]開發(fā)了二部圖局部模型,這種模型在訓(xùn)練過程中使用局部訓(xùn)練而不是全局訓(xùn)練。Mei等[12]進(jìn)一步改進(jìn)了該模型,在預(yù)測過程中通過鄰居交互來考慮新的候選藥物。此外還有一些其他的基于核的方法,如van Laarhoven等[13]基于藥物-靶標(biāo)網(wǎng)絡(luò)鄰接矩陣的拓?fù)湫畔?,使用?nèi)核正則化最小二乘(KRLS)算法來預(yù)測DTI。這種方法通過拓?fù)湫畔矶x一個(gè)高斯交互式核,這種核函數(shù)在實(shí)驗(yàn)中能取得好的預(yù)測效果。內(nèi)核正則化最小二乘(KRLS)算法也被Pahikkala等[14]使用在基于2D復(fù)合相似度和目標(biāo)物的史密斯-沃特曼相似度的藥物表征中。這些基于內(nèi)核的方法僅使用簡單的線性組合技術(shù),依賴幾個(gè)單獨(dú)的內(nèi)核來形成最終的內(nèi)核矩陣,若內(nèi)核之間的線性不明顯時(shí),這種簡單的線性設(shè)置可能不合適。因此,Hao等[15]使用非線性擴(kuò)散技術(shù),根據(jù)擴(kuò)散核和用于藥物靶標(biāo)預(yù)測的KRLS來組合不同的核?,F(xiàn)有結(jié)果表明,擴(kuò)散核模型的性能優(yōu)于線性組合核模型[16]。

        除基于核的方法外,矩陣分解也被用于預(yù)測藥物靶標(biāo)。Liu等[17]提出一種新穎的藥物-靶標(biāo)相互作用預(yù)測算法,即鄰域正則化邏輯矩陣分解(NRLMF)。這種方法使用藥物特異性和靶標(biāo)特異性潛伏向量來表示藥物和靶標(biāo)的特性,通過邏輯矩陣分解對藥物-靶標(biāo)相互作用進(jìn)行模擬。G?nen等[18]提出的雙核貝葉斯矩陣分解(KBMF2K)也是一種典型的基于矩陣分解的方法,該方法通過使用相似性并估計(jì)子空間中的相互作用網(wǎng)絡(luò),將藥物化合物和目標(biāo)蛋白投射到統(tǒng)一的聯(lián)合貝葉斯公式的子空間中。Zheng等[19]在此基礎(chǔ)上建立了相似度共矩陣分解(MSCMF)模型,對多個(gè)數(shù)據(jù)源的藥物靶標(biāo)相似度矩陣進(jìn)行加權(quán)和平均,然后將藥物和靶標(biāo)投影到低維特征空間,這個(gè)空間與藥物和靶標(biāo)的加權(quán)相似度矩陣是一致的。Hao等[20]建立了雙向網(wǎng)絡(luò)集成邏輯矩陣分解(DNILMF)算法來預(yù)測DTI,通過構(gòu)建核矩陣,該方法將藥物概況核矩陣與藥物結(jié)構(gòu)核矩陣進(jìn)行擴(kuò)散,并將靶標(biāo)概況核矩陣與靶標(biāo)序列核矩陣進(jìn)行擴(kuò)散,以基于相鄰區(qū)域?qū)λ幬锬繕?biāo)進(jìn)行預(yù)測。

        根據(jù)藥物靶標(biāo)數(shù)據(jù)(例如藥物和靶標(biāo)的化學(xué)結(jié)構(gòu)、蛋白質(zhì)序列信息等)的特征,藥物-靶標(biāo)關(guān)系還可以通過其他生物系統(tǒng)中的各種功能表征來預(yù)測,例如藥物-疾病關(guān)聯(lián)和藥物-副作用關(guān)聯(lián)表征。許多現(xiàn)有方法集成了來自異構(gòu)數(shù)據(jù)源的各種信息,以進(jìn)一步提高藥物靶標(biāo)預(yù)測的準(zhǔn)確性。例如:Mizutani等[21]結(jié)合藥物的副作用和蛋白質(zhì)功能來預(yù)測藥物-靶標(biāo)相互作用;Luo等[22]使用無監(jiān)督方法從異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)中自動(dòng)學(xué)習(xí)藥物和靶標(biāo)的低維特征表示,然后基于這些特征表示應(yīng)用歸納矩陣補(bǔ)全[23]來預(yù)測新的藥物-靶標(biāo)。此外,深度學(xué)習(xí)對復(fù)雜數(shù)據(jù)的表示能力越來越強(qiáng)[24-29],一些基于深度學(xué)習(xí)的方法已經(jīng)被用來預(yù)測藥物-靶標(biāo)相互作用[30]。Wan等[31]通過組合來自多個(gè)異構(gòu)網(wǎng)絡(luò)的數(shù)據(jù)構(gòu)建了一個(gè)大型異構(gòu)網(wǎng)絡(luò),使用鄰域聚合技術(shù)[32]來學(xué)習(xí)整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu),并重構(gòu)所有關(guān)系矩陣的拓?fù)浔硎緛眍A(yù)測藥物-靶標(biāo)關(guān)系。隨著圖神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,使用圖卷積技術(shù)處理大規(guī)模圖數(shù)據(jù)的網(wǎng)絡(luò)預(yù)測任務(wù)的性能已得到顯著提高[33]。近些年,圖卷積神經(jīng)網(wǎng)絡(luò)也被用于藥物靶標(biāo)預(yù)測領(lǐng)域[34]?,F(xiàn)有整合多源數(shù)據(jù)的方法在整合多網(wǎng)絡(luò)特征的過程中只使用簡單的特征串聯(lián),這種方式無法對多數(shù)據(jù)源的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行綜合分析,所以還需要使用額外的特征模塊來生成用作下一步應(yīng)用的特征表示。

        隨著深度學(xué)習(xí)在復(fù)雜數(shù)據(jù)表示中的發(fā)展[35],研究者們提出了一些基于深度自編碼器的方法來預(yù)測藥物-靶標(biāo)相互作用。例如:Sun等[36]提出一種基于自動(dòng)編碼器的特征選擇方法(AEFS)來預(yù)測藥物-靶標(biāo)相互作用。為了保持藥物化學(xué)性質(zhì)和功能之間的一致性,AEFS方法使用多層編碼器將原始藥物特征投影到嵌入(蛋白質(zhì))空間,并通過解碼器進(jìn)一步投影到標(biāo)簽(疾病)空間。同時(shí),在藥物靶標(biāo)預(yù)測過程中,AEFS方法通過引入藥物的臨床信息來提高預(yù)測效果。此外,在基于異構(gòu)網(wǎng)絡(luò)的藥物-靶標(biāo)相互作用預(yù)測中,深度自編碼也被用于異構(gòu)網(wǎng)絡(luò)的節(jié)點(diǎn)特征表示學(xué)習(xí)中。Xuan等[37]提出一種藥物-靶標(biāo)相互作用預(yù)測方法DTIP,使用全連接自編碼器的學(xué)習(xí)框架來學(xué)習(xí)異構(gòu)網(wǎng)絡(luò)中節(jié)點(diǎn)的低維特征表示,并應(yīng)用多層CNN整合相鄰?fù)負(fù)浣Y(jié)構(gòu)的相似性和特征屬性來獲得預(yù)測結(jié)果。Gao等[38]提出一個(gè)端到端的深度學(xué)習(xí)框架,該框架通過LSTM遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)氨基酸序列組成的蛋白質(zhì)表征,并使用圖卷積來獲得藥物分子結(jié)構(gòu)表示。這個(gè)框架使用注意力權(quán)重將原子聚合為分子表示(藥物),將氨基酸聚合為蛋白質(zhì)(靶標(biāo))表示,最后,將基于注意力的表示輸入到分類器中進(jìn)行預(yù)測。越來越多的研究表明,深度學(xué)習(xí)可有效應(yīng)用于藥物靶標(biāo)預(yù)測中的表示學(xué)習(xí)和分類。

        本文提出NGDTI模型來預(yù)測藥物-靶標(biāo)關(guān)系,該模型可以整合來自異類數(shù)據(jù)源的各種信息(例如:藥物、疾病、蛋白質(zhì)和副作用),從異類網(wǎng)絡(luò)中提取藥物和靶標(biāo)的結(jié)構(gòu)信息,并將藥物和靶標(biāo)的特征信息簡化為低維特征表示。由于大規(guī)模生物數(shù)據(jù)的不完整性和噪聲,NGDTI模型使用基于頻譜圖的圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)對這些低維特征表示進(jìn)行平滑和降噪處理。在已有的標(biāo)準(zhǔn)數(shù)據(jù)集上測試NGDTI的預(yù)測效果,與其他最新的基準(zhǔn)方法相比,NGDTI具有顯著的性能改進(jìn)。此外,本文也對模型參數(shù)的影響進(jìn)行實(shí)驗(yàn),與現(xiàn)有方法相比,AUPR值提升了0.01,且NGDTI能很好地整合多數(shù)據(jù)源信息用于藥物靶標(biāo)預(yù)測。

        1 模型設(shè)計(jì)

        大規(guī)?;蚪M、化學(xué)和藥理學(xué)數(shù)據(jù)的出現(xiàn)為藥物發(fā)現(xiàn)和重新定位提供了新的機(jī)會?;诰W(wǎng)絡(luò)集成的藥物靶標(biāo)預(yù)測方法就是通過聯(lián)合利用不同的網(wǎng)絡(luò)視圖互補(bǔ)來進(jìn)行預(yù)測任務(wù)。近年來,產(chǎn)生了多種基于多個(gè)網(wǎng)絡(luò)的異構(gòu)信息集成方法,這些方法大致分為以下2類:1)聚集多個(gè)網(wǎng)絡(luò)以建立一個(gè)大型集成網(wǎng)絡(luò)來提取信息進(jìn)行預(yù)測;2)從每個(gè)網(wǎng)絡(luò)中提取特征信息,然后將其融合以進(jìn)行相似性或相關(guān)性預(yù)測。第一種方法在構(gòu)建大型集成網(wǎng)絡(luò)時(shí),很難考慮不同網(wǎng)絡(luò)之間的差異,如果集成網(wǎng)絡(luò)的數(shù)量太大,隨著網(wǎng)絡(luò)復(fù)雜性的增加,在這樣的網(wǎng)絡(luò)上進(jìn)行計(jì)算將變得非常困難。所以,從每個(gè)網(wǎng)絡(luò)中提取信息并進(jìn)行融合是多網(wǎng)絡(luò)集成的主要方法。該過程從每個(gè)網(wǎng)絡(luò)中提取藥物或蛋白質(zhì)信息,然后進(jìn)行特征融合和降維,最后根據(jù)提取的特征信息進(jìn)行相關(guān)預(yù)測或藥物重新定位預(yù)測。單個(gè)網(wǎng)絡(luò)上的信息提取是網(wǎng)絡(luò)融合的重要步驟,網(wǎng)絡(luò)特征提取的簡單方法包括矩陣分解和帶重啟的隨機(jī)游走(RWR)方法。矩陣分解通常將輸入的矩陣分解為2個(gè)特征向量,并使向量重構(gòu)的損失最小化。但是,此策略可能會導(dǎo)致大量信息丟失,并且無法捕獲相關(guān)網(wǎng)絡(luò)的全局特征。

        圖1為本文NGDTI模型的完整流程。NGDTI首先通過在每個(gè)輸入網(wǎng)絡(luò)上執(zhí)行RWR來計(jì)算每個(gè)節(jié)點(diǎn)的擴(kuò)散狀態(tài),并通過擴(kuò)散狀態(tài)的有效矩陣分解clusDCA方法獲得每種藥物和蛋白質(zhì)的低維向量表示。通過此過程,可以捕獲每種藥物或蛋白質(zhì)的全局拓?fù)湫畔?。NGDTI的重點(diǎn)是對藥物和靶標(biāo)特征的更新,這一步用圖卷積編碼來更新藥物和蛋白質(zhì)的特征(詳細(xì)介紹見1.3節(jié))。在最后一步中,模型重建藥物靶標(biāo)矩陣以預(yù)測未知的藥物-靶標(biāo)相互作用。本文將在下面詳細(xì)描述該模型。

        圖1 NGDTI模型的流程Fig. 1 Flowchart of NGDTI model

        對于多數(shù)據(jù)源產(chǎn)生的同質(zhì)相互作用網(wǎng)絡(luò)(例如,藥物-藥物相互作用網(wǎng)絡(luò)),NGDTI直接在每個(gè)網(wǎng)絡(luò)上運(yùn)行RWR算法以計(jì)算每種藥物或靶標(biāo)的擴(kuò)散狀態(tài)。對于其他異質(zhì)網(wǎng)絡(luò)(如藥物副作用、藥物-疾病和蛋白質(zhì)-疾病關(guān)聯(lián)網(wǎng)絡(luò)),需要基于杰卡爾德(Jaccard)相似系數(shù)構(gòu)造相應(yīng)的相似網(wǎng)絡(luò),然后在這些相似網(wǎng)絡(luò)上執(zhí)行RWR算法。以藥物-疾病為例,給定2個(gè)節(jié)點(diǎn)i和j,將它們在異構(gòu)網(wǎng)絡(luò)中的相似性定義為

        (1)

        1.1 獲取節(jié)點(diǎn)擴(kuò)散狀態(tài)

        重啟的隨機(jī)游走(RWR)是一種網(wǎng)絡(luò)擴(kuò)散算法,已廣泛用于分析復(fù)雜的生物網(wǎng)絡(luò)數(shù)據(jù)。該方法在每次迭代中,都會在初始節(jié)點(diǎn)處引入預(yù)定義的重新啟動(dòng)概率,可以充分利用潛在節(jié)點(diǎn)之間的直接或間接關(guān)系,同時(shí)考慮網(wǎng)絡(luò)內(nèi)的本地和全局拓?fù)溥B接模式。給定鄰接矩陣A,可以定義另一個(gè)矩陣B來表示從節(jié)點(diǎn)i到節(jié)點(diǎn)j的轉(zhuǎn)移概率,轉(zhuǎn)移概率定義為

        (2)

        (3)

        式中ei表示n維標(biāo)準(zhǔn)基向量,p表示預(yù)定義的重啟概率。局部和全局拓?fù)湫畔⒃跀U(kuò)散過程中的相對影響可以通過調(diào)整p值來控制。通常,更大的p值意味著更多地關(guān)注局部結(jié)構(gòu)。通過迭代執(zhí)行上述過程,可以獲得節(jié)點(diǎn)的擴(kuò)散狀態(tài)si,這些擴(kuò)散狀態(tài)的節(jié)點(diǎn)表示捕獲了網(wǎng)絡(luò)節(jié)點(diǎn)的高階鄰近度。如果2個(gè)節(jié)點(diǎn)的擴(kuò)散狀態(tài)相似,則往往意味著它們相對于網(wǎng)絡(luò)中其他節(jié)點(diǎn)具有相似的結(jié)構(gòu)特征,因此可能共享相似的功能[39]。

        1.2 ClusDCA獲取藥物和蛋白質(zhì)的低維向量表示

        由于多個(gè)網(wǎng)絡(luò)的集成,直接利用高維度的擴(kuò)散狀態(tài)作為拓?fù)涮卣魍ǔ黾幽P偷膹?fù)雜度,而原始的擴(kuò)散狀態(tài)是稀疏的且高維度的,不能很好地用于之后的預(yù)測。為了解決這些問題,本文使用擴(kuò)散成分分析的新變體(clusDCA)[22]來減少特征空間的維數(shù)并從擴(kuò)散狀態(tài)捕獲重要的拓?fù)涮卣餍畔?。這種方法改進(jìn)了原有方法中的擴(kuò)散成分分析方法,使用了一種基于矩陣分解的方法來分解擴(kuò)散狀態(tài)。具體來說,將在節(jié)點(diǎn)i的擴(kuò)散狀態(tài)下分配給節(jié)點(diǎn)j的概率建模為

        (4)

        (5)

        ClusDCA沒有使用最小化原始擴(kuò)散狀態(tài)和近似擴(kuò)散狀態(tài)之間的相對熵,而是使用平方誤差之和作為目標(biāo)函數(shù),

        (6)

        L=ln(S+Q)-lnQ。

        (7)

        L=UΣVT。

        (8)

        要獲得d維的低維向量wj和xi,只需選擇Ud、Vd中的第一個(gè)d奇異向量和Σd中的第一個(gè)d奇異值。令X={x1,x2,…,xn}表示一個(gè)矩陣,其中每一行代表網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的對應(yīng)低維特征向量表示,則

        (9)

        為集成異構(gòu)網(wǎng)絡(luò)數(shù)據(jù),需將上述單個(gè)網(wǎng)絡(luò)的DCA擴(kuò)展為多網(wǎng)絡(luò)情況。更具體地說,讓L={L1,…,LK}表示通過K個(gè)網(wǎng)絡(luò)擴(kuò)散狀態(tài)集合S={S1,…,SK}得到的對數(shù)擴(kuò)散狀態(tài)矩陣集。然后,優(yōu)化目標(biāo)函數(shù)

        (10)

        1.3 圖卷積自編碼器更新節(jié)點(diǎn)特征

        盡管經(jīng)過上述過程已經(jīng)獲得藥物靶點(diǎn)的低維向量表示,但是存在嘈雜和不確定的多數(shù)據(jù)源生物學(xué)信息,節(jié)點(diǎn)特征需要進(jìn)一步平滑和降噪。本文核心是通過可變分圖自編碼器(variational graph auto-encoders,VGAE)[40],根據(jù)蛋白質(zhì)和藥物相似性網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點(diǎn)特征生成潛在表示,VGAE的結(jié)構(gòu)如圖2所示。VGAE由編碼器和解碼器2部分組成,通過同時(shí)訓(xùn)練編碼器和解碼器來學(xué)習(xí)每個(gè)藥物和蛋白質(zhì)的可解釋性嵌入。例如,將藥物特征Xdrug和藥物相似性鄰接矩陣輸入到自編碼器中,通過訓(xùn)練之后的編碼器可以得到藥物潛在表示Z。

        圖2 變分圖自編碼器(VGAE)的結(jié)構(gòu)Fig. 2 Structure of variational graph autoencoder (VGAE)

        假設(shè)藥物或蛋白質(zhì)的綜合特征為X,網(wǎng)絡(luò)編碼器是一個(gè)圖卷積網(wǎng)絡(luò)(GCN)編碼器,它主要是通過藥物或蛋白質(zhì)相似性網(wǎng)絡(luò)的鄰接矩陣A將原始特征X映射到潛在空間Z。這個(gè)過程是一個(gè)概率建模的過程,需要學(xué)習(xí)一個(gè)概率模型q。這里的編碼器使用GCN來建模概率函數(shù):

        [μ;logσ]=GCN(X,A;ω),

        (10)

        q(Z|X,A)=N(Z;μ,σ2I)。

        (11)

        式中:q(·)是根據(jù)網(wǎng)絡(luò)信息A和節(jié)點(diǎn)屬性X將蛋白質(zhì)或藥物編碼為潛在變量Z的函數(shù);ω為GCN的參數(shù);I為單位矩陣;μ和σ分別是潛在變量Z對應(yīng)的高斯分布的均值和方差,并利用GCN網(wǎng)絡(luò)直接從數(shù)據(jù)中估計(jì)。那么Z可以從q(Z|X,A)中采樣得到,根據(jù)重新參數(shù)化的技巧,zi通過式(12)獲得。

        zi=μ+σ?εi,

        (12)

        式中:?表示逐元素相乘的乘法;εi屬于正態(tài)分布的元素。通過上述編碼器可以得到包含節(jié)點(diǎn)屬性和結(jié)構(gòu)信息的蛋白質(zhì)和藥物的節(jié)點(diǎn)潛在嵌入。在這里解碼器是一個(gè)簡單的內(nèi)積解碼器,目的是利用學(xué)習(xí)到的潛在嵌入zi來重構(gòu)鄰接矩陣A:

        (13)

        (14)

        和變分自編碼器的一樣,該模型的損失函數(shù)是帶正則項(xiàng)的重構(gòu)誤差,

        L=Eq(Z|X,A)[logp(A|Z)]-KL[q(Z|X,A)‖p(Z)],

        (15)

        式中KL[q(·)‖p(·)]是q(·)和p(·)之間的KL散度。式(15)中的第一項(xiàng)是為了最小化鄰接矩陣A的重構(gòu)誤差,第二項(xiàng)是為了最小化q(Z|X,A)和p(Z)之間的差別。這個(gè)損失函數(shù)用來衡量重構(gòu)網(wǎng)絡(luò)鄰接矩陣的準(zhǔn)確性和潛在嵌入與p(Z)的近似性。如VGAE中所假設(shè)的p(Z)~N(0,1),表示潛在嵌入服從正態(tài)分布。使用隨機(jī)梯度下降對VGAE進(jìn)行訓(xùn)練,以更新編碼器的參數(shù)來優(yōu)化損失函數(shù)。最后,在自編碼器訓(xùn)練擬合后,可以通過編碼器得到蛋白質(zhì)或藥物的潛在表示

        H=Z=GCN(X,A)。

        (16)

        1.4 重構(gòu)藥物靶標(biāo)矩陣

        在獲得更新的藥物特征Hdrug和靶標(biāo)特征Htarget之后,還需要重建藥物靶標(biāo)矩陣以進(jìn)行預(yù)測。給定n個(gè)藥物節(jié)點(diǎn)和m個(gè)蛋白質(zhì)節(jié)點(diǎn),重構(gòu)的藥物靶點(diǎn)矩陣可以表示為

        (17)

        式中Fr∈Rd×n,Gr∈Rd×n是特定的映射矩陣,r表示藥物-蛋白質(zhì)相互作用。

        式(17)表示,在分別進(jìn)行Fr、Gr的邊特定映射之后,2個(gè)映射向量的內(nèi)積應(yīng)盡可能重構(gòu)原始邊權(quán)重。因此,給定邊權(quán)重W,重構(gòu)的預(yù)測損失定義為

        (18)

        公式中的所有數(shù)學(xué)運(yùn)算都是可微的或亞可微的,因此可以端對端進(jìn)行梯度下降訓(xùn)練,最大程度地優(yōu)化最終目標(biāo)函數(shù)。

        1.5 算法流程

        算法1NGDTI模型算法。

        輸入:藥物相關(guān)和靶標(biāo)相關(guān)的相似網(wǎng)絡(luò)鄰接矩陣Ai,已知藥物靶標(biāo)數(shù)據(jù);

        輸出:重構(gòu)的藥物靶標(biāo)矩陣WDTI_reconstruct;

        1)在每個(gè)相似性網(wǎng)絡(luò)上運(yùn)行帶有重啟的隨機(jī)游走(RWR),獲取每個(gè)網(wǎng)絡(luò)的擴(kuò)散狀態(tài)si;

        2)將藥物和靶標(biāo)的擴(kuò)散狀態(tài)集合S作為輸入,使用擴(kuò)散成分分析(clusDCA)降低特征空間的維數(shù)并從擴(kuò)散狀態(tài)中捕獲重要的拓?fù)涮卣鱔;

        3)訓(xùn)練圖卷積自編碼器,然后根據(jù)公式(16)使用基于頻譜圖的卷積神經(jīng)網(wǎng)絡(luò)更新藥物和靶標(biāo)的特征,生成藥物更新特征Hdrug和靶標(biāo)的更新特征Htarget;

        4)在獲得更新的特征Hdrug和Htarget之后,根據(jù)公式(17)、(18)訓(xùn)練并重構(gòu)藥物靶標(biāo)矩陣WDTI_reconstruct。

        2 實(shí)驗(yàn)

        本章通過實(shí)驗(yàn)來分析和驗(yàn)證NGDTI模型的有效性,模型用python語言實(shí)現(xiàn)。實(shí)驗(yàn)平臺:1)軟件環(huán)境為PyCharm和Anaconda;2)硬件環(huán)境為包含5臺曙光服務(wù)器的云計(jì)算平臺,Intel 8837 8核CPU,1 TiB內(nèi)存,本地GTX1060(6 GiB) GPU。

        2.1 數(shù)據(jù)集

        在整個(gè)訓(xùn)練過程中,使用Luo等[22]進(jìn)行研究的數(shù)據(jù)集。該數(shù)據(jù)集包括4種類型的節(jié)點(diǎn)、8種類型的關(guān)聯(lián)網(wǎng)絡(luò)和2種相似性網(wǎng)絡(luò)。該數(shù)據(jù)集中的藥物節(jié)點(diǎn)從DrugBank數(shù)據(jù)庫(版本3.0)[41]中提取得到,蛋白質(zhì)節(jié)點(diǎn)從HPRD數(shù)據(jù)庫(版本9)[42]獲取。疾病節(jié)點(diǎn)來自基因組學(xué)數(shù)據(jù)庫[43],副作用節(jié)點(diǎn)來自SIDER數(shù)據(jù)庫(版本2)[44]。另外,孤立的節(jié)點(diǎn)被排除在外,即網(wǎng)絡(luò)中的節(jié)點(diǎn)至少有一個(gè)鄰居。數(shù)據(jù)集中有8種關(guān)聯(lián)網(wǎng)絡(luò),主要來源如下:

        ① 藥物-蛋白質(zhì)相互作用和藥物-藥物相互作用網(wǎng)絡(luò)(相互作用源自Drugbank版本3.0);

        ② 蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)(相互作用源自HPRD數(shù)據(jù)庫);

        ③ 藥物-疾病關(guān)聯(lián)和蛋白質(zhì)-疾病關(guān)聯(lián)網(wǎng)絡(luò)(相互作用源自基因組學(xué)數(shù)據(jù)庫);

        ④ 藥物副作用關(guān)聯(lián)網(wǎng)絡(luò)(相互作用源自SIDER數(shù)據(jù)庫版本2);

        ⑤ 藥物相似性網(wǎng)絡(luò)(藥物相似性網(wǎng)絡(luò)是根據(jù)藥物的化學(xué)結(jié)構(gòu)構(gòu)建的,其中2個(gè)藥物之間的相似性分?jǐn)?shù)是使用Tanimoto系數(shù)及其化學(xué)結(jié)構(gòu)的乘積[45]計(jì)算得到的);

        ⑥ 蛋白質(zhì)序列相似性網(wǎng)絡(luò)(基于基因組序列使用成對的史密斯-沃特曼得分[46]獲得蛋白質(zhì)相似性網(wǎng)絡(luò),用于訓(xùn)練卷積網(wǎng)絡(luò)以更新藥物靶標(biāo)特征)。

        2.2 模型性能

        現(xiàn)有的藥物靶標(biāo)預(yù)測主要將藥物靶標(biāo)的已知相互作用作為陽性實(shí)例,未知相互作用作為陰性實(shí)例。實(shí)驗(yàn)中采用10倍交叉驗(yàn)證,并隨機(jī)選擇10%的數(shù)據(jù)作為測試集,其余90%的數(shù)據(jù)作為訓(xùn)練集。實(shí)驗(yàn)將NGDTI與NeoDTI[31]、DTINet[22]、BLMNI[12]、NetLapRLS[47]和HNM[48]等5種方法進(jìn)行比較。在實(shí)驗(yàn)中使用AUPR(精確召回曲線下的面積)來衡量NGDTI的預(yù)測效果。從圖3(a)可知,NGDTI比其他方法效果更好,其中AUPR比最佳方法高0.01。與DTINet相比,盡管使用的都是降維之后的網(wǎng)絡(luò)擴(kuò)散特征,但NGDTI方法在此基礎(chǔ)上進(jìn)一步使用圖卷積模型優(yōu)化特征,從而獲得更好的結(jié)果。在正負(fù)樣本比例設(shè)置為1∶1的情況下,實(shí)驗(yàn)結(jié)果顯示NeoDTI比DTINet更糟糕。為了驗(yàn)證NGDTI在稀疏陽性樣本下的性能,實(shí)驗(yàn)對樣本數(shù)進(jìn)行修改,并為陽性和陰性樣本指定了1∶10的比例。從圖3(b)可知,每種算法的性能都下降了。相比之下,NGDTI仍然取得了最佳的預(yù)測性能,且比對比方法中最好的AUPR值多0.015。這表明,即使在標(biāo)記稀疏的情況下,對比方法的預(yù)測性能仍然不如NGDTI方法。

        由于數(shù)據(jù)可能是冗余的,例如,數(shù)據(jù)集中存在一種蛋白質(zhì)的多種同源蛋白質(zhì)或一種藥物的多種高度相似的藥物,這可能會對預(yù)測性能產(chǎn)生負(fù)面影響。因此,本文采用與Luo等[22]相同的策略,通過在藥物靶標(biāo)矩陣中刪除那些具有相似藥物或靶標(biāo)的藥物-靶標(biāo)關(guān)聯(lián)來減少數(shù)據(jù)冗余的影響。實(shí)驗(yàn)還在消除藥物-靶標(biāo)關(guān)聯(lián)情況下進(jìn)行測試,其中關(guān)聯(lián)網(wǎng)絡(luò)中的Jaccard相似度大于0.6,藥物化學(xué)相似性網(wǎng)絡(luò)中的結(jié)構(gòu)相似性得分超過0.6,蛋白質(zhì)-蛋白質(zhì)序列相似性網(wǎng)絡(luò)中的同一性得分超過0.4。在這些實(shí)驗(yàn)中,陰性和陽性樣本的比例保持為1∶1。從圖3(c)(d)(e)(f)的實(shí)驗(yàn)結(jié)果來看,雖然冗余的藥物靶標(biāo)關(guān)聯(lián)刪除后,NGDTI性能下降,但其仍優(yōu)于其他預(yù)測方法。

        圖3 NGDTI方法與其他方法的比較Fig. 3 Comparison of NGDTI with other baseline methods

        2.3 模型參數(shù)的影響

        本文提出的多網(wǎng)絡(luò)集成的藥物靶標(biāo)預(yù)測算法NGDTI的核心是使用變分圖自編碼器(VGAE)來更新藥物和靶點(diǎn)特征。與文獻(xiàn)[49]中使用圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)的目的不同,NGDTI是通過GCN學(xué)習(xí)藥物和蛋白質(zhì)的網(wǎng)絡(luò)特征,使得藥物和蛋白質(zhì)的特征編碼含更豐富的生物信息,而不是通過GCN來學(xué)習(xí)每種藥物的分子結(jié)構(gòu)。VGAE能夠聚合鄰域特征來進(jìn)一步提高特征的可用性,它使用基于譜的圖卷積網(wǎng)絡(luò)(GCN)方法從圖信號處理的角度引入濾波器來定義圖卷積,其中的圖卷積操作可以被認(rèn)為是從圖信號中去除噪聲。為了驗(yàn)證VGAE部件的有效性,實(shí)驗(yàn)中實(shí)現(xiàn)了一個(gè)不包含VGAE部件的多網(wǎng)絡(luò)集成框架來預(yù)測藥物-靶標(biāo)相互作用。實(shí)驗(yàn)首先對NGDTI中是否有VGAE部件、藥物特征維數(shù)、蛋白質(zhì)特征維數(shù)進(jìn)行不同設(shè)置,并比較在不同條件下的預(yù)測效果,實(shí)驗(yàn)結(jié)果如表1所示。從表1可以看出,在藥物和蛋白質(zhì)特征維數(shù)相同的情況下,有VGAE部件的NGDTI方法預(yù)測效果更好,而且在藥物特征維數(shù)為100、蛋白質(zhì)特征維數(shù)為400時(shí)預(yù)測效果最好。

        表1 NGDTI在不同設(shè)置下的預(yù)測性能(正負(fù)樣本比例為1∶1)

        在之后的實(shí)驗(yàn)中,主要評估參數(shù)的影響和NGDTI的魯棒性。這些實(shí)驗(yàn)通過更改與藥物或靶標(biāo)相關(guān)的網(wǎng)絡(luò)數(shù)量以及NGDTI的超參數(shù)來測試NGDTI的魯棒性。所有實(shí)驗(yàn)結(jié)果均通過多次實(shí)驗(yàn)取平均獲得。

        首先,通過實(shí)驗(yàn)驗(yàn)證聚合多個(gè)異構(gòu)網(wǎng)絡(luò)對預(yù)測結(jié)果的影響。在實(shí)驗(yàn)中只使用部分網(wǎng)絡(luò)的情況下進(jìn)行性能評估,同時(shí)將預(yù)測結(jié)果與使用所有網(wǎng)絡(luò)的預(yù)測結(jié)果進(jìn)行對比,結(jié)果如圖4(a)所示。通過結(jié)果可以觀察到隨著多數(shù)據(jù)源數(shù)據(jù)的整合,預(yù)測性能顯著提高。在添加了疾病和副作用相關(guān)信息的網(wǎng)絡(luò)之后,模型的預(yù)測效果也得到改進(jìn),這也表明整合多數(shù)據(jù)源數(shù)據(jù)的有效性(NGDTI可以整合多種蛋白質(zhì)或藥物相關(guān)數(shù)據(jù)來改善預(yù)測性能)。

        圖4 整合更多與藥物或靶標(biāo)相關(guān)的信息的效果和重啟隨機(jī)游走概率p的影響Fig. 4 Effect of integrating more information related to the drug or target and the effect of restarting the random walk probability

        此外,本文還探索模型超參數(shù)對實(shí)驗(yàn)性能的影響。在這里,主要研究隨機(jī)游走重啟概率p對實(shí)驗(yàn)結(jié)果的影響。如圖4(b)所示,在測試中改變重新啟動(dòng)概率值為0.4到0.7,以觀察不同概率下的性能穩(wěn)定性。在圖4(b)中可以看出,當(dāng)重啟概率為0.4至0.7時(shí),NGDTI實(shí)現(xiàn)了穩(wěn)定的性能。從以上實(shí)驗(yàn)可以得出,模型的參數(shù)對實(shí)驗(yàn)性能的影響較小。

        2.4 NGDTI預(yù)測的藥物靶標(biāo)相互作用

        最終的預(yù)測結(jié)果選取可信度排名前10位的藥物-靶標(biāo)相互作用,其中有4個(gè)藥物-靶標(biāo)相互作用有相關(guān)文獻(xiàn)研究的支持。例如,nifedipine是一種被批準(zhǔn)用于輔助治療高原肺水腫的藥物,而NR3C1的多態(tài)性與高原肺水腫有著重要的關(guān)聯(lián)。這一預(yù)測可以被先前的一項(xiàng)研究支持,該研究表明NR3C1多態(tài)性與高原肺水腫的易感性有關(guān)[50]。此前有研究表明硝苯地平是一種可以抑制自發(fā)性心律失常的藥物,而SCN5A在心律失常中起重要作用[51],這一關(guān)系也被NGDTI所預(yù)測。此外,sorafenib被批準(zhǔn)用于治療晚期腎細(xì)胞癌,NGDTI預(yù)測sorafenib與集落刺激因子受體(CSF1R)存在相互作用,已有研究也證實(shí)了CSF1R確實(shí)在乳腺的發(fā)展和乳腺癌變中起著重要作用[52-53]。最后,NGDTI預(yù)測rivastigmine和CES1的相互作用也在文獻(xiàn)[54]中得到支持。簡而言之,NGDTI預(yù)測的藥物-靶標(biāo)相互關(guān)系有一部分是有文獻(xiàn)研究支持的,這進(jìn)一步表明了NGDTI優(yōu)秀的預(yù)測能力。

        3 結(jié)語

        本文提出一種名為NGDTI的模型,用于集成來自不同異構(gòu)網(wǎng)絡(luò)的信息來預(yù)測新的藥物-靶標(biāo)相互作用。NGDTI可以通過網(wǎng)絡(luò)擴(kuò)散過程從異構(gòu)網(wǎng)絡(luò)中提取低維隱藏特征信息,為了對節(jié)點(diǎn)特征進(jìn)行平滑和降噪,該模型添加了圖卷積編碼來獲得更加有效的節(jié)點(diǎn)特征。從實(shí)驗(yàn)結(jié)果看,NGDTI獲得了比其他基準(zhǔn)方法更好的預(yù)測性能,而且NGDTI具有很強(qiáng)的魯棒性。此外,NGDTI是可擴(kuò)展的框架,其他有關(guān)藥物和靶標(biāo)的更多信息也可以輕松地納入到當(dāng)前框架中。因此,NGDTI可以為加強(qiáng)藥物開發(fā)和藥物靶標(biāo)預(yù)測提供有用的工具。后續(xù)將進(jìn)一步優(yōu)化NGDTI模型,整合更多異構(gòu)信息,并改善模型的預(yù)測結(jié)果。在本研究中,NGDTI模型僅用于預(yù)測未知的藥物-靶標(biāo)相互作用,但NGDTI模型也可以擴(kuò)展應(yīng)用于其他研究領(lǐng)域。

        猜你喜歡
        靶標(biāo)編碼器蛋白質(zhì)
        蛋白質(zhì)自由
        肝博士(2022年3期)2022-06-30 02:48:48
        人工智能與蛋白質(zhì)結(jié)構(gòu)
        海外星云(2021年9期)2021-10-14 07:26:10
        “百靈”一號超音速大機(jī)動(dòng)靶標(biāo)
        納米除草劑和靶標(biāo)生物的相互作用
        基于FPGA的同步機(jī)軸角編碼器
        基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
        蛋白質(zhì)計(jì)算問題歸納
        復(fù)雜場景中航天器靶標(biāo)的快速識別
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        前列腺特異性膜抗原為靶標(biāo)的放射免疫治療進(jìn)展
        久久久精品国产亚洲av网麻豆| 香色肉欲色综合| 欧美中文字幕在线看| 日韩av中文字幕少妇精品| 日本女优在线一区二区三区| 久久99精品国产麻豆不卡| 大香视频伊人精品75| 久久精品中文字幕亚洲| 亚洲无精品一区二区在线观看| 老师露出两个奶球让我吃奶头 | 国产一区二区在线视频| 欧美a在线播放| 丝袜美腿诱惑一二三区| 久久天堂一区二区三区av| 亚洲熟女乱色综合亚洲av| 少妇人妻真实偷人精品视频| 精品在免费线中文字幕久久| 中文字幕乱码在线婷婷| 国产精品成人无码久久久久久| 成全高清在线播放电视剧| 成年奭片免费观看视频天天看| 久久久噜噜噜噜久久熟女m| 日本一区二区三区爆乳| 失禁大喷潮在线播放| 国产精品久久无码免费看| 国产一区二区三区的区| 免费视频成人片在线观看| 国产精美视频| 大屁股流白浆一区二区| 日本中文一区二区在线观看| av潮喷大喷水系列无码| 国产亚洲欧美日韩国产片| 亚洲本色精品一区二区久久| 欧美xxxx做受欧美| 欧美巨大精品欧美一区二区| 亚洲中文字幕诱惑第一页| 国产av无码专区亚洲av麻豆| 无码任你躁久久久久久| 日韩无码尤物视频| 在线国产激情视频观看| 亚洲av中文无码乱人伦在线播放|