亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖嵌入與拓?fù)浣Y(jié)構(gòu)信息的蛋白質(zhì)復(fù)合物識(shí)別算法*

        2021-06-25 09:46:10徐周波劉華東
        關(guān)鍵詞:子圖精準(zhǔn)度復(fù)合物

        徐周波,李 萍,劉華東,李 珍

        (桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)

        1 引言

        蛋白質(zhì)復(fù)合物作為大分子組裝體,在細(xì)胞穩(wěn)態(tài)、生長(zhǎng)和增殖所必需的多種生化活動(dòng)中發(fā)揮著重要作用[1]。蛋白質(zhì)復(fù)合物是生化體制和細(xì)胞結(jié)構(gòu)的研究基礎(chǔ),因此,蛋白質(zhì)復(fù)合物的識(shí)別成為近年來(lái)的研究熱點(diǎn)。

        目前蛋白質(zhì)復(fù)合物識(shí)別技術(shù)主要分為2類:(1)基于實(shí)驗(yàn)的蛋白質(zhì)復(fù)合物識(shí)別技術(shù);(2) 基于計(jì)算方法的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)?;趯?shí)驗(yàn)的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)主要根據(jù)實(shí)驗(yàn)結(jié)果識(shí)別蛋白質(zhì)復(fù)合物,如免疫共沉淀[2,3]和雙雜交系統(tǒng)[4,5],但其通常耗時(shí)較長(zhǎng)且需高水平的專業(yè)知識(shí)作為基礎(chǔ)。為克服基于實(shí)驗(yàn)的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)的缺點(diǎn),研究者們提出了多種基于計(jì)算方法的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)?;谟?jì)算方法的蛋白質(zhì)復(fù)合物識(shí)別技術(shù)的基本思想是從蛋白質(zhì)相互作用PPI(Protein-Protein Interaction) 網(wǎng)絡(luò)中識(shí)別呈現(xiàn)蛋白質(zhì)復(fù)合物某些典型特性的簇。因此,PPI網(wǎng)絡(luò)通常建模為圖的形式,其中圖的節(jié)點(diǎn)表示蛋白質(zhì),邊表示蛋白質(zhì)間的相互作用。蛋白質(zhì)復(fù)合物的識(shí)別問(wèn)題可以歸結(jié)為一個(gè)傳統(tǒng)的圖聚類問(wèn)題,由此產(chǎn)生的子圖聚類被視為感興趣的蛋白質(zhì)復(fù)合物。Nepusz等[6]提出了聚類算法ClusterONE用于從PPI網(wǎng)絡(luò)中發(fā)現(xiàn)重疊蛋白質(zhì)復(fù)合物。ClusterONE可有效識(shí)別重疊蛋白質(zhì)復(fù)合物,并采用最大匹配率MMR(Maximum Matching Rate)來(lái)評(píng)估算法的復(fù)雜度,該算法精準(zhǔn)度和敏感度較低。Liu等[7]提出了一種基于最大團(tuán)的聚類算法CMC (Clustering-based on Maximal Cliques),利用最大團(tuán)簇從加權(quán)PPI網(wǎng)絡(luò)中發(fā)現(xiàn)復(fù)合群。CMC使用迭代評(píng)分的方法為蛋白質(zhì)對(duì)分配權(quán)重,可以改善其他蛋白質(zhì)復(fù)合物預(yù)測(cè)方法的性能,減少隨機(jī)噪聲的影響。CMC算法提高了識(shí)別蛋白質(zhì)復(fù)合物的精準(zhǔn)度,但對(duì)小規(guī)模復(fù)合物檢測(cè)能力較差,且敏感度較低。Wang等[8]提出了一種快速分層聚類算法HC-PIN。HC-PIN對(duì)假陽(yáng)性具有魯棒性,并且可以發(fā)現(xiàn)低密度的功能模塊。HC-PIN算法雖然也提高了識(shí)別蛋白質(zhì)復(fù)合物的精準(zhǔn)度,但其同樣存在敏感度低的問(wèn)題。Wu等[9]提出的COACH算法考慮到蛋白質(zhì)復(fù)合物的拓?fù)浣Y(jié)構(gòu),先檢測(cè)出核心蛋白質(zhì),然后將附屬蛋白質(zhì)連接到核心蛋白質(zhì)上。該算法考慮到了蛋白質(zhì)結(jié)構(gòu)上的特點(diǎn),一定程度上提高了預(yù)測(cè)的準(zhǔn)確性。Zhao等[10]用不確定圖模型建模PPI網(wǎng)絡(luò),提出了一種基于不確定圖模型的蛋白質(zhì)復(fù)合物算法DCU (Detecting Complex based on Uncertain graph model),改善了COACH算法,進(jìn)一步提高了預(yù)測(cè)的準(zhǔn)確性。

        由于非監(jiān)督學(xué)習(xí)算法的隨機(jī)特性會(huì)在一定程度上影響算法識(shí)別結(jié)果,因此近年來(lái)監(jiān)督學(xué)習(xí)算法也逐漸被用于蛋白質(zhì)復(fù)合物的識(shí)別。這類算法通過(guò)提取樣本特征克服非監(jiān)督的隨機(jī)性,并將特征放入分類器中訓(xùn)練,最終得出具有一定準(zhǔn)確性的分類器。其分類效果的好壞主要依賴于提取的特征能否較好地反映出蛋白質(zhì)復(fù)合物的真實(shí)特性。然而,監(jiān)督學(xué)習(xí)算法的特征通常都是人為構(gòu)造的,其準(zhǔn)確性和完整性有待考量。

        針對(duì)傳統(tǒng)算法存在敏感度和F-measure低以及現(xiàn)有監(jiān)督學(xué)習(xí)算法中特征構(gòu)造不完備等不足,近年來(lái)許多利用圖嵌入進(jìn)行蛋白質(zhì)復(fù)合物識(shí)別的方法應(yīng)運(yùn)而生。圖嵌入的方法將圖轉(zhuǎn)換為向量的形式進(jìn)行處理,并且同時(shí)保留了圖的局部和全局信息,使得蛋白質(zhì)復(fù)合物的識(shí)別更加容易和準(zhǔn)確。Xu等[11]提出了一種基于從GO知識(shí)庫(kù)中學(xué)習(xí)蛋白質(zhì)復(fù)合物向量的復(fù)合物識(shí)別算法GANE。該算法利用AANE[12]模型來(lái)學(xué)習(xí)復(fù)合物的向量表示,基于此向量構(gòu)造加權(quán)鄰接矩陣并利用團(tuán)挖掘的算法來(lái)進(jìn)行復(fù)合物的識(shí)別。Yao等[13]首先將蛋白質(zhì)以功能不同的標(biāo)準(zhǔn)分組,利用node2vec[14]方法將蛋白質(zhì)轉(zhuǎn)換為向量表示,構(gòu)造相似度矩陣,并利用聚類算法來(lái)進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別。本文提出的graph2vec-SVM與復(fù)合物拓?fù)浣Y(jié)構(gòu)信息相結(jié)合的搜索方法,利用graph2vec[15]將圖轉(zhuǎn)換為向量并結(jié)合SVM分類器來(lái)進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別,不僅克服了非監(jiān)督學(xué)習(xí)算法的隨機(jī)性,還解決了監(jiān)督學(xué)習(xí)構(gòu)造特征不完備等問(wèn)題,有效彌補(bǔ)了傳統(tǒng)算法和監(jiān)督學(xué)習(xí)算法的不足。同時(shí),相較于文獻(xiàn)[14]利用node2vec將復(fù)合物中每個(gè)節(jié)點(diǎn)轉(zhuǎn)換為向量表示,graph2vec將整個(gè)圖轉(zhuǎn)換為向量表示的做法更加便于計(jì)算。通過(guò)實(shí)驗(yàn)分析,該算法有較好的敏感度,在準(zhǔn)確度和F-measure方面也顯示出良好的性能。

        2 相關(guān)知識(shí)介紹

        2.1 graph2vec

        PPI網(wǎng)絡(luò)通常建模為圖數(shù)據(jù)模型,圖的節(jié)點(diǎn)表示蛋白質(zhì),邊表示蛋白質(zhì)間的相互作用。圖數(shù)據(jù)模型是一個(gè)4元組G=(V,E,W,Lv),其中,V是節(jié)點(diǎn)集;E是邊集;W:E→[0,1]是權(quán)重分配函數(shù),它給每條邊賦予一個(gè)權(quán)重;Lv是節(jié)點(diǎn)標(biāo)簽分配函數(shù),它從標(biāo)簽集中選擇標(biāo)簽分配給節(jié)點(diǎn)。本文以節(jié)點(diǎn)度作為圖的標(biāo)簽,將PPI網(wǎng)絡(luò)建模為圖數(shù)據(jù)模型后利用graph2vec將圖轉(zhuǎn)換為向量。

        graph2vec是由Narayanan等[15]提出的一種圖嵌入(將圖轉(zhuǎn)換為向量)算法,該算法基于word2vec[16]和doc2vec[17]的思想,將整個(gè)圖作為文檔,圖的根子圖作為文檔中的詞,通過(guò)訓(xùn)練淺層神經(jīng)網(wǎng)絡(luò)后最終得到整個(gè)圖的向量。其中,根子圖為圖的子樹模式,且子樹中允許出現(xiàn)相同的節(jié)點(diǎn)。例如,圖G(圖1a)的最大步長(zhǎng)為2的根子圖如圖1b所示。

        Figure 1 2-rooted subgraph

        graph2vec采用skipgram模型來(lái)學(xué)習(xí)圖的向量表示,如圖2所示。給定一個(gè)文檔集G={G1,G2,…,Gn}以及從文檔Gq∈G(1≤q≤n)中采樣的詞SG(Gq)={sg1,sg2,…,sgm},skipgram模型通過(guò)最大化式(1) 的似然函數(shù)得到文檔的向量表示。

        (1)

        Figure 2 skipgram model

        目前現(xiàn)有識(shí)別算法通常先將蛋白質(zhì)復(fù)合物建模為圖數(shù)據(jù)結(jié)構(gòu),再對(duì)其進(jìn)行特征提取,如圖的密度、節(jié)點(diǎn)個(gè)數(shù)和節(jié)點(diǎn)度統(tǒng)計(jì)等,并結(jié)合機(jī)器學(xué)習(xí)分類器進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別。由于這些特征是人為構(gòu)造的,其構(gòu)造特征的準(zhǔn)確性有待考量。graph2vec利用圖本身的特性(每個(gè)節(jié)點(diǎn)的根子圖),通過(guò)skipgram模型訓(xùn)練后得到的圖的向量表示能夠較準(zhǔn)確地保留原圖的信息,且能夠方便地利用機(jī)器學(xué)習(xí)分類器進(jìn)行后續(xù)的蛋白質(zhì)復(fù)合物識(shí)別。

        2.2 支持向量機(jī)

        支持向量機(jī)SVM(Support Vector Machine)是由Vapnik[18]提出的一種監(jiān)督學(xué)習(xí)二分類器。它的基本思想是擬合出一個(gè)最大化間隔的劃分超平面,使其能夠具有準(zhǔn)確的分類性能。

        SVM的劃分超平面可用如式(2)所示的線性方程描述:

        wTx+b=0

        (2)

        其中,x為分類樣本矩陣;w為法向量,決定了超平面的方向;b為位移量,決定了超平面與原點(diǎn)的距離。分類樣本標(biāo)簽yi為-1或+1,當(dāng)分類樣本xi能夠被正確分類時(shí),其滿足式(3):

        (3)

        其中,i表示分類樣本xi在分類樣本矩陣x中的索引,其取值為[0,M],M為分類樣本的總數(shù)。式(3)等價(jià)于:

        yi(wTxi+b)≥1

        (4)

        滿足yi(wTxi+b)=1的樣本稱為支持向量。2個(gè)異類支持向量到劃分超平面的距離之和稱為間隔,即:

        (5)

        最大化間隔γ即最小化w,求解

        s.t.yi(wTxi+b)≥1,i=1,2,…,M

        (6)

        求解出參數(shù)w和b后可得到最大化間隔超平面。

        式(6)可用拉格朗日乘子法轉(zhuǎn)換為對(duì)偶問(wèn)題 ( Dual Problem )的求解,其最后的求解式變?yōu)椋?/p>

        (7)

        3 基于圖嵌入與拓?fù)浣Y(jié)構(gòu)信息的蛋白質(zhì)復(fù)合物識(shí)別算法

        3.1 graph2vec-SVM算法

        graph2vec-SVM算法將標(biāo)準(zhǔn)庫(kù)中的蛋白質(zhì)復(fù)合物以及隨機(jī)生成圖(非蛋白質(zhì)復(fù)合物)用graph2vec技術(shù)提取出每個(gè)節(jié)點(diǎn)的根子圖后,以式 (1) 作為目標(biāo)函數(shù),利用skipgram模型將圖轉(zhuǎn)換為向量,轉(zhuǎn)換后的向量即為SVM分類器的訓(xùn)練樣本集,然后開始訓(xùn)練SVM分類器。其主要過(guò)程如算法1所示。

        算法1graph2vec-SVM

        輸入:G={G1,G2,…,Gn},k,N,D,ep,l。

        輸出:model。

        1.T={};

        2.foreachGq∈G

        3. randomly generateNsubgraphs fromGqwith the same size asGq,regard them as negative samples and insert them intoT;

        4.T=T∪G;

        5.vectors=graph2vec(T,k,D,ep,l)

        6.model=SVM(vectors,labels);

        returnmodel

        算法1中,G為蛋白質(zhì)復(fù)合物的集合,k為根子圖的最大步長(zhǎng),N為對(duì)每個(gè)蛋白質(zhì)復(fù)合物生成隨機(jī)子圖的個(gè)數(shù),D為向量的維度,ep為graph2vec算法的迭代次數(shù),l為學(xué)習(xí)率。算法1第1~4行根據(jù)每個(gè)蛋白質(zhì)復(fù)合物隨機(jī)生成N個(gè)子圖作為負(fù)樣本,并將正負(fù)樣本加入訓(xùn)練集合T中。第5行將訓(xùn)練集T用graph2vec轉(zhuǎn)換為向量,第6行將向量和標(biāo)簽放入SVM分類器中,開始訓(xùn)練分類器。其中l(wèi)abels為樣本的標(biāo)簽,正樣本的標(biāo)簽為+1,負(fù)樣本的標(biāo)簽為-1。

        以圖1a為例,設(shè)最大步長(zhǎng)k為1,則由算法1對(duì)圖G提取每個(gè)節(jié)點(diǎn)的根子圖后,訓(xùn)練skipgram模型,最終得到圖G的向量表示V(G),如圖3所示。

        Figure 3 Steps of graph2vec

        3.2 構(gòu)造候選蛋白質(zhì)復(fù)合物

        蛋白質(zhì)復(fù)合物被認(rèn)為是PPI網(wǎng)絡(luò)中的稠密子圖,如何從PPI網(wǎng)絡(luò)中劃分出稠密子圖是蛋白質(zhì)復(fù)合物識(shí)別的關(guān)鍵。本文利用模塊度Q來(lái)衡量一個(gè)子圖c的稠密程度。子圖c的模塊度Q的定義如式(8)所示:

        (8)

        其中,Vc為子圖c中的節(jié)點(diǎn)集,Ec為子圖c中的邊集。weightin(c)=∑v,u∈VcP(u,v)u,v為子圖c中的節(jié)點(diǎn),P(u,v)為邊e=(u,v)的權(quán)重,e∈Ec。weightout(c)=∑v∈Vc,u?VcP(u,v),u為子圖c中的節(jié)點(diǎn),v不為子圖c中的節(jié)點(diǎn),P(u,v)為邊e=(u,v)的權(quán)重,e?Ec。δ為模塊校正參數(shù),可用于代表所預(yù)測(cè)復(fù)合物中暫未發(fā)現(xiàn)的蛋白質(zhì),同時(shí)也可用于消除噪聲。Vapnik[18]通過(guò)實(shí)驗(yàn)分析,δ取值為PPI網(wǎng)絡(luò)平均度的一半時(shí)效果最佳。由式(8) 計(jì)算得到子圖c的模塊度,若簇邊界內(nèi)的邊權(quán)值總和大于其邊界外的邊權(quán)值總和,即:

        則稱子圖c為稠密子圖。

        由于蛋白質(zhì)復(fù)合物是稠密子圖,在PPI網(wǎng)絡(luò)中從度較大的節(jié)點(diǎn)開始搜索候選蛋白質(zhì)復(fù)合物,將會(huì)更快搜索到稠密子圖,因此本文首先考慮選取節(jié)點(diǎn)度大于平均度的節(jié)點(diǎn)作為種子節(jié)點(diǎn)。由種子節(jié)點(diǎn)開始,向外擴(kuò)散搜索構(gòu)造子圖,并計(jì)算該子圖的模塊度,直至其模塊度達(dá)到最大,將其加入候選集中。獲取蛋白質(zhì)復(fù)合物候選集合candidate_set的具體過(guò)程如算法2所示。獲取候選集合后,將候選集合中的蛋白質(zhì)復(fù)合物轉(zhuǎn)換為向量即可用graph2vec-SVM模型進(jìn)行識(shí)別分類。

        算法2getcandidate_set

        輸入:PPI networkG=(V,E,W,Lv)。

        輸出:candidate_set。

        1.fornodev∈V/*獲取種子節(jié)點(diǎn)集合,種子節(jié)點(diǎn)為度大于平均度的節(jié)點(diǎn)*/

        2.ifdegree ofvmore than average degree ofG,insertvinto the set seed/*由種子節(jié)點(diǎn)開始構(gòu)造候選蛋白質(zhì)復(fù)合物*/

        3.fors∈seed

        4.c={s};Q(c)=0;

        5.Nv(s)//computing the neighbors ofs

        6.foreachnoden∈Nv(s)

        7.c′=c∪{n};

        8. computeQ(c′);//計(jì)算子圖模塊度

        9.ifQ(c′) ≥Q(c)

        10.c=c′;

        11. insertcintocandidate_set;

        12.returncandidate_set

        算法2在執(zhí)行過(guò)程中可能會(huì)因?yàn)閺?fù)合物高度重合而造成冗余。本文將候選蛋白質(zhì)復(fù)合物間重合度大于0.7[19]的復(fù)合物認(rèn)為是重合的,重合度計(jì)算方法如式(9)所示(即重合度為復(fù)合物A和復(fù)合物B共有節(jié)點(diǎn)個(gè)數(shù)與復(fù)合物A節(jié)點(diǎn)個(gè)數(shù)和復(fù)合物B節(jié)點(diǎn)個(gè)數(shù)乘積的比值),并剔除模塊度小的復(fù)合物。

        OS(A,B)=|A∩B|2/(|A|×|B|)

        (9)

        去重算法過(guò)程如算法3所示。

        算法3get finalcandidate_set

        輸入:candidate_set。

        1.forc∈candidate_set

        2.ifSize(c) < 2//丟棄規(guī)模小于2的子圖

        3. removecfromcandidate_set;

        4.forA∈candidate_set

        5.forB∈candidate_set

        //計(jì)算蛋白質(zhì)復(fù)合物間的重合度

        6.ifOS(A,B) > 0.7

        //保留模塊度大的蛋白質(zhì)復(fù)合物

        7.ifQ(A) ≥Q(B)

        8. removeBfromcandidate_set

        9.elseremoveAfromcandidate_set

        3.3 蛋白質(zhì)復(fù)合物的識(shí)別

        3.1節(jié)利用標(biāo)準(zhǔn)庫(kù)中的復(fù)合物和隨機(jī)生成子圖訓(xùn)練graph2vec-SVM算法并得到具有識(shí)別復(fù)合物功能的分類器;3.2節(jié)利用式(8) 定義的模塊度搜索稠密子圖,去重后得到待識(shí)別的候選蛋白質(zhì)復(fù)合物集合;本節(jié)利用3.1節(jié)中訓(xùn)練好的graph2vec-SVM算法識(shí)別3.2節(jié)中去重后得到的候選蛋白質(zhì)復(fù)合物。與算法1相似,在進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別前,需先利用graph2vec將其轉(zhuǎn)換為向量,具體過(guò)程如算法4所示。

        算法4Predict protein complex

        輸入:candidate_set,k,D,ep,l。

        輸出:predictions。

        //用graph2vec將每個(gè)候選蛋白質(zhì)復(fù)合物轉(zhuǎn)換為向量

        1.c∈candidate_set

        2.vectors=graph2vec(candidate_set,k,D,ep,l);

        3.model=graph2vec-SVM(G,k,D,ep,l);

        //對(duì)候選蛋白質(zhì)復(fù)合物進(jìn)行識(shí)別

        4.Predictions=model.predict(vectors);

        5.returnpredictions

        4 實(shí)驗(yàn)結(jié)果及分析

        本文將graph2vec-SVM蛋白質(zhì)復(fù)合物識(shí)別算法與目前較為經(jīng)典的4種算法,包括ClusterOne、CMC、HC-PIN和COACH在酵母菌相互作用網(wǎng)絡(luò)DIP(Database of Interacting Proteins)[20]上進(jìn)行比較。蛋白質(zhì)復(fù)合物標(biāo)準(zhǔn)庫(kù)采用CYC2008[21]和 MIPS[22]標(biāo)準(zhǔn)庫(kù)。2個(gè)標(biāo)準(zhǔn)庫(kù)分別由408個(gè)復(fù)合物和428個(gè)復(fù)合物組成。

        4.1 評(píng)價(jià)指標(biāo)

        本文將所識(shí)別的蛋白質(zhì)復(fù)合物與標(biāo)準(zhǔn)庫(kù)中的蛋白質(zhì)復(fù)合物進(jìn)行比較以保證蛋白質(zhì)復(fù)合物識(shí)別的質(zhì)量。識(shí)別質(zhì)量的評(píng)價(jià)指標(biāo)主要有精準(zhǔn)度(Precision)、敏感度(Sensitivity)和F-measure。 精準(zhǔn)度為識(shí)別的復(fù)合物中真實(shí)復(fù)合物的數(shù)量與識(shí)別的復(fù)合物總數(shù)量的比值;敏感度為識(shí)別的復(fù)合物中真實(shí)復(fù)合物的數(shù)量與總真實(shí)復(fù)合物數(shù)量的比值;F-measure是精準(zhǔn)度和敏感度的調(diào)和平均值,其計(jì)算方法如式(10)所示:

        (10)

        Precision=TP/(TP+FP)

        (11)

        Sensitivity=TP/(FN+TP)

        (12)

        其中,TP為所識(shí)別復(fù)合物中與標(biāo)準(zhǔn)庫(kù)中復(fù)合物相匹配的復(fù)合物數(shù)量,其匹配程度通過(guò)式(9)計(jì)算,OS>R的識(shí)別復(fù)合物被認(rèn)為是真正的蛋白質(zhì)復(fù)合物,R為匹配程度的閾值,其值通常設(shè)置為0.2[23]。TN為識(shí)別結(jié)果中真實(shí)非蛋白質(zhì)復(fù)合物的數(shù)量,F(xiàn)N為真實(shí)蛋白質(zhì)復(fù)合物被識(shí)別為假蛋白質(zhì)復(fù)合物的數(shù)量。

        4.2 graph2vec參數(shù)設(shè)置

        本文使用標(biāo)準(zhǔn)庫(kù)中節(jié)點(diǎn)數(shù)大于2的蛋白質(zhì)復(fù)合物作為正樣本,負(fù)樣本為隨機(jī)生成的子圖。利用graph2vec將正樣本和負(fù)樣本轉(zhuǎn)換為向量,參數(shù)的設(shè)置如表1所示,轉(zhuǎn)換后的向量即為分類器的訓(xùn)練集。

        Table 1 Setting of graph2vec parameter

        表1中,batch_size為一次訓(xùn)練所選取的樣本數(shù);epochs為訓(xùn)練樣本被整體訓(xùn)練的次數(shù);max_k為根子圖的最大步長(zhǎng);embedding_size為圖轉(zhuǎn)換為向量的維數(shù),若embedding_size太小會(huì)導(dǎo)致圖的信息丟失,從而造成識(shí)別算法不能很好地識(shí)別出蛋白質(zhì)復(fù)合物,若其太大又會(huì)包含冗余的信息,從而影響蛋白質(zhì)復(fù)合物的識(shí)別。實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),當(dāng)embedding_size=512時(shí)其能夠較好地表示圖的信息。num_negsamples為噪聲樣本的數(shù)量,learning_rate為學(xué)習(xí)率,最終得到的向量為V(G)=(v1,v2,…,vδ)。

        4.3 對(duì)比模型的選取

        本文在DIP數(shù)據(jù)集上采用3種機(jī)器學(xué)習(xí)分類器(LR、SVM和XGBoost)進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別,蛋白質(zhì)復(fù)合物標(biāo)準(zhǔn)庫(kù)為MIPS,其結(jié)果分別如圖4和表2所示。

        Figure 4 Performance of three classifiers on DIP dataset

        Table 2 Identify results of three classifiers on MIPS standard library

        由圖4可知,LR、SVM和XGBoost在3項(xiàng)指標(biāo)中都有較好的結(jié)果,但從表2可看出,LR和XGBoost正確識(shí)別蛋白質(zhì)復(fù)合物數(shù)量較高,但正確識(shí)別非蛋白質(zhì)復(fù)合物的數(shù)量極低,而SVM的綜合表現(xiàn)相對(duì)較好,所以本文最終選取SVM分類器進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別。

        4.4 與非監(jiān)督學(xué)習(xí)算法的對(duì)比

        graph2vec-SVM與4種非監(jiān)督學(xué)習(xí)算法(CMC、COACH、HC-PIN和ClusterOne)在DIP數(shù)據(jù)集上精準(zhǔn)度、敏感度和F-measure的表現(xiàn)如圖5所示,其中蛋白質(zhì)復(fù)合物的標(biāo)準(zhǔn)庫(kù)采用的是CYC2008。從圖5可以看出,graph2vec-SVM在3項(xiàng)指標(biāo)中都取得了良好的效果,在該數(shù)據(jù)集上的精準(zhǔn)度(0.42)有待提高,敏感度(0.66)和F-measure(0.51)均好于其他算法的。

        Figure 5 Performance of each algorithm on DIP dataset

        為進(jìn)一步分析實(shí)驗(yàn)結(jié)果,將CYC2008標(biāo)準(zhǔn)庫(kù)替換為MIPS標(biāo)準(zhǔn)庫(kù)后,結(jié)果如表3所示。從表3可以看出,graph2vec-SVM識(shí)別算法在所有對(duì)比算法中識(shí)別出正確蛋白質(zhì)復(fù)合物的數(shù)量最多,且其F-measure也最高,正確識(shí)別非蛋白質(zhì)復(fù)合物的數(shù)量比COACH算法次之,但綜合來(lái)說(shuō)graph2vec-SVM識(shí)別算法相較于對(duì)比算法表現(xiàn)較好。

        Table 3 Comparison of algorithms on MIPS standard library

        4.5 與監(jiān)督學(xué)習(xí)算法的對(duì)比

        本節(jié)將graph2vec-SVM識(shí)別算法與3種監(jiān)督學(xué)習(xí)算法(SCI-BN,SCI-SVM和RM)在DIP數(shù)據(jù)集上進(jìn)行對(duì)比。4種算法均采用MIPS標(biāo)準(zhǔn)庫(kù)中的蛋白質(zhì)復(fù)合物作為正樣本進(jìn)行模型訓(xùn)練。3種監(jiān)督學(xué)習(xí)算法參數(shù)均參照文獻(xiàn)[23-25]設(shè)置。實(shí)驗(yàn)對(duì)比結(jié)果如表4所示,從表4中可以看出,graph2vec-SVM在DIP數(shù)據(jù)集上Precision、Sensitivity和F-measure的表現(xiàn)相對(duì)其他3種算法都較好。

        Table 4 Comparison with supervised algorithms on MIPS standard library

        5 結(jié)束語(yǔ)

        本文針對(duì)非監(jiān)督學(xué)習(xí)識(shí)別算法的隨機(jī)特性會(huì)影響復(fù)合物的識(shí)別準(zhǔn)確性,以及監(jiān)督學(xué)習(xí)識(shí)別算法的人為構(gòu)造特征不完備等缺陷,提出了graph2vec-SVM蛋白質(zhì)復(fù)合物識(shí)別算法。該算法利用grah2vec將圖的信息轉(zhuǎn)換為向量,并進(jìn)一步采用SVM分類器進(jìn)行蛋白質(zhì)復(fù)合物的識(shí)別,實(shí)驗(yàn)結(jié)果表明,該算法與目前流行的監(jiān)督學(xué)習(xí)算法與傳統(tǒng)非監(jiān)督學(xué)習(xí)算法在敏感度和F-measure上都取得了較好的效果,但由于在生成隨機(jī)子圖時(shí)存在離散點(diǎn)而導(dǎo)致精準(zhǔn)度不高,未來(lái)在完善識(shí)別算法時(shí)我們將著手克服離散點(diǎn)來(lái)嘗試提高精準(zhǔn)度。

        猜你喜歡
        子圖精準(zhǔn)度復(fù)合物
        BH66F5355 增強(qiáng)型24-bit A/D MCU
        傳感器世界(2023年5期)2023-08-03 10:38:18
        BeXY、MgXY(X、Y=F、Cl、Br)與ClF3和ClOF3形成復(fù)合物的理論研究
        讓黨建活動(dòng)更加有“味”——禮泉縣增強(qiáng)“兩新”黨建精準(zhǔn)度
        臨界完全圖Ramsey數(shù)
        柚皮素磷脂復(fù)合物的制備和表征
        中成藥(2018年7期)2018-08-04 06:04:18
        黃芩苷-小檗堿復(fù)合物的形成規(guī)律
        中成藥(2018年3期)2018-05-07 13:34:18
        論提高不動(dòng)產(chǎn)產(chǎn)權(quán)保護(hù)精準(zhǔn)度的若干問(wèn)題
        基于頻繁子圖挖掘的數(shù)據(jù)服務(wù)Mashup推薦
        機(jī)械加工過(guò)程中的機(jī)械振動(dòng)分析
        不含2K1+K2和C4作為導(dǎo)出子圖的圖的色數(shù)
        人妻一区二区三区在线看| 亚洲日韩图片专区小说专区| 久久精品成人亚洲另类欧美| 亚洲天堂av在线观看免费| 亚洲国产成人精品无码区在线播放| 美女视频黄的全免费视频网站| 国产成人77亚洲精品www| 日韩精品免费一区二区中文字幕| 亚洲人妻调教中文字幕| 欧美成人精品三级网站| 2021国产精品视频| 国产麻豆一区二区三区在线播放| 中文字幕乱码亚洲无限码| 精品少妇爆乳无码av无码专区| 久久精品这里只有精品| 国产一区二区一级黄色片| 亚洲综合极品美女av| 亚洲一线二线三线写真| 亚洲VA欧美VA国产VA综合| 国产一区二区三区尤物| 午夜时刻免费入口| 国产小受呻吟gv视频在线观看| 亚洲av永久无码精品成人| 论理视频二区三区四区在线观看| 芒果乱码国色天香| 中文字幕不卡在线播放| 蜜桃av噜噜噜一区二区三区| 国产精品成人观看视频国产奇米| 亚洲日本在线电影| 在线毛片一区二区不卡视频| 高清中文字幕一区二区三区| 无码孕妇孕交在线观看| 亚洲欧美日韩高清专区一区| 一区二区视频网站在线观看| 国产精品国产三级第一集 | 国产又a又黄又潮娇喘视频 | 女人被狂躁到高潮视频免费网站| 91久久精品无码人妻系列| 国产优质av一区二区三区| 日本动漫瀑乳h动漫啪啪免费| 亚洲日韩乱码中文无码蜜桃臀|