亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分布式假設(shè)的弱監(jiān)督蛋白質(zhì)交互關(guān)系識(shí)別

        2018-09-22 05:38:36毛宇薇
        關(guān)鍵詞:語義詞匯方法

        毛宇薇,牛 耘

        (南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 211106)

        0 引 言

        蛋白質(zhì)是生物細(xì)胞的重要組成部分,它們通過交互作用完成細(xì)胞中的大部分過程,蛋白質(zhì)交互信息(protein-protein interaction,PPI)是生物醫(yī)學(xué)領(lǐng)域的一項(xiàng)重要研究?,F(xiàn)有的HPRD[1]、InAct[2]和MINT[3]等交互關(guān)系數(shù)據(jù)庫均由生物醫(yī)學(xué)專家通過人工閱讀大量醫(yī)學(xué)文獻(xiàn)的方式識(shí)別錄入。然而,隨著生物醫(yī)學(xué)文獻(xiàn)的快速增加,手工收集PPI信息難度增大。在此背景下,基于自然語言處理的PPI識(shí)別技術(shù)取得了很大的進(jìn)展。

        目前,從醫(yī)學(xué)文獻(xiàn)中自動(dòng)識(shí)別PPI的方法主要有:基于同現(xiàn)的方法[4]、基于規(guī)則的方法[5]和基于機(jī)器學(xué)習(xí)的方法[6-7]?;谕F(xiàn)的方法通過統(tǒng)計(jì)兩個(gè)蛋白質(zhì)在句中同現(xiàn)的概率來識(shí)別交互關(guān)系,召回率較高但精確度不高,同時(shí)難以發(fā)現(xiàn)新的或較少共現(xiàn)的蛋白質(zhì)對(duì)[8]?;谝?guī)則的方法通過專家手工建立規(guī)則來判斷是否存在交互關(guān)系,精確度較高但召回率低[9]。

        近年來,越來越多的機(jī)器學(xué)習(xí)技術(shù)被應(yīng)用到PPI識(shí)別[10-13],主要包括兩種方法:基于特征的方法和基于核函數(shù)的方法?;谔卣鞯姆椒◤挠袠?biāo)注的句子中提取重要特征建立模型來判斷蛋白質(zhì)對(duì)的交互關(guān)系。基于核函數(shù)的方法通過設(shè)計(jì)核函數(shù)來計(jì)算蛋白質(zhì)對(duì)間的相似度,從而進(jìn)行PPI的識(shí)別。兩種方法均為有監(jiān)督的方法,需要大量有標(biāo)注的數(shù)據(jù),會(huì)耗費(fèi)大量人力物力。

        文中提出的基于弱監(jiān)督的方法只需少量有標(biāo)注的數(shù)據(jù)作為種子集。同時(shí),對(duì)于所提取的特征,不同于傳統(tǒng)的獨(dú)熱編碼(one-hot encoding)和TF-IDF等向量表示方式,基于分布式假設(shè)理論[14]根據(jù)特征在種子集中的分布構(gòu)建向量空間模型,利用相似性進(jìn)行交互關(guān)系的判斷,并通過實(shí)驗(yàn)進(jìn)行驗(yàn)證。

        1 基于分布式假設(shè)的弱監(jiān)督PPI識(shí)別

        所提出的蛋白質(zhì)交互識(shí)別方法以弱監(jiān)督為基礎(chǔ),首先對(duì)所有目標(biāo)蛋白質(zhì)對(duì),從其表達(dá)交互關(guān)系的上下文中提取詞匯模式,基于分布式假設(shè)理論,根據(jù)它們?cè)诜N子集中的分布構(gòu)建向量空間模型。然后利用相似性進(jìn)行聚類,產(chǎn)生語義相似的模式簇,通過模式簇提取語料中具有相似分布的詞匯模式并將所對(duì)應(yīng)的蛋白質(zhì)對(duì)加入候選集。接下來評(píng)估候選集,挑選出符合要求的蛋白質(zhì)對(duì)加入種子集進(jìn)行迭代,最終完成蛋白質(zhì)對(duì)的交互識(shí)別。

        1.1 基于分布式假設(shè)構(gòu)建向量空間模型

        對(duì)每一個(gè)目標(biāo)蛋白質(zhì)對(duì)(protein1,protein2),檢索出數(shù)據(jù)庫中同時(shí)包含protein1和protein2的句子集合,作為該蛋白質(zhì)對(duì)的簽名檔。在蛋白質(zhì)對(duì)簽名檔的每個(gè)句子中,兩個(gè)目標(biāo)蛋白質(zhì)之間的文本內(nèi)容很大程度地表達(dá)了該蛋白質(zhì)對(duì)的關(guān)系。其中,動(dòng)詞及名詞在交互關(guān)系的表達(dá)上起了重要作用。因此,對(duì)每個(gè)蛋白質(zhì)對(duì),提取簽名檔中每個(gè)句子里目標(biāo)蛋白質(zhì)對(duì)中間部分的動(dòng)詞和名詞,并去掉無實(shí)際含義的停止詞,作為表達(dá)語義關(guān)系的詞匯模式。語義相似的詞匯模式可能表達(dá)相似的語義關(guān)系,因此可以認(rèn)為,如果兩個(gè)蛋白質(zhì)對(duì)有許多相似的詞匯模式,則它們具有相似的關(guān)系。

        文中提出利用分布式假設(shè)理論尋找相似的詞匯模式。分布式假設(shè)理論為:具有相似上下文的單詞,具有相似的語義。根據(jù)該假設(shè),如果兩個(gè)詞匯模式在種子集中有相似的分布(即與相同的蛋白質(zhì)對(duì)共現(xiàn)),則這兩個(gè)詞匯模式是相似的,通過詞匯模式分布的相似性進(jìn)行聚類,可以得到具有相似語義關(guān)系的模式簇。

        對(duì)每一個(gè)詞匯模式P,根據(jù)其在種子集中的分布表示為向量p,p的維度為種子蛋白質(zhì)對(duì)的個(gè)數(shù)。為了減少稀疏性,除了詞匯模式整體的分布,也考慮其中單詞的分布情況。p中第i維的值f(ai,bi,p)對(duì)應(yīng)模式p在第i個(gè)種子蛋白質(zhì)對(duì)(ai,bi)中出現(xiàn)的次數(shù)和p的標(biāo)記之和(若p中存在任一單詞出現(xiàn)在蛋白質(zhì)對(duì)(ai,bi)所對(duì)應(yīng)的詞匯模式集中,標(biāo)記為1,否則為0)。

        1.2 聚類詞匯模式并產(chǎn)生候選集

        文中以少量有交互關(guān)系的蛋白質(zhì)對(duì)作為初始種子集,對(duì)種子蛋白質(zhì)對(duì)的詞匯模式采用序列聚類算法,將相似的詞匯模式聚類得到語義關(guān)系簇。給定種子集對(duì)應(yīng)的詞匯模式集P和聚類相似度閾值θ,算法1描述了聚類過程,返回表達(dá)相似語義關(guān)系的簇集合。

        算法1:序列聚類算法。

        輸入:詞匯模式集p={p1,p2,…,pn},閾值θ;

        輸出:語義關(guān)系簇集C。

        1:SORT(P)

        2:c1={p1}

        3:C={c1}

        4:for 模式pi∈Pdo

        5:max←-∞

        6:c*←null

        7:for 簇cj∈Cdo

        8: sim←Sim(pi,cj)

        9:if sim>max then

        10:max←sim

        11:c*←cj

        12:end if

        13:end for

        14:if max>θthen

        15:c*←c*∪{pi}

        16:else

        17:ck={pi}

        18:C=C∪{ck}

        19:end if

        20:end for

        21:returnC

        在算法1中,首先通過函數(shù)SORT對(duì)詞匯模式集按其共現(xiàn)的種子蛋白質(zhì)對(duì)個(gè)數(shù)進(jìn)行降序排序。排序后新的模式集P中,共現(xiàn)的蛋白質(zhì)對(duì)個(gè)數(shù)越多的詞匯模式在集合頭部,共現(xiàn)的蛋白質(zhì)對(duì)個(gè)數(shù)越少的詞匯模式在集合尾部。然后,初始化簇c1,加入第一個(gè)詞匯模式p1,并初始化集合C加入c1。外層循環(huán)(第4步)遍歷集合P中的每一個(gè)詞匯模式pi,與內(nèi)層循環(huán)(第7步)所遍歷的每一個(gè)簇cj進(jìn)行相似度計(jì)算,找到與pi最相似的簇c*(∈C)。如果該相似度大于閾值θ,則把pi加入到簇c*中,否則創(chuàng)建一個(gè)新的包含pi的簇ck并加入簇集合C。其中,函數(shù)Sim(pi,cj)計(jì)算模式pi與簇cj的相似度,返回pi與cj中的每一個(gè)pm∈cj的相似度的最大值(pi與pm的相似度為其向量的余弦相似性),根據(jù)算法1得到具有相似語義的模式簇集合。

        算法2從語料庫中提取與這些簇相似的詞匯模式及其所對(duì)應(yīng)的蛋白質(zhì)對(duì)加入候選集,后續(xù)可對(duì)候選集進(jìn)行評(píng)估,挑選出有交互關(guān)系的蛋白質(zhì)對(duì)加入種子集。算法2的輸入為語料的詞匯模式集S,語義相關(guān)的簇集合C和相似度閾值θ,輸出為包含所提取的詞匯模式候選集。

        算法2:候選集生成算法。

        輸入:詞匯模式集S={s1,s2,…,sn},語義相關(guān)簇集C={c1,c2,…,cn},閾值θ;

        輸出:候選集R。

        1:forsi∈Sdo

        2:forcj∈Cdo

        3:sim←Sim(si,cj)

        4:if sim>θthen

        5:confp(cj)

        6:R.add(si,cj,sim)

        首先,外層循環(huán)遍歷集合S,對(duì)每一個(gè)詞匯模式si,內(nèi)層循環(huán)遍歷簇集合C中的每一個(gè)簇cj,如果si與cj的相似度大于閾值θ(模式與簇的相似度計(jì)算方式同上),即認(rèn)為簇cj能夠提取出模式si,更新簇cj的分?jǐn)?shù),并對(duì)該模式si,提取它的簇cj及它們之間的相似度加入候選集。

        計(jì)算簇c分?jǐn)?shù)的公式為:

        (1)

        其中,K、U均為簇c所提取的詞匯模式集合,K中詞匯模式所對(duì)應(yīng)的蛋白質(zhì)對(duì)屬于種子集,U中詞匯模式不屬于種子集,|K|和|U|分別為集合K和U的元素個(gè)數(shù);Vi為第i個(gè)詞匯模式所共現(xiàn)的種子蛋白質(zhì)對(duì)個(gè)數(shù)。由于屬于U的詞匯模式的可靠性不高,因此設(shè)置w為U的權(quán)重,介于0-1之間,文中設(shè)置為0.5。

        1.3 評(píng)估候選集并更新種子集

        對(duì)候選集中的每一個(gè)詞匯模式p,計(jì)算其分?jǐn)?shù):

        (2)

        其中,ξ為能提取出詞匯模式p的簇集合;conf(cj)為簇cj的分?jǐn)?shù);Sim(p,cj)為簇cj與模式p的相似度。

        對(duì)每一個(gè)蛋白質(zhì)對(duì)t,根據(jù)其詞匯模式計(jì)算蛋白質(zhì)對(duì)得分:

        (3)

        其中,ξ為候選集中該蛋白質(zhì)對(duì)t的詞匯模式集合;conf(pi)為詞匯模式pi的分?jǐn)?shù)。

        得分越高的蛋白質(zhì)對(duì)存在交互關(guān)系的可能性越大,因此挑選出分?jǐn)?shù)大于閾值T的蛋白質(zhì)對(duì)作為本次迭代所識(shí)別出的有交互關(guān)系的蛋白質(zhì)對(duì),加入到種子集中。不斷迭代上述過程擴(kuò)充種子集,直到滿足終止條件,最終完成對(duì)蛋白質(zhì)交互關(guān)系的識(shí)別。

        2 實(shí) 驗(yàn)

        2.1 實(shí)驗(yàn)數(shù)據(jù)及設(shè)置

        實(shí)驗(yàn)中采用的有交互關(guān)系的蛋白質(zhì)對(duì)是從專業(yè)PPI數(shù)據(jù)庫HPRD中獲取,并且只保留出現(xiàn)在PubMed數(shù)據(jù)庫一篇以上摘要里的蛋白質(zhì)對(duì),數(shù)據(jù)可靠性高。同時(shí),采用生物醫(yī)學(xué)領(lǐng)域的常用方法,將HPRD中的蛋白質(zhì)進(jìn)行隨機(jī)組合,去除其中已經(jīng)包含在HPRD中的蛋白質(zhì)對(duì)。最終得到的有交互關(guān)系的蛋白質(zhì)對(duì)1 141,無交互關(guān)系的蛋白質(zhì)對(duì)1 353。

        對(duì)每一對(duì)蛋白質(zhì),檢索PubMed數(shù)據(jù)庫的文獻(xiàn)摘要,提取所有包含這一對(duì)蛋白質(zhì)對(duì)的句子構(gòu)成該對(duì)蛋白質(zhì)對(duì)的簽名檔。所有的2 494個(gè)蛋白質(zhì)對(duì)及其簽名檔構(gòu)建成語料庫,并從有交互關(guān)系的蛋白質(zhì)對(duì)中隨機(jī)選出100對(duì)構(gòu)成種子集。

        實(shí)驗(yàn)過程中,將算法1中聚類相似度的閾值θ與算法2中生成候選集的閾值θ均設(shè)置為0.6,同時(shí)將蛋白質(zhì)對(duì)得分的閾值T設(shè)置為0.9,迭代次數(shù)設(shè)置為3。采用的結(jié)果性能評(píng)價(jià)指標(biāo)是當(dāng)前PPI抽取系統(tǒng)主要使用的3個(gè)指標(biāo):精確度(precision=TP/(TP+FP))、召回率(recall=TP/(TP+FN))和F值(F-score=2×P×R/(P+R))。

        2.2 實(shí)驗(yàn)結(jié)果及分析

        表1為第一次迭代后,在閾值T的不同取值下得到的結(jié)果。

        表1 不同閾值結(jié)果對(duì)比 %

        從表1可以看出,閾值為0.6時(shí)的結(jié)果比閾值為0時(shí)略有提升,召回率略有降低,整體F值略有降低。當(dāng)閾值繼續(xù)增大后,雖然精確度有顯著提高,但召回率下降較多,因此總體F值有所降低。

        隨著迭代次數(shù)的增加,易知精確度會(huì)降低,召回率會(huì)提升,因此挑選閾值T為0.9時(shí),精確度較高的結(jié)果進(jìn)行下一輪迭代,結(jié)果如表2所示。

        表2 迭代結(jié)果

        %

        從表2可以看出,隨著迭代次數(shù)的增加,種子集合擴(kuò)充,有交互蛋白質(zhì)對(duì)的召回率提升,精確度略有下降,整體F值上升。實(shí)驗(yàn)結(jié)果表明,該方法以少量的初始種子取得了較高的精確度和召回率,3次迭代后的F值可達(dá)到63.49%。

        3 結(jié)束語

        文中提出了一種基于分布式假設(shè)的弱監(jiān)督蛋白質(zhì)交互識(shí)別方法。該方法僅需少量有交互關(guān)系的蛋白質(zhì)對(duì)作為種子集,根據(jù)分布式假設(shè)構(gòu)建向量空間模型,利用相似性識(shí)別出有交互的蛋白質(zhì)對(duì)。實(shí)驗(yàn)結(jié)果表明,該方法以較少的種子取得了較高的精確度與召回率。

        目前該方法只考慮了利用簽名檔中兩個(gè)蛋白質(zhì)中間部分的文本來構(gòu)造詞匯模式,之后的研究將考慮提取句子中其他部分的關(guān)鍵信息作為特征來表示蛋白質(zhì)對(duì)的交互關(guān)系。

        猜你喜歡
        語義詞匯方法
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        語言與語義
        本刊可直接用縮寫的常用詞匯
        可能是方法不對(duì)
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        認(rèn)知范疇模糊與語義模糊
        久久精品国产亚洲av麻豆四虎| 亚洲丁香五月天缴情综合| 少妇熟女视频一区二区三区| 成人综合网站| 亚洲人成影院在线观看| 亚洲无码专区无码| 激情五月天俺也去综合网| 午夜国产精品视频在线观看| 妺妺窝人体色www看美女| 996久久国产精品线观看| 亚洲av福利天堂在线观看 | 男女互舔动态视频在线观看| 天天躁日日躁狠狠躁欧美老妇小说| 日韩少妇激情一区二区| 岛国熟女一区二区三区| 色噜噜亚洲精品中文字幕| 亚洲人成网线在线播放va蜜芽| 乱子伦视频在线看| 精品国产一区二区三区香蕉| 亚洲精品黑牛一区二区三区| 自拍偷自拍亚洲精品播放| 日韩精品一区二区三区中文9| 免费一区二区三区女优视频| 啦啦啦中文在线观看日本| 国产精品半夜| 精品久久日产国产一区| 亚洲中文字幕舔尻av网站| 亚洲av永久无码天堂网毛片| 三级国产女主播在线观看| 国产三级av在线精品| 天堂国产一区二区三区| 猫咪www免费人成网最新网站| 国产99久久精品一区| 亚洲综合精品亚洲国产成人| 97一期涩涩97片久久久久久久 | 国产亚洲成性色av人片在线观| 国产suv精品一区二区883 | 亚洲av片不卡无码久久| 久久99国产亚洲高清观看首页| 91精品国自产拍老熟女露脸| 亚洲春色在线视频|