亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于基因本體的相似度計算方法

        2019-01-11 06:00:10榮河江王亞東
        智能計算機(jī)與應(yīng)用 2019年1期
        關(guān)鍵詞:信息量祖先計算方法

        榮河江, 王亞東

        (哈爾濱工業(yè)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001)

        0 引 言

        本體作為知識工程、知識表示等計算機(jī)學(xué)科的研究熱點和重要領(lǐng)域知識描述工具,也成為了生物數(shù)據(jù)的重要描述方式。本體通過明確的語言,以形式化的方式描述給定領(lǐng)域的概念及概念之間的關(guān)聯(lián)。每一個事物都有一些性質(zhì)和關(guān)系,一個事物的性質(zhì)和關(guān)系統(tǒng)稱為事物的屬性。比較事物的相似度就是定量評估事物間的屬性。本體是研究不同術(shù)語關(guān)系的一種有效方法?;虮倔w在過去十年間,成為應(yīng)用最為廣泛的生物醫(yī)學(xué)本體之一。

        基因作為遺產(chǎn)信息的攜帶者,其相似性的研究在生物醫(yī)學(xué)領(lǐng)域受到高度關(guān)注。研究基因及基因產(chǎn)物之間的相互作用關(guān)系,對于探索生命奧秘具有重要的意義。

        基因本體(Gene Ontology)可以計算不同分子功能術(shù)語或生物過程術(shù)語之間的相似度,從而衡量不同分子功能或生物過程之間的關(guān)系;基于疾病本體(Disease Ontology)可以計算不同疾病術(shù)語之間的相似度,從而衡量不同疾病之間的關(guān)聯(lián)關(guān)系。

        隨著高通量生物技術(shù)的進(jìn)步,人類基因組測序和多物種基因測序工作的發(fā)展,推動了基因識別的研究進(jìn)程,積累了海量的基因數(shù)據(jù)。為了更好地利用生物數(shù)據(jù)及其包含的信息,通過相似性分析獲得已有的基因信息來推斷基因的結(jié)構(gòu)、功能和進(jìn)化關(guān)系,可以為生物學(xué)家的研究提供幫助。相似性分析是生物信息學(xué)的基礎(chǔ)之一,也是生物信息學(xué)的熱點研究領(lǐng)域。目前,如何充分利用現(xiàn)有的基因數(shù)據(jù)和注釋信息來計算基因的相似性,提高計算精度,是將基因技術(shù)轉(zhuǎn)化為生物醫(yī)學(xué)應(yīng)用亟需解決的問題之一。

        1 基因相似性計算現(xiàn)狀

        1.1 基因本體研究解析

        基因本體項目(Gene Ontology project)從1998年創(chuàng)立至今,基因本體數(shù)據(jù)得到了急速積累。該項目的重點是將基因做系統(tǒng)性的注釋,不僅僅用基因的序列來描述,而是用更加豐富多元化的方式來描述基因的性質(zhì),基因本體就是基因的注釋分類。由于生物系統(tǒng)驚人的復(fù)雜性,并且要分析的數(shù)據(jù)集數(shù)量不斷增加,生物醫(yī)學(xué)研究越來越依賴于以計算機(jī)形式存儲的知識?;虮倔w(GO)項目提供了目前可用于計算基因和基因產(chǎn)物功能的最全面資源[1]。

        基因本體可用于形式化、規(guī)范地注釋基因和基因產(chǎn)物的特性。基因本體包含3個分支,可闡釋如下。

        (1)分子功能(Molecular function):描述分子的化學(xué)功能。

        (2)生物過程(Biological process):描述基因產(chǎn)物可行使功能的生物學(xué)目的和過程。與分子功能相比,生物過程必須有多個清晰的步驟。

        (3)細(xì)胞組件(Cellular component):描述亞細(xì)胞結(jié)構(gòu)、位置和大分子復(fù)合物。

        基因本體信息可以構(gòu)建一個有向無環(huán)圖(Directed Acyclic Graph, DAG)。其設(shè)計結(jié)構(gòu)可如圖1所示。節(jié)點表示本體中的術(shù)語。邊表示術(shù)語之間的關(guān)系,包括“is-a”、“part-of”、“regulate”三種類型。如果一個節(jié)點是另一個節(jié)點的子孫節(jié)點,那么前一個節(jié)點是后一個節(jié)點的子類型。

        圖1 GO結(jié)構(gòu):有向無環(huán)圖

        根據(jù)Pesquita等人[2]2009年發(fā)表文章綜述,現(xiàn)有醫(yī)學(xué)本體節(jié)點語義相似性的計算分為3類,分別是:基于邊的方法(edge-based)、基于點(node-based)的方法和混合方法(hybrid)。其中,基于邊的方法、即基于距離的方法,主要計算圖中2個術(shù)語之間的路徑數(shù)目。該技術(shù)利用最短路徑或所有路徑的平均值來定義概念間的距離,如果數(shù)據(jù)間的距離越大,表明數(shù)據(jù)之間的相似度越小?;邳c的方法,又稱為基于信息量(Information Content)的計算方法。該方法認(rèn)為2個術(shù)語共享的信息越多,相似度越高?;旌戏椒▌t基于術(shù)語的有向無環(huán)圖的計算方法,既考慮術(shù)語祖先對其信息量的影響,也考慮術(shù)語所在位置的影響。諸如,基于語義覆蓋的Combine算法就是混合方法。

        1.2 術(shù)語的相似性分析

        術(shù)語的相似性主要基于2個因素:術(shù)語包含的信息量(information content, IC)和術(shù)語的層次結(jié)構(gòu)。直觀上看,如果術(shù)語經(jīng)常被用來注釋實體,那么其中所含有的信息量就會減少,即術(shù)語的信息量與其所注釋實體的數(shù)量成反比。

        在這里,Sheldon[3]對術(shù)語信息量(information content)做出了如下定義:

        IC(t)=-log(p(t))

        (1)

        其中,anno(t)是術(shù)語t的直接注釋實體數(shù)量,則分子表示t及其子孫對應(yīng)的注釋實體數(shù)量,分母表示根節(jié)點(root)子孫節(jié)點注釋實體數(shù)量,即為集合內(nèi)實體的總數(shù)。

        p(t)公式也可以簡化表示為:

        (2)

        其中,F(xiàn)req(t)表示t及其后代的注釋實體數(shù)量,|I(DO)| 表示集合內(nèi)實體的總數(shù)。

        從數(shù)學(xué)角度解釋,基因術(shù)語C的信息量定義為其在所有基因術(shù)語實體中出現(xiàn)的概率p(c)的負(fù)對數(shù)函數(shù)。由式(1)、式(2)可以很簡明地看出,p(t)越接近0,則信息量IC(t) 越大,這也符合信息增益理論;p(t)越小,其在信息本體構(gòu)成的有向無環(huán)圖中的層次越低(遠(yuǎn)離根節(jié)點),其注釋到的基因也越少,表示的內(nèi)容越具體,因此信息量越大。

        1.3 基于節(jié)點的算法研究總述

        按照前文信息量的定義,每個基因術(shù)語的信息量都可以通過計算自身及其后代節(jié)點的注釋實體個數(shù)得到。研究人員提出如下一種假設(shè):2種術(shù)語,如果這2種術(shù)語的祖先節(jié)點信息量越大,則兩者之間就會越相似。由此產(chǎn)生了一系列基于節(jié)點的相似度計算方法。

        將2個節(jié)點的祖先(common ancestor)節(jié)點定義如下:對于基因術(shù)語C1和C2,兩者通常有一個到多個共同祖先,令CA(C1,C2)表示這些祖先集合。Resnik[4]認(rèn)為2個節(jié)點共享的信息越多,則這2個節(jié)點間就越相似,由此提出采用一種語義相似度計算方法:C1和C2的相似度用CA(C1,C2)中信息量最大的那個祖先(most informative common ancestor, MICA)的信息量來表示。研究推得數(shù)學(xué)公式表述如下:

        SimResnik(C1,C2)=IC(MICA(C1,C2))

        (3)

        Resnik提出最大信息量共同祖先的概念。這是較早的、也是經(jīng)典的語義相似性計算方法,但是該方法只考慮了節(jié)點的共性,而忽略了本體架構(gòu)方面的信息,當(dāng)2個節(jié)點的最低公共祖先相同時,其下層的節(jié)點語義相似性將不能進(jìn)行區(qū)分。在此基礎(chǔ)之上,Jiang等人[5]就隨即提出了最低共同祖先(lowest/least common ancestor, LCA)的概念。根據(jù)最低共同祖先的概念,疾病C1和C2的相似度為IC(LCA(C1,C2))。Wu等人[6]也相繼提出了最近共同祖先(most recent common ancestor, MRCA)的概念,由此得到MRCA的數(shù)學(xué)定義可見如下:

        (4)

        其中,dist(C1,C)表示C1與C1和C2的共同祖先C的最短距離。根據(jù)Wu等人的計算方法,疾病C1和C2的相似度為IC(MRCA(C1,C2))。

        Couto等人[7]引入公共不相容祖先結(jié)合的概念(common disjunctive ancestors, CDAs)。不相容祖先節(jié)點的數(shù)學(xué)公式描述如下:

        DisjAnc(t)={(C1,C2)|

        (?P:(P∈Paths(C1,t))∧(C2?p))∧

        (?P:(P∈Paths(C2,t))∧(C1?p))}

        (5)

        從上述定義可以看出,節(jié)點t的不相容祖先節(jié)點為:如果存在一條路徑,從C1到t而不通過C2,同時有另外一條路徑,從t到C2而不通過C1,那么節(jié)點C1和C2就是節(jié)點t的不相容祖先節(jié)點。綜合上述定義推得,疾病C1和C2的相似度計算公式為:

        (6)

        其中,|CDAs(C1,C2)|表示共同不相容祖先的個數(shù)。

        上述基于祖先節(jié)點信息量的疾病相似性方法,都是基于共同祖先的概念,從單個或部分祖先節(jié)點的角度考慮2個術(shù)語的相似性,而忽略了屬于自身的信息和不同層次的節(jié)點信息差異。以圖2的DAG圖為例,利用MICA的計算方式,2個節(jié)點的相似度為這2個節(jié)點在DAG結(jié)構(gòu)中擁有最大信息量的共同祖先節(jié)點的信息量。而在圖2中,節(jié)點B、C和節(jié)點B、D擁有相同的MICA,得到的相似度相同。但是分析后卻會發(fā)現(xiàn),C和D屬于不同的層次關(guān)系,B、C的相似度應(yīng)該高于B、D的相似度。因此不同層次的節(jié)點信息差異也是研究參考因素之一。

        圖2 基因本體DAG圖示

        Lin[8]認(rèn)為Resnik的方法忽略了2個術(shù)語自身的信息量,當(dāng)2個術(shù)語信息量較大時,對相似度準(zhǔn)確性的影響也較大。基于此,Lin則提出了一種新的相似度計算方法,定義疾病C1和C2的相似度為:

        (7)

        Lin的方法融入了術(shù)語自身的信息量,但是卻并未考慮不同層次節(jié)點信息差異。直觀上,2個疾病的MICA越靠近根節(jié)點,其所共享的信息量就越小。為了解決這一問題,Schlicker等人[9]研發(fā)提出了修正后的Simlin公式,采用系數(shù)1-p(c)進(jìn)行修正。研究中遵循的相似度計算公式如下:

        SimSchlicker(C1,C2)=Simlin(C1,C2)×(1-p(c))

        (8)

        完整的計算公式即為:

        (9)

        其中,tMICA表示t為疾病C1和C2的MICA,當(dāng)t為根節(jié)點時,p(tMICA)=0,這與實際不符。在此基礎(chǔ)上,Li等人[10]又提出了新的修正系數(shù),調(diào)整后的節(jié)點C1和C2相似度計算公式如下:

        SimLi(C1,C2)=Simlin(C1,C2)×

        (10)

        接下來,在基于邊和基于點的相似度計算方法之上,Wang等人[11]設(shè)計提出了一種利用混合技術(shù)的相似度計算方法。對DAG圖中的每一條邊依據(jù)節(jié)點的關(guān)系(is-a關(guān)系或as-a關(guān)系)賦予不同的權(quán)值。根據(jù)定義,一個節(jié)點的子有向無環(huán)圖為該節(jié)點及其祖先節(jié)點。同時,研究中又定義了一個指標(biāo),用于描述位于節(jié)點A的子有向無環(huán)圖中的任意一個節(jié)點t,叫做節(jié)點t對節(jié)點A的語義貢獻(xiàn)值。該值是節(jié)點t到節(jié)點A的最優(yōu)路徑中所有邊權(quán)的乘積。公式描述如下:

        (11)

        約定we為語義的貢獻(xiàn)因子,根據(jù)節(jié)點關(guān)系的不同,賦予不同范圍區(qū)間的值。

        根據(jù)Wang等人的定義,2個節(jié)點C1和C2的相似度為:

        (12)

        其中,SV(C1)為節(jié)點C1在DNA圖中總的語義貢獻(xiàn)值。即使是同一個祖先,由于相對于C1和C2的位置不同,該祖先對C1和C2的貢獻(xiàn)度可能也不同。Wang的方法利用了本體節(jié)點之間的拓?fù)浣Y(jié)構(gòu),考慮到了本體上路徑信息特征,雖然不是基于信息量的,但是具有較好的實驗效果。

        此外,李榮等人[12]提出了語義路徑覆蓋的概念。該算法根據(jù)路徑的相交程度來計算彼此之間的相似性的值。采用基于語義鏈接(semantic links)的方法對每一概念的信息量進(jìn)行計算。分別計算2個節(jié)點語義路徑上交集節(jié)點的信息量之和與并集節(jié)點的信息量之和,將兩者的比率作為其相似性的值。Combine算法求解v1和v2的計算過程可分述如下。

        (1)計算出GO中節(jié)點的總個數(shù)N。

        (2)對每個節(jié)點φ,計算出該節(jié)點的子孫節(jié)點的個數(shù)φ′。

        (3)計算每個φ的子孫節(jié)點出現(xiàn)的概率p(φ)=φ′/N。

        (4)計算φ的信息量IC(φ)。

        (5)計算節(jié)點v1和節(jié)點v2語義路徑交α、語義路徑并β。

        (6)分別計算α所包含節(jié)點的信息量IC(α),β所包含節(jié)點的信息量IC(β)。

        (7)定義節(jié)點v1和v2的相似性為IC(α)和IC(β)的比率,即:

        (13)

        2 改進(jìn)的基因相似度計算方法

        利用2種疾病的祖先節(jié)點信息計算2個疾病的相似性,方法簡單且利于理解。但是只利用祖先節(jié)點信息,忽略自身的信息量,以及忽略注釋實體之間關(guān)系,都會對相似度的準(zhǔn)確性造成影響。研究可知,疾病本體DO包括16層節(jié)點,每層節(jié)點信息的分布箱線圖如圖3所示。通過對圖3的考察分析可以發(fā)現(xiàn),節(jié)點的位置與信息量成明顯相關(guān)性[13],必須充分考慮不同層次節(jié)點信息量的差異。

        圖3 DO不同層節(jié)點信息量分布箱線圖

        Fig.3BoxplotofinformationcontentdistributionamongnodesfromdifferentlayerofDO

        本文在兩節(jié)點最近公共祖先點(most recent common ancestor)和最低公共祖先節(jié)點(least common ancestor)的基礎(chǔ)上,定義Ri公共節(jié)點(Ri common ancestor, RiCA)的公式具體如下:

        RiCA=α×IC(LCA(C1,C2))+β×IC(MRCA(C1,C2))

        (14)

        其中,α,β為常系數(shù)因子;LCA(C1,C2)表示C1,C2節(jié)點的最低公共祖先節(jié)點,從C1,C2的祖先節(jié)點集合中,選擇距離根節(jié)點(root)距離最遠(yuǎn)的節(jié)點,并用信息量IC公式計算其信息量。MRCA(C1,C2)表示最近祖先節(jié)點,將其定義為C1,C2的所有祖先節(jié)點中,與C1,C2的距離最短的點,即所跨越的邊個數(shù)最短的點。換言之就是,LCA考慮了標(biāo)定的2個術(shù)語之間的相似性。而MRCA結(jié)合了拓?fù)浣Y(jié)構(gòu)中邊的概念,使得注釋實體在本體路徑上得到了新式的更佳利用。通過乘以α,β兩個常數(shù)因子,將2種方法得到的信息量整合起來,形成新的信息量評價值RiCA。

        同時,由于兩節(jié)點的祖先節(jié)點相似度計算僅利用到了祖先節(jié)點信息,忽略了其它實體關(guān)系,而Li的公式包含了屬于自身信息量和不同層次節(jié)點的信息差異,且有較好表現(xiàn),基于Li的公式,引入RiCA算子,得出兩節(jié)點相似度的Ri計算即如式(15)所示:

        (15)

        3 實驗對比分析

        3.1 實驗數(shù)據(jù)和評價指標(biāo)

        本體術(shù)語間相似度的評價是一個難題,一些本體術(shù)語間的實際功能相似性仍然無法準(zhǔn)確知道。以疾病本體基因為例,一些疾病的關(guān)聯(lián)性需要通過臨床驗證才能得出準(zhǔn)確評價。沒有一個公認(rèn)的評價標(biāo)準(zhǔn)。在這里,研究采用了專家評分的方式進(jìn)行評價。

        李榮的研究團(tuán)隊從GO術(shù)語庫篩選了25對術(shù)語,分別讓10位與研究項目無關(guān)的生物學(xué)專家對術(shù)語之間的相似性進(jìn)行打分[12],然后將專家打分的平均分作為評價基準(zhǔn)。計算結(jié)果與專家結(jié)果的相似度高,則認(rèn)為該方法準(zhǔn)確性高。

        本文采用25對術(shù)語進(jìn)行篩選,去掉一些已經(jīng)過時的術(shù)語,選取其中的15對進(jìn)行測試。挑選的術(shù)語對列表可見表1。

        表1 挑選的GO術(shù)語對

        采用ZZL方法、Rensik方法、Lin方法、Combine方法和本文提出方法對15對術(shù)語的相似度進(jìn)行計算,計算結(jié)果見表2。

        表2 人工打分各項對比

        3.2 實驗結(jié)果和分析

        經(jīng)過反復(fù)測試數(shù)據(jù),當(dāng)α= 0.6,β= 0.4時,相關(guān)系數(shù)取得最大值。得到的本文方法與人工打分的相關(guān)系數(shù)為0.872 1。研究得到的各種算法的運(yùn)算結(jié)果與人工打分的相關(guān)系數(shù)可詳見表3。

        表3 各方法的相關(guān)系數(shù)

        從上述的比較結(jié)果中可以看出,本文的方法獲得了較高的相關(guān)系數(shù),表明在計算術(shù)語相似度方面取得較好的效果。主要是因為本文研究中不但基于兩術(shù)語祖先節(jié)點的計算方法,而且結(jié)合了最近祖先節(jié)點和最低祖先節(jié)點的信息量,獲得較優(yōu)的信息量評價指標(biāo)。同時考慮到了語義節(jié)點自身包含的信息量和不同層次語義結(jié)構(gòu)的差異性影響,借鑒Li提出的語義相似度的方法,有效綜合這些因素,因此獲得了更好的準(zhǔn)確性。

        4 結(jié)束語

        基因術(shù)語相似度計算,具有重要的意義。研究在Li方法的基礎(chǔ)上,結(jié)合最近公共祖先節(jié)點和最低層次公共祖先節(jié)點,提出一種改進(jìn)的相似度計算方法。該方法能夠在評測術(shù)語節(jié)點間信息量的同時,考慮了2個術(shù)語自身的信息量,加入信息量均值的處理,使得算法具有較好的表現(xiàn)。實驗結(jié)果表明,相比其它算法,取得了較高的相關(guān)系數(shù)。在多數(shù)情況下,本算法求出的結(jié)果具有更優(yōu)的生物學(xué)意義。在后續(xù)的工作中,將進(jìn)一步綜合影響術(shù)語相似性度量的因素,以提高算法的正確性。

        猜你喜歡
        信息量祖先計算方法
        浮力計算方法匯集
        烏龜:想不到祖先最早是“宅男”
        始祖鳥不是鳥祖先
        我們的祖先是條魚
        基于信息理論的交通信息量度量
        如何增加地方電視臺時政新聞的信息量
        新聞傳播(2016年11期)2016-07-10 12:04:01
        隨機(jī)振動試驗包絡(luò)計算方法
        不同應(yīng)變率比值計算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
        誰說我們一定要像祖先一樣過
        基于多尺度互信息量的數(shù)字視頻幀篡改檢測
        国产一区二区不卡老阿姨| 在线看不卡的国产视频| 青青草针对华人超碰在线| 国产蜜桃传媒在线观看| 在线观看中文字幕二区| 国产精品亚洲lv粉色| 无码人妻av一区二区三区蜜臀| 老少交欧美另类| 鲁丝一区鲁丝二区鲁丝三区| 日本在线免费不卡一区二区三区| 国产在线观看午夜视频| 91成人自拍国语对白| 久久人人爽爽爽人久久久| 亚洲精品毛片一区二区三区| 亚洲欧洲国产日产国码无码| 国产桃色精品网站| 国产av一区二区三区香蕉| 在线视频中文字幕一区二区三区| 无码色av一二区在线播放| 日本高清aⅴ毛片免费| 久久国产精品老人性| av影片手机在线观看免费网址| 午夜影视免费| 亚洲精品久久| 国产精品福利自产拍久久| 男女高潮免费观看无遮挡| 精品人妻av区二区三区| 国产老熟女精品一区二区| 野花社区视频在线观看| 国产精品主播视频| 久久综合加勒比东京热| 亚洲一二三区免费视频| 色妞ww精品视频7777| av天堂精品久久久久| 色噜噜亚洲精品中文字幕| 欧美最猛黑人xxxx黑人猛交| 无码欧亚熟妇人妻AV在线外遇| 久久中文字幕日韩精品| 日本中文字幕有码在线播放| 日本高清视频永久网站www| 国模无码视频一区|