亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于復(fù)雜關(guān)聯(lián)網(wǎng)絡(luò)的生物醫(yī)學(xué)研究結(jié)構(gòu)的挖掘

        2015-03-22 03:17:30,,,,
        關(guān)鍵詞:連通分支生物醫(yī)學(xué)關(guān)聯(lián)

        ,, ,,

        隨著文獻數(shù)量的急速增長,文本挖掘技術(shù)不斷應(yīng)用于大規(guī)模文獻處理,基于文獻的知識發(fā)現(xiàn)已經(jīng)成為文獻挖掘領(lǐng)域的重要內(nèi)容。1986年,Swanson教授提出基于文獻的知識發(fā)現(xiàn)思想,即對非相關(guān)的文獻進行整合分析,發(fā)現(xiàn)其中隱含的聯(lián)系,進而形成新的科學(xué)假設(shè)[1-2]。基于文獻的知識發(fā)現(xiàn)的核心是通過ABC模型來挖掘概念間的間接關(guān)系,即當不相關(guān)的實體A與C同時與實體B相關(guān)時,A與C也可能相關(guān),這種關(guān)聯(lián)假設(shè)的方法在藥物發(fā)現(xiàn)、藥物重定位[3-4]等領(lǐng)域得到了較好的應(yīng)用。隨著大量文獻富集,內(nèi)容相關(guān)性會涌現(xiàn)出知識網(wǎng)絡(luò),并通過知識網(wǎng)絡(luò)進行關(guān)聯(lián)挖掘。如通過對文獻詞語共現(xiàn)網(wǎng)絡(luò)的研究,總結(jié)出當前的研究熱點,分析科研結(jié)構(gòu),發(fā)現(xiàn)研究內(nèi)容的相關(guān)性等[5-6]。還有一些研究針對具體實體的關(guān)聯(lián)網(wǎng)絡(luò)進行分析,如基因調(diào)控網(wǎng)絡(luò)、蛋白質(zhì)相互作用網(wǎng)絡(luò)等[7]。此外,部分研究轉(zhuǎn)向系統(tǒng)層面上考察信息間的整合分析,通過多領(lǐng)域多數(shù)據(jù)源交叉融合,發(fā)現(xiàn)間接的隱含聯(lián)系[8]。然而,面對龐大的關(guān)聯(lián)知識網(wǎng)絡(luò),如何從網(wǎng)絡(luò)微觀結(jié)構(gòu)與關(guān)聯(lián)形成的規(guī)律,探討其對文獻知識發(fā)現(xiàn)的影響,對提高知識發(fā)現(xiàn)的效率具有重要作用。

        本文基于免費開放的PubMed文獻數(shù)據(jù)集,構(gòu)建了一個由文獻數(shù)據(jù)衍生出的生物醫(yī)學(xué)實體關(guān)聯(lián)演化網(wǎng)絡(luò),從而整合不同時期文獻中的關(guān)聯(lián)知識,并利用復(fù)雜網(wǎng)絡(luò)理論分析該關(guān)聯(lián)網(wǎng)絡(luò)的拓撲特征,從系統(tǒng)層面分析研究大量文獻集中于科學(xué)知識的結(jié)構(gòu)及相關(guān)性,為文獻的知識發(fā)現(xiàn)引入新的視角與方法,提高知識發(fā)現(xiàn)的效率,引導(dǎo)科研人員進行知識發(fā)現(xiàn)。

        1 網(wǎng)絡(luò)簡介

        1.1 網(wǎng)絡(luò)的定量描述

        一個簡單的無向無權(quán)網(wǎng)絡(luò)可標記為G=(V,E)。其中集合V稱為節(jié)點集:V={v1,v2,…,vn},集合E稱為邊集:E={e1,e2,…,em},任意一條邊對應(yīng)一個節(jié)點的二元組:ex=(vi,vj),E是V×V的一個子集。對于用節(jié)點和邊描述的圖,可以用幾個定量指標來描述圖的性質(zhì),包括節(jié)點的度、連通性、路徑與聚類系數(shù)。

        節(jié)點的度:即節(jié)點V在圖G的度,指圖G中與節(jié)點V連接的邊數(shù),記為d(v)或k(v)。節(jié)點的度主要用于描述節(jié)點的連通性。

        連通性:若G中每對不同節(jié)點U,V之間都存在一條通路,則G是連通的,即G為連通圖。

        路徑:即圖的路徑,指兩個與邊交替出現(xiàn)的序列,且所有節(jié)點與邊都不相同。路徑長度是連接兩個節(jié)點之間邊的數(shù)量,網(wǎng)絡(luò)距離可以通過路徑長度來描述,一般采用最短路徑作為連接兩個節(jié)點的路徑。平均路徑長度是網(wǎng)絡(luò)中所有節(jié)點對之間最短路徑長度的平均值。

        聚類系數(shù):表示圖中節(jié)點聚集程度的系數(shù),定義為其鄰居真實連接數(shù)目占鄰居最大可能連接數(shù)比例的平均。

        1.2 網(wǎng)絡(luò)的拓撲性質(zhì)

        圖是一種用來表示實際系統(tǒng)的一種模型。對于圖G=(V,E),如果存在一個映射函數(shù)f,即

        f:E→V×V(公式1)

        若將網(wǎng)絡(luò)中的邊映射到節(jié)點對,那么圖是結(jié)構(gòu)化的,即圖存在一定的拓撲結(jié)構(gòu);如果映射是隨機的,那么圖就是隨機的。通常按度序列分布與熵定義圖的結(jié)構(gòu),其中度序列分布按拓撲對圖的分類提供了一種機制,而熵提供了一種對隨機性的測量。一般來說,度序列分布表達了圖的結(jié)構(gòu)信息,熵則表達了圖的結(jié)構(gòu)是否具有規(guī)則性。

        網(wǎng)絡(luò)規(guī)模很大但平均距離卻很小的性質(zhì)被稱為小世界效應(yīng)。小世界網(wǎng)絡(luò)一般是指具有相對較小的平均路徑長度、相對較大的聚類系數(shù)的網(wǎng)絡(luò)。如果一個圖的度序列分布符合冪函數(shù)的形式,由于冪函數(shù)是標度不變的,通常稱這類圖為無標度網(wǎng)絡(luò)。無標度網(wǎng)絡(luò)同小世界網(wǎng)絡(luò)類似,很多真實網(wǎng)絡(luò)都具有無標度特征。

        2 生物醫(yī)學(xué)實體關(guān)聯(lián)網(wǎng)絡(luò)的構(gòu)建與分析

        2.1 基于共現(xiàn)方法的實體關(guān)聯(lián)提取

        生物醫(yī)學(xué)文獻挖掘研究通常利用共現(xiàn)方法來提取實體的關(guān)聯(lián),即當兩個詞語共現(xiàn)于一定的語境中時,詞語之間存在一定的語義相關(guān)性[9]。對于實體共出現(xiàn)而言,以句子為最大分析單元最常見。本文基于句子共現(xiàn)的實體關(guān)聯(lián)提取的基本步驟如下。

        根據(jù)基于自然語言的方法識別出句子的實體NP及其位置。

        如果在同一個句子中得到的實體按其在句子中的順序依次為NP1、NP2、NP3,則得到關(guān)聯(lián)(NP1,NP2),(NP1,NP3),(NP2,NP3)。例如,文獻標題(PMID: 20856896):β1-syntrophin modulation by miR-222 in mdx mice,提取得到實體及其位置的列表為:

        [(β1-syntrophin modulation, 1),(miR-222, 4),(mdx mouse, 6)]

        進一步得到關(guān)聯(lián):(β1-syntrophin modulation, miR-222),(β1-syntrophin modulation, mdx mouse),(miR-222, mdx mouse)。

        2.2 網(wǎng)絡(luò)構(gòu)建

        考慮到PubMed數(shù)據(jù)庫中所有摘要的數(shù)據(jù)量過大,本文以PubMed中2000-2009年共10年記錄的標題數(shù)據(jù)為實驗數(shù)據(jù)集,抽取其中的實體及關(guān)聯(lián)后,建立關(guān)聯(lián)知識網(wǎng)絡(luò)。為了觀察科學(xué)研究的動態(tài)結(jié)構(gòu),構(gòu)建了按時間(年)增長的演化網(wǎng)絡(luò)序列,如表1所示。

        由于網(wǎng)絡(luò)過于龐大,本文未能給出關(guān)聯(lián)網(wǎng)絡(luò)的可視化效果,但從表1的統(tǒng)計結(jié)果來看,仍可以觀察到一些有用的特征與規(guī)律。從網(wǎng)絡(luò)的演化情況來看,網(wǎng)絡(luò)的節(jié)點與關(guān)聯(lián)每年都在增長,表明整個研究領(lǐng)域的知識量是不斷增加的,這與每年文獻數(shù)量不斷增長的情況是一致的。在關(guān)聯(lián)知識網(wǎng)絡(luò)中,每年都存在新節(jié)點新關(guān)聯(lián)的加入,表明在生物醫(yī)學(xué)研究領(lǐng)域每年都有新發(fā)現(xiàn),而且每年新增加的關(guān)聯(lián)數(shù)遠大于新增加的節(jié)點數(shù)。這也反映在較短的時間內(nèi),真正具有較大創(chuàng)新性的發(fā)現(xiàn)相對較少,大部分文獻仍然是在已有研究問題基礎(chǔ)上的延續(xù)研究。總的來說,通過關(guān)聯(lián)知識網(wǎng)絡(luò)的演化分析,一定程度上反映了知識的形成與發(fā)展的規(guī)律。關(guān)聯(lián)網(wǎng)絡(luò)中節(jié)點與關(guān)聯(lián)的增長,都能反映出新知識的不斷出現(xiàn)。

        表1 關(guān)聯(lián)演化網(wǎng)絡(luò)的基本信息

        2.3 關(guān)聯(lián)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)分析

        2.3.1 網(wǎng)絡(luò)的連通性

        從表1的計算結(jié)果可知,提取到的關(guān)聯(lián)網(wǎng)絡(luò)是一個非連通網(wǎng)絡(luò)。從2000年開始,每一年的關(guān)聯(lián)網(wǎng)絡(luò)都有很多個連通分支,比如2009年的關(guān)聯(lián)網(wǎng)絡(luò)有11 770個連通分支。盡管存在如此多的大小不一的連通分支,但每個關(guān)聯(lián)網(wǎng)絡(luò)都有一個最大連通分支,能夠覆蓋網(wǎng)絡(luò)的絕對多數(shù)的節(jié)點與邊,比如2009年的關(guān)聯(lián)網(wǎng)絡(luò)中最大連通分支包含1 294 509個節(jié)點與6 667 590條邊,分別占整個網(wǎng)絡(luò)中節(jié)點的98.03%以及邊的99.78%。因此,主要對最大連通分支進行網(wǎng)絡(luò)的特征分析。

        除了最大的連通分支,關(guān)聯(lián)網(wǎng)絡(luò)中其他連通分支的規(guī)模都很小,表明科學(xué)研究的專業(yè)化變得更精細,生物醫(yī)學(xué)領(lǐng)域研究內(nèi)容極具豐富性與多樣性;同時也表明在一些特定的領(lǐng)域,領(lǐng)域之間缺乏互通融合,形成了一個個獨立的知識“孤島”。出現(xiàn)大量的相對極小的連通分支,也說明在整個領(lǐng)域存在一些比較“冷門”的研究。

        2.3.2 網(wǎng)絡(luò)的度序列分布

        如圖1所示,關(guān)聯(lián)知識網(wǎng)絡(luò)呈現(xiàn)冪函數(shù)形式,是一個無標度網(wǎng)絡(luò)。根據(jù)冪律分布的特性,絕大多數(shù)節(jié)點擁有較少的連接數(shù),而少量的節(jié)點擁有極大的連接數(shù)。這些擁有極大連接數(shù)的節(jié)點是關(guān)聯(lián)網(wǎng)絡(luò)的HUB節(jié)點,基本都是一些生物醫(yī)學(xué)研究領(lǐng)域通用的概念。盡管它們無法代表整個領(lǐng)域的研究重點或研究熱點,但其他眾多概念都圍繞它們展開。說明它們在整個生物醫(yī)學(xué)科研體系中起著非常重要的連接橋梁的作用,而一些連接數(shù)較少的節(jié)點只代表某個具體的研究對象。關(guān)聯(lián)知識網(wǎng)絡(luò)的無標度特征表明在生物醫(yī)學(xué)領(lǐng)域中研究重點突出,而圍繞研究重點開展了很多細致的研究工作。

        圖1 2000-2009年的關(guān)聯(lián)網(wǎng)絡(luò)的度序列分布雙對數(shù)坐標(Log-Log)

        2.3.3 計算網(wǎng)絡(luò)的聚類系數(shù)

        考慮到計算能力的限制,我們僅以2000年的數(shù)據(jù)作為測試數(shù)據(jù),計算得到網(wǎng)絡(luò)的平均聚類系數(shù)為 0.209390339012,而最大連通分支的平均聚類系數(shù)為0.215289709462。接下來構(gòu)建與原網(wǎng)絡(luò)、最大連通分支的節(jié)點數(shù)邊數(shù)都相同的隨機網(wǎng)絡(luò),其平均聚類系數(shù)分別為3.37415559158e-05與4.98993799995e-05。顯然,關(guān)聯(lián)網(wǎng)絡(luò)的聚類系數(shù)遠大于隨機網(wǎng)絡(luò)的聚類系數(shù),表明關(guān)聯(lián)網(wǎng)絡(luò)具有高集群性。

        關(guān)聯(lián)網(wǎng)絡(luò)的高集群性說明圍繞一個研究主題所開展的各種研究之間具有很高的相關(guān)性,相關(guān)研究之間更容易形成連接,而它們之間的連接可以形成新的研究成果,這有助于對研究主題進行更深層次的分析和挖掘。根據(jù)綜合聚類系數(shù)與冪律分布的特征,可推斷出關(guān)聯(lián)網(wǎng)絡(luò)中存在很多集團,集團內(nèi)部成員之間聯(lián)系緊密,而集團之間的聯(lián)系相對疏遠,這表明某領(lǐng)域中存在一些研究重點和研究熱點。圍繞這些重點和熱點所展開的大量相關(guān)研究之間聯(lián)系緊密,形成網(wǎng)絡(luò)結(jié)構(gòu)中的集團,并使得集團內(nèi)部成員的聚類系數(shù)很大,最終使得整個網(wǎng)絡(luò)的聚類系數(shù)較大。

        2.3.4 計算網(wǎng)絡(luò)的平均距離

        根據(jù)網(wǎng)絡(luò)距離的定義,當網(wǎng)絡(luò)不連通時,網(wǎng)絡(luò)的平均距離是無窮大,該關(guān)聯(lián)網(wǎng)絡(luò)是不連通的,因此只計算關(guān)聯(lián)網(wǎng)絡(luò)中最大連通分支的平均距離。以最小的2000年的關(guān)聯(lián)網(wǎng)絡(luò)的最大連通分支作為測試對象,該連通分支的平均距離長度為3.76923247599,表明關(guān)聯(lián)網(wǎng)絡(luò)中的節(jié)點平均只需經(jīng)過4步就可到達其他節(jié)點。然后根據(jù)2000年的關(guān)聯(lián)網(wǎng)絡(luò)的最大連通分支的大小,建立一個相同大小的隨機網(wǎng)絡(luò)模型。該隨機網(wǎng)絡(luò)的平均路徑長度約為5.79725740556,顯然,相對于相同大小的關(guān)聯(lián)網(wǎng)絡(luò)來說其平均路徑長度相當小。綜合關(guān)聯(lián)網(wǎng)絡(luò)的聚類系數(shù)與平均路徑長度,表明該實體關(guān)聯(lián)網(wǎng)絡(luò)是一個小世界網(wǎng)絡(luò)。

        關(guān)聯(lián)網(wǎng)絡(luò)的小世界特征表明,在生物醫(yī)學(xué)研究領(lǐng)域,研究主題和研究內(nèi)容之間關(guān)聯(lián)的緊密程度非常高,而平均路徑長度很小則說明主題與內(nèi)容相互之間存在很強的影響。此外,小世界特征也說明在同一個大的研究領(lǐng)域中,從一個研究對象可以很快轉(zhuǎn)移到另外一個研究對象,二者結(jié)合很容易形成新的研究內(nèi)容。

        3 結(jié)語

        基于自然語言處理方法得到的網(wǎng)絡(luò)是一個普適的由文獻衍生的關(guān)聯(lián)知識網(wǎng)絡(luò),它不同于已有的衍生于文獻的生物網(wǎng)絡(luò),不依賴于任何領(lǐng)域特異性的實體關(guān)系。因此,通過該網(wǎng)絡(luò)可以更好地研究知識本身的發(fā)展規(guī)律,反映科研問題、概念間的相互關(guān)系。

        從測試數(shù)據(jù)衍生而來的關(guān)聯(lián)網(wǎng)絡(luò)的演化情況來看,網(wǎng)絡(luò)的節(jié)點與關(guān)聯(lián)每年都在增長,表明整個研究領(lǐng)域的知識量在不斷增加,每年都有新節(jié)點新關(guān)聯(lián)的加入。同時,關(guān)聯(lián)知識網(wǎng)絡(luò)的小世界無標度特征,表明在生物醫(yī)學(xué)研究領(lǐng)域,研究主題和研究內(nèi)容之間關(guān)聯(lián)的緊密程度非常高。在同一個研究領(lǐng)域中,從一個研究對象可以很快轉(zhuǎn)移到另外一個研究對象,二者結(jié)合很容易形成新的研究內(nèi)容,這也驗證了基于文獻的知識發(fā)現(xiàn)的思想。

        總的來說,關(guān)聯(lián)知識網(wǎng)絡(luò)的演化分析,一定程度上反映了知識的形成與發(fā)展的規(guī)律。關(guān)聯(lián)知識網(wǎng)絡(luò)中節(jié)點與關(guān)聯(lián)的增長,反映出新知識的不斷出現(xiàn),而且知識網(wǎng)絡(luò)的結(jié)構(gòu)與相關(guān)性可以更好用于發(fā)現(xiàn)有用的關(guān)聯(lián),提高文獻的知識發(fā)現(xiàn)效率。

        猜你喜歡
        連通分支生物醫(yī)學(xué)關(guān)聯(lián)
        芻議“生物醫(yī)學(xué)作為文化”的研究進路——兼論《作為文化的生物醫(yī)學(xué)》
        偏序集的序連通關(guān)系及其序連通分支
        靈長類生物醫(yī)學(xué)前沿探索中的倫理思考
        關(guān)于圖的距離無符號拉普拉斯譜半徑的下界
        “一帶一路”遞進,關(guān)聯(lián)民生更緊
        當代陜西(2019年15期)2019-09-02 01:52:00
        國外生物醫(yī)學(xué)文獻獲取的技術(shù)工具:述評與啟示
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        LED光源在生物醫(yī)學(xué)中的應(yīng)用分析
        一個圖論問題的簡單證明
        新課程(下)(2015年9期)2015-04-12 09:23:30
        麻豆一区二区99久久久久| 国产精品亚洲av高清二区| 国产成人午夜高潮毛片| 中国内射xxxx6981少妇| 国产精品美女久久久久久大全| 亚洲一区二区不卡日韩| 国产在线视频91九色| 中文字幕亚洲在线第一页| 国产亚洲精品a片久久久| 欧美黑人疯狂性受xxxxx喷水| 无码国产日韩精品一区二区| 蜜桃在线高清视频免费观看网址| 少妇伦子伦情品无吗| 久久这里只精品国产免费10| 亚洲AV永久无码精品表情包| 免费播放成人大片视频| 日韩一区国产二区欧美三区 | 国产精品99久久久久久宅男| 区无码字幕中文色| 日本视频一区二区三区观看| 无码人妻精品一区二区蜜桃网站 | av毛片亚洲高清一区二区| 丰满少妇被粗大猛烈进人高清| 性一交一乱一伦| 免费人成视频网站在线观看不卡| 一区二区三区国产黄色| 漂亮人妻被中出中文字幕久久| 国产亚洲AV无码一区二区二三区| 91人妻人人做人人爽九色| 国产精品乱码人妻一区二区三区 | 天天爽夜夜爽人人爽一区二区| 日本亚洲欧美高清专区| 白丝美女扒开内露出内裤视频| 亚洲成av人片不卡无码 | 国产精品一区二区资源| 97人妻中文字幕总站| 无码人妻一区二区三区兔费| 国产精品天堂| 亚洲精品一区二区三区日韩| 国产精品久久国产精麻豆99网站| 国产精品99久久久久久宅男|