亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文獻(xiàn)知識網(wǎng)絡(luò)的節(jié)點(diǎn)度變化對領(lǐng)域熱點(diǎn)的影響

        2016-03-25 10:58:10,,,,
        關(guān)鍵詞:詞項(xiàng)熱點(diǎn)關(guān)聯(lián)

        ,,, ,

        文獻(xiàn)是科研工作者獲取科學(xué)假設(shè)與跟蹤領(lǐng)域進(jìn)展的重要途徑,從大量文獻(xiàn)集中識別出前沿?zé)狳c(diǎn)對科學(xué)研究具有重要的理論和實(shí)踐意義??萍记閳?bào)工作的基礎(chǔ)就是要抓住前沿?zé)狳c(diǎn),掌握前沿發(fā)展的動態(tài),密切跟蹤研究進(jìn)展,但前沿?zé)狳c(diǎn)的定義并沒有科研人員一致公認(rèn)的標(biāo)準(zhǔn)[1]。領(lǐng)域熱點(diǎn)存在兩個(gè)最主要的特征:一是相關(guān)領(lǐng)域近年的文獻(xiàn)集呈現(xiàn)出的熱點(diǎn)主題,二是圍繞熱點(diǎn)主題使未來短期內(nèi)能形成大量新的研究內(nèi)容。目前各個(gè)學(xué)科領(lǐng)域的科研人員提出了很多熱點(diǎn)主題的識別方法,以便領(lǐng)域?qū)<铱偨Y(jié)未來短期內(nèi)的研究方向,但研究內(nèi)容的預(yù)測及對預(yù)測結(jié)果的評價(jià)仍是一個(gè)開放的問題。

        要從已有文獻(xiàn)中獲得新的研究內(nèi)容,首先需要從文獻(xiàn)集中發(fā)現(xiàn)隱含的聯(lián)系以形成科學(xué)假設(shè)。越來越多的文獻(xiàn)挖掘研究嘗試從文獻(xiàn)集構(gòu)建關(guān)聯(lián)知識網(wǎng)絡(luò),以便進(jìn)一步深入地挖掘新的關(guān)聯(lián)知識[2],而網(wǎng)絡(luò)的拓?fù)涮卣鲿谝欢ǔ潭壬嫌绊懢W(wǎng)絡(luò)的演化發(fā)展[3]。因此,本文主要基于文獻(xiàn)的知識發(fā)現(xiàn)模型,從關(guān)聯(lián)知識網(wǎng)絡(luò)的特征變化預(yù)測領(lǐng)域熱點(diǎn),并通過1種評價(jià)預(yù)測結(jié)果的方法驗(yàn)證其可預(yù)測性。

        1 研究設(shè)計(jì)

        基于文獻(xiàn)的知識發(fā)現(xiàn)(Literature-based Discovery, LBD)通過潛在的關(guān)聯(lián)挖掘推斷出新的科學(xué)假設(shè)。如果有兩類文獻(xiàn)集As和Cs,其中As討論了概念A(yù)和概念B之間的關(guān)系,而Cs討論了概念C和概念B之間的關(guān)系,但是沒有任何文獻(xiàn)討論概念A(yù)和概念C的關(guān)系,那么A與C之間通過B存在某種關(guān)系,這就可能是一個(gè)新的科學(xué)發(fā)現(xiàn)[4-5]。根據(jù)文獻(xiàn)知識發(fā)現(xiàn)理論模型,如果基于近期文獻(xiàn)集,從概念A(yù)能夠推斷出較多的新假設(shè),那么概念A(yù)很可能是近期文獻(xiàn)集呈現(xiàn)出的某個(gè)熱點(diǎn)主題,能衍生出大量新的研究內(nèi)容。

        1.1 關(guān)聯(lián)建模

        利用圖對關(guān)聯(lián)知識建模,是目前相關(guān)領(lǐng)域最常用的方法。通常一個(gè)簡單的無向無權(quán)網(wǎng)絡(luò),可記為G=(V ,E),其中集合 V 稱為節(jié)點(diǎn)集,V={V1,V2,…,Vn},集合E稱為邊集,E={e1,e2,…,em},任意一條邊對應(yīng)一個(gè)節(jié)點(diǎn)的二元組:ex=(Vi,Vj),E是V×V的一個(gè)子集。本文將文獻(xiàn)集中的內(nèi)容相關(guān)性轉(zhuǎn)化為基于關(guān)聯(lián)信息存在的圖結(jié)構(gòu)數(shù)據(jù)模型,即根據(jù)文獻(xiàn)中的概念實(shí)體及其關(guān)聯(lián)信息,對文獻(xiàn)中所蘊(yùn)含的知識進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)化,構(gòu)建文獻(xiàn)關(guān)聯(lián)知識網(wǎng)絡(luò)。在關(guān)聯(lián)知識網(wǎng)絡(luò)G=(V, E) 中,節(jié)點(diǎn)集V 是各種從生物醫(yī)學(xué)文獻(xiàn)中提取而來的實(shí)體的集合,如基因、蛋白質(zhì)、化合物或疾病等,邊集E 是實(shí)體之間的關(guān)聯(lián)集合。關(guān)聯(lián)知識網(wǎng)絡(luò)把文獻(xiàn)集中的知識以網(wǎng)絡(luò)形式表示出來,這既表示出知識之間的聯(lián)系,也過濾了冗余知識,為發(fā)現(xiàn)對象間的隱含關(guān)系提供了方便。本文基于句子共現(xiàn)提取實(shí)體關(guān)聯(lián)[6],用以進(jìn)行測試分析,基本過程如下。

        識別出句子的實(shí)體NP(Noun Phrase)及其位置。如果在同一個(gè)句子中得到的實(shí)體按其在句子中的順序依次為NP1、NP2、NP3,則得到關(guān)聯(lián)(NP1,NP2),(NP1,NP3),(NP2,NP3)。如文獻(xiàn)標(biāo)題(PMID: 20856896):β1-syntrophin modulation by miR-222 in mdx mice. 提取得到實(shí)體及其位置的列表為:[(β1-syntrophin modulation, 1),(miR-222, 4),(mdx mouse, 6)]

        進(jìn)一步得到關(guān)聯(lián):(β1-syntrophin modulation, miR-222 ),(β1-syntrophin modulation , mdx mouse),( miR-222, mdx mouse)

        將兩個(gè)實(shí)體首次共現(xiàn)的時(shí)間(年份),作為關(guān)系的T屬性。

        1.2 熱點(diǎn)建模

        給定關(guān)聯(lián)知識網(wǎng)絡(luò)G=(V,E),對于任意節(jié)點(diǎn)v∈V,定義其節(jié)點(diǎn)度的增長率為:

        其中dT為T時(shí)節(jié)點(diǎn)的度,即T時(shí)節(jié)點(diǎn)的所有關(guān)聯(lián)數(shù)量,且T1

        綜合來看,筆者更傾向于第一種浪形的劃分。因?yàn)閺臅r(shí)間和大周期結(jié)構(gòu)的角度來看,時(shí)間不支持走一輪完整的12345浪了。

        1.3 評價(jià)方法

        文獻(xiàn)知識發(fā)現(xiàn)的實(shí)施主要包括3個(gè)重要部分,分別是概念實(shí)體A、B和C的識別、關(guān)聯(lián)的抽取以及間接關(guān)聯(lián)的相關(guān)度計(jì)算,用戶輸入概念A(yù),計(jì)算A-B-C之間的關(guān)聯(lián)強(qiáng)度獲得按關(guān)聯(lián)強(qiáng)度由大到小的有序列表[7]。對于一個(gè)文獻(xiàn)知識發(fā)現(xiàn)系統(tǒng)來說,返回的候選結(jié)果的數(shù)量比較大時(shí),排在前面的結(jié)果通常是用戶最關(guān)心的。因此,給定每一個(gè)A-B-C間接關(guān)聯(lián),計(jì)算其(A-B-C)的一個(gè)分值SAC,利用SAC對所有候選結(jié)果集從大到小排序之后,在有序的結(jié)果列表中,確保排序靠前的多是全局關(guān)聯(lián)強(qiáng)度較好的結(jié)果,即只關(guān)注于分值最高的前L條關(guān)系鏈(A-B-C)的準(zhǔn)確度P(Precision),P越大效果越好。

        1.3.1 準(zhǔn)確率P的計(jì)算

        給定測試文獻(xiàn)數(shù)據(jù)集,將文獻(xiàn)數(shù)據(jù)集按時(shí)間分成訓(xùn)練集Ttrain和測試集Ttest,分別建立訓(xùn)練網(wǎng)絡(luò)G1=(N1,E1)和測試網(wǎng)絡(luò)G2=(N2,E2)。從N1中隨機(jī)選擇m個(gè)詞作為種子詞項(xiàng)集A,其中A取訓(xùn)練網(wǎng)絡(luò)與測試網(wǎng)絡(luò)中共同擁有的詞項(xiàng),即A∈N1∩N2。

        在訓(xùn)練網(wǎng)絡(luò)G1中,以種子集A中的節(jié)點(diǎn)為起點(diǎn)提取其間接節(jié)點(diǎn),得到間接節(jié)點(diǎn)集C,計(jì)算所有關(guān)系鏈(A-Btrain-C)的一個(gè)分值SAC,對結(jié)果集C按SAC值從大到小排序,取有序結(jié)果集CSorted中前L個(gè)詞項(xiàng),得到CSorted_TopL={c1,c2,…cL}。

        在測試網(wǎng)絡(luò)G2中,以種子節(jié)點(diǎn)集A中的節(jié)點(diǎn)為起點(diǎn)提取其直接關(guān)聯(lián)節(jié)點(diǎn),得到關(guān)聯(lián)節(jié)點(diǎn)集Btest。

        計(jì)算有序結(jié)果集CSorted前L個(gè)詞項(xiàng)集CSorted_TopL的準(zhǔn)確率P:

        其中CSorted_TopL∩Btest指CSorted_TopL和Btest的交集,即共同擁有的詞項(xiàng),|CSorted_TopL∩Btest|為交集的節(jié)點(diǎn)數(shù)量,|Btest|指Btest集的節(jié)點(diǎn)數(shù)量。

        為了驗(yàn)證熱點(diǎn)的可預(yù)測性,在Ttrain時(shí)期的訓(xùn)練集篩選近3年關(guān)聯(lián)增長率最大的前N個(gè)詞項(xiàng)作為熱點(diǎn)詞項(xiàng)集Ahot,同時(shí)隨機(jī)選取N個(gè)詞項(xiàng)作為隨機(jī)詞項(xiàng)集Arandom,分別作為種子詞項(xiàng)集,基于Ttest時(shí)期的測試集,計(jì)算與比較兩種情況下的準(zhǔn)確率Phot與Prandom。如果Phot顯著大于Prandom,說明Ahot詞項(xiàng)一定程度上表達(dá)了短期內(nèi)的熱點(diǎn)主題,如圖1所示。

        圖1 利用熱點(diǎn)詞項(xiàng)與隨機(jī)詞項(xiàng)預(yù)測新關(guān)聯(lián)的

        1.3.3 A-B-C間接關(guān)聯(lián)SAC的計(jì)算

        目前已有多種指標(biāo)用于評價(jià)A-B-C三者之間的關(guān)聯(lián)性[8]。本文選擇常用的絕對詞頻(Absolute Word Frequency,AWF)來計(jì)算A-B-C之間的潛在關(guān)聯(lián)性SAC,以輔助計(jì)算與比較準(zhǔn)確率Phot與Prandom,具體如下。

        SAC=min(w(A,B),w(B,C))

        其中,w(A,B)與w(B,C)分別為A與B、B與C的共現(xiàn)次數(shù)。

        2 數(shù)據(jù)實(shí)驗(yàn)

        2.1 數(shù)據(jù)準(zhǔn)備

        以關(guān)鍵詞“miRNA or MicroRNA”從PubMed中檢索得到51 118條結(jié)果,取標(biāo)題數(shù)據(jù),將數(shù)據(jù)集按時(shí)間分成訓(xùn)練集和測試集,分別建立訓(xùn)練網(wǎng)絡(luò)G1=(N1,E1)和測試網(wǎng)絡(luò)G2=(N2,E2)。以2012年為分開點(diǎn),2013-2015年的文獻(xiàn)數(shù)據(jù)作為Ttest測試集,2010-2012年作為訓(xùn)練集Ttrain。從訓(xùn)練集中隨機(jī)選取50個(gè)關(guān)鍵詞作為種子詞項(xiàng)Arandom,同時(shí)給定T2=2012,T1=2010,從訓(xùn)練集中選取50個(gè)近3年增長率最大的節(jié)點(diǎn)作為熱點(diǎn)節(jié)點(diǎn)Ahot。

        2.2 結(jié)果與討論

        取 L=0.1,0.2,0.3,…,1,即取有序結(jié)果集Csorted前10%、20%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的詞項(xiàng)時(shí),計(jì)算熱點(diǎn)詞項(xiàng)與隨機(jī)詞項(xiàng)的準(zhǔn)確率P的結(jié)果如圖2所示。

        圖2 L=0.1,0.2,… ,1.0時(shí)熱點(diǎn)詞項(xiàng)與隨機(jī)

        進(jìn)一步取靠前的區(qū)間,取 L=0.01,0.02,0.03,…,0.1,即取有序結(jié)果集Csorted前1%、2%、3%、4%、5%、6%、7%、8%、9%、10%的詞項(xiàng)時(shí),計(jì)算準(zhǔn)確率P的結(jié)果如圖3所示。

        圖3 L=0.01,0.02,…,0.1時(shí)熱點(diǎn)詞項(xiàng)與隨機(jī)詞項(xiàng)的準(zhǔn)確率P的比較

        綜合圖2、圖3的測試結(jié)果可以發(fā)現(xiàn),基于文獻(xiàn)知識發(fā)現(xiàn)模型,對結(jié)果集進(jìn)行關(guān)聯(lián)置優(yōu)排序,利用熱點(diǎn)詞項(xiàng)計(jì)算得到的準(zhǔn)確率Phot顯著高于由隨機(jī)詞項(xiàng)獲得的準(zhǔn)確率Prandom。這一方面說通過篩選節(jié)點(diǎn)度增長率大的詞項(xiàng),可以獲得更多的新關(guān)聯(lián),即度增長率大的節(jié)點(diǎn)在短期內(nèi)能衍生出較多的新研究內(nèi)容;另一方面說明,能夠在未來短期內(nèi)形成的大量新關(guān)聯(lián)都與節(jié)點(diǎn)度快速增長的詞項(xiàng)密切相關(guān)。因此,節(jié)點(diǎn)度快速增長的詞項(xiàng)在一定程度上能夠表達(dá)相關(guān)領(lǐng)域近期的熱點(diǎn)主題,即文獻(xiàn)知識網(wǎng)絡(luò)的節(jié)點(diǎn)度變化對領(lǐng)域熱點(diǎn)具有一定的預(yù)測作用。

        3 總結(jié)

        面對大數(shù)據(jù)時(shí)代知識獲取的需求與挑戰(zhàn),基于文獻(xiàn)的知識發(fā)現(xiàn)研究對完成從文獻(xiàn)到知識的轉(zhuǎn)化具有重要作用,已成為醫(yī)學(xué)情報(bào)分析與輔助科研的一種重要理論與方法。基于文獻(xiàn)的知識發(fā)現(xiàn)是一個(gè)啟發(fā)式的過程,如何保證在已有的文獻(xiàn)集中,篩選出更多更有效的潛在關(guān)聯(lián),仍是該領(lǐng)域研究的熱點(diǎn)問題之一。

        本文基于文獻(xiàn)知識發(fā)現(xiàn)模型,探討了文獻(xiàn)知識網(wǎng)絡(luò)中節(jié)點(diǎn)度變化對近期熱點(diǎn)的預(yù)測性,測試實(shí)驗(yàn)顯示度增長率大的節(jié)點(diǎn)在未來形成新關(guān)聯(lián)的準(zhǔn)確率顯著大于一般節(jié)點(diǎn),表明節(jié)點(diǎn)度變化對領(lǐng)域熱點(diǎn)具有一定預(yù)測性。在實(shí)際科研過程中,不同時(shí)期、不同領(lǐng)域都存在相應(yīng)的熱點(diǎn)內(nèi)容,準(zhǔn)確地識別領(lǐng)域前沿?zé)狳c(diǎn)是進(jìn)行情報(bào)跟蹤的基礎(chǔ)。如果在文獻(xiàn)知識發(fā)現(xiàn)具體實(shí)施過程中的種子概念實(shí)體取自于熱點(diǎn)主題,可以顯著提升知識發(fā)現(xiàn)準(zhǔn)確率和篩選效率,輔助科研人員獲得更多的科學(xué)假設(shè)。

        猜你喜歡
        詞項(xiàng)熱點(diǎn)關(guān)聯(lián)
        熱點(diǎn)
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        熱點(diǎn)
        車迷(2019年10期)2019-06-24 05:43:28
        自然種類詞項(xiàng)二難、卡茨解決與二維框架
        結(jié)合熱點(diǎn)做演講
        快樂語文(2018年7期)2018-05-25 02:32:00
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        熱點(diǎn)
        中國記者(2014年6期)2014-03-01 01:39:53
        英語詞項(xiàng)搭配范圍及可預(yù)見度
        依據(jù)語篇中多層次信息的句法分析方法
        大家(2011年9期)2011-08-15 00:45:37
        久久精品国产第一区二区三区| 国精品午夜福利视频不卡| 真实国产精品vr专区| 日本最新免费二区| 国产成人精品一区二区三区免费| 久久亚洲av成人无码国产| 国产精品公开免费视频| 成人免费777777被爆出| 欧美日韩亚洲国产精品| 亚洲国产美女精品久久| 青青草一级视频在线观看| 成人黄色片久久久大全| 亚洲国产综合久久天堂| 欧美村妇激情内射| 国产精一品亚洲二区在线播放| 午夜AV地址发布| 久久青青草原国产精品最新片| 人妻熟女妇av北条麻记三级| 精品熟女视频一区二区三区国产 | 亚洲不卡av一区二区三区四区| 国产精品亚洲av无人区一区香蕉| 国产又粗又猛又黄又爽无遮挡 | 97精品国产91久久久久久久 | 亚洲精品久久激情国产片| 精品国产一区av天美传媒| a在线观看免费网站大全| 成激情人妻视频| 久久精品国产亚洲av沈先生| 所有视频在线观看免费| 青青青爽在线视频观看| 国产精品一区二区久久精品| 99re国产电影精品| 亚洲av自偷自拍亚洲一区| 亚洲女优中文字幕在线观看| 成年免费视频黄网站zxgk| 国产成人一区二区三区免费观看| 国产精品毛片毛片av一区二区| 男人的天堂av网站| 日韩A∨精品久久久久| 国产亚洲曝欧美不卡精品| 亚洲精品一区二区三区在线观 |