亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文章發(fā)表時(shí)間對生物醫(yī)學(xué)文獻(xiàn)知識發(fā)現(xiàn)的影響

        2017-03-21 01:08:16,,,,
        關(guān)鍵詞:詞項(xiàng)生物醫(yī)學(xué)關(guān)聯(lián)

        , , ,,

        科技文獻(xiàn)是科研工作者獲取科學(xué)假設(shè)的重要途徑。如何更好地基于文獻(xiàn)進(jìn)行知識發(fā)現(xiàn),是未來知識服務(wù)的重要方向。傳統(tǒng)的檢索平臺能夠幫助用戶快速查找文獻(xiàn),但檢索的文獻(xiàn)數(shù)量龐大,要從候選文獻(xiàn)集中獲得有效的知識,費(fèi)時(shí)費(fèi)力?;谖墨I(xiàn)的知識發(fā)現(xiàn)研究通過間接關(guān)聯(lián)的挖掘來獲得科學(xué)假設(shè),影響間接關(guān)聯(lián)挖掘的因素研究是目前該領(lǐng)域的熱點(diǎn)之一。

        通過間接關(guān)聯(lián)的挖掘來獲得科學(xué)假設(shè),即如果A與B存在關(guān)聯(lián),同時(shí)B與C也存在聯(lián)系,得到A與C可能通過B存在間接聯(lián)系的假設(shè)[1]。目前生物醫(yī)學(xué)領(lǐng)域開發(fā)的一些文獻(xiàn)知識發(fā)現(xiàn)系統(tǒng),如Arrowsmith[2],F(xiàn)acta+[3],CoPub[4]等,具有較強(qiáng)的可操作性,但由于無法明確間接關(guān)聯(lián)的語義關(guān)系,導(dǎo)致混雜的候選關(guān)系數(shù)成指數(shù)遞增,從中篩選出真正有效的關(guān)系變得困難?,F(xiàn)有方法不斷強(qiáng)化對關(guān)聯(lián)的語義性評價(jià),而關(guān)聯(lián)性強(qiáng)弱只是影響發(fā)現(xiàn)用戶感興趣的特異性關(guān)聯(lián)的因素之一。研究文獻(xiàn)知識發(fā)現(xiàn)過程中影響間接關(guān)聯(lián)挖掘的因素,以便篩選出更多更有效的間接關(guān)聯(lián)。因此,本文利用PubMed的文獻(xiàn)數(shù)據(jù),分析不同時(shí)期的文獻(xiàn)在間接關(guān)聯(lián)挖掘中的作用,探討時(shí)間因素在生物醫(yī)學(xué)文獻(xiàn)知識發(fā)現(xiàn)過程中的影響,這對科研人員探索文獻(xiàn)知識發(fā)現(xiàn)關(guān)聯(lián)篩選的新方法具有重要意義。

        1 研究設(shè)計(jì)

        文獻(xiàn)知識發(fā)現(xiàn)的實(shí)施主要包括概念實(shí)體A、B和C的識別,關(guān)聯(lián)的抽取及間接關(guān)聯(lián)的相關(guān)度計(jì)算3個(gè)部分。對于一個(gè)文獻(xiàn)知識發(fā)現(xiàn)系統(tǒng)來說,用戶輸入概念A(yù),計(jì)算A-B-C之間的關(guān)聯(lián)強(qiáng)度,獲得按關(guān)聯(lián)強(qiáng)度由大到小排序的有序列表[5]。返回的候選結(jié)果的數(shù)量較大時(shí),排在前面的結(jié)果通常是用戶最關(guān)心的。因此,給定每一個(gè)A-B-C間接關(guān)聯(lián),計(jì)算其關(guān)聯(lián)性評價(jià)的分值SAC,利用SAC對所有候選結(jié)果集進(jìn)行排序,確保排序靠前的多是關(guān)聯(lián)性較好的結(jié)果,即只關(guān)注分值最高的靠前關(guān)聯(lián)集的準(zhǔn)確度P(Precision),P越大效果越好。

        為了探索文章發(fā)表時(shí)間對生物醫(yī)學(xué)文獻(xiàn)知識發(fā)現(xiàn)的影響,將給定文獻(xiàn)集按發(fā)表時(shí)間(年份)分成訓(xùn)練集Ttrain和Ttest(圖1),并在y12時(shí)間點(diǎn)將訓(xùn)練集Ttrain分成T1和T2兩部分(其中T1

        圖1 文獻(xiàn)集按時(shí)間劃分為訓(xùn)練集Ttrain和測試集Ttest

        1.1 關(guān)聯(lián)建模

        利用圖對關(guān)聯(lián)知識進(jìn)行建模,是目前相關(guān)領(lǐng)域最常用的方法。通常一個(gè)簡單的無向無權(quán)網(wǎng)絡(luò),可記為G=(V ,E),其中集合V稱為節(jié)點(diǎn)集,V={v1,v2,…,vn},集合E稱為邊集,E={e1,e2,…,em},任意一條邊對應(yīng)一個(gè)節(jié)點(diǎn)的二元組:ex=(vi,vj),E是V×V的一個(gè)子集。筆者根據(jù)文獻(xiàn)中的語義單元即概念實(shí)體及其關(guān)聯(lián),對文獻(xiàn)中蘊(yùn)含的知識進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)化,構(gòu)建文獻(xiàn)關(guān)聯(lián)知識網(wǎng)絡(luò)。因此,在生物醫(yī)學(xué)文獻(xiàn)關(guān)聯(lián)知識網(wǎng)絡(luò)G=(V,G)中,節(jié)點(diǎn)集V是從生物醫(yī)學(xué)文獻(xiàn)中提取的實(shí)體集合(如基因、蛋白質(zhì)、化合物或疾病等各類概念實(shí)體),邊集E 是實(shí)體之間來自文獻(xiàn)的信息關(guān)聯(lián)的集合。

        1.2 關(guān)聯(lián)提取

        基于句子共現(xiàn)的方法進(jìn)行實(shí)體關(guān)聯(lián)的提取[6],利用NLTK(www.nltk.org)自然語言處理包實(shí)現(xiàn)文獻(xiàn)文本處理與關(guān)聯(lián)提取(包括分詞、詞性標(biāo)注、分塊及名詞短語提取),并利用MeSH(Medical Subject Headings)醫(yī)學(xué)主題詞表輔助進(jìn)行詞干化,主要過程如下。

        識別出句子的實(shí)體NP(Noun Phrase)及其位置:

        如果在同一個(gè)句子中得到的實(shí)體按其在句子中的順序依次為NP1、NP2、NP3,則得到關(guān)聯(lián):(NP1,NP2),(NP1,NP3),(NP2,NP3)。

        例如,文獻(xiàn)標(biāo)題(PMID: 20856896):β1-syntrophin modulation by miR-222 in mdx mice.提取得到實(shí)體及其位置的列表為:

        [(β1-syntrophin modulation,1),(miR-222,4),(mdx mouse,6)]

        進(jìn)一步得到關(guān)聯(lián):(β1-syntrophin modulation,miR-222),(β1-syntrophin modulation,mdx mouse),( miR-222,mdx mouse)。

        在實(shí)體識別過程中,未對提取到的名詞詞項(xiàng)進(jìn)行語義限定與分類,即得到的關(guān)聯(lián)知識網(wǎng)絡(luò)不是一個(gè)由特定實(shí)體構(gòu)成的關(guān)聯(lián)網(wǎng)絡(luò),而是盡量收集文獻(xiàn)中出現(xiàn)的各類實(shí)體,以滿足通用性和覆蓋率的要求。雖然生物醫(yī)學(xué)文獻(xiàn)中出現(xiàn)的同義詞項(xiàng)、縮寫詞及實(shí)體識別算法本身的假陽性率會帶來一定的噪聲,但從總體富集的效果來觀察,不會影響結(jié)果的整體表現(xiàn)。

        1.3 間接關(guān)聯(lián)的評價(jià)

        目前已有多種指標(biāo)用于評價(jià)A-B-C三者之間的關(guān)聯(lián)性[7]。筆者選擇常用的絕對詞頻(Absolute Word Frequency,AWF)計(jì)算A-B-C之間的潛在關(guān)聯(lián)性SAC,以輔助比較不同時(shí)期文獻(xiàn)用于實(shí)施知識發(fā)現(xiàn)時(shí)的準(zhǔn)確率:

        SAC=min(w(A,B),w(B,C))

        其中,w(A,B)與w(B,C)分別為A與B、B與C的共現(xiàn)次數(shù)。

        1.4 計(jì)算準(zhǔn)確率

        給定測試文獻(xiàn)數(shù)據(jù)集,將文獻(xiàn)數(shù)據(jù)集按時(shí)間分成訓(xùn)練集和測試集,分別建立訓(xùn)練網(wǎng)絡(luò)G1=(N1,E1)和測試網(wǎng)絡(luò)G2=(N2,E2)。從N1中隨機(jī)選擇m個(gè)詞作為種子詞項(xiàng)集A,其中A取訓(xùn)練網(wǎng)絡(luò)與測試網(wǎng)絡(luò)中共同擁有的詞項(xiàng),即A∈N1∩N2。

        在訓(xùn)練網(wǎng)絡(luò)G1中,以種子集A中的節(jié)點(diǎn)為起點(diǎn)提取其間接節(jié)點(diǎn),得到間接節(jié)點(diǎn)集C,計(jì)算所有關(guān)系鏈(A-Btrain-C)的一個(gè)分值SAC。對結(jié)果集C按SAC值從大到小排序,取有序結(jié)果集CSorted中前L個(gè)詞項(xiàng),得到CSorted_TopL={c1,c2,…cL}。

        在測試網(wǎng)絡(luò)G2中,以種子節(jié)點(diǎn)集A中的節(jié)點(diǎn)為起點(diǎn)提取其直接關(guān)聯(lián)節(jié)點(diǎn),得到關(guān)聯(lián)節(jié)點(diǎn)集Btest。

        計(jì)算有序結(jié)果集CSorted前L個(gè)詞項(xiàng)集CSorted_TopL的準(zhǔn)確率P:

        其中,CSorted_TopL∩Btest指CSorted_TopL和Btest的交集即共同擁有的詞項(xiàng),|CSorted_TopL∩Btest|為交集的節(jié)點(diǎn)數(shù)量,|Btest|指Btest集的節(jié)點(diǎn)數(shù)量。

        2 數(shù)據(jù)測試

        2.1 數(shù)據(jù)準(zhǔn)備

        以關(guān)鍵詞“miRNA or MicroRNA”從PubMed中檢索得到51 118條結(jié)果,將標(biāo)題數(shù)據(jù)集按時(shí)間分成訓(xùn)練集和測試集,分別建立訓(xùn)練網(wǎng)絡(luò)G1=(N1,E1)和測試網(wǎng)絡(luò)G2=(N2,E2)。以2012年為分開點(diǎn),2013-2015年的文獻(xiàn)數(shù)據(jù)作為Ttest測試集,2003-2012年的文獻(xiàn)數(shù)據(jù)作為Ttrain訓(xùn)練集。其中將訓(xùn)練集以2009年為中間點(diǎn),2003-2009年作為T1時(shí)間段的訓(xùn)練集,2010-2012年作為T2時(shí)間段的訓(xùn)練集。從T1時(shí)間段訓(xùn)練集中隨機(jī)選取50個(gè)關(guān)鍵詞作為種子詞項(xiàng)A1,從T2時(shí)間段訓(xùn)練集中隨機(jī)選取50個(gè)關(guān)鍵詞作為種子詞項(xiàng)A2。

        此外,在計(jì)算T1時(shí)間段的準(zhǔn)確率時(shí),必須從Ttest中去除A1在T2時(shí)間段中已經(jīng)形成的關(guān)聯(lián),才能保證剩下的新關(guān)聯(lián)是在Ttest時(shí)期形成的。

        2.2 測試結(jié)果

        取L=0.1,0.2,0.3,…,1,即取有序結(jié)果集Csorted前10%、20%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%的詞項(xiàng)時(shí),計(jì)算T1和T2的準(zhǔn)確率P,結(jié)果如圖2所示。

        圖2 L=0.1,0.2,0.3,… ,1.0時(shí)T1和T2的準(zhǔn)確率P

        進(jìn)一步取靠前的區(qū)間,取 L=0.01,0.02,0.03,…,0.1,即取有序結(jié)果集Csorted前1%、2%、3%、4%、5%、6%、7%、8%、9%、10%的詞項(xiàng)時(shí),計(jì)算T1和T2的準(zhǔn)確率P,結(jié)果如圖3所示。

        圖3 L=0.01,0.02,0.03,…,0.1時(shí)T1和T2的準(zhǔn)確率P

        根據(jù)圖2與圖3的測試結(jié)果,觀察不同時(shí)期的文獻(xiàn)用于間接關(guān)聯(lián)挖掘時(shí)的表現(xiàn),發(fā)現(xiàn)由T2時(shí)期文獻(xiàn)獲得的準(zhǔn)確率顯著大于T1時(shí)期文獻(xiàn)所獲得的準(zhǔn)確率,即近期文獻(xiàn)集相比早期文獻(xiàn)集在知識發(fā)現(xiàn)時(shí)獲得的準(zhǔn)確率要高,表明文章發(fā)表時(shí)間對生物醫(yī)學(xué)文獻(xiàn)知識發(fā)現(xiàn)具有積極影響。因此,在實(shí)際文獻(xiàn)知識發(fā)現(xiàn)時(shí),科研人員多是基于特定領(lǐng)域文獻(xiàn)實(shí)施知識發(fā)現(xiàn)的研究,在間接關(guān)聯(lián)性評價(jià)過程中考慮時(shí)間因素,可以顯著提升知識發(fā)現(xiàn)工作的效率。此外,從整體上看,利用T1與T2時(shí)期的文獻(xiàn)集都未能獲得較高的準(zhǔn)確率,一方面是因?yàn)閷?shí)體抽取時(shí)未過濾那些寬泛概念,如“cell”“gene”“miRNA”等,這些概念存在大量的關(guān)聯(lián),但在具體關(guān)聯(lián)發(fā)現(xiàn)過程中無實(shí)際意義;另一方面,不同時(shí)間段內(nèi)相關(guān)領(lǐng)域都存在相應(yīng)的熱點(diǎn)研究內(nèi)容,種子詞的選擇對結(jié)果的準(zhǔn)確率影響很大,如果選擇熱點(diǎn)種子詞項(xiàng),會顯著提升準(zhǔn)確率。

        3 總結(jié)與討論

        面對大數(shù)據(jù)時(shí)代知識獲取的需求與挑戰(zhàn),基于文獻(xiàn)的知識發(fā)現(xiàn)研究對完成從文獻(xiàn)到知識的轉(zhuǎn)化具有重要作用,已成為醫(yī)學(xué)情報(bào)分析與輔助科研的一種重要理論與方法。筆者探討了時(shí)間因素在生物醫(yī)學(xué)文獻(xiàn)知識發(fā)現(xiàn)過程中對間接關(guān)聯(lián)挖掘的影響。從測試實(shí)驗(yàn)的結(jié)果來看,近期文獻(xiàn)比早期文獻(xiàn)在知識發(fā)現(xiàn)過程中獲得有效新關(guān)聯(lián)的效果要好,表明文章發(fā)表時(shí)間對生物醫(yī)學(xué)知識發(fā)現(xiàn)具有一定積極影響,即更新的文獻(xiàn)對下一步科研假設(shè)的形成具有非常重要的促進(jìn)作用。

        由于文獻(xiàn)知識發(fā)現(xiàn)是一個(gè)啟發(fā)式的過程,利用知識發(fā)現(xiàn)工具輔助科研時(shí)篩選出的關(guān)聯(lián)仍然是需要進(jìn)一步確證的假設(shè)。因此,在不斷提高文獻(xiàn)文本中實(shí)體及其關(guān)系提取質(zhì)量的同時(shí),間接關(guān)聯(lián)篩選的新方法探索變得越來越重要。研究時(shí)間因素在文獻(xiàn)知識發(fā)現(xiàn)過程中對間接關(guān)聯(lián)挖掘的作用,能為新方法的探索提供一種新視角、新思路,不失為一種積極而有意義的嘗試。

        猜你喜歡
        詞項(xiàng)生物醫(yī)學(xué)關(guān)聯(lián)
        芻議“生物醫(yī)學(xué)作為文化”的研究進(jìn)路——兼論《作為文化的生物醫(yī)學(xué)》
        靈長類生物醫(yī)學(xué)前沿探索中的倫理思考
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        自然種類詞項(xiàng)二難、卡茨解決與二維框架
        國外生物醫(yī)學(xué)文獻(xiàn)獲取的技術(shù)工具:述評與啟示
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        LED光源在生物醫(yī)學(xué)中的應(yīng)用分析
        英語詞項(xiàng)搭配范圍及可預(yù)見度
        依據(jù)語篇中多層次信息的句法分析方法
        大家(2011年9期)2011-08-15 00:45:37
        东京道一本热中文字幕| 91亚洲夫妻视频网站| 在线精品国产亚洲av麻豆| 粗大的内捧猛烈进出看视频| 国产欧美日韩一区二区三区在线| 久久精品亚洲中文无东京热| 亚洲天堂一二三四区在线 | 日本不卡高字幕在线2019| 国产精品国产三级国av在线观看| 国模私拍福利一区二区| 中文字幕成人精品久久不卡| 国产免费二区三区视频| 亚洲成在人线在线播放无码| 九九视频免费| 日韩精品成人一区二区在线观看| 亚洲精品国产精品乱码视色| 51国产黑色丝袜高跟鞋| 中文字幕不卡在线播放| 日韩av一区二区三区在线观看 | 看黄色亚洲看黄色亚洲 | 久久人妻少妇嫩草av| 亚洲av无码一区二区三区系列| 午夜国产精品久久久久| 亚洲av午夜福利精品一区不卡| 国内精品久久久人妻中文字幕| 久久99精品久久久久久野外 | 婷婷开心五月综合基地| 99久久婷婷国产亚洲终合精品| 国产三级精品三级在线观看| 欧美人成在线播放网站免费| 亚洲av区一区二区三区| 久久偷看各类wc女厕嘘嘘偷窃| 国产山东熟女48嗷嗷叫| 精品国产自拍在线视频| 国产色婷婷久久又粗又爽| 亚洲成av人在线观看天堂无码| 免费无码中文字幕A级毛片| 国产我不卡在线观看免费| 色五月丁香五月综合五月| yeyecao亚洲性夜夜综合久久| 激情一区二区三区视频|