亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本挖掘在基因組注釋中的應(yīng)用

        2017-03-21 10:50:06,
        關(guān)鍵詞:數(shù)據(jù)庫(kù)文本

        基因組注釋是指利用生物信息學(xué)方法對(duì)基因組中所有基因的生物學(xué)功能進(jìn)行高通量注釋,包括核苷酸級(jí)別的注釋、蛋白質(zhì)級(jí)別的注釋以及流程級(jí)別的注釋[1]。目前,常規(guī)的基因組注釋方法存在步驟過(guò)于繁瑣、需要借助高精尖設(shè)備、人工操作存在誤差、 “同源-功能相似”只是一種假說(shuō)、模體本身具有的層次性以及涉及的分析工具較多無(wú)法自動(dòng)化操作等問(wèn)題,得到的結(jié)果存在誤差[2]。隨著計(jì)算機(jī)技術(shù)的發(fā)展以及關(guān)于基因研究的生物醫(yī)學(xué)文獻(xiàn)數(shù)量的不斷增加,利用文本挖掘技術(shù)[3]對(duì)生物醫(yī)學(xué)文獻(xiàn)分析來(lái)實(shí)現(xiàn)對(duì)基因組注釋成為一種新的研究趨勢(shì)。

        1 材料和方法

        筆者利用WOS數(shù)據(jù)庫(kù)中的文獻(xiàn)作為研究的樣本來(lái)源,檢索策略為:TS=(gene annotation* OR genomic* annotation*) AND TS=(text mining OR literature mining),檢索時(shí)間為2016年10月19日,限定時(shí)間段在2000-2016年之間,得到328篇相關(guān)文獻(xiàn)。利用書目共現(xiàn)分析軟件BICOMB抽取相關(guān)文獻(xiàn)中的引文,選取出現(xiàn)頻次在15次及以上的引文,共得到16篇高被引論文(表1)。利用BICOMB構(gòu)建高被引論文——來(lái)源文獻(xiàn)矩陣(該矩陣可反映高被引論文在來(lái)源文獻(xiàn)中的分布情況),然后將詞篇矩陣導(dǎo)入聚類分析軟件gCluto中進(jìn)行高被引論文的同被引聚類分析。

        表1 328篇來(lái)源文獻(xiàn)中的高被引論文(n=16,f>=15)

        2 結(jié)果與分析

        將同被引聚類分析結(jié)果用可視化圖像表示,山峰圖見(jiàn)圖1,棋盤圖見(jiàn)圖2。圖1中16篇高被引論文根據(jù)其在328篇來(lái)源文獻(xiàn)中的被引情況可分成3個(gè)大類;圖2中行聚類是對(duì)于高被引論文的聚類,列聚類是對(duì)于來(lái)源文獻(xiàn)的聚類。圖2中行聚類結(jié)果也表明該16篇高被引論文可分為3類,表示文本挖掘技術(shù)在基因組注釋中的3個(gè)應(yīng)用方向。各大類對(duì)應(yīng)的高被引論文見(jiàn)表2。其中每個(gè)大類的內(nèi)容可根據(jù)該大類中包含的高被引論文及其間的樹(shù)狀關(guān)系進(jìn)行總結(jié),通過(guò)對(duì)每個(gè)大類對(duì)應(yīng)的列聚類中描述度較高的來(lái)源文獻(xiàn)(即每個(gè)類的類標(biāo)簽文獻(xiàn))的閱讀研究進(jìn)一步把握各大類的內(nèi)容。本文結(jié)合同被引論文聚類分析結(jié)果和各類中高被引論文,將文本挖掘技術(shù)在基因組注釋方面的應(yīng)用分為權(quán)威工具的使用、文本挖掘工具和算法的開(kāi)發(fā)、文本挖掘工具的檢驗(yàn)3類。

        圖1 高被引論文聚類分析的山峰圖

        圖2 高被引論文聚類分析的棋盤圖

        表2 3類對(duì)應(yīng)的高被引論文

        一是權(quán)威工具的使用。通過(guò)對(duì)Cluster 1中相關(guān)高被引文獻(xiàn)以及類標(biāo)簽文獻(xiàn)的分析,總結(jié)出在基因組注釋的相關(guān)研究中,收錄有基因組及基因產(chǎn)物相關(guān)序列、結(jié)構(gòu)或功能信息的數(shù)據(jù)庫(kù)和軟件工具以及與基因相關(guān)的受控詞匯表被廣泛利用,如京都基因和基因組百科全書(Kyoto Encyclopedia of Genomes, KEGG)[4-5]、一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)(The Unified Medical Language System, UMLS)[6-7]、基因本體(Gene Ontology, GO)[8]、基本局域聯(lián)配搜索工具(Basic Local Alignment Tool, BLAST)等。這些數(shù)據(jù)庫(kù)、軟件將已知的基因相關(guān)信息匯總、整理并組織起來(lái),提供給科研人員使用和查詢。Taniya T等人[9]在尋找特定復(fù)雜疾病新的候選基因的研究中利用了京都基因和基因組百科全書、基因本體以及其他一些數(shù)據(jù)庫(kù)中的信息來(lái)獲取與類風(fēng)濕性關(guān)節(jié)炎和前列腺癌相關(guān)的已知致病基因。

        然而這些數(shù)據(jù)庫(kù)或軟件工具中有些關(guān)于基因、蛋白質(zhì)等物質(zhì)的注釋信息基本依賴于專家人工從文獻(xiàn)集中獲得。隨著生物醫(yī)學(xué)科技文獻(xiàn)數(shù)量的增加以及用戶需求的增加,這種數(shù)據(jù)收集方法缺乏靈活性,其收錄信息的范圍也受到限制。因此從文獻(xiàn)中自動(dòng)提取信息的計(jì)算機(jī)算法被開(kāi)發(fā)出來(lái)作為人工開(kāi)發(fā)數(shù)據(jù)庫(kù)的補(bǔ)充,尤其是基因概念之間的關(guān)聯(lián)研究及應(yīng)用[10-11]。

        二是文本挖掘工具和算法的開(kāi)發(fā)。對(duì)Cluster 2中相關(guān)高被引文獻(xiàn)進(jìn)行分析,五篇高被引論文的研究方向都是對(duì)于文本挖掘工具的介紹,包括基因和蛋白質(zhì)等相關(guān)實(shí)體的識(shí)別工具[12-13]、基因共現(xiàn)網(wǎng)絡(luò)創(chuàng)建工具[14]、利用基因與蛋白作為鏈接點(diǎn)構(gòu)建文獻(xiàn)網(wǎng)絡(luò)的信息系統(tǒng)[15]等等。在此基礎(chǔ)上再對(duì)Cluster 2中的類標(biāo)簽文獻(xiàn)進(jìn)行分析,我們總結(jié)出在基因組注釋中,相關(guān)文本挖掘工具和算法的開(kāi)發(fā)與利用是文本挖掘技術(shù)在基因組注釋方面的一大重要應(yīng)用。

        在分子生物學(xué)及相關(guān)領(lǐng)域,大規(guī)模高通量實(shí)驗(yàn)技術(shù)的發(fā)展和生物信息學(xué)工具的使用產(chǎn)生了大量的數(shù)據(jù)并促進(jìn)了科學(xué)文獻(xiàn)的增長(zhǎng),但也使得許多顯性或隱性知識(shí)被掩蓋在文獻(xiàn)中難以被科研人員利用,這促進(jìn)了文本挖掘工具和算法的發(fā)展與利用[16]。通過(guò)Rodriguez-Esteban R等人[17]與Krallinger M等人[18]對(duì)于生物醫(yī)學(xué)領(lǐng)域文本挖掘技術(shù)的論述,我們可以總結(jié)出文本挖掘技術(shù)涉及到命名實(shí)體識(shí)別、關(guān)系檢測(cè)、知識(shí)發(fā)現(xiàn)等多個(gè)階段,在各個(gè)階段中都有相關(guān)的文本挖掘工具或應(yīng)用程序被開(kāi)發(fā)出來(lái)。比如在命名實(shí)體識(shí)別階段,有Whatizit系統(tǒng)(一個(gè)文本處理系統(tǒng),可以識(shí)別文本中的分子生物學(xué)術(shù)語(yǔ),并將其鏈接到公共可用的數(shù)據(jù)庫(kù)中)、ABNER程序(A Biomedical Named Entity Recognizer,生物醫(yī)學(xué)命名實(shí)體識(shí)別器,是一個(gè)可以識(shí)別蛋白質(zhì)、DNA、RNA、細(xì)胞系和細(xì)胞類型這五種術(shù)語(yǔ)的開(kāi)源軟件工具)等工具;在關(guān)系檢測(cè)階段,有MedGene(一種全面估計(jì)和總結(jié)Medline中所有人類基因——疾病關(guān)系相對(duì)強(qiáng)度的文本挖掘工具)等工具,并且基因本體和蛋白質(zhì)相互作用網(wǎng)絡(luò)也能分別展示相關(guān)基因、蛋白質(zhì)的親疏遠(yuǎn)近關(guān)系;在知識(shí)發(fā)現(xiàn)階段,有Arrowsmith(一個(gè)免費(fèi)的、基于公共網(wǎng)絡(luò)的兩節(jié)點(diǎn)搜索工具,允許用戶在PubMed中識(shí)別任何兩組文章集之間有生物學(xué)意義的連接)等工具。

        三是文本挖掘工具的檢驗(yàn)。對(duì)Cluster 0中相關(guān)高被引文獻(xiàn)進(jìn)行分析,6篇高被引論文中有5篇文獻(xiàn)的主要內(nèi)容是對(duì)于BioCreative(Critical Assessment of Information Extraction systems in Biology,生物學(xué)中信息提取系統(tǒng)的嚴(yán)格評(píng)價(jià))評(píng)估的描述[19-23],再結(jié)合對(duì)Cluster 0中描述度較高的類標(biāo)簽文獻(xiàn)的分析,發(fā)現(xiàn)文本挖掘在基因組注釋中的一大應(yīng)用是進(jìn)行文本挖掘競(jìng)賽以檢驗(yàn)各文本挖掘工具。

        在生物醫(yī)學(xué)領(lǐng)域,已有很多關(guān)于基因、蛋白等物質(zhì)的注釋數(shù)據(jù)庫(kù)被開(kāi)發(fā)。隨著生物醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)量的增長(zhǎng),依靠專家人工從文獻(xiàn)中提取有用信息策展相關(guān)數(shù)據(jù)庫(kù)在時(shí)間上已經(jīng)有很大的局限性,這促進(jìn)了生物醫(yī)學(xué)領(lǐng)域文本挖掘技術(shù)尤其是自然語(yǔ)言處理技術(shù)的發(fā)展,也使得BioCreative評(píng)估應(yīng)運(yùn)而生。 BioCreative評(píng)估建立于2004年,主要目的在于評(píng)估應(yīng)用于生物醫(yī)學(xué)領(lǐng)域的文本挖掘技術(shù)的最高水平。除此之外,該評(píng)估還促進(jìn)了相關(guān)數(shù)據(jù)庫(kù)開(kāi)發(fā)者與文本挖掘研究人員之間的交流,有利于自動(dòng)化的文本挖掘技術(shù)與人工策展相結(jié)合共同進(jìn)行數(shù)據(jù)庫(kù)的開(kāi)發(fā)。 從2004年開(kāi)始,BioCreative評(píng)估用來(lái)檢驗(yàn)各文本挖掘工具的任務(wù)多圍繞文獻(xiàn)中基因、蛋白質(zhì)等相關(guān)實(shí)體的提取、基因標(biāo)準(zhǔn)化、利用基因本體或蛋白質(zhì)相互作用網(wǎng)絡(luò)在全文中提取基因或蛋白質(zhì)的功能注釋等方面展開(kāi),在這期間還邀請(qǐng)文本挖掘工具最終用戶參與進(jìn)來(lái),加強(qiáng)文本挖掘工具解決生物醫(yī)學(xué)研究中實(shí)際問(wèn)題的能力[18,24-26]。

        3 討論

        本文通過(guò)對(duì)WOS中有關(guān)文本挖掘與基因組注釋的相關(guān)文獻(xiàn)的檢索、篩選、聚類和閱讀研究,發(fā)現(xiàn)文本挖掘技術(shù)在基因組注釋方面的應(yīng)用大致分為權(quán)威工具的使用、文本挖掘工具和算法的開(kāi)發(fā)、文本挖掘工具的檢驗(yàn)3方面。伴隨著生物醫(yī)學(xué)文獻(xiàn)量的不斷增加、高通量實(shí)驗(yàn)技術(shù)的不斷進(jìn)步以及科研人員對(duì)于信息提取工具需求的增加,相信會(huì)有越來(lái)越多的文本挖掘工具被開(kāi)發(fā)出來(lái)。與此同時(shí),隨著文本挖掘工具競(jìng)賽的舉辦,其研發(fā)會(huì)越來(lái)越貼近科研人員的現(xiàn)實(shí)需要。對(duì)于依靠人工從文本集中收集有用信息的數(shù)據(jù)庫(kù)等工具的研發(fā),未來(lái)的發(fā)展趨勢(shì)應(yīng)該會(huì)將文本挖掘技術(shù)整合進(jìn)相關(guān)開(kāi)發(fā)流程,更加依賴文本挖掘技術(shù)來(lái)提取信息以充實(shí)數(shù)據(jù)庫(kù)。當(dāng)然,除了在基因組注釋方面,文本挖掘技術(shù)在藥物重定位研究、藥物靶向位點(diǎn)研究等其他生物醫(yī)學(xué)領(lǐng)域也會(huì)發(fā)揮越來(lái)越重要的作用。

        猜你喜歡
        數(shù)據(jù)庫(kù)文本
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        综合人妻久久一区二区精品| 亚洲 欧美 日韩 国产综合 在线| 女人高潮内射99精品| 国产盗摄xxxx视频xxxx| 亚洲妇女水蜜桃av网网站| AV无码专区亚洲AVL在线观看| 一本久久伊人热热精品中文| 伊人青青草综合在线视频免费播放 | 日本一区二区三区四区在线看| 日本一二三四区在线观看| 视频一区视频二区制服丝袜| 中文无码一区二区不卡av| 日韩乱码人妻无码中文字幕视频 | 国产成人无码一区二区三区在线| 中文 国产 无码免费| 国产精品美女久久久久浪潮AVⅤ | 欧美性白人极品1819hd| 丰满多毛的大隂户毛茸茸| 国产在线不卡一区二区三区| 九九视频免费| 国产一区二区a毛片色欲 | 人妻少妇猛烈井进入中文字幕 | 亚洲人成网址在线播放| 国产成人精品三级麻豆| 亚洲五月激情综合图片区| 女同欲望一区二区三区| 一区二区三区内射美女毛片 | 黄色三级视频中文字幕| 午夜福利影院成人影院| 亚洲精品美女久久777777| 免费无码av片在线观看| 91精品国产无码在线观看| 那有一级内射黄片可以免费看| 久久久亚洲欧洲日产国码aⅴ| 亚洲精品成人网站在线观看 | 亚洲中文字幕在线一区| 精品无码国产自产拍在线观看| 激情内射亚州一区二区三区爱妻| 中文字幕天天躁日日躁狠狠| 在线观看国产av一区二区| 中国孕妇变态孕交xxxx|