亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網(wǎng)絡爬蟲和文本挖掘的實體關(guān)系研究與實現(xiàn)

        2016-06-08 06:48:56謝文彬
        現(xiàn)代計算機 2016年13期
        關(guān)鍵詞:文本信息

        謝文彬

        (同濟大學電子與信息工程學院,上海 201804)

        ?

        基于網(wǎng)絡爬蟲和文本挖掘的實體關(guān)系研究與實現(xiàn)

        謝文彬

        (同濟大學電子與信息工程學院,上海201804)

        摘要:

        關(guān)鍵詞:

        0 引言

        隨著科技不斷進步,越來越多的生物資源在網(wǎng)上發(fā)布,PubMed Central(PMC)[1]是一個免費的生物和生命科學文本全文數(shù)據(jù)庫。但是作為國外數(shù)據(jù),數(shù)據(jù)下載速度慢,能夠下載的資料并不是完整的PMC數(shù)據(jù),而且,僅僅只是下載原文,并不能給許多生物學者提供很多有價值的信息?,F(xiàn)在PMC數(shù)據(jù)庫中總計大約擁有380萬篇全文數(shù)據(jù),但是能夠通過FTP下載的文章只占到一半不到。其次,PMC自帶的搜索引擎并不能提供很好的實體關(guān)系搜索,例如要研究疾病和基因之間的關(guān)系。所以我們急需一種快捷有效的方法把生物學者所需的研究數(shù)據(jù)從網(wǎng)頁上下載下來,經(jīng)過預處理,成為本地可以批量處理的數(shù)據(jù),再通過本地的服務器對數(shù)據(jù)進行快速的搜索抽取工作。

        1 系統(tǒng)體系結(jié)構(gòu)

        文本挖掘的主要用途是從原本未經(jīng)處理的文本中提取出未知的知識,但是文本挖掘也是一項非常困難的工作,因為它必須處理那些本來就模糊而且非結(jié)構(gòu)化的文本數(shù)據(jù),所以它是一個多學科混雜的領(lǐng)域,涵蓋了信息技術(shù)、文本分析等技術(shù),而且在網(wǎng)絡時代,原始數(shù)據(jù)的獲取主要通過網(wǎng)絡途徑,所以在實際挖掘過程中,系統(tǒng)分為4個大模塊:

        1.1收集與實體相關(guān)的論文

        在PMC中,有官方網(wǎng)頁提供的搜索引擎(http:// www.ncbi.nlm.nih.gov/pmc/),通過該搜索引擎,可以先做粗篩選。例如研究基因和疾病的關(guān)系,可以在搜索欄中輸入“Gene Disease”,結(jié)果搜索到大約74萬的論文,這樣可以去除數(shù)據(jù)庫中大部分與研究對象無關(guān)的論文,然后使用網(wǎng)站提供的下載功能抽出這些論文的編號,作為URL的部分地址。

        1.2網(wǎng)絡爬蟲

        將上一步收集的網(wǎng)頁編號,根據(jù)PMC論文自帶的論文URL地址,http://www.ncbi.nlm.nih.gov/pmc/articles/ PMC3578923/,其中“3578923”替換成任意待抓取的文章。批量抓取所需要研究的論文。

        1.3數(shù)據(jù)處理與清洗

        將從網(wǎng)頁上爬取的XML格式的文本數(shù)據(jù)進行去標記語言,識別論文所具有的編號、題目、摘要、論文主題、作者、引用等信息,存入本地用于文本挖掘。

        1.4文本挖掘

        在文本挖掘中,預先準備好兩種實體的詞庫,例如基因詞庫,包括基因的編號,正式名字和同義名的信息。然后將論文切分成句子,搜索兩類實體是否同時出現(xiàn)在一個句子里,若有則抽取出來,并認為兩個實體間很可能有關(guān)系,最后在進行所需研究。

        圖1 系統(tǒng)基本結(jié)構(gòu)和工作流程

        2 關(guān)鍵技術(shù)和部分代碼

        2.1網(wǎng)絡爬蟲

        網(wǎng)絡爬蟲是捜索引擎抓取系統(tǒng)的重要組成部分。爬蟲的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地形成一個內(nèi)容的鏡像備份。該網(wǎng)絡爬蟲模塊以python為基礎(chǔ)語言,調(diào)用thread、urllib2和socket三個程序包,編寫網(wǎng)絡爬蟲。

        其中thread包的多線程爬取加速爬取速度,并且加入異常處理模塊,以下為部分代碼:

        2.2去標記語言

        使用正則表達式,去除無用標記語言,并識別XML網(wǎng)頁文件中所需信息,以下為部分代碼:

        2.3倒排索引

        在文本挖掘中,詞庫以字典作為存儲形式,每個疾病對應唯一編號和它的若干個疾病同義名。在查找句子中單詞所對應的疾病時,為了加速搜索,使用倒排索引記錄疾病詞庫信息。如表1,字典編號使用疾病的名字,對應的映射是疾病的編號。在檢索中,將字典按照名字排序,在使用二分查找對應疾病名字是否存在字典中,并找出對應編號。

        表1 疾病倒排索引存儲形式

        2.4停用詞表

        停用詞表包含了文章中的常用詞。例如表示數(shù)量的詞語,語氣詞等。這些詞不僅可能和研究實體重名,導致嚴重的檢索錯誤,更會加重我們的檢索負擔。在實際檢索中,系統(tǒng)會先確定單詞是否屬于停用詞表,若屬于則不檢索該詞。

        3 結(jié)果展示

        疾病詞庫從DiseaseOntology[2]中下載整理,總共8944個不同疾??;基因詞庫從NCBI(http://www.ncbi. nlm.nih.gov/gene/)中下載整理,總共29521個不同的基因,從PMC中抓取總共74萬多篇文獻。使用文本挖掘系統(tǒng)檢索,結(jié)果共有140813條句子同時包含基因和疾病名字。

        4 結(jié)語

        隨著網(wǎng)絡資源的不斷膨脹,社會越來越需要各種自動化的技術(shù)來去除有用的信息,收集有價值的信息,并提取信息中的規(guī)律造福人類,例如某些基因?qū)е履撤N疾病的產(chǎn)生。本文基于網(wǎng)絡爬蟲和文本挖掘的常用技術(shù),為生物科學家對于實體間關(guān)系的研究,例如基因和疾病,疾病和藥物,藥物和蛋白質(zhì)等各種關(guān)系,提供了便利的文本抽取方法。

        參考文獻:

        [1]Coordinators,N. R. "Database resources of the National Center for Biotechnology Information."[J]Nucleic Acids Res,2016 44(D1): D7-D19.

        [2]Schriml,LM;Arze,C;Nadendla,S;Chang,YW;Mazaitis,M;Felix,V;Feng,G;Kibbe,WA . Disease Ontology: a Backbone for Disease Semantic Integration.[J]. Nucleic Acids Research 40(Database issue)2012: D940-6.

        Research on Entity Relationship Based on Web Crawler and Text Mining

        XIE Wen-bin
        (School of Electronics and Information Engineering,Tongji University,Shanghai 201803)

        Abstract:

        Keywords:

        隨著網(wǎng)絡資源的不斷膨脹,有關(guān)生物文獻資源越來越多,生物學家急需各種自動化的技術(shù)從海量文獻中抽取有價值的信息?;诰W(wǎng)絡爬蟲和文本挖掘的技術(shù),設(shè)計研發(fā)一個用于挖掘網(wǎng)絡上電子版論文中實體關(guān)系的系統(tǒng),并且使用該系統(tǒng),成功挖掘有關(guān)疾病和基因的關(guān)系。

        網(wǎng)絡爬蟲;實體;文本挖掘;疾?。换?/p>

        文章編號:1007-1423(2016)13-0019-03

        DOI:10.3969/j.issn.1007-1423.2016.13.005

        作者簡介:

        謝文彬(1990-),男,江蘇蘇州人,碩士研究生,研究方向為文本挖掘與關(guān)系抽取

        收稿日期:2016-03-15修稿日期:2016-04-16

        With the continuous increase of web resource,more and more document resource emerges,biologists are urgent to get valuable information from huge document by using a variety of automatics technique. Based on the development of web crawler and text mining,designs a novel system to excavate the entity relationship among electronic papers on the internet and apply successfully such system to catch the relation between disease and gene.

        Web Crawler;Entity;Text Mining;Disease;Gene

        猜你喜歡
        文本信息
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        97一区二区国产好的精华液| 精品人妻久久一区二区三区| 国产一区二区三区四区三区| 国产高颜值大学生情侣酒店| 久久这里只有精品9| 亚洲每天色在线观看视频| 人妻精品一区二区三区蜜桃| 国产又大又黑又粗免费视频| 亚洲精品成人网站在线观看 | 亚洲AV无码乱码1区久久| 蜜桃视频网站在线免费观看| 亚洲一区二区三区,日本| 香蕉人人超人人超碰超国产 | 国产av无码专区亚洲awww| 麻豆五月婷婷| 日本高清人妻一区二区| 欧美日本精品一区二区三区| 婷婷色中文字幕综合在线| 女同中的p是什么意思| 中文字幕人妻av四季| 美国少妇性xxxx另类| 天天躁日日躁狠狠躁av中文| 国产亚洲视频在线观看播放| av免费资源在线观看| 亚洲人成77777在线播放网站| 中文字幕日韩高清| 国产黄三级三级三级三级一区二区 | 亚洲av无码不卡久久| 一区二区三区婷婷在线| 在线观看一区二区蜜桃| 成人乱码一区二区三区av| 亚洲精品成人专区在线观看| 中文字幕日本韩国精品免费观看| 亚洲国产中文字幕视频| 四川少妇大战4黑人| 久久dvd| 91精品久久久老熟女91精品 | 国产亚洲精久久久久久无码| 亚洲av网一区天堂福利| 亚洲乱码中文字幕在线| 国内精品久久久久久中文字幕|