亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關于全基因組關聯(lián)研究的自動化元分析初探

        2017-06-05 15:16:31冀燃李冬果張大保
        中國醫(yī)療設備 2017年5期
        關鍵詞:分析信息研究

        冀燃,李冬果,張大保

        首都醫(yī)科大學 生物醫(yī)學工程學院,北京 100069

        關于全基因組關聯(lián)研究的自動化元分析初探

        冀燃,李冬果,張大保

        首都醫(yī)科大學 生物醫(yī)學工程學院,北京 100069

        隨著自然語言分析、文本挖掘等技術高速發(fā)展,元分析中數(shù)據(jù)提取工作逐漸從人工手動提取向計算機自動提取轉變。本文以基因關聯(lián)研究(Genome-Wide Association Study,GWAS)研究為例,通過預先對納入研究中感興趣的數(shù)據(jù)元素進行定位并明確注意事項,來制定元分析的數(shù)據(jù)自動提取策略方案,使計算機通過搜索少量文獻即可快速準確地提取完整的研究數(shù)據(jù)。以阿爾茲海默疾病的GWAS研究的元分析為例,將納入的研究按照上文提出的方法進行搜索并提取數(shù)據(jù)。結果顯示,本研究有效縮短了搜索、提取數(shù)據(jù)的時間,同時提取數(shù)據(jù)的成功率和準確度可以保持在90%以上。本文為GWAS研究自動提取數(shù)據(jù)提供了一種有效的策略和向導作用,對于元分析向大數(shù)據(jù)時代發(fā)展有著推進作用。

        基因關聯(lián)研究;元分析;數(shù)據(jù)定位;數(shù)據(jù)提??;單核苷酸多態(tài)性

        引言

        元分析作為循證醫(yī)學的重要研究方法,是基因關聯(lián)研究(Genome-Wide Association Study,GWAS)中必不可少的一部分[1],發(fā)現(xiàn)并確定了成千上萬個單核苷酸多態(tài)性(Single Nucleotide Polymorphism,SNP)和疾病之間的關聯(lián)。GWAS元分析需要從上篇GWAS文獻中篩選合適的研究,通過提取、儲存、處理海量的高通量數(shù)據(jù),得到和疾病相關聯(lián)的SNP[2]。

        由于GWAS元分析需要收集所有的研究數(shù)據(jù),數(shù)據(jù)提取需要花費大量時間和精力[3-4]。由于研究人員數(shù)量、精力和時間有限,手動提取數(shù)據(jù)常出現(xiàn)部分數(shù)據(jù)丟失或提取錯誤,從而導致元分析中有價值的信息減少、可信區(qū)間變寬、檢驗效能降低、假陽性率和假陰性率的上升等問題,這對于GWAS元分析的研究準確性影響較大[5]。因此,元分析的數(shù)據(jù)自動提取的研究就顯得格外重要。數(shù)據(jù)自動提取是利用深度學習、大數(shù)據(jù)分析、自然語言分析及文本挖掘等技術手段,用計算機代替人工自動檢索海量文獻并提取數(shù)據(jù),通過處理、判斷文獻內容,來定位、提取感興趣數(shù)據(jù)[6]。GWAS數(shù)據(jù)分別來源于文獻正文,補充材料部分(Supplementary)以及特殊數(shù)據(jù)庫如基因型和表型庫(the Database of Genotypes and Phenotypes,dbGap);如果沒有提前制定好提取策略,計算機將無法提取到所需要的全部有用數(shù)據(jù),這會導致提取數(shù)據(jù)的偏倚。因此在數(shù)據(jù)自動提取之前需要進行數(shù)據(jù)元素定位,確定提取策略及明確提取時的注意事項,可以有效避免“地毯式搜索”,大大縮短提取數(shù)據(jù)的時間并提高數(shù)據(jù)提取的準確率。

        本文旨在幫助研究人員利用自然語言分析,快速準確地自動提取文獻數(shù)據(jù),提供數(shù)據(jù)信息在GWAS文章中的定位和提取數(shù)據(jù)時的注意事項,并提出合理的自動提取數(shù)據(jù)策略,為元分析自動采集數(shù)據(jù)的發(fā)展提供參考;并以阿爾茲海默病的GWAS元數(shù)據(jù)分析描述阿爾茲海默病的GWAS數(shù)據(jù)檢索和篩選過程、提取策略及提取數(shù)據(jù)的存儲方法。

        1 材料與方法

        1.1 文獻檢索和篩選

        在PubMed研究平臺上搜索“阿爾茲海默癥全基因關聯(lián)研究”。PubMed上的檢索策略是“((GWAS[TitleAbstract]) OR Genome-Wide Association study[TitleAbstract]) AND Alzheimer’s disease[TitleAbstract]”。

        排除標準:① 非GWAS相關文獻;② 非研究阿爾茲海默癥的相關文獻;③ 單純的元分析或Replication研究;④ 非large scale研究;⑤ 沒有用回歸分析作為結果的文獻;⑥ 非case-control研究的文獻。

        1.2 數(shù)據(jù)提取

        以往元分析中提取數(shù)據(jù)時需要利用自然語言分析、文本挖掘等方法處理文本中的每一句話并從中判斷是否有感興趣的數(shù)據(jù)元素。在GWAS元分析中,需要提取的數(shù)據(jù)主要分為3個類型,第1類是文章信息,包括study ID和發(fā)表信息;第2類是樣本信息,包括疾病表型、樣本量以及DisRep;第3類數(shù)據(jù)是基因多態(tài)性信息,包括SNP ID、minormajor allele、casecontrol MAF、比值比、P值、置信區(qū)間。

        1.2.1 文獻信息和樣本信息的自動提取策略和注意事項

        (1)study ID:指的是每個研究的ID,由“第一作者的last name”+“et al.”組成。

        (2)發(fā)表信息: DOI code,在文檔首頁搜索“DOI”并提取后面的代碼。

        (3)疾病表型:指的是采集疾病樣本的表型,如:發(fā)病年齡、性別、嚴重程度等。計算機按照Abstract、Conclusion部分或者文獻補充材料里面的Study samples或者Subjects部分依次進行搜索。注意重點搜索包含case control信息的語句。

        (4)casecontrol樣本量:指的是研究納入的case control樣本個數(shù)。搜索策略和疾病表型一樣。

        (5)DisRep:用來區(qū)分樣本是用于discovery研究還是replication研究,分別用Dis和Rep表示,通常情況下我們從Abstract中獲得:如果語句中包含一個樣本信息和關鍵詞“discovery”,則這個樣本被當做Dis;如果包含“replication”,則被標記為Rep;或最先搜索到的casecontrol樣本默認為Dis,之后再搜索到的樣本都是Rep;如果文章只包含一個樣本的信息且沒有包含任何關鍵詞,則這個樣本默認為Dis。如果Abstract中搜索不到,則在正文中的Subjects或Samples部分可以得到。

        1.2.2 SNP信息中各數(shù)據(jù)元素提取

        SNP信息往往統(tǒng)一放置在正文或補充材料的表格中,計算機自動提取數(shù)據(jù)時應該直接搜索這些表格。而對于沒有表格和補充材料的文獻,則應該搜索Results中包含下列數(shù)據(jù)元素的語句。

        (1)SNP ID:指的是NCBI的dpSNP提供的“reference SNP ID”,即rs#;需要注意有些文獻的SNP ID有上標,需要計算機能識別上標并剔除。

        (2)minormajor allele:指的是在某一群體中具有最小最大出現(xiàn)頻率的等位基因(都超過5%)。

        (3)casecontrol MAF:指的是casecontrol樣本中的最小等位基因頻率。

        (4)比值比(Odds Ratio,OR):有些文獻提供了OR,也有些文獻提供了log(OR),本文中統(tǒng)一使用log(OR),此時需要計算機加以區(qū)分并計算log(OR)。

        (5)P值:GWAS研究最基礎的數(shù)據(jù)。

        (6)置信區(qū)間(Conf i dence Interval,CI):用于計算標準誤并分配文獻權重。

        2 結果

        2.1 文獻檢索和篩選

        按照文獻檢索策略[7-16],從PubMed上檢索到了320篇文獻;再經過納入文獻標準的篩選,見圖1,共獲得納入文獻10篇。

        2.2 數(shù)據(jù)提取

        對于每一個研究,按照提取策略,從原始研究的發(fā)表文獻和Supplementary Material中搜索需要的數(shù)據(jù)元素。

        圖1 納入文獻篩選流程圖

        以L ambert et al研究為例,其數(shù)據(jù)提取結果見表1。在Lambert et al中,文獻信息按照策略直接得到。通過搜索Abstract中的第2句可以確定文章的第1個樣本的樣本量和表型;再搜索第3句話可以確定文章的第2個樣本的樣本量和表型;搜索完Abstract之后發(fā)現(xiàn)只能確定這兩個樣本且沒有關鍵詞,按照先后順序認定第1個樣本是Dis而第2個是Rep。按照SNP信息提取策略在正文中的Table 1和Table 3 以及Supplementary Material中的Table 1和Table 2提取到SNP的各項數(shù)據(jù)元素。

        其他納入文獻按照相同的數(shù)據(jù)提取策略提取數(shù)據(jù),結果見表2。10篇文獻中,Naj et al是由于正文的排版沒有區(qū)分各部分,無法按照策略定位,只能全文搜索。在Coon et al中,正文里沒有SNP信息的表格,只能從Results中搜索。其比值比數(shù)據(jù)既不在表格也不在Results中,通過全文搜索在Conclusion中找到了比值比的數(shù)據(jù)。從表2中可以看出,按照上述數(shù)據(jù)自動提取策略來搜索數(shù)據(jù)元素可以保證90%以上的成功率,不僅文獻中出現(xiàn)的數(shù)據(jù)能被準確地定位并提取,同時對于文獻中沒有出現(xiàn)的數(shù)據(jù),按照提取策略和注意事項,提取結果也為空值,這說明本研究策略不僅能大大縮短提取數(shù)據(jù)時所花費的時間,還能保證提取數(shù)據(jù)的成功率和準確度。

        在3類數(shù)據(jù)信息中,文獻信息是最容易提取的,因為在文章中的定位通常很固定;樣本信息的定位分布相對集中在Abstract和Methods中,但仍有可能需要搜索全文的每一句話。SNP信息的定位最為復雜,因為其中包括的數(shù)據(jù)元素最多,分布的特殊情況也最多,具體分布見圖3。例如比值比和P值數(shù)據(jù),不僅在正文和Supplementary的表格中可以得到,還需要搜索Results和Conclusion中的每一句話,才能提取完整的數(shù)據(jù)。這種“藏匿數(shù)據(jù)”的情況對數(shù)據(jù)自動提取的影響最大,因為如果沒有提前考慮到所有類似的特殊情況并制定相應的策略,則很有可能會丟失這些關鍵的數(shù)據(jù),也就失去了數(shù)據(jù)自動提取的意義,而這也是這篇文章想解決的。對于文獻根本沒有提及的數(shù)據(jù)元素,比如標準誤數(shù)據(jù)和allele數(shù)據(jù),不會將錯誤提取其他數(shù)據(jù)。這說明上述策略不僅可以幫助計算機準確地提取既存數(shù)據(jù),也可以對沒有報道的數(shù)據(jù)元素做出正確的操作。

        表1 Lambert et al研究的數(shù)據(jù)定位及數(shù)據(jù)提取結果

        表2 納入文獻數(shù)據(jù)提取的成功比例和失敗原因

        3 討論

        本文提出GWAS研究數(shù)據(jù)自動提取的策略,可以有效地縮短搜索、提取數(shù)據(jù)所花費的時間。但僅通過提前定位各數(shù)據(jù)元素的位置,沒有考慮數(shù)據(jù)被“藏匿”的情況,如Coon et al中,文章沒有用表格,而是把SNP信息放在Results和Conclusion中,需要逐字逐句地搜索;再比如Tan et al中的發(fā)表信息DOI code被藏匿在這篇文章的網址中,如果按照策略將無法正確提取。因此還需要進一步發(fā)現(xiàn)更多信息被藏匿的情況并作出更合理的數(shù)據(jù)自動提取的策略。

        圖3 SNP信息在文中定位的分布

        對于排版沒有區(qū)分各部分的文獻,需要首先作出判斷并直接搜索全文。因為本文提出的策略的原理就是基于提前對數(shù)據(jù)元素在文章中各部分進行定位,再按照不同的情況提取、綜合數(shù)據(jù)信息,所以對于像Naj et al這樣的文獻,需要直接搜索全文并不需要提前定位。

        除此之外,對于分布相對分散的信息,尤其是SNP信息,搜索到關鍵句或關鍵詞之后,如何將多個從文章不同位置提取出的信息綜合起來得到最終的數(shù)據(jù)信息,是需要進一步考慮的重要問題。如何區(qū)分哪些數(shù)據(jù)對應著哪個樣本對我們來說至關重要,這直接影響到數(shù)據(jù)提取的準確度,因此這個問題急需解決。

        4 結論

        本文是一篇針對計算機自動提取GWAS研究數(shù)據(jù)用于元分析的文章。本文中提出了通過提前定位各項元分析所需要的數(shù)據(jù)元素在研究文獻中的位置來幫助計算機快速準確地提取數(shù)據(jù)的策略;之后通過阿爾茲海默癥的GWAS元分析為例,對每一篇納入研究按照提出的策略搜索并提取數(shù)據(jù),總結了提取數(shù)據(jù)的結果;結果顯示設計的提取策略有效縮短了搜索、提取數(shù)據(jù)的時間,同時成功率和準確度也有所提高,基本保持在90%以上。本研究為自動提取數(shù)據(jù)提供有效的提取策略和向導作用,這對于元分析向大數(shù)據(jù)時代發(fā)展有著推進作用。

        [1] Nakaoka H,Inoue I.Meta-analysis of genetic association studies: methodologies[J].J Hum Genet,2009,54(11):615-623.

        [2] Jeck WR,Siebold AP,Sharpless NE.A meta-analysis of GWAS and age-associated diseases[J].Aging,2012,11(5):727-731.

        [3] E lmar P,Diego FT,Paolo B.H igh performance solutions for bigdata GWAS[J].Parallel Comput,2014,42:75-87.

        [4] Jonnalagadda SR,Goyal P,Huffman MD.Automating data extraction in systematic reviews: a systematic review[J].Syst Rev,2015,4(1):78.

        [5] Zeggini E,Ioannidis JP.Meta-analysis in genome-wide association studies[J].Pharmacogenetics,2016,10(2):191-201.

        [6] Nath C,Albaghdadi MS,Jonnalagadda SR.A natural language processing tool for large-scale data extraction from echocardiography reports[J].PLoS One,2016,28,11(4):e0153749.

        [7] Abraham R,Moskvina V,Sims R,et al.A genome-wide association study for late-onset Alzheimer’s disease using DNA pooling[J]. BMC Med Genomics,2008,1(1):44.

        [8] Beecham GW,Martin ER,Li YJ,et al.Genome-wide association study implicates a chromosome 12 Risk locus for late-onset Alzheimer disease[J].Am J Hum Genet,2009,84(1):35-43.

        [9] Coon KD,Myers AJ,Craig DW,et al.A high-density whole-genome association study reveals that APOE is the major susceptibility gene for sporadic late-onset Alzheimer’s disease[J].J Clin Psychiatry, 2007,68(4):613-618.

        [10] Grupe A,Abraham R,Li Y,et al.Evidence for novel susceptibility genes for late-onset Alzheimer’s disease from a genome-wide association study of putative functional variants[J].Hum Mol Genet,16(8):865-873.

        [11] Hirano A,Ohara T,Takahashi A,et al.A genome-wide association study of late-onset Alzheimer’s disease in a Japanese population[J]. Psychiatr Genet,2015,25(4):139-146.

        [12] Hu X,Pickering E,Liu YC,et al.Meta-analysis for genomewide association study identif i es multiple variants at the BIN1 locus associated with late-onset Alzheimer’s disease[J].PLoS One,2011,6(2):e16616.

        [13] Lambert JC,Heath S,Even G,et al.Genome-wide association study identifies variants at CLU and CR1 associated with Alzheimer’s disease[J].Nat Genet,2009,41(10):1094-1099.

        [14] Miyashita A,Koike A,Jun G,et al.SORL1 is genetically associated with late-onset Alzheimer’s disease in japanese, koreans and caucasians[J].PLoS One,2013,8(4):e58618.

        [15] Naj AC,Jun G,Beecham GW,et al.Common variants in MS4A4/ MS4A6E, CD2uAP, CD33, and EPHA1 are associated with lateonset Alzheimer’s disease[J].Nat Genet,2011,43(5):436-441.

        [16] Tan L,Yu JT,Zhang W,et al.Association of GWAS-linked loci with late-onset Alzheimer’s disease in a northern Han Chinese population[J].Alzheimers Dement,2013,9(5):546-553.

        本文編輯 蘇欣

        Exploring Automated Meta Analyses of Genome-Wide Association Studies

        JI Ran, LI Dong-guo, ZHANG Da-bao

        School of Biomedical Engineering, Capital Medical University, Beijing 100069, China

        With the rapid development of natural language processing and text mining technology, the step of extracting data from literature began changing from manual extraction to automation by computer. In the past cases, researchers searched entire articles sentence by sentence to looking for key words or key sentences. But the thorough searching without focus points wasted much time. In thispaper, we took genome-wide association study (GWAS) as the example to develop the strategies of data automatics extraction for meta-analysis through clearing the positions of data elements we cared about in the included studies in advance to help computers extract the complete data quickly and accurately by searching only parts of the literature. At the same time, we used a GWAS study about Alzheimer’s disease as a case study to search and extract data from all the included studies according to the strategies that we developed. Results showed that our strategies not only shortened the time of extraction, but also kept the success rate and accuracy more than 90%. Our research provided effective strategies and a guide for the research of automatic extraction of GWAS data, which has a promoting effect on the development of meta-analysis to the big data era.

        genome-wide association study; meta-analysis; data location; data automatics extraction; single nucleotide polymorphism

        Q789

        A

        10.3969/j.issn.1674-1633.2017.05.001

        1674-1633(2017)05-0001-05

        2017-03-21

        科技部“973”項目(2014CB744604);北京市教委科技計劃面上項目(KM201010025004;KM201410025013);北京市腦重大疾病研究院基金項目(BIBDPXM2014_014226_000016)。

        張大保,教授。

        通訊作者郵箱:zhangdb@purdue.edu

        猜你喜歡
        分析信息研究
        FMS與YBT相關性的實證研究
        遼代千人邑研究述論
        隱蔽失效適航要求符合性驗證分析
        視錯覺在平面設計中的應用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        av高清在线不卡直播| 国产精品女同一区二区软件| 国产av剧情精品麻豆| 好看的日韩精品视频在线| 99久久国产精品网站| 国产性生交xxxxx无码| 亚洲国产精品成人无码区| 女人被做到高潮免费视频| 中字无码av电影在线观看网站 | 东方aⅴ免费观看久久av| 欧美z0zo人禽交欧美人禽交| 中文字幕亚洲综合久久菠萝蜜| 国内精品人人妻少妇视频| 久久亚洲综合亚洲综合| 91精品国产综合久久久密臀九色| 人妻少妇-嫩草影院| 成人午夜视频精品一区| 国产欧美一区二区精品仙草咪| 91久久精品国产91久久| 在线观看一区二区女同| 久久伊人网久久伊人网| 亚洲精品美女中文字幕久久| 中文字幕亚洲乱码熟女1区 | 日韩人妻无码精品久久| 亚洲精品国产第一区二区尤物 | 四虎国产精品免费久久麻豆| 61精品人妻一区二区三区蜜桃| 日本啪啪视频一区二区| 热99re久久精品这里都是精品免费| 日本japanese丰满多毛| 中文字幕美人妻亅u乚一596| 国产在线观看黄| 久久中文字幕av第二页| 在线观看视频日本一区二区| 免费视频成人片在线观看| 人妻少妇精品视频一区二区三区 | 欧美性猛交99久久久久99按摩 | 久久精品成人无码观看不卡| 推油少妇久久99久久99久久| 网红极品女神精品视频在线| 国产人妻久久精品二区三区老狼 |