亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        生物審編組織管理模式及證據(jù)源質(zhì)量控制和評(píng)價(jià)*

        2020-06-03 01:38:56凌鋆超李禎祺張國慶
        關(guān)鍵詞:數(shù)據(jù)庫生物文本

        蘇 燕 凌鋆超 李禎祺 張國慶 徐 萍

        (中國科學(xué)院上海生命科學(xué)信息中心/中國科學(xué)院上海營養(yǎng)與健康研究所/中國科學(xué)院上海生命科學(xué)研究院 上海 200031)(中國科學(xué)院計(jì)算生物學(xué)重點(diǎn)實(shí)驗(yàn)室/中國科學(xué)院馬普學(xué)會(huì)計(jì)算生物學(xué)伙伴研究所生物醫(yī)學(xué)大數(shù)據(jù)中心/中國科學(xué)院上海營養(yǎng)與健康研究所/中國科學(xué)院上海生命科學(xué)研究院 上海 200031)中國科學(xué)院上海生命科學(xué)信息中心/中國科學(xué)院上海營養(yǎng)與健康研究所/中國科學(xué)院上海生命科學(xué)研究院 上海 200031)(中國科學(xué)院計(jì)算生物學(xué)重點(diǎn)實(shí)驗(yàn)室/中國科學(xué)院馬普學(xué)會(huì)計(jì)算生物學(xué)伙伴研究所生物醫(yī)學(xué)大數(shù)據(jù)中心/中國科學(xué)院上海營養(yǎng)與健康研究所/中國科學(xué)院上海生命科學(xué)研究院 上海 200031)(中國科學(xué)院上海生命科學(xué)信息中心/中國科學(xué)院上海營養(yǎng)與健康研究所/中國科學(xué)院上海生命科學(xué)研究院 上海 200031)

        1 引言

        隨著生物醫(yī)學(xué)研究的飛速發(fā)展,生物醫(yī)學(xué)數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)增長。如何將海量異構(gòu)數(shù)據(jù)收集整理成規(guī)范統(tǒng)一、高質(zhì)量、可高效利用的知識(shí)成為亟待解決的問題。生物審編作為提升數(shù)據(jù)價(jià)值的重要方式,已經(jīng)被國際大型公共和商業(yè)生物醫(yī)學(xué)數(shù)據(jù)庫廣泛使用。國際生物審編學(xué)會(huì)將生物審編定義為:將生物相關(guān)信息轉(zhuǎn)化集成到數(shù)據(jù)庫或數(shù)據(jù)資源中,同時(shí)整合科學(xué)文獻(xiàn)和大數(shù)據(jù)集,準(zhǔn)確全面地描述生物知識(shí),便于科研人員獲取相關(guān)信息以及利用計(jì)算機(jī)進(jìn)行數(shù)據(jù)分析,包括從雜亂數(shù)據(jù)集中提取和組織生物學(xué)和臨床數(shù)據(jù),錄入到一個(gè)用戶友好的數(shù)據(jù)庫中。生物審編的發(fā)展歷程,見圖1。經(jīng)審編的數(shù)據(jù)一方面成為科研人員重要的參考資源,另一方面已被大規(guī)模用于文本挖掘或信息學(xué)分析,如生物信息學(xué)、神經(jīng)信息學(xué)、衛(wèi)生信息學(xué)等[1]。

        圖1 生物審編發(fā)展歷程

        2017年3月歐洲藥品監(jiān)管機(jī)構(gòu)負(fù)責(zé)人組織(Heads of Medicines Agencies,HMA)和藥品管理局(European Medicines Agencies,EMA)成立大數(shù)據(jù)聯(lián)合工作組,針對(duì)基因組學(xué)、蛋白質(zhì)組學(xué)、臨床試驗(yàn)等數(shù)據(jù)的標(biāo)準(zhǔn)化、質(zhì)量、共享、連接、分析、監(jiān)管等提出建議。2018年6月美國國立衛(wèi)生研究院(National Institutes of Health,NIH)發(fā)布《數(shù)據(jù)科學(xué)戰(zhàn)略計(jì)劃》,旨在對(duì)生物醫(yī)藥研究產(chǎn)生的海量數(shù)據(jù)進(jìn)行存儲(chǔ)和管理并進(jìn)行標(biāo)準(zhǔn)化建設(shè)和數(shù)據(jù)公開。

        2 國內(nèi)外生物審編工作開展現(xiàn)狀

        2.1 國際數(shù)據(jù)庫廣泛開展

        生物審編已在國際大型公共和商業(yè)生物醫(yī)學(xué)數(shù)據(jù)庫廣泛使用,成為數(shù)據(jù)/知識(shí)抽取和標(biāo)準(zhǔn)化管理重要方式。公共大型生物醫(yī)學(xué)數(shù)據(jù)庫,如美國國立生物技術(shù)信息中心(National Center of Biotechnology Information,NCBI)開發(fā)的基因變異數(shù)據(jù)庫ClinGen,歐洲生物信息研究所(European Bioinformatics Institute,EBI)開發(fā)的蛋白質(zhì)相互作用數(shù)據(jù)庫IntAct,生物學(xué)通路數(shù)據(jù)庫Reactome,生物相關(guān)的化學(xué)實(shí)體數(shù)據(jù)庫ChEBI,基因本體、線蟲模式生物數(shù)據(jù)庫WormBase,西班牙國家生物技術(shù)中心開發(fā)的蛋白質(zhì)相互作用數(shù)據(jù)庫iHOP等均采用審編方式提升數(shù)據(jù)附加值。同時(shí)經(jīng)過審編的高質(zhì)量數(shù)據(jù)的商業(yè)價(jià)值已經(jīng)引起企業(yè)關(guān)注,如GeneGo、IPA和Pathway Studio等商業(yè)數(shù)據(jù)庫通過自然語言處理技術(shù)從文檔中提取信息和知識(shí),聘請(qǐng)專業(yè)人士進(jìn)行判讀,提升數(shù)據(jù)價(jià)值,保證知識(shí)的可靠性。但這些商業(yè)軟件核心數(shù)據(jù)保密且使用價(jià)格昂貴,在生物醫(yī)學(xué)數(shù)據(jù)方面形成壟斷。

        2.2 國內(nèi)剛剛起步

        我國在生物審編領(lǐng)域研究幾乎處于空白狀態(tài),目前僅有中國科學(xué)院北京基因組研究所[2]、中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所[3]等機(jī)構(gòu)對(duì)生物審編進(jìn)行了探索性研究。隨著大數(shù)據(jù)時(shí)代的到來以及我國自主開發(fā)意識(shí)的增強(qiáng),國內(nèi)各類生物醫(yī)學(xué)知識(shí)庫構(gòu)建相繼開展。尤其是2016年國家開始密集布局重大慢病、精準(zhǔn)醫(yī)學(xué)等領(lǐng)域的重點(diǎn)研發(fā)計(jì)劃,依托這些計(jì)劃搭建國家級(jí)生物醫(yī)學(xué)知識(shí)庫,旨在打破國際壟斷,保護(hù)數(shù)據(jù)安全。

        3 生物審編工作當(dāng)前面臨的主要挑戰(zhàn)與建議

        3.1 概述

        雖然國際上已研發(fā)出PubTator等自動(dòng)審編工具,在一定程度上提高了生物審編效率[4],但受限于生物知識(shí)和文本的復(fù)雜性,目前審編工作仍以專業(yè)人員人工解讀為主。生物審編是一項(xiàng)大體量、高耗時(shí)工作[5],需要投入大量的人力和財(cái)力資源[6],其開展和持續(xù)目前主要面臨兩方面挑戰(zhàn)。一是國際尚無統(tǒng)一、規(guī)范的生物審編組織管理模式,以保障審編工作的質(zhì)量和效率,審編人員的能力素養(yǎng)和個(gè)人偏好等因素容易引發(fā)審編質(zhì)量和效率的差異。二是生物審編的數(shù)據(jù)來源于不同文本,其質(zhì)量參差不齊,直接影響審編后生成知識(shí)的可信度,同時(shí)也給其開展造成一定困難。如何解決上述問題,實(shí)現(xiàn)審編過程的高質(zhì)和高效管理成為其開展和持續(xù)運(yùn)行的關(guān)鍵。

        3.2 審編組織管理模式

        3.2.1 國際 目前尚無統(tǒng)一、規(guī)范的生物審編組織管理模式。國際上的數(shù)據(jù)庫建設(shè)機(jī)構(gòu)主要采用成立聯(lián)盟、與協(xié)會(huì)合作、與期刊合作、開放式群體審編等組織模式,根據(jù)自身資源和優(yōu)勢設(shè)計(jì)適應(yīng)性管理模式。國內(nèi)外生物審編組織管理模式,見圖2。國際分子交換聯(lián)盟(International Molecular Exchange,IMEx)成員包括UniProt、IntAct等16家數(shù)據(jù)庫,其審編模式是聯(lián)盟成員承諾認(rèn)領(lǐng)數(shù)量不等的期刊進(jìn)行審編。為減少審編人員個(gè)體差異造成的審編質(zhì)量和效率差異,IMEx聯(lián)盟安排審編人員進(jìn)行跨庫交叉培訓(xùn),促進(jìn)不同機(jī)構(gòu)間的審編人員交流,縮小機(jī)構(gòu)以及人員間的審編差異。IMEx聯(lián)盟編制了面向蛋白質(zhì)互作審編的IMEx審編規(guī)則(IMEx Curation Rules),對(duì)證據(jù)源、審編字段、更新方式等作了詳細(xì)規(guī)定[7]。線蟲模式生物數(shù)據(jù)庫WormBase通過與美國遺傳學(xué)會(huì)(Genetics Society of America,GSA)和達(dá)特茅斯期刊服務(wù)機(jī)構(gòu)合作獲取全文資源,引導(dǎo)作者自行審編。2010年作者反饋率約40%,其中75%的作者進(jìn)行了較為詳細(xì)的注釋。IBM人工智能系統(tǒng)Watson的審編過程管理中設(shè)計(jì)了4類職位:團(tuán)隊(duì)領(lǐng)導(dǎo)、數(shù)據(jù)專家、內(nèi)容審編人員和領(lǐng)域?qū)<摇F(tuán)隊(duì)領(lǐng)導(dǎo)負(fù)責(zé)管理和監(jiān)督Watson審編項(xiàng)目,啟動(dòng)新的任務(wù)工作;數(shù)據(jù)專家負(fù)責(zé)查找與收集相關(guān)符合目的、范圍、標(biāo)準(zhǔn)的內(nèi)容,利用計(jì)算機(jī)技術(shù)進(jìn)行內(nèi)容分類;內(nèi)容審編人員負(fù)責(zé)指導(dǎo)數(shù)據(jù)專家收集內(nèi)容、審編收集的內(nèi)容、指導(dǎo)領(lǐng)域?qū)<覍?duì)審編內(nèi)容進(jìn)行分類和改進(jìn);領(lǐng)域?qū)<依脤I(yè)知識(shí)對(duì)收集的內(nèi)容進(jìn)行質(zhì)量控制,評(píng)估內(nèi)容的有效性、準(zhǔn)確性和價(jià)值。通路數(shù)據(jù)庫IPA聘請(qǐng)500名博士開展審編工作,通過多輪審編進(jìn)行質(zhì)控。

        圖2 國內(nèi)外生物審編組織管理模式

        3.2.2 國內(nèi) 中科院北京基因組所開發(fā)的RiceWiki數(shù)據(jù)庫采用開放式群體審編的模式。開放式群體審編不同于作者審編和聘用專業(yè)審編員審編,其審編員范圍廣泛,線上協(xié)作審編的方式不受時(shí)間、地域限制,為審編工作的大規(guī)模開展提供可能。但也存在審編員個(gè)體差異大以致于審編質(zhì)量和效率參差不齊的問題。RiceWiki利用AuthorReward評(píng)分明確審編人員的貢獻(xiàn)程度,該系統(tǒng)從一定程度上對(duì)審編人員進(jìn)行評(píng)價(jià)但并未從根本上解決人員造成的審編質(zhì)量和效率差異問題[8]。此外國內(nèi)的商業(yè)數(shù)據(jù)庫也開始嘗試通過審編構(gòu)建知識(shí)庫,如萬方基于其文獻(xiàn)資源優(yōu)勢構(gòu)建萬方醫(yī)學(xué)知識(shí)庫,其組織模式為邀請(qǐng)專業(yè)領(lǐng)域內(nèi)有影響力人士,由其召集志愿者進(jìn)行審編。國家重點(diǎn)研發(fā)計(jì)劃“疾病研究精準(zhǔn)醫(yī)學(xué)知識(shí)庫”項(xiàng)目設(shè)計(jì)了基于文本挖掘的自動(dòng)與人工結(jié)合、數(shù)量與質(zhì)量并重的審編模式,見圖3。

        圖3 自動(dòng)與人工結(jié)合、數(shù)量與質(zhì)量并重的審編模式

        文本挖掘生成的生物學(xué)實(shí)體和實(shí)體關(guān)系數(shù)據(jù)匯集到審編平臺(tái),首先比照第3方數(shù)據(jù)庫的先驗(yàn)知識(shí)進(jìn)行自動(dòng)審編,與第3方數(shù)據(jù)庫匹配的直接輸出到知識(shí)庫,不匹配的返回審編平臺(tái)進(jìn)行人工審編。在審編數(shù)量控制上采用網(wǎng)上招募或者專家召集博士后、博碩士研究生的模式,保障對(duì)審編員數(shù)量的需求,同時(shí)對(duì)審編結(jié)果進(jìn)行一定的反饋和激勵(lì)。在質(zhì)量控制上通過專家質(zhì)控、多人質(zhì)控模式,不合格的審編條目返回審編平臺(tái)重新進(jìn)行任務(wù)分配。同時(shí)組織專家對(duì)審編人員進(jìn)行線上/線下培訓(xùn),將審編質(zhì)量較高的人員吸納為審編專家。

        3.3 證據(jù)源質(zhì)量控制和評(píng)價(jià)

        生物醫(yī)學(xué)領(lǐng)域的文本數(shù)量飛速增長,文本中研究結(jié)果的可信度不高,低質(zhì)量的文本往往造成審編信息冗余甚至錯(cuò)誤。同時(shí)在文本中信息的呈現(xiàn)形式極大影響生物數(shù)據(jù)的識(shí)別和審編速度[9]。生物審編的證據(jù)來源于不同文本,其質(zhì)量參差不齊,從根本上影響了審編后生成知識(shí)的可信度。因此一方面需要對(duì)證據(jù)源加以一定控制,保障基于審編的數(shù)據(jù)庫質(zhì)量,另一方面需要對(duì)審編生成的數(shù)據(jù)進(jìn)行可信度評(píng)價(jià),幫助數(shù)據(jù)庫用戶快速識(shí)別入庫數(shù)據(jù)的可信度。目前許多數(shù)據(jù)庫都采取一定措施從證據(jù)源角度進(jìn)行審編質(zhì)量控制。腫瘤突變信息數(shù)據(jù)庫COSMIC采用經(jīng)同行評(píng)議的出版物為證據(jù)源。線蟲模式生物數(shù)據(jù)庫WormBase證據(jù)源篩選主要依賴審編人員的主觀判斷,后臺(tái)系統(tǒng)首先利用Perl腳本在PubMed數(shù)據(jù)庫中對(duì)關(guān)鍵詞“elegans”進(jìn)行檢索,檢索獲得的文獻(xiàn)再通過人工判讀摘要或全文,分析文獻(xiàn)信息數(shù)量和質(zhì)量進(jìn)而決定是否采納該證據(jù)源。WormBase數(shù)據(jù)庫每年審編文獻(xiàn)量約1 200篇[10]。此外ClinGen數(shù)據(jù)庫針對(duì)提交數(shù)據(jù)的實(shí)驗(yàn)室發(fā)布數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),僅收錄滿足特定要求的實(shí)驗(yàn)室數(shù)據(jù)[11]。在可信度評(píng)價(jià)方面ClinGen、CIViC等都已建立證據(jù)分級(jí)評(píng)價(jià)模型,為數(shù)據(jù)庫用戶提供直觀的可信度展示。ClinGen根據(jù)試驗(yàn)方法、試驗(yàn)材料、分析方法等因素對(duì)證據(jù)進(jìn)行分級(jí)[12]。腫瘤基因變異數(shù)據(jù)庫CIViC數(shù)據(jù)庫分別建立證據(jù)評(píng)級(jí)和可信度評(píng)級(jí)兩種評(píng)價(jià)模式。證據(jù)評(píng)級(jí)賦予共識(shí)/指南、臨床試驗(yàn)、個(gè)案報(bào)道、試驗(yàn)?zāi)P偷茸C據(jù)由高到低的分級(jí),可信度評(píng)級(jí)則根據(jù)期刊影響、研究規(guī)模、再現(xiàn)性等因素進(jìn)行分級(jí)[13]。國際分子交換聯(lián)盟面向蛋白質(zhì)互作關(guān)系設(shè)計(jì)證據(jù)評(píng)分模型,利用MIscore工具對(duì)審編獲得的蛋白之間的相互作用進(jìn)行可靠性評(píng)價(jià),評(píng)分因素包括文獻(xiàn)數(shù)量、實(shí)驗(yàn)方法類型和相互作用類型[14]。

        3.4 我國發(fā)展生物審編相關(guān)建議

        在審編工作組織管理方面我國已發(fā)展一批具有國際影響力的生物醫(yī)學(xué)期刊,包括《細(xì)胞研究》(CellResearch)、《分子細(xì)胞生物學(xué)報(bào)》(JournalofMolecularCellBiology)等,發(fā)揮政府、學(xué)術(shù)團(tuán)體、期刊的聯(lián)動(dòng)能力,組織引導(dǎo)作者在投稿過程中共享數(shù)據(jù)和開展審編是發(fā)展我國自有生物醫(yī)學(xué)數(shù)據(jù)/知識(shí)庫的直接、有效途徑。同時(shí)通過重大專項(xiàng)等形式持續(xù)支持生物醫(yī)學(xué)數(shù)據(jù)/知識(shí)庫建設(shè),招募和培育專業(yè)審編人才,規(guī)?;_展審編工作是發(fā)展我國自有生物醫(yī)學(xué)數(shù)據(jù)/知識(shí)庫的必由之路。在審編工作的質(zhì)量和效率控制方面,利用計(jì)算機(jī)技術(shù)輔助審編已成為提高審編效率的重要方式,應(yīng)積極推動(dòng)生物醫(yī)學(xué)本體構(gòu)建、異構(gòu)數(shù)據(jù)整合、文本挖掘等研究,支持和引導(dǎo)國內(nèi)生物醫(yī)學(xué)信息系統(tǒng)采用統(tǒng)一通用的數(shù)據(jù)標(biāo)準(zhǔn),打破數(shù)據(jù)孤島,通過自動(dòng)或半自動(dòng)審編技術(shù)和工具提高審編效率。探索生物審編過程管理機(jī)制,制定標(biāo)準(zhǔn)、規(guī)范的審編流程,保障生物審編工作的科學(xué)開展,推進(jìn)審編質(zhì)量和效率的雙重提升。

        4 結(jié)語

        生物數(shù)據(jù)已被視為重要的國家戰(zhàn)略資源,美、歐、日等國家在20世紀(jì)就已經(jīng)布局?jǐn)?shù)據(jù)的收集、存儲(chǔ)、審編和利用,美國NCBI、歐洲EBI等數(shù)據(jù)中心以及GeneGo、IPA和Pathway Studio等商業(yè)數(shù)據(jù)庫已對(duì)生物數(shù)據(jù)形成壟斷。近年來我國高度重視生物數(shù)據(jù)資源的開發(fā)和利用,中科院北京基因組研究所生命與健康大數(shù)據(jù)中心、中科院上海生科院生物醫(yī)學(xué)大數(shù)據(jù)中心、北科生物國家生物醫(yī)學(xué)大數(shù)據(jù)產(chǎn)業(yè)園等多個(gè)生物大數(shù)據(jù)中心、集群、平臺(tái)也相繼建成。但我國在生物審編方面剛剛起步,生物數(shù)據(jù)缺乏有效積累與管理,面臨嚴(yán)峻的數(shù)據(jù)資源風(fēng)險(xiǎn),亟需探索生物審編工作的支持和激勵(lì)機(jī)制,充分挖掘數(shù)據(jù)資源,打破數(shù)據(jù)壟斷,保障科研、臨床對(duì)數(shù)據(jù)資源的需求。

        猜你喜歡
        數(shù)據(jù)庫生物文本
        生物多樣性
        生物多樣性
        上上生物
        第12話 完美生物
        航空世界(2020年10期)2020-01-19 14:36:20
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        av天堂久久天堂av色综合| 那有一级内射黄片可以免费看| 国产爆乳美女娇喘呻吟| 东北老女人高潮疯狂过瘾对白| 伊人久久大香线蕉av网禁呦| 免费一级特黄欧美大片久久网 | 亚洲一区二区三区在线中文| av免费资源在线观看| 国产精品无码一区二区三区电影| 毛片在线播放a| 欧美精品久久久久久三级| 久久久精品国产三级精品| 久久精品国产99国产精品亚洲| 成年午夜无码av片在线观看 | 亚洲中文字幕在线第二页| 国产精品亚洲欧美云霸高清| 61精品人妻一区二区三区蜜桃| 青青草免费观看视频免费| 校园春色日韩高清一区二区| 国99久9在线 | 免费| 中文字幕av在线一二三区| 女同性恋亚洲一区二区| 在线观看亚洲视频一区二区| 国产suv精品一区二区四| 色综合中文综合网| 中文字幕有码在线视频| 国产精品一区二区偷拍| 手机在线看片| 久久久受www免费人成| 亚洲综合色秘密影院秘密影院| 久久久精品国产亚洲av网不卡| 国产成人91久久麻豆视频| 熟妇高潮一区二区三区| 北岛玲中文字幕人妻系列| 中文字幕高清视频婷婷| 亚洲在线视频免费视频| 无码av免费一区二区三区| 日子2020一区二区免费视频| 国内精品嫩模av私拍在线观看 | 亚洲 欧美 综合 另类 中字| 精品国产乱码久久免费看|