錢 慶(中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100020)
基于知識組織系統(tǒng)的生物醫(yī)學(xué)文本挖掘研究
錢慶
(中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100020)
隨著生物醫(yī)學(xué)信息技術(shù)的飛速發(fā)展,生物醫(yī)學(xué)文獻(xiàn)呈“指數(shù)型”增長,單純依靠人工閱讀獲取和理解所需知識變得異常困難,如何從海量生物醫(yī)學(xué)文獻(xiàn)中整合已有知識、挖掘新知識成為當(dāng)前研究熱點。生物醫(yī)學(xué)領(lǐng)域的知識組織系統(tǒng)建設(shè)相比其他領(lǐng)域更加規(guī)范和完整,為生物醫(yī)學(xué)文本挖掘奠定了基礎(chǔ),大量基于知識組織系統(tǒng)的文本挖掘方法、系統(tǒng)得到快速發(fā)展。本文主要梳理現(xiàn)有醫(yī)學(xué)知識組織系統(tǒng),歸納生物醫(yī)學(xué)文本挖掘的主要流程,按照挖掘任務(wù)探討當(dāng)前的主要研究和進(jìn)展情況,并進(jìn)一步分析基于知識組織系統(tǒng)的生物醫(yī)學(xué)文本挖掘的特點,對知識組織系統(tǒng)在生物醫(yī)學(xué)文本挖掘中發(fā)揮的主要作用和當(dāng)前研究面臨的挑戰(zhàn)進(jìn)行總結(jié),以期為生物醫(yī)學(xué)工作者提供借鑒。
知識組織系統(tǒng);文本挖掘;信息檢索;信息抽取;知識發(fā)現(xiàn)
隨著生物醫(yī)學(xué)信息技術(shù)的飛速發(fā)展,生物醫(yī)學(xué)信息資源增長快速,特別是文獻(xiàn)資源呈“指數(shù)型”增長。PubMed是生物醫(yī)學(xué)文獻(xiàn)的主要倉儲,包括MEDLINE、生命科學(xué)期刊和在線圖書等,現(xiàn)有數(shù)據(jù)2 300多萬條,以每年100多萬篇的速度增長,并且這個數(shù)字在未來還會不斷增加。在科學(xué)領(lǐng)域的開放獲取期刊中,生物醫(yī)學(xué)資源也是數(shù)量最多、增長最快的。急劇增長的生物醫(yī)學(xué)文獻(xiàn)為生物醫(yī)學(xué)研究提供了豐富的資源,但是也造成信息獲取的困難。因為大多數(shù)信息都隱含在無結(jié)構(gòu)或者半結(jié)構(gòu)的文本中,采用自然語言描述。自然語言雖然有助于人們直接理解和交流,但缺乏規(guī)范性,計算機(jī)難以理解。文本挖掘能夠幫助人們從大量非結(jié)構(gòu)化、半結(jié)構(gòu)化生物醫(yī)學(xué)文本中挖掘提取隱含的、事先不知道的但又具有潛在價值的信息和知識,現(xiàn)在被廣泛應(yīng)用于生物醫(yī)學(xué)研究中,如生物醫(yī)學(xué)實體識別、藥物發(fā)現(xiàn)、靶標(biāo)選擇、藥物副作用識別、蛋白質(zhì)交互作用預(yù)測等方面。大量國際會議如BioNLP、SIGIR、BioCreative、TREC Genomics Track等,提出生物醫(yī)學(xué)文本挖掘的任務(wù),通過不同方法進(jìn)行探索和實踐,推動本領(lǐng)域研究的發(fā)展。在生物醫(yī)學(xué)文本挖掘過程中,不可避免地需要應(yīng)用大量特定領(lǐng)域知識,利用知識組織系統(tǒng),特別是醫(yī)學(xué)知識組織系統(tǒng)可以對概念進(jìn)行規(guī)范、知識組織序化、關(guān)系發(fā)現(xiàn)和推理等,能夠有助于提高人們獲取新知識及其關(guān)聯(lián)的能力。
醫(yī)學(xué)知識組織系統(tǒng)(Medical Knowledge Organization Systems,MedKOS)涵蓋醫(yī)學(xué)領(lǐng)域中的各種詞匯列表、概念及概念間關(guān)系、分類體系及相應(yīng)代碼標(biāo)識等,其對醫(yī)學(xué)知識內(nèi)容、概念及其相互關(guān)系進(jìn)行描述和組織,具有詞義消歧、同義詞和近義詞的控制、揭示概念之間的語義關(guān)系-等級關(guān)系、揭示概念之間的語義關(guān)系-非等級(相關(guān))關(guān)系、揭示事物的類型及關(guān)系類型、描述事物的屬性特征等功能[1]。醫(yī)學(xué)知識組織系統(tǒng)形式多樣,包括一體化語言系統(tǒng)、本體、敘詞表、語義網(wǎng)絡(luò)、分類表、權(quán)威規(guī)范術(shù)語表等。典型代表有醫(yī)學(xué)主題詞表(Medical Subject Headings,MeSH)、一體化醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System,UMLS)以及各種醫(yī)學(xué)本體等。MeSH詞表是由美國國立醫(yī)學(xué)圖書館(National Library of Medicine,NLM)編制的權(quán)威主題詞表,在醫(yī)學(xué)領(lǐng)域被廣泛使用。1954年MeSH正式對外發(fā)布,1979年授權(quán)中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所開始中文翻譯,2007年推出網(wǎng)絡(luò)版在線查詢系統(tǒng)MeSH Browser。UMLS由NLM 于1986年主持啟動,是生物醫(yī)學(xué)領(lǐng)域、跨語言多表集成的知識組織系統(tǒng),2015AB版集成了來自超過190萬個來源詞表的320多萬個概念和128萬個唯一概念名稱,在醫(yī)療信息系統(tǒng)、病案系統(tǒng)、文本自動標(biāo)注、智能檢索等領(lǐng)域廣泛應(yīng)用。醫(yī)學(xué)本體是對生物醫(yī)學(xué)領(lǐng)域共享概念的明確形式化、規(guī)范化說明,也是生物醫(yī)學(xué)文本挖掘中非常重要的知識組織系統(tǒng)之一,生物醫(yī)學(xué)領(lǐng)域已建立大量本體,如基因本體(Gene Ontology,GO)、解剖學(xué)本體(The Foundational Model of Anatomy,F(xiàn)MA)、通用解剖參考本體(Common Anatomy Reference Ontology,CARO)、解剖實體本體(Anatomical Entity Ontology,AEO)、轉(zhuǎn)化醫(yī)學(xué)本體(Translational Medicine Ontology,TMO)、序列本體(Sequence Ontology,SO)、蛋白質(zhì)本體(Protein Ontology,PRO)以及語言、百科和命名的通用架構(gòu)(Generalized Architecture for Languages,Encyclopedias and Nomenclatures,GALEN)等。最常用的GO,其最初收錄的基因信息來源于3個模式生物數(shù)據(jù)庫:果蠅、酵母和小鼠,隨后相繼收錄了更多數(shù)據(jù),包括國際上主要的植物、動物和微生物基因組數(shù)據(jù)庫。GO通過控制注釋詞匯的層次結(jié)構(gòu),使研究人員能夠從不同層面查詢和使用基因注釋信息。從整體上來看,GO注釋系統(tǒng)是一個有向無環(huán)圖(Directed Acyclic Graphs,DAG),包含三個分支,即生物學(xué)過程(Biological process)、分子功能(Molecular function)和細(xì)胞組分(Cellular component)。注釋系統(tǒng)中每一個結(jié)點(node)都是基因或蛋白質(zhì)的一種描述,結(jié)點之間保持嚴(yán)格的關(guān)系,即“is a”或“part of”。開放生物醫(yī)學(xué)本體(Open Biomedical Ontologies,OBO)是一系列關(guān)于生物和醫(yī)學(xué)本體的集合。其中有些本體是通用的,應(yīng)用于所有的生物體;有些本體是特殊的,只局限于某個領(lǐng)域。除此之外,還有ConceptWiki、Wikigenes、Wikipedia等。李丹亞等對醫(yī)學(xué)知識組織系統(tǒng)進(jìn)行了系統(tǒng)性總結(jié),對203部醫(yī)學(xué)知識組織系統(tǒng)的特征、構(gòu)建模式等進(jìn)行了分析和歸納[2],如表1所示。
Bodenreider也總結(jié)了生物學(xué)文本挖掘中常用的詞典、術(shù)語集和本體,介紹了它們在實體識別和關(guān)系抽取中的應(yīng)用[3]。
表1 醫(yī)學(xué)知識組織系統(tǒng)[2]
續(xù)表
如圖1所示,生物醫(yī)學(xué)文本挖掘的主要目標(biāo)是通過計算機(jī)輔助將非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),將隱性知識轉(zhuǎn)變?yōu)轱@性知識,幫助研究者進(jìn)行知識發(fā)現(xiàn)。它的主要流程包括信息檢索、信息抽取和知識發(fā)現(xiàn)三個步驟,這三個步驟也是生物醫(yī)學(xué)文本挖掘的主要任務(wù)。信息檢索的目標(biāo)是獲取關(guān)于某一主題的相關(guān)文本;信息抽取是抽取已定義類型的信息,如概念、實體或關(guān)系;知識發(fā)現(xiàn)是幫助從文本中抽取出潛在知識或基于文本推理獲取未知的新知識。這三個步驟相互支撐,信息檢索的結(jié)果可以縮小后兩個步驟處理的文獻(xiàn)數(shù)據(jù)范圍,而信息抽取及知識發(fā)現(xiàn)的結(jié)果可以用于進(jìn)一步優(yōu)化信息檢索結(jié)果,如提供深入文本內(nèi)容的高級信息檢索,提供相關(guān)類型實體、概念、實體間的隱含關(guān)系等。相比其他領(lǐng)域,生物醫(yī)學(xué)領(lǐng)域的語義資源建設(shè)更加規(guī)范和完整,大量知識組織系統(tǒng)為文本挖掘奠定了基礎(chǔ)。在生物醫(yī)學(xué)文本挖掘過程中,知識組織系統(tǒng)被作為資源、工具、標(biāo)準(zhǔn)規(guī)范或?qū)<抑R等,發(fā)揮了重要作用。其中包含的大量術(shù)語,以及以樹狀或網(wǎng)狀結(jié)構(gòu)記錄的術(shù)語間的關(guān)聯(lián),可用于支持生物醫(yī)學(xué)文本挖掘應(yīng)用。同時,文本挖掘的結(jié)果所生成的結(jié)構(gòu)化知識也可以用于構(gòu)建知識組織系統(tǒng),用于豐富詞表或本體的實體及語義關(guān)系。下面主要按照這三個關(guān)鍵任務(wù),組織、論述基于知識組織系統(tǒng)的生物醫(yī)學(xué)文本挖掘的最新研究情況,并分析和歸納知識組織系統(tǒng)在其中的具體作用。
圖1 生物醫(yī)學(xué)文本挖掘流程
3.1 信息檢索
傳統(tǒng)信息檢索方法如關(guān)鍵詞檢索或布爾邏輯檢索等具有一定缺陷,如用戶輸入的檢索詞可能不能充分代表其真實需求;檢索系統(tǒng)對文本的標(biāo)引不能完全表達(dá)文獻(xiàn)的內(nèi)容,特別是缺乏考慮信息資源之間的語義關(guān)系,不能提供深層次的信息關(guān)聯(lián);檢索結(jié)果使用線性排序,導(dǎo)致用戶不能從多維度探測檢索結(jié)果。針對現(xiàn)有信息檢索系統(tǒng)難以滿足用戶知識獲取需求的問題,大量具有標(biāo)準(zhǔn)化可控詞匯并具有層次結(jié)構(gòu)(樹狀或網(wǎng)狀)的知識組織系統(tǒng)被引入檢索系統(tǒng)中,用于對生物醫(yī)學(xué)文獻(xiàn)進(jìn)行深度標(biāo)引、拓展用戶查詢、對信息資源進(jìn)行深度語義關(guān)系提取和分析、對檢索結(jié)果進(jìn)行多層次或多維揭示等,實現(xiàn)基于語義的知識檢索和智能檢索。PubMed是基于WEB的生物醫(yī)學(xué)信息檢索系統(tǒng),它能自動地為輸入的檢索詞尋找相應(yīng)的MeSH詞,用戶利用MeSH詞能找出所有有關(guān)該主題的文獻(xiàn),提高了檢索的準(zhǔn)確性和專指性。GoPubMed使用GO和MeSH標(biāo)引檢索結(jié)果,將來自GO、MeSH及UniProt的術(shù)語映射到PubMed數(shù)據(jù)庫的文獻(xiàn)中,生成基于本體的檢索結(jié)果瀏覽,并對檢索結(jié)果進(jìn)行組織、分類,提供與檢索詞相關(guān)的來自GO等本體的相關(guān)術(shù)語[4]。美國孟菲斯大學(xué)的CVPIA實驗室開發(fā)了SEGoPubMed檢索系統(tǒng),該系統(tǒng)以PubMed為數(shù)據(jù)源,利用GO本體,在PubMed檢索時使用潛在語義分析技術(shù)和語義相關(guān)度排序大大提高了查準(zhǔn)率和查全率[5]。為了解決研究者的問題,如“哪些疾病和一個特定基因相關(guān)”或“哪些化學(xué)物質(zhì)和一種特定疾病相關(guān)”,現(xiàn)有研究也構(gòu)建了能夠揭示這些關(guān)聯(lián)的檢索系統(tǒng)。FACTA是一個基于MEDLINE數(shù)據(jù)庫摘要的文本搜索引擎,用于查找關(guān)聯(lián)的生物醫(yī)學(xué)概念,不僅標(biāo)引了文本中的詞,而且標(biāo)引了概念,能夠讓用戶進(jìn)行靈活查詢并且用戶可以看到來自MEDLINE的文獻(xiàn)片段,包括檢索詞或概念的關(guān)聯(lián)證據(jù)[6],如圖2所示。FACTA覆蓋六大類生物醫(yī)學(xué)概念,包括人類基因/蛋白質(zhì)、疾病、癥狀、藥物、酶和化學(xué)化合物,通過詞典匹配判斷這些概念是否出現(xiàn)在文本中。一共標(biāo)引了80 260個唯一概念,使用UniProt訪問號作為基因/蛋白質(zhì)的概念I(lǐng)D,收集了來自多個知識組織系統(tǒng)的基因/蛋白質(zhì)的名稱和同義詞,疾病和癥狀主要來自UMLS,藥物、酶和化學(xué)化合物的概念I(lǐng)D和名稱則來自HMDB、KEGG和DrugBank等數(shù)據(jù)庫。
圖2 FACTA檢索結(jié)果[6]
PubOnto也是基于本體的MEDLINE文獻(xiàn)瀏覽檢索系統(tǒng),使用來自O(shè)BO的多種本體,包括GO、Foundational Model of Anatomy(FMA)、Mammalian Phenotype Ontology、Environment Ontology等,幫助研究者從不同角度瀏覽文獻(xiàn),并快速定位最相關(guān)的MEDLINE記錄用于進(jìn)一步研究[7]。PubOnto如圖3所示,基于AdobeFlex3.0平臺,將本體術(shù)語自動映射到MEDLINE摘要,提供交互式探索和檢索結(jié)果過濾,交互的本體過濾模式有助于找到不同本體間的交叉文獻(xiàn)。PubOnto還提供定制檢索、客戶端過濾、定制本體檢索、引文鏈接到PubMed、概念鏈接到Wikipedia、可視化統(tǒng)計分析、對檢索文獻(xiàn)的MeSH進(jìn)行詞頻統(tǒng)計和打分等功能。
圖3 PubOnto的檢索結(jié)果[7]
3.2 信息抽取
信息抽取包括對生物醫(yī)學(xué)文本中的概念、實體(如疾病、癥狀、藥物、基因、蛋白質(zhì)、器官、化學(xué)物質(zhì)等)及各種關(guān)系(基因間的關(guān)系、蛋白質(zhì)間的關(guān)系、基因和疾病間的關(guān)系、疾病和藥物間的關(guān)系、藥物和治療間的關(guān)系等)的抽取。特別是隨著生物醫(yī)學(xué)領(lǐng)域?qū)ι飻?shù)據(jù)保存、編審的日益關(guān)注,計算機(jī)實體抽取技術(shù)得到進(jìn)一步促進(jìn)和發(fā)展,用以輔助人工編審。
3.2.1 概念及實體識別
典型的概念識別系統(tǒng)是NLM開發(fā)的初步標(biāo)引系統(tǒng)MetaMap,用于圖書館半自動和全自動的生物醫(yī)學(xué)文獻(xiàn)標(biāo)引。其基于UMLS敘詞表通過切分、產(chǎn)生變形體、檢索候選詞、候選詞的評價、建立匹配等一系列流程,將生物醫(yī)學(xué)文本與UMLS超級詞表中的概念進(jìn)行匹配和篩選排序,能夠有效識別文本中來自UMLS的概念。UMLS每一次改版,MetaMap也需要更新其數(shù)據(jù)庫文件,包括預(yù)先計算變形詞表、語義類型和MeSH樹狀結(jié)構(gòu)號的信息,以及按照超級詞表中含有單詞的字串索引[8]。
實體識別是對詞或短語的識別,并將分類對應(yīng)到預(yù)先定義的分類上,如疾病、癥狀、藥物或基因。現(xiàn)有實體識別方法可歸納為三類,分別為基于詞典的實體識別、基于規(guī)則的實體識別和基于機(jī)器學(xué)習(xí)的實體識別?;谠~典的實體識別方法是最基礎(chǔ)的識別方法,識別來自詞表等資源中的實體名稱,如使用ICD識別疾病名稱、使用GO識別基因名稱等,能夠保證識別的準(zhǔn)確率,但是也存在局限性,因為很多實體不一定會在已有詞典中出現(xiàn),因此,一般會與基于規(guī)則的方法結(jié)合使用。Fang等開發(fā)的一個癌癥命名實體識別器MeinfoText系統(tǒng),采用結(jié)合癌癥詞典和基于正則表達(dá)的方法挖掘基因甲基化和癌癥關(guān)聯(lián)信息[9]。UEMUC3M是一個基于本體的生物醫(yī)學(xué)文本的實體識別系統(tǒng),能夠用于識別藥學(xué)領(lǐng)域中的化學(xué)物質(zhì)[10]。該系統(tǒng)通過應(yīng)用生物醫(yī)學(xué)本體和外在資源,決定是否將識別的術(shù)語作為一個藥品名稱。從文本中找到概念的過程被稱為Megrep,又分為兩個步驟:首先掃描、識別實體;其次,通過規(guī)則對實體分類。識別過程是利用UMLS和藥物領(lǐng)域本體、主藥物數(shù)據(jù)庫本體(Master Drug Data Base,MDDB)、國家藥物數(shù)據(jù)文件(National Drug Data File,NDDF)、藥物發(fā)現(xiàn)調(diào)查本體(Ontology for Drug Discovery Investigetions,ODDI)等進(jìn)行藥物名稱識別。鑒于基于規(guī)則和基于詞典的實體識別存在不足,大量基于機(jī)器學(xué)習(xí)的生物醫(yī)學(xué)實體識別方法如基于HMM的方法、基于SVM的方法、基于CRF的方法等被提出。機(jī)器學(xué)習(xí)方法需要使用訓(xùn)練集進(jìn)行模型訓(xùn)練。訓(xùn)練集是經(jīng)人工或機(jī)器已經(jīng)標(biāo)注實體特征的文本集。實體特征可歸納為5類:語言特征、拼寫特征、形態(tài)學(xué)特征、上下文特征和詞典特征[11]。其中,詞典特征使用來自特定領(lǐng)域的術(shù)語或?qū)嶓w名稱和文本中的術(shù)語進(jìn)行匹配和識別,用于進(jìn)一步優(yōu)化實體識別功能。
PubTator是基于網(wǎng)絡(luò)用于幫助人工生物編審(biocuration)和文本注釋的工具[12]。它支持對PubMed檢索結(jié)果的標(biāo)注,識別的生物醫(yī)學(xué)實體包括基因、化學(xué)物質(zhì)、疾病、變異、物種,標(biāo)注結(jié)果如圖4所示。它由多種實體識別工具組成,包括跨物種基因標(biāo)注工具GenNorm[13]、基于成對學(xué)習(xí)排序的疾病實體識別工具Dnorm[14]、化學(xué)命名實體識別工具tmChem[15]、基因標(biāo)準(zhǔn)化的物種識別工具SR4GN[16]、抽取序列變異的工具tmVar[17]。這些工具使用了MeSH、MEDIC和來自NLM的詞典用于實體特征訓(xùn)練和詞典查找。PubTator提供在線使用和調(diào)用URL的使用方式。
圖4 PubTator文本標(biāo)注結(jié)果[12]
NCBO Annotator是基于本體的網(wǎng)絡(luò)服務(wù),用于對公共數(shù)據(jù)集文本進(jìn)行標(biāo)注[18]。其使用來自BioPortal和UMLS的本體概念,便于數(shù)據(jù)集成和轉(zhuǎn)化發(fā)現(xiàn)。如圖5所示,其工作流程包括兩個關(guān)鍵步驟:(1)直接注釋:通過使用一個由來自UMLS和NCBO本體的術(shù)語(概念名稱和同義詞)構(gòu)成的詞典進(jìn)行語法概念識別;(2)語義拓展注釋:組件使用本體語義拓展直接生成注釋的集合,其中用到的組件包括is_a傳遞閉包、本體間映射、相似度算法等。
圖5 NCBO Annotator的工作流程[18]
3.2.2 關(guān)系抽取
關(guān)系抽取是信息抽取的關(guān)鍵技術(shù)之一,比實體抽取更為復(fù)雜。通過關(guān)系抽取可以建立實體之間的信息關(guān)聯(lián),用于構(gòu)建領(lǐng)域本體、支持文本聚類、構(gòu)建生物醫(yī)學(xué)知識網(wǎng)絡(luò)、構(gòu)建自動問答系統(tǒng)等。關(guān)系抽取的主要方法包括基于共現(xiàn)的抽取、基于自然語言處理的抽取、基于詞典的抽取、基于模式匹配的抽取、基于機(jī)器學(xué)習(xí)的方法等。其中,基于詞典的關(guān)系抽取主要利用生物醫(yī)學(xué)詞表、本體、語義網(wǎng)絡(luò)等中的同義關(guān)系、層級關(guān)系、具體類型關(guān)系等進(jìn)行關(guān)系的抽取。基于模式匹配的方法,通過定義規(guī)則進(jìn)行關(guān)系抽取,依賴于規(guī)則的數(shù)量,難以涵蓋全部關(guān)系。醫(yī)學(xué)信息檢索平臺CoremineMedical(見圖6)利用本體語言技術(shù)支持MEDLINE數(shù)據(jù)庫的相關(guān)數(shù)據(jù)、文獻(xiàn)、信息、知識資源的檢索、分析和獲?。?9],通過構(gòu)建術(shù)語關(guān)聯(lián)共現(xiàn)網(wǎng)絡(luò)和術(shù)語類型組織來發(fā)現(xiàn)相關(guān)的概念,這些概念來自MeSH、GO等知識組織系統(tǒng)。
圖6 CoreMine medical的主要流程[19]
SemRep是基于UMLS語義關(guān)系的工具,首先利用MetaMap識別文本中的概念及其語義類型,而后對文本進(jìn)行淺層語義分析,根據(jù)UMLS語義網(wǎng)絡(luò)定義的54種關(guān)系,判斷兩個概念之間的關(guān)系[20]。Embarek和Ferret提出的MeTAE(Medical Texts Annotation and Exploration)系統(tǒng)從文本中抽取實體和關(guān)系[21],其對MetaMap進(jìn)行了改進(jìn),用于抽取實體并提出一種基于語言模式的關(guān)系抽取方法,并基于UMLS語義網(wǎng)絡(luò)中的語義類型進(jìn)行過濾和識別,關(guān)系結(jié)構(gòu)存儲為RDF三元組格式。RINDFLESCH基于UMLS,利用領(lǐng)域知識和語法解析構(gòu)建了ARBITER,使用兩階段法識別分子作用關(guān)聯(lián)(Molecular Binding):首先利用MetaMap、語法解析器等識別作用關(guān)聯(lián)術(shù)語集;其次,識別作用關(guān)聯(lián)術(shù)語作為關(guān)系的論元(agruments)[22]。Sharma等提出構(gòu)建以動詞為中心的關(guān)系抽取系統(tǒng),利用UMLS語義網(wǎng)絡(luò)、WordNet和VerbNet從生物醫(yī)學(xué)文獻(xiàn)中識別包含關(guān)系的句子,而后利用深層解析器和語義角色分析器抽取關(guān)系的描述短語,并識別及抽取涉及的生物醫(yī)學(xué)實體,最后輸出抽取的關(guān)系[23]。他將其應(yīng)用于MEDLINE文摘構(gòu)成的三個數(shù)據(jù)集進(jìn)行測評,其算法達(dá)到0.86~0.95的準(zhǔn)確率和0.88~0.92的召回率。Pustejovsky等使用UMLS和Brill詞法解析器,通過淺層語法解析,從文獻(xiàn)摘要中抽取蛋白質(zhì)抑制關(guān)系信息[24]。
3.3 知識發(fā)現(xiàn)
基于文獻(xiàn)的知識發(fā)現(xiàn),包括開放發(fā)現(xiàn)和閉合發(fā)現(xiàn)模式,可以通過開放發(fā)現(xiàn)模式生成新的假設(shè),或通過閉合發(fā)現(xiàn)模式檢驗一個假設(shè),從而發(fā)現(xiàn)新的知識。基于文獻(xiàn)的知識發(fā)現(xiàn)理論是1986年由美國芝加哥大學(xué)的醫(yī)學(xué)教授D. R.Swanson最早提出的,指出非相關(guān)的生物文獻(xiàn)中可能隱含大量不為人知的科學(xué)知識[25]。Swanson將基于文獻(xiàn)的知識發(fā)現(xiàn)定義為:如果有兩類文獻(xiàn)集A和C,其中,A討論了概念M和概念集B之間的關(guān)系,而C則討論了概念N和概念集B之間的關(guān)系,但是沒有任何文獻(xiàn)直接討論過M和N的關(guān)系,那么M與N之間通過共同的橋梁B,隱含地存在某種關(guān)系,這就可能是一個新的科學(xué)發(fā)現(xiàn)。這時的A和C被稱為非相關(guān)互補的文獻(xiàn),而概念集B則被稱為中間集。他將該理論應(yīng)用于發(fā)現(xiàn)鎂缺乏與神經(jīng)系統(tǒng)疾病、消炎痛與阿爾茲海默病、雌激素與阿爾茲海默病、游離鈣磷脂酶A2與精神分裂癥、鎂缺乏與偏頭痛以及可作為生物武器的潛在病毒間的關(guān)系。Swanson教授與Neil Smalheise構(gòu)建了Arrowsmith系統(tǒng),用于處理從PubMed數(shù)據(jù)庫檢索出的A和C文獻(xiàn)集,而后對中間集B進(jìn)行過濾和排序,按照相對頻次排列的列表提供給用戶[26]。Smalheise將UMLS引入Arrowsmith系統(tǒng)的處理過程中,基于UMLS對中間集B進(jìn)行語義歸類、篩除低頻共現(xiàn)詞、基于共現(xiàn)的統(tǒng)計學(xué)模型對中間集B聚類、去低頻特征詞等[27]。BITOLA(見圖7)也是一個基于文獻(xiàn)的交互式生物醫(yī)學(xué)發(fā)現(xiàn)支持系統(tǒng),系統(tǒng)采用閉合式和開放式兩種發(fā)現(xiàn)模式,目標(biāo)是幫助生物醫(yī)學(xué)研究者發(fā)現(xiàn)生物醫(yī)學(xué)概念間潛在的新關(guān)系[28]。系統(tǒng)采用來自MeSH中的主題詞表達(dá)概念和來自HUGO的人類基因名稱。
Hu提出一種新的基于語義分析的知識發(fā)現(xiàn)系統(tǒng)(Biomedical Semantic-based Association Rule System,Bio-SARS),該系統(tǒng)使用MeSH詞表示文獻(xiàn)內(nèi)容,通過UMLS語義類型和基于語義的關(guān)聯(lián)規(guī)則減少候選術(shù)語的數(shù)量和過濾無關(guān)聯(lián)的關(guān)系[29]。Litlinker系統(tǒng)使用基于文獻(xiàn)的開放知識發(fā)現(xiàn)系統(tǒng),利用MetaMap獲取MeSH術(shù)語[30]。Literby系統(tǒng)使用兩階段方法,利用MetaMap獲取MeSH術(shù)語,通過UMLS過濾數(shù)據(jù)類型[31]。Srinivasan等開發(fā)了文本挖掘系統(tǒng)Manjal,該系統(tǒng)使用MeSH詞和關(guān)鍵詞來代表文獻(xiàn)的內(nèi)容,根據(jù)語義類型來過濾詞匯并利用詞的權(quán)重確定詞間的關(guān)系[32]。
圖7 BITOLA挖掘結(jié)果界面
綜上可知,生物醫(yī)學(xué)文本挖掘得到快速發(fā)展,基于知識組織系統(tǒng)的生物醫(yī)學(xué)文本挖掘體現(xiàn)出如下特點:
(1)知識組織系統(tǒng)在文本挖掘各階段中發(fā)揮了重要作用。其可歸納為:①在信息檢索中,被用于文獻(xiàn)內(nèi)容的標(biāo)引、用戶檢索詞的擴(kuò)展、對檢索結(jié)果的組織瀏覽、作為外部注釋資源解釋和理解文本內(nèi)容、檢索結(jié)果的可視化;②在信息抽取中,可用于對術(shù)語進(jìn)行匹配映射、消歧去重、規(guī)范表達(dá),用于術(shù)語或?qū)嶓w分類及進(jìn)行訓(xùn)練集的標(biāo)注,用于抽取結(jié)果后處理優(yōu)化;③在知識發(fā)現(xiàn)中,被用于抽取實體和關(guān)系類型的過濾。此外,通過知識組織系統(tǒng)中包含的可控詞匯對生物醫(yī)學(xué)文獻(xiàn)進(jìn)行語義標(biāo)注,搭建起生物醫(yī)學(xué)文獻(xiàn)與生物醫(yī)學(xué)數(shù)據(jù)之間的橋梁。
(2)生物醫(yī)學(xué)文獻(xiàn)挖掘結(jié)果也可用于構(gòu)建知識組織系統(tǒng)。知識組織系統(tǒng)和生物醫(yī)學(xué)文本挖掘過程相互支撐,從本體中獲得的實體或關(guān)系可以支持文本挖掘過程;反之,通過生物醫(yī)學(xué)文本挖掘識別的概念、術(shù)語、關(guān)系,也可以用于構(gòu)建本體和詞表,或?qū)ΜF(xiàn)有本體詞表中的術(shù)語或語義關(guān)系的語義。
(3)面向特定文本挖掘任務(wù)選擇特定知識組織系統(tǒng)。在現(xiàn)有生物醫(yī)學(xué)文本挖掘中,需根據(jù)特定目標(biāo)選擇相應(yīng)的本體或詞表。此外,現(xiàn)有生物醫(yī)學(xué)文本挖掘研究中使用單一本體或詞表難以滿足應(yīng)用需求,而需使用集成詞表(如UMLS)、集成本體(OBO)或?qū)⒍嘣~表或多本體聯(lián)合使用以滿足挖掘應(yīng)用。
(4)多方法融合的生物醫(yī)學(xué)文本挖掘。無論是實體識別還是關(guān)系抽取,單一識別或抽取方法往往不能取得較好的效果。通過現(xiàn)有研究可以發(fā)現(xiàn),研究者趨向于多方法融合的挖掘方法,用于彌補單一方法的不足,提高實體識別及關(guān)系抽取的準(zhǔn)確率和召回率。
基于知識組織系統(tǒng)的生物醫(yī)學(xué)文本挖掘取得了一定的進(jìn)展,而仍然面臨諸多挑戰(zhàn)。雖然大量醫(yī)學(xué)知識組織系統(tǒng)被用于生物醫(yī)學(xué)挖掘系統(tǒng)中,但是當(dāng)前醫(yī)學(xué)知識組織系統(tǒng)對生物醫(yī)學(xué)術(shù)語的覆蓋有限,不能覆蓋所有文獻(xiàn)中出現(xiàn)的術(shù)語,如UMLS敘詞表中記錄了超過1 600萬個關(guān)系,而這些關(guān)系也不能全面反映文獻(xiàn)中術(shù)語間或?qū)嶓w間的關(guān)系;并且,當(dāng)前文本挖掘研究逐漸趨向面向開放資源的抽取任務(wù)。因此,如何優(yōu)化現(xiàn)有的基于知識組織系統(tǒng)的生物醫(yī)學(xué)文本挖掘方法,成為未來研究需要進(jìn)一步思考的問題。
[1] 曾蕾.在瀏覽和檢索界面設(shè)計中利用知識組織系統(tǒng)(KOS)[EB/OL].[2015-12-01]. http://www.libnet.sh.cn/upload/htmleditor/File/071213121516.pdf.
[2] 李丹亞,李軍蓮,李曉瑛,等.醫(yī)學(xué)知識組織體系發(fā)展現(xiàn)狀及研究重點[J].數(shù)字圖書館壇, 2012(12):12-20.
[3] Bodenreider O. Lexical, Terminological, and Ontological Resources for Biological Text Mining[EB/OL].[2015-12-01].http://www.artechhouse. com/uploads/public/documents/chapters/ananiadou_984_samplech03. pdf.
[4] Delfs R ,Doms A, Kozlenkov A,et al.GoPubMed:ontology-based literature search applied to Gene Ontology and PubMed[EB/OL].[2015-12-01]. http://www.biotec.tu-dresden.de/fileadmin/groups/schroeder/group/ papers/gopubmedGCB.pdf.
[5] Yeasin M,Vanteru B,Shaik J,et al. i-SEGOPubmed: a web interface for semantic enabled browsing of PubMed using Gene Ontology[EB/ OL].[2015-12-01]. http://www.biomedcentral.com/content/pdf/1471-2105-9-S7-P20.pdf.
[6] Tsuruoka Y, Tsujii J, Ananiadou S. FACTA: a text search engine for finding associated biomedical concepts[EB/OL].[2015-12-01]. http:// bioinformatics.oxfordjournals.org/content/24/21/2559.long.
[7] PubOnto provides multiple ontologies from the Open Biomedical Ontology [EB/OL].[2015-12-01].http://brainarray.mbni.med.umich.edu/ brainarray/prototype/PubOnto/.
[8] 張云秋,冷伏海.MetaMap的文本映射原理及其對信息檢索效果的影響[J].情報學(xué)報, 2007, 26(3):344-349.
[9] Yu C F, Po T L, Hong JD,et al. MeInfo Text2.0:gene methylation and cancer relation extraction from biomedical literature[J].BMC BIOINFOR MATICS,2011,12(1):471.
[10] Fernando.UEM-UC3M: An Ontology-based named entity recognition system for biomedical texts[EB/OL].[2015-12-01].http://aclweb.org/ anthology/S/S13/S13-2104.pdf.
[11] Prikshit S. A survey on Name Entity Extraction in the Biomedical Domain [EB/OL].[2015-12-1]. http://sifaka.cs.uiuc.edu/~sondhi1/survey1. pdf.
[12] Wei C H, Kao H Y, Lu Z Y. PubTator:A PubMed-like interactive curation system for document triage and literature curation[EB/OL].[2015-12-01]. http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/PubTator/tutorial/ PubTator.pdf.
[13] GenNorm[EB/OL].[2015-12-01].http://ikmbio.csie.ncku.edu.tw/GN/.
[14] Leaman R, Dogan R I, Lu Z Y. DNorm:Disease Named Entity Recognition and Normalization with Pairwise Learning to Rank[EB/ OL].[2015-12-01]. http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/ DNorm/.
[15] Leaman R,Wei C H, Lu Z Y. tmChem: a high performance approach for chemical named entity recognition and normalization [EB/ OL].[2015-12-01]. http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/ tmChem/.
[16] Wei C H, Kao H Y, Lu Z Y. SR4GN:a species recognition software tool for gene normalization [EB/OL].[2015-12-01].http://www.ncbi.nlm.nih. gov/CBBresearch/Lu/downloads/SR4GN/.
[17] Wei C H,Harris B R, Kao H Y,et al.tmVar:A text mining approach for extracting sequence variants in biomedical literature [EB/ OL].[2015-12-01]. http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/pub/ tmVar/.
[18] Jonquet C, Shah N H, Musen M A,et al. NCBO Annotator: Semantic Annotation of Biomedical Data[EB/OL].[2015-12-01]. http://www.lirmm. fr/~jonquet/publications/documents/Demo-ISWC09-Jonquet.pdf.
[19] Coremine medical [EB/OL].[2015-12-01]. http://www.coremine.com/ medical/#search?ids=519944&tt=8191&org=hs&i=5199441.
[20] Semantic Knowledge Representation[EB/OL].[2015-12-01].http://semrep. nlm.nih.gov/.
[21] Abacha A B, Zweigenbaum P. Automatic extraction of semantic relations between medical entities: a rule based approach[J].JOURNAL OF BIOMEDICAL SEMANTICS,2011,2(5): 1-11.
[22] Rindflesch T C, Rajan J V, Hunter L. Extracting Molecular Binding Relationships from Biomedical Text[EB/OL].[2015-12-01]. http://165.112.8.46/files/archive/pub2000016.pdf.
[23] Sharma A, Swaminathan R,Yang H. A Verb-centric Approach for Relationship Extraction in Biomedical Text[EB/OL].[2015-12-01]. http:// cs.sfsu.edu/~huiyang/publications/ICSC10-rel-ex.pdf.
[24] Verhagen M, Pustejovsky M. Medstract - The NextGeneration[EB/ OL].[2015-12-01]. http://www.aclweb.org/anthology/W11-0224.
[25] Swanson D R, Smalheiser N R, Bookstein A. Information discovery from complementary literatures:categorizing viruses as potential weapons[J]. JOURNAL OF AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY,2001,52(10):797-812.
[26] Swanson D, Smalhesier N. An interactive system for finding complementary literatures: a stimulus to scientific discovery[J]. ARTIFICIAL INTELLIGENCE,1997,91(2):183-203.
[27] Smalheiser N R. The Arrowsmith project:2005 status report[EB/ OL].[2015-12-01] . http://pdf.aminer.org/000/039/534/the_arrowsmith_pr oject_status_report.pdf.
[28] Hristovski D, Peterlin B. BITOLA-Biomedical Dicovery Support System [EB/OL].[2015-12-01]. http://ibmi.mf.uni-lj.si/bitola/.
[29] Hu X,Yoo I, Rumm P, et al.Mining Candidate Viruses as Potential Bioterrorism Weapons from Biomedical Literature[EB/OL].[2015-12-01]. http://link.springer.com/content/pdf/10.1007/11427995_6.pdf.
[30] Pratt W,Yildiz M. LitLinker: Capturing Connections across the Biomedical Literature[EB/OL]. [2015-12-01].http://staff.washington.edu/ melihay/publications/KCAP2003.pdf.
[31] Weeber M. Drug Discovery as an Example of Literature-Based Discovery[EB/OL]. [2015-12-01]. http://link.springer.com/content/pdf/10. 1007/978-3-540-73920-3_14.pdf.
[32] Sehgal A K, Srinivasan P. Manjal:A Text Mining System for MEDLINE[EB/OL]. [2015-12-01]. http://dl.acm.org/ft_gateway. cfm?id=1076192&type=pdf.
Research on Biomedical Text Mining Based on Knowledge Organization System
QIAN Qing
(Chinese Academy of Medical Sciences, Institute of Medical Informatics, Beijing 100020, China)
With the rapid development of biomedical information technology, biological medical literatures grow exponentially. It's hard to read and understand the required knowledge by manual, how to integrate knowledge from huge amounts of biomedical literatures, mining new knowledge has been becoming the current hot spot. Knowledge organization system construction in the field of biological medicine is more normative and complete than other fields, which is the foundation for biomedical text mining. A large number of text mining methodsand systems based on knowledge organization system have fast development. This paper investigates the existing medical knowledge organization systems and summarizes the process of biomedical text mining. It also summaries the researches andrecentprogressand analyzes the characteristics of biomedical text mining based on knowledge organization system. The knowledge organization systems play an important role in biomedical text mining and the challenge for the current study are summarized, so as to provide references for biomedical workers.
Knowledge Organization System; Text Mining; Information Retrieval; Information Extraction; Knowledge Discovery
G254
10.3772/j.issn.1673-2286.2016.4.001
錢慶,男,1970年生,中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所副所長,研究員,研究方向:數(shù)據(jù)挖掘,E-mail:qian.qing@imicams.ac.cn。
2016-01-19)