亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        國(guó)內(nèi)外生物醫(yī)學(xué)領(lǐng)域本體研究與實(shí)踐進(jìn)展*

        2020-08-27 13:35:14趙潔司莉
        數(shù)字圖書(shū)館論壇 2020年8期
        關(guān)鍵詞:語(yǔ)義概念

        趙潔 司莉

        (1. 山西財(cái)經(jīng)大學(xué)信息學(xué)院,太原 030006;2. 武漢大學(xué)信息資源研究中心,武漢 430072)

        本體是對(duì)共享概念體系的形式化規(guī)范說(shuō)明,具有語(yǔ)義準(zhǔn)確、概念清晰、語(yǔ)義關(guān)系豐富、成果開(kāi)放集成等優(yōu)勢(shì),被廣泛應(yīng)用于信息檢索、知識(shí)管理等領(lǐng)域,用以促進(jìn)、支持和提高資源發(fā)現(xiàn)和信息檢索的質(zhì)量[1]。生物醫(yī)學(xué)領(lǐng)域是涉及從生物體到化學(xué)結(jié)構(gòu)等多個(gè)學(xué)科的復(fù)雜領(lǐng)域,對(duì)其知識(shí)結(jié)構(gòu)及關(guān)聯(lián)信息資源的組織是實(shí)現(xiàn)相應(yīng)資源有效獲取的重要條件。而本體作為包含概念與概念關(guān)系的語(yǔ)義化知識(shí)組織工具,具有良好的結(jié)構(gòu)化表示信息的能力和人機(jī)可讀的特點(diǎn),成為生物醫(yī)學(xué)領(lǐng)域資源組織的主要方式。

        生物醫(yī)學(xué)領(lǐng)域本體是以解決生物醫(yī)學(xué)術(shù)語(yǔ)的通用性和規(guī)范性,以及構(gòu)建醫(yī)學(xué)健康術(shù)語(yǔ)間關(guān)系為目的的領(lǐng)域本體,其作用是促進(jìn)信息系統(tǒng)理解生物醫(yī)學(xué)領(lǐng)域的語(yǔ)言含義。有些學(xué)者對(duì)生物醫(yī)學(xué)領(lǐng)域本體的研究成果進(jìn)行了梳理。如陳焱等[2]介紹了統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)(Unified Medical Language System,UMLS)、醫(yī)學(xué)術(shù)語(yǔ)系統(tǒng)命名法——臨床術(shù)語(yǔ)(Systematized Nomenclature of Medicine-Clinical Terms,SNOMED CT)、人類(lèi)發(fā)育解剖學(xué)本體(Ontology of Human Developmental Anatomy,HUMAT)、基因本體(Gene Ontology,GO)、醫(yī)學(xué)知識(shí)庫(kù)(NKIMed)、中文一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)(Chinese Unified Medical Language System,CUMLS)等國(guó)內(nèi)外醫(yī)學(xué)領(lǐng)域的主要本體。吳明智等[3]通過(guò)文獻(xiàn)調(diào)查,分析了當(dāng)前生物醫(yī)學(xué)本體的研究現(xiàn)狀與研究熱點(diǎn)。張慶等[4]通過(guò)相關(guān)文獻(xiàn)高頻主題詞的共現(xiàn)聚類(lèi)分析,總結(jié)生物醫(yī)學(xué)本體在生物信息學(xué)、臨床醫(yī)學(xué)、醫(yī)學(xué)信息學(xué)以及人工智能中的應(yīng)用情況。吳正荊等[5]從開(kāi)發(fā)時(shí)間、覆蓋內(nèi)容、結(jié)構(gòu)等方面對(duì)UMLS、開(kāi)放生物醫(yī)學(xué)本體(Open Biomedical Ontology,OBO)、臨床醫(yī)學(xué)本體OpenGALEN(Open Generalized Architecture for Languages,Encyclopedias and Nomenclatures in Medicine)、生物醫(yī)學(xué)調(diào)查本體(Ontology for Biomedical Investigations,OBI)4類(lèi)生物醫(yī)學(xué)本體進(jìn)行深入比較,總結(jié)目前本體開(kāi)發(fā)中存在的同義詞與術(shù)語(yǔ)表達(dá)、對(duì)應(yīng)關(guān)系與間隔尺度等主要問(wèn)題。

        近年來(lái),生物醫(yī)學(xué)領(lǐng)域本體的研究與實(shí)踐取得了新的進(jìn)展,亟需全面梳理與系統(tǒng)綜述,以應(yīng)對(duì)當(dāng)前大數(shù)據(jù)環(huán)境下醫(yī)學(xué)知識(shí)表示與組織的需求。本文首先對(duì)現(xiàn)有國(guó)內(nèi)外常用生物醫(yī)學(xué)領(lǐng)域本體進(jìn)行歸納總結(jié);其次,通過(guò)對(duì)2010—2019年國(guó)內(nèi)外相關(guān)文獻(xiàn)調(diào)研,梳理近十年國(guó)內(nèi)外生物醫(yī)學(xué)領(lǐng)域本體的研究與實(shí)踐;最后,展望生物醫(yī)學(xué)領(lǐng)域本體的未來(lái)發(fā)展。通過(guò)上述3個(gè)方面的研究,期望能夠?yàn)槲覈?guó)生物醫(yī)學(xué)領(lǐng)域本體的構(gòu)建與應(yīng)用提供借鑒。

        1 國(guó)內(nèi)外主要生物醫(yī)學(xué)領(lǐng)域本體概覽

        生物醫(yī)學(xué)領(lǐng)域本體發(fā)展至今,已形成較為成熟、不同規(guī)模、不同生物醫(yī)學(xué)子領(lǐng)域的本體,被廣泛應(yīng)用于創(chuàng)建、處理、檢索和整合生物醫(yī)學(xué)數(shù)據(jù)和信息。筆者對(duì)國(guó)內(nèi)外比較常用的生物醫(yī)學(xué)領(lǐng)域本體進(jìn)行歸納總結(jié),以促進(jìn)生物醫(yī)學(xué)領(lǐng)域知識(shí)的獲取與利用。

        1.1 國(guó)外主要生物醫(yī)學(xué)領(lǐng)域本體概覽

        國(guó)外生物醫(yī)學(xué)領(lǐng)域本體包括UMLS語(yǔ)義網(wǎng)絡(luò)、SNOMED CT、GO、疾病本體(Disease Ontology,DO)、人類(lèi)表型本體(Human Phenotype Ontology,HPO)、臨床藥品標(biāo)準(zhǔn)命名術(shù)語(yǔ)表(RxNorm)等。表1是國(guó)外代表性生物醫(yī)學(xué)領(lǐng)域本體概覽。

        表1 國(guó)外代表性生物醫(yī)學(xué)領(lǐng)域本體概覽

        1.2 國(guó)內(nèi)主要生物醫(yī)學(xué)領(lǐng)域本體概覽

        相較于國(guó)外生物醫(yī)學(xué)領(lǐng)域本體,國(guó)內(nèi)發(fā)展較慢。國(guó)內(nèi)生物醫(yī)學(xué)領(lǐng)域本體包括CUMLS、中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)(Traditional Chinese Medicine Language System,TCMLS)等。表2是國(guó)內(nèi)代表性生物醫(yī)學(xué)領(lǐng)域本體概覽。

        表2 國(guó)內(nèi)代表性生物醫(yī)學(xué)領(lǐng)域本體概覽

        2 生物醫(yī)學(xué)領(lǐng)域本體的相關(guān)研究

        本文采用文獻(xiàn)調(diào)研法獲取與本研究主題相關(guān)的近十年研究成果,即2010—2019年。具體的檢索策略如下。①?lài)?guó)外文獻(xiàn)檢索策略。檢索數(shù)據(jù)庫(kù)為Web of Science,檢索式為T(mén)S=((“medical”O(jiān)R“health”O(jiān)R“disease”)

        AND“ontology”)AND SU=Information Science &Library Science,檢索時(shí)間截至2020年3月15日,檢索結(jié)果有84篇,經(jīng)主題篩選與全文獲取要求,其中25篇為本文研究對(duì)象。②國(guó)內(nèi)文獻(xiàn)檢索策略。檢索數(shù)據(jù)庫(kù)為中國(guó)知網(wǎng),檢索主題詞包括疾病本體、醫(yī)學(xué)本體、藥物本體,檢索時(shí)間截至2020年3月20日,檢索結(jié)果有129篇,經(jīng)主題篩選與全文獲取要求,其中54篇為本文研究對(duì)象。筆者以這79篇文獻(xiàn)為研究對(duì)象進(jìn)行文獻(xiàn)綜述,梳理近十年國(guó)內(nèi)外生物醫(yī)學(xué)領(lǐng)域本體的應(yīng)用情況、研究熱點(diǎn)與未來(lái)發(fā)展趨勢(shì)。

        基于對(duì)上述文獻(xiàn)的歸納總結(jié),生物醫(yī)學(xué)領(lǐng)域本體的相關(guān)研究集中在構(gòu)建、整合與擴(kuò)展3個(gè)主題。筆者分別對(duì)這3個(gè)主題的相關(guān)研究進(jìn)行述評(píng)。

        2.1 生物醫(yī)學(xué)領(lǐng)域本體的構(gòu)建

        除應(yīng)用現(xiàn)有成熟的生物醫(yī)學(xué)領(lǐng)域本體之外,不同學(xué)者針對(duì)應(yīng)用需要,建立了腫瘤、神經(jīng)系統(tǒng)、肝臟疾病、產(chǎn)科和新生兒、孕產(chǎn)、傷口管理、軍事醫(yī)學(xué)等特定醫(yī)學(xué)子領(lǐng)域的本體,并通過(guò)融合其他來(lái)源的知識(shí),使本體更能體現(xiàn)公眾關(guān)心的關(guān)鍵問(wèn)題。針對(duì)本體構(gòu)建相關(guān)文獻(xiàn),筆者從構(gòu)建的信息源和方法兩個(gè)角度進(jìn)行梳理。

        2.1.1 生物醫(yī)學(xué)領(lǐng)域本體構(gòu)建信息源

        生物醫(yī)學(xué)領(lǐng)域本體構(gòu)建的信息源主要有兩種類(lèi)型:一是敘詞表、分類(lèi)表、主題詞表等受控詞表,這類(lèi)信息源屬于結(jié)構(gòu)化信息源,語(yǔ)義結(jié)構(gòu)清晰,概念與概念關(guān)系成熟、準(zhǔn)確,可以直接作為本體構(gòu)建的語(yǔ)義基礎(chǔ);二是電子病歷、醫(yī)學(xué)文獻(xiàn)、在線(xiàn)健康信息等非結(jié)構(gòu)化信息源,數(shù)量龐大,包含更加豐富和多樣的術(shù)語(yǔ)、概念與概念關(guān)系,能夠體現(xiàn)用戶(hù)健康信息需求。目前,后者是現(xiàn)今本體構(gòu)建信息源的研究重點(diǎn)。

        (1)基于結(jié)構(gòu)化信息源的生物醫(yī)學(xué)領(lǐng)域本體構(gòu)建。結(jié)構(gòu)化信息源中,研究者使用最多的是UMLS、SNOMED CT、MeSH這3種信息源。①基于UMLS的本體構(gòu)建。UMLS語(yǔ)義網(wǎng)絡(luò)是本體構(gòu)建中使用最多的信息源,常被作為頂層本體用于生物醫(yī)學(xué)領(lǐng)域本體構(gòu)建的基礎(chǔ)。李亞子等[6]基于UMLS語(yǔ)義網(wǎng)絡(luò)構(gòu)建癥狀、檢查、藥物、醫(yī)療法規(guī)等子領(lǐng)域本體,并將其與UMLS語(yǔ)義類(lèi)型映射,借助語(yǔ)義類(lèi)型之間的關(guān)系實(shí)現(xiàn)各個(gè)子領(lǐng)域本體的關(guān)聯(lián)。米楊等[7]充分利用UMLS語(yǔ)義網(wǎng)絡(luò)中的語(yǔ)義關(guān)系,構(gòu)建具有通用語(yǔ)義屬性的醫(yī)學(xué)文獻(xiàn)本體。曹錦丹等[8]基于UMLS語(yǔ)義網(wǎng)絡(luò)中的語(yǔ)義屬性關(guān)系構(gòu)建具有上層語(yǔ)義特征的領(lǐng)域本體(國(guó)家基本藥物本體)。②基于SNOMED CT與MeSH的本體構(gòu)建。Shepherd等[9]基于SNOMED CT構(gòu)建了一個(gè)本體并將其作為邊界對(duì)象,以解決照顧慢性病患者的多學(xué)科衛(wèi)生保健小組成員之間的語(yǔ)義互操作鴻溝。Naskar等[1]基于MeSH、SNOMED CT等標(biāo)準(zhǔn)詞表使用分面方法構(gòu)建了人類(lèi)神經(jīng)系統(tǒng)(Human nervous system,HNS)疾病本體,包含疾病、診斷、癥狀、副作用等概念類(lèi)型。牟冬梅等[10]結(jié)合SNOMED CT和概念格構(gòu)建了甲狀腺疾病本體。李曉瑛等[11]在借鑒已有疾病本體描述框架的基礎(chǔ)上,復(fù)用SNOMED CT、UMLS等權(quán)威醫(yī)學(xué)知識(shí)組織系統(tǒng)中腫瘤相關(guān)概念及內(nèi)容結(jié)構(gòu),從腫瘤(名稱(chēng))、病因、診斷、治療4個(gè)維度構(gòu)建腫瘤本體。

        (2)基于非結(jié)構(gòu)化信息源的生物醫(yī)學(xué)領(lǐng)域本體構(gòu)建。相較于受控詞表,電子病歷、在線(xiàn)健康信息、醫(yī)學(xué)文獻(xiàn)等非結(jié)構(gòu)化信息源具有更加豐富的待挖掘的語(yǔ)義信息,成為現(xiàn)今本體構(gòu)建的重要信息源。①基于電子病歷的本體構(gòu)建。Almeida等[12]以電子健康記錄和醫(yī)學(xué)信息系統(tǒng)中的醫(yī)學(xué)信息為基礎(chǔ)構(gòu)建了產(chǎn)科和新生兒本體(Obstetric and Neonatal Ontology,OntoNeo),目的在于組織專(zhuān)門(mén)的醫(yī)學(xué)知識(shí)、統(tǒng)一表示相關(guān)信息。陸泉等[13]利用電子病歷大數(shù)據(jù)與疾病知識(shí)的聯(lián)系,構(gòu)建了基于擴(kuò)展疾病本體DO的電子病歷大數(shù)據(jù)組織模型框架,并以維基百科、MIMIC為例展開(kāi)DO擴(kuò)展與電子病歷大數(shù)據(jù)知識(shí)組織實(shí)驗(yàn)。②基于在線(xiàn)健康信息的本體構(gòu)建。Choi[14]通過(guò)對(duì)社交網(wǎng)站收集的社會(huì)化標(biāo)簽進(jìn)行標(biāo)簽語(yǔ)義分析,提出基于社會(huì)化標(biāo)簽構(gòu)建用戶(hù)健康本體的框架,以更好地滿(mǎn)足健康用戶(hù)需求,改進(jìn)用戶(hù)訪(fǎng)問(wèn)與檢索。Zhitomirsky-Geffet等[15]基于用戶(hù)對(duì)知識(shí)領(lǐng)域的各種觀(guān)點(diǎn)均感興趣,通過(guò)兩階段方法建立非專(zhuān)家用戶(hù)和群體智慧協(xié)作的多角度本體,并以飲食對(duì)健康的影響為例進(jìn)行實(shí)證。Clunis[16]基于網(wǎng)絡(luò)食譜開(kāi)發(fā)了用于管理高血壓患者飲食的本體,該本體描述了食譜、食物中的營(yíng)養(yǎng)成分、營(yíng)養(yǎng)成分與處方藥的相互作用、疾病與一般健康的關(guān)系,為高血壓等慢性疾病患者的治療提供支持。熊回香等[17]利用網(wǎng)絡(luò)社區(qū)用戶(hù)的群體需求特征,復(fù)用和優(yōu)化已有的通用疾病本體模型,構(gòu)建面向用戶(hù)的慢病知識(shí)服務(wù)模型,并構(gòu)建了冠心病本體及相應(yīng)慢病知識(shí)服務(wù)平臺(tái)。③基于醫(yī)學(xué)文獻(xiàn)的本體構(gòu)建。周利琴等[18]采用人工和自動(dòng)相結(jié)合的方式從非結(jié)構(gòu)化數(shù)據(jù)源《中國(guó)高血壓防治指南2010》中抽取知識(shí)元素,并將其融合到DO疾病本體中的高血壓本體,對(duì)該高血壓本體進(jìn)行擴(kuò)充,形成可以解決具體領(lǐng)域問(wèn)題的知識(shí)庫(kù)。于凡等[19]利用本體技術(shù)從《中國(guó)2型糖尿病防治指南(2013年版)》中抽取概念并建立語(yǔ)義關(guān)聯(lián),通過(guò)七步法和骨架法構(gòu)建糖尿病本體庫(kù)。

        2.1.2 生物醫(yī)學(xué)領(lǐng)域本體構(gòu)建方法

        生物醫(yī)學(xué)領(lǐng)域本體的構(gòu)建方法主要包括人工構(gòu)建、自動(dòng)構(gòu)建、半自動(dòng)構(gòu)建3種類(lèi)型。①人工構(gòu)建是指通過(guò)Protégé、Kano、Chimaera、WebOnto等編輯器或構(gòu)建工具構(gòu)建本體,具有操作方式簡(jiǎn)單、概念與概念關(guān)系準(zhǔn)確、工作量大等特點(diǎn)。②自動(dòng)構(gòu)建是指借助機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、人工智能等技術(shù),通過(guò)自然語(yǔ)言規(guī)則以及統(tǒng)計(jì)分析明確并構(gòu)建概念以及概念間關(guān)系[20],可大幅減少工作量,在抽取大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)中具有巨大優(yōu)勢(shì)。③半自動(dòng)構(gòu)建是人工方式與自動(dòng)方式的結(jié)合,首先借助自然語(yǔ)言處理、數(shù)據(jù)挖掘等自動(dòng)化方法,從語(yǔ)料中抽取概念與概念關(guān)系,然后人工校驗(yàn)抽取結(jié)果[20]。

        (1)基于人工方式的生物醫(yī)學(xué)領(lǐng)域本體構(gòu)建。Kostyuk等[21]通過(guò)專(zhuān)家手工標(biāo)注274篇摘要的方式,鑒定了30種出現(xiàn)在自閉癥醫(yī)學(xué)文獻(xiàn)中的語(yǔ)言障礙術(shù)語(yǔ),并將其組織成自閉癥語(yǔ)言障礙本體。杜志銀等[20]提出以臨床檢驗(yàn)診斷應(yīng)用為目的,基于人工方式與現(xiàn)有領(lǐng)域資源復(fù)用構(gòu)建臨床檢驗(yàn)診斷學(xué)領(lǐng)域雙語(yǔ)本體。Naskar等[1]使用分面方法構(gòu)建了HNS疾病本體。

        (2)基于自動(dòng)或半自動(dòng)方式的生物醫(yī)學(xué)領(lǐng)域本體構(gòu)建。Rios-Alvarado等[22]通過(guò)層次關(guān)系發(fā)現(xiàn)和公理提取相結(jié)合的本體學(xué)習(xí)方法發(fā)現(xiàn)醫(yī)學(xué)領(lǐng)域的層次關(guān)系和公理抽取。Peng等[23]提出基于網(wǎng)絡(luò)資源的本體學(xué)習(xí)方法構(gòu)建醫(yī)學(xué)本體,首先根據(jù)醫(yī)學(xué)詞表抽取術(shù)語(yǔ)和分類(lèi)關(guān)系來(lái)構(gòu)建輕量級(jí)本體,然后從網(wǎng)絡(luò)資源中自動(dòng)學(xué)習(xí)非分類(lèi)關(guān)系,最后將輕量級(jí)本體集成為大型醫(yī)學(xué)本體。洪亮等[24]提出通過(guò)推理-復(fù)用法(半自動(dòng)方法)來(lái)構(gòu)建醫(yī)學(xué)本體,首先初始化領(lǐng)域知識(shí)和數(shù)據(jù),確保本體知識(shí)結(jié)構(gòu)的準(zhǔn)確性;然后使用基于本體和規(guī)則的知識(shí)推理來(lái)擴(kuò)展本體規(guī)模,并基于該方法首次構(gòu)建了腦區(qū)-自閉癥本體。唐曉波等[25]通過(guò)基于形式概念分析的本體構(gòu)建方法,包括數(shù)據(jù)獲取、特征詞抽取、形式概念分析和OWL本體描述4個(gè)模塊完成本體構(gòu)建。

        2.2 生物醫(yī)學(xué)領(lǐng)域本體的整合

        現(xiàn)有的生物醫(yī)學(xué)領(lǐng)域本體大多單一存在,并只針對(duì)某一方面知識(shí)進(jìn)行概括。面對(duì)生物醫(yī)學(xué)領(lǐng)域中問(wèn)題的多樣性和復(fù)雜性,多個(gè)本體融合能夠有效促進(jìn)領(lǐng)域知識(shí)的共享和表達(dá),提供多維度解決問(wèn)題的視角,并能夠支持領(lǐng)域知識(shí)的重用和互操作性。本體整合須對(duì)本體異構(gòu)特征進(jìn)行分析,本體整合的主要方式為映射。

        國(guó)外方面,Raje等[26]分析了DO和SNOMED CT在疾病覆蓋范圍與層次結(jié)構(gòu)上的差異,有助于這兩種本體之間的互操作。Finke等[27]使用本體映射的方法整合了放射學(xué)伽瑪斯本體(The Radiology Gamuts Ontology,RGO)、DO與HPO,映射結(jié)果可被用于支持自動(dòng)診斷推理、數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)。Kahn等[28]使用半自動(dòng)字符串匹配的方法實(shí)現(xiàn)了孤兒罕見(jiàn)病本體(the Orphanet Rare Disease Ontology,ORDO)與RGO的術(shù)語(yǔ)匹配,擴(kuò)展了可用于放射鑒別診斷的術(shù)語(yǔ)和知識(shí)范圍。

        國(guó)內(nèi)方面,王麗偉等[29]提出多領(lǐng)域本體映射與聚類(lèi)理論模型,并以該模型為指導(dǎo),選取藥物領(lǐng)域本體RxNorm與NDF-RT(美國(guó)國(guó)家藥物文件——參考術(shù)語(yǔ))進(jìn)行映射實(shí)例研究,提出RxNorm與NDF-RT兩個(gè)領(lǐng)域本體之間映射及信息分類(lèi)與聚合的新方法。曹春萍等[30]通過(guò)分析GO、DO和HPO這3個(gè)本體的結(jié)構(gòu)和內(nèi)容,回溯本體構(gòu)建過(guò)程,從構(gòu)建數(shù)據(jù)源中挖掘不同本體間存在的關(guān)聯(lián)關(guān)系,從而實(shí)現(xiàn)本體融合,促進(jìn)從基因分子水平上剖析疾病的產(chǎn)生以及疾病在體征上的表達(dá)等因果串聯(lián)性研究。程亮[31]根據(jù)疾病術(shù)語(yǔ)之間的同義詞關(guān)系以及本體中存在的集合包含關(guān)系,將疾病數(shù)據(jù)庫(kù)中的疾病術(shù)語(yǔ)分別以同義詞映射以及推理映射的方式映射到疾病本體的術(shù)語(yǔ)上,從而整合了不同疾病數(shù)據(jù)庫(kù)中的疾病術(shù)語(yǔ)。米楊[32]基于頂層本體整合構(gòu)建了醫(yī)學(xué)領(lǐng)域本體語(yǔ)義標(biāo)注系統(tǒng)模型,探討本體整合對(duì)于語(yǔ)義標(biāo)注效果的促進(jìn)作用。

        2.3 生物醫(yī)學(xué)領(lǐng)域本體的擴(kuò)展

        傳統(tǒng)生物醫(yī)學(xué)領(lǐng)域本體,如UMLS、SNOMED CT、DO、GO等,雖然具有較高的準(zhǔn)確性、權(quán)威性與規(guī)范性,但多為專(zhuān)業(yè)術(shù)語(yǔ),在以非專(zhuān)業(yè)詞匯為主的面向用戶(hù)的應(yīng)用中不能提供充分支持,因此,需要利用在線(xiàn)健康信息、電子病歷、醫(yī)學(xué)文獻(xiàn)等資源來(lái)擴(kuò)展傳統(tǒng)生物醫(yī)學(xué)領(lǐng)域本體中的術(shù)語(yǔ)、概念、概念關(guān)系。

        Muresan等[33]從面向消費(fèi)者的文本和網(wǎng)絡(luò)文檔中自動(dòng)抽取定義,通過(guò)歸納語(yǔ)義語(yǔ)法的方法將自然語(yǔ)言表達(dá)的定義映射到術(shù)語(yǔ)知識(shí),以實(shí)現(xiàn)從文本中構(gòu)建消費(fèi)者健康術(shù)語(yǔ)。Cuzzola等[34]使用簡(jiǎn)單知識(shí)組織系統(tǒng)(SKOS)和資源描述框架(RDFS)中的本體關(guān)系將UMLS概念映射到DBPedia資源,以縮小專(zhuān)業(yè)人士與公眾使用的健康術(shù)語(yǔ)之間的差距,為生物醫(yī)學(xué)領(lǐng)域的知識(shí)庫(kù)構(gòu)建提供基礎(chǔ)。李曉瑛等[11]探討了一種基于生物醫(yī)學(xué)文獻(xiàn)主題標(biāo)引詞的語(yǔ)義關(guān)系發(fā)現(xiàn)方法,用于豐富腫瘤本體類(lèi)間關(guān)系及擴(kuò)充腫瘤本體知識(shí)庫(kù)。

        3 生物醫(yī)學(xué)領(lǐng)域本體的相關(guān)實(shí)踐

        生物醫(yī)學(xué)領(lǐng)域本體包含規(guī)范概念與語(yǔ)義信息,能夠解決相關(guān)概念的規(guī)范描述,提高醫(yī)學(xué)信息的檢索效果,主要應(yīng)用于醫(yī)學(xué)信息描述、查詢(xún)擴(kuò)展、知識(shí)庫(kù)構(gòu)建、術(shù)語(yǔ)相似度計(jì)算。

        (1)醫(yī)學(xué)信息描述。Liu等[35]利用基于DO疾病本體的注釋來(lái)描繪生物醫(yī)學(xué)研究活動(dòng),為使用現(xiàn)有本體自動(dòng)分析疾病研究活動(dòng)提供了證明。Albright等[36]利用UMLS中的語(yǔ)義信息,對(duì)帶有127 606個(gè)標(biāo)記的臨床敘事語(yǔ)料庫(kù)進(jìn)行人工標(biāo)注。Martinez-Costa等[37]基于本體實(shí)現(xiàn)相同或相似臨床信息的異構(gòu)語(yǔ)法表示,從而提高電子健康記錄(EHRs)的語(yǔ)義互操作。米楊等[38]利用Protégé、GATE等工具整合中文鼻部炎癥疾病知識(shí)本體和國(guó)家基本藥物知識(shí)本體,以實(shí)現(xiàn)對(duì)電子病歷的標(biāo)注。

        (2)查詢(xún)擴(kuò)展。Azcarate等[39]使用醫(yī)學(xué)主題詞表MeSH的層級(jí)結(jié)構(gòu)進(jìn)行查詢(xún)擴(kuò)展,以提高醫(yī)學(xué)圖像檢索系統(tǒng)的檢索效率。Yim等[40]利用生物醫(yī)學(xué)本體和豐富的語(yǔ)言特征對(duì)放射學(xué)報(bào)告中腫瘤事件屬性進(jìn)行分類(lèi)。Yu等[41]將基因組學(xué)研究中的重要概念與UMLS語(yǔ)義網(wǎng)絡(luò)整合。

        (3)知識(shí)庫(kù)構(gòu)建。Chen等[42]使用UMLS結(jié)構(gòu)構(gòu)建醫(yī)學(xué)圖像庫(kù),并基于標(biāo)準(zhǔn)醫(yī)學(xué)本體中的術(shù)語(yǔ)來(lái)標(biāo)注圖像,如解剖學(xué)基礎(chǔ)模型(FMA)、國(guó)際疾病分類(lèi)第9版(ICD9)、RxNorm等,為消費(fèi)者建立大規(guī)模的健康圖像庫(kù)。咸珂[43]采用基于本體的信息抽取算法從在線(xiàn)健康問(wèn)診內(nèi)容中抽取疾病癥狀、治療方案、所需檢查等信息,并形成結(jié)構(gòu)化的健康知識(shí)庫(kù)。鞏沐歌等[44]構(gòu)建了基于本體的具有智能推理功能的高血壓疾病知識(shí)庫(kù),為高血壓診斷專(zhuān)家系統(tǒng)建立可共享、可復(fù)用的診斷知識(shí)庫(kù)系統(tǒng)提供參考。

        (4)術(shù)語(yǔ)相似度計(jì)算。邵玉凱[45]利用HPO研究基因和表型、疾病和表型的相似性關(guān)系,進(jìn)而預(yù)測(cè)病人的致病基因和疾病,提出一種基于HPO中通路的相似性計(jì)算方法。范雪雪等[46]依據(jù)SNOMED CT和MeSH兩個(gè)醫(yī)學(xué)本體的層級(jí)結(jié)構(gòu)和語(yǔ)義關(guān)系,提取概念術(shù)語(yǔ)的深度、距離等語(yǔ)義參數(shù),并用概念密度對(duì)其加權(quán)得到深度系數(shù)和距離系數(shù),構(gòu)造相似度函數(shù)進(jìn)行術(shù)語(yǔ)相似度計(jì)算。邱實(shí)[47]將生物醫(yī)學(xué)領(lǐng)域本體與疾病實(shí)驗(yàn)數(shù)據(jù)建立映射關(guān)聯(lián),從疾病實(shí)驗(yàn)數(shù)據(jù)中發(fā)現(xiàn)更多概念與概念之間的相似關(guān)系。

        4 生物醫(yī)學(xué)領(lǐng)域本體的發(fā)展趨勢(shì)

        基于上述不同方面中相關(guān)實(shí)踐的歸納總結(jié),生物醫(yī)學(xué)領(lǐng)域本體的未來(lái)發(fā)展趨勢(shì)如下。

        (1)生物醫(yī)學(xué)領(lǐng)域本體的應(yīng)用范圍逐步擴(kuò)大。除傳統(tǒng)的醫(yī)學(xué)信息描述、查詢(xún)擴(kuò)展之外,基于本體的生物醫(yī)學(xué)領(lǐng)域知識(shí)庫(kù)構(gòu)建以及術(shù)語(yǔ)相似度計(jì)算方面的應(yīng)用在不斷增加。

        (2)生物醫(yī)學(xué)領(lǐng)域本體的數(shù)據(jù)來(lái)源類(lèi)型從傳統(tǒng)結(jié)構(gòu)化信息源逐漸轉(zhuǎn)向非結(jié)構(gòu)化信息源。相較于傳統(tǒng)的受控詞表等結(jié)構(gòu)化信息源,電子病歷、在線(xiàn)健康信息、醫(yī)學(xué)文獻(xiàn)等非結(jié)構(gòu)化信息源包含更加豐富、更符合用戶(hù)需求的語(yǔ)義信息,成為傳統(tǒng)生物醫(yī)學(xué)領(lǐng)域本體擴(kuò)展及新型生物醫(yī)學(xué)領(lǐng)域本體構(gòu)建的重要數(shù)據(jù)來(lái)源,能夠更好地適用于面向用戶(hù)的健康應(yīng)用中。

        (3)生物醫(yī)學(xué)領(lǐng)域本體的構(gòu)建類(lèi)型與構(gòu)建方法分別向精準(zhǔn)化、自動(dòng)化發(fā)展。特定生物醫(yī)學(xué)子領(lǐng)域本體是現(xiàn)今本體構(gòu)建熱點(diǎn),機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等本體學(xué)習(xí)方法被廣泛應(yīng)用于從大量生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)中抽取用于構(gòu)建本體的概念與概念關(guān)系。

        (4)多個(gè)本體融合是解決復(fù)雜生物醫(yī)學(xué)領(lǐng)域問(wèn)題的重要方法。生物醫(yī)學(xué)問(wèn)題往往關(guān)聯(lián)疾病的多個(gè)方面,以具體生物醫(yī)學(xué)問(wèn)題為核心,關(guān)聯(lián)與其相關(guān)的多個(gè)異構(gòu)本體,實(shí)現(xiàn)本體重用,并整合相關(guān)領(lǐng)域知識(shí)。

        5 結(jié)論

        本文首先從本體概述、創(chuàng)建單位、本體類(lèi)型、本體規(guī)模、本體結(jié)構(gòu)5個(gè)方面歸納總結(jié)了國(guó)內(nèi)外具有代表性的生物醫(yī)學(xué)領(lǐng)域本體。同時(shí),通過(guò)對(duì)2010—2019年國(guó)內(nèi)外生物醫(yī)學(xué)領(lǐng)域本體的文獻(xiàn)調(diào)研,從構(gòu)建、整合與擴(kuò)展3個(gè)方面總結(jié)了相關(guān)研究,以及生物醫(yī)學(xué)領(lǐng)域本體在醫(yī)學(xué)信息描述、查詢(xún)擴(kuò)展、知識(shí)庫(kù)構(gòu)建、術(shù)語(yǔ)相似度計(jì)算等方面的應(yīng)用實(shí)踐,并分析了生物醫(yī)學(xué)領(lǐng)域本體的未來(lái)發(fā)展趨勢(shì)。構(gòu)建方面,筆者分別從構(gòu)建信息源與構(gòu)建方法兩個(gè)角度歸納,構(gòu)建信息源包括UMLS、SNOMED CT、MeSH等結(jié)構(gòu)化信息源,以及電子病歷、在線(xiàn)健康信息、醫(yī)學(xué)文獻(xiàn)等非結(jié)構(gòu)化信息源;構(gòu)建方法包括利用Protégé等人工方式構(gòu)建,以及形式概念分析、深度學(xué)習(xí)等自動(dòng)或半自動(dòng)方式構(gòu)建。整合方面,主要包括對(duì)不同本體異構(gòu)特征的分析以及基于映射的本體整合。擴(kuò)展方面,利用在線(xiàn)健康信息、電子病歷、醫(yī)學(xué)文獻(xiàn)等資源來(lái)擴(kuò)展傳統(tǒng)生物醫(yī)學(xué)領(lǐng)域本體中的術(shù)語(yǔ)、概念與概念關(guān)系。

        猜你喜歡
        語(yǔ)義概念
        Birdie Cup Coffee豐盛里概念店
        語(yǔ)言與語(yǔ)義
        幾樣概念店
        學(xué)習(xí)集合概念『四步走』
        聚焦集合的概念及應(yīng)用
        論間接正犯概念之消解
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        概念的限制
        “深+N季”組配的認(rèn)知語(yǔ)義分析
        4hu四虎永久免费地址ww416| 国产亚洲一区二区三区夜夜骚| 亚洲av高清在线一区二区三区| 91精品国产综合久久久密臀九色| 无码人妻精品一区二区蜜桃网站| 成全视频高清免费| 无码专区亚洲avl| 女女同女同一区二区三区| 精品久久久久久无码中文野结衣 | 欧美在线综合| 熟女人妻一区二区在线观看| 91日韩东京热中文字幕| 国产女人高潮叫床免费视频| 亚洲人成综合网站在线| 国产熟女乱综合一区二区三区| 丝袜美腿国产一区精品| 天天天天躁天天爱天天碰2018| 久久噜噜噜| 国产国语一级免费黄片| 国产成人av无码精品| 内射囯产旡码丰满少妇| 中文无码日韩欧免费视频| av高潮一区二区三区| 国产精品a免费一区久久电影| 亚洲2022国产成人精品无码区| 18禁裸男晨勃露j毛免费观看| 97在线视频免费| 国产丝袜美腿一区二区三区| 国产又大又黑又粗免费视频| 欧美成人一区二区三区在线观看| Jizz国产一区二区| 国产自产二区三区精品| 波多野42部无码喷潮| 国产一级黄色录像| 国产二区中文字幕在线观看 | 久久99精品久久久久久久清纯| 按摩师玩弄少妇到高潮hd| 国产人妻熟女高跟丝袜| a人片在线观看苍苍影院| 欧美洲精品亚洲精品中文字幕 | 国产精品国产三级国产av剧情|