亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        醫(yī)學(xué)知識(shí)圖譜研究綜述

        2023-05-29 10:20:24劉悅悅
        軟件導(dǎo)刊 2023年5期
        關(guān)鍵詞:醫(yī)學(xué)知識(shí)三元組圖譜

        劉悅悅,李 燕

        (甘肅中醫(yī)藥大學(xué) 信息工程學(xué)院,甘肅 蘭州 730000)

        0 引言

        大數(shù)據(jù)(也稱巨量資料)時(shí)代,醫(yī)療數(shù)據(jù)量以幾何級(jí)數(shù)的形式高速增長(zhǎng),數(shù)據(jù)增長(zhǎng)速度可以用“爆炸式”來形容。醫(yī)療數(shù)據(jù)是醫(yī)生在對(duì)病患進(jìn)行診療救治的過程中生成數(shù)據(jù)的總和,包括病患的基本信息、電子病歷、醫(yī)學(xué)管理、診斷數(shù)據(jù)、儀器數(shù)據(jù)、功能檢驗(yàn)數(shù)據(jù)等。概括而言,凡是留存于醫(yī)療衛(wèi)生領(lǐng)域的大數(shù)據(jù)都可稱為醫(yī)療數(shù)據(jù)。大數(shù)據(jù)具有“4V1O”的特征,即數(shù)據(jù)量大(Volume)、類型繁多(Variety)、價(jià)值密度低(Value)、速度快時(shí)效高(Velocity),以及數(shù)據(jù)在線(Online)。在此基礎(chǔ)上醫(yī)療大數(shù)據(jù)還具有獨(dú)特特征,如長(zhǎng)期保存性、時(shí)空性、語義性和隱私性??傊?,醫(yī)療數(shù)據(jù)增長(zhǎng)迅速且來源多樣,這使得如何有效擷取、組織管理以及合理運(yùn)用海量醫(yī)學(xué)數(shù)據(jù)成為亟需解決的問題。

        智能離不開知識(shí),知識(shí)始終是人工智能的核心之一。知識(shí)圖譜(Knowledge Graph)并不是突然興起的新興技術(shù),而是在語義網(wǎng)、本體論、自然語言處理等相關(guān)技術(shù)的影響下產(chǎn)生的結(jié)果。知識(shí)圖譜的概念于2012 年5 月由谷歌公司基于數(shù)據(jù)基礎(chǔ)Freebase 正式推出知識(shí)圖譜搜索引擎后正式產(chǎn)生,其從關(guān)系的角度分析事物間的聯(lián)系,由節(jié)點(diǎn)(抽象的概念或?qū)嶓w)和邊(實(shí)體的屬性或關(guān)系)構(gòu)成知識(shí)圖譜。知識(shí)圖譜的最初目標(biāo)是提高搜索引擎的能力,隨著技術(shù)的推進(jìn)開始在自然語言理解、數(shù)據(jù)分析、智能問答以及人工智能等方面體現(xiàn)出極大價(jià)值。

        近年來,關(guān)于醫(yī)學(xué)知識(shí)圖譜構(gòu)建的成果不斷被提出,國(guó)外知名醫(yī)學(xué)知識(shí)圖譜包括Gene.Ontology、DrugBank、Watson Health 等,國(guó)內(nèi)知名醫(yī)學(xué)知識(shí)圖譜包括鵬城實(shí)驗(yàn)室人工智能研究中心智慧健康醫(yī)療課題組,北京大學(xué)計(jì)算語言學(xué)研究所,鄭州大學(xué)自然語言處理實(shí)驗(yàn)室共同構(gòu)建的中文醫(yī)學(xué)知識(shí)圖譜CMeKG,中國(guó)科學(xué)院計(jì)算機(jī)技術(shù)研究所的OpenKN,上海曙光醫(yī)院中醫(yī)藥知識(shí)圖譜,中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所的中醫(yī)臨床知識(shí)圖譜,中文開放知識(shí)圖譜OpenKG,阿里巴巴的“醫(yī)知鹿”,百度的“靈醫(yī)智慧”,平安智慧醫(yī)療的“平安好醫(yī)生”,騰訊的“覓影”以及北京左醫(yī)科技有限公司旗下的“左手醫(yī)生”等。國(guó)內(nèi)知識(shí)圖譜在醫(yī)療領(lǐng)域的應(yīng)用相對(duì)于國(guó)外來說起步較晚,趙悅淑等[1]通過對(duì)中國(guó)知網(wǎng)和PubMed 英文數(shù)據(jù)庫的中文醫(yī)學(xué)知識(shí)圖譜相關(guān)文獻(xiàn)進(jìn)行檢索及可視化分析,發(fā)現(xiàn)有關(guān)醫(yī)學(xué)知識(shí)圖譜的研究開始于2009 年,2018 年得到快速發(fā)展,并在中醫(yī)藥、影像智能以及疾病風(fēng)險(xiǎn)預(yù)測(cè)方面取得較大進(jìn)步。

        知識(shí)圖譜按照領(lǐng)域通??梢苑譃橥ㄓ弥R(shí)圖譜和特定領(lǐng)域知識(shí)圖譜,相對(duì)于通用知識(shí)圖譜而言,領(lǐng)域知識(shí)圖譜的知識(shí)結(jié)構(gòu)更復(fù)雜并且質(zhì)量要求更高;在準(zhǔn)確率方面,通用知識(shí)圖譜往往有一定程度的容錯(cuò)率,但在領(lǐng)域知識(shí)圖譜,尤其是醫(yī)療領(lǐng)域?qū)χR(shí)圖譜構(gòu)建過程中各類技術(shù)的要求極其苛刻。本文探討的醫(yī)療知識(shí)圖譜屬于領(lǐng)域知識(shí)圖譜,在醫(yī)療領(lǐng)域中關(guān)乎人類生命,知識(shí)來源必須是高質(zhì)量且準(zhǔn)確率更高,盡可能做到完全避免知識(shí)錯(cuò)誤。本文通過介紹醫(yī)學(xué)知識(shí)圖譜的相關(guān)概念,歸納總結(jié)醫(yī)學(xué)知識(shí)圖譜的研究現(xiàn)狀與發(fā)展,以此探索醫(yī)學(xué)知識(shí)圖譜領(lǐng)域的整體概況。

        1 醫(yī)學(xué)知識(shí)圖譜構(gòu)建關(guān)鍵技術(shù)

        醫(yī)學(xué)知識(shí)圖譜的構(gòu)建相較一般知識(shí)圖譜更具挑戰(zhàn)性。醫(yī)學(xué)知識(shí)存在著1-1、1-N、N-1、N-N 的關(guān)系,復(fù)雜、歧義等特點(diǎn)使其知識(shí)圖譜的構(gòu)建困難諸多。單單針對(duì)疾病實(shí)體而言,如心血管疾病就包括冠心病(胸痹)、高血壓(眩暈)、心肌梗死(真心痛)、心絞痛(胸痹心痛)、心律失常(心動(dòng)悸)、心悸(包括驚悸和怔忡)。本文結(jié)合知識(shí)圖譜的構(gòu)建,從醫(yī)學(xué)數(shù)據(jù)源、醫(yī)學(xué)知識(shí)抽取、醫(yī)學(xué)知識(shí)融合、醫(yī)學(xué)知識(shí)表示、醫(yī)學(xué)知識(shí)存儲(chǔ)、醫(yī)學(xué)知識(shí)推理和醫(yī)學(xué)質(zhì)量評(píng)估7 個(gè)方面介紹醫(yī)學(xué)知識(shí)圖譜的構(gòu)建過程。從3 類不同數(shù)據(jù)源中抽取醫(yī)學(xué)知識(shí),針對(duì)抽取知識(shí)異構(gòu)的情況對(duì)知識(shí)進(jìn)行融合,并以三元組的形式進(jìn)行醫(yī)學(xué)知識(shí)的表示,然后對(duì)處理好的醫(yī)學(xué)知識(shí)進(jìn)行知識(shí)庫存儲(chǔ),以構(gòu)建知識(shí)圖譜。對(duì)于醫(yī)學(xué)知識(shí)圖譜構(gòu)建不完整的問題,采用知識(shí)圖譜推理技術(shù)進(jìn)行知識(shí)圖譜補(bǔ)全,最后通過質(zhì)量評(píng)估提高醫(yī)學(xué)知識(shí)圖譜的質(zhì)量和置信度。醫(yī)學(xué)知識(shí)圖譜構(gòu)建框架如圖1所示。

        Fig.1 Construction framework of medical knowledge graph圖1 醫(yī)學(xué)知識(shí)圖譜構(gòu)建框架

        1.1 醫(yī)學(xué)數(shù)據(jù)源

        醫(yī)學(xué)信息技術(shù)的快速發(fā)展導(dǎo)致醫(yī)學(xué)數(shù)據(jù)不斷大量增長(zhǎng),而這些醫(yī)學(xué)數(shù)據(jù)的來源也盡不相同。概括而言,在目前的醫(yī)療領(lǐng)域中,醫(yī)學(xué)數(shù)據(jù)源可以分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)3 類。其中,結(jié)構(gòu)化數(shù)據(jù)包括部分醫(yī)療信息系統(tǒng)中的醫(yī)學(xué)知識(shí)庫、疾病知識(shí)庫以及臨床業(yè)務(wù)數(shù)據(jù)等;半結(jié)構(gòu)化數(shù)據(jù)包括表格、網(wǎng)頁、藥品說明書、心/腦電圖數(shù)據(jù)等;非結(jié)構(gòu)化數(shù)據(jù)包括醫(yī)學(xué)文獻(xiàn)、古籍等文本數(shù)據(jù)[2]。在知識(shí)圖譜的構(gòu)建過程中,難點(diǎn)在于如何將非結(jié)構(gòu)化以及半結(jié)構(gòu)化知識(shí)轉(zhuǎn)化為結(jié)構(gòu)化知識(shí),因?yàn)榉墙Y(jié)構(gòu)化數(shù)據(jù)對(duì)于計(jì)算機(jī)而言是難以直接理解的,需要將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),這就需要借助醫(yī)學(xué)知識(shí)抽取技術(shù)。

        1.2 醫(yī)學(xué)知識(shí)抽取

        知識(shí)抽取是構(gòu)建知識(shí)圖譜的重要技術(shù),對(duì)于實(shí)現(xiàn)自動(dòng)化構(gòu)建具有重大意義。知識(shí)抽取即從數(shù)據(jù)源中通過自動(dòng)化或者半自動(dòng)化的方式抽取有價(jià)值的知識(shí)。知識(shí)即指知識(shí)單元,包括實(shí)體、屬性和關(guān)系,以三元組的形式進(jìn)行存儲(chǔ)。醫(yī)學(xué)知識(shí)抽取的主要目標(biāo)是從不同醫(yī)學(xué)數(shù)據(jù)源知識(shí)中抽取醫(yī)學(xué)實(shí)體、醫(yī)學(xué)關(guān)系以及醫(yī)學(xué)屬性等,同時(shí)保證抽取的準(zhǔn)確性。以下按照知識(shí)單元的構(gòu)成從實(shí)體抽取、關(guān)系抽取以及屬性抽取3方面進(jìn)行醫(yī)學(xué)知識(shí)抽取介紹。

        1.2.1 醫(yī)學(xué)實(shí)體抽取

        實(shí)體抽取又名命名實(shí)體識(shí)別,是知識(shí)抽取最基本的任務(wù)。實(shí)體指具有可區(qū)別性且獨(dú)立存在的某種事物。醫(yī)學(xué)領(lǐng)域?qū)嶓w指科室、癥狀、藥物、疾病、處方等。早期醫(yī)學(xué)實(shí)體識(shí)別主要采用基于字典和規(guī)則的方法,由醫(yī)學(xué)領(lǐng)域知識(shí)專家手工編寫規(guī)則的方法對(duì)實(shí)體進(jìn)行抽取,通過字符串匹配從而達(dá)到識(shí)別命名實(shí)體的效果,這種方法在數(shù)據(jù)集小時(shí)具有很高的準(zhǔn)確率和召回率,但對(duì)于大規(guī)模的數(shù)據(jù)集來說,這種方法不管是在時(shí)效性還是復(fù)用性上均較差。為此,有研究者開始將機(jī)器學(xué)習(xí)算法與統(tǒng)計(jì)模型相結(jié)合為應(yīng)用到實(shí)體抽取中,利用完全標(biāo)注或部分標(biāo)注的語料信息進(jìn)行模型訓(xùn)練,常用相關(guān)模型為隱馬爾可夫模型(Hiden Markov Model,HMM)、條件馬爾可夫模型(Conditional Markov Model,CMM)、最大熵模型(Maximum Entropy Model,MEM)以及條件隨機(jī)場(chǎng)模型(Conditional Random Fields,CRF)、雙向長(zhǎng)短時(shí)記憶模型(Bidirectional Long Short-Term Memory,Bi LSTM)?;跈C(jī)器學(xué)習(xí)的醫(yī)學(xué)實(shí)體抽取存在著醫(yī)學(xué)質(zhì)量不一且人工標(biāo)注專業(yè)性不高的問題。

        近年來,深度學(xué)習(xí)技術(shù)開始應(yīng)用于醫(yī)學(xué)知識(shí)圖譜領(lǐng)域。例如,景慎旗等[3]針對(duì)中文電子病歷文書的命名實(shí)體識(shí)別問題,提出一種基于半監(jiān)督深度學(xué)習(xí)的方法,結(jié)合專家權(quán)威半自動(dòng)化實(shí)體標(biāo)注法和BERT-GCN-CRF 框架構(gòu)建BERT-GCN-CRF 模型,與其他模型相比在準(zhǔn)確率、召回率和F1 值方面均有提高,人工標(biāo)注工作量也顯著減少,對(duì)于電子病歷非結(jié)構(gòu)化文本挖掘具有重要意義。針對(duì)BERT 模型語義單一、詞匯量有限的問題,馬詩語等[4]提出一種ALBERT-BILSTM-CRF 模型,以糖尿病相關(guān)論文及臨床指南為數(shù)據(jù)集,通過比較不同模型F1 值的變化情況,最終得出融合ALBERT 的實(shí)體識(shí)別效果優(yōu)于現(xiàn)有主流模型,且較BERT 訓(xùn)練速度有所提升的結(jié)論;李小亞[5]提出超聲數(shù)據(jù)命名實(shí)體識(shí)別模型,在基線模型BiLSTM-CRF 上引入Bert,設(shè)計(jì)實(shí)驗(yàn)解決了非結(jié)構(gòu)化數(shù)據(jù)的實(shí)體識(shí)別問題。

        1.2.2 醫(yī)學(xué)關(guān)系抽取

        關(guān)系抽取是指從文本數(shù)據(jù)中抽取兩個(gè)或多個(gè)實(shí)體間的語義聯(lián)系,與實(shí)體抽取密切相關(guān)。醫(yī)學(xué)領(lǐng)域?qū)嶓w間的關(guān)系包括疾病—部位、疾病—癥狀、疾病—檢查、疾病—疾病等。早期關(guān)系抽取方法主要為基于共現(xiàn)和基于規(guī)則模板匹配的方法?;诠铂F(xiàn)的方法通過文本出現(xiàn)頻次反映實(shí)體之間的相關(guān)性,方法簡(jiǎn)單、召回率高但準(zhǔn)確率低。基于規(guī)則模板匹配的方法由醫(yī)學(xué)專家手工構(gòu)造規(guī)則模板,然后人工匹配有特定關(guān)系的實(shí)體,準(zhǔn)確率較高,但召回率低、移植性差。近年來,基于深度學(xué)習(xí)的關(guān)系抽取模型不斷被提出,總體分為流水線關(guān)系抽取和聯(lián)合關(guān)系抽取兩類。流水線關(guān)系抽取方法是在實(shí)體抽取后再進(jìn)行關(guān)系抽取,兩者過程相互獨(dú)立,但關(guān)系抽取位于實(shí)體抽取后,又受其影響,常用抽取模型包括Att-Pooling-CNN 模型、depLCNN+NS 模型、CR-CNN 模型等。流水線方法存在誤差不斷積累的缺陷,從而使得抽取性能下降。為此,一些學(xué)者提出了聯(lián)合抽取的方法,聯(lián)合關(guān)系抽取是在同一模型中將關(guān)系抽取與實(shí)體抽取相結(jié)合,共同優(yōu)化。例如,Miwa 等[6]基于嵌入層、LSTM-RNN 層以及依存關(guān)系層三層表示層構(gòu)建了實(shí)體抽取以及關(guān)系抽取的聯(lián)合模型;劉蘇文等[7]針對(duì)因果關(guān)系抽取關(guān)聯(lián)性問題,提出了二元關(guān)系抽取和一元功能識(shí)別共同決策的聯(lián)合學(xué)習(xí)模型,解決了生物醫(yī)學(xué)實(shí)體因果關(guān)系抽取問題;鐘靈玥[8]針對(duì)實(shí)體抽取和關(guān)系抽取兩者間聯(lián)系較弱、模型處理重疊三元組效果欠佳的問題提出TagRE 系列模型,采用聯(lián)合抽取方法重新定義子任務(wù)的方式進(jìn)行處理,從而避免了兩者間缺乏關(guān)聯(lián)的問題。

        1.2.3 醫(yī)學(xué)屬性抽取

        屬性抽取即以結(jié)構(gòu)化的形式呈現(xiàn)識(shí)別文本中關(guān)于屬性的信息。醫(yī)學(xué)實(shí)體屬性的存在,如藥品不良反應(yīng)、服用劑量等,使得對(duì)實(shí)體的認(rèn)識(shí)更加具體。實(shí)體屬性作為實(shí)體的一種附屬關(guān)系,其抽取問題在一定程度上可以轉(zhuǎn)化為關(guān)系抽取問題。

        1.3 醫(yī)學(xué)知識(shí)融合

        醫(yī)學(xué)知識(shí)融合是指在專業(yè)術(shù)語的規(guī)范下對(duì)異構(gòu)或冗雜的多源數(shù)據(jù)進(jìn)行整合、消歧、加工,其主要任務(wù)是消除由于醫(yī)學(xué)數(shù)據(jù)源不同而引起醫(yī)學(xué)知識(shí)重復(fù)、質(zhì)量良萎不齊、錯(cuò)誤冗雜的問題。本體所述語義內(nèi)容存在重疊或關(guān)聯(lián)的問題,在表示語言和模型上存在差異,從而造成本體異構(gòu)。實(shí)體同樣存在異構(gòu)的問題,存在一對(duì)多或多對(duì)一的關(guān)系,這種共指問題會(huì)對(duì)知識(shí)圖譜產(chǎn)生影響。也就是說知識(shí)融合最重要的工作就是解決構(gòu)建知識(shí)圖譜過程中的異構(gòu)問題。本文將醫(yī)學(xué)知識(shí)融合分成醫(yī)學(xué)實(shí)體對(duì)齊和醫(yī)學(xué)知識(shí)庫融合兩部分。

        實(shí)體對(duì)齊的主要任務(wù)是解決同義異名的問題,即異構(gòu)數(shù)據(jù)中的實(shí)體沖突、指向不明問題,以此獲取高質(zhì)量知識(shí)。目前針對(duì)醫(yī)學(xué)領(lǐng)域的知識(shí)融合,學(xué)者也進(jìn)行了相關(guān)探索。針對(duì)醫(yī)學(xué)數(shù)據(jù)的多源化,張坤麗等[9]依據(jù)術(shù)語標(biāo)準(zhǔn)和主題詞表對(duì)多來源的200 余萬字非結(jié)構(gòu)化產(chǎn)科疾病文本進(jìn)行人工校對(duì)和異構(gòu)數(shù)據(jù)的整合、消歧、加工、更新等知識(shí)融合形成了中文產(chǎn)科知識(shí)圖譜(COKG)數(shù)據(jù)層;宋培彥等[10]在復(fù)用疫苗、人類疾病、癥狀的基礎(chǔ)上進(jìn)行本體的形式合并,利用Word2vec 方法和Owready2 功能模塊完成本體語義融合,取得了較高的本體語義關(guān)系準(zhǔn)確度,實(shí)現(xiàn)了公共衛(wèi)生領(lǐng)域多本體融合;胡正銀等[11]針對(duì)知識(shí)圖譜多源異構(gòu)問題,基于SPO 三元組模型,通過實(shí)體對(duì)齊、概念層析融合與關(guān)系融合實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)融合,生成了完整領(lǐng)域的知識(shí)圖譜。

        之所以進(jìn)行知識(shí)庫融合,是因?yàn)獒t(yī)學(xué)知識(shí)圖譜往往針對(duì)的是某一個(gè)具體科室或者疾病構(gòu)建,不同的醫(yī)學(xué)數(shù)據(jù)庫獨(dú)立存在,這種情況下有必要對(duì)不同醫(yī)學(xué)數(shù)據(jù)庫進(jìn)行融合,以獲得涵蓋范圍更廣的醫(yī)學(xué)知識(shí)圖譜。例如,劉雷等[12]在構(gòu)建精準(zhǔn)醫(yī)學(xué)知識(shí)庫時(shí)利用跨庫知識(shí)融合技術(shù)對(duì)生物醫(yī)學(xué)知識(shí)進(jìn)行融合;劉新奎等[13]采用眾包的方式解決疾病診斷相關(guān)分組知識(shí)融合的問題;廖開際等[14]針對(duì)多來源醫(yī)療知識(shí)庫融合過程存在知識(shí)冗雜的問題,利用綜合多種注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)的MuGNN 模型對(duì)互聯(lián)網(wǎng)醫(yī)療知識(shí)進(jìn)行融合。目前醫(yī)學(xué)知識(shí)庫融合技術(shù)仍停留在人工干預(yù)階段,自動(dòng)化融合算法還有待相關(guān)學(xué)者進(jìn)一步研究。

        1.4 醫(yī)學(xué)知識(shí)表示

        知識(shí)表示面向的對(duì)象是知識(shí)庫中的實(shí)體和關(guān)系,通過在低維空間中高效計(jì)算實(shí)體和關(guān)系的語義關(guān)系,有效解決數(shù)據(jù)稀疏的問題,對(duì)知識(shí)獲取、知識(shí)融合以及知識(shí)推理有著重大意義,可提高知識(shí)圖譜構(gòu)建的效率。醫(yī)學(xué)知識(shí)主要以符號(hào)化、形式化、模式化的形式進(jìn)行知識(shí)的表示。目前主流醫(yī)學(xué)知識(shí)表示方式為三元組(頭實(shí)體—關(guān)系—尾實(shí)體)的形式,這種知識(shí)表示由Sem Rep 依托于UMLS 三大知識(shí)源,通過句法分析、短語映射、詞性消歧、語義謂詞歸一化等,最終輸出SPO(Subject-Predicate-Object)三元組“概念a|語義謂詞|概念b”表示的語義知識(shí),并廣泛應(yīng)用于知識(shí)圖譜的知識(shí)發(fā)現(xiàn)。SPO 語義表達(dá)豐富,對(duì)于語義關(guān)系復(fù)雜的醫(yī)學(xué)領(lǐng)域來說極為適用。例如,蔡妙芝等[15]利用Sem-Rep 提出基于SPO 語義三元組的疾病知識(shí)發(fā)現(xiàn)模型,并基于糖尿病相關(guān)文獻(xiàn)驗(yàn)證了該模型揭示大規(guī)模文獻(xiàn)中隱含生物醫(yī)學(xué)知識(shí)的可行性。三元組雖然已得到使用和認(rèn)可,但在進(jìn)行醫(yī)學(xué)領(lǐng)域三元組表示時(shí)需要圖算法進(jìn)行計(jì)算,而這些圖算法計(jì)算復(fù)雜度較高,在大規(guī)模知識(shí)圖譜上難以快速運(yùn)行,從而導(dǎo)致計(jì)算效率低的問題。

        隨著深度學(xué)習(xí)的發(fā)展,醫(yī)學(xué)知識(shí)表示技術(shù)有了一定進(jìn)展,按照計(jì)算方式的不同分為距離平移模型和語義匹配模型兩大類[2],如表1所示。

        Table 1 Knowledge representation model based on deep learning表1 基于深度學(xué)習(xí)知識(shí)表示模型

        1.5 醫(yī)學(xué)知識(shí)存儲(chǔ)

        知識(shí)存儲(chǔ)的主要目的是確定合理高效的存儲(chǔ)方式,其好壞會(huì)直接影響后續(xù)查詢的效率。目前主流知識(shí)存儲(chǔ)主要可分為基于資源描述框架(Resource Description Framework,RDF)的存儲(chǔ)與基于圖的存儲(chǔ)兩大類。在RDF 存儲(chǔ)方面,語義萬維網(wǎng)領(lǐng)域的三元組庫更好地實(shí)現(xiàn)了三元組數(shù)據(jù)的存儲(chǔ),而數(shù)據(jù)庫領(lǐng)域提出了專門用于管理屬性圖的圖數(shù)據(jù)庫。三元組數(shù)據(jù)庫與圖數(shù)據(jù)庫的相互融合發(fā)展為知識(shí)圖譜的存儲(chǔ)奠定了強(qiáng)大基礎(chǔ)。

        知識(shí)存儲(chǔ)貫穿醫(yī)學(xué)知識(shí)圖譜構(gòu)建的整個(gè)周期,數(shù)據(jù)存儲(chǔ)對(duì)醫(yī)學(xué)領(lǐng)域非常重要。目前在圖存儲(chǔ)方式中,基于Neo4j 的原生圖數(shù)據(jù)庫成為主流,Neo4j 屬性圖為三元組專門設(shè)置存儲(chǔ)方案,因此其存取效率優(yōu)于關(guān)系數(shù)據(jù)庫。王明強(qiáng)等[16]利用RDF 模型與Neo4j 構(gòu)成的相似性,通過將RDF模型映射到Neo4j 數(shù)據(jù)模型的方式將三元組存儲(chǔ)到Neo4j,最終基于Neo4j 圖數(shù)據(jù)庫構(gòu)建的中醫(yī)皮膚病“病—證—治”本體具有更強(qiáng)的擴(kuò)展性,數(shù)據(jù)準(zhǔn)性也較高??梢娙绾胃鶕?jù)知識(shí)特點(diǎn)選擇存儲(chǔ)方案,或采取一定方法將兩種不同的方案結(jié)合起來提升準(zhǔn)確率,是知識(shí)存儲(chǔ)過程中需要解決的重要問題。

        1.6 醫(yī)學(xué)知識(shí)推理

        知識(shí)推理指根據(jù)已有知識(shí)推斷未知知識(shí)的過程,是完善知識(shí)圖譜的重要手段之一。醫(yī)學(xué)領(lǐng)域知識(shí)圖譜的構(gòu)建因知識(shí)的復(fù)雜性和歧義性而存在嚴(yán)重的非完整性,目前醫(yī)學(xué)知識(shí)圖譜亟需解決的就是如何根據(jù)已存在的醫(yī)學(xué)知識(shí)推斷出那些尚未被挖掘出來的隱含醫(yī)學(xué)知識(shí),進(jìn)而補(bǔ)全醫(yī)學(xué)知識(shí)圖譜。針對(duì)這一問題,醫(yī)學(xué)知識(shí)推理技術(shù)應(yīng)運(yùn)而生。知識(shí)推理方法可以分為邏輯推理和非邏輯推理,邏輯推理又可細(xì)分為演繹推理和歸納推理(包含溯因推理和類比推理)。而針對(duì)知識(shí)圖譜的知識(shí)推理方法[17]包括本體推理、基于邏輯編程的推理、基于圖結(jié)構(gòu)的推理、基于規(guī)則學(xué)習(xí)的推理、基于分布式表示學(xué)習(xí)的推理、基于強(qiáng)化學(xué)習(xí)的推理、基于神經(jīng)網(wǎng)絡(luò)的推理、基于深度學(xué)習(xí)的推理,目前主流知識(shí)圖譜推理算法為基于圖結(jié)構(gòu)的算法。在大數(shù)據(jù)時(shí)代下,基于深度學(xué)習(xí)的推理方法廣受學(xué)者的青睞,其中基于知識(shí)表示技術(shù)、知識(shí)計(jì)算應(yīng)用技術(shù)、知識(shí)獲取技術(shù)的知識(shí)推理在醫(yī)學(xué)領(lǐng)域有著廣闊的應(yīng)用前景。然而,醫(yī)學(xué)知識(shí)推理仍處于初步階段,通過董文波等[18]對(duì)現(xiàn)階段醫(yī)學(xué)知識(shí)推理研究現(xiàn)狀的概述可知,醫(yī)學(xué)知識(shí)推理現(xiàn)階段存在缺乏高效的動(dòng)態(tài)推理模型、推理過程耗時(shí)耗力、推理泛化能力低等眾多問題,現(xiàn)階段針對(duì)樣本數(shù)據(jù)存在缺少頭尾實(shí)體、查詢路徑過長(zhǎng)、樣本數(shù)據(jù)錯(cuò)誤等各種缺陷,零樣本、單樣本、少樣本和多樣本的知識(shí)圖譜推理更受矚目,但在醫(yī)學(xué)領(lǐng)域的知識(shí)推理仍有許多工作需要學(xué)者進(jìn)行完善和創(chuàng)新。

        1.7 圖譜質(zhì)量評(píng)估

        知識(shí)圖譜質(zhì)量評(píng)估指通過去粗取精來保證圖譜質(zhì)量,換言之,質(zhì)量評(píng)估是通過篩選置信度高的知識(shí)來保障知識(shí)圖譜構(gòu)建質(zhì)量,這一過程是保障知識(shí)質(zhì)量的重要環(huán)節(jié),并貫穿始終。醫(yī)學(xué)知識(shí)圖譜質(zhì)量評(píng)估包括但不限于對(duì)知識(shí)質(zhì)量、專家信息、醫(yī)學(xué)知識(shí)庫、醫(yī)學(xué)知識(shí)圖譜本體等方面的評(píng)估。整體評(píng)估過程要注意錯(cuò)誤預(yù)警,著重檢查知識(shí)質(zhì)量。醫(yī)學(xué)知識(shí)圖譜本體的評(píng)估方法可分為基于黃金標(biāo)準(zhǔn)、基于本體任務(wù)/應(yīng)用、基于數(shù)據(jù)驅(qū)動(dòng)、基于指標(biāo)的方法四大類,各有優(yōu)缺點(diǎn),其中基于黃金標(biāo)準(zhǔn)的評(píng)估比較客觀,但是黃金標(biāo)準(zhǔn)卻難以定義或不存在;基于本體任務(wù)/應(yīng)用的評(píng)估具有針對(duì)性,直接面對(duì)本體應(yīng)用,但因?qū)唧w應(yīng)用較為依賴從而導(dǎo)致可移植性和通用性較差;基于數(shù)據(jù)驅(qū)動(dòng)的評(píng)估方法結(jié)果相較于專家的主觀評(píng)估更具客觀化,同時(shí)容易驗(yàn)證,但受限于本體概念的覆蓋度;基于指標(biāo)的評(píng)估方法具有較為全面的指標(biāo)體系,但卻面臨著指標(biāo)難以統(tǒng)一的問題。例如,張曉冉等[19]提出一個(gè)與領(lǐng)域無關(guān)的通用數(shù)據(jù)質(zhì)量檢測(cè)和評(píng)估的數(shù)學(xué)模型,同時(shí)采用本體技術(shù)定義了該模型到本體模型的轉(zhuǎn)換,用于解決數(shù)據(jù)的質(zhì)量問題;趙地等[20]提出一種新的面向知識(shí)圖譜構(gòu)建全流程的質(zhì)量評(píng)估框架,以用戶的角度系統(tǒng)評(píng)估知識(shí)圖譜從而達(dá)到優(yōu)化知識(shí)圖譜的目的。

        2 醫(yī)學(xué)知識(shí)圖譜的應(yīng)用

        知識(shí)圖譜在醫(yī)學(xué)領(lǐng)域的應(yīng)用促進(jìn)了醫(yī)療智能化水平的提高,目前醫(yī)學(xué)知識(shí)圖譜主要應(yīng)用于輔助診斷、臨床決策支持、風(fēng)險(xiǎn)評(píng)估和智能語義搜索等方面。

        2.1 臨床決策支持診斷

        決策支持系統(tǒng)(Decision Support Systems,DSS)隸屬于管理科學(xué)的范疇。20 世紀(jì)70 年代中期,Keen 和Scott Morton 首次提出DSS 的概念?;贒SS 的相關(guān)理論和技術(shù),臨床決策支持系統(tǒng)(Clinical Decision Support Systems,CDSS)應(yīng)運(yùn)而生。CDSS 是醫(yī)學(xué)決策支持系統(tǒng)的重要組成部分,是推進(jìn)精準(zhǔn)醫(yī)療的關(guān)鍵以及提升醫(yī)療質(zhì)量的重要手段,根本目的是為了評(píng)估和提高醫(yī)療質(zhì)量。利用醫(yī)學(xué)知識(shí)圖譜技術(shù)可以極大減少醫(yī)療決策中的失誤和醫(yī)療差錯(cuò),并有效解決臨床醫(yī)生知識(shí)的局限性,提高診斷效率。根據(jù)患者對(duì)自身情況的自述以及檢查數(shù)據(jù)初步給出診斷結(jié)果和治療方案等,同時(shí)針對(duì)醫(yī)生的方案進(jìn)行核實(shí)檢查,一定程度上避免誤診,使診斷更加精確?,F(xiàn)有臨床決策支持系統(tǒng)在建模過程中一般會(huì)用到人工神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、遺傳算法、產(chǎn)生式規(guī)則系統(tǒng)、邏輯條件、因果概率網(wǎng)絡(luò)等。例如,時(shí)雨[21]采用功能應(yīng)用界面展示設(shè)計(jì)實(shí)現(xiàn)了支持相似病歷檢索、疾病診斷以及治療方案分析的基于知識(shí)圖譜的腦血管輔助決策支持系統(tǒng),為腦血管病的臨床診療決策提供了支持;鄭少宇[22]面向臨床經(jīng)驗(yàn)相對(duì)不足的社區(qū)醫(yī)生,基于圖譜和癥狀特征抽取算法、癥狀分類算法、癥狀檢索算法設(shè)計(jì)開發(fā)了基于知識(shí)圖譜的常見病診斷輔助系統(tǒng),能夠在癥狀采集階段對(duì)當(dāng)前癥狀的所有相關(guān)疾病進(jìn)行預(yù)覽,便于用戶在后續(xù)鑒別診斷環(huán)節(jié)中合理地制定治療流程;董麗麗等[23]針對(duì)深度學(xué)習(xí)技術(shù)用于診斷需大規(guī)模依賴標(biāo)注數(shù)據(jù),且缺乏醫(yī)生或?qū)<医?jīng)驗(yàn)知識(shí)的問題,提出一種融合醫(yī)學(xué)知識(shí)圖譜與深度學(xué)習(xí)的疾病診斷方法;劉勘等[24]結(jié)合知識(shí)圖譜、表示學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)等技術(shù)構(gòu)建了并發(fā)癥輔助診斷模型,該模型對(duì)于提高并發(fā)癥的診斷準(zhǔn)確率起到積極作用。目前臨床決策支持應(yīng)用方面存在的問題主要為支持疾病類型單一,準(zhǔn)確率也有待提高,而構(gòu)建一整套全面的疾病臨床決策支持系統(tǒng)所耗費(fèi)的人力和物力也較大,目前尚未較好的解決方案。

        2.2 醫(yī)學(xué)問答系統(tǒng)

        智能問答系統(tǒng)是自然語言處理領(lǐng)域備受關(guān)注的研究方向,在醫(yī)學(xué)知識(shí)圖譜領(lǐng)域具有廣闊的應(yīng)用前景?;卺t(yī)學(xué)知識(shí)的專業(yè)性和復(fù)雜性,非醫(yī)護(hù)人員很難理解,進(jìn)而導(dǎo)致醫(yī)患間的溝通問題。而醫(yī)學(xué)問答系統(tǒng)在一定程度上可以起到普及公民醫(yī)學(xué)知識(shí)的作用,通過醫(yī)學(xué)問答的形式將醫(yī)學(xué)規(guī)范用語用一種通俗易懂的方式反饋給患者及其家屬。問答系統(tǒng)采用人機(jī)交互的形式,通過自然語言處理技術(shù)實(shí)現(xiàn)機(jī)器與用戶的交流。基于醫(yī)學(xué)知識(shí)圖譜的問答系統(tǒng)通過自然語言處理技術(shù)對(duì)用戶問題進(jìn)行解析,然后基于知識(shí)圖譜的查詢語句在對(duì)應(yīng)醫(yī)學(xué)知識(shí)圖譜中進(jìn)行查詢,并返回答案。目前不少學(xué)者對(duì)醫(yī)學(xué)問答系統(tǒng)進(jìn)行了探索,例如李俊卓等[25]基于兒科醫(yī)學(xué)知識(shí)圖譜,利用AC 自動(dòng)機(jī)(Aho-Corasick Automaton)和正則表達(dá)式融合數(shù)據(jù)源,最終實(shí)現(xiàn)了兒科疾病及保健知識(shí)問答系統(tǒng)的構(gòu)建;馬滿福等[26]針對(duì)中文醫(yī)療領(lǐng)域分詞困難的問題,提出基于格子卷積神經(jīng)網(wǎng)絡(luò)(Lattice CNN,LCN)的醫(yī)療知識(shí)問答模型,準(zhǔn)確率達(dá)到89.0%,比同類模型提高2%。

        2.3 智能語義搜索

        基于知識(shí)圖譜的語義搜索與傳統(tǒng)依靠網(wǎng)頁間超鏈接實(shí)現(xiàn)網(wǎng)頁搜索不同,前者搜索的對(duì)象是具體事物,如醫(yī)療領(lǐng)域的病患、癥狀、藥物等,這些事物的來源可以是電子病歷、醫(yī)學(xué)診斷圖片、文本數(shù)據(jù)等各種信息資源,而知識(shí)圖譜和語義技術(shù)為這些事物提供了實(shí)體、屬性和關(guān)系的描述,使得搜索引擎可以直接對(duì)這些具體事物進(jìn)行索引。概括而言,醫(yī)學(xué)語義搜索是指在已存在的大規(guī)模醫(yī)學(xué)數(shù)據(jù)庫中通過對(duì)關(guān)鍵字以及相關(guān)內(nèi)容進(jìn)行語義標(biāo)注,最終實(shí)現(xiàn)從醫(yī)學(xué)知識(shí)圖譜中檢索查詢相應(yīng)實(shí)體、實(shí)體間的關(guān)系以及屬性的擴(kuò)展查詢,達(dá)到高效便捷搜索醫(yī)療信息的效果。目前,有關(guān)醫(yī)學(xué)領(lǐng)域智能語義搜索的相關(guān)應(yīng)用有搜醫(yī)網(wǎng)、360 良醫(yī)、搜狗明醫(yī)、春雨醫(yī)生、丁香醫(yī)生等醫(yī)學(xué)搜索引擎,騰訊醫(yī)典和訊飛健康平臺(tái)等醫(yī)學(xué)相關(guān)產(chǎn)品,同時(shí)相關(guān)學(xué)者也在學(xué)術(shù)方面對(duì)醫(yī)學(xué)語義搜索進(jìn)行了探究,如楊笑然[27]為解決互聯(lián)網(wǎng)醫(yī)療科普搜索需求增加與現(xiàn)有科普網(wǎng)站導(dǎo)航過于專業(yè)用戶無法找到針對(duì)性答案的問題,基于運(yùn)用語義搜索和問答系統(tǒng)相關(guān)技術(shù),設(shè)計(jì)開發(fā)了基于知識(shí)圖譜的醫(yī)療專家系統(tǒng),提供醫(yī)療語義搜索和醫(yī)療智能問答服務(wù);翟姍姍等[28]將知識(shí)圖譜與分面檢索相結(jié)合,構(gòu)建了基于醫(yī)學(xué)知識(shí)圖譜的慢性病在線醫(yī)療社區(qū)分面檢索模型,提高了用戶檢索的效率和質(zhì)量。

        3 現(xiàn)存問題

        知識(shí)圖譜是大數(shù)據(jù)時(shí)代最有效的知識(shí)表示和整合方法之一,泛指各種大型知識(shí)庫,是將所有不同種類的信息連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò),是機(jī)器大腦中的知識(shí)庫。作為一種以圖譜形式描述實(shí)體與屬性關(guān)系的新技術(shù),知識(shí)圖譜用于醫(yī)療領(lǐng)域可有效對(duì)海量數(shù)據(jù)進(jìn)行挖掘、處理和分析,但目前仍面臨諸多挑戰(zhàn)。

        3.1 數(shù)據(jù)語料標(biāo)注問題

        構(gòu)建醫(yī)學(xué)知識(shí)圖譜最重要的步驟是數(shù)據(jù)處理,高質(zhì)量的數(shù)據(jù)往往來源于中醫(yī)醫(yī)案、醫(yī)學(xué)古籍或是由權(quán)威機(jī)構(gòu)發(fā)布的文件,獲取數(shù)據(jù)后如何對(duì)這些數(shù)據(jù)進(jìn)行標(biāo)注成為一個(gè)重大難題。一般數(shù)據(jù)標(biāo)注通常采用BIO 標(biāo)注方法,但方劑所含實(shí)體類型較多,包括藥物、疾病、功效、炮制方法等,若按照BIO 標(biāo)注工作量極大。此外,醫(yī)學(xué)古籍內(nèi)容晦澀,需要人工命名實(shí)體標(biāo)注,且會(huì)由于標(biāo)注人的不同而導(dǎo)致標(biāo)注結(jié)果不盡相同。

        3.2 知識(shí)圖譜存儲(chǔ)問題

        目前知識(shí)圖譜存儲(chǔ)主要方式是基于RDF 和基于圖數(shù)據(jù)庫的存儲(chǔ),目前醫(yī)學(xué)知識(shí)圖譜主要采用基于圖數(shù)據(jù)庫的存儲(chǔ)方法。雖然基于RDF 的存儲(chǔ)方法總體不如圖數(shù)據(jù)庫,但其仍有圖數(shù)據(jù)庫未涉及的優(yōu)點(diǎn)。例如,圖數(shù)據(jù)庫最大的缺點(diǎn)就是不支持SQL 的查詢,是否可以將RDF 與圖數(shù)據(jù)存儲(chǔ)相融合有待學(xué)者驗(yàn)證和嘗試,而面對(duì)醫(yī)療數(shù)據(jù)的快速增長(zhǎng)以及數(shù)據(jù)復(fù)雜化等問題,現(xiàn)有存儲(chǔ)方式能否應(yīng)對(duì)還有待驗(yàn)證。

        3.3 知識(shí)推理能力問題

        知識(shí)推理技術(shù)的準(zhǔn)確率提高是一大難題,主要原因有二:其一是數(shù)據(jù)質(zhì)量越高,推理越準(zhǔn)確,而高質(zhì)量數(shù)據(jù)的訓(xùn)練耗時(shí)耗力耗財(cái);其二是關(guān)系預(yù)測(cè)能力有限,隨著知識(shí)圖譜的擴(kuò)展,關(guān)系預(yù)測(cè)路徑長(zhǎng)度也不斷增長(zhǎng),現(xiàn)有預(yù)測(cè)方法長(zhǎng)度有限,這在一定程度上影響了準(zhǔn)確率。

        3.4 知識(shí)處理算法問題

        不論是醫(yī)學(xué)知識(shí)抽取、醫(yī)學(xué)實(shí)體對(duì)齊還是醫(yī)學(xué)知識(shí)融合方面,相關(guān)算法或多或少存在準(zhǔn)確率低、擴(kuò)展性低、復(fù)雜度高等問題,高效、可擴(kuò)展性強(qiáng)的相關(guān)算法仍有待學(xué)者深入研究。

        3.5 醫(yī)學(xué)知識(shí)圖譜表現(xiàn)單一

        現(xiàn)有知識(shí)圖譜大多以文本、網(wǎng)頁的形式進(jìn)行展示,能否采用多模態(tài)技術(shù)將聲音、影像、信號(hào)數(shù)據(jù)以及古籍中的醫(yī)學(xué)信息一起融入醫(yī)學(xué)知識(shí)庫中將有待學(xué)者進(jìn)一步研究。

        4 結(jié)語

        本文針對(duì)醫(yī)學(xué)知識(shí)圖譜的構(gòu)建技術(shù)以及應(yīng)用進(jìn)行了分析,并對(duì)目前醫(yī)學(xué)知識(shí)圖譜面臨的挑戰(zhàn)進(jìn)行了相關(guān)總結(jié)和展望,認(rèn)為醫(yī)學(xué)知識(shí)圖譜具有廣泛的應(yīng)用前景。隨著技術(shù)的不斷成熟、經(jīng)驗(yàn)的不斷積累,目前存在的不足終會(huì)被解決,知識(shí)圖譜在醫(yī)學(xué)領(lǐng)域的應(yīng)用將會(huì)更加準(zhǔn)確、具體,成為推動(dòng)醫(yī)學(xué)智能化一種不可或缺的助力。醫(yī)學(xué)知識(shí)圖譜的意義在于推動(dòng)了醫(yī)學(xué)自動(dòng)化和智能化的發(fā)展,對(duì)于中醫(yī)來說更是如此。相信醫(yī)學(xué)知識(shí)圖譜可以成為中醫(yī)得以傳承和創(chuàng)新的一種推動(dòng)力,為整個(gè)醫(yī)療產(chǎn)業(yè)發(fā)展注入鮮活血液。

        猜你喜歡
        醫(yī)學(xué)知識(shí)三元組圖譜
        基于語義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        繪一張成長(zhǎng)圖譜
        關(guān)于余撓三元組的periodic-模
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        思維導(dǎo)圖在醫(yī)學(xué)中的應(yīng)用
        加強(qiáng)班級(jí)凝聚力建設(shè),激發(fā)學(xué)生學(xué)習(xí)的積極性
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        新環(huán)境下《解剖學(xué)》教學(xué)資源開發(fā)探討分析
        衛(wèi)?;瘜W(xué)教學(xué)中滲透醫(yī)學(xué)知識(shí)的實(shí)踐
        av高清在线不卡直播| 亚洲人成绝费网站色www| 一区二区黄色素人黄色| 插入日本少妇一区二区三区| 中文字幕乱码一区av久久不卡| 精品性影院一区二区三区内射| 久久久www成人免费无遮挡大片| 久久久亚洲成年中文字幕| 夜夜躁日日躁狠狠久久av| 亚洲av永久无码精品国产精品| 亚洲AV肉丝网站一区二区无码| 美女人妻中文字幕av| 亚洲精品久久国产精品| 中文字幕无码日韩专区免费| 国产精品1区2区| 青青草是针对华人绿色超碰 | 国产男女猛烈视频在线观看| 99久久精品无码专区无| 日本一区人妻蜜桃臀中文字幕| 色欲色香天天天综合vvv| 成人看片黄a免费看那个网址| 国产主播无套内射一区| 大香蕉视频在线青青草| 久久天天躁夜夜躁狠狠| 曰本女人与公拘交酡免费视频| 欧美h久免费女| 日本在线观看不卡一区二区| 少妇被粗大的猛烈进出免费视频 | 最新亚洲av日韩av二区| 日本视频精品一区二区| 人妻少妇精品视频一区二区三区l 日韩人妻中文字幕专区 | 亚洲饱满人妻视频| 青春草在线观看免费视频| 国产精品妇女一区二区三区| 无码人妻久久一区二区三区不卡 | 成人在线免费视频亚洲| 精品亚洲一区二区三洲| 轻点好疼好大好爽视频| 欧洲色综合| 美腿丝袜一区在线观看| 亚洲 日韩 激情 无码 中出|