李俊麗,張洋,陳潤赫,王子琪,張桂溪,邱磊
(青島大學(xué)自動(dòng)化學(xué)院,山東青島,266071)
心血管疾病是全球最常見的死因之一,中國心血管病患病率處于持續(xù)上升階段[1]。在心血管病的診斷過程中,心電圖必不可缺,不僅是心臟疾病特征的直觀表現(xiàn),更是專家觀察疾病發(fā)展?fàn)顩r、快速診斷復(fù)雜心律失常、藥物治療效果的關(guān)鍵輔助信息[2]。
知識(shí)圖譜是一種表示實(shí)體之間關(guān)系的語義網(wǎng)絡(luò),強(qiáng)調(diào)語義檢索能力,它能夠?qū)κ挛锛捌湎嗷リP(guān)系進(jìn)行形式化描述[3]。在人體12導(dǎo)聯(lián)心電圖領(lǐng)域開展知識(shí)圖譜可視化系統(tǒng)的目標(biāo)之一是實(shí)現(xiàn)計(jì)算機(jī)理解心電圖判別專家的經(jīng)驗(yàn)知識(shí)、創(chuàng)建封閉領(lǐng)域的可視化知識(shí)圖譜,模擬專家診斷病態(tài)心電圖特征過程,打造智能大腦。目前,國內(nèi)外已有的醫(yī)學(xué)類知識(shí)圖譜均不能實(shí)現(xiàn)心內(nèi)科疾病的診斷,本研究能夠基于心電圖的知識(shí)原理,補(bǔ)充心腦血管疾病診斷方面知識(shí)圖譜的空白,推進(jìn)心電圖診斷知識(shí)體系的標(biāo)準(zhǔn)化、智能化[4]。本文通過分析常見病態(tài)心電圖數(shù)字屬性值以及形態(tài)屬性值創(chuàng)建了可視化知識(shí)圖譜系統(tǒng),實(shí)現(xiàn)12導(dǎo)聯(lián)心電圖的特征語義關(guān)聯(lián),找到實(shí)體與實(shí)體間的聯(lián)結(jié)性,實(shí)現(xiàn)實(shí)體與關(guān)系對齊,發(fā)現(xiàn)隱含的實(shí)體關(guān)系,是人工智能與醫(yī)療相結(jié)合的實(shí)踐。
知識(shí)圖譜構(gòu)建流程為:(1)知識(shí)抽取與表示,從電子病歷、醫(yī)學(xué)類百科網(wǎng)站等渠道抽取心電圖波形與心腦血管疾病的相關(guān)信息,識(shí)別出實(shí)體與實(shí)體間關(guān)系。(2)知識(shí)融合,將不同來源的知識(shí)進(jìn)行消岐、加工、推理、更新等步驟。(3)知識(shí)推理,將以三元組形式(頭實(shí)體,關(guān)系,尾實(shí)體)的知識(shí)進(jìn)行實(shí)體預(yù)測和關(guān)系預(yù)測,結(jié)合深度學(xué)習(xí)模型,賦予實(shí)體到實(shí)體之間可推理的概率。(4)圖譜可視化,利用圖數(shù)據(jù)庫Neo4j或者本體構(gòu)建工具protege將圖譜進(jìn)行可視化展現(xiàn)。
心電圖特征之間的關(guān)系可以用語義網(wǎng)絡(luò)來描述,這種語義網(wǎng)絡(luò)由結(jié)點(diǎn)與弧構(gòu)成,是一種有向圖。語義網(wǎng)絡(luò)將實(shí)體與屬性通過關(guān)系進(jìn)行聯(lián)結(jié)由“實(shí)體-關(guān)系-實(shí)體”或“實(shí)體-屬性-屬性值”三元組構(gòu)成。心電圖內(nèi)涵豐富、數(shù)據(jù)量大,心電圖診斷過程所涉及的概念和知識(shí)多而雜,結(jié)合心電圖診斷知識(shí)特點(diǎn),需要?jiǎng)?chuàng)建其語義類型和屬性關(guān)系的規(guī)范文檔,內(nèi)容如表1。
表1 語義類型的分類
為了識(shí)別實(shí)體與實(shí)體之間的關(guān)系,需要對心電圖知識(shí)進(jìn)行抽取與表示。實(shí)體之間的關(guān)系的識(shí)別依靠人工識(shí)別和機(jī)器結(jié)合,在本文研究內(nèi)容中,心電圖判斷過程并未有現(xiàn)成知識(shí)庫,例如中文維基百科也只是給出了相關(guān)心血管疾病的解釋。依據(jù)國內(nèi)外權(quán)威參考文獻(xiàn),基于統(tǒng)計(jì)學(xué)的方法采用人工識(shí)別的方式獲取病態(tài)分類、實(shí)體對應(yīng)關(guān)系、分類屬性值及波形形態(tài)特征。
Neo4j是一個(gè)高性能的、NoSQL數(shù)據(jù)庫,它將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在網(wǎng)絡(luò)上而不是表格中。同時(shí),它是一個(gè)嵌入式的、基于磁盤的、具備完全的事務(wù)特性的Java持久化引擎,是一個(gè)成熟的、具有推理功能的引擎。利用Neo4j來構(gòu)建心電圖的知識(shí)圖譜,能夠直觀地分析不同病態(tài)心電圖的結(jié)構(gòu)化數(shù)據(jù)網(wǎng)絡(luò)。
在建立心電圖的知識(shí)圖譜時(shí),首先需要對心電圖病態(tài)種類以及其包含的變異波群定義規(guī)則。我們將病態(tài)心電圖的種類、12導(dǎo)聯(lián)、波群形狀、波形持續(xù)時(shí)間、表達(dá)關(guān)系進(jìn)行了詳致的分類,方便后續(xù)導(dǎo)入Neo4j。例如,本文將病態(tài)種類分為37種,依據(jù)不同參考資料,所創(chuàng)建分類也不同。
在對實(shí)體與關(guān)系進(jìn)行了定義之后,將表格導(dǎo)入Neo4j,對其輸入命令,使關(guān)系與實(shí)體全部呈現(xiàn)。這種實(shí)體與關(guān)系的可視化表示,可隨意進(jìn)行拖拽處理,還可以對其進(jìn)行定義實(shí)體的屬性。例如實(shí)體:竇性心動(dòng)過緩,可對其定義屬性:病名。
如圖1所示,我們將實(shí)體與關(guān)系一同呈現(xiàn)的知識(shí)圖譜展開,可以看出,同時(shí)擁有實(shí)體與關(guān)系的心電圖知識(shí)圖譜是一個(gè)封閉的語義網(wǎng)絡(luò)。
圖1 實(shí)體與關(guān)系的知識(shí)圖譜
為了更加清晰地分析其中某些病態(tài)心電圖之間的聯(lián)系,我們截取WPW綜合征這一部分進(jìn)行介紹,由圖2可以看出,WPW綜合征表現(xiàn)出P-R間期縮短和出現(xiàn)預(yù)激波的特征。在P-R間期縮短這一特征中表現(xiàn)為縮短的間期時(shí)間的數(shù)字屬性值不同,其所屬疾病類別也不同。不同的數(shù)字屬性值聯(lián)結(jié)不同的實(shí)體,最后聯(lián)結(jié)不同的病名,不斷拓展,形成一個(gè)封閉的知識(shí)圖譜。
圖2 局部網(wǎng)絡(luò)關(guān)系圖
在創(chuàng)建知識(shí)圖譜中,需要重視的是語義網(wǎng)絡(luò)的分類問題,隨著醫(yī)學(xué)知識(shí)數(shù)據(jù)庫的不斷充盈,心電圖的判斷標(biāo)準(zhǔn)將會(huì)不斷被細(xì)化、規(guī)范化,來滿足構(gòu)建專用知識(shí)圖譜的需求。同時(shí),上述基于Neo4j平臺(tái)所實(shí)現(xiàn)的知識(shí)圖譜還存在一定的局限性,在各類疾病判別中,特殊病征如波形不規(guī)則震動(dòng),其寬度、幅值和頻率沒有進(jìn)行一個(gè)明確的分類,這會(huì)導(dǎo)致不同病系的特征識(shí)別度不高。為了提高病系的特征識(shí)別度,我們基于protege平臺(tái),創(chuàng)建了改進(jìn)型的病系專用知識(shí)圖譜,并獲得了更加細(xì)致的實(shí)體分類。
protege是一種用于構(gòu)建域模型與基于知識(shí)的本體化應(yīng)用程序,提供了大量的知識(shí)模型架構(gòu)與動(dòng)作,用于創(chuàng)建、操縱各種表現(xiàn)形式的本體。OWL本體語言是知識(shí)圖譜中最規(guī)范、最嚴(yán)謹(jǐn)、表達(dá)能力最強(qiáng)的語言,它基于RDF語法,可以認(rèn)為是RDF的拓展,使表示出來的文檔具有語義理解的結(jié)構(gòu)基礎(chǔ)。針對心電圖病系中復(fù)雜的實(shí)體關(guān)系,可以采用描述邏輯的方法進(jìn)行推理,使用protege來建立OWL 語言三元組的關(guān)系。
以左右束支傳導(dǎo)阻滯這一大病系為例,我們使用protege建立八個(gè)實(shí)體類,并導(dǎo)入相關(guān)實(shí)例,由弧即關(guān)系聯(lián)結(jié),形成了完整的專用病系心電圖知識(shí)圖譜。在OWL本體語言中,描述邏輯是基于知識(shí)表示的形式化,也叫概念表示語言或術(shù)語邏輯。下面對本體語言中的專用詞匯進(jìn)行解釋。
◎概念,解釋為一個(gè)領(lǐng)域的子集。例如,?。簕x|disease(x)}。
◎關(guān)系,解釋為該領(lǐng)域上的二元關(guān)系。例如,持續(xù):{(x,y)|last(x,y)}。
◎個(gè)體,解釋為一個(gè)領(lǐng)域的實(shí)體。例如,左前分支傳導(dǎo)阻滯:{LAFB}
在左右束支傳導(dǎo)阻滯病系中,我們通過研究和分析病系判別的細(xì)則標(biāo)準(zhǔn),提取出隱含的實(shí)體,采用人工分類標(biāo)注的方式進(jìn)行語義分類。如圖所示,創(chuàng)建了八個(gè)類別。
表2 病系的語義類型分類(1)
表3 病系的語義類型分類(2)
在進(jìn)行語義類型分類之后,將實(shí)體與關(guān)系導(dǎo)入平臺(tái),開始創(chuàng)建基于protege的知識(shí)圖譜,如圖3所示,是八個(gè)實(shí)體類型的呈現(xiàn)。
圖3 八個(gè)實(shí)體類別
我們將八個(gè)類別的實(shí)體與關(guān)系對齊,并從知識(shí)庫中抽取類別的子集對應(yīng)的實(shí)例,將其導(dǎo)入protege,得到左右束支傳導(dǎo)阻滯病系的專用知識(shí)圖譜,如圖4所示。我們可以通過輸入某一特征值,得到其聯(lián)結(jié)實(shí)體,更加直觀地展現(xiàn)左右束支傳導(dǎo)阻滯病系的框架。
圖4 病系專用知識(shí)圖譜
以第八個(gè)類別(波形的形態(tài)形容)為例,如圖5所示,波形的形狀描述共有15種,每一種描述所對應(yīng)的波(QRS 波、P波等)都不同,正是這些聯(lián)結(jié)實(shí)體的繁雜,導(dǎo)致醫(yī)生在實(shí)際診斷中有一定的困難。而知識(shí)圖譜的展現(xiàn),使特征之間的聯(lián)系形象化、具體化,為醫(yī)療診斷帶來便利,也為知識(shí)圖譜后續(xù)的衍生服務(wù)提供了可行性。
圖5 波形的形態(tài)形容
在數(shù)字領(lǐng)域,人工智能與醫(yī)療相結(jié)合的成果展現(xiàn)出巨大的潛力,使用數(shù)據(jù)庫與查詢語言相結(jié)合的知識(shí)圖譜是一個(gè)具有創(chuàng)新性的工具。在病態(tài)心電圖判別領(lǐng)域中,本體語言規(guī)范且具有規(guī)則性,運(yùn)用知識(shí)圖譜對病態(tài)心電圖判別過程可視化目標(biāo)之一是輔助醫(yī)生查詢,提高診斷準(zhǔn)確性。目前并沒有類似的心電圖判別可視化知識(shí)圖譜,它的出現(xiàn)也是人工智能實(shí)際應(yīng)用的一個(gè)進(jìn)展。本文提出了基于兩種平臺(tái)的知識(shí)圖譜,基于Neo4j的知識(shí)圖譜涵蓋了37種病態(tài)心電圖,內(nèi)容廣泛但實(shí)體分類不夠細(xì)化;基于protege的知識(shí)圖譜展現(xiàn)了單一病系的語義網(wǎng)絡(luò),內(nèi)容更為細(xì)致和準(zhǔn)確;二者都取得了良好的實(shí)踐效果,是醫(yī)療與人工智能結(jié)合的一大嘗試。
在創(chuàng)建知識(shí)圖譜中,需要重視的是語義網(wǎng)絡(luò)的分類問題,隨著醫(yī)學(xué)知識(shí)庫的不斷充盈,心電圖判斷標(biāo)準(zhǔn)不斷細(xì)化、規(guī)范化,相信語義網(wǎng)絡(luò)的語義分類不是難點(diǎn)。知識(shí)圖譜中最規(guī)范、最嚴(yán)謹(jǐn)、表達(dá)能力最強(qiáng)的語言為 OWL 本體語言,它基于RDF語法,可以認(rèn)為是 RDF 的拓展,使表示出來的文檔具有語義理解的結(jié)構(gòu)基礎(chǔ)。對于像心電圖知識(shí)領(lǐng)域中復(fù)雜的實(shí)體關(guān)系,可以采用描述邏輯進(jìn)行推理。Hermit 是使用 OWL編寫的本體論的推理器,給定一個(gè) OWL 文件,它可以確定本體是否一致,識(shí)別類之間的包含關(guān)系等等,它基于一種新穎的“超高級”演算,提供比任何以前已知的算法更有效的推理。后續(xù)研究可將建立好的語義網(wǎng)嵌入到基于 Java 的 jena 框架中實(shí)現(xiàn)更加深度的混合推理。