張 莉 王玉廷
(重慶醫(yī)科大學(xué)附屬第二醫(yī)院病案統(tǒng)計(jì)科 重慶渝中 400010)
目前,糖尿病已經(jīng)成為威脅人類健康的重要慢性疾病之一,由國際糖尿病聯(lián)盟統(tǒng)計(jì),中國的糖尿病患者占全球四分之一[1],糖尿病及并發(fā)癥對人體的危害極大,患有糖尿病及其并發(fā)癥,而導(dǎo)致的機(jī)體損傷,使得糖尿病致死率升高。據(jù)國際糖尿病聯(lián)盟(International Diabetes Federation,IDF)的統(tǒng)計(jì),2017年,全球有4.25億糖尿病患者,預(yù)計(jì)到2045年,將會有近7億糖尿病患者。糖尿病作為一個(gè)不能完全根治的慢性疾病,醫(yī)學(xué)上還沒有可以準(zhǔn)確預(yù)防糖尿病的方法。如何更高效率的治療和預(yù)防糖尿病,已成為當(dāng)今社會無法忽視的重大問題[2]。
近年來,國內(nèi)對糖尿病的研究主要集中在并發(fā)癥、臨床診斷、護(hù)理、流行病學(xué)、檢查檢驗(yàn)及治療等方向。何永靜通過對老年糖尿病并發(fā)癥的臨床分析,為防止老年糖尿病并發(fā)癥提供依據(jù)[3];林婉媚等將疑似糖尿病患者作為研究對象,對其進(jìn)行生化檢驗(yàn)與常規(guī)檢驗(yàn)對比,得出生化檢驗(yàn)在糖尿病診斷中的靈敏度及特異性上較常規(guī)檢驗(yàn)更高[4]。國外的糖尿病相關(guān)研究也集中在并發(fā)癥、相關(guān)治療及護(hù)理等方面。但是,國外研究更關(guān)注與糖尿病的分型和臨床護(hù)理方向。
知識圖譜(Knowledge Graph/Vault)又稱為科學(xué)知識圖譜,是顯示知識發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一種圖形,用可視化技術(shù)描述知識資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系。
國內(nèi)對知識圖譜的研究主要集中于圖書館學(xué)、情報(bào)學(xué)在經(jīng)濟(jì)與管理,以及科學(xué)計(jì)量學(xué)在具體學(xué)科的應(yīng)用領(lǐng)域。胡澤文等對情報(bào)學(xué)中應(yīng)用知識圖譜現(xiàn)狀及必要性展開敘述,提出知識圖譜可用于對各學(xué)科研究熱點(diǎn)及前沿等進(jìn)行可視化的分析[5];杜湘等運(yùn)用文獻(xiàn)計(jì)量及知識圖譜的可視化分析,對高原濕地相關(guān)文獻(xiàn)在發(fā)表時(shí)間、核心作者及研究熱點(diǎn)等方面進(jìn)行推理,得到高原濕地相關(guān)研究熱點(diǎn)及研究軌跡[6]。相對國內(nèi)研究情況,國外的知識圖譜研究層次及研究范圍更加廣泛,且更注重知識圖譜與本體,以及信息檢索等方面的研究。
由于本體(ontology)被不同領(lǐng)域的專家引用,各個(gè)領(lǐng)域的專家對本體的概念也會有一定的差異。最早的人工智能領(lǐng)域的學(xué)者是這樣定義本體的:本體是構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系,以及利用這些本體和關(guān)系,構(gòu)成規(guī)定的這些詞匯外延規(guī)則的定義。后來美國斯坦福大學(xué)有學(xué)者提出:“本體是概念化的規(guī)范說明”。接著,有學(xué)者補(bǔ)充該定義:本體是共享概念模型的明確的形式化規(guī)范說明。這一概念得到各領(lǐng)域?qū)<覍W(xué)者的認(rèn)可。同時(shí),也被廣泛應(yīng)用推廣[7]。我國對本體的研究起步相對國外較晚。湯艷莉、賴茂生教授認(rèn)為:本體是語義網(wǎng)的重要組成部分,是對世界或者領(lǐng)域知識、概念、實(shí)體及其關(guān)系的一種明確的、規(guī)范的概念化描述[8]。
由此可以知到,不同學(xué)科的專家給出的本體概念存在一定的差異??偟膩砜?,本體都包含了五大特征,分別是:概念、形式、共享、明確及描述領(lǐng)域知識。
本體構(gòu)建方法是指專家或者學(xué)者根據(jù)需求和基本步驟進(jìn)行本體的構(gòu)建,即將非結(jié)構(gòu)化的相關(guān)知識進(jìn)行搜集,并提取。然后,再用計(jì)算機(jī)可以理解的方式表達(dá)出來。盡管本體的概念有相對的一致性。但由于不同領(lǐng)域的要求存在一定的差異性,在進(jìn)行本體構(gòu)建時(shí)也會有相對的不同。
本文主要對糖尿病并發(fā)癥、治療情況及臨床癥狀表現(xiàn)進(jìn)行本體構(gòu)建,即通過對糖尿病及其并發(fā)癥知識體系進(jìn)行非結(jié)構(gòu)化的提取,收集相關(guān)癥狀體征、發(fā)病因素、治療方法、預(yù)防等數(shù)據(jù)進(jìn)行整合,并作為構(gòu)建糖尿病知識圖譜的實(shí)體及屬性的相關(guān)結(jié)構(gòu)框架。
首先,我們需要對糖尿病相關(guān)知識進(jìn)行類(Class)的劃分,必須將各個(gè)類進(jìn)行概念化,明確各類的突出信息,把糖尿病知識體系表達(dá)完整。其次,我們要將數(shù)據(jù)類型屬性(Data Properties)進(jìn)行描述,并根據(jù)不同的屬性對類進(jìn)行約束,完成對類的標(biāo)識。再次,我們將各類之間的關(guān)系進(jìn)行定義,即對象屬性(Object Properties)定義[9]。把握住各類的關(guān)系,才能完整的表示出該知識體系結(jié)構(gòu)情況。最后,我們要對類及屬性進(jìn)行約束,只有對約束進(jìn)行準(zhǔn)確的描述表達(dá),本體的構(gòu)建才能更加完整精確。
目前,在我們構(gòu)建本體的工具中,較為成熟且使用率較高的主要有Ontolingua Server、Onosiris、Webonto、Protege等。本文主要借助Protege進(jìn)行糖尿病本體的構(gòu)建[10]。
1.定義
糖尿病是一組以高血糖為特征的代謝性疾病。高血糖則是由于胰島素分泌缺陷或其生物作用受損,或兩者兼有引起。高血糖可以導(dǎo)致各種組織,特別是眼、腎、心臟、血管、神經(jīng)的慢性損害、功能障礙[11]。
2.名稱
(1)中文名:糖尿??;(2)英文名:diabetes mellitus(DM);(3)別名:消渴癥。
3.病因
糖尿病的病因主要分為環(huán)境因素及遺傳因素兩大因素。我們通過對糖尿病病因的遺傳因素進(jìn)行研究表明:糖尿病發(fā)病具有種族和家族遺傳易感性[12]。1型糖尿病主要誘發(fā)原因有以下三點(diǎn):(1)遺傳易感性;(2)自身免疫性;(3)病毒感染。
2型糖尿病患病的遺傳因素相比1型糖尿病更高。同時(shí),環(huán)境因素和胰島旁分泌功能失調(diào)也會導(dǎo)致患2型糖尿病的概率升高。對糖尿病影響最大的環(huán)境因素,主要表現(xiàn)在:身體活動減少、飲食過多,而形成的肥胖及精神狀態(tài)的降低,使得糖尿病的患病率升高。
4.糖尿病并發(fā)癥
依據(jù)文獻(xiàn),目前常見的慢性糖尿病并發(fā)癥包含:糖尿病周圍神經(jīng)病變、糖尿病腦血管病、糖尿病腎病、糖尿病足及糖尿病眼部的并發(fā)癥等。其中,糖尿病足是最常見的糖尿病并發(fā)病癥合并感染中的一類,是由于患者足部神經(jīng)病變,致下肢功能障礙,導(dǎo)致的下肢產(chǎn)生的壞疽和潰瘍[13]。糖尿病眼部并發(fā)癥患者常常會出現(xiàn)視力模糊。其中,較嚴(yán)重的會導(dǎo)致患者失明。而常見的急性糖尿病并發(fā)癥包括:乳酸性酸中毒、糖尿病酮癥酸中毒等。
5.糖尿病分型
根據(jù)是否需要依賴胰島素治療,一般將糖尿病分為1型糖尿病和2型糖尿病。另外,按照患病人群的年齡劃分,可分為:新生兒糖尿病,小兒糖尿病,妊娠糖尿病,青年的成人發(fā)病型糖尿病及老年糖尿病。
6.糖尿病疾病診斷
包括糖尿病的診斷指標(biāo)及診斷相關(guān)注意事項(xiàng)。查找有關(guān)糖尿病的文獻(xiàn),進(jìn)行簡單的整理歸納,得到相關(guān)的糖尿病診斷指標(biāo):
(1)測定果糖胺;(2)測定糖化血漿蛋白;(3)測定血紅蛋白A1;(4)測定血漿胰島素;(5)葡萄糖耐量試驗(yàn);(6)測定尿糖。
本文將糖尿病的治療方法主要分為三大類:藥物治療、胰島素治療及營養(yǎng)治療。糖尿病患者不能僅靠依賴藥物或胰島素進(jìn)行治療,需要結(jié)合多種方法治療,加上適合的運(yùn)動、飲食,按時(shí)服藥等相結(jié)合,才能達(dá)到更好地效果。
糖尿病是一組以血糖升高為主的代謝性疾病,臨床上主要表現(xiàn)多為“三多一少”癥狀(多飲、多尿、多食和消瘦),也有存在體質(zhì)下降,乏力等情況。通常情況下,1型糖尿病多在青少年及兒童中,且發(fā)病較急,部分患者會出現(xiàn)身體消瘦,體質(zhì)虛弱的情況。2型糖尿病相對無明顯的“三多一少”癥狀,更多情況下表現(xiàn)出慢性疾病,通?;疾≥^高的是中老年人及肥胖人群[14]。
本文借助本體構(gòu)建工具Protege對糖尿病進(jìn)行本體構(gòu)建,選用版本為protege 5.2版本。構(gòu)建過程主要分為類的構(gòu)建、對象屬性定義及數(shù)據(jù)類型的構(gòu)建,通過本體的構(gòu)建展示糖尿病知識及其相關(guān)關(guān)系[15]。
選擇標(biāo)簽class,創(chuàng)建基本類結(jié)構(gòu)[16],設(shè)置三個(gè)大類。包括:糖尿病治療方法(Diabetes_treatment)、糖尿病癥狀(Symptoms_of_diabetes)及糖尿病相關(guān)疾病(Diabetes_related_diseases),分別定義出各類。
對已構(gòu)建好的類進(jìn)行對象屬性的定義,分別對糖尿病治療方法(Diabetes_treatment)、糖尿病癥狀(Symptoms_of_diabetes)及糖尿病相關(guān)并發(fā)癥(Diabetes_related_diseases),用于表示類與類之間的關(guān)系[17]。
1.part of:表示整體與部分的關(guān)系。
2.cure:表示糖尿病治療方法可以治療糖尿病相關(guān)疾病。
3.has_symptom:表示糖尿病相關(guān)疾病的相關(guān)癥狀。
4.need_cure:表示糖尿病相關(guān)疾病需要的治療方法。
5.related_disease:表示糖尿病癥狀是由于糖尿病相關(guān)疾病引起的。
其中,cure與need cure,has_symptom與related_disease是兩組相反的對象屬性,需要在描述中進(jìn)行相關(guān)的定義。
我們在對糖尿病類進(jìn)行描述時(shí),需要通過數(shù)據(jù)類型的定義進(jìn)行完善。在本體的構(gòu)建中,類相當(dāng)于數(shù)據(jù)庫中的表的形式,而數(shù)據(jù)類則相當(dāng)于數(shù)據(jù)庫中的列[18]。這個(gè)需要對每一類進(jìn)行定義。比如,糖尿病治療方法的描述有治療類型及治療名稱。
我們通過以上對本體類、對象屬性及數(shù)據(jù)屬性的定義,可以看到糖尿病本體類及其層次結(jié)構(gòu)圖與本體結(jié)構(gòu)圖,本體結(jié)構(gòu)圖是對整個(gè)糖尿病知識結(jié)構(gòu)的描述[19]。其中的箭頭表示不同的關(guān)系,實(shí)線箭頭表示其父類與子類的關(guān)系,虛線箭頭則是針對其對象屬性的定義,不同顏色的虛線箭頭表示不同的對象屬性。即圖1和圖2:
圖1 糖尿病類及其層次結(jié)構(gòu)圖
圖2 糖尿病本體結(jié)構(gòu)圖
本文通過對目前糖尿病現(xiàn)狀及具體知識情況的掌握,對糖尿病病因、臨床表現(xiàn)、并發(fā)癥及藥物治療等進(jìn)行綜合的知識匯總,借助工具Protege構(gòu)建糖尿病本體,將糖尿病疾病病因及藥物治療相關(guān)知識進(jìn)行關(guān)聯(lián),最終進(jìn)行可視化的圖形展示,完成最基礎(chǔ)糖尿病知識結(jié)構(gòu)構(gòu)建。對于Protege工具在糖尿病知識構(gòu)建的方面,深入研究可以實(shí)現(xiàn)知識索引的,建立更加全面、完整的糖尿病知識庫。