[摘 要]隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)通信技術(shù)的飛速發(fā)展,醫(yī)學(xué)數(shù)字信息資源建設(shè)已成為醫(yī)院圖書館建設(shè)和發(fā)展的必然選擇,它是提高醫(yī)院醫(yī)療、教學(xué)和科研水平的保障。醫(yī)學(xué)數(shù)字信息資源的特殊性為知識(shí)組織增加了難度,需要不斷創(chuàng)新知識(shí)組織工具,提高獲取知識(shí)的效能。本文在分析國內(nèi)外醫(yī)學(xué)領(lǐng)域本體研究現(xiàn)狀的基礎(chǔ)上,立足醫(yī)學(xué)信息資源知識(shí)組織,對(duì)本體醫(yī)學(xué)領(lǐng)域的應(yīng)用進(jìn)行深入探討。
[關(guān)鍵詞]醫(yī)院圖書館;本體;信息資源
[中圖分類號(hào)]G250.76 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821(2010)02-0032-03
Study on the Practice of Ontology-Based Knowledge
Organization for Hospital LibraryLi Rong
(Library,Beijing Chaoyang Hospital,Beijing 100020,China)
[Abstract]With the rapid advances in computer and network communication technologies,it is inevitable for hospital library to be digitalized,as this is the effective way to overcome their disadvantages in information resources as compared with large medical libraries and to improve the medical treatment,teaching and scientific research of their corresponding institutions.The particularity of medical digital information resource increases the difficulty of knowledge organization,so there is a need to continuously innovate knowledge organization tool to improve knowledge acquisition efficiency.Based on analyses of the status in quo of oversea and domestic research on medical ontology and based on knowledge organization of medical digital information resources The research on the application of ontology cannot but improve knowledge service level in this field,the researcher analyzed characteristics of information organization and knowledge organization,proposed that MeSH should be used in standard expression of concepts,Semantic network should be used in network structure organization of semantic types,functions and axioms of ontology in reasoning,revealing how the ontology is applied and how it experts effects in the knowledge organization of digital information resources in certain field.
[Keywords]hospital library;ontology;digital information resources
本體(ontology)是起源于哲學(xué)領(lǐng)域的概念,本體在網(wǎng)絡(luò)上的應(yīng)用,導(dǎo)致了語義網(wǎng)的誕生,解決了信息共享時(shí)的語義問題,實(shí)現(xiàn)了全球范圍的知識(shí)集成,目前成為圖書情報(bào)領(lǐng)域、知識(shí)工程領(lǐng)域、信息科學(xué)領(lǐng)域研究的熱點(diǎn)。圖書情報(bào)領(lǐng)域?qū)Ρ倔w的研究主要側(cè)重于將其作為知識(shí)組織和知識(shí)表示的手段,優(yōu)化傳統(tǒng)的知識(shí)組織體系,提高為用戶提供知識(shí)服務(wù)的能力。本文旨在通過研究本體在醫(yī)院圖書館信息資源知識(shí)組織中的應(yīng)用,揭示醫(yī)學(xué)圖書館如何利用本體開展更好的服務(wù)。
1 醫(yī)學(xué)數(shù)字信息資源概述
1.1 醫(yī)學(xué)數(shù)字信息的概念和特點(diǎn)
醫(yī)學(xué)數(shù)字信息資源是醫(yī)學(xué)文獻(xiàn)信息的表現(xiàn)形式之一,是將計(jì)算機(jī)語言、通信技術(shù)及多媒體技術(shù)相互融合而成,以數(shù)字形式發(fā)布、存取、利用的資源。從數(shù)據(jù)的形式上看,有數(shù)據(jù)庫、電子圖書、電子期刊、網(wǎng)頁、多媒體資料等,每一種媒體又包含多種格式。按數(shù)據(jù)傳播的范圍可分為本地和網(wǎng)絡(luò)化兩種方式。本地利用方式是指數(shù)據(jù)保存在本地的計(jì)算機(jī)或光盤上;網(wǎng)絡(luò)化方式可以提供局域網(wǎng)、廣域網(wǎng)范圍內(nèi)的訪問[1]。
隨著計(jì)算機(jī)運(yùn)算能力、存儲(chǔ)能力的增強(qiáng),網(wǎng)絡(luò)環(huán)境下的醫(yī)學(xué)數(shù)字信息資源迅速膨脹。醫(yī)學(xué)數(shù)字信息具有數(shù)量巨大、內(nèi)容龐雜、體積小、內(nèi)容包羅萬象,可記載多媒體信息,易復(fù)制、打印等。與傳統(tǒng)文獻(xiàn)資料相比,數(shù)字信息變化快,隨時(shí)發(fā)布、隨時(shí)更改、隨時(shí)消亡,具有活動(dòng)性,也具有暫時(shí)性。其用途廣泛,方便快捷,無論是學(xué)術(shù)論文、專業(yè)資料、會(huì)議信息、專利情況、專題研究信息都能夠找到。醫(yī)學(xué)文獻(xiàn)的壽命最短、更新迅速,半衰期僅為3.5年,對(duì)醫(yī)院圖書館的維護(hù)和更新要求更高。所有臨床數(shù)據(jù)都有時(shí)序性,比如疾病的發(fā)生發(fā)展過程以及在臨床治療中對(duì)病情的監(jiān)控。醫(yī)學(xué)學(xué)科分支非常細(xì),許多的邊緣交叉學(xué)科由此產(chǎn)生,概念之間的關(guān)系和知識(shí)表示復(fù)雜化,使醫(yī)學(xué)信息存在不確定性,比如流行性非典型性肺炎病人,有咳嗽、發(fā)熱、呼吸困難等癥狀,其它的呼吸系統(tǒng)疾病也有相同或相似的體征和癥狀,這種體征并不是流行性非典型性肺炎所獨(dú)有,因此在鑒別診斷清楚以前,對(duì)于他的描述都是模糊的[2]。
醫(yī)學(xué)數(shù)字資源這些特點(diǎn)決定了醫(yī)學(xué)信息資源描述和組織的特殊性,要求有一種靈活而又統(tǒng)一的知識(shí)表示方式。
1.2 醫(yī)學(xué)信息資源數(shù)據(jù)的組織
分類法和主題詞表是傳統(tǒng)的知識(shí)組織工具。網(wǎng)絡(luò)信息資源通常采用搜索引擎進(jìn)行組織,利用主題法原理組織,通過在互聯(lián)網(wǎng)上提取各個(gè)網(wǎng)站上的信息來建立相關(guān)的數(shù)據(jù)庫并向用戶提供檢索服務(wù)。元數(shù)據(jù)(Metadata)則是解決異構(gòu)網(wǎng)互通的組織工具。主題圖技術(shù)和語義網(wǎng)絡(luò)的最大特點(diǎn)是將知識(shí)結(jié)構(gòu)化,并發(fā)展出語義的描述機(jī)制,以及著重表現(xiàn)知識(shí)關(guān)聯(lián)性[3]。
為順應(yīng)智能型信息表達(dá)和檢索的需求,需要一種多用途、具有彈性的表達(dá)工具,以自然語言為基礎(chǔ)的本體技術(shù)成為發(fā)展的趨勢(shì)。由于ontology對(duì)概念、術(shù)語間的關(guān)系描述得更為廣泛、細(xì)致和全面,使其成為知識(shí)組織的立足點(diǎn)。
期醫(yī)院圖書館本體信息資源的構(gòu)建研究Feb.,2010Vol.30 No.22 本體在醫(yī)學(xué)信息資源知識(shí)組織中的作用
本體(ontology)是一個(gè)關(guān)于一些主題的清晰規(guī)范的說明,是得到公認(rèn)的描述,包含術(shù)語表,其中術(shù)語全是與某一學(xué)科領(lǐng)域相關(guān)的,術(shù)語表中的邏輯聲明是用來描述術(shù)語的含義和術(shù)語間關(guān)系。本體提供了表達(dá)某些主題知識(shí)的詞表和一個(gè)關(guān)系集,關(guān)系集是詞表中這些術(shù)語間關(guān)系的集合[4]。由于其可以具有明確地詳述語義和關(guān)系的能力,本體(ontology)被應(yīng)用于許多領(lǐng)域,尤其適合網(wǎng)絡(luò)環(huán)境下的知識(shí)表達(dá)。
本體繼承了主題詞表在規(guī)范用詞上的優(yōu)勢(shì),將同義詞組織成同義詞集,同時(shí)擴(kuò)展了主題詞表原有的“用、代、屬、分、參、族”等簡單語義關(guān)系,并在知識(shí)組織中,將傳統(tǒng)主題詞表的靜態(tài)列舉式的結(jié)構(gòu)改變?yōu)檎故救祟愔R(shí)創(chuàng)造的動(dòng)態(tài)邏輯過程;將主題詞表一維、線性的展示知識(shí)點(diǎn)為本體網(wǎng)絡(luò)的展示知識(shí)點(diǎn)。本體是語義互聯(lián)網(wǎng)的基礎(chǔ),基于本體構(gòu)建的互聯(lián)網(wǎng)將是機(jī)器和人都可以理解的。
2.1 揭示醫(yī)學(xué)知識(shí)間的語義關(guān)系
本體(ontology)用概念(類)、子類、實(shí)例表示概念的上下位關(guān)系,用屬性描述類的性質(zhì),用函數(shù)表示概念間的聯(lián)系,這樣對(duì)概念的描述形成三維結(jié)構(gòu)。
本體描述為醫(yī)學(xué)信息資源提供了一個(gè)統(tǒng)一模型,保持語義上的統(tǒng)一性。運(yùn)用本體方法對(duì)醫(yī)學(xué)信息資源知識(shí)進(jìn)行組織,可以減少名詞和術(shù)語上的歧義,專業(yè)名詞間的關(guān)系能夠被描述得詳細(xì)和全面,通過對(duì)名詞添加屬性值,對(duì)屬性之間添加映射關(guān)系,一些在正規(guī)詞表中不能描述的語義關(guān)系就可以清晰的描述出來。
2.2 實(shí)現(xiàn)系統(tǒng)間協(xié)同工作
互操作指系統(tǒng)間協(xié)同工作的能力。醫(yī)院圖書館的用戶和館員之間,館員與館員之間以及用戶和用戶之間往往需要進(jìn)行信息交換,使用不同的閱讀工具時(shí)相互之間很難達(dá)到交流,為這些不同軟件工具創(chuàng)建一個(gè)大家可以使用的本體集成環(huán)境成為關(guān)鍵所在。本體應(yīng)用不同的建模方法、語言及軟件工具之間進(jìn)轉(zhuǎn)換和翻譯,通過不同本體的語義實(shí)現(xiàn)資源和系統(tǒng)之間的語義聯(lián)系,即可將各個(gè)相對(duì)獨(dú)立的領(lǐng)域本體聯(lián)系成一個(gè)知識(shí)網(wǎng)絡(luò),從而實(shí)現(xiàn)不同領(lǐng)域的知識(shí)體系化、結(jié)構(gòu)化、形式化。為提高互操作性,本體可作為中間語言,用來支持不同語言間的轉(zhuǎn)換。對(duì)于醫(yī)學(xué)信息資源知識(shí)來說,涉及到一些不同的領(lǐng)域,就要將這些領(lǐng)域所建立的本體進(jìn)行集成,以支持這些處理任務(wù)。
2.3 共享醫(yī)學(xué)信息資源領(lǐng)域知識(shí)的實(shí)現(xiàn)
本體的構(gòu)建使得知識(shí)可以共享和重用。共享是本體的重要特點(diǎn),即指本體概念體現(xiàn)的是共同認(rèn)可的知識(shí)。這如同美國哲學(xué)家托馬斯#8226;庫恩提出的被某一科學(xué)共同體所公認(rèn)的“范式”。由于本體反映的是相關(guān)領(lǐng)域中公認(rèn)的概念,所以醫(yī)院圖書館進(jìn)行知識(shí)組織時(shí)可以實(shí)現(xiàn)各學(xué)科領(lǐng)域本體之間(如內(nèi)科學(xué)本體、外科學(xué)本體等)的共享。
2.4 實(shí)現(xiàn)醫(yī)學(xué)信息資源知識(shí)檢索
在本體的支撐下實(shí)現(xiàn)基于語義的知識(shí)檢索,是本體的重要應(yīng)用之一。在醫(yī)院圖書館中本體作為各學(xué)科知識(shí)的語義模型,其主要功能體包括知識(shí)組織和知識(shí)檢索兩方面。知識(shí)檢索是知識(shí)組織的逆過程。實(shí)現(xiàn)基于概念語義的知識(shí)檢索,必須依賴于知識(shí)組織模式的支撐。只有以基于本體的知識(shí)組織模式為基礎(chǔ),以各學(xué)科本體的概念模型作為資源元數(shù)據(jù)的規(guī)范描述標(biāo)準(zhǔn),才能真正實(shí)現(xiàn)醫(yī)院圖書館中基于語義的知識(shí)檢索。
2.5 滿足醫(yī)學(xué)信息資源知識(shí)組織的特殊需要
醫(yī)院圖書館的不斷發(fā)展,要求在醫(yī)學(xué)信息資源知識(shí)的組織模式上要與時(shí)俱進(jìn),講求時(shí)效,方便修訂。本體是基于XML的開放體系,可以通過對(duì)枝節(jié)處進(jìn)行修訂,同時(shí),本體具有良好的可復(fù)用性,方便地構(gòu)建新的本體。本體的特性正好可以滿足醫(yī)學(xué)信息資源知識(shí)組織的特殊要求。為了更準(zhǔn)確地理解本體在醫(yī)學(xué)圖書館知識(shí)組織中的作用,醫(yī)學(xué)信息資源中的書目數(shù)據(jù)為例進(jìn)行說明。醫(yī)學(xué)信息資源涉及的類型往往很復(fù)雜,有實(shí)體的也有虛擬的,各信息系統(tǒng)大多異構(gòu),且存在著非常復(fù)雜的關(guān)系,因此傳統(tǒng)的知識(shí)組織模式很難用進(jìn)行完整的知識(shí)組織[5]。
3 本體在醫(yī)院圖書館信息資源知識(shí)組織中的應(yīng)用實(shí)例知識(shí)庫具有智能查詢、回答用戶問題等功能,具有進(jìn)一步知識(shí)挖掘的能力。我們構(gòu)建的肺炎本體模型能夠回答肺炎的病因、診斷、并發(fā)癥、治療等等問題。
3.1 肺炎本體模型的內(nèi)容及數(shù)據(jù)來源
明確肺炎本體的目的和專業(yè)領(lǐng)域范圍,從概念之間關(guān)聯(lián)的角度,深層次地揭示領(lǐng)域的信息,實(shí)現(xiàn)該領(lǐng)域文獻(xiàn)集的基于知識(shí)結(jié)構(gòu)的導(dǎo)航。本體中的信息涉及的問題包括:肺炎疾病的分類分級(jí)、原因、危害、診斷、預(yù)防、治療、護(hù)理、預(yù)后、主要研究機(jī)構(gòu)、著名研究人員等內(nèi)容。通過搜集、分析肺炎領(lǐng)域的數(shù)據(jù)庫,把握分析領(lǐng)域概念。采用網(wǎng)上MEDLINE數(shù)據(jù)庫中有關(guān)肺炎研究3 923條數(shù)據(jù)作為基本的試驗(yàn)數(shù)據(jù)源,試驗(yàn)數(shù)據(jù)源獲取方式為:為美國國立醫(yī)學(xué)圖書館的PubMed中的Medline數(shù)據(jù)庫,檢索策略式為在MEDLINE數(shù)據(jù)庫中查找mesh=“Pneumonia”,并且時(shí)間限定為“2008/01/01-2008/12/31”[6]。
3.2 定義肺炎本體的類目
肺炎分為感染類、理化類和變態(tài)反應(yīng)類。感染類,其子類又分為細(xì)菌性、病毒性、支原體性、真菌性、寄生蟲性等等;理化類包括放射性肺炎、吸入類肺炎、類脂性肺炎等等;變態(tài)反應(yīng)類包括過敏性肺炎和風(fēng)濕性肺炎。肺炎可以用病因、病理、流行趨勢(shì)等等屬性表示,肺炎的病因?qū)傩耘c感染類作一相關(guān)關(guān)系,病毒類包括實(shí)例“流感病毒”,感染類建立“導(dǎo)致肺炎種類”的屬性,這一屬性的取值為病毒類中的實(shí)例,這樣我們通過將肺炎與病毒作病因聯(lián)接。
醫(yī)學(xué)概念名稱雖然有一個(gè)統(tǒng)一的規(guī)范命名系統(tǒng),但很多概念卻是約定俗成,而且經(jīng)常使用,導(dǎo)致一個(gè)概念可以有很多種名稱來表示,比如LungCancer,Pulmonary Cancer,Lung Neoplasms,Pulmonary Neoplasms均表示肺癌或肺腫瘤?!禡eSH》對(duì)此進(jìn)行規(guī)范,建立一個(gè)“see”參照,統(tǒng)一的名稱為“Lung Neoplasms”。目前UMLS中的醫(yī)學(xué)主題詞表和超級(jí)敘詞表對(duì)肺炎概念體系的上位類、下位類表述的十分詳盡,我們研究肺炎本體的核心概念均來自于這兩個(gè)詞表。另外UMLS Semantic Network對(duì)于肺炎的語義類型進(jìn)行了詳盡描述,本研究借鑒其語義類型組織肺炎本體的關(guān)系模型[7]。以MeSH表為基礎(chǔ)使得肺炎本體模型的構(gòu)建有了可供遵循的語義基礎(chǔ)。在語義基礎(chǔ)之上,通過此領(lǐng)域本體并充分發(fā)揮領(lǐng)域本體的作用才能夠?qū)崿F(xiàn)智能化查尋。
3.3 實(shí) 例
首先我們確定一個(gè)類,如肺炎類,一個(gè)子類,如感染性肺炎,創(chuàng)建該子類的一個(gè)實(shí)例,如細(xì)菌性肺炎,并為這個(gè)類添加屬性值。實(shí)例繼承類的屬性,在實(shí)例中為其添加屬性值,如細(xì)菌性炎的病因可以為細(xì)菌的實(shí)例“肺炎球菌”、“肺炎克雷伯桿菌”等,其傳播途徑取值為傳播途徑類的實(shí)例“呼吸傳播”、“日常生活接觸傳播”等。通過以上步驟,肺炎實(shí)體就可建立起來。
參考文獻(xiàn)
[1]肖敏.領(lǐng)域本體的構(gòu)建方法研究[J].情報(bào)雜志,2006,(2):70-74.
[2]杜文華.本體構(gòu)建方法比較研究[J].情報(bào)雜志,2005,(10):24-25.
[3]陳亞寧,陳淑君.以知識(shí)探索為本之知識(shí)組織方法論及研究分析[EB].http:∥www.sinica.edu.tw/~metadata/bibliography/journal/blis
[4]高穎,謝士光,王希民.可擴(kuò)展標(biāo)語語言在數(shù)字圖書館中的應(yīng)用[J].圖書館理論與實(shí)踐,2004,(1):89-90.
[5]田欣.基于知識(shí)本體的圖書館語義檢索系統(tǒng)模型研究[J].情報(bào)雜志,2006,(6):78-81.
[6]唐立民,黃德才.本體模型及其在語義Web中的本體描述語言[J].計(jì)算機(jī)應(yīng)用與軟件,2005,22(7):33-35.
[7]畢強(qiáng),牟冬梅.語義網(wǎng)格環(huán)境下數(shù)字圖書館知識(shí)組織理論、方法及其過程研究[J].圖書情報(bào)工作,2007,51(8):6-9.
[8]李景.主要本體構(gòu)建工具比較研究[J].信息系統(tǒng),2006,29(1):222-226.