崔一迪,王明強(qiáng),陳欣然,張 磊,李國正
(1. 中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所 北京 100700;2. 中國中國科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所北京 100700;3. 中國中醫(yī)科學(xué)院中醫(yī)藥數(shù)據(jù)中心 北京 100700)
痤瘡是一種毛囊皮脂腺的慢性炎癥性皮膚病,臨床上以面部粉刺、丘疹、膿皰或結(jié)節(jié)、囊腫為特征,易反復(fù)發(fā)作,具有損容性。根據(jù)相關(guān)調(diào)查[1-3],痤瘡在青少年中發(fā)病率高,但發(fā)病群體并不局限于青少年。近年來,由于社會的發(fā)展進(jìn)步,人們的生活節(jié)奏和生活習(xí)慣發(fā)生了巨大的改變,痤瘡的發(fā)病率也呈上升趨勢[4],同時,痤瘡的發(fā)病年齡呈現(xiàn)年輕化和中年化的趨勢。痤瘡由于具有損容性等致病特點(diǎn),給人們的心理和生活帶來了很大的困擾,尤其給青少年產(chǎn)生了嚴(yán)重的心理影響。痤瘡的中醫(yī)病名為“肺風(fēng)粉刺”,中醫(yī)對痤瘡的病名、病因病機(jī)、治療原則、治療方法的研究已有悠久的歷史,中醫(yī)藥治療痤瘡以方法多樣、效果明顯、安全、無刺激而獨(dú)具優(yōu)勢[5-6]。研究痤瘡的病因病機(jī)、治療方法等,并構(gòu)建相應(yīng)的中醫(yī)藥知識體系對痤瘡知識的整合、知識庫的構(gòu)建[7]以及臨床輔助決策的構(gòu)建等具有重要意義。痤瘡的中醫(yī)藥知識廣泛分布于醫(yī)話、醫(yī)案、期刊等形式的古、現(xiàn)代文獻(xiàn)中,存在知識散在分布的問題,而構(gòu)建相應(yīng)的本體可以整合知識、將多種來源的數(shù)據(jù)以知識的形式在同一體系中表達(dá),并構(gòu)建知識庫或知識圖譜,為日后的知識共享、應(yīng)用以及中醫(yī)藥經(jīng)驗(yàn)的傳承奠定基礎(chǔ)。
本體是起源于西方哲學(xué)的一個概念,是對世界上客觀存在物系統(tǒng)的描述[8],隨著計(jì)算機(jī)、人工智能的發(fā)展,逐漸被引入信息科學(xué)領(lǐng)域,其含義也發(fā)生了變化,其中被廣泛接受和認(rèn)同的定義是Gruber 提出的“概念化的規(guī)范說明”[9-10],在此基礎(chǔ)上,其內(nèi)涵包括四層含義,即概念化、明確、形式化和共享。其建模元素包括類(class)或概念(concopts)、關(guān)系、函數(shù)、公理和實(shí)例[8,11-12],本體是一種概念的形式化表達(dá)模型,一方面,本體能夠明確表達(dá)某一具體領(lǐng)域的知識,這些知識被領(lǐng)域內(nèi)的學(xué)者認(rèn)同,且被大眾復(fù)用,另一方面,本體也是人-機(jī)交互的基礎(chǔ)[13]。本體自被引入科學(xué)信息領(lǐng)域以來就得到了國內(nèi)外的廣泛關(guān)注與應(yīng)用,目前本體在生物醫(yī)學(xué)領(lǐng)域也得到了廣泛的應(yīng)用,例如已經(jīng)開發(fā)并投入應(yīng)用的臨床醫(yī)學(xué)術(shù)語系統(tǒng)(SNOMED-CT)[14]、統(tǒng)一醫(yī)學(xué)術(shù)語系統(tǒng)(UMLS)[15]、基因本體(Gene Ontology)[15]、中醫(yī)藥語言系統(tǒng)(TCMLS)[16]、中醫(yī)臨床術(shù)語系統(tǒng)[17]等,以及研究人員在研究中構(gòu)建的許多面向具體病種[18-21]或具體方向的中醫(yī)藥領(lǐng)域本體[22-25]。
圖1 七步法步驟
目前,中醫(yī)藥領(lǐng)域所構(gòu)建的本體具有不同的服務(wù)目的,包括智能診斷、輔助決策[19]和構(gòu)建頂層本體以整合中醫(yī)藥知識等。本研究構(gòu)建的是中醫(yī)藥痤瘡的領(lǐng)域本體,構(gòu)建目的一是整合中醫(yī)藥痤瘡知識,使不同來源的知識能夠并存于一個知識系統(tǒng)中,為后續(xù)的知識庫構(gòu)建奠定基礎(chǔ);二是痤瘡為一種常見的皮膚病,構(gòu)建痤瘡本體可為痤瘡的疾病預(yù)防、診斷、治療和護(hù)理等提供知識支撐,為后續(xù)痤瘡的知識服務(wù)、知識查詢和臨床輔助決策系統(tǒng)奠定基礎(chǔ);三是痤瘡本體的構(gòu)建是皮膚病本體以及中醫(yī)藥頂層本體的一個分支,現(xiàn)在中醫(yī)藥本體中還暫無痤瘡和皮膚病本體,因此構(gòu)建此本體也是日后本體融合的必要工作。
本體的構(gòu)建工具有很多,包括protégé、WebOnto、Ontolingua、OntoEdit、Ontosaurus、OntoEdit 等,其 中,protégé 是美國斯坦福大學(xué)基于Java 語言開發(fā)的免費(fèi)的、開源的本體編輯器,支持多方面的知識表示要素,具有很強(qiáng)的擴(kuò)展性,含有許多插件,且用戶操作簡單[26],是目前主流的本體編輯軟件,被廣泛地應(yīng)用于醫(yī)學(xué)領(lǐng)域的本體構(gòu)建。在知識表示和操作方式等方面protégé 均可滿足本研究的構(gòu)建需求,所以本研究選取protégé5.2.0作為構(gòu)建工具。
網(wǎng)絡(luò)本體語言(Web Ontology Language,OWL)是W3C發(fā)布的語義網(wǎng)標(biāo)準(zhǔn)表示語言,建立在RDF的基礎(chǔ)上,OWL 語言為概念間的描述提供了豐富的建模元素,是用來構(gòu)建本體的一個通用的標(biāo)準(zhǔn),且得到了成功的應(yīng)用實(shí)踐[27],具有很好的表達(dá)能力[28],本研究選擇OWL作為痤瘡本體的表示語言。
本體的構(gòu)建方法有很多,例如TOVE 法、骨架法、IDEF5 法、METHONTOLOGY 法和七步法[29]等,可根據(jù)不同的構(gòu)建目的選擇不同的構(gòu)建方法。鑒于此研究構(gòu)建痤瘡本體的目的是整理痤瘡的相關(guān)知識,以達(dá)到相關(guān)知識的整合和共享;并為臨床輔助決策系統(tǒng)提供知識支撐和推理的基礎(chǔ)。于本研究而言,七步法可引導(dǎo)我們完成知識的整理與本體的構(gòu)建,所以選取七步法為本研究的構(gòu)建方法。七步法是斯坦福大學(xué)開發(fā)的一種構(gòu)建本體的方法,廣泛地應(yīng)用于醫(yī)學(xué)本體的構(gòu)建,其中,七步法中的第6 步用來描述屬性值的類型、屬性值的個數(shù)等,在中醫(yī)藥痤瘡的本體構(gòu)建中不涉及此過程,故予以省略(七步法具體步驟見圖1)。
本研究的具體構(gòu)建過程如下。
(1)確定本體的專業(yè)領(lǐng)域和范疇:本研究構(gòu)建的中醫(yī)藥痤瘡本體,是為了整合中醫(yī)藥痤瘡知識,為后期知識圖譜、知識庫、臨床輔助決策系統(tǒng)的構(gòu)建等應(yīng)用提供知識基礎(chǔ)。其具體內(nèi)容包括痤瘡的病名、病因病機(jī)、癥狀體征、證候、治則治法、治療方法和方劑中藥等。目前,中醫(yī)藥痤瘡知識散布于不同類型的知識載體中,考慮到本研究的構(gòu)建目的,選擇數(shù)據(jù)來源為相關(guān)教材[30]、國家名老中醫(yī)專著[31]、痤瘡臨床指南[3]、中醫(yī)臨床術(shù)語系統(tǒng)[32]、中醫(yī)藥學(xué)主題詞表[33]等。
(2)考查復(fù)用現(xiàn)有本體的可能性:目前中醫(yī)藥研究領(lǐng)域沒有已發(fā)表的痤瘡的相關(guān)本體,但是已有中醫(yī)臨床術(shù)語系統(tǒng)等本體覆蓋部分痤瘡知識,具有很高的借鑒意義,因此本研究在構(gòu)建本體時借鑒了中醫(yī)臨床術(shù)語系統(tǒng)的語義類型和語義關(guān)系以及中醫(yī)藥學(xué)主題詞表的語義類型和上下位關(guān)系等。
(3)列出本體中的重要術(shù)語:人工提取上述來源中痤瘡的相關(guān)實(shí)體,提取的內(nèi)容包括概念、屬性等,并將其術(shù)語化。由于中醫(yī)藥領(lǐng)域用詞習(xí)慣各異,所以此處所講的術(shù)語化并非是完全的術(shù)語化,而是在參考術(shù)語相關(guān)的標(biāo)準(zhǔn)[34-35]或書籍[36]等的基礎(chǔ)上將用語用盡量準(zhǔn)確且符合習(xí)慣的方式來表達(dá)。在術(shù)語化時有四種情況:①抽取的實(shí)體本身就是術(shù)語,無須轉(zhuǎn)化;②將實(shí)體轉(zhuǎn)化為相對應(yīng)的術(shù)語;③抽取的實(shí)體為多個詞組合而成,需將此實(shí)體拆分,分為相對應(yīng)的兩個或多個術(shù)語來表達(dá),例如舌紅苔黃轉(zhuǎn)化為舌質(zhì)紅與舌苔黃;④抽取的實(shí)體尚未有與之對應(yīng)的術(shù)語,則選擇常用且較規(guī)范的詞語來表示。
圖2 中醫(yī)藥痤瘡本體的中醫(yī)理論框架
圖3 痤瘡本體的等級構(gòu)建
(4)定義類和類的等級:對已產(chǎn)生的大量術(shù)語,需建立一定等級關(guān)系。本研究采用混合法構(gòu)建類的等級[29],一方面在中醫(yī)理論的指導(dǎo)下設(shè)置痤瘡本體的一級類目(中醫(yī)理論框架見圖2),例如“病因病機(jī)”、“病癥”、“癥狀體征”“方劑和中藥”、“治則治法”等作為疾病本體所需要的基本要素,并依據(jù)中醫(yī)理論細(xì)分下級類目;另一方面,根據(jù)所列舉的術(shù)語歸納總結(jié)能夠概括同類術(shù)語的上層類目或補(bǔ)充中間缺少的類目。例如痤瘡本體中定義的一級類目中包含“病因病機(jī)”,二級類目為“病因”,對于抽取的術(shù)語中有“飲食不節(jié)”這一病因,根據(jù)中醫(yī)理論,需要在“飲食不節(jié)”與“病因”之間再增加“內(nèi)因”這一類目,具體見圖3。
圖4 痤瘡本體的部分可視化
表1 對象屬性及注釋
(5)定義類的屬性:類的屬性包括類與類之間的對象屬性(object property)和類的數(shù)據(jù)屬性(data property)等。首先,建立類與類之間的對象屬性,根據(jù)自然語言的描述和中醫(yī)理論框架(圖2)提取類與類之間的關(guān)系。類的對象屬性包括類與子類之間的上下級關(guān)系和人工定義的類與類之間的語義關(guān)系,例如教材中所述“痤瘡主要發(fā)生于面部的前額、兩頰和口周”,在構(gòu)建時定義一個名為“病發(fā)于”的對象屬性來描述“疾病”和“形體官竅”之間的語義關(guān)系,并限定其定義域(domain)和值域(range),定義域?yàn)椤凹膊 ?,值域?yàn)椤靶误w官竅”,從而使類與類之間可以通過對象屬性相互聯(lián)系,同時類之間的語義關(guān)系也具有繼承性,下級類可繼承上級類之間的語義關(guān)系。類的屬性的構(gòu)建起到知識表示的作用,同時使此本體具有推理等功能。類與類的關(guān)系定義完成后,需要建立類的數(shù)據(jù)屬性,例如“疾病”有與之相對應(yīng)的中醫(yī)病名,因此可以為“疾病”建立一個“中醫(yī)病名”的數(shù)據(jù)屬性,建立的數(shù)據(jù)屬性能夠較為全面地描述類,并且在以后本體的應(yīng)用中為檢索、查詢等應(yīng)用奠定基礎(chǔ)。本研究中類的屬性按照臨床診療過程中的思維模式來構(gòu)建,首先通過患者的一些典型癥狀,例如“丘疹、膿皰、粉刺”等來判斷為痤瘡,由此可用一些痤瘡常用方藥或其他療法,此為辨病論治;再則,當(dāng)患者伴隨“口干、心煩、舌紅少苔和脈細(xì)數(shù)”等癥狀時,此時則應(yīng)辨證論治,判斷此證為“陰虛內(nèi)熱證”,使用滋陰瀉火的方藥予以治療??梢?,屬性的構(gòu)建對本體的知識推理起到了重要的作用。
(6)創(chuàng)建實(shí)例:上層本體構(gòu)建之后,需要創(chuàng)建類的實(shí)例,所創(chuàng)建的實(shí)例在protégé 中可繼承類的屬性。創(chuàng)建實(shí)例包括創(chuàng)建實(shí)例的個體和實(shí)例的屬性,例如,在步驟(4)中已經(jīng)構(gòu)建“疾病”和“證候”這兩個類,并在步驟(5)中構(gòu)建對象屬性“階段性表現(xiàn)為”,并設(shè)置其定義域?yàn)椤凹膊 ?,值域?yàn)椤白C候”。現(xiàn)在分別在“疾病”和“證候”這兩個類之下添加實(shí)例“痤瘡”和“陰虛內(nèi)熱證”,并構(gòu)建兩者之間的對象屬性“階段性表現(xiàn)為”,建立實(shí)例之間的語義關(guān)系。
在本體構(gòu)建完成后,需要對已構(gòu)建的本體進(jìn)行檢驗(yàn)。首先人工檢驗(yàn)各級類目的設(shè)置和類的屬性設(shè)置是否符合中醫(yī)理論,然后用protégé 自帶的推理機(jī)進(jìn)行推理[23],一方面可以檢驗(yàn)本體的邏輯一致性,另一方面也可從中發(fā)現(xiàn)新的關(guān)系。最后利用protégé5.2.0 自帶的可視化工具(ontoGraf)進(jìn)行可視化。
在本研究痤瘡本體的構(gòu)建中,共構(gòu)建各級類目77個,13 個對象屬性(皆為單向?qū)傩裕ㄒ姳?),2 個數(shù)據(jù)屬性和139 個實(shí)例。經(jīng)檢驗(yàn),符合中醫(yī)基礎(chǔ)理論和邏輯一致性。圖4為本體內(nèi)容的部分可視化。
痤瘡是一種長期、慢性、具有損容性的皮膚病,中醫(yī)藥治療效果理想,所以,建立痤瘡的中醫(yī)藥知識本體,對痤瘡的防治具有重要意義。本研究所構(gòu)建的中醫(yī)藥痤瘡本體選取了教材、名老中醫(yī)專著、臨床指南的中醫(yī)部分等現(xiàn)代的顯性知識作為知識來源,此本體可作為上層框架,在此基礎(chǔ)上補(bǔ)充實(shí)例,形成中醫(yī)藥痤瘡知識圖譜,最終為臨床輔助決策系統(tǒng)提供知識基礎(chǔ);同時,此本體的構(gòu)建以中醫(yī)理論為基礎(chǔ),還原了臨床醫(yī)生的辨證診療思路,表示了病、證、癥、方、藥與其他療法之間的語義關(guān)聯(lián),我們嘗試以此為基礎(chǔ)發(fā)現(xiàn)新的隱形知識;且由于痤瘡發(fā)病率高,治療周期長,容易復(fù)發(fā),此本體可作為知識框架構(gòu)建中醫(yī)藥痤瘡知識庫,為痤瘡患者提供預(yù)防、輔助治療和調(diào)理的建議。
本研究以中醫(yī)理論為核心,以多種來源的數(shù)據(jù)為切入點(diǎn),人工對痤瘡相關(guān)的中醫(yī)藥知識進(jìn)行收集、整理與組織,抽取概念、建立語義關(guān)系,最終以三元組的表達(dá)形式,建立中醫(yī)藥痤瘡本體的知識表達(dá)模型。這不僅有利于知識的共享和利用,并為中醫(yī)藥痤瘡知識庫的構(gòu)建、中醫(yī)藥頂層本體的構(gòu)建以及后續(xù)知識的查詢、檢索、推理等應(yīng)用奠定了基礎(chǔ)。
在接下來的工作中,本課題組將更為全面地納入不同來源的知識,例如中醫(yī)藥古籍文獻(xiàn)、臨床相關(guān)數(shù)據(jù)等,使中醫(yī)藥痤瘡本體更為完整和豐富,同時在此本體的基礎(chǔ)上構(gòu)建中醫(yī)藥痤瘡知識圖譜和臨床輔助決策系統(tǒng),同時也期待發(fā)現(xiàn)一些隱性知識,在一定意義上為中醫(yī)藥傳承做出貢獻(xiàn)。