概念數(shù)據(jù)模型是面向用戶的現(xiàn)實世界的模型,主要用來描述信息系統(tǒng)要處理的現(xiàn)實世界的概念化結(jié)構(gòu)。概念數(shù)據(jù)模型要面向現(xiàn)實信息世界,一方面要有較強的表達(dá)能力,能夠方便、全面、正確地表達(dá)信息系統(tǒng)面對現(xiàn)實世界需要處理的數(shù)據(jù)屬性及其分類與關(guān)系;另一方面,應(yīng)簡單、清晰,易于非技術(shù)人員的理解[1]。
在中醫(yī)藥領(lǐng)域,數(shù)據(jù)模型研究基本處于探索階段。謝琪[2]等提出的應(yīng)用領(lǐng)域本體方法建立中醫(yī)概念信息模型的思路與構(gòu)想,解決了中醫(yī)藥領(lǐng)域頂層設(shè)計理論指導(dǎo)不足的問題;郭磊[3]根據(jù)方證相關(guān)性構(gòu)建中醫(yī)藥關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)概念模型;李明[4]等采用本體方法,探討中醫(yī)證候本體表達(dá)模式的構(gòu)建方法及其在語義檢索、智能診斷、數(shù)據(jù)分析等方面的應(yīng)用;周揚[5]等提出構(gòu)建中藥本體的思路,以期全面描述中藥本質(zhì),揭示中藥本身及中藥間復(fù)雜的功效與物質(zhì)關(guān)系,澄清中藥的知識結(jié)構(gòu)。中醫(yī)藥領(lǐng)域關(guān)于數(shù)據(jù)模型已經(jīng)探索到概念層次,已經(jīng)發(fā)表的成果數(shù)量少,未見系統(tǒng)完整的概念數(shù)據(jù)模型,且質(zhì)量不高,體現(xiàn)為語義把握不準(zhǔn)確,概念層次不清。根據(jù)筆者參與的多項系統(tǒng)構(gòu)建經(jīng)驗,中醫(yī)藥領(lǐng)域的數(shù)據(jù)模型構(gòu)建的難點在于中醫(yī)藥概念信息抽取、概念體系梳理、語義把握難度以及復(fù)合型人才稀缺。
由于沒有統(tǒng)一語義的數(shù)據(jù)模型標(biāo)準(zhǔn),數(shù)據(jù)庫構(gòu)建沒有參照,容易重復(fù)建設(shè)。低質(zhì)量的數(shù)據(jù)模型直接影響應(yīng)用系統(tǒng)的質(zhì)量,更談不上應(yīng)用互操作,阻礙了信息資源的集成、交換。
本文前期完成對中藥領(lǐng)域數(shù)據(jù)資源調(diào)研分析[6],結(jié)合已有中藥數(shù)據(jù)元標(biāo)準(zhǔn)研究成果[7],對中藥概念體系進(jìn)行梳理,參考中醫(yī)藥學(xué)語言系統(tǒng)[8]相關(guān)語義類型及語義關(guān)系進(jìn)行概念間關(guān)系設(shè)定,形成中藥概念數(shù)據(jù)模型整體框架。
在整個中藥概念數(shù)據(jù)模型框架中,核心為中藥理論體系內(nèi)的核心概念。科技部“973項目”子課題“中藥理論框架構(gòu)建”(2013CB532005)[9]明確了中藥核心概念,分為一級概念、二級概念和三級概念等。一級概念為大類“中藥學(xué)”與“中藥”,中藥下含中藥材、飲片和中成藥;二級概念反映學(xué)科基本理論,如“道地藥材”“功效”“性能”“七情”“炮制”等;其他則為基本概念。在這個核心概念框架體系中,可以明確“中藥材”“飲片”“中成藥”是中藥概念體系的核心概念,與之相關(guān)的二級概念則可基于本體思路將其作為概念的屬性或相關(guān)概念存在。
在核心概念體系框架中,“中藥”是抽象概念,為中醫(yī)藥理論指導(dǎo)下使用的藥物,包括各種形態(tài)下的中藥,是整個核心體系的統(tǒng)領(lǐng);“中藥材”是指原料藥材,來源于藥用動、植、礦物的經(jīng)初加工的藥用部位;“中藥飲片”是以中藥材為原料藥,加工炮制,用于臨床和制劑生產(chǎn),具有自己的規(guī)格、臨床特性,受現(xiàn)代技術(shù)影響,飲片規(guī)格多樣,具有多種形態(tài),如通用中藥飲片、中藥超微飲片、中藥配方顆粒、中藥超微配方顆粒等;“中成藥”是復(fù)方或單方使用的成品藥劑,飲片是其原料藥。
通過對核心概念內(nèi)涵的分析,基于本體構(gòu)建理念,參照中醫(yī)藥學(xué)語言系統(tǒng)中藥相關(guān)語義類型及語義關(guān)系,對前期整理的中藥相關(guān)數(shù)據(jù)元進(jìn)行抽取[10],確認(rèn)概念及概念間關(guān)系。整理結(jié)果咨詢中醫(yī)、中藥、文獻(xiàn)方面的專家,專家建議對中藥相關(guān)業(yè)務(wù)領(lǐng)域的概念進(jìn)行擴展和深入。數(shù)據(jù)信息的抽取多來源于國家標(biāo)準(zhǔn)、權(quán)威辭典以及文獻(xiàn)信息,中藥相關(guān)業(yè)務(wù)領(lǐng)域可以從中藥生產(chǎn)、制備、應(yīng)用等領(lǐng)域進(jìn)行整理,也可以從中藥文獻(xiàn)主題分類進(jìn)行信息的抽取。
結(jié)合專家的反饋意見,對中藥相關(guān)業(yè)務(wù)領(lǐng)域范圍的確定重新進(jìn)行調(diào)研及相關(guān)文獻(xiàn)分析,最終確定了以下思路:為提高概念數(shù)據(jù)模型的實用性,參照中藥學(xué)學(xué)科分類,基于權(quán)威數(shù)據(jù)庫(如CNKI)文獻(xiàn)主題分類進(jìn)行中藥相關(guān)業(yè)務(wù)領(lǐng)域概念信息的抽取及關(guān)系設(shè)定。一方面中藥學(xué)學(xué)科分類能夠反映學(xué)科研究內(nèi)容,另一方面CNKI文獻(xiàn)分類目錄可以反映中藥相關(guān)文獻(xiàn)信息。中藥學(xué)學(xué)科分類見圖1,CNKI文獻(xiàn)分類目錄見圖2。
基于以上分析,將中藥核心概念設(shè)定為“中藥材”“中藥飲片”“中成藥”,相關(guān)領(lǐng)域確定以學(xué)科分類為基礎(chǔ),CNKI中藥學(xué)文獻(xiàn)分類作為補充,即相關(guān)中藥藥理、中藥化學(xué)、中藥藥劑、中藥鑒定、中藥炮制、中藥資源、中藥藥事管理、中藥相關(guān)本草等領(lǐng)域概念屬性及關(guān)系設(shè)置。
圖1 中藥學(xué)學(xué)科分類
圖2 CNKI中藥學(xué)文獻(xiàn)分類
確定中藥核心概念及相關(guān)領(lǐng)域概念分類之后,基于前期對中藥類數(shù)據(jù)元的整理[6],結(jié)合CNKI中藥學(xué)文獻(xiàn)分類篩選文獻(xiàn)分析,抽取中藥概念屬性及相關(guān)概念。在語義關(guān)系的設(shè)定上基于本體思路,通過關(guān)系表達(dá)概念內(nèi)涵及相關(guān)概念。在概念及關(guān)系的設(shè)定中,一方面要保證通過關(guān)系可以表達(dá)概念內(nèi)涵,另一方面概念及關(guān)系的設(shè)定可以參照中醫(yī)藥語言系統(tǒng)(Traditional Chinese Medical Language System,TCMLS)中藥類語義類型及語義關(guān)系,保證概念及關(guān)系的通用性。
基于以上分析對中藥核心概念及概念間關(guān)系進(jìn)行整理(表1)。從表1中可以看出,概念的大分類,抽取的概念除了核心概念外,其相關(guān)概念也分類列出,每一類概念都設(shè)定了語義關(guān)系及目標(biāo)概念。語義關(guān)系的設(shè)定充分考慮了該概念的內(nèi)涵及相關(guān)信息,關(guān)系描述解釋了概念與目標(biāo)概念之間設(shè)置的語義關(guān)系。如“中藥飲片|中藥藥性|中藥藥性”,關(guān)系描述為“中藥所具有的與治療作用有關(guān)的性能”,具體飲片納入則為“桂枝|中藥藥性|溫”。關(guān)系設(shè)定也充分參照了TCMLS中的語義關(guān)系,并在表中加以標(biāo)注,如“中藥飲片”的關(guān)系“中藥特性(TCMLS‘特性’)”,在TCMLS中“特性”關(guān)系指的是“特征或特性”。在此將其具體細(xì)化為“中藥特性”進(jìn)行表達(dá)。
中藥飲片類中除了“中藥藥性”“中藥藥味”“中藥歸經(jīng)”“中藥功能”等自身屬性信息描述之外,還增加設(shè)置了如“預(yù)防”“治療”“炮制方法”等相關(guān)屬性信息,是表達(dá)中藥飲片在圖書以及文獻(xiàn)中的相關(guān)其他信息表達(dá),如“中藥飲片|治療|疾病”,關(guān)系描述為“中藥飲片可以治療某種疾病”,具體飲片納入則為“桂枝|治療|風(fēng)寒感冒”。這些關(guān)系的設(shè)置,盡可能表述中藥的相關(guān)信息,以提高此數(shù)據(jù)模型的實用性。
以本體論方法為指導(dǎo),基于標(biāo)準(zhǔn)、教材、辭典及權(quán)威數(shù)據(jù)庫全面分析提取概念,參照TCMLS語義關(guān)系進(jìn)行關(guān)系設(shè)定,基于統(tǒng)一語義表達(dá)構(gòu)建中藥概念數(shù)據(jù)模型框架。
圖3以中藥材、中藥飲片、中成藥為核心,相關(guān)領(lǐng)域如中藥資源、中藥藥理、中藥化學(xué)、中藥炮制、中藥本草等做擴展,形成網(wǎng)狀模型。該模型圖以表1為基礎(chǔ),直觀表達(dá)概念屬性及相關(guān)概念屬性描述。抽象概念“中藥”做統(tǒng)領(lǐng),下分“中藥材”“中藥飲片”“中成藥”,各類概念及目標(biāo)概念之間以關(guān)系相連,并納入實例,方便理解。圖3中,中藥飲片“麻黃”在概念層次上具有相通的藥性、藥味、歸經(jīng)、藥理作用、化學(xué)成分等,在具體的飲片中又分為“生麻黃”和“炙麻黃”,炙麻黃又分為“蜜炙麻黃”和“水炙麻黃”,具體飲片分別與相關(guān)炮制方法相連。這樣就可以在概念層次方面進(jìn)行分層表達(dá)。
中藥概念數(shù)據(jù)模型的建立,一方面有助于指導(dǎo)數(shù)據(jù)庫規(guī)范建設(shè),方便數(shù)據(jù)交換與共享;另一方面作為領(lǐng)域概念信息的抽取,可以豐富和補充TCMLS,有利于完善中醫(yī)藥領(lǐng)域頂層本體建設(shè)。
表1 中藥核心概念及概念間關(guān)系
續(xù)表1
圖3中藥概念數(shù)據(jù)模型
在中藥概念數(shù)據(jù)模型構(gòu)建過程中,值得注意的是中藥相關(guān)領(lǐng)域概念的抽取來自于權(quán)威藥典、教材、詞典及文獻(xiàn)。這些信息屬于概念表達(dá),描述的是中藥學(xué)科知識體系及研究信息,可以用于中藥基礎(chǔ)知識及文獻(xiàn)信息集成建模指導(dǎo),在概念數(shù)據(jù)模型的實際應(yīng)用過程中,需進(jìn)一步轉(zhuǎn)換成邏輯數(shù)據(jù)模型、物理數(shù)據(jù)模型,才能在具體的數(shù)據(jù)庫中實現(xiàn)[1]。下一步可以提取中藥相關(guān)領(lǐng)域數(shù)據(jù)實例或者基于已有的中藥領(lǐng)域數(shù)據(jù)庫進(jìn)行信息映射集成完成驗證,符合標(biāo)準(zhǔn)的進(jìn)行存放認(rèn)證,不符合的進(jìn)行模型調(diào)整,討論修正,再次進(jìn)行專家咨詢予以論證。對于中藥作為實體在生產(chǎn)流通環(huán)節(jié)的建模,尚未涉及,此概念數(shù)據(jù)模型還待進(jìn)一步修改完善。