隨著網(wǎng)絡(luò)技術(shù)發(fā)展的日新月異,網(wǎng)絡(luò)信息資源呈幾何級(jí)數(shù)增長,但在提供豐富知識(shí)資源的同時(shí),也增加了查找的困難。如何有效組織、整合并高效檢索這些信息資源,是一個(gè)亟待解決的問題。元數(shù)據(jù)(Metadata)是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,是一種數(shù)據(jù)組織和處理的基本工具[1]。它可以用來描述數(shù)字化信息資源的基本特征和相互關(guān)系,從而使這些信息能夠被計(jì)算機(jī)系統(tǒng)識(shí)別、分解、提取和分析歸納為一套可編碼體系[2]。
隨著中醫(yī)藥領(lǐng)域電子資源的發(fā)展,越來越多的數(shù)據(jù)庫出現(xiàn),如何在眾多的數(shù)據(jù)庫中方便準(zhǔn)確地獲得用戶所需的信息是目前需要解決的問題之一。筆者在參與“多元異構(gòu)中醫(yī)藥科學(xué)數(shù)據(jù)匯交系統(tǒng)研發(fā)”課題時(shí)發(fā)現(xiàn),首先需要研制一套適用于中醫(yī)藥科學(xué)數(shù)據(jù)的元數(shù)據(jù)規(guī)范??茖W(xué)數(shù)據(jù)與科學(xué)文獻(xiàn)不同,對(duì)科學(xué)數(shù)據(jù)的有效管理成為促進(jìn)和保障科學(xué)研究和交流活動(dòng)的重要內(nèi)容,故而在中醫(yī)藥文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)之后,還需研究專門的中醫(yī)藥科學(xué)數(shù)據(jù)的元數(shù)據(jù)規(guī)范[3]。筆者對(duì)相關(guān)的元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行了調(diào)研,希望能找到建立中醫(yī)藥科學(xué)數(shù)據(jù)元數(shù)據(jù)規(guī)范的標(biāo)準(zhǔn)或方法。
目前,在國際上應(yīng)用范圍最廣、影響最大的元數(shù)據(jù)標(biāo)準(zhǔn)是都柏林核心元數(shù)據(jù)元素集(Dublin Core Metadata Element Set,DC)。它定義了一組最為核心的元素,用來描述各種資源,通用性很強(qiáng),是各領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)。國際標(biāo)準(zhǔn)化組織(ISO)最新發(fā)布了ISO 15836-1:2017 Information and documentation-The Dublin Core metadata element set-Part 1:Core elements(信息和文獻(xiàn)—都柏林核心元數(shù)據(jù)元素集—第一部分:核心元素)。元數(shù)據(jù)標(biāo)準(zhǔn)在醫(yī)學(xué)領(lǐng)域的應(yīng)用也很廣泛,它可以更深入地描述和組織醫(yī)學(xué)信息資源,有助于實(shí)現(xiàn)醫(yī)學(xué)信息資源的互通和共享,協(xié)助用戶發(fā)現(xiàn)所需的知識(shí)資源。在國際標(biāo)準(zhǔn)化組織(ISO)中,有專門針對(duì)醫(yī)學(xué)知識(shí)資源的一項(xiàng)標(biāo)準(zhǔn):ISO 13119:2012 Health informatics-Clinical knowledge resources-Metadata(健康信息學(xué)—臨床知識(shí)資源—元數(shù)據(jù),以下簡稱CKRM),它能對(duì)醫(yī)學(xué)知識(shí)資源的重要特征進(jìn)行準(zhǔn)確、規(guī)范的描述,適用于各類數(shù)字化的文檔,支持醫(yī)學(xué)文獻(xiàn)和自動(dòng)推理[4]。中醫(yī)藥文獻(xiàn)知識(shí)資源具有獨(dú)特的特點(diǎn),中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所針對(duì)中醫(yī)藥領(lǐng)域文獻(xiàn)的特點(diǎn)研制了“中醫(yī)文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)”,并于2014年在ISO發(fā)布了ISO TS 17938:2014 Health informatics-Traditional Chinese medicine literature metadata(健康信息學(xué)—中醫(yī)文獻(xiàn)元數(shù)據(jù),以下簡稱TCMLM)[5]。
本文從DC、CKRM、TCMLM發(fā)展歷史、元素集比較等方面對(duì)這三個(gè)ISO發(fā)布的醫(yī)學(xué)相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行比較,以期對(duì)中醫(yī)藥學(xué)領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)研究起到促進(jìn)作用。
1995年3月,由美國OCLC公司與國家超級(jí)計(jì)算應(yīng)用中心(NCSA)聯(lián)合發(fā)起,國際性合作項(xiàng)目Dublin Core Metadata Initiative設(shè)計(jì),52位來自全球圖書館界、計(jì)算機(jī)界專家共同研究,在都柏林召開的第一屆元數(shù)據(jù)研討會(huì)上確定了一種用于標(biāo)識(shí)數(shù)字資源的簡要目錄模式——都柏林核心元數(shù)據(jù)集(Dublin Core,DC),它包含題名(Title)、作者(Author)、主題(Subject)、出版者(Publisher)、其他代理者(Other Agent)、日期(Date)、主題類型(Object Type)、格式(Form)、標(biāo)識(shí)符(Identifier)、關(guān)系(Relation)、來源(Source)、語種(Language)、覆蓋范圍(Coverage)13個(gè)核心元素,它一出現(xiàn)就被北美洲、歐洲、亞洲和澳洲等洲的20多個(gè)國家認(rèn)同。經(jīng)過發(fā)展與完善,DC 核心元素的數(shù)量、名稱、定義、使用最終被確定下來,形成如今基于Web 資源的15 個(gè)核心元素: 題名(Title)、創(chuàng)建者(Creator)、主題(Subject)、描述(Description)、出版者(Publisher)、貢獻(xiàn)者(Contributor)、日期(Date)、類型(Type)、格式(Format)、標(biāo)識(shí)符(Identifier)、語種(Language)、來源(Source)、關(guān)系(Relation)、覆蓋范圍(Coverage)、權(quán)限(Rights)。DC 屬于一種通用描述性元數(shù)據(jù),簡練、易于理解、可擴(kuò)展,適合揭示各類型電子文獻(xiàn)的內(nèi)容和其他特征,能有效地對(duì)網(wǎng)絡(luò)資源進(jìn)行組織、分類、索引[6]。
美國于2001年7月把該元數(shù)據(jù)集確定為國家標(biāo)準(zhǔn)(Z39.85)。國際標(biāo)準(zhǔn)組織(ISO)于2009年發(fā)布了ISO 15836:2009 Information and documentation-The Dublin Core metadata element set(健康信息學(xué)-都柏林核心元數(shù)據(jù)元素集),2017年ISO發(fā)布了新版本ISO 15836-1:2017 Information and documentation-The Dublin Core metadata element set-Part 1: Core elements(信息和文獻(xiàn)—都柏林核心元數(shù)據(jù)元素集—第一部分:核心元素)代替了 ISO 15836:2009,并即將發(fā)布ISO/DTS 15836-2 Information and documentation-The Dublin Core metadata element set-Part2:DCMI Properties and classes(健康信息學(xué)—都柏林核心元數(shù)據(jù)元素集—第二部分:DCMI屬性和分類),用于更加詳細(xì)闡述屬性和分類的問題。我國于2010年發(fā)布了國家標(biāo)準(zhǔn)GB/T25100-2010信息與文獻(xiàn)都柏林核心元數(shù)據(jù)元素集,該標(biāo)準(zhǔn)采用了ISO 15836:2009內(nèi)容。
互聯(lián)網(wǎng)正在迅速改變我們獲取醫(yī)學(xué)知識(shí)的方式,越來越多的醫(yī)療專業(yè)人員通過基于Web的數(shù)據(jù)庫和其他電子文檔獲取知識(shí),越來越多的病人和公眾也逐漸開始使用互聯(lián)網(wǎng)。因此,歐洲標(biāo)準(zhǔn)化委員會(huì)(CEN)在2002年的歐洲行動(dòng)計(jì)劃中描述了挑戰(zhàn):“與健康相關(guān)的信息是互聯(lián)網(wǎng)上最常用的信息之一,但目前歐洲公民幾乎沒有資源來評(píng)估這些重要信息的質(zhì)量和真實(shí)性?!痹谶@種背景下,歐洲標(biāo)準(zhǔn)化委員會(huì)于2009年公布了一項(xiàng)標(biāo)準(zhǔn)CEN/TS 15699:2009 Health informatics-Clinical knowledge resources-Metadata(健康信息學(xué)-臨床知識(shí)資源-元數(shù)據(jù))。按照ISO和CEN技術(shù)合作協(xié)定(維也納協(xié)定),CEN/TC 251(健康信息學(xué)) 與ISO/TC 215健康信息學(xué)技術(shù)委員會(huì)合作,于2012年發(fā)布了ISO 13119:2012 Health informatics-Clinical knowledge resources-Metadata(健康信息學(xué)—臨床知識(shí)資源—元數(shù)據(jù))。該標(biāo)準(zhǔn)是對(duì)CEN/TS 15699:2009的修訂,并代替CEN/TS 15699:2009,同時(shí)CEN/TS 15699:2009被廢止[7]。
中醫(yī)藥歷經(jīng)數(shù)千年的發(fā)展產(chǎn)生了浩如煙海的文獻(xiàn)。如何有效地整理、保存和利用龐大、復(fù)雜的中醫(yī)藥文獻(xiàn)資源,是中醫(yī)藥傳承和發(fā)展的重點(diǎn)和難點(diǎn)問題。
隨著信息技術(shù)的發(fā)展,中醫(yī)藥文獻(xiàn)信息化也在飛速發(fā)展,并產(chǎn)生了許多中醫(yī)藥數(shù)據(jù)集。中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所研究員崔蒙等于2008年在國家科技支撐計(jì)劃項(xiàng)目“中醫(yī)疾病分類代碼等基礎(chǔ)標(biāo)準(zhǔn)示范研究”課題的支持下開始研制中醫(yī)藥文獻(xiàn)元數(shù)據(jù)規(guī)范,2011年完成“中醫(yī)藥數(shù)據(jù)集元數(shù)據(jù)規(guī)范”草案。該標(biāo)準(zhǔn)是基于DC,并參考CKRM和其他相關(guān)元數(shù)據(jù)規(guī)范,結(jié)合中醫(yī)藥數(shù)據(jù)集特性而編寫的,適用于中醫(yī)藥數(shù)據(jù)集的元數(shù)據(jù)標(biāo)準(zhǔn),但它的使用對(duì)象僅限于中醫(yī)藥數(shù)據(jù)集,針對(duì)廣泛的中醫(yī)藥文獻(xiàn),還沒有一部國際通用的中醫(yī)藥文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)。在此背景下,中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所于2008年向國際標(biāo)準(zhǔn)化組織(ISO)提出了“中醫(yī)學(xué)信息元數(shù)據(jù)標(biāo)準(zhǔn)”提案,后經(jīng)過會(huì)議討論,修改為“中醫(yī)藥文獻(xiàn)元數(shù)據(jù)”,2014年ISO正式發(fā)布的ISO TS 17938:2014 Health informatics-Traditional Chinese medicine literature metadata(健康信息學(xué)—中醫(yī)文獻(xiàn)元數(shù)據(jù))能夠規(guī)范、科學(xué)、合理地描述中醫(yī)藥學(xué)文獻(xiàn),為中醫(yī)藥文獻(xiàn)資源提供了一套通用的描述元素。它從標(biāo)識(shí)、內(nèi)容、分發(fā)、質(zhì)量、限制和維護(hù)等方面進(jìn)行標(biāo)識(shí)和規(guī)范,從而促進(jìn)了中醫(yī)藥文獻(xiàn)資源的共享和利用[8]。
DC包括題名(Title)、創(chuàng)建者(Creator)、主題(Subject)、描述(Description)、出版者(Publisher)、貢獻(xiàn)者(Contributor)、日期(Date)、類型(Type)、格式(Format)、標(biāo)識(shí)符(Identifier)、語種(Language)、來源(Source)、關(guān)聯(lián)(Relation)、覆蓋范圍(Coverage)、權(quán)限(Rights)15個(gè)元素(表1)。
表1 DC元素集
這15個(gè)元素按照內(nèi)容可以分為資源內(nèi)容描述項(xiàng)、知識(shí)產(chǎn)權(quán)描述項(xiàng)、外部屬性描述項(xiàng),比較全面地概括了電子資源的主要特征。它們不僅可以用于電子文檔,也適用于各類電子化的公務(wù)文檔以及產(chǎn)品、商品、藏品目錄等,具有很高的實(shí)用性。
CKRM定義了一組用于描述醫(yī)學(xué)知識(shí)資源的元數(shù)據(jù)元素,具體包括27個(gè)元素(表2)。CKRM元素 集主要適用于Web資源的醫(yī)學(xué)電子文檔,包括數(shù)據(jù)庫或通過文件傳輸訪問獲得的醫(yī)學(xué)知識(shí)資源,也適用于紙質(zhì)文檔,如醫(yī)學(xué)文獻(xiàn)中的文章。這些元素的適用類型包括醫(yī)學(xué)共識(shí)、政府部門監(jiān)管政策文件、制藥公司的臨床試驗(yàn)方案、科研方案、綜述等,主要用于支持醫(yī)學(xué)電子資源的自動(dòng)處理,如支持搜索引擎對(duì)某類文檔的分類等[8]。
表2 CKRM元素集
TCMLM定義了中醫(yī)文獻(xiàn)元數(shù)據(jù)的核心集合,包含24個(gè)元數(shù)據(jù)元素(表3)。
TCMLM元素集描述了中醫(yī)元數(shù)據(jù)的原理和方法,并對(duì)中醫(yī)元數(shù)據(jù)進(jìn)行了形式化描述,適用于中藥文獻(xiàn)的儲(chǔ)存、加工、記錄、維護(hù)和交流。它涵蓋了中醫(yī)文獻(xiàn)的識(shí)別、內(nèi)容、分布、制約、質(zhì)量、維護(hù)和關(guān)系等領(lǐng)域[9]。
表3 TCMLM元素集
DC具有通用性和建議性的特點(diǎn)。它結(jié)構(gòu)簡單,僅含15個(gè)元素,但是這些元素都能夠被普遍理解,沒有經(jīng)過專門培訓(xùn)的人員也能輕松使用。另外,DC支持對(duì)任何內(nèi)容的資源進(jìn)行描述,不僅僅針對(duì)某一學(xué)科或領(lǐng)域。它只選取最重要的幾個(gè)基本著錄項(xiàng)目,在不同學(xué)科的資源之間具備語義上的互操作性,有利于實(shí)現(xiàn)跨學(xué)科、跨領(lǐng)域的檢索。DC還具有靈活的擴(kuò)展性,它允許用戶根據(jù)需要增刪元素和其他附加的結(jié)構(gòu)。
CKRM與TCMLM是ISO發(fā)布的中西醫(yī)領(lǐng)域的兩套元數(shù)據(jù)標(biāo)準(zhǔn),二者存在一定的聯(lián)系,又有著本質(zhì)的區(qū)別(表4)。它們都是在絕大部分重用DC的基礎(chǔ)上,細(xì)化了部分DC元素,然后又根據(jù)各自的原則與特點(diǎn),重點(diǎn)增加了各自業(yè)務(wù)領(lǐng)域所需要的元素。重用DC的部分各自對(duì)其元素進(jìn)行了細(xì)化和在各自領(lǐng)域的解釋。比如它們都重用了Type(類型),CKRM對(duì)其的細(xì)化元素名稱里就包括Clinical guideline(臨床指南)、Case report(病歷報(bào)告)等具有臨床特征類型的名稱;TCMLM則對(duì)Title(題名)進(jìn)行了特色領(lǐng)域的細(xì)化,包括Title on the First Page of Text(卷端名稱)、Title on the Book Cover(書衣名稱)、Title on the inside covers(內(nèi)封名稱)、Title on Fore-edge(版心名稱)等。
表4 DC、CKRM、TCMLM元素集比較
CKRM包括27個(gè)元素,其中采用DC的有14個(gè),唯一沒有采用DC的是coverage(覆蓋范圍)。進(jìn)一步將date分為3個(gè),即date created(創(chuàng)建日期)、date available(有效日期)、date issued(發(fā)布日期),并細(xì)化了Creator(創(chuàng)建者)和Publisher(出版者)的具體信息,即增加了Creator Contact(創(chuàng)建者聯(lián)系方式)、Publisher Type(出版者類型)和Publisher Contact(出版者聯(lián)系方式)。新增的元素為7個(gè):Audience(受眾)、Situation(情況)、Clinical process stage(臨床過程狀態(tài))、Evidence Grading(證據(jù)等級(jí))、Recommendation Strength(推薦強(qiáng)度)、Risk(風(fēng)險(xiǎn))、Citation(引用),它們主要關(guān)注的是臨床過程中涉及的重點(diǎn)問題,能更好地表達(dá)臨床知識(shí)的特征。
TCMLM復(fù)用了DC的15個(gè)元素,只是將source(來源)改為data from(數(shù)據(jù)來源),其含義基本一致,并細(xì)化了Publisher(出版者)的信息,即增加了Palace of Publication(出版地)、Palace of Printing(印刷地)。另外新增了Ancient physicians(古代醫(yī)家)、TCM School of Thought(中醫(yī)流派)、Storage Location(存儲(chǔ)地點(diǎn))、Collection History(收集史)、Physical Degradation(物理降解)、Rare Degree(珍稀程度)、Preserve Method(保存方法)7個(gè)中醫(yī)藥文獻(xiàn)領(lǐng)域的特征元素,因而可更多地表達(dá)中醫(yī)古籍的一些必要特征。
DC、CRKM和TCMLM是ISO發(fā)布的3項(xiàng)元數(shù)據(jù)標(biāo)準(zhǔn)。DC是元數(shù)據(jù)標(biāo)準(zhǔn)的鼻祖,具有結(jié)構(gòu)簡單、易于理解與擴(kuò)展和更適用于網(wǎng)絡(luò)環(huán)境等特點(diǎn)。為了加強(qiáng)各領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)溝通和兼容,實(shí)現(xiàn)跨領(lǐng)域檢索,許多領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)的制定都以DC為基礎(chǔ),在DC的基礎(chǔ)上根據(jù)領(lǐng)域特征,通過豐富元數(shù)據(jù)元素或者增加元素取值范圍等形式進(jìn)行擴(kuò)展,從而形成領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)。
CRKM和TCMLM是DC在西醫(yī)學(xué)和中醫(yī)學(xué)領(lǐng)域資源中不同內(nèi)容、不同角度的擴(kuò)展和應(yīng)用,其目的是表達(dá)中西醫(yī)學(xué)各自領(lǐng)域內(nèi)的不同資源,以提供在各種醫(yī)學(xué)信息系統(tǒng)中的互操作性,因此是醫(yī)學(xué)和中醫(yī)藥學(xué)領(lǐng)域元數(shù)據(jù)規(guī)范制定的參考基礎(chǔ)。
元數(shù)據(jù)規(guī)范的制定要根據(jù)特定領(lǐng)域的具體需求進(jìn)行研究。制定的方法應(yīng)以DC為基礎(chǔ),參考和借鑒行業(yè)內(nèi)較成熟的元數(shù)據(jù)規(guī)范,增加具體所需的元素,或者給予自己特定的元素修飾詞和值域,以增強(qiáng)元數(shù)據(jù)規(guī)范的適用性和可操作性。比如在中醫(yī)藥科學(xué)數(shù)據(jù)元數(shù)據(jù)規(guī)范的制定研究中,采用以DC為基礎(chǔ),增加更能表達(dá)科學(xué)數(shù)據(jù)特征的元素,如在線地址、更新維護(hù)頻率等。同時(shí)也細(xì)化了元素修飾詞,并取值于中醫(yī)藥相關(guān)規(guī)范內(nèi)容,如在“創(chuàng)建者”元素下增加“創(chuàng)建者類型”元素修飾詞,并用“中醫(yī)藥數(shù)據(jù)集分類與代碼”中的“數(shù)據(jù)集創(chuàng)建機(jī)構(gòu)和代碼”來標(biāo)識(shí)該元素修飾詞。
綜上所述,隨著中醫(yī)藥信息化的不斷發(fā)展,組織、檢索和利用中醫(yī)藥知識(shí)資源的研究工作會(huì)越來越多。元數(shù)據(jù)作為描述數(shù)據(jù)的數(shù)據(jù),其規(guī)范研究將是提高中醫(yī)藥行業(yè)知識(shí)利用質(zhì)量的重要基礎(chǔ)之一。