,
循證醫(yī)學數(shù)據(jù)庫是臨床醫(yī)務人員更新臨床知識、解決臨床問題的重要信息源。循證醫(yī)學資源因提供的臨床證據(jù)的直接性和針對性不同而分為不同的等級。Brain Haynes將循證醫(yī)學資源分為5個等級,即循證醫(yī)學資源的“5S”模型[1]。從模型的最底層——以臨床醫(yī)學期刊文摘和全文為主的“研究(studies)”層到模型最頂層——能整合重要臨床證據(jù)的“系統(tǒng)(systems)”層[2]。發(fā)達國家正在這5個層面在開展數(shù)據(jù)庫建設(shè)并逐步完善,如位于模型頂層的知名循證醫(yī)學數(shù)據(jù)庫Dynamed、Uptodate等。我國循證醫(yī)學數(shù)據(jù)庫建設(shè)仍在起步階段,雖有循證醫(yī)學證據(jù)評價的語義模型與應用研究[3]等相關(guān)研究,但并沒有根據(jù)用戶需求調(diào)查構(gòu)建的循證醫(yī)學數(shù)據(jù)庫,目前只有處于模型最底層——“研究(studies)”層的資源,即生物醫(yī)學期刊文摘和全文數(shù)據(jù)庫,如SinoMed、CNKI等。這些數(shù)據(jù)庫一般只提供包括名稱、作者、出版、摘要等外部特征以及關(guān)鍵詞、主題詞等內(nèi)部特征檢索。然而通過用戶需求調(diào)查,深層次挖掘了醫(yī)務人員循證醫(yī)學信息需求后,我們可以確定僅僅通過這些常用的文獻特征元數(shù)據(jù)是無法滿足其需求的。因此,建設(shè)我國高級別的循證醫(yī)學數(shù)據(jù)庫勢在必行。
本文構(gòu)建了循證醫(yī)學數(shù)據(jù)庫信息模型的頂層宏觀結(jié)構(gòu)、中層語義結(jié)構(gòu)和底層屬性結(jié)構(gòu),為建立高級別的循證醫(yī)學數(shù)據(jù)庫語義結(jié)構(gòu)提供了一種思路。
醫(yī)務人員對于循證醫(yī)學文獻的需求是多維的,而這些需求與其獲取信息的目的或出發(fā)點密不可分。我們從文獻調(diào)研、知名循證醫(yī)學數(shù)據(jù)庫分析以及循證醫(yī)學相關(guān)文獻標準3個方面歸納提取醫(yī)務人員信息需求,并通過問卷調(diào)查以及專家咨詢的方法進行驗證。
通過檢索PubMed、中國生物醫(yī)學文獻數(shù)據(jù)庫(SinoMed)以及重慶維普數(shù)據(jù)庫,對國內(nèi)外醫(yī)務人員的信息需求進行文獻調(diào)研,篩選出采用問卷調(diào)查法、訪談法、觀察法等分析醫(yī)務人員信息需求的研究型論文,發(fā)現(xiàn)醫(yī)務人員對醫(yī)學信息的需求主要包括診斷、治療、藥物、癥狀特點、最佳證據(jù)等。
循證醫(yī)學專題綜述知識系統(tǒng)已經(jīng)成為國外提供醫(yī)學知識服務的重要形式之一,而國內(nèi)目前尚無運行比較成熟的循證醫(yī)學數(shù)據(jù)庫。因此,我們選擇4個國外知名的循證醫(yī)學數(shù)據(jù)庫(兩個收費數(shù)據(jù)庫UpToDate和DynaMed,以及兩個免費使用的網(wǎng)絡(luò)數(shù)據(jù)庫MedSkills和CISMeF),從目的、涵蓋的主要內(nèi)容、檢索入口、證據(jù)評級標準、特色等方面進行分析比較。除了文獻調(diào)研獲取的需求元素外,我們還獲取了疾病(主題)名稱、作者、出處、摘要、關(guān)鍵詞、ICD-10編碼、病因?qū)W、預后等需求元素。
本文認為一個好的循證數(shù)據(jù)庫能夠直接提供證據(jù)分級和推薦強度信息,能夠提供對證據(jù)強度方面的檢索或分類。在SIGN、GRADE以及中國循證醫(yī)學中心分級標準等國際上使用范圍較廣的循證醫(yī)學證據(jù)標準中,隨機對照試驗及與其相關(guān)的系統(tǒng)性綜述、Meta分析均屬于最高等級證據(jù)類型,深受醫(yī)務人員及科研人員的重視。因此我們分析了隨機對照試驗的質(zhì)量評估標準CONSORT 2010[4]以及系統(tǒng)性綜述/Meta分析報告標準PRISMA 2009[5],從中提取出了相應的需求元素。在考慮證據(jù)的表達性、標引和可讀性等因素后,從CONSORT 2010中選用了試驗設(shè)計、干預、結(jié)局、順序產(chǎn)生、分配隱蔽機制、盲法和流程圖等項目元素,從PRISMA 2009中選用了數(shù)據(jù)來源、檢索策略、研究選擇、數(shù)據(jù)采集過程、結(jié)論、干預等項目元素。
對應這3方面的需求進行歸類并建立循證醫(yī)學數(shù)據(jù)庫信息模型的宏觀結(jié)構(gòu)。因此,循證醫(yī)學數(shù)據(jù)庫信息模型的宏觀結(jié)構(gòu)包括文獻特征模塊、診療過程模塊、證據(jù)強度模塊。文獻特征模塊提供最基本的題名、作者等文獻外部特征和關(guān)鍵詞主題詞等文獻內(nèi)部特征;診療過程模塊主要提供疾病、診斷、治療、藥物、癥狀等診療內(nèi)容;證據(jù)強度模塊依據(jù)CONSORT 2010聲明及PRISMA 2009中主要關(guān)于臨床試驗方法的核心元素,包括試驗設(shè)計、干預、結(jié)局、順序產(chǎn)生、分配隱蔽機制、盲法、流程圖等,可以為醫(yī)務人員提供對臨床研究文獻質(zhì)量判斷的一定依據(jù)。本文提出的循證醫(yī)學文獻信息本體的宏觀結(jié)構(gòu)為三維結(jié)構(gòu),未來還可以根據(jù)需求增加語義表達維度(圖1)。
圖1 循證醫(yī)學文獻信息模型的宏觀結(jié)構(gòu)
為保證這一信息模型頂層宏觀結(jié)構(gòu)的合理性和科學性,采用了問卷調(diào)研法和專家咨詢法進行驗證。調(diào)研對象為某三甲醫(yī)院的醫(yī)務人員及來自該院全國各地的進修醫(yī)生,共80人;調(diào)研內(nèi)容涉及其信息獲取行為以及信息需求。結(jié)果表明,被調(diào)研的醫(yī)務人員最關(guān)注的信息主要包括疾病的診斷方法、治療方法、藥物信息等方面,與文獻調(diào)研的結(jié)果一致;也有調(diào)研對象提到“高質(zhì)量的隨機對照試驗研究文獻”“臨床研究的患者入選標準”“樣本數(shù)量/病歷數(shù)”等。因此,我們在證據(jù)強度模塊中新增了“樣本量”這一元素。
此外,采用專家咨詢法對本信息模型進一步驗證,10名來自某醫(yī)科大學圖書館及附屬醫(yī)院的專家教授對信息模型進行了修改前后的論證。根據(jù)專家的意見,在診療過程模塊中加入了ICD-10數(shù)據(jù)元素,以增強數(shù)據(jù)庫與其他系統(tǒng)的互操作。
中層語義結(jié)構(gòu)是對頂層宏觀結(jié)構(gòu)的進一步細化。中層語義結(jié)構(gòu)模型在構(gòu)建時采用模塊化方法,頂層宏觀結(jié)構(gòu)在細化時,形成相對獨立的概念類別和元素,每一個概念類別或元素可以與其他類別或元素組合起來表達一個更復雜的概念。本文將概念類別稱為數(shù)據(jù)組,概念元素稱為數(shù)據(jù)元。
目前,大部分循證醫(yī)學原始研究文獻數(shù)據(jù)庫均收集了表達文獻特征的元素,通常分為文獻外部特征信息和文獻內(nèi)部特征信息。外部特征信息包括題名、作者、出處、摘要等,內(nèi)部特征信息包括關(guān)鍵詞、主題詞等。本文采用都柏林核心元數(shù)據(jù)集(Dublin Core Metadata Element Set,簡稱“DC元數(shù)據(jù)集”)組織和描述文獻特征的屬性信息。DC元數(shù)據(jù)集是都柏林核心元數(shù)據(jù)計劃(Dublin Core Metadata Initiative,DCMI)負責維護的,由15個描述資源的基本且通用的信息元素組成的元素集[6]。它是目前被廣泛認可的元數(shù)據(jù)標準,多用于表達網(wǎng)絡(luò)資源信息。采用DC元數(shù)據(jù)集的組織結(jié)構(gòu)方式和描述方式,將為今后建立循證醫(yī)學資源網(wǎng)站、公開和共享信息奠定良好基礎(chǔ)。
在文獻特征模塊中,除了對循證醫(yī)學文獻資源進行所有資源都適用的名稱、描述、來源、語種、主題、創(chuàng)建者等數(shù)據(jù)元的常規(guī)描述以外,還針對循證醫(yī)學文獻特點,設(shè)立新的數(shù)據(jù)元表達特定循證醫(yī)學信息。這些新的數(shù)據(jù)元也可納入DC元數(shù)據(jù)集,作為自定義的修飾詞。目前,我們在數(shù)據(jù)元“類型”下設(shè)置修飾詞“循證醫(yī)學文獻類型”,數(shù)據(jù)元“標識符”下設(shè)置修飾詞“臨床試驗注冊號”和“系統(tǒng)綜述研究方案注冊號”,數(shù)據(jù)元“時空范圍”下設(shè)置修飾詞“臨床試驗招募國家”,數(shù)據(jù)元“其他責任者”下設(shè)置修飾詞“經(jīng)費資助來源”(圖2)。
圖2基于DC元數(shù)據(jù)集的文獻特征本體框架結(jié)構(gòu)
診療過程是臨床文獻中臨床內(nèi)容的具體體現(xiàn),具有實質(zhì)性的循證信息,因而是醫(yī)務人員極為寶貴的數(shù)據(jù)資源。診療過程模塊中的需求元素根據(jù)文獻需求調(diào)研結(jié)果,從現(xiàn)有的多個國外知名循證醫(yī)學數(shù)據(jù)庫提取,包括疾病、ICD-10、診斷、治療、藥物、癥狀、病因?qū)W、預后、患者教育在內(nèi)的多個數(shù)據(jù)元。為了與電子病歷系統(tǒng)對接,在診療過程模塊的本體構(gòu)建中參考了我國頒布的《電子病歷基本架構(gòu)與數(shù)據(jù)標準(試行版)》中的《電子病歷臨床文檔數(shù)據(jù)組與數(shù)據(jù)元》。根據(jù)其中的數(shù)據(jù)組分類,將疾病、ICD-10歸入診斷下位類,并表述成“疾病名稱”“疾病代碼”,與“診斷方法”一同構(gòu)成“診斷”數(shù)據(jù)組。疾病代碼則采用ICD-10編碼表示屬性。目前,ICD-10這一疾病編碼系統(tǒng)已被公認為疾病的分類標準且被廣泛應用,國內(nèi)也有醫(yī)院將ICD-10編碼庫加入其電子病歷系統(tǒng)中使用[7]。因此,為適應統(tǒng)一化管理趨勢,在診療過程模塊的本體框架結(jié)構(gòu)中加入ICD-10編碼,以提高循證醫(yī)學數(shù)據(jù)庫信息模型與其他系統(tǒng)的互操作和兼容性。如通過統(tǒng)一的ICD-10編碼與電子病歷系統(tǒng)準確對接,為醫(yī)務人員提供即時的床旁循證文獻輔助功能,提高臨床決策效率。
另外,將需求元素中的“治療”以及“藥物”進行結(jié)構(gòu)處理,構(gòu)建“干預”數(shù)據(jù)組,其中包含“手術(shù)名稱”以及“藥物名稱”這兩個較為常用的數(shù)據(jù)元。在今后的研究中,可按需要加入其他干預方法數(shù)據(jù)元,如“穴位名稱”“膳食名稱”等。診療過程模塊的本體結(jié)構(gòu)如圖3所示。
圖3診療過程模塊的本體框架結(jié)構(gòu)
考慮到證據(jù)的表達性、標引和可讀性等因素,我們從CONSORT 2010中選用了試驗設(shè)計、干預、結(jié)局、樣本量、順序產(chǎn)生、分配隱蔽機制、盲法和流程圖等項目元素[4],從PRISMA 2009中選用了數(shù)據(jù)來源、檢索策略、研究選擇、數(shù)據(jù)采集過程、結(jié)論、干預等項目元素,構(gòu)成了證據(jù)強度模塊[5],其本體結(jié)構(gòu)如圖4。對納入數(shù)量、納入類型、DOI、篩選流程圖這幾個數(shù)據(jù)元進行結(jié)構(gòu)處理,構(gòu)成研究選擇數(shù)據(jù)組。由于診療過程模塊中已經(jīng)構(gòu)建了“干預”數(shù)據(jù)組,根據(jù)模塊化方法,該數(shù)據(jù)組也可以在證據(jù)強度模塊中復用。
圖4證據(jù)強度模塊本體框架結(jié)構(gòu)
確定了頂層和中層語義結(jié)構(gòu)之后,對其中的數(shù)據(jù)元進行微觀屬性描述。本文參考WS363.1標準制定了循證醫(yī)學數(shù)據(jù)庫信息模型概念屬性(表1)。WS363.1標準是醫(yī)學信息領(lǐng)域數(shù)據(jù)元微觀屬性描述的頂層標準,該標準遵循ISO/IEC 11179-3,而且也是中國醫(yī)學信息領(lǐng)域各專業(yè)數(shù)據(jù)元屬性描述的元標準。因此,建立在WS363.1標準上的屬性描述,不僅與國際標準兼容,也為以后與醫(yī)學信息領(lǐng)域其他標準和信息系統(tǒng)的映射和互操作提供依據(jù)。
表1 以“疾病名稱”為例的循證醫(yī)學數(shù)據(jù)庫信息模型概念屬性
本文在WS363.1描述數(shù)據(jù)元的5類屬性(標識類、定義類、關(guān)系類、管理類、表示類)基礎(chǔ)上擴充了一個使用類。對于WS363.1的管理類、標識類和關(guān)系類中的公用數(shù)據(jù)元屬性,主要表達有關(guān)數(shù)據(jù)元注冊、版本等信息,通用于整個數(shù)據(jù)元集合標準,本文不做進一步討論。
標識類中增加了同義名稱屬性,主要指容納該數(shù)據(jù)元名稱的其他同義表達,包括英文表達,為該數(shù)據(jù)元與其他信息模型和系統(tǒng)中對應的元素提供參照。
定義類中增加了來源屬性,因為很多醫(yī)學信息學領(lǐng)域的相同術(shù)語和詞匯有不同的定義和定義來源。明確定義來源有助于了解該定義是否適合和準確。
關(guān)系類的屬性是公用數(shù)據(jù)元屬性“分類模式”,該屬性是描述整個數(shù)據(jù)元集合或標準采用的分類法標準,而不表達特定數(shù)據(jù)元的等級結(jié)構(gòu)和關(guān)系。因此在循證醫(yī)學數(shù)據(jù)庫信息模型概念屬性中的關(guān)系類增加了表達概念等級、相同和相關(guān)關(guān)系的描述屬性。
使用類包括描述數(shù)據(jù)元在實際使用時的條件、是否是必須具備的、是否可以重復使用、著錄的實例表達等。以“疾病名稱”這一數(shù)據(jù)元屬性為例著錄。
Protégé由斯坦福大學開發(fā),是目前國內(nèi)外各領(lǐng)域技術(shù)人員使用最廣泛的本體構(gòu)建工具之一。Protégé能夠較好地實現(xiàn)對本體和知識庫的構(gòu)建和編輯,對用戶免費開放源碼,用戶不需要掌握具體的本體描述語言,就能夠非常方便地構(gòu)建本體模型[8]。Protégé中可以實現(xiàn)添加或編輯類(class)、子類(subclass)、屬性(properties)及實例(individuals),并生成本體圖(OntoGraf)。
Protégé中默認存在的頂級大類為“Thing”,所有的客觀客體都是它的子類[9]。因此我們在“Thing”下面選擇“Creat subclass”,建立循證醫(yī)學文獻子類,并按照其本體結(jié)構(gòu)進行逐級構(gòu)建。
循證醫(yī)學數(shù)據(jù)庫信息模型概念屬性,可根據(jù)Protégé中對類的屬性定義通過“object properties”實現(xiàn),并且可定義類與類之間的上下級關(guān)系,形成一個本體屬性樹形結(jié)構(gòu)(圖5)。
圖5 基于protégé的循證醫(yī)學文獻信息模型概念屬性結(jié)構(gòu)
本文選擇OntoGraf中的radial生成本體結(jié)構(gòu)圖。由于Protégé的本體結(jié)構(gòu)圖對中文的兼容性較低,因此我們選擇本體的英文表達進行構(gòu)圖(圖6)。
圖6 基于protégé的循證醫(yī)學文獻信息模型本體結(jié)構(gòu)
PubMed的題錄文摘信息中已含有豐富的文獻特征信息,在PubMed中稱作為“字段”,經(jīng)提取后成為循證醫(yī)學數(shù)據(jù)庫信息模型的數(shù)據(jù)元。而關(guān)于診療過程和證據(jù)強度的數(shù)據(jù)元通常表達文獻更深層次的內(nèi)容,因此需要通過文獻全文提取其內(nèi)容。
我們在PubMed數(shù)據(jù)庫中選取了一個實例進行著錄,用以驗證該循證醫(yī)學數(shù)據(jù)庫信息模型的直觀易讀性。為了保證選取的實例著錄元素較為豐富,我們精心挑選了1篇發(fā)表于《植物醫(yī)學》(Phytomedicine)上的關(guān)于大蒜治療高血壓的Meta分析—“Garlic for hypertension: A systematic review and meta-analysis of randomized controlled trials” 作為著錄對象[10](圖7)。
圖7循證醫(yī)學數(shù)據(jù)庫信息語義模型XML語言著錄實例
本文從語義結(jié)構(gòu)入手建立了循證醫(yī)學數(shù)據(jù)庫信息模型,采用模塊化的方法構(gòu)建了文獻特征、診療過程以及證據(jù)強度這3個多級、可組配的原型模塊,每個模塊均可重復使用,使信息模型在建立和更新維護時更加容易,而且局部修改不影響其他部分的結(jié)構(gòu)和內(nèi)容,形成了完整的基于本體的循證醫(yī)學數(shù)據(jù)庫信息語義模型。采用相對簡單的表達循證醫(yī)學特定信息的元素,從而充分反映循證醫(yī)學證據(jù)文獻的關(guān)鍵信息,能夠更好地管理和組織臨床文獻這一類重要的臨床證據(jù),使醫(yī)務人員能更好地檢索和利用循證醫(yī)學信息。
本文也還存在著一定的局限性,如對于患者的信息需求尚未進行仔細研討;對于除臨床文獻以外的信息對象尚未明確標準化,而且尚處于概念驗證階段,還未構(gòu)建實際的循證醫(yī)學數(shù)據(jù)庫。這是我們下一步的研究方向,即構(gòu)建出適合醫(yī)務人員以及患者使用的循證醫(yī)學數(shù)據(jù)庫,并且通過某一種具體疾病的信息錄入及其實際臨床使用情況,對該數(shù)據(jù)庫進行信息一致性和模型一致性驗證,從而進一步完善該數(shù)據(jù)庫。