林琳,王韜,甘偉,邢玉龍
作者單位
1100070 北京首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院信息中心
2北京嘉和海森健康科技有限公司
近年來(lái),腦血管病已成為我國(guó)致死率最高的慢性非傳染性疾病之一,對(duì)人民健康和社會(huì)經(jīng)濟(jì)造成了巨大危害[1]。與此同時(shí),優(yōu)質(zhì)醫(yī)療資源總量的不足及其在地區(qū)間分布的不平衡,也加劇了醫(yī)療服務(wù)供給與腦血管病患者需求間的矛盾。為緩解腦血管病醫(yī)療資源及診療技術(shù)水平發(fā)展的不均衡,提升對(duì)腦血管疑難病、急危重癥患者的救治能力,首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院秉承《“健康中國(guó)2030”規(guī)劃綱要》中關(guān)于腦血管病防控的精神,基于在神經(jīng)系統(tǒng)疾病方面的臨床積累和科研發(fā)展,探索了以腦血管病專(zhuān)科大數(shù)據(jù)科研平臺(tái)為支撐,通過(guò)臨床-科研一體化模式提升醫(yī)院腦血管病臨床診療水平和科研能力的新思路、新方法,也為推進(jìn)區(qū)域內(nèi)醫(yī)療衛(wèi)生協(xié)同發(fā)展、帶動(dòng)區(qū)域整體醫(yī)療水平提升提供了重要參考。
腦血管病專(zhuān)科大數(shù)據(jù)科研平臺(tái)是以大數(shù)據(jù)及人工智能技術(shù)為依托,通過(guò)對(duì)院內(nèi)業(yè)務(wù)系統(tǒng)海量臨床數(shù)據(jù)以及院外診療信息的采集、整理、分析、挖掘,為科研人員提供真實(shí)可靠的數(shù)據(jù)資源和高效便捷的科研工具,提升科研效率和質(zhì)量,并通過(guò)成果轉(zhuǎn)化輔助臨床決策、改善診療水平。
腦血管病專(zhuān)科大數(shù)據(jù)科研平臺(tái)主要包括數(shù)據(jù)采集層、數(shù)據(jù)治理層、數(shù)據(jù)模型層和數(shù)據(jù)服務(wù)層。平臺(tái)采用大數(shù)據(jù)架構(gòu),基于Hadoop集群以及相關(guān)大數(shù)據(jù)技術(shù),從臨床業(yè)務(wù)系統(tǒng)、實(shí)驗(yàn)室信息系統(tǒng)、生物樣本庫(kù)以及院外隨訪、電子數(shù)據(jù)獲取系統(tǒng)(electronic data capture system,EDC)中采集各類(lèi)疾病相關(guān)數(shù)據(jù),集成、整合后形成科研數(shù)據(jù)中心;再利用深度學(xué)習(xí)技術(shù)挖掘數(shù)據(jù)特征,構(gòu)建多種數(shù)據(jù)模型;最后,結(jié)合大數(shù)據(jù)處理引擎,提供數(shù)據(jù)檢索與挖掘、數(shù)據(jù)可視化、數(shù)據(jù)質(zhì)量監(jiān)測(cè)、臨床決策輔助等數(shù)據(jù)應(yīng)用服務(wù),支持醫(yī)院腦血管病臨床研究及診療協(xié)作。具體如圖1所示。
1.1 數(shù)據(jù)采集層 通過(guò)提取-轉(zhuǎn)化-下載(extract-transform-load)工具從醫(yī)院數(shù)據(jù)中心及外部EDC系統(tǒng)等抽取、集成患者診療相關(guān)數(shù)據(jù),包括電子病歷、檢驗(yàn)報(bào)告、隨訪、基因檢測(cè)等。通過(guò)對(duì)患者就診過(guò)程的追蹤和信息積累,可很好地解決數(shù)據(jù)稀疏、偏倚等問(wèn)題,可使數(shù)據(jù)更加可靠、及時(shí)、公正,排除數(shù)據(jù)分析可能造成的偏差[2]。
1.2 數(shù)據(jù)治理層 由于原始數(shù)據(jù)量大且形式多樣、結(jié)構(gòu)各異,為正確獲取數(shù)據(jù)價(jià)值,還需對(duì)采集的數(shù)據(jù)做進(jìn)一步治理,包括:數(shù)據(jù)清洗、量化、自然語(yǔ)言處理及質(zhì)量控制等,使業(yè)務(wù)數(shù)據(jù)變?yōu)榭芍苯永玫臉?biāo)準(zhǔn)化數(shù)據(jù)集,即科研數(shù)據(jù)中心的數(shù)據(jù)。
1.3 數(shù)據(jù)模型層 在科研數(shù)據(jù)中心基礎(chǔ)上,利用深度學(xué)習(xí)技術(shù),建立不同維度的數(shù)據(jù)分析模型,包括:疾病模型、癥狀模型等基礎(chǔ)模型;知識(shí)圖譜、時(shí)間序列等融合模型;診斷推薦、治療方案推薦等深度挖掘模型。通過(guò)對(duì)不同數(shù)據(jù)間深層次關(guān)聯(lián)關(guān)系的分析,為后續(xù)的數(shù)據(jù)服務(wù)提供支撐。
1.4 數(shù)據(jù)服務(wù)層 利用上述數(shù)據(jù)模型,平臺(tái)搭建了一系列大數(shù)據(jù)引擎,如:科研知識(shí)轉(zhuǎn)化引擎、搜索引擎、數(shù)據(jù)挖掘引擎、可視化引擎等,最終實(shí)現(xiàn)一體化科研服務(wù)和臨床決策支持、疾病預(yù)后智能預(yù)測(cè)、科研知識(shí)庫(kù)以及真實(shí)世界研究等功能應(yīng)用,提高科研效率和質(zhì)量的同時(shí),也提升了臨床醫(yī)師的決策精準(zhǔn)度。
2.1 一體化科研服務(wù) 所謂“一體化科研服務(wù)”,即指臨床醫(yī)師可通過(guò)平臺(tái)一站式完成從問(wèn)題挖掘、病歷招募,到數(shù)據(jù)挖掘和統(tǒng)計(jì)分析的全流程科研工作(圖2)。
圖1 腦血管病專(zhuān)科大數(shù)據(jù)科研平臺(tái)架構(gòu)
圖2 一體化科研服務(wù)流程示意圖
問(wèn)題挖掘:即基于選定的科研變量,自動(dòng)進(jìn)行多維度統(tǒng)計(jì)統(tǒng)計(jì),如:患者分布、疾病分布、癥狀詞云等,幫助醫(yī)師更好地聚焦科研問(wèn)題。
病例招募:平臺(tái)可提供基于全樣本的病例篩選服務(wù),幫助醫(yī)師快速建立專(zhuān)病庫(kù),并支持?jǐn)?shù)據(jù)精確檢索、全文檢索以及外部數(shù)據(jù)導(dǎo)入等。
數(shù)據(jù)質(zhì)控:針對(duì)可能存在的數(shù)據(jù)缺失、異常值等現(xiàn)象,平臺(tái)支持對(duì)數(shù)據(jù)進(jìn)行完整性、規(guī)范性等檢測(cè);對(duì)質(zhì)量較差的數(shù)據(jù),針對(duì)不同問(wèn)題分門(mén)別類(lèi),給出數(shù)據(jù)質(zhì)控報(bào)告,使數(shù)據(jù)問(wèn)題透明化;同時(shí),還可支持?jǐn)?shù)據(jù)溯源原始病歷,通過(guò)問(wèn)題反饋促進(jìn)醫(yī)師病歷書(shū)寫(xiě)質(zhì)量提升。
數(shù)據(jù)處理:在數(shù)據(jù)進(jìn)入統(tǒng)計(jì)模型之前,可利用平臺(tái)自動(dòng)進(jìn)行量化和智能轉(zhuǎn)化;同時(shí)對(duì)于質(zhì)控發(fā)現(xiàn)的問(wèn)題數(shù)據(jù),可通過(guò)數(shù)據(jù)填補(bǔ)、自定義變量等進(jìn)行有效治理,保證數(shù)據(jù)的準(zhǔn)確性及可靠性。
統(tǒng)計(jì)建模:完善的統(tǒng)計(jì)學(xué)分析工具和靈活的自定義統(tǒng)計(jì)模式對(duì)于科研人員非常重要[3]。為此,平臺(tái)基于R語(yǔ)言,集成了多種醫(yī)學(xué)統(tǒng)計(jì)模型,操作者可自由定義分析的變量以及分析模式,導(dǎo)出不同形式的統(tǒng)計(jì)分析圖表,直觀地發(fā)現(xiàn)數(shù)據(jù)所體現(xiàn)出來(lái)的研究?jī)r(jià)值。
2.2 疾病預(yù)后智能預(yù)測(cè) 研究者通過(guò)疾病數(shù)據(jù)進(jìn)行影響因素分析、主成分分析、決策樹(shù)挖掘等,從中提取出重點(diǎn)疾病特征,繼而利用深度學(xué)習(xí)技術(shù)進(jìn)行模型訓(xùn)練,搭建出疾病智能預(yù)測(cè)引擎。當(dāng)臨床診療過(guò)程中觸發(fā)該規(guī)則時(shí),即可實(shí)時(shí)提醒醫(yī)師疾病發(fā)展進(jìn)程中出現(xiàn)復(fù)發(fā)、死亡、傷殘或并發(fā)癥等的概率,從而指導(dǎo)臨床治療,提高決策水平。
2.3 科研知識(shí)庫(kù) 平臺(tái)通過(guò)數(shù)據(jù)挖掘產(chǎn)生的知識(shí)模型,如本體庫(kù)、語(yǔ)義網(wǎng)絡(luò)規(guī)則語(yǔ)言(semantic web rule language)以及疾病推理機(jī)制等,經(jīng)過(guò)沉淀形成科研知識(shí)庫(kù),將進(jìn)一步輔助臨床,對(duì)于優(yōu)化疾病診療標(biāo)準(zhǔn)、提升診療服務(wù)效率和縮短醫(yī)師學(xué)習(xí)曲線等都具有重要意義[4]。
2.4 臨床決策支持 科研的最終目的是回歸臨床、指導(dǎo)實(shí)踐。通過(guò)對(duì)大數(shù)據(jù)的挖掘、分析,如:相似病例分析、治療有效性分析、疾病相關(guān)性分析等[5],可以對(duì)臨床診治的療效、并發(fā)癥等給予循證醫(yī)學(xué)的證據(jù)支持,從而指導(dǎo)臨床實(shí)踐,提高醫(yī)療質(zhì)量。
2.5 真實(shí)世界研究 真實(shí)世界研究是指在臨床真實(shí)條件與現(xiàn)實(shí)環(huán)境下,基于較大樣本量(覆蓋具有代表性的更廣大受試者),比較和選擇不同醫(yī)療手段的過(guò)程及其結(jié)局研究。由于其樣本數(shù)據(jù)量較大,單純依靠手工處理不僅費(fèi)時(shí)費(fèi)力,質(zhì)量也難以保證。大數(shù)據(jù)科研平臺(tái)對(duì)于海量數(shù)據(jù)的采集、處理、分析優(yōu)勢(shì),使其成為真實(shí)世界研究的有力助手。
首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院神經(jīng)腦血管病專(zhuān)科大數(shù)據(jù)科研平臺(tái)自2017年正式部署上線后,應(yīng)用效果良好。以疾病預(yù)測(cè)為例,科研人員在日常急診接診過(guò)程中,持續(xù)積累了2012年5月-2019年6月完成前循環(huán)腦梗死急診取栓手術(shù)的患者共379例,利用患者ID號(hào)經(jīng)平臺(tái)查詢(xún)后,抽取其相關(guān)數(shù)據(jù),并進(jìn)行標(biāo)準(zhǔn)化和融合處理,建成“前循環(huán)腦梗死急診取栓專(zhuān)病數(shù)據(jù)庫(kù)”。在此基礎(chǔ)上,利用平臺(tái)的智能特征篩選功能,選出包括收縮壓、心房顫動(dòng)、高血糖、腦梗死體積、尿蛋白陽(yáng)性在內(nèi)的5個(gè)有顯著意義變量;再自動(dòng)匹配多因素Logistic回歸模型及ROC曲線,形成取栓后顱內(nèi)出血發(fā)生風(fēng)險(xiǎn)預(yù)測(cè)模型(Logit=2.172+0.341×收縮壓+1.623×心房顫動(dòng)+1.120×高血糖+1.856×腦梗死面積+0.677×尿蛋白陽(yáng)性)。結(jié)果顯示,該模型ROC曲線下面積為0.749,靈敏度為0.751,特異度為0.820,具有較好的預(yù)測(cè)效能。
隨著科學(xué)技術(shù)的發(fā)展和循證醫(yī)學(xué)理念的不斷加深,如何通過(guò)高質(zhì)量的臨床研究,有效進(jìn)行疾病病因和預(yù)防因素的探索,并將療效和安全性更好的干預(yù)措施盡快轉(zhuǎn)化至臨床,成為臨床研究人員面臨的主要問(wèn)題[6]。
基于此,首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院在醫(yī)院數(shù)據(jù)中心基礎(chǔ)上建立了腦血管病專(zhuān)科大數(shù)據(jù)科研平臺(tái)。該平臺(tái)打破了傳統(tǒng)以單個(gè)科室、單個(gè)項(xiàng)目獨(dú)立建設(shè)為主的應(yīng)用模式,形成統(tǒng)一、開(kāi)放的全新科研體系,不但加快了全院數(shù)據(jù)的共享、利用,也實(shí)現(xiàn)了靈活、自定義的臨床科研一體化科研流程,減輕了科研人員的工作負(fù)擔(dān),提高了數(shù)據(jù)錄入的便利性及利用效率,對(duì)提高科研及臨床水平都具有重要意義,同時(shí)也為推動(dòng)區(qū)域內(nèi)醫(yī)療服務(wù)質(zhì)量的提升起到示范作用。