王覓也,劉 然,王 堯,李言生,葉 琳,龔后武
(1.四川大學(xué)華西醫(yī)院信息中心,醫(yī)療信息化技術(shù)教育部工程研究中心,成都 610041;2.西部戰(zhàn)區(qū)空軍醫(yī)院,成都 610065;3.東華醫(yī)為科技有限公司,北京 100089)
近年來,隨著信息化技術(shù)的發(fā)展,大數(shù)據(jù)技術(shù)在工業(yè)制造、智能交通、醫(yī)療科研等多個領(lǐng)域得到廣泛應(yīng)用[1]。臨床科研作為醫(yī)療科研的重要組成部分,其形式有臨床科研課題立項(xiàng)、臨床案例分享、臨床經(jīng)驗(yàn)總結(jié)等。在各種形式的臨床科研實(shí)施過程中,科學(xué)循證是關(guān)鍵,其強(qiáng)烈依賴于大量臨床真實(shí)數(shù)據(jù)支撐。目前,建立科研病種庫逐漸成為臨床科研數(shù)據(jù)收集、整理和分析的主流模式,而如何將大數(shù)據(jù)技術(shù)與科研病種庫結(jié)合利用,更加方便地實(shí)現(xiàn)科研數(shù)據(jù)需求的采集、提取和分析,是目前面臨的一個重要難題。
20世紀(jì)中葉,西方發(fā)達(dá)國家便開始了對醫(yī)學(xué)臨床科研病種庫的研究和建設(shè)。Greenes等[2]于1969年首次利用數(shù)據(jù)庫技術(shù)對臨床診療數(shù)據(jù)進(jìn)行管理和利用。截至目前,國外已形成了大量的多中心單病種數(shù)據(jù)庫,如美國CIRS急診醫(yī)學(xué)數(shù)據(jù)庫(CIRSEmergency Medicine Databank)、日本心血管外科數(shù)據(jù)庫(Japan Congenital Cardiovascular Surgery Database)等,大大促進(jìn)了相關(guān)學(xué)科發(fā)展。國內(nèi)的病種庫建設(shè)與國外相比還有很大差距,但也呈迅速增長的態(tài)勢。專業(yè)的臨床醫(yī)療科研人員根據(jù)??瞥R娂膊〗⑵鸺膊〉南嚓P(guān)因素、預(yù)期目標(biāo)和質(zhì)量評價知識庫等,越來越多的醫(yī)院開始將臨床科研數(shù)據(jù)庫的建設(shè)工作從線下遷至線上,從單中心研究向多中心研究轉(zhuǎn)變,如南方醫(yī)科大學(xué)建立的在線肺癌病歷數(shù)據(jù)庫[3]、軍事醫(yī)學(xué)科學(xué)院附屬醫(yī)院建立的消化系統(tǒng)腫瘤數(shù)據(jù)庫[3]、中國醫(yī)科大學(xué)附屬第一醫(yī)院建立的基于醫(yī)療大數(shù)據(jù)的省市級肺癌專病庫平臺[4]等。這些傳統(tǒng)的多中心病種庫系統(tǒng)大多是圍繞某一特定的疾病構(gòu)建,數(shù)據(jù)采集工作大多依靠臨床醫(yī)師人工錄入,工作量大,數(shù)據(jù)易出錯,數(shù)據(jù)庫運(yùn)維成本高,數(shù)據(jù)持續(xù)性弱。
本文提出將科研病種庫系統(tǒng)搭建于大數(shù)據(jù)平臺上,通過大數(shù)據(jù)技術(shù)全維度治理后的標(biāo)準(zhǔn)數(shù)據(jù)資源池實(shí)現(xiàn)數(shù)據(jù)的自動采集,達(dá)到減少人工工作量、保障數(shù)據(jù)質(zhì)量、降低運(yùn)維成本的目的。大數(shù)據(jù)平臺的支撐解決了數(shù)據(jù)獲取難的問題,臨床科研所需數(shù)據(jù)變得可見、可得,為全院各科室使用系統(tǒng)自行構(gòu)建病種庫提供了很好的應(yīng)用基礎(chǔ)。打造院級層面的科研病種庫系統(tǒng),不僅需要臨床科室參與,更需要醫(yī)院信息部門的技術(shù)投入,共同構(gòu)建“醫(yī)學(xué)+信息”交叉合作的工程應(yīng)用模式。
我院是一所綜合性研究教學(xué)醫(yī)院,為了給院內(nèi)大數(shù)據(jù)的應(yīng)用服務(wù)提供數(shù)據(jù)能力支撐[5],構(gòu)建了醫(yī)療大數(shù)據(jù)平臺。大數(shù)據(jù)平臺基于先進(jìn)的大數(shù)據(jù)系統(tǒng)框架、分布式數(shù)據(jù)庫、人工智能等技術(shù)構(gòu)建,在大數(shù)據(jù)處理分析方面很具優(yōu)勢[6-7]。
長期以來,很多科室憑借課題和項(xiàng)目的機(jī)會構(gòu)建了一些獨(dú)立封閉的科研數(shù)據(jù)庫系統(tǒng),當(dāng)整個科研項(xiàng)目結(jié)題后,這些科研數(shù)據(jù)庫便進(jìn)入了無持續(xù)資金投入、無人維護(hù)的狀態(tài),造成了數(shù)據(jù)資源的浪費(fèi)。因此科研病種數(shù)據(jù)庫系統(tǒng)需納入醫(yī)院統(tǒng)一管理,同時為提升科研效率、減少醫(yī)生工作量并保障數(shù)據(jù)的持續(xù)性和穩(wěn)定性,臨床數(shù)據(jù)采集需自動化,且數(shù)據(jù)范圍應(yīng)納入全院所有臨床業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。為滿足上述需求,亟須構(gòu)建面向全院的基于大數(shù)據(jù)平臺的科研病種庫系統(tǒng)。
科研病種庫系統(tǒng)需要集成專病患者全周期數(shù)據(jù)?;颊咴\療過程中的數(shù)據(jù),如影像、病理、病歷文本等可從電子病歷系統(tǒng)中獲取到,而患者診前和診后的數(shù)據(jù)需要進(jìn)行隨訪采集,隨訪表單的設(shè)計一般通過病例報告表(casereport form,CRF)實(shí)現(xiàn)[8]。傳統(tǒng)的科研病種數(shù)據(jù)庫構(gòu)建方式無法同時納入醫(yī)院多個系統(tǒng)接口數(shù)據(jù),無法實(shí)現(xiàn)文本資料的結(jié)構(gòu)化[9-10]?;诖髷?shù)據(jù)技術(shù)的科研病種數(shù)據(jù)庫可對全維度臨床數(shù)據(jù)進(jìn)行數(shù)據(jù)治理,實(shí)現(xiàn)結(jié)構(gòu)化和術(shù)語化[11],形成臨床科研資源中心,為科研病種庫系統(tǒng)的構(gòu)建提供豐富而完善的數(shù)據(jù)資源,使科研數(shù)據(jù)提取效率成倍提升,大大減少科研流程中的人力勞動,滿足科研應(yīng)用需求,為臨床輔助、疾病研究和產(chǎn)品孵化等領(lǐng)域提供支撐。
基于大數(shù)據(jù)平臺的科研病種庫系統(tǒng)的整體架構(gòu)如圖1所示。醫(yī)院大數(shù)據(jù)平臺集成電子病歷系統(tǒng)、醫(yī)院信息系統(tǒng)(hospital information system,HIS)、檢驗(yàn)系統(tǒng)等數(shù)據(jù),基于大數(shù)據(jù)相關(guān)技術(shù),整合、清洗醫(yī)院多源異構(gòu)數(shù)據(jù),并基于臨床科研所需要的數(shù)據(jù)構(gòu)建科研數(shù)據(jù)中心(research data repository,RDR),形成科研病種庫系統(tǒng)的數(shù)據(jù)源。醫(yī)院大數(shù)據(jù)平臺數(shù)據(jù)治理的主要工作包括進(jìn)行數(shù)據(jù)建模、數(shù)據(jù)后結(jié)構(gòu)化、數(shù)據(jù)標(biāo)準(zhǔn)化、元數(shù)據(jù)管理、主數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量控制等。同時,該平臺也匯集了四川大學(xué)華西醫(yī)院醫(yī)聯(lián)體的臨床數(shù)據(jù)資源,在開展多中心研究時,通過RDR中的醫(yī)院標(biāo)識可自動提供不同醫(yī)院的數(shù)據(jù)支持??蒲胁》N庫系統(tǒng)根據(jù)用戶的科研需求實(shí)現(xiàn)科研應(yīng)用,可按病種、項(xiàng)目、科室層面、醫(yī)院層面多學(xué)科聯(lián)合構(gòu)建病種庫,也可部署外網(wǎng)版支持跨醫(yī)院的多中心聯(lián)合共建病種庫。系統(tǒng)提供用戶管理、項(xiàng)目組管理、項(xiàng)目組成員管理、項(xiàng)目屬性維護(hù)、CRF設(shè)計、隨訪設(shè)計、病例入組、病例瀏覽、訪視進(jìn)度總覽、人工智能(artificial intelligence,AI)隨訪、大數(shù)據(jù)檢索、CRF檢索、數(shù)據(jù)導(dǎo)出等模塊實(shí)現(xiàn)臨床數(shù)據(jù)的科研分析,發(fā)現(xiàn)病種規(guī)律,發(fā)掘病種新特征。系統(tǒng)的數(shù)據(jù)可導(dǎo)出到大數(shù)據(jù)平臺數(shù)據(jù)挖掘模塊,進(jìn)行數(shù)據(jù)統(tǒng)計、分析模型的算法開發(fā)以及模型的管理和發(fā)布等科研活動。
圖1 科研病種庫系統(tǒng)整體架構(gòu)圖
本系統(tǒng)采用瀏覽器/服務(wù)器(Browser/Server,B/S)體系結(jié)構(gòu),采用ASP.NETMVC4實(shí)現(xiàn)分層技術(shù)架構(gòu),將展示層、業(yè)務(wù)層和數(shù)據(jù)訪問層分離。Bootstrap+JQuery呈現(xiàn)用戶界面展示層,提供對IE、Chrome、Firefox的全面兼容。在數(shù)據(jù)訪問層,根據(jù)Cache特性開發(fā)的ORMapping實(shí)現(xiàn)基礎(chǔ)業(yè)務(wù)數(shù)據(jù)訪問。針對Greenplum構(gòu)建的RDR,采用Spring Boot組建數(shù)據(jù)讀取服務(wù),為表單外部數(shù)據(jù)和數(shù)據(jù)查詢導(dǎo)出提供數(shù)據(jù)服務(wù)支持。將業(yè)務(wù)層和數(shù)據(jù)訪問層的通用處理能力提煉出來,成為另外一種通用的機(jī)制,包括系統(tǒng)授權(quán)機(jī)制、異常處理機(jī)制、日志記錄機(jī)制、緩存機(jī)制和安全控制機(jī)制。此外,采用插件機(jī)制實(shí)現(xiàn)客戶化定制功能,如自定義CRF,采用Vue.js+MySQL組合完全解除對科研系統(tǒng)的依賴,除易于維護(hù)之外,也便于后續(xù)無縫對接移動端隨訪。
為解決傳統(tǒng)專病科研遇到的“科研構(gòu)思難、數(shù)據(jù)獲取難、想法驗(yàn)證難、數(shù)據(jù)處理難”等系列問題[12],我院將臨床科研全流程進(jìn)行深度解析和優(yōu)化改造,包括數(shù)據(jù)獲取、專病庫建立、發(fā)現(xiàn)問題和提出假設(shè)[13]等各環(huán)節(jié),設(shè)計了面向全院的基于大數(shù)據(jù)平臺的科研病種庫系統(tǒng)。本系統(tǒng)以數(shù)據(jù)為驅(qū)動,基于各??茖2∵M(jìn)行病種庫構(gòu)建,臨床科室根據(jù)其需求自行配置專病數(shù)據(jù)庫的數(shù)據(jù)采集表單、隨訪模式,信息科負(fù)責(zé)大數(shù)據(jù)平臺數(shù)據(jù)治理,為各專病庫提供數(shù)據(jù)接口,輔助臨床醫(yī)生便捷、高效地完成整個科研過程。系統(tǒng)運(yùn)行流程如圖2所示。
圖2 科研病種庫系統(tǒng)運(yùn)行流程圖
科研病種庫系統(tǒng)主要包括項(xiàng)目管理模塊、病例管理模塊、隨訪管理模塊和數(shù)據(jù)利用管理模塊,具體功能模塊結(jié)構(gòu)圖如圖3所示。
圖3 科研病種庫系統(tǒng)功能模塊結(jié)構(gòu)圖
2.2.1 項(xiàng)目管理模塊
2.2.1.1 項(xiàng)目屬性維護(hù)
系統(tǒng)以低耦合的設(shè)計方式將病種項(xiàng)目的常規(guī)管理和科研數(shù)據(jù)應(yīng)用分析分離,確保了系統(tǒng)穩(wěn)定和科研項(xiàng)目的安全。系統(tǒng)管理員負(fù)責(zé)各個病種庫項(xiàng)目的創(chuàng)建和屬性維護(hù),項(xiàng)目屬性包括項(xiàng)目名稱、級別、責(zé)任科室、項(xiàng)目負(fù)責(zé)人等,項(xiàng)目屬性維護(hù)界面如圖4所示??蒲许?xiàng)目管理員負(fù)責(zé)處理病種數(shù)據(jù)的增刪查改和分析統(tǒng)計。系統(tǒng)提供用戶管理和角色管理功能,將不同用戶和角色在操作權(quán)限上區(qū)分和隔離,通過統(tǒng)一授權(quán)驗(yàn)證將登錄用戶信息與對應(yīng)的配置權(quán)限關(guān)聯(lián),確保在系統(tǒng)使用過程中的權(quán)限單一和安全。
圖4 項(xiàng)目屬性維護(hù)界面
2.2.1.2 CRF設(shè)計
不同科研項(xiàng)目需要采集不同的病種相關(guān)數(shù)據(jù),傳統(tǒng)由文件導(dǎo)入或由工程師完成采集會導(dǎo)致數(shù)據(jù)質(zhì)量和數(shù)據(jù)關(guān)聯(lián)較差。科研病種庫系統(tǒng)提供一個全面的CRF設(shè)計模塊,包括表單數(shù)據(jù)項(xiàng)組件管理、表單設(shè)計管理、表單版本發(fā)布管理和表單權(quán)限管理4個內(nèi)容。表單數(shù)據(jù)項(xiàng)組件管理是將CRF的每一個數(shù)據(jù)項(xiàng)組件作為全局的元數(shù)據(jù)項(xiàng)目進(jìn)行統(tǒng)一維護(hù)和管理,確保不同表單中的數(shù)據(jù)項(xiàng)概念一致。表單設(shè)計管理是??漆t(yī)生將相應(yīng)的數(shù)據(jù)項(xiàng)組件進(jìn)行布局和配置,如圖5所示。每個數(shù)據(jù)項(xiàng)組件根據(jù)不同科研需要,設(shè)置相應(yīng)的位置、對齊、字體、顏色、名稱、函數(shù)事件、字典值域等屬性信息。同時,組件還可以設(shè)置大數(shù)據(jù)平臺業(yè)務(wù)數(shù)據(jù)接口,實(shí)時抓取數(shù)據(jù),減少手工操作誤差。在一張完整的CRF中,可配置組件間的數(shù)據(jù)校驗(yàn)規(guī)則,確保表單填寫的數(shù)據(jù)質(zhì)量。表單版本發(fā)布管理和表單權(quán)限管理功能可確保每個CRF在限定的權(quán)限下,通過標(biāo)準(zhǔn)應(yīng)用程序接口(application programming interface,API)與不同科研項(xiàng)目、不同病種庫的數(shù)據(jù)進(jìn)行交換。
圖5 CRF設(shè)計界面
2.2.1.3 隨訪流程設(shè)計
系統(tǒng)提供多種隨訪類型以支持不同的科研需要,有參考點(diǎn)隨訪、統(tǒng)一隨訪、自定義隨訪、無計劃隨訪、參考點(diǎn)和無計劃相結(jié)合隨訪等,不同類型的科研項(xiàng)目可選擇不同的隨訪類型。每一種隨訪類型都可以自定義隨訪流程,隨訪流程設(shè)計界面如圖6所示。隨訪流程是基于用戶常用的5種場景建立數(shù)據(jù)模型:(1)基于開始時間,完全按計劃時間隨訪;(2)基于開始時間,根據(jù)實(shí)際隨訪時間調(diào)整計劃隨訪;(3)本次隨訪完成后,指定下次隨訪內(nèi)容和時間;(4)隨到隨訪;(5)第一個階段按計劃隨訪,第二個階段隨到隨訪。由于每個隨訪數(shù)據(jù)模型差異較大,采用JSON(JavaScript object notation)存儲和傳遞,后臺業(yè)務(wù)處理層通過對象反射機(jī)制識別隨訪模型并計算隨訪時間計劃和表單綁定,從而對每個病種患者生成隨訪日期排程。
圖6 隨訪流程設(shè)計界面
2.2.2 病例管理模塊
2.2.2.1 病例入組
系統(tǒng)支持利用大數(shù)據(jù)平臺上的病歷檢索引擎查詢大數(shù)據(jù)資源池的臨床數(shù)據(jù),查詢符合條件的專病病例進(jìn)行批量入組。大數(shù)據(jù)檢索的建立,可以實(shí)現(xiàn)在千萬份病例中的秒級查詢,如圖7所示。
圖7 大數(shù)據(jù)病歷檢索引擎界面
系統(tǒng)還支持其他多種入組方式:HIS直接入組、手工通過病歷號入組、批量導(dǎo)入病歷號入組等。系統(tǒng)通過Web Service方式根據(jù)病歷號、醫(yī)院編碼獲取基本信息;通過JQuey綁定驗(yàn)證函數(shù)對姓名、性別、身份證號等字段進(jìn)行驗(yàn)證,病例具有唯一性驗(yàn)證,重復(fù)病例不入組。病例入組后系統(tǒng)根據(jù)隨訪流程自動生成該病例的隨訪計劃。在病例列表清單中可配置顯示數(shù)據(jù)表單的填寫率,以提醒科研工作者及時進(jìn)行隨訪工作。病例入組和列表界面如圖8所示。
圖8 病例入組和列表界面
2.2.2.2 基線數(shù)據(jù)采集
將設(shè)計完成的CRF導(dǎo)入基線數(shù)據(jù)采集模塊,如圖9所示。根據(jù)基線數(shù)據(jù)的要求輸入相應(yīng)的患者唯一ID、訪視關(guān)聯(lián)就診ID和觀測階段3個基線條件,并將基線數(shù)據(jù)類型、基線值校驗(yàn)、關(guān)聯(lián)校驗(yàn)和規(guī)則校驗(yàn)根據(jù)科研項(xiàng)目需求進(jìn)行相應(yīng)配置,系統(tǒng)提供的基線數(shù)據(jù)采集模塊自動調(diào)用標(biāo)準(zhǔn)的Web Service服務(wù)完成所有基線數(shù)據(jù)的采集?;€數(shù)據(jù)類型和基線值校驗(yàn)可確保每一個單獨(dú)的基線數(shù)據(jù)質(zhì)量,關(guān)聯(lián)校驗(yàn)和規(guī)則校驗(yàn)可進(jìn)一步確?;€數(shù)據(jù)間的質(zhì)量,如性別選擇“男”時,不顯示月經(jīng)初潮年齡等?;€數(shù)據(jù)采集模塊將數(shù)據(jù)讀出、數(shù)據(jù)校驗(yàn)、數(shù)據(jù)處理和數(shù)據(jù)寫入的完整流程按照系統(tǒng)要求實(shí)時記錄日志,并提供每一個細(xì)致步驟的查詢和分析。
圖9 基線數(shù)據(jù)采集界面
2.2.3 隨訪管理模塊
2.2.3.1 隨訪數(shù)據(jù)采集
系統(tǒng)提供人工采集和機(jī)器智能采集2種模式的隨訪數(shù)據(jù)采集。傳統(tǒng)的人工采集方式是科研人員根據(jù)所設(shè)定的計劃撥打隨訪電話,逐一問詢情況并完成CRF的數(shù)據(jù)填寫。機(jī)器智能采集提供話術(shù)管理、隨訪執(zhí)行、語音識別處理和隨訪結(jié)果管理4個功能。科研人員在話術(shù)管理中設(shè)定隨訪的問詢流程和邏輯處理預(yù)案,通過系統(tǒng)提供的環(huán)境測試并保存。系統(tǒng)根據(jù)隨訪計劃,自動撥號并以保存的話術(shù)模板啟動人機(jī)交互的語音機(jī)器人完成隨訪。通過智能語音識別處理功能,使人機(jī)交互的對話信息形成對應(yīng)的隨訪信息。最后,隨訪結(jié)果管理將隨訪信息按照CRF要求完成隨訪結(jié)果的自動填充。AI隨訪界面如圖10所示。所有機(jī)器智能采集的語音信息和文字?jǐn)?shù)據(jù)均保存在大數(shù)據(jù)平臺的安全存儲環(huán)境中。隨訪結(jié)果管理還提供語音復(fù)播功能,便于科研人員對智能語音識別結(jié)果存疑時的復(fù)審和修正。
圖10 AI隨訪界面
2.2.3.2 訪視進(jìn)度管理
系統(tǒng)提供全角度的訪視進(jìn)度管理,在授權(quán)的科研項(xiàng)目組下所有患者的訪視進(jìn)度和隨訪狀態(tài)以不同顏色區(qū)分顯示,如圖11所示。科研用戶可以根據(jù)參考點(diǎn)隨訪、無計劃隨訪、回顧性隨訪、觀測階段等不同的隨訪類型進(jìn)行管理和查看,也可以根據(jù)研究方向自定義分組規(guī)則并管理滿足規(guī)則的患者當(dāng)前的隨訪進(jìn)度和狀態(tài)。系統(tǒng)提供已完成、窗口期內(nèi)、窗口期外、超期、未指定方式5種隨訪狀態(tài)的查詢。根據(jù)不同的隨訪類型和狀態(tài),訪視進(jìn)度管理模塊還提供預(yù)警提醒和主動干預(yù)功能。預(yù)警提醒與大數(shù)據(jù)平臺的消息中心實(shí)時對接,將訪視的異常情況以消息方式實(shí)時推送給科研用戶,科研用戶可以使用主動干預(yù)功能,對訪視情況特殊的患者及時調(diào)整隨訪計劃和隨訪方式。
圖11 訪視進(jìn)度總覽界面
2.2.4 數(shù)據(jù)利用管理模塊
數(shù)據(jù)利用管理模塊提供科研病種庫數(shù)據(jù)的查詢和導(dǎo)出,授權(quán)后的科研用戶可以以任意維度檢索和導(dǎo)出病種庫數(shù)據(jù),CRF檢索和導(dǎo)出界面如圖12所示。不管是實(shí)時接入的基線業(yè)務(wù)數(shù)據(jù),還是通過CRF采集的數(shù)據(jù),在表單數(shù)據(jù)項(xiàng)組件的統(tǒng)一管理下,以元數(shù)據(jù)統(tǒng)一技術(shù)實(shí)現(xiàn)數(shù)據(jù)概念層的一致??蒲杏脩艨梢宰远x組合各種檢索條件,也可以手動輸入結(jié)構(gòu)化查詢語言(structured query language,SQL)進(jìn)行檢索。所有檢索結(jié)果可以直接導(dǎo)出為Excel表格,也可以直接形成含有項(xiàng)目組權(quán)限的數(shù)據(jù)集供外部調(diào)用。系統(tǒng)還提供標(biāo)準(zhǔn)的軟件開發(fā)工具包(software development kit,SDK),第三方系統(tǒng)通過標(biāo)準(zhǔn)API與科研病種庫進(jìn)行對接。為確保數(shù)據(jù)安全,防止惡意的SQL注入攻擊,系統(tǒng)優(yōu)化SQL語句的智能拼接,并全面采用語言集成查詢(language-integrated query,LINQ)技術(shù)實(shí)現(xiàn)病種庫數(shù)據(jù)動態(tài)的查詢。
圖12 CRF檢索和導(dǎo)出界面
基于大數(shù)據(jù)平臺的科研病種庫系統(tǒng)于2020年5月在我院成功上線。醫(yī)院信息科統(tǒng)一規(guī)劃信息數(shù)據(jù)集成工作,負(fù)責(zé)整合臨床診療過程的信息數(shù)據(jù),實(shí)現(xiàn)RDR數(shù)據(jù)集成和數(shù)據(jù)治理,在此基礎(chǔ)上培訓(xùn)臨床科室使用本系統(tǒng)。臨床科室主導(dǎo)實(shí)施具體科研病種庫系統(tǒng)搭建,構(gòu)建各自的科研項(xiàng)目數(shù)據(jù)庫。迄今為止,累計使用科室數(shù)量達(dá)45個,用戶600余個,累計項(xiàng)目數(shù)量達(dá)到110個,入組病例數(shù)達(dá)到80多萬例,優(yōu)化了科研流程,提升了科研效率。同時,數(shù)個多中心病種庫正在開展,幾十家醫(yī)院參與共建。本系統(tǒng)由于嫁接在大數(shù)據(jù)平臺上,因此具有以下特點(diǎn):
(1)全新的管理模式。系統(tǒng)支持對全院科研項(xiàng)目的統(tǒng)一集成管理。
(2)靈活的CRF定制。系統(tǒng)支持科研用戶自行配置數(shù)據(jù)表單,無需技術(shù)人員參與。
(3)全面的數(shù)據(jù)集成。系統(tǒng)支持從大數(shù)據(jù)平臺RDR自動獲取數(shù)據(jù),不需轉(zhuǎn)錄,大大減少了科研工作量。大數(shù)據(jù)平臺的數(shù)據(jù)治理能力使得半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)都能得到充分利用。
(4)精準(zhǔn)的檢索入組設(shè)計。由于大數(shù)據(jù)平臺已經(jīng)從電子病歷系統(tǒng)、HIS、檢驗(yàn)系統(tǒng)等獲取了海量多維變量,可直接用于多條件檢索,因此通過大數(shù)據(jù)檢索引擎進(jìn)行檢索入組,可以更精準(zhǔn)地設(shè)計患者入組條件,使入組患者更加準(zhǔn)確和完整。
(5)便捷的事件流程管理。系統(tǒng)關(guān)鍵事件可以是某次隨訪,可以是某次就診,甚至可以是某次服藥或者某次手術(shù)等,可靈活設(shè)置,支撐不同研究目的的科研項(xiàng)目?;€參考點(diǎn)時間可自定義選擇或者根據(jù)數(shù)據(jù)采集邏輯自動生成,通過時間線串聯(lián)各個關(guān)鍵事件節(jié)點(diǎn),以更加直觀的方式展示患者從研究開始到結(jié)束全程的狀態(tài)轉(zhuǎn)變。
(6)可支撐多中心項(xiàng)目開展。B/S架構(gòu)支持在院內(nèi)跨專業(yè)共建科研病種庫系統(tǒng),還支持互聯(lián)網(wǎng)的部署,支撐異地多中心科研項(xiàng)目的實(shí)施和管理。
(7)可支撐醫(yī)聯(lián)體數(shù)據(jù)自動接入。大數(shù)據(jù)平臺不僅集成了本院各系統(tǒng)數(shù)據(jù),還集成了各領(lǐng)辦型醫(yī)聯(lián)體數(shù)據(jù),因此對于聯(lián)盟內(nèi)開展多中心研究時,其他醫(yī)院的數(shù)據(jù)也可實(shí)現(xiàn)自動采集,不需像互聯(lián)網(wǎng)多中心項(xiàng)目那樣通過手動錄入或者Excel表格導(dǎo)入來實(shí)現(xiàn)。
(8)科研病種庫的集成更有利于多學(xué)科科研的聯(lián)合開展。當(dāng)全院科研應(yīng)用都整合到科研病種庫系統(tǒng)時,此系統(tǒng)集成的數(shù)據(jù)不僅能支撐單科室、單項(xiàng)目的科研統(tǒng)計分析,還能實(shí)現(xiàn)全院科研數(shù)據(jù)的共享應(yīng)用,支撐臨床多學(xué)科聯(lián)合科研。
(9)大數(shù)據(jù)平臺上的挖掘系統(tǒng)可支撐病種庫數(shù)據(jù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘??蒲胁》N庫的數(shù)據(jù)可直接導(dǎo)入到數(shù)據(jù)挖掘系統(tǒng),該系統(tǒng)集成了常用的統(tǒng)計方法和挖掘工具,方便項(xiàng)目組中的統(tǒng)計師和數(shù)據(jù)科學(xué)家開展模型開發(fā)、算法開發(fā)工作,醫(yī)工結(jié)合,形成的統(tǒng)計模型和挖掘模型還可作為知識存儲到知識庫,作為知識積累和傳遞的途徑。
2018年初,國家心血管病中心發(fā)布《中國心血管病報告2017(概要)》。據(jù)推算,我國心血管病現(xiàn)患人數(shù)2.9億,心血管病死亡占居民疾病死亡構(gòu)成40%以上,居所有病種首位,高于腫瘤及其他疾病[14]。而急性心肌梗死(acute myocardial infarction,AMI)(以下簡稱“心?!保┦枪跔顒用}急性、持續(xù)性缺血缺氧所引起的心肌壞死。臨床上多有劇烈而持久的胸骨后疼痛,可并發(fā)心律失常、休克或心力衰竭,??晌<吧?。為盡早發(fā)現(xiàn)心梗事件和降低心梗風(fēng)險,亟須開發(fā)一種基于AI的心梗風(fēng)險預(yù)測輔助決策系統(tǒng),通過該系統(tǒng),能夠?qū)λ凶≡夯颊?,特別是非心血管??频淖≡夯颊呒磿r評估預(yù)警,以支撐一體化、規(guī)范化、統(tǒng)籌化地開展院內(nèi)心梗高?;颊咝畔R報及預(yù)警、病情主動監(jiān)控、中心調(diào)度指揮、救治信息反饋以及數(shù)據(jù)匯總分析、救護(hù)質(zhì)量控制工作,以減少院內(nèi)急性心梗事件的發(fā)生,提升救治率,從而改善預(yù)后。
該系統(tǒng)的開發(fā)依托大數(shù)據(jù)平臺上的科研病種庫構(gòu)建心?;颊邤?shù)據(jù)庫,通過大數(shù)據(jù)病例檢索引擎,查詢RDR數(shù)據(jù)資源池中診斷關(guān)鍵詞包含為心梗、心肌梗死的患者,將查詢到的10 937例患者入組入庫。通過病史、醫(yī)囑等將患者劃分為心梗首發(fā)患者、心梗復(fù)發(fā)患者以及1∶1隨機(jī)抽取的非心梗對照患者,在心?;颊邤?shù)據(jù)庫中建立3個項(xiàng)目子組,分別為心梗復(fù)發(fā)組、心梗新發(fā)組、非心?;颊呓M。隨后設(shè)計臨床CRF,通過RDR的臨床數(shù)據(jù)資源中心自動抓取基本信息、診斷信息、手術(shù)信息等數(shù)據(jù),完成多維特征的數(shù)據(jù)匯集。最后利用科研病種庫系統(tǒng)的綜合查詢功能,查詢患者維度特征,將數(shù)據(jù)導(dǎo)出到數(shù)據(jù)挖掘系統(tǒng)進(jìn)行機(jī)器學(xué)習(xí)建模。隨著時間的推進(jìn),將更多符合條件的患者自動納入病種庫,對已有模型進(jìn)行增量訓(xùn)練,使模型的準(zhǔn)確度不斷提高。該項(xiàng)目的開展很好地驗(yàn)證了基于大數(shù)據(jù)平臺的科研病種庫系統(tǒng)的應(yīng)用效果。
基于大數(shù)據(jù)平臺的科研病種庫系統(tǒng)可支撐臨床回顧性研究與前瞻性研究,集AI隨訪和大數(shù)據(jù)采集于一體,可全方面覆蓋臨床科研需求,在實(shí)際應(yīng)用中取得了良好的效果,但仍然存在一些不足。例如,在數(shù)據(jù)采集方式方面,AI隨訪無論是在語音識別準(zhǔn)確率還是在交互智能化方面依然有進(jìn)步的空間;在數(shù)據(jù)采集內(nèi)容方面,大數(shù)據(jù)平臺雖然已經(jīng)能夠提供高維度和及時穩(wěn)定的數(shù)據(jù)支持,但目前還不能精準(zhǔn)實(shí)現(xiàn)電子病歷文本數(shù)據(jù)結(jié)構(gòu)化,仍需用戶進(jìn)行一定程度的結(jié)構(gòu)化處理;在系統(tǒng)功能方面,還未能實(shí)現(xiàn)移動端的部署以支撐更多場景的應(yīng)用?;诖髷?shù)據(jù)平臺的科研病種庫系統(tǒng)還將繼續(xù)進(jìn)行優(yōu)化,通過移動端、PC端實(shí)現(xiàn)多場景的訪問。此外,還需將影像數(shù)據(jù)、音頻數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等多源異構(gòu)數(shù)據(jù)納入系統(tǒng),完善多渠道的自動采集方式,最終實(shí)現(xiàn)多模態(tài)科研病種庫系統(tǒng)的應(yīng)用。