文/張文龍(中國(guó)科學(xué)技術(shù)大學(xué)附屬第一醫(yī)院)
近年來(lái),大數(shù)據(jù)、人工智能等新一代信息技術(shù)快速發(fā)展,正在引發(fā)臨床科研模式的變革。2021 年12 月27 日,中央網(wǎng)絡(luò)安全和信息化委員會(huì)印發(fā)《“十四五”國(guó)家信息化規(guī)劃》,明確提出“支持構(gòu)建醫(yī)療、教育領(lǐng)域規(guī)范化數(shù)據(jù)開(kāi)發(fā)利用的場(chǎng)景,提升數(shù)據(jù)資源價(jià)值。探索人工智能在智能臨床輔助診療、智能公共衛(wèi)生服務(wù)、人工智能輔助藥物研發(fā)等方向的應(yīng)用效果?!笨蒲写髷?shù)據(jù)平臺(tái)的建設(shè)將以數(shù)據(jù)賦能醫(yī)學(xué)研究,對(duì)科研進(jìn)程優(yōu)化與科研成果轉(zhuǎn)化產(chǎn)生促進(jìn)作用。
中國(guó)科學(xué)技術(shù)大學(xué)附屬第一醫(yī)院(以下簡(jiǎn)稱(chēng)“中國(guó)科大附一院”)經(jīng)多年信息化建設(shè),已建成比較完備的醫(yī)院信息系統(tǒng),實(shí)現(xiàn)醫(yī)療服務(wù)與醫(yī)院管理等信息化全覆蓋。該院科研大數(shù)據(jù)平臺(tái)的建設(shè)與應(yīng)用情況具體如下。
2019 年,中國(guó)科大附一院獲評(píng)國(guó)家醫(yī)療健康信息醫(yī)院信息互聯(lián)互通標(biāo)準(zhǔn)化成熟度五級(jí)乙等(目前國(guó)內(nèi)醫(yī)療機(jī)構(gòu)已達(dá)到的最高等級(jí)),已實(shí)現(xiàn)基于企業(yè)服務(wù)總線(Enterprise Service Bus,ESB),利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)(Extract-Load-Transform,ETL) 建立臨床數(shù)據(jù)中心(Clinical Data Repository,CDR),支持臨床服務(wù)于醫(yī)療管理等,但CDR 的數(shù)據(jù)用于臨床科研,除了需進(jìn)一步提升數(shù)據(jù)質(zhì)量外,還存在如下問(wèn)題。
該醫(yī)院科研人員通過(guò)原始的手工方式進(jìn)行數(shù)據(jù)搜集。雖然在病種維度的回顧性隊(duì)列研究所需的全部數(shù)據(jù)已存在于臨床數(shù)據(jù)中心中,但由于中心數(shù)據(jù)字段不完整、結(jié)構(gòu)化程度不高等問(wèn)題,系統(tǒng)無(wú)法實(shí)現(xiàn)自動(dòng)關(guān)聯(lián)、篩選和導(dǎo)出,導(dǎo)致科研數(shù)據(jù)收集過(guò)程效率低下。科研人員如需分析某項(xiàng)病種,必須在各類(lèi)信息系統(tǒng)中查找相關(guān)數(shù)據(jù),如EMR、HIS 中按診斷、手術(shù)、患者檢驗(yàn)檢查結(jié)果等檢索方式查詢(xún)住院號(hào)[1]。經(jīng)人工記錄后,再前往病案系統(tǒng)中按照住院號(hào)抽取并逐份翻閱病歷,按照科研條件篩選并記錄病歷內(nèi)相關(guān)臨床信息,為篩查符合條件的病例數(shù)200 份,實(shí)際翻閱病歷可能會(huì)達(dá)到600~700 份,耗時(shí)耗力。
大多數(shù)病種存在治療時(shí)限長(zhǎng)的問(wèn)題,需要長(zhǎng)期跟蹤患者治療情況并不斷對(duì)歷史病歷進(jìn)行查找,持續(xù)對(duì)比數(shù)據(jù)。多學(xué)科參與對(duì)患者病歷歸納要求高,科研人員搜集病歷時(shí)難免出現(xiàn)遺漏情況。同時(shí)研究方向的多樣性與個(gè)體差異性,也會(huì)增加科研數(shù)據(jù)搜集難度,所以現(xiàn)有的整理手段無(wú)法滿(mǎn)足科研需求。無(wú)論是病歷搜集、歸檔,還是科研數(shù)據(jù)整理、精準(zhǔn)治療均存在一定難度[2]。而且全院沒(méi)有完善的科研檢索系統(tǒng)及統(tǒng)一的信息化訪視平臺(tái),也無(wú)業(yè)務(wù)系統(tǒng)對(duì)單一科研課題的項(xiàng)目組織、病歷登記、收集,文獻(xiàn)應(yīng)用和數(shù)據(jù)共享及集成進(jìn)行管理,導(dǎo)致不斷產(chǎn)生的符合條件的新數(shù)據(jù)無(wú)法做到實(shí)時(shí)搜集。
為解決上述問(wèn)題,中國(guó)科大附一院于2019 年對(duì)信息系統(tǒng)進(jìn)行統(tǒng)一規(guī)劃,集中布局,建設(shè)科研大數(shù)據(jù)平臺(tái)。
該平臺(tái)建設(shè)思路包括多數(shù)據(jù)源獲取、數(shù)據(jù)的整合、數(shù)據(jù)治理、數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)應(yīng)用5 個(gè)方面。醫(yī)院2016 年進(jìn)行醫(yī)院HIS 信息系統(tǒng)升級(jí),要求業(yè)務(wù)系統(tǒng)增量數(shù)據(jù)匯集ESB 服務(wù)總線,升級(jí)前的存量數(shù)據(jù)仍存于各個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)中。針對(duì)于存量數(shù)據(jù),大數(shù)據(jù)平臺(tái)通過(guò)與業(yè)務(wù)系統(tǒng)做接口的方式實(shí)現(xiàn)一次性抽取。針對(duì)于增量數(shù)據(jù),大數(shù)據(jù)平臺(tái)通過(guò)ETL 工具實(shí)現(xiàn)數(shù)據(jù)抽取、整合與清洗,并在對(duì)照數(shù)據(jù)模型進(jìn)行轉(zhuǎn)換和校驗(yàn)后,統(tǒng)一匯總于多源臨床數(shù)據(jù)中心。多源臨床數(shù)據(jù)中心按照科研通用需求對(duì)數(shù)據(jù)進(jìn)行整理和加工后抽取到科研數(shù)據(jù)中心(Research Data Repository,RDR)。
面對(duì)復(fù)雜廠商的業(yè)務(wù)系統(tǒng)與ESB 服務(wù)總線,中國(guó)科大附屬第一醫(yī)院明確抽取流程和抽取范圍,根據(jù)臨床與科研具體需求,確認(rèn)抽取數(shù)據(jù)域包括患者出入轉(zhuǎn)域、醫(yī)囑域、結(jié)算費(fèi)用域、檢查結(jié)果域、醫(yī)囑發(fā)藥域、護(hù)理體征域、病案域、電子病歷域、RIS 域、Path 域、SP 手術(shù)麻醉域、PIES 體檢域等,將數(shù)據(jù)抽取到臨床數(shù)據(jù)中心中。數(shù)據(jù)抽取后將進(jìn)行自動(dòng)同步工作?;诙鄻I(yè)務(wù)數(shù)據(jù)源,截至2021 年11 月底,系統(tǒng)共完成65.21 億條原始數(shù)據(jù)轉(zhuǎn)儲(chǔ)。多源臨床數(shù)據(jù)中心處理并存儲(chǔ)19.18億條數(shù)據(jù);科研數(shù)據(jù)中心處理并存儲(chǔ)2.8 億條數(shù)據(jù);大數(shù)據(jù)中心總計(jì)數(shù)據(jù)存儲(chǔ)容量約6.2T。
基于Hadoop 大數(shù)據(jù)集群架構(gòu),以非關(guān)系倉(cāng)庫(kù)HBase 為基礎(chǔ),平臺(tái)將抽取的數(shù)據(jù)保存為最細(xì)粒度的事實(shí)表。數(shù)據(jù)完整的情況下,數(shù)據(jù)中心用患者身份信息作為主索引,整合患者就診信息,并采用數(shù)學(xué)計(jì)算產(chǎn)生新的維度,例如可以通過(guò)出入院日期得出住院時(shí)長(zhǎng)。對(duì)主數(shù)據(jù)的映射關(guān)系進(jìn)行比較,有效轉(zhuǎn)換編碼數(shù)據(jù),形成統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)。對(duì)數(shù)據(jù)的清洗將數(shù)據(jù)量有效收斂,清除冗余或無(wú)效的數(shù)據(jù)。采用以深度學(xué)習(xí)為核心的自然語(yǔ)言處理技術(shù)對(duì)非結(jié)構(gòu)化文書(shū)如EMR 等進(jìn)行解析形成子集,逐步實(shí)現(xiàn)結(jié)構(gòu)化文書(shū)的推理總結(jié)。將敏感的數(shù)據(jù)如人員基本信息進(jìn)行脫敏處理。在原子事實(shí)表的基礎(chǔ)上完成聚集事實(shí)表的構(gòu)建與合并后存入醫(yī)院科研數(shù)據(jù)中心,根據(jù)醫(yī)生或研究者的需求,從聚集事實(shí)表中定義出符合臨床研究需求的特殊的事實(shí)表,根據(jù)后續(xù)的應(yīng)用需求可以將合并事實(shí)表固化為關(guān)系型數(shù)據(jù)庫(kù)。
為保證數(shù)據(jù)安全,平臺(tái)支持對(duì)專(zhuān)科病項(xiàng)目組角色分類(lèi),劃分用戶(hù)權(quán)限和分級(jí)授權(quán),對(duì)病歷數(shù)據(jù)脫敏處理,支持將患者的姓名、身份證、電話(huà)和地址等敏感信息刪除或者做特殊字符處理,防止隱私數(shù)據(jù)泄露[3]。保證多中心或多聯(lián)盟在互聯(lián)網(wǎng)傳輸和存儲(chǔ)時(shí)的數(shù)據(jù)安全。針對(duì)專(zhuān)病種申請(qǐng)和數(shù)據(jù)使用有獨(dú)立的審批和審計(jì)流程,通過(guò)系統(tǒng)的水印與日志管理,實(shí)現(xiàn)數(shù)據(jù)使用全流程管控。并依據(jù)相關(guān)管理制度要求,制定相應(yīng)的數(shù)據(jù)使用審批流程。數(shù)據(jù)非必要不能導(dǎo)出,進(jìn)一步保證數(shù)據(jù)安全。
依據(jù)學(xué)科建設(shè)發(fā)展和科學(xué)研究的需求,中國(guó)科大附一院已建成科研大數(shù)據(jù)平臺(tái),該平臺(tái)可實(shí)現(xiàn)醫(yī)療數(shù)據(jù)檢索、專(zhuān)病庫(kù)管理、CRF 表單靈活配置與半自動(dòng)填寫(xiě)、定義訪視計(jì)劃以及科研結(jié)果分析與統(tǒng)計(jì)功能。
醫(yī)療數(shù)據(jù)檢索平臺(tái)可依據(jù)醫(yī)生或科研人員研究思路和需求多維度篩選病例,檢索平臺(tái)可實(shí)現(xiàn)全文檢索、病案搜索和精確檢索等多種檢索方式[4]。既可以在醫(yī)院已有的臨床數(shù)據(jù)的基礎(chǔ)上,按照醫(yī)生或科研人員常用的查詢(xún)需求建立不同的查詢(xún)視圖,如支持按照診斷、手術(shù)等各常用維度篩選病例,也可以通過(guò)對(duì)患者的臨床信息創(chuàng)建關(guān)鍵字搜索引擎索引,實(shí)現(xiàn)針對(duì)非結(jié)構(gòu)化信息的檢索。搜索結(jié)果顯示患者信息與360 就診視圖,并將查詢(xún)出來(lái)的病歷和相關(guān)影像庫(kù)保存為數(shù)據(jù)集,極大地提高了科研人員進(jìn)行醫(yī)療數(shù)據(jù)檢索與提取的效率。
平臺(tái)可根據(jù)醫(yī)生和科研人員通過(guò)納排條件生成實(shí)驗(yàn)組隊(duì)列,為專(zhuān)病管理提供一個(gè)科研進(jìn)展的總覽窗口,實(shí)現(xiàn)快速瀏覽當(dāng)前項(xiàng)目基本信息,快速跟蹤項(xiàng)目搜集進(jìn)度,實(shí)現(xiàn)項(xiàng)目組成員的權(quán)限與跟蹤,可按照“研究者、數(shù)據(jù)稽查員、隨訪員、數(shù)據(jù)錄入員、項(xiàng)目管理”對(duì)項(xiàng)目組進(jìn)行角色分工等,系統(tǒng)首頁(yè)會(huì)以日歷的形式顯示當(dāng)月計(jì)劃與統(tǒng)計(jì)數(shù)據(jù)。支持臨床數(shù)據(jù)符合納排條件的患者自動(dòng)篩選分組功能。采取訪視數(shù)據(jù)雙人錄入、信息二次審批確認(rèn)等多種方法保障了錄入的數(shù)據(jù)的正確性和完整性,實(shí)現(xiàn)科研數(shù)據(jù)質(zhì)量管控。
項(xiàng)目負(fù)責(zé)人可自定義配置與編輯CRF 表單,平臺(tái)自動(dòng)關(guān)聯(lián)臨床數(shù)據(jù),支持半自動(dòng)化填寫(xiě)。實(shí)現(xiàn)對(duì)增量的臨床數(shù)據(jù)進(jìn)行自動(dòng)篩查并抽取到科研病歷數(shù)據(jù),達(dá)到診療、科研數(shù)據(jù)同步采集的目的[5]。這在減少了科研人員工作量的同時(shí),也可避免因人工采集造成的數(shù)據(jù)失真與缺失。平臺(tái)支持CRF 版本控制的功能,可實(shí)現(xiàn)不同CRF 新老版本之間切換,隨時(shí)調(diào)整,確保數(shù)據(jù)不會(huì)因?yàn)榘姹镜淖兓瘜?dǎo)致信息流失。
打通內(nèi)外網(wǎng),平臺(tái)實(shí)現(xiàn)訪視計(jì)劃功能。隨訪客戶(hù)端基于移動(dòng)端開(kāi)發(fā),方便患者使用??蒲腥藛T設(shè)置隨訪規(guī)則與患者建立深度聯(lián)系。具體功能包括隨訪計(jì)劃自動(dòng)制定與提醒、患者端定時(shí)通知、隨訪數(shù)據(jù)半自動(dòng)填入結(jié)構(gòu)化表單、健康宣教。既實(shí)現(xiàn)了對(duì)患者的健康管理和知識(shí)科普,也準(zhǔn)確及時(shí)地將隨訪數(shù)據(jù)傳入專(zhuān)病庫(kù),完善患者全診療流程數(shù)據(jù)留存,實(shí)現(xiàn)患者健康信息的全量收集[6]。
平臺(tái)提供自帶統(tǒng)計(jì)分析和算法模塊,在無(wú)須導(dǎo)出數(shù)據(jù)借助R、SAS、SPSS 等其他統(tǒng)計(jì)軟件的情況下,生成相應(yīng)統(tǒng)計(jì)圖表,建立分析預(yù)測(cè)模型。不同的研究小組之間可以在其他課題組授權(quán)的情況下,共享和再利用數(shù)據(jù),實(shí)現(xiàn)助力科研的目的。
目前科研大數(shù)據(jù)平臺(tái)于2021 年12 月在中國(guó)科大附一院正式上線并運(yùn)行,共有病例3480 余萬(wàn)例,其中門(mén)診病例3320 余萬(wàn)例,住院病例160 余萬(wàn)例。前期上線支持血液科、綜合神經(jīng)內(nèi)科的10 余項(xiàng)專(zhuān)病的研究。同期搭建的腦血管方向?qū)2」芾砥脚_(tái),可以有效輔助醫(yī)院提升該學(xué)科的診療水平和管理能力,逐步建設(shè)高質(zhì)量的腦血管病臨床診療中心、診斷中心和治療能力質(zhì)量提升協(xié)同中心,從而輻射帶動(dòng)和示范引領(lǐng)安徽省整體腦血管病診療水平的提高。
但是在大數(shù)據(jù)平臺(tái)前期建設(shè)取得初步成效的同時(shí),我們也清楚地看到了不足:
(1)面對(duì)門(mén)診和住院的電子病歷文件、報(bào)告等非結(jié)構(gòu)化的數(shù)據(jù),系統(tǒng)需要進(jìn)行持續(xù)的深度學(xué)習(xí),逐步完善和提高醫(yī)學(xué)用語(yǔ)的自然語(yǔ)言處理能力,提升數(shù)據(jù)質(zhì)量。
(2)完善平臺(tái)隨訪體系,后續(xù)針對(duì)平臺(tái)開(kāi)發(fā)通用型隨訪平臺(tái),完善科研隨訪流程,提升患者隨訪率和就診黏性。