王 爽 胡 琪 陳曉璇 黃 瓊 鄭 靜
(深圳市衛(wèi)生健康發(fā)展研究和數據管理中心 深圳 518001)
深圳市全民健康信息平臺以保障公眾健康為目標,充分利用網絡、存儲、計算等技術建立安全可控和標準統(tǒng)一的平臺。該平臺要采集深圳市居民全生命周期各業(yè)務領域的完整健康信息,以建立全民健康信息數據中心。數據采集內容包含6大業(yè)務領域數十個專業(yè)業(yè)務應用系統(tǒng)數據、各區(qū)級全民健康信息平臺上傳數據,以及市屬醫(yī)院、社區(qū)健康服務中心、社會辦醫(yī)療衛(wèi)生機構數據等。結合數據量大、類型多樣復雜的特征,利用系統(tǒng)進行數據采集、存儲和質控,在全市醫(yī)療機構統(tǒng)一使用,建立全員人口信息數據庫、健康檔案信息數據庫、電子病歷數據庫3大基礎數據庫。利用系統(tǒng)采集和存儲居民診療信息,實現(xiàn)全市居民醫(yī)療健康信息完整保存,是全市健康大數據產業(yè)體系形成的重要步驟[1-5]。
目前已有數據采集系統(tǒng)均在特定環(huán)境下運行,采用傳統(tǒng)方式將影響數據采集的準確性、完整性和效率。如何設計統(tǒng)一的數據采集系統(tǒng)完成所有醫(yī)療數據采集是目前平臺亟待解決的關鍵問題[6-8]。
設計目標為:在全市建立統(tǒng)一數據采集系統(tǒng),整合各醫(yī)療機構業(yè)務系統(tǒng)數據,建立3大基礎數據庫,為全民健康信息平臺中不同應用系統(tǒng)提供統(tǒng)一數據支撐服務。在此目標基礎上確定數據采集系統(tǒng)的范圍、內容和設計原則[9-12]。
數據采集系統(tǒng)須完成全市醫(yī)療衛(wèi)生計生行業(yè)內部數據采集工作,采集內容主要包括醫(yī)院信息系統(tǒng)業(yè)務數據、社區(qū)健康服務與管理信息系統(tǒng)數據、深圳市衛(wèi)生健康委員會直屬機構業(yè)務系統(tǒng)數據。
從全員人口信息數據庫、健康檔案信息數據庫和電子病歷數據庫3個維度分析需要采集的內容。全員人口信息主體包括公民身份證號碼、姓名、性別、民族、出生地、出生日期等基本信息,以及各部門業(yè)務系統(tǒng)在利用人口衛(wèi)生計生基本信息過程中產生的其他存在共享需求的全員人口信息等。健康檔案包含個人基本信息和衛(wèi)生服務記錄信息。其中,個人基本信息主要包括人口學信息、親屬信息、社會保障信息、基本健康信息、建檔信息;衛(wèi)生服務記錄主要包括兒童保健、婦女保健、疾病預防、疾病管理、醫(yī)療服務等信息。電子病歷主要內容包括病歷概要、門(急)診病歷記錄、住院病歷記錄、健康體檢記錄、轉診記錄、法定醫(yī)學證明及報告、醫(yī)療機構信息7個業(yè)務領域的基本醫(yī)療服務活動記錄。
2.3.1 統(tǒng)籌性 在針對深圳市醫(yī)院、公共衛(wèi)生機構及衛(wèi)生管理機構信息數據進行采集、轉換、傳輸、質量控制和監(jiān)管過程中,應結合醫(yī)療衛(wèi)生機構業(yè)務系統(tǒng)情況,逐步推進實施。
2.3.2 統(tǒng)一性 根據數據集、值域表、維護說明、數據源變更報備等一系列文件,規(guī)范實施路徑,減少信息不對稱導致的額外工作量。
2.3.3 安全性 采用科學的服務器備份策略,重要數據發(fā)生變更便全量備份至運維終端一次,數據庫、應用系統(tǒng)重要數據每天全量備份至運維終端一次。
2.3.4 擴展性 采用VUE+Sping Boot等先進開發(fā)技術,具備良好的內部集成能力,通過單點登錄實現(xiàn)與上級系統(tǒng)的聯(lián)通性。
2.3.5 穩(wěn)定性 系統(tǒng)前端采用VUE,后端使用Spring Boot、Redis,打包工具使用webpack gulp lessc,具備良好的系統(tǒng)拓展功能,能夠簡便地進行二次功能開發(fā)。
系統(tǒng)首先通過數據采集程序將各醫(yī)療機構業(yè)務數據采集到緩存庫,并在緩存庫中進行質量控制(以下簡稱質控),如果質控通過則上傳至深圳市全民健康平臺數據庫,如果質控不通過則通知醫(yī)療衛(wèi)生機構進行數據整改,見圖1。
圖1 系統(tǒng)流程
3.2.1 總體程序(圖2)
圖2 數據采集程序
3.2.2 采集方式 采集方式分為兩種,一是定時采集(T+1采集),二是實時采集。因為醫(yī)療業(yè)務的特殊性,各醫(yī)療機構業(yè)務系統(tǒng)之間需要實時調取數據。實時數據采集可以通過兩種方式實現(xiàn)。第1種是根據業(yè)務需求內容,采用HL 7或Web Service等設計規(guī)范及深圳市全民健康信息平臺自身業(yè)務需求制定的數據交換標準規(guī)范,開發(fā)相應組件,依照要求實時檢索醫(yī)療機構業(yè)務系統(tǒng)后臺數據庫,根據相關檢索結果信息,實時反饋推送至全民健康信息平臺。第2種是全民健康信息平臺建立相應服務協(xié)議接口及數據交互方式,由各醫(yī)療機構業(yè)務系統(tǒng)設定事件觸發(fā)機制,當設定的事件被觸發(fā)時,可直接將所產生數據推送至全民健康信息平臺。采用提取、轉換、加載(extract-transform-load,ETL)工具實現(xiàn)定時數據采集。醫(yī)療衛(wèi)生機構業(yè)務系統(tǒng)廠商方開放業(yè)務系統(tǒng)數據庫或數據存儲只讀權限并提供數據結構、技術支持。由采集方根據業(yè)務標準按需整合。按此種方式接入,不同業(yè)務系統(tǒng)采用的數據庫系統(tǒng)可能不同,即使數據庫相同對應的數據表和字段也可能不同,因此各醫(yī)療衛(wèi)生機構要開放數據采集相關業(yè)務系統(tǒng)后臺數據庫或所有存儲數據只讀權限,采集方根據業(yè)務需求,針對醫(yī)療衛(wèi)生機構生產數據庫進行分析整合,開發(fā)相應系統(tǒng)數據采集腳本,采集至中間庫數據庫,只要采集流程支持,數據清洗轉換過程可以保持不變,因此數據清洗轉換過程是較通用的模塊。
3.2.3 數據映射 各醫(yī)療衛(wèi)生機構有不同的數據庫、數據格式、應用和操作平臺,確定抽取的字段形成需求表,再與各業(yè)務系統(tǒng)數據庫字段形成映射關系。數據采集程序根據預先定義的映射規(guī)則從醫(yī)療衛(wèi)生機構數據庫中抽取相應數據。
3.2.4 數據清洗 根據深圳市全民健康數據采集標準制定數據清洗規(guī)則。清洗模塊首先過濾采集數據中的無用信息,避免讀入大量無用信息影響系統(tǒng)性能。這一步主要是通過設置數據屬性和條件完成性別設置、年齡設置等。在清洗完成之后,采集數據通常不會與標準數據模型相對應,仍然需要對數據進行清洗。清洗方式可分為對應清洗和自定義清洗。對應清洗有轉碼、字符截取、字符合并、常量設置、條件選擇、關聯(lián)表和對應轉化的方式。根據數據類型不同采用任意組合的方式進行清洗,在清洗完成后存入數據清洗庫。例如,“性別”0代表女、1代表男,通過轉化方式就可以將輸入值中的0或1對應轉化成女或男。自定義清洗是在清洗模塊中留有接口,通過手工編寫代碼解決特殊清洗問題,如男性患者不會出現(xiàn)懷孕就診記錄。數據清洗可將每個步驟清洗結果分別存儲至數據清洗庫,用以監(jiān)控、比較清洗前后的數據內容,以校驗數據清洗結果準確性。根據不同清洗結果,及時修正清洗規(guī)則,達到數據清洗有據,清洗結果內容與原始內容統(tǒng)計分析類結果完全一致。
3.2.5 數據裝載 數據裝載模塊主要是增量裝載和整合裝載。增量裝載是數據的堆積,無須考慮數據的整體性,如醫(yī)院掛號數據。整合裝載是將數據進行整合再存入目標數據庫,如患者歷史就診記錄。在加載之前要將數據進行整合處理,一方面滿足醫(yī)療機構內跨業(yè)務的專項操作需求,另一方面動態(tài)建立醫(yī)療機構居民健康檔案全局視圖。數據整合將采集到的業(yè)務數據分門別類組織好,并按設計要求分別存儲到區(qū)域衛(wèi)生資源中心,用以支持跨機構、跨級和跨業(yè)務的專線業(yè)務應用,例如新生兒隨訪、傳染病管理、婦產幼保健、慢性病管理、轉診管理、遠程醫(yī)療等。在技術層面,因為不同類型數據有不同存儲要求,所以數據裝載提供多種存儲格式,一是將數據存入關系型數據庫中,并為平臺方提供相應數據調用路徑和權限。二是數據比對和入庫,在數據裝載時,根據標準表中主鍵或者業(yè)務主鍵判斷是否已有相同記錄,決定采用更新裝載機制還是插入裝載機制。當采用插入裝載機制時,直接在目標庫中插入需裝載數據。當采用更新方式裝載時,根據醫(yī)療機構業(yè)務系統(tǒng)中數據庫表主鍵,結合創(chuàng)建時間、審核時間、修改時間等字段內容判斷數據是否需要更新操作。
數據質控程序是對采集緩存庫中的數據進行質控,如果通過則上傳至深圳市全民健康平臺數據庫。在數據質控程序中有質量分析、質量評估和質控結果展示環(huán)節(jié),見圖3。
圖3 數據質控流程
3.3.1 質量分析 質量分析是對原始數據經過采集程序到采集存儲庫中的傳輸情況進行跟蹤,根據校驗規(guī)則對原始數據進行字段級及表級關系驗證,同時輸出數據校驗結果報表,將報表提供給各醫(yī)療機構,對不符合規(guī)則的數據進行排查。例如,醫(yī)療機構代碼必須和上傳機構一致,如果不一致則反饋給上傳機構,讓其修改重新上傳。
3.3.2 質量評估 質量評估是數據監(jiān)管系統(tǒng)的重要組成部分,包括數據的完整性、一致性、時效性、規(guī)范性4個維度。以業(yè)務信息為基礎,將所有可監(jiān)控、可計算的數據指標在質控平臺中統(tǒng)一管理,為每項指標作出明確定義,包括指標類型、指標名稱、計算公式、計算頻次等。數據質量管理根據需要將所有相關指標分為兩大類:原子指標、復合指標。指標類別分為監(jiān)督指標、評估指標和考核指標。這些指標分類有重疊的部分,主要是根據目標不同在指標源中抽取不同的指標進行評估。
3.3.3 質控結果展示 對質控規(guī)則進行檢查,形成質控結果,對質控結果進行統(tǒng)計展示,為提高數據質量提供數據支撐。數據質控程序實現(xiàn)了端到端的全流程數據監(jiān)管,可以根據現(xiàn)場數據情況自定義校驗規(guī)則,以構建完善的數據評分體系進而保證數據上傳的有效性和質量。具體質控內容包括完整性、關聯(lián)性、約束性、一致性、規(guī)范性和及時性。為提高數據采集質量,須提供完整的數據質量評估體系,同時建立完善的數據監(jiān)控機制,對醫(yī)療衛(wèi)生機構數據采集情況進行綜合展示,包括采集數量、采集成功率、質量評估結果等。
采集系統(tǒng)可以根據深圳市全民健康數據采集標準要求,實現(xiàn)數據采集、清洗、上傳等一體化服務。截至目前,已經完成全市所有醫(yī)療衛(wèi)生機構對接。系統(tǒng)統(tǒng)一采集具有以下效果。一是從源頭上減少人工填報造成的數據缺失、前后不一致等情況。由于之前大部分統(tǒng)計數據手動填報,不同報表中同一指標會出現(xiàn)數據不一致的情況?,F(xiàn)將采集的數據共享給各個系統(tǒng),控制數據質量,從源頭上對數據進行規(guī)范和統(tǒng)一。二是有利于衛(wèi)生行政部門作出科學決策和提高對醫(yī)院的監(jiān)管力度。通過對醫(yī)療數據的整合與挖掘,衛(wèi)生行政部門可以加強對醫(yī)院業(yè)務的管理以及制訂更利于民生的衛(wèi)生政策,從而提升深圳市整體醫(yī)療水平。三是提高居民看病就醫(yī)幸福感。通過采集全市醫(yī)療數據形成居民健康檔案和電子病歷,醫(yī)生可以查看就診者歷史就診記錄,避免就診者做不必要的檢查,減輕就醫(yī)負擔,從而提高醫(yī)療資源利用效率和降低就醫(yī)費用。四是為科研工作者提供寶貴的醫(yī)療數據。這些醫(yī)療數據通過數據采集匯集到平臺,為科研工作者對疾病的管理、預防和干預等研究提供數據支持。
數據采集系統(tǒng)采集全市各醫(yī)療衛(wèi)生機構數據,統(tǒng)一匯聚到深圳市全民健康信息平臺。平臺統(tǒng)一分析和使用這些數據,采用可視化技術將個人健康檔案、電子病歷清晰展現(xiàn),為醫(yī)生或患者提供便利。數據采集系統(tǒng)為深圳市醫(yī)療管理、科研、教學提供重要數據源,可大幅度推進深圳市全民健康信息化水平[15-17]。但是當前數據采集系統(tǒng)在質控方面只做基本質控,數據采集質量較差。后期考慮通過分析當前采集數據質量問題,提出更多質控條件,從而提高數據質量,滿足平臺需求。