拜亞萌,劉云朋
(焦作大學信息工程學院,河南 焦作 454000)
近年來,突發(fā)公共衛(wèi)生事件頻發(fā),危害程度大,涉及范圍廣,不僅嚴重威脅到廣大人民群眾的生命健康,還給經(jīng)濟社會發(fā)展乃至國家安全帶來多維度、多領(lǐng)域交織疊加的重大風險。早期傳染病還具有隱蔽性強、預測性難等特點[1-2],如何利用現(xiàn)代化的技術(shù)手段對新發(fā)傳染病進行及時發(fā)現(xiàn)和監(jiān)測預警,已經(jīng)成為今后人類治理突發(fā)公共衛(wèi)生事件的重大挑戰(zhàn)。
在處理公共衛(wèi)生事件的風險防控與應急管理過程中,暴露出諸如醫(yī)療數(shù)據(jù)開放共享不足、部門間協(xié)同機制不暢、疫情預警監(jiān)測機制失效、風險研判和決策效率低等現(xiàn)實問題[3-4]。針對上述問題,目前對突發(fā)公共衛(wèi)生事件的應急預警研究已經(jīng)形成了以數(shù)據(jù)驅(qū)動的動態(tài)適應和敏捷處理為核心的風險評估模型和預警決策機制[5]。早期的研究主要從時空維度,對歷史病例數(shù)據(jù)進行分析,采用德爾菲技術(shù)(Delphi)、累積和預警模型(CUSUM)等定性分析法[6-7],以及自回歸移動平均模型[8](ARIMA)等定量方法分析預警,但預警的精度和及時性都有待提高。隨著大數(shù)據(jù)分析以及神經(jīng)網(wǎng)絡(luò)學習在各領(lǐng)域的普及應用,提升樹模型[9](Boosting)、循環(huán)神經(jīng)網(wǎng)絡(luò)模型[10](RNN)等基于機器學習的預警模型也取得了一定的成果。與此同時,區(qū)塊鏈技術(shù)在醫(yī)療和防疫監(jiān)測方面的應用也正處于積極探索階段[11-12],Esposito 等[13]采用麻省理工學院的OPAL/Enigma 加密平臺和區(qū)塊鏈技術(shù)相結(jié)合的方法,創(chuàng)造了一個關(guān)于公共衛(wèi)生醫(yī)療保健信息的存儲和分析平臺。Kuo 等[14]將區(qū)塊鏈技術(shù)與隱私保護在線學習技術(shù)相結(jié)合,設(shè)計了公共衛(wèi)生醫(yī)療信息共享平臺。綜上所述,針對突發(fā)公共衛(wèi)生事件應急預警研究還較為分散,對于多維度數(shù)據(jù)耦合作用的復雜關(guān)系缺乏相應的理論研究和機理分析。另外,區(qū)塊鏈在公共衛(wèi)生醫(yī)療應用研究也主要集中于醫(yī)療數(shù)據(jù)信息共享方面,而在突發(fā)公共衛(wèi)生事件的早期數(shù)據(jù)采集、區(qū)域預警、整合政府和社會資源方面缺乏系統(tǒng)的研究。
本文圍繞“數(shù)據(jù)-資源-應用”融合模式,以突發(fā)公共衛(wèi)生事件涵蓋的多維度數(shù)據(jù)為基礎(chǔ),構(gòu)建基于區(qū)塊鏈的數(shù)據(jù)共享和預警決策系統(tǒng),實現(xiàn)了醫(yī)療信息共享、公共安全監(jiān)測、過程跟蹤溯源和信息收集存證,為公共衛(wèi)生事件評估預警算法與系統(tǒng)的設(shè)計提供新的思路和方案。
本系統(tǒng)以區(qū)塊鏈技術(shù)為核心,以突發(fā)事件演化的動態(tài)時序關(guān)系為研究對象進行建模,以構(gòu)建基于區(qū)塊鏈的突發(fā)公共衛(wèi)生事件數(shù)據(jù)共享和預警決策系統(tǒng),從而實現(xiàn)了知識驅(qū)動的疫情風險評估智能決策。本文所設(shè)計的系統(tǒng)架構(gòu),如圖1 所示。
圖1 突發(fā)公共衛(wèi)生事件數(shù)據(jù)共享和預警決策系統(tǒng)架構(gòu)圖
該系統(tǒng)框架以“數(shù)據(jù)-信息-知識-智能”為設(shè)計思路,主要由區(qū)塊鏈數(shù)據(jù)存儲與共享平臺、風險預警與決策模型2 部分組成,前者是促進突發(fā)公共衛(wèi)生事件治理的基本保障,后者是促進突發(fā)公共衛(wèi)生事件治理的最終目的。
系統(tǒng)的運行機制和預警流程如圖2 所示,具體步驟描述如下。
圖2 系統(tǒng)總體運行流程圖
步驟1 多維度數(shù)據(jù)獲?。阂允录莼膭討B(tài)時序關(guān)系建模為理論基礎(chǔ),探析病人的人口統(tǒng)計學特征、癥候群特征、其他敏感醫(yī)療特征之間的關(guān)系,對與公共衛(wèi)生事件相關(guān)的多維度數(shù)據(jù)進行監(jiān)測、抽取和集成處理。
步驟2 風險預警模型構(gòu)建:分析多維度數(shù)據(jù)之間的關(guān)聯(lián)性,設(shè)計基于事件演化的動態(tài)時序關(guān)系建模的公共衛(wèi)生事件風險度量算法,實現(xiàn)對突發(fā)公共衛(wèi)生事件風險的預警。
步驟3 評估模型訓練學習:采用聯(lián)邦學習框架對區(qū)域內(nèi)風險評估模型進行自主學習,通過迭代全局參數(shù),不斷優(yōu)化評估模型精度,提高共享效率和實現(xiàn)隱私保護。
步驟4 數(shù)據(jù)存儲和共享交換:以行政區(qū)域為單位,構(gòu)建不同層級的突發(fā)公共衛(wèi)生事件風險區(qū)塊鏈,并采用側(cè)鏈技術(shù)實現(xiàn)不同區(qū)域間的數(shù)據(jù)交換與共享。
步驟5 風險預警決策上報:采用智能合約機制完成突發(fā)公共衛(wèi)生事件風險的分布式共識、自動化預警和決策上報發(fā)布。
數(shù)據(jù)存儲和協(xié)同共享平臺通過區(qū)域級聯(lián)盟鏈+側(cè)鏈技術(shù)相結(jié)合的方式,構(gòu)建多維度、多層級的信息共享平臺。該平臺的關(guān)鍵技術(shù)包括區(qū)塊鏈存儲結(jié)構(gòu)設(shè)計、分布式數(shù)據(jù)存儲、多層級數(shù)據(jù)交換。
2.1.1 區(qū)塊鏈存儲結(jié)構(gòu)設(shè)計
為保護個人隱私和敏感數(shù)據(jù),將個人隱私等敏感數(shù)據(jù)作為原始數(shù)據(jù)存儲在本地服務(wù)器,而將統(tǒng)計性、綜合性的醫(yī)療數(shù)據(jù)信息存儲在區(qū)塊體內(nèi),并通過入鏈算法將達到共識的區(qū)塊添加到相應的區(qū)塊鏈,從而形成多條不同區(qū)域?qū)蛹壍穆?lián)盟區(qū)塊鏈,極大地降低了數(shù)據(jù)泄露風險。圖3 描述了本文設(shè)計的區(qū)塊鏈存儲結(jié)構(gòu)。
圖3 區(qū)塊鏈存儲結(jié)構(gòu)設(shè)計
區(qū)塊頭部信息中,保留了比特幣區(qū)塊的時間戳和Merkle 根,增加了前驅(qū)區(qū)塊的哈希(Hash)值,用作驗證目的,并增加了參與交易節(jié)點的簽名集合,用來確認交易的有效性。區(qū)塊體中具體交易由資源Hash、交易發(fā)起者簽名、可搜索加密索引以及交易賬本信息等數(shù)據(jù)組成,其中,資源Hash 記錄當前交易記錄的Hash 值,用來保證記錄的完整性;交易發(fā)起者簽名用來驗證本次交易的真實性;可搜索加密索引為后續(xù)安全檢索指定的交易做準備。另外,為節(jié)省存儲空間、保護個人隱私和敏感數(shù)據(jù),區(qū)塊體僅存儲交易數(shù)據(jù)量、模型參數(shù)、模型運行時間等大顆粒統(tǒng)計信息,并通過數(shù)據(jù)加密、參數(shù)聚合、權(quán)限驗證和信用刺激等方式,完成共享數(shù)據(jù)的安全存儲和加密傳輸。
2.1.2 多層級數(shù)據(jù)交換技術(shù)
本系統(tǒng)以國家-省-市-縣四級體系為區(qū)域?qū)蛹墑澐?,涉及了醫(yī)療機構(gòu)、疾控中心、各級政府和衛(wèi)生行政部門等參與主體。為解決數(shù)據(jù)冗余和權(quán)限分配混亂的問題,本文以行政區(qū)域為單元,構(gòu)建多條區(qū)域級的區(qū)塊鏈,每條區(qū)塊鏈包含區(qū)域內(nèi)所有醫(yī)療機構(gòu)、疾控中心和衛(wèi)生部門,同一區(qū)域內(nèi)的參與節(jié)點可以共享基于本區(qū)域內(nèi)的風險模型、風險指數(shù)、醫(yī)療資源占用率等資源。不同區(qū)域之間的數(shù)據(jù)交換采用區(qū)塊鏈側(cè)鏈技術(shù)完成,實現(xiàn)了不同區(qū)域的數(shù)據(jù)轉(zhuǎn)移和安全共享。以各級衛(wèi)生部門作為中轉(zhuǎn)節(jié)點,將不同區(qū)域的數(shù)據(jù)共享鏈接在一起,實現(xiàn)全地域疫情預警風險數(shù)據(jù)的分布式共識和自動化上報。
突發(fā)公共衛(wèi)生事件風險預警模型的關(guān)鍵技術(shù)包括基于事件演化動態(tài)適應建模、基于聯(lián)邦學習的聯(lián)合模型訓練、基于智能合約的風險預警上報。
2.2.1 基于事件演化動態(tài)適應性建模
突發(fā)公共衛(wèi)生事件演化是一個多階段的動態(tài)自適應過程,以癥狀監(jiān)測事件演化過程為研究對象,利用事件衍生、耦合的時空特點,針對傳染病早期的發(fā)病率數(shù)據(jù)呈現(xiàn)出線性和非線性的特征,本文采用線性ARIMA 模型[15]與非線性循環(huán)神經(jīng)網(wǎng)絡(luò)模型(GRNN)[16]相組合的方式構(gòu)建基于ARIMA-GRNN 的預警模型,該模型結(jié)構(gòu)如圖4 所示。
圖4 ARIMA-GRNN 預警模型結(jié)構(gòu)圖
傳染病預警模型的建模過程主要包括2 個方面:一是尋找靈敏的預警指標、采集獲取有效的監(jiān)測數(shù)據(jù),二是構(gòu)建并訓練傳染病預警評估模型提升系統(tǒng)的預警能力。其中,預警數(shù)據(jù)源主要從醫(yī)院信息系統(tǒng)抽取相關(guān)信息,包括患者的個人特征(例如年齡、性別、居住地和職業(yè)等)、癥候群特征(例如病人主訴、癥狀、體征和常規(guī)檢查結(jié)果等數(shù)據(jù))以及其他敏感醫(yī)療特征(例如藥房數(shù)據(jù)、非處方藥銷售、護士熱線電話等數(shù)據(jù)),通過加工、集成,建立傳染病風險數(shù)據(jù)庫。
本文所構(gòu)建的ARIMA-GRNN 預警模型,不僅兼顧ARIMA 網(wǎng)絡(luò)模型的線性處理能力,同時兼顧了GRNN 網(wǎng)絡(luò)模型的非線性逼近能力,充分利用有限的少量數(shù)據(jù),實現(xiàn)對不同傳染病早期傳播風險的有效預警。構(gòu)建ARIMA-GRNN 預警模型的步驟如下。
首先,收集原始數(shù)據(jù),處理和挖掘病人的人口統(tǒng)計學特征、癥候群特征、其他敏感醫(yī)療特征之間的關(guān)系,建立ARIMA 預測模型。
其次,設(shè)定輸入樣本A、輸入樣本B 的值分別為ARIMA 的擬合值和時間值,輸出樣本的值為實際值,從而構(gòu)建出一個二維輸入、一維輸出的GRNN 網(wǎng)絡(luò)模型。
最后,根據(jù)ARIMA 模型得到的預測值和響應時間變量作為輸入,從而完成組合模型的預警結(jié)果輸出,并通過聯(lián)邦學習的方式,對模型進行微調(diào)訓練,修正預測結(jié)果,提高預警精度。
2.2.2 基于聯(lián)邦學習的聯(lián)合模型訓練
為保護患者數(shù)據(jù)的所有權(quán)和隱私權(quán),降低數(shù)據(jù)泄露風險,本文采用聯(lián)邦學習(Federated Learning,以下簡稱FL)技術(shù),在不交換各自隱私數(shù)據(jù)的前提下,通過鏈下聚合學習方式完成風險評估模型的訓練[17]。FL 是一種分布式機器學習框架,主要特點是確保用戶隱私,在不共享原始數(shù)據(jù)的前提下通過參數(shù)交互完成協(xié)同訓練、生成全局模型,不僅可以有效地保護數(shù)據(jù)隱私,同時對積極參與高質(zhì)量數(shù)據(jù)貢獻的醫(yī)院進行獎勵。
首先,參與的醫(yī)療機構(gòu)利用本地數(shù)據(jù)對本地預警模型進行訓練,隨機選擇一個驗證節(jié)點將本地模型參數(shù)和其他交易賬本信息打包上鏈。其次,各節(jié)點實時下載最新區(qū)塊中其他節(jié)點的子模型參數(shù),并在本地進行聚合。然后,通過合約的方式匯總和計算全局模型參數(shù),并將全局參數(shù)反饋給各醫(yī)療機構(gòu),同時生成新的區(qū)塊以存儲本地模型。最后,醫(yī)療機構(gòu)根據(jù)反饋的參數(shù)再次進行訓練,不斷迭代,最終得到完整的全局模型,完成整個訓練過程。通過聯(lián)邦學習的加密傳輸和融合計算,各醫(yī)療機構(gòu)可根據(jù)提供的數(shù)據(jù)量和模型質(zhì)量,獲取相應的貢獻值,從而鼓勵更多參與者持續(xù)貢獻,進而提高全局模型精度。
本文使用邏輯回歸方法來描述聯(lián)邦學習問題,設(shè)定每個醫(yī)院的本地數(shù)據(jù)集Dn,i={xn,i∈Ti,yn,i∈Ti},xn,i是第n 個醫(yī)院參與訓練的輸入樣本矢量,yn,i是輸入樣本矢量的標簽。因此,本地風險預警模型的局部目標函數(shù)可由式(1)表示
全局風險預警模型的損失函數(shù)最小化的目標是
第e 輪更新模型后,計算統(tǒng)計出n 個醫(yī)院的局部模型參數(shù),如式(3)
式中:l 是預定義的學習速率,將局部模型參數(shù)上傳到共識節(jié)點,訓練得到e 輪全局模型參數(shù),如式(4)
根據(jù)式(1)和式(3)可計算出存儲本地訓練數(shù)據(jù)的醫(yī)院的局部損失函數(shù)和局部模型參數(shù)。而全局模型參數(shù)的精確度則受訓練數(shù)據(jù)質(zhì)量影響,高精度的本地訓練數(shù)據(jù)集可有效提升訓練精度和學習效率。
2.2.3 基于智能合約的風險預警上報
由于本項目是聯(lián)盟鏈,無需計費等相關(guān)功能,同時為解決傳統(tǒng)的風險預警機制中個人經(jīng)驗不足、算法魯棒性弱等問題,本文采用基于EVM 智能合約虛擬機的防疫預警合約開發(fā)引擎,實現(xiàn)自動化的風險預警和決策上報,確保預警的及時性和準確性。EVM 合約內(nèi)部包括預警邏輯、風險編碼、風險類型、風險記錄和預警賬本等內(nèi)置信息。另外,根據(jù)傳染病暴發(fā)的空間流行特性以及區(qū)域聯(lián)動預警需求,該應用合約又分為通用預警合約Gwc和區(qū)域預警合約Rwc,EVM 智能合約的預警機制如圖5 所示。
圖5 基于EVM 智能合約的預警機制
預警合約流程如下:將預警合約提前發(fā)布到分布式節(jié)點中,當每次交易產(chǎn)生,調(diào)用Rwc的預警邏輯單元,判斷執(zhí)行是否需要進行預警數(shù)據(jù)入賬,并將最終預警結(jié)果更新到預警賬本中。其中,Rwc所需的參數(shù)都需要在共識節(jié)點中實現(xiàn)確認和共識驗證,Gwc則負責將各個區(qū)域模型的匯總計算得到全局模型參數(shù)。
實驗環(huán)境為Ubuntu 的操作系統(tǒng),分別采用SPSS 16.0、SAS 10.1 軟件、MATLAB 神經(jīng)網(wǎng)絡(luò)工具箱完成ARIMA 模型、RBF 和GRNN 神經(jīng)網(wǎng)絡(luò)模型的參數(shù)估計、模型擬合及其檢驗。實驗過程:首先對ARIMAGRNN 模型進行訓練,然后利用訓練后的ARIMAGRNN 模型對甲乙類傳染病月發(fā)病率進行監(jiān)測預警,從而驗證預警模型的可靠性。
實驗訓練集將肺結(jié)核每月(2000 年1 月—2005 年7 月)實際發(fā)病數(shù)據(jù)作為輸出變量,ARIMA 模型的相應擬合值和時間變量作為二維輸入變量,對GRNN 模型進行訓練。實驗測試集以獲取的電子病歷數(shù)據(jù)作為輸入變量,將測試集儲存在6 個聯(lián)邦學習數(shù)據(jù)節(jié)點中,每個節(jié)點80 份,這些數(shù)據(jù)節(jié)點中的電子病歷樣本在訓練時不會被上傳到中心節(jié)點,從而保護了患者的隱私。圖6 描述了ARIMA-GRNN 組合模型對肺結(jié)核發(fā)病率的擬合效果。
圖6 ARIMA-GRNN 組合模型對肺結(jié)核發(fā)病率的擬合效果
從圖6 可知,ARIMA-GRNN 預警模型的擬合值和實際值貼合緊密,擬合效果良好。另外,表1 對3 種預警模型的預測效果進行比較。
表1 3 種模型的肺結(jié)核發(fā)病率預測效果比較1/10 萬
對表1 數(shù)據(jù)分析可知,在風險預警準確性表現(xiàn)方面,ARIMA-GRNN 模型優(yōu)于RBF 模型,ARIMA 模型的準確性最低。
本文以醫(yī)院信息系統(tǒng)中涵蓋的病歷數(shù)據(jù)和運營數(shù)據(jù)等為數(shù)據(jù)來源,通過分析患者的人口統(tǒng)計學特征、癥候群特征以及其他敏感醫(yī)療特征,構(gòu)建基于事件演化動態(tài)適應性建模的疫情風險評估算法,實現(xiàn)疫情早期預警監(jiān)測。另外,本文融合風險預警模型與區(qū)塊鏈技術(shù),構(gòu)建了基于區(qū)塊鏈的數(shù)據(jù)共享和預警決策系統(tǒng),脫離依賴靜態(tài)歷史數(shù)據(jù)或經(jīng)驗案例的被動預案方式,達到了降低強中心化管理帶來的責任風險,提高傳染病早期風險預警的信息時效性。