陸貴強(qiáng) 白玉真 金 博 劉一瑋 周海濤 陳如梵 李 幟
(遼寧裝備制造職業(yè)技術(shù)學(xué)院資源與信息技術(shù)服務(wù)中心 沈陽110004) (中國(guó)信息通信研究院云計(jì)算與大數(shù)據(jù)研究所 北京100191) (大連理工大學(xué) 大連116024)(云賽智聯(lián)股份有限公司上海數(shù)翊信息技術(shù)分公司 上海200434) (杭州锘崴信息科技有限公司 杭州310053)
近年來人工智能(Artificial Intelligence,AI)的飛速發(fā)展在引領(lǐng)新一輪全球技術(shù)革命的同時(shí)也暴露出其在隱私保護(hù)和數(shù)據(jù)安全等方面所面臨的嚴(yán)峻挑戰(zhàn)。有研究表明通過對(duì)AI系統(tǒng)的攻擊可以推理出訓(xùn)練數(shù)據(jù)中的個(gè)體敏感信息,或者惡意篡改機(jī)器學(xué)習(xí)結(jié)果。因此發(fā)展高效、可信、魯棒的安全人工智能基礎(chǔ)理論及技術(shù)已經(jīng)成為國(guó)內(nèi)外共同關(guān)注的問題,建設(shè)新一代人工智能已成為國(guó)家戰(zhàn)略。在醫(yī)療健康領(lǐng)域,涉及海量患者個(gè)人隱私數(shù)據(jù),如何在確保安全的情況下對(duì)數(shù)據(jù)進(jìn)行遷移,并實(shí)現(xiàn)全生命周期的數(shù)據(jù)管理至關(guān)重要。本文針對(duì)非均勻醫(yī)療數(shù)據(jù)源,研究最小化信息交換的數(shù)據(jù)源遷移有效性度量方法;針對(duì)數(shù)據(jù)源異質(zhì)安全需求,構(gòu)建融合差分隱私、多方可信計(jì)算的層次化跨域知識(shí)安全匯聚機(jī)制;針對(duì)時(shí)變演化的數(shù)據(jù)源,研究知識(shí)匯聚模型的模塊化適時(shí)更新機(jī)制。為實(shí)現(xiàn)面向健康醫(yī)療數(shù)據(jù)的全生命周期管理,海量數(shù)據(jù)源的知識(shí)匯聚和遷移將面臨計(jì)算效率、數(shù)據(jù)安全、時(shí)變演化的挑戰(zhàn)。本文重點(diǎn)研究隱私保護(hù)下海量醫(yī)療數(shù)據(jù)源高效率、強(qiáng)安全、自適應(yīng)的知識(shí)遷移匯聚技術(shù)。針對(duì)海量數(shù)據(jù)源,研究最小化信息交換的數(shù)據(jù)源遷移價(jià)值度量方法,實(shí)現(xiàn)高效準(zhǔn)確的遷移質(zhì)量評(píng)估和高價(jià)值數(shù)據(jù)源優(yōu)選;根據(jù)數(shù)據(jù)源異質(zhì)安全需求,構(gòu)建融合差分隱私、多方可信計(jì)算、同態(tài)加密等多種安全機(jī)制的層次化跨域知識(shí)安全匯聚方法,實(shí)現(xiàn)安全、效率雙優(yōu)化;面對(duì)時(shí)變數(shù)據(jù)源,研究知識(shí)匯聚模型的自適應(yīng)適時(shí)演化機(jī)制,實(shí)現(xiàn)質(zhì)效優(yōu)化下的匯聚模型動(dòng)態(tài)生長(zhǎng)。基于上述研究成果,本文提出一套隱私保護(hù)下海量數(shù)據(jù)源跨域知識(shí)安全遷移全生命周期技術(shù)框架,支持現(xiàn)有開源機(jī)器學(xué)習(xí)平臺(tái)和海量醫(yī)療數(shù)據(jù)。
隨著信息技術(shù)不斷發(fā)展,大部分醫(yī)院建立了各類信息管理系統(tǒng),特別是伴隨物聯(lián)網(wǎng)、移動(dòng)醫(yī)療、自動(dòng)化分析檢測(cè)儀、可穿戴設(shè)備的普及,醫(yī)院、醫(yī)生和患者都成為數(shù)據(jù)的直接創(chuàng)造者,每天產(chǎn)生海量醫(yī)療健康數(shù)據(jù)[1-2]。充分挖掘醫(yī)療健康大數(shù)據(jù)的潛在價(jià)值,對(duì)提高醫(yī)療質(zhì)量、節(jié)約醫(yī)療成本、加強(qiáng)個(gè)人健康管理有重要作用[3-4]。在我國(guó),醫(yī)療健康大數(shù)據(jù)也越來越受到重視?!丁敖】抵袊?guó)2030”規(guī)劃綱要》中明確指出加強(qiáng)健康醫(yī)療大數(shù)據(jù)應(yīng)用體系建設(shè),推進(jìn)基于區(qū)域人口健康信息平臺(tái)的醫(yī)療健康大數(shù)據(jù)開放共享、深度挖掘和廣泛應(yīng)用。健康醫(yī)療大數(shù)據(jù)可為醫(yī)務(wù)工作者、患者提供醫(yī)療知識(shí),在恰當(dāng)?shù)臅r(shí)間智能化地過濾和表達(dá)信息,使臨床醫(yī)療達(dá)到最佳療效,具有極其重要的意義[5]。而治療用藥決策作為臨床決策的重要組成部分,其可根據(jù)歷史醫(yī)療健康大數(shù)據(jù)來輔助醫(yī)生更加高效地選擇和制定有益于患者的最佳治療方案和用藥組合,從而更好地緩解醫(yī)療資源欠缺的現(xiàn)狀。醫(yī)療大數(shù)據(jù)具有數(shù)據(jù)量大(Volume)、實(shí)時(shí)性強(qiáng)(Velocity)、種類多樣(Variety)和潛在價(jià)值高(Value)4個(gè)特點(diǎn)[6],潛在價(jià)值挖掘面臨巨大挑戰(zhàn)。例如臨床數(shù)據(jù)和實(shí)驗(yàn)室數(shù)據(jù)整合在一起,數(shù)據(jù)量巨大,僅靠人工經(jīng)驗(yàn)完全無法識(shí)別出真正具有高價(jià)值的病歷參考。醫(yī)療健康大數(shù)據(jù)中包含著大量的多元異構(gòu)以及多模態(tài)數(shù)據(jù),如電子病歷數(shù)據(jù)中包含患者個(gè)人信息、歷史用藥數(shù)據(jù)、歷史檢查檢驗(yàn)等結(jié)構(gòu)化數(shù)據(jù),病情描述等文本類型數(shù)據(jù),CT等圖像類數(shù)據(jù),且此類數(shù)據(jù)具有一定的相關(guān)性和時(shí)序復(fù)雜性。合理高效地通過智能決策方法對(duì)這些醫(yī)療數(shù)據(jù)進(jìn)行分析處理,既能夠使醫(yī)生診療有跡可循,還可以發(fā)現(xiàn)最有效的治療方案或者用藥方法,從而及時(shí)為醫(yī)生和患者提供最佳的診療建議[7]。
現(xiàn)有開源聯(lián)邦學(xué)習(xí)框架[8]主要基于2016年提出的經(jīng)典聯(lián)邦學(xué)習(xí)范式[9],該范式假設(shè)各數(shù)據(jù)源同質(zhì),可采用同一聯(lián)邦學(xué)習(xí)算法匯聚知識(shí),并共享單一聯(lián)邦學(xué)習(xí)模型。但在機(jī)器學(xué)習(xí)實(shí)踐中,數(shù)據(jù)源廣泛存在異質(zhì)性,包括數(shù)據(jù)分布、樣本覆蓋、特征維度、優(yōu)化目標(biāo)、隱私需求等,往往難以滿足同質(zhì)性假設(shè)。一些國(guó)內(nèi)外高校和機(jī)構(gòu)針對(duì)異質(zhì)性改進(jìn)現(xiàn)有聯(lián)邦學(xué)習(xí)框架,提出個(gè)性化聯(lián)邦學(xué)習(xí)、聯(lián)邦遷移學(xué)習(xí)等新型隱私機(jī)器學(xué)習(xí)范式[10],但仍主要集中在解決數(shù)據(jù)非獨(dú)立同分布、樣本覆蓋不一致等有限異質(zhì)性問題。拓展現(xiàn)有聯(lián)邦學(xué)習(xí)框架,突破海量數(shù)據(jù)源間存在的各類異質(zhì)性將有望擴(kuò)展隱私機(jī)器學(xué)習(xí)的實(shí)踐及應(yīng)用范圍。
在給定醫(yī)療數(shù)據(jù)遷移場(chǎng)景中,選擇合適數(shù)據(jù)源提取知識(shí),是成功完成知識(shí)遷移的先決條件。在面對(duì)海量數(shù)據(jù)源并滿足隱私保護(hù)的要求下,除確保數(shù)據(jù)源價(jià)值度量準(zhǔn)確性外,還需兼顧高效性與安全性兩個(gè)核心指標(biāo)。本文在現(xiàn)有基于博弈論的公平數(shù)據(jù)價(jià)值度量方案基礎(chǔ)上,探索如何最小化價(jià)值度量流程中數(shù)據(jù)源間所需交換的信息量,以及如何高效選擇最優(yōu)數(shù)據(jù)源進(jìn)行知識(shí)遷移,同時(shí)達(dá)到降低隱私泄露風(fēng)險(xiǎn)和提升計(jì)算效率的雙重目標(biāo)。特別針對(duì)不同數(shù)據(jù)源組合可能展現(xiàn)出的不同特性,如是否滿足隨數(shù)據(jù)源增加、模型邊際效應(yīng)遞減屬性等,分別研究基于運(yùn)籌優(yōu)化理論(如子模優(yōu)化)和機(jī)器學(xué)習(xí)梯度優(yōu)化理論的數(shù)據(jù)源優(yōu)選算法,達(dá)到質(zhì)效雙優(yōu),見圖1。
異構(gòu)安全機(jī)制(如差分隱私、多方安全計(jì)算、同態(tài)加密等)可達(dá)到不同保護(hù)效果,適配數(shù)據(jù)源不同場(chǎng)景下(例如醫(yī)療數(shù)據(jù)在臨床診斷和醫(yī)保核算等場(chǎng)景)的個(gè)性化隱私需求。傳統(tǒng)“服務(wù)器-數(shù)據(jù)源”單層知識(shí)匯聚范式難以適配數(shù)據(jù)源異質(zhì)隱私需求,且服務(wù)器直接與海量數(shù)據(jù)源對(duì)接,計(jì)算通信效率難以優(yōu)化。本文突破傳統(tǒng)的知識(shí)匯聚單層架構(gòu),探索基于異構(gòu)安全機(jī)制的層次化跨域知識(shí)匯聚新范式。研究如何設(shè)計(jì)面向海量數(shù)據(jù)源個(gè)性化隱私需求的層次化組織和知識(shí)流通架構(gòu),如何實(shí)現(xiàn)針對(duì)各層異質(zhì)隱私需求的知識(shí)安全匯聚機(jī)制,以構(gòu)建質(zhì)效最優(yōu)、可靈活擴(kuò)展的知識(shí)安全匯聚方法,見圖2。
圖2 基于異構(gòu)安全機(jī)制的層次化跨域知識(shí)匯聚方法和技術(shù)
在醫(yī)療環(huán)境中醫(yī)療數(shù)據(jù)每時(shí)每刻不斷產(chǎn)生,而數(shù)據(jù)源的時(shí)變將影響其在匯聚模型中的遷移效果;既往有效遷移源可能逐漸失效,新興有效遷移源則持續(xù)產(chǎn)生。因此,動(dòng)態(tài)演化匯聚模型才能長(zhǎng)期維持高質(zhì)量的知識(shí)遷移。本文研究如何基于實(shí)時(shí)流數(shù)據(jù)處理技術(shù),針對(duì)海量數(shù)據(jù)源安全、高效、快速地檢測(cè)其遷移價(jià)值的時(shí)變規(guī)律,發(fā)現(xiàn)潛在的價(jià)值突變;特別是在數(shù)據(jù)源無法保持穩(wěn)定連接時(shí)準(zhǔn)確檢測(cè)其價(jià)值變化。進(jìn)一步針對(duì)不同價(jià)值變化的數(shù)據(jù)源設(shè)計(jì)自適應(yīng)的匯聚模型適時(shí)演化算法,刪除價(jià)值顯著降低的數(shù)據(jù)源,新增具備顯著價(jià)值且未納入的數(shù)據(jù)源,以及更新價(jià)值較高的已有數(shù)據(jù)源,見圖3。
圖3 動(dòng)態(tài)自適應(yīng)的匯聚模型適時(shí)演化方法和技術(shù)
形成一整套隱私保護(hù)下海量數(shù)據(jù)源跨域知識(shí)遷移匯聚全生命周期的工具庫,包含遷移數(shù)據(jù)源的價(jià)值度量和優(yōu)選,基于異構(gòu)安全機(jī)制的知識(shí)遷移匯聚以及匯聚模型的自適應(yīng)更新演化等功能,支持開發(fā)人員快速建立和部署質(zhì)效優(yōu)化且安全的跨域知識(shí)遷移匯聚系統(tǒng)。該工具庫將通過對(duì)主流開源機(jī)器學(xué)習(xí)框架所提供功能接口的進(jìn)一步抽象,實(shí)現(xiàn)無縫銜接各主流框架,支持海量數(shù)據(jù)源知識(shí)匯聚,基于該工具庫開展實(shí)驗(yàn)驗(yàn)證。根據(jù)國(guó)家對(duì)醫(yī)保支付方式改革的要求,需要通過優(yōu)化病案首頁管理以及患者住院費(fèi)用(包括藥品費(fèi)用、耗材費(fèi)用等)數(shù)據(jù)的智能化分析,建立醫(yī)保費(fèi)用動(dòng)態(tài)測(cè)算模型,加強(qiáng)和升級(jí)地區(qū)醫(yī)保費(fèi)用的稽核控費(fèi);強(qiáng)化地區(qū)醫(yī)療機(jī)構(gòu)橫向比較和評(píng)估管理,做到同級(jí)別醫(yī)療機(jī)構(gòu)同病、同治、同質(zhì)、同價(jià),并為全面開展按疾病診斷相關(guān)分組(Diagnosis Related Groups, DRG)收付費(fèi)管理進(jìn)行前期準(zhǔn)備。
按病案首頁模式對(duì)醫(yī)保與醫(yī)療機(jī)構(gòu)的結(jié)算接口進(jìn)行改造;本地醫(yī)療機(jī)構(gòu)病案首頁明細(xì)、住院費(fèi)用明細(xì)、藥品清單、耗材清單等數(shù)據(jù)采集及清洗;藥品統(tǒng)一編碼和賦值;出院患者的藥品數(shù)據(jù)采集、清洗、分析;耗材統(tǒng)一編碼和賦值;出院患者耗材數(shù)據(jù)采集、清洗、分析;構(gòu)建地區(qū)內(nèi)住院患者費(fèi)用明細(xì)視圖、病案首頁信息視圖,建立地區(qū)疾病譜;根據(jù)地區(qū)內(nèi)參保類別、醫(yī)療機(jī)構(gòu)等級(jí)進(jìn)行報(bào)銷比例設(shè)置和分類別費(fèi)用總額管理;特殊藥物(抗菌藥物、毒麻藥品等)的多維度精細(xì)化管理;特殊高值藥品和耗材的多維度精細(xì)化管理;與地方疾病譜相對(duì)的地方常用藥品庫、總額預(yù)付費(fèi)用、醫(yī)保及其他各類非醫(yī)保費(fèi)用比例可視化管理;地區(qū)性監(jiān)測(cè)指標(biāo)的自定義管理;考慮地方實(shí)際情況,對(duì)特殊支付政策制定進(jìn)行數(shù)據(jù)支持;極端患者另行支付、加大審核;死亡和轉(zhuǎn)診問題;特殊高值耗材如何打包問題;地方常見疾病費(fèi)用結(jié)算、費(fèi)率調(diào)整(如呼吸系統(tǒng)疾病、心血管系統(tǒng)疾病等)。這是本研究團(tuán)隊(duì)為某三甲醫(yī)院實(shí)施部署的醫(yī)療服務(wù)價(jià)格監(jiān)管系統(tǒng),本文提出的知識(shí)安全遷移技術(shù)應(yīng)用在該項(xiàng)目中,實(shí)現(xiàn)了在醫(yī)保管理機(jī)構(gòu)監(jiān)督下的數(shù)據(jù)遷移操作,具體任務(wù)是從臨床診療場(chǎng)景向醫(yī)保核算場(chǎng)景進(jìn)行數(shù)據(jù)遷移,涉及需要進(jìn)行安全遷移的任務(wù)內(nèi)容,見圖4。
圖4 醫(yī)療服務(wù)價(jià)格管理系統(tǒng)數(shù)據(jù)處理與遷移任務(wù)
基于本文提出的技術(shù),在海量數(shù)據(jù)遷移需求調(diào)節(jié)下,項(xiàng)目團(tuán)隊(duì)順利完成并行數(shù)據(jù)處理,數(shù)據(jù)遷移性能測(cè)試結(jié)果,見表1。經(jīng)過數(shù)據(jù)完整性測(cè)試以及大量有效和無效數(shù)據(jù)的測(cè)試,本文提出的技術(shù)對(duì)于有效數(shù)據(jù)可以正常運(yùn)行,對(duì)于無效數(shù)據(jù),可以對(duì)異常以及非法輸入進(jìn)行處理,不會(huì)給用戶帶來損失。根據(jù)測(cè)試數(shù)據(jù)分析可以看出系統(tǒng)平均響應(yīng)時(shí)間均在1秒以內(nèi),并發(fā)數(shù)20~200不等,與傳統(tǒng)數(shù)據(jù)遷移方向相比,在保證數(shù)據(jù)安全的前提下,提升數(shù)據(jù)遷移效率20%以上。經(jīng)對(duì)比,在保證數(shù)據(jù)安全和高效遷移的條件下,數(shù)據(jù)遷移前后數(shù)據(jù)分布無變化,達(dá)到預(yù)期目標(biāo),完成并通過項(xiàng)目驗(yàn)收。
表1 數(shù)據(jù)遷移性能測(cè)試
當(dāng)前醫(yī)療場(chǎng)景下各數(shù)據(jù)源存在廣泛異質(zhì)性且互不可見,為知識(shí)遷移帶來巨大挑戰(zhàn)。本文提出“來源價(jià)值優(yōu)選-眾源層次匯聚-適源動(dòng)態(tài)演化”3階段的隱私保護(hù)下海量數(shù)據(jù)源跨域知識(shí)遷移的全生命周期創(chuàng)新性技術(shù)框架。提出安全跨域遷移價(jià)值度量方案,開發(fā)最優(yōu)遷移源選擇算法;構(gòu)建層次化數(shù)據(jù)源組織架構(gòu),建立可適配不同數(shù)據(jù)源層的異構(gòu)安全技術(shù)跨域知識(shí)遷移匯聚方案;設(shè)計(jì)隱私保護(hù)下數(shù)據(jù)源時(shí)變實(shí)時(shí)監(jiān)測(cè)算法,對(duì)知識(shí)匯聚模型進(jìn)行動(dòng)態(tài)演化。以上框架可以實(shí)現(xiàn)安全的數(shù)據(jù)遷移和全生命周期醫(yī)療數(shù)據(jù)有效管理。