亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        醫(yī)療健康大數(shù)據(jù)隱私保護(hù)綜述

        2021-03-11 06:20:22郭子菁羅玉川蔡志平鄭騰飛
        計算機(jī)與生活 2021年3期
        關(guān)鍵詞:密鑰加密醫(yī)療

        郭子菁,羅玉川,蔡志平,鄭騰飛

        國防科技大學(xué) 計算機(jī)學(xué)院,長沙410073

        醫(yī)學(xué)技術(shù)與信息技術(shù)的不斷融合突破,為醫(yī)療數(shù)據(jù)的產(chǎn)生提供了源源不斷的動力,也為大數(shù)據(jù)技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用和發(fā)展奠定了穩(wěn)固的基石。醫(yī)療數(shù)據(jù)具有數(shù)據(jù)量龐大、增長速度快、數(shù)據(jù)結(jié)構(gòu)多樣化和應(yīng)用價值高等特點,屬于大數(shù)據(jù)的一種。采集、治理及分析這些醫(yī)療大數(shù)據(jù),有效發(fā)掘數(shù)據(jù)中的潛在價值,在推動臨床科研的進(jìn)步、臨床決策支撐以及藥物研發(fā)等方面都起到了積極的推動作用[1]。因此,健康醫(yī)療大數(shù)據(jù)建設(shè)在國內(nèi)外都受到高度重視,一些發(fā)達(dá)國家已經(jīng)搭建了相對成熟的平臺,我國由于起步晚而目前專注于數(shù)據(jù)采集階段,對于數(shù)據(jù)的分析處理能力較弱。

        然而,在享受從醫(yī)療數(shù)據(jù)中獲得有價值的信息為臨床科研、健康管理、公共衛(wèi)生等方面的研究注入新的活力的同時,也不可避免地帶來隱私泄漏的問題。例如,從2019年7月中旬到2019年9月初,Greenbone Networks 分析了全球數(shù)千個在線醫(yī)療服務(wù)系統(tǒng),發(fā)現(xiàn)2 400 多萬份來自不同國家的患者數(shù)據(jù)記錄可以在互聯(lián)網(wǎng)上被訪問或輕易下載[2]。泄漏的患者數(shù)據(jù)記錄中包含著詳細(xì)的個人和醫(yī)療細(xì)節(jié):姓名、出生日期、檢查日期、調(diào)查項目、主治醫(yī)師、檢測結(jié)果的圖像信息等。這些數(shù)據(jù)可被攻擊者利用,發(fā)布個人姓名和圖像以此來損害一個人的聲譽(yù);將泄漏的數(shù)據(jù)與其他數(shù)據(jù)關(guān)聯(lián)起來,從而實現(xiàn)網(wǎng)絡(luò)釣魚和社交工程;閱讀并自動處理數(shù)據(jù)來搜索有價值的身份信息,例如利用證件號碼用來盜用身份。

        如何在不泄漏患者隱私的前提下,提高醫(yī)療數(shù)據(jù)的利用率,挖掘其中蘊(yùn)藏的價值,是目前制約其發(fā)展的一個重要因素。因此,在醫(yī)療健康大數(shù)據(jù)的全生命周期中,需要在充分利用數(shù)據(jù)的同時嚴(yán)密防范隱私泄漏,力圖在數(shù)據(jù)利用和隱私保護(hù)二者之間找到一個平衡。

        (1)醫(yī)療大數(shù)據(jù)的來源及特征

        隨著醫(yī)療領(lǐng)域信息化的推進(jìn),醫(yī)療健康方面的電子數(shù)據(jù)正以前所未有的速度爆發(fā)式增長,其類型也多種多樣,其中包括患者疾病診療數(shù)據(jù)、身體健康數(shù)據(jù)以及醫(yī)療臨床實驗數(shù)據(jù)等。這些類型復(fù)雜的規(guī)模巨大的醫(yī)療數(shù)據(jù)匯聚起來而呈現(xiàn)出大數(shù)據(jù)的特性,也就共同構(gòu)成了醫(yī)療大數(shù)據(jù)。主要歸納了醫(yī)療大數(shù)據(jù)的來源以及特點,如圖1所示。

        Fig.1 Sources and characteristics of big data in healthcare圖1 醫(yī)療健康大數(shù)據(jù)來源及特點

        醫(yī)療健康大數(shù)據(jù)的來源可被劃分為以下四類:

        臨床大數(shù)據(jù):這部分?jǐn)?shù)據(jù)主要產(chǎn)生于患者就醫(yī)過程中,構(gòu)成了醫(yī)療健康大數(shù)據(jù)的基礎(chǔ)內(nèi)容?;颊咴诰歪t(yī)過程中產(chǎn)生了一系列包含其隱私的數(shù)據(jù)。首先需提供姓名、年齡、住址、電話等詳細(xì)的個人信息,在診療過程中由醫(yī)生根據(jù)經(jīng)驗判斷直接記載或經(jīng)由各種醫(yī)療器械檢測產(chǎn)生的電子病歷數(shù)據(jù)、醫(yī)學(xué)圖像數(shù)據(jù)以及使用藥物記錄等都是臨床數(shù)據(jù)的一部分。此外,在就醫(yī)過程中還會涉及到相關(guān)費(fèi)用信息、醫(yī)保使用情況等,這些信息也會被記錄下來,在大數(shù)據(jù)條件下,這些數(shù)據(jù)經(jīng)由系統(tǒng)分析,能夠產(chǎn)生新的價值。但是,這其中也直接包含著大量個人信息,一旦被非法第三方獲取,則直接對患者隱私造成威脅。

        健康大數(shù)據(jù):隨著生活智能化,可穿戴式設(shè)備、手機(jī)應(yīng)用滲透到人們的生活中,其獲取的信息能幫助每個人監(jiān)測并記錄詳細(xì)的個人體征數(shù)據(jù);在各大網(wǎng)站中瀏覽、咨詢關(guān)于疾病、健康等相關(guān)內(nèi)容的行為會暴露出個人偏好數(shù)據(jù)。這些數(shù)據(jù)通過互聯(lián)網(wǎng)與醫(yī)療機(jī)構(gòu)相連接,構(gòu)成電子健康檔案內(nèi)容,用以時刻監(jiān)控每個人健康情況。這些記錄著個體詳細(xì)健康狀況的實時數(shù)據(jù),通過網(wǎng)絡(luò)匯集,就導(dǎo)致了可能暴露健康狀況、位置、個人喜好等一系列敏感信息。

        生物大數(shù)據(jù):得益于高通量測序技術(shù)的快速發(fā)展,生命科學(xué)相關(guān)研究機(jī)構(gòu)數(shù)據(jù)產(chǎn)出能力也日益增強(qiáng),能夠產(chǎn)生包括基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白組學(xué)、代謝組學(xué)等不同組學(xué)的龐大數(shù)據(jù)集。這些生物數(shù)據(jù)中潛在的巨大價值,不僅有效地推動了生物科研領(lǐng)域的發(fā)展,也在農(nóng)業(yè)、健康和醫(yī)學(xué)等領(lǐng)域得以應(yīng)用。但是,基因檢測數(shù)據(jù)與病理數(shù)據(jù)相結(jié)合時,很容易匹配到具體的個體,在隱私泄漏的同時還極易引起基因歧視而給患者帶來雙重傷害。

        經(jīng)營運(yùn)營大數(shù)據(jù):在各個醫(yī)療機(jī)構(gòu)經(jīng)營運(yùn)營過程中,也會相應(yīng)地產(chǎn)生大量數(shù)據(jù),例如,運(yùn)營的成本核算數(shù)據(jù)、藥品、耗材、器械采購數(shù)據(jù)、藥物研發(fā)數(shù)據(jù)、消費(fèi)者購買行為數(shù)據(jù)等。數(shù)據(jù)中涉及藥物或相關(guān)器械交易記錄也往往暴露了用戶的身體狀況、財政狀況等隱私信息,在隱私保護(hù)中也是不可忽視的內(nèi)容。

        醫(yī)療大數(shù)據(jù)符合大數(shù)據(jù)的共同特征——規(guī)模大、增長快、結(jié)構(gòu)多樣、價值巨大。此外,醫(yī)療大數(shù)據(jù)還具有其他獨有的性質(zhì)。

        高度敏感性:醫(yī)療大數(shù)據(jù)中常常直接記錄著病人的詳細(xì)個人信息以及身體健康狀況,相較于其他數(shù)據(jù)具有更高的敏感性,對隱私保護(hù)的要求更高。

        不完整性:由于醫(yī)療健康數(shù)據(jù)的采集和處理過程常常無法做到緊密銜接,因此醫(yī)療數(shù)據(jù)庫中的數(shù)據(jù)雖然規(guī)模龐大,但仍然難以全面記錄下所有的疾病信息。此外,由于電子病歷尚未全面普及,大量數(shù)據(jù)來源于人工記錄,記錄內(nèi)容的偏差和殘缺,言語表達(dá)的不確定性,資料保管的不到位,都是醫(yī)療健康大數(shù)據(jù)不完整性的源頭。

        時間性:患者的就診、發(fā)病過程在時間上有一個進(jìn)度變化,醫(yī)療檢測的波形、圖像數(shù)據(jù)等都具有一定的時序性?;颊叩慕】禒顩r不是一成不變的,而是始終處于動態(tài)變化中,這也就意味著其敏感屬性的對應(yīng)值在隨時間變化。

        (2)全生命周期的醫(yī)療大數(shù)據(jù)隱私保護(hù)

        對醫(yī)療大數(shù)據(jù)而言,從其采集、存儲、共享到分析的過程中,均涉及到多方用戶,每一個環(huán)節(jié)都存在嚴(yán)重的隱私泄漏憂患,需要采取相應(yīng)的技術(shù)手段來應(yīng)對。同時也有一部分隱私問題是始終貫穿于所有環(huán)節(jié)的,可以通過采取適當(dāng)?shù)墓芾泶胧﹣斫鉀Q。本文主要從醫(yī)療大數(shù)據(jù)生命周期的幾個環(huán)節(jié)分別闡述存在的隱私泄漏挑戰(zhàn)以及相應(yīng)的隱私保護(hù)技術(shù),最后從醫(yī)療大數(shù)據(jù)的管理層面提出一些合理的建議(圖2)。

        Fig.2 Full life cycle of big data in healthcare privacy-perserving model圖2 全生命周期醫(yī)療大數(shù)據(jù)隱私保護(hù)模型

        數(shù)據(jù)采集:數(shù)據(jù)采集是醫(yī)療健康大數(shù)據(jù)生命周期中的基礎(chǔ)環(huán)節(jié)。隨著信息技術(shù)發(fā)展,醫(yī)療健康滲透到人們生活中方方面面,醫(yī)療數(shù)據(jù)可能來自于醫(yī)療機(jī)構(gòu)的信息系統(tǒng)、可穿戴設(shè)備、網(wǎng)絡(luò)等。在數(shù)據(jù)采集階段,需要做的就是將各種不同來源的醫(yī)療健康大數(shù)據(jù)匯集在一起,為后續(xù)的存儲、共享以及分析奠定數(shù)據(jù)基礎(chǔ)。與典型的數(shù)據(jù)采集不同,醫(yī)療數(shù)據(jù)的采集中直接包含著患者提交的私人信息,即醫(yī)療數(shù)據(jù)具有高度的敏感性。由于醫(yī)療健康大數(shù)據(jù)極其敏感,如何在數(shù)據(jù)可用的情況下高效地隱藏可能泄漏用戶隱私的內(nèi)容,是目前亟待解決的問題。

        數(shù)據(jù)存儲:數(shù)據(jù)存儲階段關(guān)注的是大規(guī)模醫(yī)療健康數(shù)據(jù)的存儲管理中的隱私風(fēng)險。醫(yī)療健康大數(shù)據(jù)因其龐大的數(shù)據(jù)規(guī)模,在采集后需要在云平臺進(jìn)行存儲。存儲在云平臺的數(shù)據(jù),其存儲者和所有者是完全分離的,而云存儲服務(wù)提供商并不是完全可信的,因此,存儲在云平臺的醫(yī)療數(shù)據(jù)并不安全,面臨著被不可信的第三方偷窺或者篡改的風(fēng)險。

        數(shù)據(jù)共享:存儲在不同醫(yī)療機(jī)構(gòu)的數(shù)據(jù)通過數(shù)據(jù)共享,才能達(dá)到效益最大化,但在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)共享帶來便利的同時,給患者也帶了風(fēng)險。當(dāng)患者的數(shù)據(jù)存儲在云平臺上,患者并不知道誰訪問了共享賬戶中的數(shù)據(jù),因此有很高的數(shù)據(jù)泄漏風(fēng)險,并且數(shù)據(jù)泄漏后無法追蹤,對于隱私保護(hù)而言是一個較大的挑戰(zhàn)。

        數(shù)據(jù)分析:醫(yī)療大數(shù)據(jù)只有通過分析才能更好地推動疾病診斷、藥物研發(fā)等醫(yī)療領(lǐng)域的發(fā)展,也能更好地為患者提供服務(wù)。即使經(jīng)過了匿名化、加密等處理,醫(yī)療數(shù)據(jù)在一系列聚類、關(guān)聯(lián)等數(shù)據(jù)分析之后,患者的敏感信息仍然有可能會暴露出來。隱私安全不僅需要防止原始數(shù)據(jù)中的敏感信息泄漏,也需要考慮到數(shù)據(jù)挖掘與分析預(yù)測的結(jié)果。

        1 醫(yī)療數(shù)據(jù)采集中的隱私保護(hù)技術(shù)

        數(shù)據(jù)采集是數(shù)據(jù)生命周期中最基礎(chǔ)的步驟,醫(yī)療健康大數(shù)據(jù)的采集為科研和機(jī)構(gòu)間的合作提供了便利,但同時也給數(shù)據(jù)隱私帶來了潛在的威脅。

        在此階段存在的風(fēng)險是基于數(shù)據(jù)集成融合的鏈接攻擊或其他更復(fù)雜的基于知識背景的攻擊。患者的診療數(shù)據(jù)、藥品或醫(yī)療器械的購買記錄、互聯(lián)網(wǎng)上的相關(guān)社交信息等醫(yī)療數(shù)據(jù)能夠服務(wù)于數(shù)據(jù)分析,同時也一定程度地反映出用戶的行為活動。如果攻擊者從網(wǎng)絡(luò)傳輸中攔截這些數(shù)據(jù),并綜合利用其他外部信息,從而能夠推斷出個體身份,這給保護(hù)患者隱私帶來了嚴(yán)重的挑戰(zhàn)[3]。

        傳統(tǒng)的醫(yī)療數(shù)據(jù)隱私保護(hù)主要采用匿名技術(shù),最根本的思想是隱藏數(shù)據(jù)與個體之間的聯(lián)系,但簡單的刪除數(shù)據(jù)中的個體屬性極易通過鏈接攻擊來破解[4]。應(yīng)對這一攻擊手段,k-anonymity[5]被提出,其理念是讓數(shù)據(jù)中的準(zhǔn)標(biāo)識符(不可辨認(rèn)的屬性可對應(yīng)多個個體,例如,出生日期和郵政編碼)可以匹配至少k個個體,這意味著一個特定的信息不能區(qū)別其他k-1 個人信息數(shù)據(jù)集。為了抵抗基于k-anonymity的同質(zhì)性攻擊和背景知識攻擊,l-diversity 模型[6]被提出,它在k-anonymity的基礎(chǔ)上,要求每個敏感屬性至少包含l個表現(xiàn)良好的值。t-closeness[7]是l-diversity模型的進(jìn)一步細(xì)化,l-diversity 模型通過減少數(shù)據(jù)表示的粒度來保護(hù)隱私,通過考慮屬性值的分布來區(qū)別對待不同的屬性值,這是一種為了獲得一些隱私而導(dǎo)致數(shù)據(jù)挖掘有效性損失的權(quán)衡。

        但是,現(xiàn)有的匿名技術(shù)有一個普遍的缺陷——過分依賴攻擊者的背景知識假設(shè),并且對其隱私保護(hù)水平無法提供嚴(yán)格有效的證明。差分隱私引入醫(yī)療領(lǐng)域有效地解決了匿名技術(shù)存在的這些問題。應(yīng)用差分隱私保護(hù)模型時就不必考慮攻擊者已經(jīng)獲取的背景知識,其次,差分隱私提供了嚴(yán)格的數(shù)學(xué)定義和度量隱私泄漏的方法,這個特點使得能夠比較使用不同參數(shù)進(jìn)行處理的數(shù)據(jù)集的可用性程度[4]。

        1.1 匿名技術(shù)

        數(shù)據(jù)匿名性在一定程度上為數(shù)據(jù)的隱私性提供了保障,在典型的匿名保護(hù)方法k-anonymity、l-diversity、t-closeness模型的基礎(chǔ)上,一些更適用于醫(yī)療大數(shù)據(jù)的匿名技術(shù)被提出。

        針對數(shù)據(jù)規(guī)模大的問題,Song 等人提出隨機(jī)k匿名方法[8]。由于尋找匿名等價的過程非常耗時,因此采用兩步聚類的方法將原始數(shù)據(jù)集劃分為等價類。首先將原始數(shù)據(jù)集分成幾個不同的子數(shù)據(jù)集,然后在子數(shù)據(jù)集中形成等價類,從而大大降低了尋找匿名等價類的計算代價,并且匿名數(shù)據(jù)集的信息損失小得多,數(shù)據(jù)的可用性得到了更好的保障。

        收集的醫(yī)療健康數(shù)據(jù)通常具有多種不同類型的敏感屬性,因此,在操作高維度數(shù)據(jù)時,這些不同類型的敏感屬性之間的關(guān)聯(lián)與混合同樣值得重視。在這種情況下,(a,k)-匿名隱私保護(hù)方法將更加有效[9]。Li 等人以(a,k)-anonymity 模型作為數(shù)據(jù)采集的隱私保護(hù)方案,提出了一種新的基于匿名的醫(yī)療保健服務(wù)的數(shù)據(jù)采集方法[10],采用客戶端-服務(wù)器-用戶模型進(jìn)行分析。在客戶端,利用(a,k)-anonymity的概念來生成匿名元組以抵抗可能的攻擊,并采用自下而上的聚類方法來創(chuàng)建滿足基本匿名隱私級別的聚類。在服務(wù)器端,通過泛化技術(shù)降低通信成本,通過基于upgmaa 的聚類組合方法壓縮匿名數(shù)據(jù),使數(shù)據(jù)滿足更深層次的隱私級別。

        由于醫(yī)療大數(shù)據(jù)具有不完整性,為了避免這一特點帶來的信息可用性的降低,裴孟麗在l-diversity的基礎(chǔ)上提出了匿名算法DAIMDL(data anonymity for incomplete medical data based onl-diversity)[11]。DAIMDL 算法在聚類基礎(chǔ)上對數(shù)據(jù)記錄進(jìn)行分組,優(yōu)化分組后,對劃分好的各數(shù)據(jù)組進(jìn)行泛化。聚類階段,基于信息熵的距離計算進(jìn)行聚類,保證簇內(nèi)信息距離最小,簇間信息距離最大;泛化階段,對劃分好的各數(shù)據(jù)組進(jìn)行泛化,最后得到每個分組內(nèi)準(zhǔn)標(biāo)識符屬性取值相同的各等價類。病人信息經(jīng)過DAIMDL算法處理可避免數(shù)據(jù)表中不完整數(shù)據(jù)記錄的丟棄,減少醫(yī)療數(shù)據(jù)的信息損失。同時對醫(yī)療數(shù)據(jù)中的敏感屬性進(jìn)行多樣化分布,各等價類分組中不同敏感屬性值不少于l種,得到的醫(yī)療數(shù)據(jù)集滿足l-diversity匿名模型的要求[6]。

        考慮到醫(yī)療大數(shù)據(jù)的持續(xù)更新特性,數(shù)據(jù)在不斷更新、插入和刪除,繼續(xù)沿用靜態(tài)匿名技術(shù),則無疑會產(chǎn)生新的隱私泄漏的可能。常見的隱私保護(hù)模型有基于l-diversity多樣性的針對增量數(shù)據(jù)集的安全匿名方法,但是它只能解決數(shù)據(jù)的插入操作。文獻(xiàn)[12]提出了m-invariance 方法,可以針對數(shù)據(jù)的插入和刪除進(jìn)行動態(tài)發(fā)布,通過滿足m-invariance 相關(guān)規(guī)則以外,加入了偽元組的概念,最大程度保護(hù)了隱私。同時在數(shù)據(jù)發(fā)布時,還發(fā)布了一張輔助表,用來記錄插入偽元組的統(tǒng)計信息。Shi等人進(jìn)一步考慮到目標(biāo)具體的準(zhǔn)標(biāo)識屬性和敏感屬性都會變化的情況(例如疾病痊愈或惡化、身體指標(biāo)改變等),提出了一種動態(tài)更新方案[13]。該方案應(yīng)用拉普拉斯噪聲機(jī)制對結(jié)果集的敏感屬性進(jìn)行保護(hù),并將準(zhǔn)標(biāo)識屬性和敏感屬性分別保存,根據(jù)它們的權(quán)限給接收方不同的結(jié)果,找到一個既能保證信息的可用性,又能實現(xiàn)隱私保護(hù)的最佳集群。

        匿名技術(shù)較好地防止了患者的敏感數(shù)據(jù)泄漏,同時保證了數(shù)據(jù)的真實性,在實際應(yīng)用中受到廣泛關(guān)注,但其中還存在改進(jìn)的空間。隱私性和可用性間的平衡問題,目前的研究主要集中于減少信息損失,如何找到一個合理的平衡點是需要進(jìn)一步深入研究的問題。目前采用的匿名化方法多為貪婪式算法,執(zhí)行效率并不高,因此需要研究高效的匿名化算法以應(yīng)對日益劇增的超大容量數(shù)據(jù)的發(fā)布問題。度量和評價標(biāo)準(zhǔn)問題目前還沒有統(tǒng)一的匿名化技術(shù)度量和評價標(biāo)準(zhǔn),因此需要致力于該項研究,給匿名化技術(shù)一種更為客觀合理的評價。此外,如何高效實現(xiàn)個性化匿名,如何根據(jù)實際應(yīng)用快速準(zhǔn)確地選擇數(shù)據(jù)表的準(zhǔn)標(biāo)識符,如何解決分布式環(huán)境下多數(shù)據(jù)表的匿名化等都是值得深人思考和研究的問題。

        1.2 差分隱私技術(shù)

        差分隱私[14]較匿名化的隱私模型而言,可成功抵御大部分隱私攻擊并能提供可證明的隱私保證。它在最大化醫(yī)療數(shù)據(jù)可用性的同時,還保證患者隱私的泄漏在預(yù)期控制范圍內(nèi)。差分隱私技術(shù)在數(shù)據(jù)集中添加的噪聲量由查詢函數(shù)的敏感度決定,與數(shù)據(jù)集的大小無關(guān)。對于規(guī)模龐大的醫(yī)療數(shù)據(jù),如果能夠?qū)⒉樵兒瘮?shù)的敏感度控制在較低的范圍內(nèi),就可以通過添加少量的噪聲來達(dá)到隱私保護(hù)的目的,極大程度上保護(hù)了醫(yī)療數(shù)據(jù)可用性。這使差分隱私成為了一種十分有前景的醫(yī)療數(shù)據(jù)隱私保護(hù)模型。

        差分隱私技術(shù)旨在保護(hù)數(shù)據(jù)隱私的條件下,同時也確保數(shù)據(jù)查詢的精確性。Li 等人[15]首先開發(fā)了一種啟發(fā)式分層查詢方法,然后提出了一種用于差分隱私的私有分區(qū)算法,以減少計算開銷和查詢錯誤。差分隱私在醫(yī)療領(lǐng)域的研究多集中于電子健康記錄和基因數(shù)據(jù)[16-17]。在文獻(xiàn)[16]中,作者首先對數(shù)據(jù)進(jìn)行加密,然后使用差分噪聲機(jī)制對其進(jìn)行干擾,從而保護(hù)了基因組和分布的臨床數(shù)據(jù)的隱私。此外,他們還致力于整合生物學(xué)和床邊(i2b2)框架的信息學(xué),并在降低網(wǎng)絡(luò)開銷的同時增強(qiáng)了其隱私性。同樣,作者在文獻(xiàn)[17]中也采用了傳統(tǒng)的差分隱私保護(hù)方法和雙向解密方法來保護(hù)基因組數(shù)據(jù)不被任何攻擊者攻擊。作者提高了i2b2框架在電子基因組數(shù)據(jù)記錄中的保密性和執(zhí)行時間。此外,作者在文獻(xiàn)[18]中開發(fā)了一種不同的私有聚合策略,該策略聚合了健康設(shè)備數(shù)據(jù),也為其用戶提供了及時的激勵。該策略結(jié)合了差分隱私、Boneh-Goh-Nissim加密系統(tǒng)和Shamir秘密共享,提高了用戶的安全性和隱私性。該模型采用Java的JPBC庫開發(fā),保證了計算量的降低。

        針對醫(yī)療健康大數(shù)據(jù)的差分隱私應(yīng)用研究還存在不少發(fā)展空間。隨著技術(shù)發(fā)展和使用需求,人體傳感器或可穿戴設(shè)備的尺寸越來越小。因此,需要輕量級和復(fù)雜性更低的差分隱私算法來適應(yīng)這種設(shè)備。差分隱私在醫(yī)療健康大數(shù)據(jù)生命周期中多個環(huán)節(jié)都能起到不可小覷的作用,對醫(yī)療系統(tǒng)來說是一個至關(guān)重要的解決方案。

        2 醫(yī)療大數(shù)據(jù)存儲中的隱私保護(hù)技術(shù)

        醫(yī)療大數(shù)據(jù)因其規(guī)模巨大且增長迅速,而主要依托云平臺進(jìn)行存儲[19]。但是云服務(wù)提供者并不完全可信,進(jìn)而使與患者密切相關(guān)的醫(yī)療健康數(shù)據(jù)面臨著被不可信的第三方偷窺甚至篡改的風(fēng)險。為了應(yīng)對以上安全問題,主要使用加密存儲技術(shù)以保證數(shù)據(jù)即使被偷窺也不泄漏其中蘊(yùn)含的信息,使用審計技術(shù)來驗證數(shù)據(jù)完整性,以確保數(shù)據(jù)不被篡改。

        2.1 保護(hù)機(jī)密性的加密存儲技術(shù)

        為了保護(hù)數(shù)據(jù)的機(jī)密性,必須使用適當(dāng)?shù)募用芊桨浮J褂脗鹘y(tǒng)的對稱加密方法對醫(yī)療健康大數(shù)據(jù)進(jìn)行加密,雖然在加解密速度上有所保證,但因為醫(yī)療大數(shù)據(jù)存儲系統(tǒng)面對著大量用戶,也導(dǎo)致了傳統(tǒng)的對稱加密算法的密鑰分發(fā)過程過于復(fù)雜,所以對稱加密并不適用于對醫(yī)療健康大數(shù)據(jù)進(jìn)行加密。非對稱加密方法,其密鑰相較易于管理,但對于不斷增長的醫(yī)療健康大數(shù)據(jù)而言,計算開銷過大,也同樣不適用。數(shù)據(jù)加密為數(shù)據(jù)中的隱私帶來了保障的同時,也為用戶和云平臺帶來了不小的計算開銷,在一定程度上限制了加密數(shù)據(jù)的使用以及共享,從而可能導(dǎo)致數(shù)據(jù)中隱藏價值的浪費(fèi)。因此,適用于醫(yī)療健康大數(shù)據(jù)和云平臺特點的加密方法現(xiàn)已成為存儲隱私保護(hù)的一個重要研究內(nèi)容。

        Narayan等人[20]將公鑰和私鑰結(jié)合使用設(shè)計出基于屬性的加密(attribute-based encryption,ABE)方案。密鑰由具有訪問權(quán)限的第三方管理。該技術(shù)通過PEKS(public-key encryption with keyword search)加密算法允許安全的關(guān)鍵字搜索。數(shù)據(jù)使用高效的對稱密鑰加密技術(shù)進(jìn)行加密,并使用基于屬性的加密使對稱密鑰可被授權(quán)用戶訪問。私鑰通過安全鏈接(如SSL)與用戶通信,從而防止竊聽者了解有關(guān)私鑰的任何信息。

        為了減小計算復(fù)雜度并更好地滿足用戶的個性化需求,Choe 等人[21]提出對患者數(shù)據(jù)進(jìn)行選擇性加密,以減少計算負(fù)擔(dān),僅對患者選擇的項目應(yīng)用加密。同時也提出了一些適當(dāng)?shù)拿荑€管理所需的特性:患者和醫(yī)生所持有的密鑰數(shù)量不應(yīng)很大;密鑰存儲簡單,消耗空間復(fù)雜度低;密鑰的更新在時間復(fù)雜度上要方便高效;密鑰中不應(yīng)包含任何一方的私人信息;當(dāng)密鑰過期或用戶離開組時,應(yīng)該跟蹤并撤銷所有的密鑰。

        Yang等人提出了一種基于癥狀匹配的跨域動態(tài)匿名認(rèn)證組密鑰管理系統(tǒng)(cross-domain dynamic anonymous authenticated group key management with symptom-matching for e-health social system,CD-AGKMS),克服了移動設(shè)備效率不高、計算量大的局限性[22]。該技術(shù)改善了來自不同醫(yī)療領(lǐng)域的患者無法相互驗證身份并建立安全討論組的情形,支持建立基于癥狀匹配的群組。對電子健康系統(tǒng)而言,建立癥狀相同的患者群聊,共享疾病相關(guān)信息具有重要意義。該技術(shù)實現(xiàn)了基于癥狀匹配的患者匿名身份驗證:為了建立安全的組密鑰,所有參與的患者必須進(jìn)行匿名身份驗證?;颊叩恼鎸嵣矸莶粫孤┙o組內(nèi)的其他患者,所有的患者都被證實有相同的癥狀。一個重要的特征是在認(rèn)證過程中不會顯示癥狀的明文信息。該技術(shù)還能夠進(jìn)行動態(tài)患者和組管理:系統(tǒng)提供了時間控制的患者撤銷機(jī)制。根據(jù)估計的治療時間,為每個患者分配一個有效的時間段,該時間段隱式嵌入到患者的部分秘密密鑰中。當(dāng)有效時間過期時,用戶的密鑰將被撤銷。此外,組密鑰管理系統(tǒng)允許患者動態(tài)加入或離開組。當(dāng)成員關(guān)系更改以保護(hù)新的組會話時,將生成新的組會話密鑰。這一方案不需要沉重的雙線性配對計算,與其他現(xiàn)有的群組密鑰協(xié)商(group key agreement,GKA)方案相比更具有效性和安全性。

        為了更高效更安全地對加密數(shù)據(jù)進(jìn)行搜索,使用可搜索對稱加密(searchable symmetric encryption,SSE)[23],強(qiáng)制對外包加密的數(shù)據(jù)進(jìn)行關(guān)鍵字搜索,避免了解密過程,從而在不增加數(shù)據(jù)泄漏的風(fēng)險的基礎(chǔ)上提高了查詢效率。SSE 的中心思想是部署一個隱藏的索引表作為元數(shù)據(jù),促進(jìn)對加密數(shù)據(jù)的搜索[24]。數(shù)據(jù)所有者需要基于預(yù)處理的消息-關(guān)鍵字對創(chuàng)建索引表。要執(zhí)行搜索,用戶將提供一個搜索令牌,服務(wù)器將使用該令牌通過索引進(jìn)行搜索。如果找到匹配,則將匹配的加密數(shù)據(jù)返回給用戶。

        當(dāng)客戶機(jī)希望在所有連接的數(shù)據(jù)庫上執(zhí)行全局查詢時,進(jìn)一步的挑戰(zhàn)將是如何有效地同時在所有獨立管理的數(shù)據(jù)庫上執(zhí)行查詢并獲得聚合的查詢結(jié)果。這一問題在現(xiàn)有的算法中未得到有效解決。一種可能的解決方案是讓分布在網(wǎng)絡(luò)中的部分集中服務(wù)器收集和聚合并行計算的查詢,并將聚合的結(jié)果返回給查詢者。但是,可能需要在這些服務(wù)器上小心地部署強(qiáng)大的安全和恢復(fù)機(jī)制,以保護(hù)它們免受拒絕服務(wù)攻擊。此外,不同醫(yī)療數(shù)據(jù)在敏感性上的區(qū)分對于隱私控制也是至關(guān)重要的。一種簡單的方法是根據(jù)敏感性將記錄分割成多個部分,并使用不同的密鑰對每個部分進(jìn)行加密,然而,細(xì)粒度的分割會使密鑰管理任務(wù)復(fù)雜化。

        2.2 保護(hù)完整性的審計技術(shù)

        醫(yī)療數(shù)據(jù)存儲在云服務(wù)器中,盡管基于云的系統(tǒng)提供了一些好處,但它也存在一些安全問題。一旦數(shù)據(jù)被外包,缺乏控制,或者更準(zhǔn)確地說,缺乏數(shù)據(jù)的所有權(quán)會危及數(shù)據(jù)的完整性。有很多原因會使外包數(shù)據(jù)的完整性面臨風(fēng)險。云服務(wù),就像任何其他Web 服務(wù)一樣,必須處理可能損害客戶端關(guān)鍵數(shù)據(jù)的軟件和硬件故障。在完整性設(shè)計過程中(圖3),CSP(cryptographic service provider)可能會有意地選擇覆蓋任何數(shù)據(jù)錯誤,以用于否認(rèn)它們。為了節(jié)省存儲空間,CSP可能傾向于使用離線方法存儲一些很少訪問的數(shù)據(jù),甚至可能刪除這些數(shù)據(jù)。這些原因?qū)е略朴脩艚?jīng)常使用一種有效的方式對外包數(shù)據(jù)執(zhí)行數(shù)據(jù)完整性審計。

        Fig.3 Basic process of integrity audit圖3 完整性審計基本流程

        在訪問時檢查數(shù)據(jù)完整性是確保數(shù)據(jù)擁有的常見方法,但考慮到存儲在云上的數(shù)據(jù)量,在訪問時檢查數(shù)據(jù)完整性難以實現(xiàn)。此外,讓云提供商或數(shù)據(jù)所有者審計數(shù)據(jù)完整性是不恰當(dāng)?shù)?,因為無法保證中立的審計。在這些復(fù)雜的、大量的醫(yī)療數(shù)據(jù)存儲系統(tǒng)中,數(shù)據(jù)可能會不時地翻新,為靜態(tài)數(shù)據(jù)檔案設(shè)計的數(shù)據(jù)審計協(xié)議不適合在目前的情況下使用。在這個場景中,需要專門的審計服務(wù)定期審計云中的數(shù)據(jù)完整性。近年來,在不需要訪問整個數(shù)據(jù)的情況下,通過遠(yuǎn)程服務(wù)器檢測數(shù)據(jù)的完整性引起了研究者的廣泛關(guān)注。

        Table 1 Comparison of partial audit protocol performance表1 部分審計協(xié)議性能對比

        Gope等人認(rèn)為患者對于自己的信息應(yīng)該擁有掌控權(quán),主張審計日志應(yīng)該被患者訪問和理解[34]。每個患者都應(yīng)該有權(quán)利監(jiān)控自己的審計數(shù)據(jù),并明確誰訪問了自己的信息,訪問了哪些信息,訪問持續(xù)了多長時間,訪問的目的是什么?;颊邞?yīng)該擁有記錄創(chuàng)建、記錄如何使用的具體實例、記錄更新并最終刪除全過程的相關(guān)信息。

        然而,審計跟蹤只是一種治標(biāo)不治本的措施,因為在采取應(yīng)對措施之前,數(shù)據(jù)的完整性可能已經(jīng)遭到破壞。但許多系統(tǒng)依賴日志數(shù)據(jù)的審計作為一種安全機(jī)制,當(dāng)涉及較為嚴(yán)重的問題,如權(quán)限濫用、非法訪問嘗試和患者健康數(shù)據(jù)的不恰當(dāng)披露時,審計跟蹤可以作為證據(jù)?,F(xiàn)有的完整性審計技術(shù)中,獲得用戶授權(quán)的第三方審計者才能向云服務(wù)提供商發(fā)起完整性審計挑戰(zhàn),在一定程度上提高了系統(tǒng)的安全性。但針對不同的云類型(如,公有云、私有云、混合云)下的需求,應(yīng)提出更有效的驗證策略。驗證效率的進(jìn)一步優(yōu)化也是未來的一個研究方向,更高效實時的動態(tài)完整性驗證方案將為醫(yī)療云提供更好的管理服務(wù)。

        3 醫(yī)療大數(shù)據(jù)共享中的隱私保護(hù)技術(shù)

        每個用戶的醫(yī)療數(shù)據(jù)可能存儲在不同醫(yī)院的系統(tǒng)中,也可能保存在使用的智能手機(jī)中,而在醫(yī)療大數(shù)據(jù)背景下,這些蘊(yùn)含巨大價值的數(shù)據(jù)必然走向共享、開放。比如,分級診療、遠(yuǎn)程醫(yī)療、健康管理等新業(yè)態(tài)的產(chǎn)生,必然驅(qū)動數(shù)據(jù)的有序流動、合理利用和安全分享。

        目前已有醫(yī)療數(shù)據(jù)共享平臺成功搭建,如美國的NHIN(National Health Information Network)[35],不同的醫(yī)療機(jī)構(gòu)將患者的檢查結(jié)果、診療記錄以及藥物使用情況等醫(yī)療健康數(shù)據(jù)通過這個平臺進(jìn)行共享。數(shù)據(jù)共享帶來便利的同時,也不可避免地給患者的隱私帶來了安全隱患。

        針對這些問題,近年來提出了一些基于訪問控制的技術(shù),對這些風(fēng)險進(jìn)行了有效的防控。訪問控制技術(shù)主要通過給不同的用戶分配不同的資源訪問權(quán)限來確保數(shù)據(jù)僅被某些有權(quán)限的特定用戶訪問。

        訪問控制技術(shù)主要使用兩種身份驗證:用戶身份驗證和數(shù)據(jù)身份驗證。用戶身份驗證可以定義為用戶證明其真實性的方式,例如最常見的用戶名或帶有相關(guān)密碼的身份(ID)驗證機(jī)制[36]。用于確保數(shù)據(jù)源起源的過程是數(shù)據(jù)身份驗證,最常用的數(shù)據(jù)認(rèn)證方法是數(shù)字簽名方案。

        內(nèi)部和外部攻擊者都可以很容易地訪問存儲在云服務(wù)器中的數(shù)據(jù),并發(fā)起潛在的攻擊。應(yīng)對這一問題,Shamir 和Tauman 開發(fā)了一種稱為hashi-signswitch 的新范式,它可以將任何簽名方案轉(zhuǎn)換為更有效的在線/離線簽名方案[36]。Chen 等人解決了上述設(shè)計中的關(guān)鍵數(shù)據(jù)暴露問題[37]。但是他們方案中trapdoor 哈希函數(shù)的散列密鑰(hash key)是受公鑰證書保護(hù)的公鑰的一部分,不能應(yīng)用于ABS(attributebased signature)系統(tǒng),因為簽名者是匿名的,他們的公鑰是與屬性相關(guān)的公共參數(shù)。因此,在線/離線ABS的通用設(shè)計仍然是一個開放的問題。

        Liu等人為電子健康系統(tǒng)設(shè)計了一個高效、安全的匿名數(shù)據(jù)認(rèn)證機(jī)制[38]。該機(jī)制使用一種應(yīng)用離散對數(shù)的哈希函數(shù)來設(shè)計OOABS(online/offline attributebased signature)的通用方法。該設(shè)計不僅可以保護(hù)簽名者的隱私,保證簽名者的匿名性,而且可以防止攻擊者偽造簽名。在該系統(tǒng)中,患者可以在移動設(shè)備上對數(shù)據(jù)進(jìn)行簽名,醫(yī)生和用戶在不知道簽名者的任何屬性或身份信息的情況下,對簽名者的簽名完整性和真實性進(jìn)行驗證。

        《睡美人》中主人公江口先后五次來到這家秘密客棧,每一次來看似有不同的快活的體驗,實則他每一次都在使自己經(jīng)歷一次死亡,在《睡美人》中描述的是老人對性的一種渴望,其實也可以看作是對死亡的一種恐懼,而川端在這部作品中主要突出了“死”之無常、“死”之恐懼與“死”之悲美這三種死亡主題。

        Zhang 和Liu 提倡在醫(yī)療云中使用匿名數(shù)字證書[39]。通過群簽名的簽名方案,允許一組成員匿名簽署電子病歷。當(dāng)參與某個病人會診的醫(yī)生對其下一步的治療得出醫(yī)學(xué)結(jié)論時,他們會使用適當(dāng)?shù)暮灻惴ê炇鹣鄳?yīng)電子病歷的醫(yī)學(xué)證明。證書將與相應(yīng)的電子病歷一起單獨發(fā)送給病人。患者可以通過使用該醫(yī)療證書和執(zhí)業(yè)者的數(shù)字簽名來驗證咨詢結(jié)果的真實性。考慮到尊重執(zhí)業(yè)醫(yī)生的隱私,病人不需要知道簽名的執(zhí)業(yè)醫(yī)生群體,如果在以后出現(xiàn)爭議,也可以打開簽名以顯示簽署咨詢結(jié)果的從業(yè)者的身份。同樣需要重視的是通信的安全性,目前用于保護(hù)在公共網(wǎng)絡(luò)中傳輸?shù)男畔⒌募夹g(shù)已經(jīng)得到了很好的開發(fā)和部署,如安全套接字層(secure sockets layer,SSL)、傳輸層安全(transport layer security,TLS)、Internet協(xié)議安全(Internet protocol security,IPSec)等。

        針對無線醫(yī)療傳感網(wǎng)絡(luò)(wireless medical sensor networks,WMSN)中的安全問題,Kumar等人提出了一種身份驗證協(xié)議來監(jiān)測患者的健康狀況,并指出該協(xié)議可以抵御已知的安全威脅[40]。但是,He 等人在文獻(xiàn)[41]中提出的工作說明了該協(xié)議[40]對于一些安全威脅的抵御是很弱的。He等人還提出了一種增強(qiáng)的協(xié)議,以提高對已知攻擊的效率和魯棒性。Li等人進(jìn)一步證明了文獻(xiàn)[41]協(xié)議無法檢測錯誤輸入,即在登錄階段和密碼更改階段錯誤輸入。Li 等人[42]和Wu等人[43]分別提出使用改進(jìn)的智能卡和基于哈希函數(shù)的用戶認(rèn)證協(xié)議來消除文獻(xiàn)[41]協(xié)議中的漏洞,提供了一個遠(yuǎn)程監(jiān)控病人健康狀況的平臺。在現(xiàn)有的認(rèn)證協(xié)議中,研究人員將用戶匿名性、用戶不可跟蹤性、相互認(rèn)證、對不同攻擊的攻擊彈性、傳感器節(jié)點的能量消耗等作為適合醫(yī)療技術(shù)應(yīng)用的認(rèn)證協(xié)議的關(guān)鍵因素。Amin 等人[44]在WMSN 中設(shè)計了一個更健壯、更人性化的患者監(jiān)護(hù)系統(tǒng)。提出了一種降低了傳感器節(jié)點的能耗的健康監(jiān)測系統(tǒng)體系結(jié)構(gòu),基于哈希函數(shù)的互認(rèn)證和會話密鑰協(xié)商協(xié)議,為醫(yī)療專業(yè)人員提供了用戶匿名性。經(jīng)過一系列驗證,該協(xié)議在OFMC(on-the-fly model-checker)和CLAtSe(constraint-logic-based attack searcher)模型中對主動攻擊和被動攻擊都是安全的,比同類現(xiàn)有協(xié)議具有更強(qiáng)的魯棒性和安全性。

        近年來,人們提出了一些適用于遠(yuǎn)程醫(yī)療信息系統(tǒng)的基于智能卡的密碼認(rèn)證(雙因素認(rèn)證)方案。Xiong 等人[45]使用Chaudhry 等人的方案作為案例研究,證明了遠(yuǎn)程醫(yī)療信息系統(tǒng)中雙因素認(rèn)證方案對離線字典攻擊是不安全的,并且被盜或丟失的智能卡無法撤銷。在此基礎(chǔ)上,Xiong提出了一種改進(jìn)的雙因素匿名認(rèn)證方案。利用隨機(jī)oracle模型和Burrows Abadi Needham邏輯給出了該方案的安全性分析。

        大數(shù)據(jù)環(huán)境以及無線移動網(wǎng)絡(luò)環(huán)境為醫(yī)療大數(shù)據(jù)的訪問控制帶來了諸多挑戰(zhàn)。隨著計算能力的進(jìn)一步提升,訪問控制的效率得到快速提升。同時,巨大的數(shù)據(jù)量用于身份驗證,從而可以實現(xiàn)更加精準(zhǔn)、更加個性化的訪問控制。目前針對醫(yī)療大數(shù)據(jù)的訪問控制研究還在進(jìn)一步深入,更加尊重用戶意愿的細(xì)粒度權(quán)限分配將會成為重點研究方向。

        4 醫(yī)療大數(shù)據(jù)分析中的隱私保護(hù)技術(shù)

        醫(yī)療數(shù)據(jù)的積累、電子病歷的推廣為機(jī)器學(xué)習(xí)應(yīng)用于醫(yī)療領(lǐng)域奠定了良好的數(shù)據(jù)基礎(chǔ)。醫(yī)療大數(shù)據(jù)只有經(jīng)過分析處理,才能將其中對于疾病的診斷、治療和醫(yī)學(xué)研究方面有價值的知識和規(guī)則挖掘出來。但是,有些數(shù)據(jù)表面上并無聯(lián)系,而通過數(shù)據(jù)挖掘技術(shù),一些敏感的信息就可能被挖掘出來:獨立出現(xiàn)時并不涉及到個人隱私的數(shù)據(jù),可能通過和個人信息的匹配后,足以分析出個人敏感信息。

        對醫(yī)療數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,一些原本無法被識別的信息和模式可能會暴露出來并泄漏給不可信的第三方。因此需要在保護(hù)隱私前提下對數(shù)據(jù)進(jìn)行分析處理,限制對大數(shù)據(jù)中敏感知識的挖掘。雖然醫(yī)療大數(shù)據(jù)經(jīng)過了一系列清洗操作,使病人的相關(guān)隱私無法從數(shù)據(jù)集中直接得到,但對大量匯集的信息進(jìn)行挖掘后,一些敏感信息可能會通過挖掘的結(jié)果泄漏。因此,將機(jī)器學(xué)習(xí)運(yùn)用于醫(yī)療領(lǐng)域的過程中如何進(jìn)行隱私保護(hù)是醫(yī)療健康大數(shù)據(jù)分析方面值得研究的問題。

        (1)機(jī)密計算

        機(jī)密計算強(qiáng)調(diào)在機(jī)器學(xué)習(xí)的訓(xùn)練過程中對數(shù)據(jù)進(jìn)行傳輸以及計算的機(jī)密性,為數(shù)據(jù)提供隱私保護(hù)。當(dāng)前實現(xiàn)機(jī)密計算的方法有可信執(zhí)行環(huán)境、同態(tài)加密和多方安全計算。

        可信執(zhí)行環(huán)境以硬件安全為強(qiáng)制保障,在計算芯片上獨立出一塊絕對安全區(qū)域,用以保障運(yùn)行的數(shù)據(jù)和代碼(圖4)?;诳尚艌?zhí)行環(huán)境——因特爾的SGX(software guard extensions)技術(shù),一種罕見病基因數(shù)據(jù)分析系統(tǒng)PRINCESS(privacy-protecting rare disease international network collaboration via encryption through software guard extensions)被提出[46],在加密數(shù)據(jù)上執(zhí)行安全的分布式計算,并針對川崎病進(jìn)行了基于家庭的等位基因關(guān)聯(lián)研究,PRINCESS算法比同態(tài)加密和亂碼電路等替代方案能夠更快地提供安全和準(zhǔn)確的分析。Chen等人還提出了基于SGX技術(shù)的基因數(shù)據(jù)分析框架PRESAGE(privacy-preserving genetic testing via software guard extension)[47],以及新穎的安全的基因親緣關(guān)系分析方法PREMIX(privacypreserving estimation of individual admixture)[48],但是基于硬件安全的SGX會遭受到特定算法的旁路攻擊[49]。

        Fig.4 Trusted executive environment圖4 可信執(zhí)行環(huán)境

        同態(tài)加密,可以在不提供密鑰的情況下對密文進(jìn)行機(jī)密的計算,只有使用密鑰才能將其解密成明文。在對基因數(shù)據(jù)進(jìn)行分析時,考慮到其敏感性,通常應(yīng)用同態(tài)加密技術(shù)。例如,基于基因數(shù)據(jù)的罕見病研究框架HEALER(homomorphic computation of exact logistic regression)[50],在保護(hù)人類基因組數(shù)據(jù)的基礎(chǔ)上,分析小樣本量的罕見變異體。在一般基因數(shù)據(jù)分析[51]中,基因組數(shù)據(jù)所有者只提供加密的序列,公共商業(yè)云可以執(zhí)行序列分析而無需解密,結(jié)果只能由數(shù)據(jù)所有者或持有解密密鑰的指定代表解密。在全基因組關(guān)聯(lián)分析計劃中[52],所有基因型和表型數(shù)據(jù)都進(jìn)行完全同態(tài)加密,允許云對加密的數(shù)據(jù)執(zhí)行有意義的計算。但同態(tài)加密的實際應(yīng)用受限于巨大的計算開銷,現(xiàn)在的技術(shù)大約只能擴(kuò)展到Mnist和Cifar數(shù)據(jù)集的推斷部分[53]。

        多方安全計算是參與方以各自隱私數(shù)據(jù)為輸入共同計算一個函數(shù)值,各參與方無法獲得其他人的隱私數(shù)據(jù),只能獲得計算結(jié)果。由于無需依賴可信任的第三方,安全多方計算技術(shù)被廣泛應(yīng)用于生物醫(yī)療數(shù)據(jù)研究中。例如,多機(jī)構(gòu)醫(yī)療健康記錄匹配算法[54]以及全基因組關(guān)聯(lián)分析算法[55]等。但在實際應(yīng)用中,節(jié)點之間的通信量不容小覷,如何減小這一通信開銷,也是當(dāng)下的一個研究熱點[56]。

        (2)模型隱私

        訓(xùn)練后的模型也可能會造成訓(xùn)練數(shù)據(jù)的隱私泄漏。因為機(jī)器學(xué)習(xí)的模型都會記住自己的訓(xùn)練數(shù)據(jù),從而導(dǎo)致發(fā)布模型會有訓(xùn)練數(shù)據(jù)隱私泄漏的風(fēng)險。

        而差分隱私可以衡量和控制模型對訓(xùn)練數(shù)據(jù)的泄漏,刻畫出單個數(shù)據(jù)樣本對模型的影響。差分隱私技術(shù)與機(jī)器學(xué)習(xí)算法結(jié)合,可確保健康數(shù)據(jù)的完全隱私(如表2)。

        2019 年提出的高斯差分隱私[61]在計算復(fù)合和采樣兩種操作的隱私損失都給出了一個緊估計,在隱私損失的統(tǒng)計上都更加精準(zhǔn),從而在相同隱私預(yù)算下的噪音更小,取得的性能更好。

        另一個模型隱私的研究熱點是模型遺忘(machine unlearning),即如何讓個人控制他們的數(shù)據(jù)何時可以使用,何時不能使用,也就是“被遺忘權(quán)”[62]。實現(xiàn)模型遺忘的最直接方法是在數(shù)據(jù)集中刪除指定的數(shù)據(jù)后重新訓(xùn)練,但重新訓(xùn)練的計算開銷非常高,因此需要探索的是如何耗費(fèi)盡可能少的計算開銷實現(xiàn)模型遺忘。一種方法是在需要刪除數(shù)據(jù)時對已經(jīng)訓(xùn)練好的模型作進(jìn)一步處理,使其與重新訓(xùn)練的模型在統(tǒng)計意義上近似不可區(qū)分[63-64];而另一種方法是設(shè)計新的訓(xùn)練方法,降低重新訓(xùn)練的代價,例如在最初訓(xùn)練的時候就將數(shù)據(jù)分塊,每塊數(shù)據(jù)單獨訓(xùn)練出子模型,然后匯總子模型的結(jié)果,當(dāng)需要刪除數(shù)據(jù)時只需要重新訓(xùn)練一個子模型,這樣就能在一定程度上減少訓(xùn)練成本[65-66]。

        (3)聯(lián)邦學(xué)習(xí)

        聯(lián)邦學(xué)習(xí)本質(zhì)上是一種分布式學(xué)習(xí)框架。多個醫(yī)療機(jī)構(gòu)的數(shù)據(jù)集中整合訓(xùn)練往往能取得比使用一家機(jī)構(gòu)數(shù)據(jù)單獨訓(xùn)練的效果好,但是每個醫(yī)療機(jī)構(gòu)都希望自己的數(shù)據(jù)是安全的,對數(shù)據(jù)集中整合往往帶來復(fù)雜的隱私和數(shù)據(jù)安全等問題。而通過聯(lián)邦學(xué)習(xí),數(shù)據(jù)擁有者在不用直接提供數(shù)據(jù)的情況下,也可得到訓(xùn)練模型,并且模型的訓(xùn)練效果也能得到保證,與數(shù)據(jù)整合之后的訓(xùn)練效果相差無幾。聯(lián)邦學(xué)習(xí)技術(shù)通過參數(shù)交換方式對醫(yī)療健康數(shù)據(jù)進(jìn)行了有效的隱私保護(hù),數(shù)據(jù)和模型保留在本地,本身不會進(jìn)行傳輸,因此在數(shù)據(jù)層面不存在泄漏的可能。

        Kim 等人在保證各醫(yī)院的數(shù)據(jù)不離開本地的情況下,將多家醫(yī)院的數(shù)據(jù)聯(lián)合分析出特定患者人群的表型[67]。從研究結(jié)果可知,單獨使用一家醫(yī)院的數(shù)據(jù)與聯(lián)合利用兩家醫(yī)院的數(shù)據(jù)分析得出的結(jié)果差異較大,而使用聯(lián)邦學(xué)習(xí)的方式,在數(shù)據(jù)不出醫(yī)院的情況下,在準(zhǔn)確性和表型發(fā)現(xiàn)方面與集中式訓(xùn)練模型相似,同時又尊重隱私。

        Brisimi 等人提出了一種聯(lián)邦優(yōu)化方案cPDS(cluster primal dual splitting)[68],可用于求解支持向量機(jī)問題。他們使用了波士頓醫(yī)療中心的心臟記錄電子數(shù)據(jù)集,利用cPDS來區(qū)分在目標(biāo)年內(nèi)患者是否可能住院,并取得了較好的結(jié)果。cPDS框架是通用的,它的優(yōu)點在于可伸縮性,以及避免了數(shù)據(jù)交換,這在醫(yī)療領(lǐng)域是非常重要的。

        NVIDIA 團(tuán)隊在BraTS 數(shù)據(jù)集上應(yīng)用并評估了用于腦腫瘤分割的聯(lián)邦學(xué)習(xí)系統(tǒng)[69]。這是第一個用于醫(yī)學(xué)圖像分析的隱私保護(hù)聯(lián)邦學(xué)習(xí)系統(tǒng),并且探討了在聯(lián)邦學(xué)習(xí)系統(tǒng)中應(yīng)用差分隱私技術(shù)來保護(hù)病人數(shù)據(jù)的可行性。雖然聯(lián)邦學(xué)習(xí)可以保證極高的隱私安全性,但通過模型反演,仍可以設(shè)法使數(shù)據(jù)重現(xiàn)。為了進(jìn)一步提高聯(lián)盟學(xué)習(xí)的安全性,研究人員研究了使用ε-差分隱私框架的可行性。這個框架是一種正式定義隱私損失的方法,可以借助其強(qiáng)大的隱私保障性來保護(hù)患者與機(jī)構(gòu)數(shù)據(jù)。

        Table 2 Combination of differential privacy technology and machine learning algorithm表2 差分隱私技術(shù)與機(jī)器學(xué)習(xí)算法結(jié)合的場景

        聯(lián)邦學(xué)習(xí)的主要優(yōu)點是數(shù)據(jù)可以保留在其所有者手中,同時仍然能夠?qū)Σ煌姓叩臄?shù)據(jù)進(jìn)行訓(xùn)練。聯(lián)邦拓?fù)涫庆`活的或完全分散的,不需要持續(xù)的在線可用性,因為培訓(xùn)可以離線進(jìn)行,結(jié)果可以稍后返回。因此,在醫(yī)療領(lǐng)域,聯(lián)邦學(xué)習(xí)方法無疑已成為使用最廣泛的下一代隱私保護(hù)技術(shù)。然而,聯(lián)邦學(xué)習(xí)在具體實現(xiàn)中計算和通信開銷較大,也是當(dāng)下亟待解決的問題。

        5 展望

        如何在保證對醫(yī)療大數(shù)據(jù)的較高利用率,挖據(jù)數(shù)據(jù)價值的同時,切實保護(hù)用戶隱私,是目前醫(yī)療研究領(lǐng)域的關(guān)鍵問題。本文首先介紹了醫(yī)療健康大數(shù)據(jù)的復(fù)雜來源,以及其區(qū)別于一般大數(shù)據(jù)的特殊性質(zhì)。然后從醫(yī)療大數(shù)據(jù)生命周期出發(fā)介紹了每個環(huán)節(jié)中存在的隱私保護(hù)問題,并對隱私保護(hù)的技術(shù)進(jìn)行了分類闡述,簡要探討了各種技術(shù)的可取性以及局限性,探索了醫(yī)療大數(shù)據(jù)隱私數(shù)據(jù)保護(hù)技術(shù)進(jìn)一步發(fā)展的方向??傮w而言,在醫(yī)療大數(shù)據(jù)領(lǐng)域,更多的文獻(xiàn)提出了相關(guān)問題和建議,而真正將技術(shù)應(yīng)用到實踐中的較少,隱私保護(hù)的細(xì)粒度、個性化需求也越來越迫切,將成為今后研究的重點內(nèi)容。

        在醫(yī)療健康大數(shù)據(jù)的生命周期中,采用隱私保護(hù)技術(shù)能夠在一定程度上防止隱私的泄漏。但是如果沒有科學(xué)合理的管理措施,仍會面臨人工操作不當(dāng)、惡意的內(nèi)部人員、基礎(chǔ)設(shè)施被破壞、相關(guān)法律法規(guī)不明確等技術(shù)方面難以控制的問題。

        (1)建立隱私安全規(guī)范與管理標(biāo)準(zhǔn),完善法律法規(guī)

        在醫(yī)療健康大數(shù)據(jù)的全生命周期中,離不開工作人員的操作管理,例如醫(yī)療部門的醫(yī)生,能夠直接接觸到患者的私人信息以及檢測結(jié)果,這些不僅暴露了患者的身體情況,還透露其家庭住址、生活習(xí)慣等信息。為了防止患者敏感信息被惡意使用和泄漏,應(yīng)該制定嚴(yán)格的管理標(biāo)準(zhǔn),對各個環(huán)節(jié)中涉及的工作人員進(jìn)行隱私安全規(guī)范培訓(xùn),并切實落實到其操作管理之中。

        (2)完善醫(yī)療健康大數(shù)據(jù)隱私保護(hù)法律法規(guī)

        法律具有強(qiáng)制性,是保障患者隱私,減少數(shù)據(jù)泄漏的有力武器。政府應(yīng)加快針對醫(yī)療健康大數(shù)據(jù)隱私保護(hù)的立法工作,并進(jìn)一步完善保護(hù)制度,對惡意竊取數(shù)據(jù)的行為加大打擊力度。此外,考慮到醫(yī)療健康大數(shù)據(jù)的傳輸是全球范圍內(nèi)的,建立并完善一套關(guān)于醫(yī)療健康大數(shù)據(jù)保護(hù)的國際標(biāo)準(zhǔn)法律也十分重要。

        (3)基礎(chǔ)設(shè)施實時監(jiān)管

        醫(yī)療健康大數(shù)據(jù)的隱私安全也依賴于生命周期中各個基礎(chǔ)設(shè)施的安全,例如存儲了醫(yī)療數(shù)據(jù)的云平臺,一旦損壞或被惡意攻擊,數(shù)據(jù)可能會丟失、篡改。在醫(yī)療健康大數(shù)據(jù)的全生命周期中,涉及到多種基礎(chǔ)設(shè)施,每一個環(huán)節(jié)的隱私安全都不容小覷,需要進(jìn)行實時監(jiān)管保護(hù),在第一時間應(yīng)對突發(fā)狀況。

        猜你喜歡
        密鑰加密醫(yī)療
        探索企業(yè)創(chuàng)新密鑰
        密碼系統(tǒng)中密鑰的狀態(tài)與保護(hù)*
        一種基于熵的混沌加密小波變換水印算法
        一種對稱密鑰的密鑰管理方法及系統(tǒng)
        基于ECC的智能家居密鑰管理機(jī)制的實現(xiàn)
        京張醫(yī)療聯(lián)合的成功之路
        我們怎樣理解醫(yī)療創(chuàng)新
        認(rèn)證加密的研究進(jìn)展
        醫(yī)療扶貧至關(guān)重要
        基于ECC加密的電子商務(wù)系統(tǒng)
        久久夜色精品国产亚洲噜噜| 色avav色av爱avav亚洲色拍| 少妇饥渴xxhd麻豆xxhd骆驼 | 中文字幕无码av波多野吉衣| 国产999精品久久久久久| 偷拍网日本一区二区三区| 亚洲国产女同在线观看| 国产精品美女一区二区视频| 国产精品人妻一码二码尿失禁| 日韩丝袜亚洲国产欧美一区| 日本在线观看一区二区视频| 亚洲精品国产精品乱码视色| 色欲人妻综合网| 久久婷婷色香五月综合激情| 中文字幕中文字幕三区| 日韩夜夜高潮夜夜爽无码| 欧美mv日韩mv国产网站| 亚洲国产福利成人一区二区 | 久久国产成人午夜av影院| 精品久久人妻一区二区| 国产精品国产三级国产av剧情| 囯产精品一品二区三区| 无码人妻丝袜在线视频| 久草中文在线这里只有精品| 3d动漫精品啪啪一区二区免费| 肉体裸交丰满丰满少妇在线观看 | 中文字幕中文字幕人妻黑丝| 精品国产av一区二区三区四区 | 国产欧美va欧美va香蕉在线| 色八a级在线观看| 午夜国产精品久久久久| 久久精品亚洲94久久精品| 毛片无码国产| 美女裸体无遮挡免费视频的网站| 亚洲一区亚洲二区中文字幕| 久久天堂av综合合色| 欧美极品少妇性运交| 毛片av中文字幕一区二区| 久久精品一区午夜视频| 成人白浆超碰人人人人| 无码伊人66久久大杳蕉网站谷歌|