346
生物醫(yī)療大數(shù)據(jù)是現(xiàn)代生物醫(yī)療研究的重要基礎(chǔ)性資源。在生物醫(yī)學(xué)信息學(xué)研究過(guò)程中,可利用生物醫(yī)療數(shù)據(jù)越來(lái)越多,如電子病歷數(shù)據(jù)、基因數(shù)據(jù)、圖像數(shù)據(jù)等。生物醫(yī)療大數(shù)據(jù)的種類多、體量大(如個(gè)人全基因組測(cè)序在幾百GB)、數(shù)據(jù)頻率高(如實(shí)時(shí)的移動(dòng)醫(yī)療數(shù)據(jù)),包含大量的個(gè)人敏感信息。隨著生物醫(yī)療數(shù)據(jù)的重要性越來(lái)越被認(rèn)可,其數(shù)據(jù)本身的一些特性(數(shù)據(jù)隱私和安全)也為隨之而來(lái)的廣泛醫(yī)療數(shù)據(jù)應(yīng)用帶來(lái)了一定的挑戰(zhàn)。生物醫(yī)療數(shù)據(jù)包含大量敏感的個(gè)人信息,如何合理保護(hù)這些敏感信息,規(guī)避不必要的隱私泄露風(fēng)險(xiǎn)已成為廣泛推行生物醫(yī)療數(shù)據(jù)分享和聯(lián)合分析及多元醫(yī)療數(shù)據(jù)融合中的關(guān)鍵問(wèn)題。
隨著大數(shù)據(jù)挖掘和人工智能在生物醫(yī)療領(lǐng)域的不斷滲透和發(fā)展,以及生物醫(yī)療科學(xué)研究的不斷深入,生物醫(yī)療數(shù)據(jù)分享和分析的需求日益增強(qiáng),隨之衍生而來(lái)的醫(yī)療數(shù)據(jù)隱私和安全問(wèn)題也就更加突出。其中最大的挑戰(zhàn)之一是生物醫(yī)療數(shù)據(jù)使用過(guò)程中涉及個(gè)人敏感信息的泄露風(fēng)險(xiǎn)和保護(hù)的問(wèn)題。例如通過(guò)比較男性的Y染色體和公開(kāi)的基因族譜數(shù)據(jù)庫(kù)恢復(fù)個(gè)體的姓氏[1],通過(guò)幾十個(gè)統(tǒng)計(jì)學(xué)上獨(dú)立的基因位點(diǎn)(SNPs)就可以很大程度上唯一確定一個(gè)個(gè)體[2],以及通過(guò)基因數(shù)據(jù)預(yù)測(cè)個(gè)體的體征信息(如聲音、眼鏡、膚色、身高、體重和年齡等)[3]。另外,基于生物醫(yī)療數(shù)據(jù)的各項(xiàng)科學(xué)研究通常需要大量樣本,單一機(jī)構(gòu)的數(shù)據(jù)量很難滿足這樣的需求(特別是在罕見(jiàn)病的研究中)。然而跨機(jī)構(gòu)的醫(yī)療數(shù)據(jù)共享面臨很多挑戰(zhàn),不同機(jī)構(gòu)所在的不同國(guó)家和地區(qū)可能有不同的隱私保護(hù)法律法規(guī)。此外,直接分享個(gè)人隱私數(shù)據(jù)可能造成數(shù)據(jù)的濫用和隱私的泄露。這使得各機(jī)構(gòu)并不能夠有效地在多中心合作的模式下直接和第三方分享自身數(shù)據(jù),造成醫(yī)療數(shù)據(jù)孤島問(wèn)題,影響醫(yī)療研究合作的開(kāi)展。
醫(yī)療數(shù)據(jù)隱私保護(hù)是指在醫(yī)療數(shù)據(jù)收集、儲(chǔ)存、傳播和使用過(guò)程中對(duì)數(shù)據(jù)主體敏感信息的保護(hù)。醫(yī)療數(shù)據(jù)隱私相關(guān)的研究涉及到公眾對(duì)個(gè)人隱私保護(hù)的需求和圍繞其間的法律、政策、技術(shù)等多方面的問(wèn)題[4]。數(shù)據(jù)隱私的保護(hù)重點(diǎn)在于使用數(shù)據(jù)的過(guò)程中對(duì)患者可識(shí)別信息和隱私偏好的保護(hù)[5-6]。
目前針對(duì)生物醫(yī)療數(shù)據(jù)中個(gè)人信息隱私保護(hù)的應(yīng)對(duì)策略主要分為立法規(guī)范和政策引導(dǎo)、對(duì)隱私保護(hù)技術(shù)的開(kāi)發(fā)和應(yīng)用兩種。世界上主要的國(guó)家和地區(qū)(中國(guó)、美國(guó)及歐盟等)一方面加強(qiáng)醫(yī)療數(shù)據(jù)隱私保護(hù)方面相關(guān)的法律建設(shè)和政策規(guī)范,另一方面也在積極鼓勵(lì)隱私保護(hù)技術(shù)的創(chuàng)新和應(yīng)用。法律法規(guī)的建立為技術(shù)的發(fā)展劃定了具體的標(biāo)準(zhǔn)和方向,同時(shí)技術(shù)的不斷發(fā)展和創(chuàng)新也引導(dǎo)了法律法規(guī)的進(jìn)一步完善。兩者相輔相成,缺一不可,是針對(duì)生物醫(yī)療數(shù)據(jù)隱私保護(hù)中各種問(wèn)題的主要應(yīng)對(duì)策略。
近年來(lái),全球很多國(guó)家和組織均對(duì)個(gè)人數(shù)據(jù)的隱私保護(hù)問(wèn)題進(jìn)行了專項(xiàng)立法(表1)。
各國(guó)通過(guò)立法強(qiáng)調(diào)了對(duì)個(gè)人敏感信息,尤其是在采集、傳播和研究生物醫(yī)療數(shù)據(jù)過(guò)程中的隱私保護(hù),并為管理個(gè)人信息的機(jī)構(gòu)(如醫(yī)院、保險(xiǎn)公司、大數(shù)據(jù)公司、運(yùn)營(yíng)商等)的數(shù)據(jù)運(yùn)營(yíng)建立了法律規(guī)范。
表1 全球部分地區(qū)對(duì)數(shù)據(jù)隱私保護(hù)的法律法規(guī)概述
針對(duì)大數(shù)據(jù)潮流下數(shù)據(jù)安全共享和隱私保護(hù)的巨大市場(chǎng)需求,多種多樣的隱私保護(hù)技術(shù)應(yīng)運(yùn)而生。隱私保護(hù)技術(shù)泛指一類保護(hù)數(shù)據(jù)隱私的數(shù)據(jù)處理和計(jì)算技術(shù)[16]。目前主流研究方向和技術(shù)包括但不限于數(shù)據(jù)脫敏/消隱[8]、同態(tài)加密[17]、安全多方計(jì)算[18]、置信計(jì)算環(huán)境以及聯(lián)盟計(jì)算[19-21]等。
電子病歷數(shù)據(jù)是生物醫(yī)療數(shù)據(jù)中最重要的組成部分,各種生物醫(yī)療研究中使用的電子病歷數(shù)據(jù)中包含著大量的個(gè)人敏感信息。因此,電子病歷匿名化(數(shù)據(jù)脫敏)是一種非常重要的隱私保護(hù)手段。數(shù)據(jù)脫敏中比較常用的標(biāo)準(zhǔn)是美國(guó)《醫(yī)療電子交換法案》(HIPAA)中提到的安全港(Safe Harbor)方法, 它規(guī)定了醫(yī)療數(shù)據(jù)在脫敏后需要剔除的18種可能用來(lái)識(shí)別個(gè)人的標(biāo)識(shí)符,用來(lái)指導(dǎo)數(shù)據(jù)脫敏標(biāo)準(zhǔn)的實(shí)施。通過(guò)HIPAA安全港方法對(duì)數(shù)據(jù)進(jìn)行脫敏后,提供方可在HIPAA管轄的范圍內(nèi)免責(zé)與第三方進(jìn)行數(shù)據(jù)的分享。然而研究表明[22-24],傳統(tǒng)的數(shù)據(jù)脫敏方法并不完美,即便是通過(guò)HIPAA安全港方式脫敏的數(shù)據(jù)依然存在泄露個(gè)人信息的風(fēng)險(xiǎn),如之前的研究發(fā)現(xiàn)大概每15 000人中就有2個(gè)人可以在HIPAA安全港方式脫敏后的數(shù)據(jù)中被識(shí)別出來(lái)[23]。此外,HIPAA 并沒(méi)有明確規(guī)定基因數(shù)據(jù)如何實(shí)現(xiàn)數(shù)據(jù)脫敏,所以基因數(shù)據(jù)脫敏的法律法規(guī)是滯后的。
除了上述的數(shù)據(jù)脫敏方法外,數(shù)據(jù)消隱也是另一種被廣泛采用的數(shù)據(jù)隱私保護(hù)技術(shù),如很多早期方法包括但不限于K-匿名[25]、L-多樣性[26]以及T-親密度[27]等。近來(lái),差分隱私作為一種更為流行的數(shù)據(jù)消隱技術(shù),被醫(yī)療領(lǐng)域廣泛采用,其優(yōu)勢(shì)在于不需假定特定攻擊者的背景知識(shí)并在數(shù)學(xué)上量化了隱私泄露的風(fēng)險(xiǎn)。差分隱私的數(shù)學(xué)定義如下[28]:
若隨機(jī)算法K對(duì)于任何一個(gè)輸出集合S和任意臨近集合D1,D2總有:
Pr[K(D1)∈S]≤exp(?)·Pr[K(D2)∈S]
則稱K滿足?差分隱私,其中Pr[] 表示概率,?為隱私預(yù)算,臨近集合指只相差一條記錄的一對(duì)數(shù)據(jù)集合。
實(shí)現(xiàn)差分隱私的數(shù)據(jù)分享,主要通過(guò)在計(jì)算過(guò)程或計(jì)算結(jié)果上加入不同類型的噪音,如拉普拉斯機(jī)制和指數(shù)機(jī)制是兩種常用的實(shí)現(xiàn)差分隱私方法[29]。大量生物醫(yī)療數(shù)據(jù)分析研究都使用差分隱私技術(shù)進(jìn)行數(shù)據(jù)保護(hù),如Johnson和Shmatikov發(fā)明了一種基于差分隱私的基因數(shù)據(jù)卡方檢驗(yàn)算法[30],將差分隱私技術(shù)應(yīng)用到了全基因組關(guān)聯(lián)分析等研究中[31]。
同態(tài)加密后的密文支持在加密后的數(shù)據(jù)上直接進(jìn)行加密的運(yùn)算得到相應(yīng)的加密結(jié)果,其解密的結(jié)果和對(duì)明文數(shù)據(jù)進(jìn)行同樣運(yùn)算的結(jié)果一致。2009年一項(xiàng)研究從數(shù)學(xué)上證明了全同態(tài)加密的可行性[32]。通過(guò)同態(tài)加密,用戶可將敏感數(shù)據(jù)加密后發(fā)布到不被信任的第三方(如公有云計(jì)算中心),進(jìn)行加密數(shù)據(jù)下的加密計(jì)算而不泄漏明文信息給第三方。同態(tài)加密分為3種:全同態(tài)加密(Fully homomorphic encryption),支持密文上任意次數(shù)的加法和乘法運(yùn)算操作;部分同態(tài)加密(Partial homomorphic encryption),僅支持密文上加法或乘法運(yùn)算中的一種;類同態(tài)加密(Somewhat homomorphic encryption),支持有限次數(shù)密文上的乘法計(jì)算[33]。
基因數(shù)據(jù)分析研究中大量應(yīng)用了同態(tài)加密技術(shù),如對(duì)罕見(jiàn)病的研究[17]、一般基因數(shù)據(jù)分析[34-36]以及全基因組關(guān)聯(lián)分析等[37]。
安全多方計(jì)算(Secure Multiparty Computation)最初是由圖靈獎(jiǎng)獲得者姚期智院士提出的,其主要目的是在保護(hù)各方數(shù)據(jù)隱私安全的前提下實(shí)現(xiàn)多中心數(shù)據(jù)和計(jì)算上的合作。根據(jù)計(jì)算參與方的數(shù)量不同,MPC分為安全兩方計(jì)算和安全多方計(jì)算,分別為混淆電路[38]、秘密分享[39]。MPC技術(shù)在生物醫(yī)療數(shù)據(jù)研究中被大量應(yīng)用,應(yīng)用中不依賴可信任的第三方,但其缺點(diǎn)在于節(jié)點(diǎn)之間的通信量很大,如多機(jī)構(gòu)醫(yī)療數(shù)據(jù)記錄匹配算法[40-41]以及全基因組關(guān)聯(lián)分析算法[42]等。
置信計(jì)算環(huán)境是指在計(jì)算芯片上的一塊被隔離的安全計(jì)算區(qū)域。該區(qū)域上運(yùn)行的數(shù)據(jù)和代碼能夠保證完整性和私密性(如英特爾SGX軟件防護(hù)擴(kuò)展),可有效防止底層操作系統(tǒng)或虛擬平臺(tái)被挾持后對(duì)數(shù)據(jù)和代碼的攻擊,從而可以在不授信的第三方進(jìn)行高性能的安全計(jì)算,并提供對(duì)不授信第三方安全計(jì)算環(huán)境的遠(yuǎn)程驗(yàn)證。但是SGX限于安全計(jì)算內(nèi)存大小(128MB)和特定算法的旁路攻擊(side channel attack)[43-44]。
基于英特爾SGX技術(shù),Chen Feng等人設(shè)計(jì)了一種分析罕見(jiàn)病基因數(shù)據(jù)的系統(tǒng)[19],提出了一種安全高效的基因數(shù)據(jù)分析框架[20],發(fā)明了一種安全的基因親緣關(guān)系分析方法[21]。
聯(lián)邦學(xué)習(xí)是一種分布式的機(jī)器學(xué)習(xí)技術(shù),可保證各個(gè)計(jì)算參與方原始數(shù)據(jù)不出本地的情況下,實(shí)現(xiàn)共同建模。根據(jù)數(shù)據(jù)的分布方式,聯(lián)邦學(xué)習(xí)可分為橫向聯(lián)邦學(xué)習(xí)(樣本聯(lián)合)及縱向聯(lián)邦學(xué)習(xí)(特征聯(lián)合)兩種方式。聯(lián)邦學(xué)習(xí)也可以通過(guò)和上述安全計(jì)算技術(shù)結(jié)合,用來(lái)保證模型參數(shù)在計(jì)算過(guò)程中的私密性,二者結(jié)合可實(shí)現(xiàn)不分享原始數(shù)據(jù)情況下的聯(lián)合更新模型。很多生物醫(yī)療數(shù)據(jù)分析算法使用了聯(lián)邦學(xué)習(xí)框架,如SHI Haoyi等發(fā)明了一種基于聯(lián)邦學(xué)習(xí)的邏輯回歸算法[18],JIANG Wenchao等設(shè)計(jì)了一種基于聯(lián)邦學(xué)習(xí)的網(wǎng)格邏輯回歸算法[45],WANG Shuang提出了一種基于聯(lián)邦學(xué)習(xí)的分布式期望分布邏輯回歸訓(xùn)練模型[46],LU Chia-Lun等人展示了一種基于聯(lián)邦學(xué)習(xí)的比例風(fēng)險(xiǎn)回歸模型算法[47]等。
生物醫(yī)療大數(shù)據(jù)的隱私保護(hù)是一個(gè)十分復(fù)雜的問(wèn)題,涉及多個(gè)利益相關(guān)方的妥協(xié)與合作,需要法律法規(guī)和技術(shù)手段的共同支持完成一個(gè)既定目標(biāo)。建立滿足各方權(quán)力和義務(wù)的法律法規(guī),研發(fā)符合法律法規(guī)的技術(shù)手段,并通過(guò)新的技術(shù)手段輔助決策者制定新的標(biāo)準(zhǔn)和規(guī)范。在復(fù)雜的醫(yī)療大數(shù)據(jù)應(yīng)用場(chǎng)景下,綜合運(yùn)用和調(diào)節(jié)不同的技術(shù)手段和法律規(guī)范是未來(lái)生物醫(yī)療數(shù)據(jù)隱私保護(hù)發(fā)展的基本方向。
中華醫(yī)學(xué)圖書(shū)情報(bào)雜志2019年11期