李 暉 西安電子科技大學(xué)網(wǎng)絡(luò)與信息安全學(xué)院執(zhí)行院長
移動互聯(lián)網(wǎng)、云計算和大數(shù)據(jù)等技術(shù)的快速發(fā)展,催生了眾多新的服務(wù)模式和應(yīng)用,這些服務(wù)和應(yīng)用一方面為用戶提供精準(zhǔn)化、個性化的服務(wù),給人們的生活帶來了極大便利,另一方面又采集了大量用戶的相關(guān)信息,而所采集信息中往往含有大量包括病史、收入、身份、興趣及位置等在內(nèi)的敏感信息,對這些信息的收集、共享、發(fā)布、分析與利用等操作會直接或間接地泄露用戶隱私,給用戶帶來極大的威脅和困擾。因此,個人隱私保護已成為人們廣泛關(guān)注的焦點。
隱私信息是大數(shù)據(jù)的重要組成部分,隱私保護關(guān)乎個人、企業(yè)乃至國家利益。2016年4月歐盟通過了《通用數(shù)據(jù)保護條例》(GDPR)并于2018年5月25日正式在歐盟境內(nèi)生效實施。GDPR定義了7類個人敏感數(shù)據(jù),明確規(guī)定了數(shù)據(jù)主體對服務(wù)提供方收集個人敏感數(shù)據(jù)以及處理這些數(shù)據(jù)的方式具有知情權(quán),可以要求服務(wù)方刪除個人敏感數(shù)據(jù)(即被遺忘權(quán))。我國于2016年11月頒布了《中華人民共和國網(wǎng)絡(luò)安全法》,并于2017年6月1日正式實施,其中對個人信息保護做出了明確規(guī)定。各國重視數(shù)據(jù)安全和隱私保護立法的另一面,是互聯(lián)網(wǎng)環(huán)境下隱私保護理論與技術(shù)研究的嚴(yán)重滯后。
針對隱私保護問題,學(xué)術(shù)界開展了大量的研究工作,并在社交網(wǎng)絡(luò)、位置服務(wù)、云計算、大數(shù)據(jù)、智能醫(yī)療、智能電網(wǎng)、智能交通等方面提出了諸多具體的隱私保護方案。目前已有的各類隱私保護方案大多針對單一場景,隱私缺乏定量化的定義,隱私保護的效果、隱私泄露的利益損失以及隱私保護方案融合的復(fù)雜性三者之間的關(guān)系刻畫缺乏系統(tǒng)的計算模型,使隱私信息在不同系統(tǒng)、不同用戶間共享、交換和分析過程中難以被準(zhǔn)確刻畫和量化,阻礙各類計算和信息服務(wù)系統(tǒng)對隱私進行統(tǒng)一評價。
針對這一問題,李鳳華、李暉等人2016年在通信學(xué)報上發(fā)表的論文《隱私計算研究范疇及發(fā)展趨勢》提出隱私計算的概念,對隱私計算的內(nèi)涵加以界定,從隱私信息的全生命周期討論隱私計算研究范疇,對互聯(lián)網(wǎng)環(huán)境下隱私保護的關(guān)鍵理論與技術(shù)給出了體系化的發(fā)展路徑建議。
隱私是指個體的敏感信息。含有隱私的信息會在網(wǎng)絡(luò)中傳播、在各類信息服務(wù)系統(tǒng)中存儲、處理(編輯、融合、發(fā)布和轉(zhuǎn)發(fā))。隱私信息的全生命周期如圖1所示。
圖1 隱私信息的全生命周期
隱私計算是面向隱私信息全生命周期保護的計算理論和方法,具體是指在處理視頻、音頻、圖像、圖形、文字、數(shù)值、泛在網(wǎng)絡(luò)行為信息流等信息時,對所涉及的隱私信息進行描述、度量、評價和融合等操作,形成一套符號化、公式化且具有量化評價標(biāo)準(zhǔn)的隱私計算理論、算法及應(yīng)用技術(shù),支持多系統(tǒng)融合的隱私信息保護。
隱私計算涵蓋了信息所有者、搜集者、發(fā)布者和使用者在信息采集、存儲、處理、發(fā)布(含交換)、銷毀等全生命周期過程的所有計算操作,是隱私信息的所有權(quán)、管理權(quán)和使用權(quán)分離時隱私描述、度量、保護、效果評估、延伸控制、隱私泄漏收益損失比、隱私分析復(fù)雜性等方面的可計算模型與公理化系統(tǒng)。
從包含隱私的信息中構(gòu)建隱私變量集合,從變量集合中確定變量的取值或取值范圍,對隱私進行標(biāo)記和編碼,確定隱私變量的概率分布,從而對隱私變量中隱私度量的大小進行計算,為實施隱私保護提供支撐。針對互聯(lián)網(wǎng)環(huán)境下信息敏感性隨時間、場景、載體類型/內(nèi)容、主觀感知等因素動態(tài)變化的特點,可基于信息熵的概念,從主體、客體、場景、操作等維度對蘊含于海量數(shù)據(jù)中的隱私數(shù)據(jù)進行分析和量化,提出融合主觀感知能力的多維度隱私動態(tài)度量方法,形成隱私數(shù)據(jù)分類定級標(biāo)準(zhǔn),解決互聯(lián)網(wǎng)環(huán)境下數(shù)據(jù)隱私的精準(zhǔn)度量問題,使隱私計算模型可以具備對主體、時間、空間三維演化的刻畫能力。
根據(jù)隱私感知得到隱私信息保護效果需求選用相應(yīng)隱私保護方法。主流的隱私保護方法可分為數(shù)據(jù)無失真的隱私保護方法和數(shù)據(jù)有失真隱私保護方法,如表1所示。
表1 隱私保護方法
數(shù)據(jù)無失真的隱私保護方法主要基于密碼學(xué)方法,包括同態(tài)密碼方案和安全多方計算。同態(tài)加密允許用戶直接對密文進行特定的運算,將其解密所得到的結(jié)果與對明文進行同樣的運算結(jié)果一樣。2009年Gentry構(gòu)造出了第一個全同態(tài)加密方案,經(jīng)過近10年的改進,現(xiàn)有的全同態(tài)加密方案計算復(fù)雜度仍然很高,無法應(yīng)用到實際系統(tǒng)中,所以目前主要的方法是針對具體的處理需求采用效率相對較高的部分同態(tài)方法設(shè)計密文計算方案,以支持?jǐn)?shù)據(jù)匿名化統(tǒng)計、數(shù)據(jù)關(guān)聯(lián)分析、多功能密文檢索等隱私保護的數(shù)據(jù)處理。
數(shù)據(jù)有失真的隱私保護方法主要是數(shù)據(jù)匿名和數(shù)據(jù)擾動。數(shù)據(jù)匿名包括去除不同隱私數(shù)據(jù)間的關(guān)聯(lián)性、數(shù)據(jù)泛化等,如k-匿名,l-多樣性,t-鄰近性等方法,使得攻擊者無法獲得個人的具體數(shù)據(jù)。這類方法的主要問題是不能抵抗背景知識關(guān)聯(lián)分析。差分隱私技術(shù)(Differential Privacy)主要應(yīng)用在對數(shù)據(jù)集作統(tǒng)計量的時候保護用戶隱私,通過統(tǒng)計學(xué)的方法來模擬一個效果,使得從數(shù)據(jù)集中去掉(或替換)任何一個個體的數(shù)據(jù)之后,得到同樣的統(tǒng)計結(jié)果的概率和不去掉(或不替換)該個體記錄時候得出的結(jié)果在很高概率上是一樣的。差分隱私的具體實現(xiàn)方式是對數(shù)據(jù)集統(tǒng)計量輸出疊加一個適當(dāng)?shù)脑肼?。?shù)據(jù)有失真的隱私保護核心問題是達到數(shù)據(jù)可用性和隱私保護效果的最佳折中。
在隱私數(shù)據(jù)的融合處理環(huán)節(jié)中,由于不同系統(tǒng)在隱私界定、度量方法、隱私保護需求等方面都存在差異,而且隨著時間場景的變更,人們對隱私認(rèn)知也在不斷的變化,此外,隱私信息可能被進行二次轉(zhuǎn)發(fā)、局部處理、隱私分割、延伸授權(quán)等,因此需設(shè)計一套協(xié)議和封裝描述方法,可根據(jù)不同的隱私屬性、場景、隱私信息等級來自適應(yīng)地選擇不同的隱私保護措施,充分發(fā)揮現(xiàn)有隱私保護技術(shù)的各自優(yōu)勢。
在不再需要隱私信息,或隱私信息所有者希望終止隱私信息傳播時,需要將隱私數(shù)據(jù)永遠不可逆刪除或銷毀,GDPR賦予用戶“被遺忘權(quán)”。從技術(shù)角度而言,實現(xiàn)這一權(quán)力需要研究可信刪除,或稱為確定性刪除技術(shù),以確保隱私信息的所有者、管理者和使用者都不可再恢復(fù)該信息。同時確保隱私保護的信息不能被隱私分析提取,并建立一套體系或機制,可通知關(guān)聯(lián)系統(tǒng),一旦數(shù)據(jù)被銷毀,釋放相應(yīng)的存儲空間。在當(dāng)前泛在網(wǎng)絡(luò)空間環(huán)境中,隱私信息的銷毀難度非常大。
當(dāng)前大型互聯(lián)網(wǎng)服務(wù)機構(gòu)所控制的數(shù)據(jù)跨系統(tǒng)、跨境、跨生態(tài)圈流轉(zhuǎn),數(shù)據(jù)海量、數(shù)據(jù)類型與應(yīng)用場景多樣,需要在適應(yīng)多媒體多場景的隱私信息度量方法、隱私度量動態(tài)調(diào)整機制及隱私度量與約束規(guī)則/策略自動映射等三個方面開展研究,解決巨數(shù)據(jù)集下的隱私信息的動態(tài)度量核心問題,以支撐開放環(huán)境下場景自適應(yīng)的隱私按需控制。
針對不同類型數(shù)據(jù)和隱私保護需求的隱私保護操作,需研究高效隱私保護原語的基礎(chǔ)理論。在基于加密的隱私保護原語方面,重點在于全同態(tài)加密方法、部分同態(tài)加密算法、密文搜索、密文統(tǒng)計等密文計算理論。數(shù)據(jù)有失真的隱私保護原語方面,重點將在于差分隱私模型各種改進,以及信息論等新的理論方法的引入。
隱私保護算法的效能評估重點是要建立一套科學(xué)合理的量化體系,在這一量化體系指導(dǎo)下,對數(shù)據(jù)無失真和有失真的隱私保護原語以及原語的組合提出各對應(yīng)指標(biāo)的量化評估方法,包括隱私保護效果、數(shù)據(jù)可用性、算法復(fù)雜度等,以期為隱私保護方案的設(shè)計、比較和改進提供科學(xué)的評價依據(jù)。
研究隱私計算語言的語法體系,包括語句定義、編程接口、隱私保護原語的融合等,為復(fù)雜隱私保護方案的實現(xiàn)提供方便快捷、硬件和操作系統(tǒng)等平臺無關(guān)編程工具,以支撐隱私保護機制在復(fù)雜互聯(lián)信息系統(tǒng)中的實施部署。
隱私計算意圖建立全生命周期的隱私保護理論體系,通過推動隱私計算的聚焦研究所取得的成果,將有力支撐大型互聯(lián)網(wǎng)信息系統(tǒng)隱私保護的具體實現(xiàn),指導(dǎo)大型信息系統(tǒng)隱私保護系統(tǒng)的開發(fā),為隱私保護標(biāo)準(zhǔn)制訂提供支撐,為評測機構(gòu)提供理論支撐,為網(wǎng)絡(luò)安全法個人信息保護的落地實施提供技術(shù)手段。