方濱興,賈焰,李愛平,江榮
1. 北京郵電大學(xué),北京 100876;2. 國防科學(xué)技術(shù)大學(xué)計算機學(xué)院,湖南 長沙 410073
大數(shù)據(jù)隱私保護技術(shù)綜述
方濱興1,2,賈焰2,李愛平2,江榮2
1. 北京郵電大學(xué),北京 100876;2. 國防科學(xué)技術(shù)大學(xué)計算機學(xué)院,湖南 長沙 410073
大數(shù)據(jù)分析帶來的隱私泄露問題日趨嚴重,如何在利用大數(shù)據(jù)為各行各業(yè)服務(wù)的同時,保護隱私數(shù)據(jù)和防止敏感信息泄露成為新的挑戰(zhàn)。大數(shù)據(jù)具有規(guī)模大、來源多、動態(tài)更新等特點,傳統(tǒng)的隱私保護技術(shù)大都已不再適用。為此,給出了大數(shù)據(jù)時代的隱私概念和生命周期保護模型;從大數(shù)據(jù)生命周期的發(fā)布、存儲、分析和使用4個階段出發(fā),對大數(shù)據(jù)隱私保護中的技術(shù)現(xiàn)狀進行了分類闡述,并對各技術(shù)的優(yōu)缺點、適用范圍等進行分析;對大數(shù)據(jù)隱私保護技術(shù)發(fā)展的方向和趨勢進行了闡述。
大數(shù)據(jù);隱私保護;數(shù)據(jù)發(fā)布;數(shù)據(jù)挖掘;數(shù)據(jù)訪問
隨著智慧城市、智慧交通、智能家居、智能電網(wǎng)、智慧醫(yī)療、在線社交網(wǎng)絡(luò)、Web 3.0等數(shù)字化技術(shù)的發(fā)展,人們的衣食住行、健康醫(yī)療等信息被數(shù)字化,可以隨時隨地通過海量的傳感器、智能處理設(shè)備等終端進行收集和使用,實現(xiàn)物與物、物與人、人與人等之間在任何時候、任何地點的有效連接,也促成了大數(shù)據(jù)時代的到來[1]。
大數(shù)據(jù)蘊含著巨大的商業(yè)價值,目前各行各業(yè)都在做大數(shù)據(jù)分析和挖掘,企業(yè)、運營商等在各自擁有的數(shù)據(jù)或互聯(lián)網(wǎng)上發(fā)布的數(shù)據(jù)中發(fā)掘潛在價值,為提高自己的利潤或達到其他目的服務(wù)。然而,在享受大數(shù)據(jù)挖掘得到的各種各樣有價值的信息給生產(chǎn)、生活帶來便利的同時,也不可避免地泄露了人們的隱私。例如,亞馬遜公司推出了“未下單先調(diào)貨”計劃,利用大數(shù)據(jù)分析技術(shù),基于對網(wǎng)購數(shù)據(jù)的關(guān)聯(lián)挖掘分析,在用戶尚未下單前預(yù)測其購物內(nèi)容,提前發(fā)出包裹至轉(zhuǎn)運中心,縮短配送時間,但如果處理不好,很可能會泄露大量用戶的隱私;醫(yī)院在給疾病控制中心等研究部門提供大數(shù)據(jù),進行疾病預(yù)防和決策時,如果不進行數(shù)據(jù)處理,則會泄露病人的隱私信息;上市公司在發(fā)布自己財務(wù)年報或其他新產(chǎn)品信息時,如果不對發(fā)布的數(shù)據(jù)進行適當(dāng)處理,就會給商業(yè)上的競爭者以可乘之機。
如何在不泄露用戶隱私的前提下,提高大數(shù)據(jù)的利用率,挖掘大數(shù)據(jù)的價值,是目前大數(shù)據(jù)研究領(lǐng)域的關(guān)鍵問題,將直接關(guān)系到大數(shù)據(jù)的民眾接受程度和進一步發(fā)展趨勢。具體而言,實施大數(shù)據(jù)環(huán)境下的隱私保護,需要在大數(shù)據(jù)產(chǎn)生的整個生命周期中考慮兩個方面:如何從大數(shù)據(jù)中分析挖掘出更多的價值;如何保證在大數(shù)據(jù)的分析使用過程中,用戶的隱私不被泄露。有時數(shù)據(jù)發(fā)布者惡意挖掘大數(shù)據(jù)中的隱私信息,此種情況下,更需要加強對數(shù)據(jù)發(fā)布時的隱私保護,以達到數(shù)據(jù)利用和隱私保護二者之間的折中。
本文的主要貢獻為:首先,給出了大數(shù)據(jù)隱私的概念及隱私保護的生命周期模型;然后,從大數(shù)據(jù)生命周期的4個階段(即數(shù)據(jù)的發(fā)布、存儲、分析和使用)出發(fā),對大數(shù)據(jù)隱私保護中的技術(shù)現(xiàn)狀和發(fā)展趨勢進行了分類闡述,并對該技術(shù)的優(yōu)缺點、適用范圍等進行分析;最后,對大數(shù)據(jù)隱私保護技術(shù)發(fā)展的方向和趨勢進行了闡述。
2.1 隱私的概念及量化
在維基百科中,隱私的定義是個人或團體將自己或自己的屬性隱藏起來的能力,從而可以選擇性地表達自己1https:// en.wikipedia.org/ wiki/Privacy。具體什么被界定為隱私,不同的文化或個體可能有不同的理解,但主體思想是一致的,即某些數(shù)據(jù)是某人(或團體)的隱私時,通常意味著這些數(shù)據(jù)對他們而言是特殊的或敏感的。綜上所述認為,隱私是可確認特定個人(或團體)身份或其特征,但個人(或團體)不愿被暴露的敏感信息。在具體應(yīng)用中,隱私即用戶不愿意泄露的敏感信息,包括用戶和用戶的敏感數(shù)據(jù)。
例如,病人的患病數(shù)據(jù)、個人的位置軌跡信息、公司的財務(wù)信息等敏感數(shù)據(jù)都屬于隱私。但當(dāng)針對不同的數(shù)據(jù)以及數(shù)據(jù)所有者時,隱私的定義也會存在差別[2]。例如,保守的病人會視疾病信息為隱私,而開放的病人卻不視之為隱私;小孩子的定位信息對于父母而言不是隱私,對于其他人而言卻是隱私;有些用戶的數(shù)據(jù)現(xiàn)在是隱私,可能幾十年后就不是隱私。從隱私的類型劃分,隱私可劃分為五大類。
● 財務(wù)隱私:與銀行和金融機構(gòu)相關(guān)的隱私。
● 互聯(lián)網(wǎng)隱私:使某用戶在互聯(lián)網(wǎng)上暴露該用戶自己的信息以及誰能訪問這些信息的能力。
● 醫(yī)療隱私:患者患病和治療信息的保護。
● 政治隱私:用戶在投票或投票表決時的保密權(quán)。
● 信息隱私:數(shù)據(jù)和信息的保護。
在隱私數(shù)據(jù)的整個生命周期中,都必須對隱私數(shù)據(jù)進行準確描述和量化,才能全面地保護隱私數(shù)據(jù)。隱私可簡單描述為:隱私=(信息本體+屬性)×?xí)r間×地點×使用對象。
可以看出,信息本體就是擁有隱私的用戶,隱私以信息本體和屬性為基礎(chǔ),包含時間、地點、來源和使用對象等多個因素。為了更好地管理隱私以及進行隱私計算,明確在何種情況下數(shù)據(jù)發(fā)布者、數(shù)據(jù)存儲方以及數(shù)據(jù)使用者對哪些隱私數(shù)據(jù)進行保護,需要對隱私數(shù)據(jù)進行量化。在隱私數(shù)據(jù)的量化過程中,需要綜合考慮用戶的屬性、行為、數(shù)據(jù)的屬性、傳播途徑、利用方式等因素,并對隱私數(shù)據(jù)的計算和變更有很好的支撐。
2.2 大數(shù)據(jù)生命周期的隱私保護模型
在大數(shù)據(jù)發(fā)布、存儲、挖掘和使用的整個生命周期過程中,涉及數(shù)據(jù)發(fā)布者、數(shù)據(jù)存儲方、數(shù)據(jù)挖掘者和數(shù)據(jù)使用者等多個數(shù)據(jù)的用戶,如圖1所示。在大數(shù)據(jù)生命周期的各個階段,大數(shù)據(jù)隱私保護模型各部分的風(fēng)險和技術(shù)如下所述。
圖1 大數(shù)據(jù)隱私保護生命周期模型
(1)數(shù)據(jù)發(fā)布
數(shù)據(jù)發(fā)布者即采集數(shù)據(jù)和發(fā)布數(shù)據(jù)的實體,包括政府部門、數(shù)據(jù)公司、網(wǎng)站或者用戶等。與傳統(tǒng)針對隱私保護進行的數(shù)據(jù)發(fā)布手段相比,大數(shù)據(jù)發(fā)布面臨的風(fēng)險是大數(shù)據(jù)的發(fā)布是動態(tài)的,且針對同一用戶的數(shù)據(jù)來源眾多,總量巨大,如何在數(shù)據(jù)發(fā)布時,保證用戶數(shù)據(jù)可用的情況下,高效、可靠地去掉可能泄露用戶隱私的內(nèi)容,是亟待解決的問題。傳統(tǒng)針對數(shù)據(jù)的匿名發(fā)布技術(shù),包括k-匿名、l-diversity匿名、t-closeness匿名、個性化匿名、m-invariance匿名、基于“角色構(gòu)成”的匿名等方法,可以實現(xiàn)對發(fā)布數(shù)據(jù)時的匿名保護。在大數(shù)據(jù)的環(huán)境下,如何對這些技術(shù)進行改進和發(fā)展,以滿足大數(shù)據(jù)發(fā)布的隱私保護需求,是需要著重研究的內(nèi)容。
(2)數(shù)據(jù)存儲
在大數(shù)據(jù)時代,數(shù)據(jù)存儲方一般為云存儲平臺,與傳統(tǒng)數(shù)據(jù)的擁有者自己存儲數(shù)據(jù)不同,大數(shù)據(jù)的存儲者和擁有者是分離的,云存儲服務(wù)提供商并不能保證是完全可信的。用戶的數(shù)據(jù)面臨著被不可信的第三方偷窺數(shù)據(jù)或者篡改數(shù)據(jù)的風(fēng)險。加密方法是解決該問題的傳統(tǒng)思路,但是,由于大數(shù)據(jù)的查詢、統(tǒng)計、分析和計算等操作也需要在云端進行,為傳統(tǒng)加密技術(shù)帶來了新的挑戰(zhàn)。比如,同態(tài)加密技術(shù)、混合加密技術(shù)、基于BLS短簽名POR模型、DPDP、Knox等方法,是針對數(shù)據(jù)存儲時防止隱私泄露而采取的一些方法。
(3)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘者即從發(fā)布的數(shù)據(jù)中挖掘知識的人或組織,他們往往希望從發(fā)布的數(shù)據(jù)中盡可能多地分析挖掘出有價值的信息,這很可能會分析出用戶的隱私信息。在大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)存在來源多樣性和動態(tài)性等特點,在經(jīng)過匿名等處理后的數(shù)據(jù),經(jīng)過大數(shù)據(jù)關(guān)聯(lián)分析、聚類、分類等數(shù)據(jù)挖掘方法后,依然可以分析出用戶的隱私。針對數(shù)據(jù)挖掘的隱私保護技術(shù),就是在盡可能提高大數(shù)據(jù)可用性的前提下,研究更加合適的數(shù)據(jù)隱藏技術(shù),以防范利用數(shù)據(jù)發(fā)掘方法引發(fā)的隱私泄露。現(xiàn)在的主要技術(shù)包括:基于數(shù)據(jù)失真和加密的方法,比如數(shù)據(jù)變換、隱藏、隨機擾動、平移、翻轉(zhuǎn)等技術(shù)。
(4)數(shù)據(jù)使用
數(shù)據(jù)使用者是訪問和使用大數(shù)據(jù)以及從大數(shù)據(jù)中挖掘出信息的用戶,通常為企業(yè)和個人,通過大數(shù)據(jù)的價值信息擴大企業(yè)利潤或提供個人生活質(zhì)量。在大數(shù)據(jù)的環(huán)境下,如何確保合適的數(shù)據(jù)及屬性能夠在合適的時間和地點,給合適的用戶訪問和利用,是大數(shù)據(jù)訪問和使用階段面臨的主要風(fēng)險。為了解決大數(shù)據(jù)訪問和使用時的隱私泄露問題,現(xiàn)在的技術(shù)主要包括:時空融合的角色訪問控制、基于屬性集加密訪問控制(attribute-based encryption access control, ABE)、基于密文策略屬性集的加密(ciphertext policy attribute set based encryption, CP-ASBE)、基于層次式屬性集的訪問控制(hierarchical attribute set based encryption, HASBE)等技術(shù)。
下面針對大數(shù)據(jù)生命周期中的發(fā)布、存儲、挖掘和使用4個過程中的隱私保護技術(shù)進行闡述。
為了從大數(shù)據(jù)中獲益,數(shù)據(jù)持有方有時需要公開發(fā)布己方數(shù)據(jù),這些數(shù)據(jù)通常會包含一定的用戶信息,服務(wù)方在數(shù)據(jù)發(fā)布之前需要對數(shù)據(jù)進行處理,使用戶隱私免遭泄露。此時,確保用戶隱私信息不被惡意的第三方獲取是極為重要的。一般的,用戶更希望攻擊者無法從數(shù)據(jù)中識別出自身,更不用說竊取自身的隱私信息,匿名技術(shù)就是這種思想的實現(xiàn)之一。
Samarati P和Sweeney L在1998年首次提出了匿名化的概念[3]。數(shù)據(jù)發(fā)布匿名是匿名技術(shù)在數(shù)據(jù)發(fā)布中的應(yīng)用,在確保所發(fā)布的信息數(shù)據(jù)公開可用的前提下,隱藏公開數(shù)據(jù)記錄與特定個人之間的對應(yīng)聯(lián)系,從而保護個人隱私。最初,服務(wù)方僅僅刪除數(shù)據(jù)表中有關(guān)用戶身份的屬性作為匿名實現(xiàn)方案。但實踐表明,這種匿名處理方案是不充分的。攻擊者能從其他渠道獲得包含了用戶標識符的數(shù)據(jù)集,并根據(jù)準標識符連接多個數(shù)據(jù)集,重新建立用戶標識符與數(shù)據(jù)記錄的對應(yīng)關(guān)系。這種攻擊稱為鏈接攻擊(linking attack),曾多次造成重大的安全事故。
為了防御鏈接攻擊,常見的靜態(tài)匿名技術(shù)有k-匿名[4]、l-diversity匿名[5]、t-closeness匿名[6]以及以它們的相關(guān)變形為代表的匿名策略[7,8]。隨著研究的進步,這些匿名策略的效果逐步提高。但是這些匿名策略以信息損失為代價,不利于數(shù)據(jù)挖掘與分析。為此,研究者隨即提出了個性化匿名、帶權(quán)重的匿名等一系列匿名策略。相對于對所有記錄執(zhí)行相同的匿名保護,這類匿名策略給予每條數(shù)據(jù)記錄以不同程度的匿名保護,減少了非必要的信息損失。下面首先介紹大數(shù)據(jù)中的靜態(tài)匿名技術(shù)。
3.1 大數(shù)據(jù)中的靜態(tài)匿名技術(shù)
在靜態(tài)匿名策略中,數(shù)據(jù)發(fā)布方需要對數(shù)據(jù)中的準標識碼進行處理,使得多條記錄具有相同的準標識碼組合,這些具有相同準標識碼組合的記錄集合被稱為等價組。k-匿名技術(shù)就是每個等價組中的記錄個數(shù)為k個,即針對大數(shù)據(jù)的攻擊者在進行鏈接攻擊時,對于任意一條記錄的攻擊都會同時關(guān)聯(lián)到等價組中的其他k-1條記錄[4,9]。這種特性使得攻擊者無法確定與特定用戶相關(guān)的記錄,從而保護了用戶的隱私。攻擊者在進行鏈接攻擊時至少將無法區(qū)分等價組中的k條數(shù)據(jù)記錄。
若等價類在敏感屬性上取值單一,即使無法獲取特定用戶的記錄,攻擊者仍然可以獲得目標用戶的隱私信息。為此,研究者提出了l-diversity匿名策略[5]。l-diversity保證每一個等價類的敏感屬性至少有l(wèi)個不同的值,l-diversity使得攻擊者最多以1/l的概率確認某個個體的敏感信息。這使得等價組中敏感屬性的取值多樣化,從而避免了k-匿名中的敏感屬性值取值單一所帶來的缺陷。
若等價類中敏感值的分布與整個數(shù)據(jù)集中敏感值的分布具有明顯的差別,攻擊者可以以一定概率猜測目標用戶的敏感屬性值。為此,研究者提出了t-closeness匿名策略[6]。t-closeness匿名以EMD(earth mover’s distance)衡量敏感屬性值之間的距離,并要求等價組內(nèi)敏感屬性值的分布特性與整個數(shù)據(jù)集中敏感屬性值的分布特性之間的差異盡可能大。即在l-diversity基礎(chǔ)上,t-closeness匿名考慮了敏感屬性的分布問題,它要求所有等價類中敏感屬性值的分布盡量接近該屬性的全局分布。
上述匿名策略都會造成較大的信息損失。在進行數(shù)據(jù)使用時,這些信息損失有可能使得數(shù)據(jù)使用者做出誤判[7]。不同的用戶對于自身的隱私信息有著不同程度的保護要求。使用統(tǒng)一的匿名標準顯然會造成不必要的信息損失。個性化匿名[7]技術(shù)應(yīng)運而生,即可根據(jù)用戶的要求對發(fā)布數(shù)據(jù)中的敏感屬性值提供不同程度的隱私保護。各級匿名標準提供的匿名效果不同,相應(yīng)的信息損失也不同。以此避免了不必要的信息損失,從而可顯著提高發(fā)布數(shù)據(jù)的可用性。
對于大數(shù)據(jù)的使用者而言,屬性與屬性之間的重要程度往往并不相同。例如,對于醫(yī)學(xué)研究者而言,一個患者的住址郵編或者工作單位顯然不如他的年齡、家族病史等信息重要[10]。根據(jù)這種思想,帶權(quán)重的匿名策略對記錄的屬性賦予不同的權(quán)重[8]。較為重要的屬性具有較大的權(quán)重,從而提供較強的隱私保護,其他屬性則以較低的標準進行匿名處理,以此盡可能減少重要屬性的信息損失。
數(shù)據(jù)發(fā)布匿名最初只考慮了發(fā)布后不再變化的靜態(tài)數(shù)據(jù),但在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)的動態(tài)更新是大數(shù)據(jù)的重要特點之一。一旦數(shù)據(jù)集更新,數(shù)據(jù)發(fā)布者便需要重新發(fā)布數(shù)據(jù),以保證數(shù)據(jù)的可用性。此時,攻擊者可以通過對不同版本的發(fā)布數(shù)據(jù)進行聯(lián)合分析與推理,上述基于靜態(tài)數(shù)據(jù)的匿名策略將會失效,下面介紹大數(shù)據(jù)中的動態(tài)匿名技術(shù)。
3.2 大數(shù)據(jù)中的動態(tài)匿名技術(shù)
針對大數(shù)據(jù)的持續(xù)更新特性,研究者提出了基于動態(tài)數(shù)據(jù)集的匿名策略,這些匿名策略不但可以保證每一次發(fā)布的數(shù)據(jù)都能滿足某種匿名標準,攻擊者也將無法聯(lián)合歷史數(shù)據(jù)進行分析與推理。這些技術(shù)包括支持新增的數(shù)據(jù)重發(fā)布匿名技術(shù)[11]、m-invariance匿名技術(shù)[12]、基于角色構(gòu)成的匿名[13]等支持數(shù)據(jù)動態(tài)更新匿名保護的策略。
Byun等人最先提出了一種支持新增的數(shù)據(jù)重發(fā)布匿名策略[11],使得數(shù)據(jù)集即使因為新增數(shù)據(jù)而發(fā)生改變,但多次發(fā)布后不同版本的公開數(shù)據(jù)仍然能滿足l-diversity準則,以保證用戶的隱私。在這種匿名策略中,數(shù)據(jù)發(fā)布者需要集中管理不同發(fā)布版本中的等價類。若新增的數(shù)據(jù)集與先前版本的等價類無交集并能滿足l-diversity準則,則可作為新版本發(fā)布數(shù)據(jù)中的新等價類出現(xiàn),否則需要等待;而若新增的數(shù)據(jù)集與先前版本的等價類有交集,則需要插入最為接近的等價類中;若一個等價類過大,還需要對等價類進行劃分,以形成新的較小的等價類。
為了在支持新增操作的同時,支持數(shù)據(jù)重發(fā)布對歷史數(shù)據(jù)集的刪除,m-invariance匿名策略被提出[12]。參考文獻[12]的作者在研究中發(fā)現(xiàn),對于任意一條記錄,只要此記錄所在的等價組在前后兩個發(fā)布版本中具有相同的敏感屬性值集合,不同發(fā)布版本之間的推理通道就可以被消除。因此,為了保證這種約束,作者在這種匿名策略中引入虛假的用戶記錄,這些用戶記錄不對應(yīng)任何原始數(shù)據(jù)記錄,只是為了消除不同數(shù)據(jù)版本間的推理通道而存在。在這種匿名策略中,對應(yīng)于這些虛假的用戶記錄,作者還引入了額外的輔助表標識等價類中的虛假記錄數(shù)目,以保證數(shù)據(jù)使用時的有效性。
為了支持數(shù)據(jù)重發(fā)布對歷史數(shù)據(jù)集的修改,研究者注意到在不同版本的數(shù)據(jù)發(fā)布中,敏感屬性可分為常量屬性與可變屬性兩種,并針對這種情況提出HD-composition匿名策略[13]。這種匿名策略同時支持數(shù)據(jù)重發(fā)布的新增、刪除與修改操作。為由于數(shù)據(jù)集的改變而發(fā)生的重發(fā)布操作提供了有效的匿名保護。
在大數(shù)據(jù)環(huán)境下,海量數(shù)據(jù)規(guī)模使得匿名技術(shù)的效率變得至關(guān)重要。研究者結(jié)合大數(shù)據(jù)處理技術(shù),實現(xiàn)了一系列傳統(tǒng)的數(shù)據(jù)匿名策略,提高了匿名技術(shù)的效率。下面介紹提高大數(shù)據(jù)匿名處理的效率技術(shù)。
3.3 大數(shù)據(jù)中的匿名并行化處理
在大數(shù)據(jù)環(huán)境下,大數(shù)據(jù)的巨規(guī)模特性使得匿名技術(shù)的效率變得至關(guān)重要。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)匿名技術(shù)也是大數(shù)據(jù)環(huán)境下的數(shù)據(jù)處理技術(shù)之一,通用的大數(shù)據(jù)處理技術(shù)也能應(yīng)用于數(shù)據(jù)匿名發(fā)布這一特定目的。當(dāng)前,大數(shù)據(jù)環(huán)境下數(shù)據(jù)匿名技術(shù)的思想、模型與傳統(tǒng)的數(shù)據(jù)匿名技術(shù)一致,主要的不同與問題在于使用大數(shù)據(jù)環(huán)境下的相關(guān)技術(shù)實現(xiàn)先前的各類數(shù)據(jù)匿名算法。
研究者結(jié)合大數(shù)據(jù)處理技術(shù),實現(xiàn)了一系列傳統(tǒng)的數(shù)據(jù)匿名策略,提高了匿名技術(shù)的效率。分布式多線程是主流的解決思路,一類實現(xiàn)方案是利用特定的分布式計算框架實施通常的匿名策略,如Zhang等人[14,15]利用MapReduce分布式計算模型成功地實現(xiàn)了大數(shù)據(jù)集上可擴展的匿名系統(tǒng);另一類實現(xiàn)方案是Mohammadian等人[16]將匿名算法并行化,使用多線程技術(shù)加速匿名算法的計算效率,從而節(jié)省了大數(shù)據(jù)中的匿名并行化處理的計算時間。
使用已有的大數(shù)據(jù)處理工具與修改匿名算法實現(xiàn)方式是大數(shù)據(jù)環(huán)境下數(shù)據(jù)匿名技術(shù)的主要趨勢,這些技術(shù)能極大地提高數(shù)據(jù)匿名處理效率。除此之外,大數(shù)據(jù)環(huán)境為信息的搜集、存儲與分析提供了更為強大的支持,攻擊者的能力也隨之提高,從而匿名保護變得更為困難,研究者需要花費更多的努力確保大數(shù)據(jù)環(huán)境下的匿名安全[17,18]。
此外,數(shù)據(jù)的多源化為數(shù)據(jù)發(fā)布匿名技術(shù)帶來了新的挑戰(zhàn)[19]。攻擊者可以從多個數(shù)據(jù)源中獲得足夠的數(shù)據(jù)信息以對發(fā)布數(shù)據(jù)進行去匿名化。現(xiàn)有的匿名策略還難以防范此類攻擊,有待進一步改進。
云計算的出現(xiàn)為大數(shù)據(jù)的存儲提供了基礎(chǔ)平臺,通過云服務(wù)器的計算和存儲能力,對大數(shù)據(jù)的訪問將更快速、更便宜、更簡單和更標準化。但將敏感的數(shù)據(jù)存放在不可信的第三方服務(wù)器中存在潛在的威脅,因為云服務(wù)器提供商可能對用戶的數(shù)據(jù)進行偷窺,也可能出于商業(yè)的目的與第三方共享數(shù)據(jù)或者無法保證數(shù)據(jù)的完整性。如何安全可靠地將敏感數(shù)據(jù)交由云平臺存儲和管理,是大數(shù)據(jù)隱私保護中必須解決的關(guān)鍵問題之一。
大數(shù)據(jù)存儲給隱私保護帶來了新的挑戰(zhàn),主要包括:大數(shù)據(jù)中更多的隱私信息存儲在不可信的第三方中,極易被不可信的存儲管理者偷窺;大數(shù)據(jù)存儲的難度增大,存儲方有可能無意或有意地丟失數(shù)據(jù)或篡改數(shù)據(jù),從而使得大數(shù)據(jù)的完整性得不到保證。為解決上述挑戰(zhàn),應(yīng)用的技術(shù)主要包括加密存儲和第三方審計技術(shù)等,具體介紹如下。
4.1 大數(shù)據(jù)加密存儲技術(shù)
對于含有敏感信息的大數(shù)據(jù)來說,將其加密后存儲在云端能夠保護用戶的隱私,然而若使用傳統(tǒng)的DES[20]、AES[21]等對稱加密手段,雖能保證對存儲的大數(shù)據(jù)隱私信息的加解密速度,但其密鑰管理過程較為復(fù)雜,難以適用于有著大量用戶的大數(shù)據(jù)存儲系統(tǒng)。而使用傳統(tǒng)的RSA[22]、Elgamal[23]等非對稱加密手段,雖然其密鑰易于管理,但算法計算量太大,不適用于對不斷增長的大數(shù)據(jù)隱私信息進行加解密。數(shù)據(jù)加密加重了用戶和云平臺的計算開銷,同時限制了數(shù)據(jù)的使用和共享,造成了高價值數(shù)據(jù)的浪費。因此,開發(fā)適用于大數(shù)據(jù)平臺的快速加解密技術(shù)成為大數(shù)據(jù)隱私信息存儲保護的一個重要研究方向。
Lin H Y等人[24]于2012年提出了一種針對HDFS(Hadoop分布式文件系統(tǒng))的混合加密技術(shù),該技術(shù)將對稱加密和非對稱加密進行了融合。當(dāng)有新的隱私數(shù)據(jù)文件需要加密時,先通過非對稱加密方法(AES或RC4)對該文件內(nèi)容進行快速加密,并將其分布式存儲于每個HDFS節(jié)點上,然后使用對稱加密方法對用于加密該文件內(nèi)容的密鑰進行加密,并將結(jié)果存儲于該數(shù)據(jù)的頭文件中,以此提供對密鑰的有效管理。該方法能夠很好地實現(xiàn)對大數(shù)據(jù)隱私信息的存儲保護,但是這些加密后的隱私信息需要先經(jīng)過解密才能在大數(shù)據(jù)平臺中進行運算,其運算結(jié)果在存儲到大數(shù)據(jù)平臺時同樣需要重新加密,這個加解密過程會造成很大的時間開銷。
同態(tài)加密算法可以允許人們對密文進行特定的運算,而其運算結(jié)果解密后與用明文進行相同運算所得的結(jié)果一致。全同態(tài)加密算法則能實現(xiàn)對明文所進行的任何運算,都可以轉(zhuǎn)化為對相應(yīng)密文進行恰當(dāng)運算后的解密結(jié)果[25,26]。將同態(tài)加密算法用于大數(shù)據(jù)隱私存儲保護,可以有效避免存儲的加密數(shù)據(jù)在進行分布式處理時的加解密過程,Chen X等人于2013年將全同態(tài)加密技術(shù)和MapReduce編程模型進行結(jié)合[27],通過在reduce模塊之前,增加一個在密文狀態(tài)下進行計算的轉(zhuǎn)換模塊,使得經(jīng)過全同態(tài)加密后的文件可以在不解密的情況下進行MapReduce運算,從而能夠大大優(yōu)化存儲的大數(shù)據(jù)隱私信息的運算效率。Wang等人[28]基于代理重簽名的思想,設(shè)計了一個可以有效地支持用戶撤銷的云端群組數(shù)據(jù)的同態(tài)解密驗證方案,保護群組用戶的身份隱私,且在群組用戶的撤銷過程中,因維護數(shù)據(jù)完整性所產(chǎn)生的開銷主要由云端而不是用戶來承擔(dān),減輕了群組在用戶撤銷過程中的計算和通信開銷。
4.2 大數(shù)據(jù)審計技術(shù)
當(dāng)用戶將數(shù)據(jù)存儲在云服務(wù)器中時,就喪失了對數(shù)據(jù)的控制權(quán)。如果云服務(wù)提供商不可信,其可能對數(shù)據(jù)進行篡改、丟棄,卻對用戶聲稱數(shù)據(jù)是完好的。為了防止這種危害,云存儲中的審計技術(shù)則被提出。云存儲審計指的是數(shù)據(jù)擁有者或者第三方機構(gòu)對云中的數(shù)據(jù)完整性進行審計。通過對數(shù)據(jù)進行審計,確保數(shù)據(jù)不會被云服務(wù)提供商篡改、丟棄,并且在審計的過程中用戶的隱私不會被泄露。
當(dāng)前已有很多研究者對云存儲中的審計進行了研究。Ateniese等人[29]提出了一種可證明的數(shù)據(jù)持有(provable data possession,PDP)模型,該模型可以對服務(wù)器上的數(shù)據(jù)進行完整性驗證。該模型先從服務(wù)器上隨機采樣相應(yīng)的數(shù)據(jù)塊,并生成持有數(shù)據(jù)的概率證據(jù)??蛻舳司S持著一定數(shù)量的元數(shù)據(jù),并利用元數(shù)據(jù)來對證據(jù)進行驗證。在該模型中,挑戰(zhàn)應(yīng)答協(xié)議傳輸?shù)臄?shù)據(jù)量非常少,因此所耗費的網(wǎng)絡(luò)帶寬較小。
Juels等人[30]提出可恢復(fù)證明(proof of retrievability,POR)模型,該模型主要利用糾錯碼技術(shù)和消息認證機制來保證遠程數(shù)據(jù)文件的完整性和可恢復(fù)性。在該模型中,原始文件首先被糾錯碼編碼并產(chǎn)生對應(yīng)標簽,編碼后的文件及標簽被存儲在服務(wù)器上。當(dāng)用戶選擇服務(wù)器上的某個文件塊時,可以采用糾錯碼解碼算法來恢復(fù)原始文件。POR模型面臨的挑戰(zhàn)在于需要構(gòu)建一個高效和安全的系統(tǒng)來應(yīng)對用戶的請求,Shacham等人[31]改進了POR模型。他們的模型構(gòu)建基于BLS短簽名(BLS short signature),即基于雙線性對構(gòu)造的數(shù)字簽名方案,該模型擁有很短的查詢和響應(yīng)時間。
上述方案都只能適用于靜態(tài)數(shù)據(jù)的審計,無法支持對動態(tài)數(shù)據(jù)的審計。Ateniese等人[32]改進了PDP模型,該模型基于對稱密鑰加密算法,并且支持數(shù)據(jù)的動態(tài)刪除和修改。Erway等人[33]改進了PDP模型,提出了DPDP模型。該模型擴展了傳統(tǒng)的PDP模型以支持存儲數(shù)據(jù)的更新操作,該操作的時間復(fù)雜度為O(1)到O(lgn)。Wang Q等人[34]改進了前人的POR模型,通過引入散列樹來對文件塊標簽進行認證。同時,他們的方法也支持對數(shù)據(jù)的動態(tài)操作,但是此方案無法對用戶的隱私進行有效的保護。
Wang C等人[35]提出了一種支持隱私保護的審計方案。他們認為第三方審計(third party auditor,TPA)應(yīng)該滿足如下要求:一是第三方審計能夠高效地完成對數(shù)據(jù)的審計,并且不為用戶帶來多余的負擔(dān);二是第三方審計不能為用戶隱私帶來脆弱性。他們提出的方法基于公鑰加密和同態(tài)認證,能夠在保護用戶隱私的情況下完成公開審計。Wang B Y等人[36]首次提出一種用于對云中共享數(shù)據(jù)進行審計的隱私保護策略。他們在對數(shù)據(jù)的審計過程中利用環(huán)形簽名來對數(shù)據(jù)完整性進行驗證。此策略能夠很好地對用戶的隱私進行保護。其不足之處在于通信開銷比較大。Wang B Y等人[37]還提出了一種名為Knox的云中數(shù)據(jù)的隱私保護策略。該策略利用群組簽名來構(gòu)造同態(tài)認證,使得第三方審計機構(gòu)不需要從云中獲取整個數(shù)據(jù)即能完成對數(shù)據(jù)完整性的審計。
隨著大數(shù)據(jù)時代的發(fā)展,可以預(yù)見到,未來存儲在云中的數(shù)據(jù)會越來越多,這也為大數(shù)據(jù)審計技術(shù)帶來了巨大的挑戰(zhàn)。在未來的研究中,以下幾個方向也許值得研究者們關(guān)注:一個是云中數(shù)據(jù)量越來越大、數(shù)據(jù)種類越來越豐富,如何提供更加高效、安全的審計服務(wù)值得關(guān)注;另一個是隨著人們在線上的交互越來越頻繁,云中數(shù)據(jù)動態(tài)操作可能更加頻繁,如何應(yīng)對如此頻繁的數(shù)據(jù)動態(tài)操作也值得研究者們關(guān)注。
隨著技術(shù)的進步,數(shù)據(jù)挖掘過程中的隱私保護問題逐漸走進了人們的視線,尤其是在大數(shù)據(jù)時代,成為數(shù)據(jù)挖掘界一個新的研究熱點。隱私保護數(shù)據(jù)挖掘,即在保護隱私前提下的數(shù)據(jù)挖掘,其主要關(guān)注點有兩個:一是對原始數(shù)據(jù)集進行必要的修改,使得數(shù)據(jù)接收者不能侵犯他人隱私;二是保護產(chǎn)生模式,限制對大數(shù)據(jù)中敏感知識的挖掘。
大數(shù)據(jù)中的隱私保護數(shù)據(jù)挖掘依舊處于起步階段,大數(shù)據(jù)的種種特性給數(shù)據(jù)挖掘中的隱私保護提出了不少難題和挑戰(zhàn):對于大規(guī)模數(shù)據(jù)集而言,還沒有有效并且可擴展的隱私保護技術(shù)[38];分布式存儲環(huán)境下,如何有效地對用戶信息進行隱藏,還沒有合適的解決方法[39];大數(shù)據(jù)背景下,如何快速、有效地區(qū)分不同數(shù)據(jù)挖掘應(yīng)用的領(lǐng)域背景存在一定的困難,而不同應(yīng)用對于隱私保護的要求也是不同的[40]。下面主要從頻繁模式挖掘、分類和聚類3個方面討論限制敏感信息的知識挖掘技術(shù)。
5.1 關(guān)聯(lián)規(guī)則的隱私保護
關(guān)聯(lián)規(guī)則的隱私保護主要有兩類方法[41]:第一類是變換(distortion),即修改支持敏感規(guī)則的數(shù)據(jù),使得規(guī)則的支持度和置信度小于一定的閾值而實現(xiàn)規(guī)則的隱藏;第二類是隱藏(blocking),該類方法不修改數(shù)據(jù),而是對生成敏感規(guī)則的頻繁項集進行隱藏。這兩類方法都對非敏感規(guī)則的挖掘具有一定的負面影響。下面分別對這兩類方法進行介紹。
在變換方法中,Atallah等人[42]證明了采用變換方法進行關(guān)聯(lián)規(guī)則挖掘是一個NP難問題。他們將敏感規(guī)則相關(guān)的支持數(shù)據(jù)進行變換,從而降低敏感規(guī)則的支持度和置信度。Oliveira等人[43]提出了一種對于數(shù)據(jù)進行變換的方法。首先,對于每一條敏感規(guī)則rpi,找到對應(yīng)的敏感事務(wù)T[rpi];其次,對于每一條敏感規(guī)則,將其中對規(guī)則支持度最低的項設(shè)為犧牲項Victimrpi;然后,根據(jù)事先設(shè)定的暴露閾值ψ,對每一條敏感規(guī)則計算其需要隱藏的事務(wù)數(shù)量NumTransrpi;最后進行數(shù)據(jù)重構(gòu),對于每一條敏感規(guī)則rpi,對T[rpi]中的事務(wù)按照沖突程度升序排序,選取T[rpi]中前NumTransrpi個事務(wù)TransToSanitize,對于數(shù)據(jù)集D中的事務(wù)t,如果t∈TransToSanitize,則將t中犧牲項Victimrpi替換之后置入新的數(shù)據(jù)集D′中。
Chang等人[44]提出了關(guān)聯(lián)規(guī)則隱藏的方法,這類方法的特點是不對數(shù)據(jù)進行修改,而是將敏感規(guī)則的相關(guān)數(shù)據(jù)進行隱藏(標記為未知,常用問號替代),保持了數(shù)據(jù)的真實性。Aggarwal等人[45]研究了如何隱藏一個最小集合,使得對方無法通過數(shù)據(jù)挖掘的方法預(yù)測出敏感信息。他們提出了一種簡潔的問題建模方法,并設(shè)計了一個有效的啟發(fā)式算法。首先挖掘出對抗規(guī)則,接著推導(dǎo)出隱私集合。在廣泛的人工數(shù)據(jù)集和實際數(shù)據(jù)集上的測試表面,使用該方法對數(shù)據(jù)處理后,數(shù)據(jù)集對數(shù)據(jù)挖掘算法的各項參數(shù)不敏感,從而可以有效保護隱私。
5.2 分類結(jié)果的隱私保護
分類方法的結(jié)果通常可以發(fā)現(xiàn)數(shù)據(jù)集中的隱私敏感信息,因此需要對敏感的分類結(jié)果信息進行保護。這類方法的目標是在降低敏感信息分類準確度的同時,不影響其他應(yīng)用的性能。
Agrawal等人[46]采用隨機擾動的方式對原始數(shù)據(jù)進行加密,以實現(xiàn)分類結(jié)果的隱私保護。算法首先對數(shù)據(jù)進行隨機擾動,對于原始數(shù)據(jù)X1,X2,…,Xn,將其看成滿足特定分布的隨機變量X,為了隱藏原始數(shù)據(jù)值,在每個原始值上添加一個服從隨機分布Y的隨機數(shù)Y1,Y2,…,Yn,則擾動后的數(shù)據(jù)為X1+Y1,X2+Y2,…,Xn+Yn的形式,記為Z;然后對數(shù)據(jù)進行恢復(fù),數(shù)據(jù)恢復(fù)即已知隨機變量分布Y、Z以及X+Y=Z的關(guān)系,用Y、Z的值估計X的過程,應(yīng)用貝葉斯公式可以得到原始數(shù)據(jù)估計的迭代方程,從而得到原始數(shù)據(jù)的近似X’;最后是分類過程,得到了原始數(shù)據(jù)的模糊近似X’之后即可應(yīng)用普通的分類方法,如利用決策樹對數(shù)據(jù)進行分類,降低分類的準確度。
Moskowitz L M等人[47]設(shè)計了名為“Rational Downgrader”的隱私保護系統(tǒng),該系統(tǒng)著力于降低信息公開過程中隱私泄露的程度,確保普通用戶無法通過已經(jīng)或?qū)⒁_的信息推測出應(yīng)被保護的隱私信息。該系統(tǒng)主要包括3個部分:其決策部分用于評估哪些分類規(guī)則可能被推測出來;示警部分用于測定已經(jīng)泄露的隱私信息量;降級約束部分降低敏感結(jié)果的分類準確度。
Chang等人[48]提出了一種新的范式,以處理由降級(downgrading)引發(fā)的隱私信息推測問題。這種新范式包含兩大部分:對隱私信息推測問題應(yīng)該采用決策樹進行分析以及對降級問題進行約束、限制。其中,他們使用了一種新的熱力學(xué)激勵的方式來處理對分類規(guī)則進行推理的過程,這些被推理的規(guī)則來源于部分公開的數(shù)據(jù)。
5.3 聚類結(jié)果的隱私保護
與分類結(jié)果的隱私保護類似,保護聚類的隱私敏感結(jié)果也是當(dāng)前研究的重要內(nèi)容之一。Oliveira等人[49]對發(fā)布的數(shù)據(jù)采用平移、翻轉(zhuǎn)等幾何變換的方法進行變換,以保護聚類結(jié)果的隱私內(nèi)容。此方法首先是對原始數(shù)據(jù)進行幾何變換,以對敏感信息進行隱藏,然后是聚類過程,經(jīng)過幾何變換后的數(shù)據(jù)可以直接應(yīng)用傳統(tǒng)的聚類算法(如K近鄰)進行聚類。他們提出的方法在聚類準確度和保護隱私方面達到了較好的平衡。
Vaidya等人[50]提出了一種分布式K-means聚類方法,該方法專門面向不同站點上存有同一實體集合的不同屬性的情況。使用此聚類方法,每個站點可以學(xué)習(xí)對每個實體進行聚類,但在學(xué)習(xí)過程中并不會獲知其他站點上所存屬性的相關(guān)信息,從而在信息處理的過程中保障了數(shù)據(jù)隱私。
大數(shù)據(jù)訪問控制技術(shù)主要用于決定哪些用戶可以以何種權(quán)限訪問哪些大數(shù)據(jù)資源,從而確保合適的數(shù)據(jù)及合適的屬性在合適的時間和地點,給合適的用戶訪問,其主要目標是解決大數(shù)據(jù)使用過程中的隱私保護問題。早期的訪問控制技術(shù),如自主訪問控制(discretionary access control,DAC)[51]、強制訪問控制(mandatory access control,MAC)[52]等都面向封閉環(huán)境,訪問控制的粒度都比較粗,難以滿足大數(shù)據(jù)時代開放式環(huán)境下對訪問控制的精細化要求。
大數(shù)據(jù)給傳統(tǒng)訪問控制技術(shù)帶來的挑戰(zhàn)如下。
● 大數(shù)據(jù)的時空特性,大數(shù)據(jù)下的訪問控制模型需要在傳統(tǒng)訪問控制的基礎(chǔ)上,充分考慮用戶的時間信息和位置信息。
● 在大數(shù)據(jù)時代的開放式環(huán)境下,用戶來自于多種組織、機構(gòu)或部門,單個用戶又通常具有多種數(shù)據(jù)訪問需求[53],如何合理設(shè)定角色并為每個用戶動態(tài)分配角色是新的挑戰(zhàn)。
● 大數(shù)據(jù)面向的應(yīng)用需求眾多,不同的應(yīng)用需要不同的訪問控制策略。以社交網(wǎng)站為例:對于用戶個人主頁的數(shù)據(jù),需要基于用戶社交關(guān)系的訪問控制;對于網(wǎng)站數(shù)據(jù),需要基于用戶等級的訪問控制等。
傳統(tǒng)的訪問控制方式,包括自主訪問控制和強制訪問控制技術(shù),難以應(yīng)對上述挑戰(zhàn)。因此,大數(shù)據(jù)時代的訪問控制技術(shù)主要包括基于角色的訪問控制和基于屬性的訪問控制方法。
6.1 基于角色的訪問控制
基于角色的訪問控制(role-based access control,RBAC)[54]中,不同角色的訪問控制權(quán)限不盡相同。通過為用戶分配角色,可實現(xiàn)對數(shù)據(jù)的訪問權(quán)限控制。由此,在基于角色的訪問控制中,角色挖掘是前提。通常,角色是根據(jù)工作能力、職權(quán)及責(zé)任確定的。大數(shù)據(jù)場景下的角色挖掘,需要大量人工參與角色定義、角色劃分及角色授權(quán)等問題,衍生出了所謂角色工程(role engineering)[55]。角色工程的最終目的是根據(jù)個體在某一組織內(nèi)所擔(dān)當(dāng)?shù)慕巧虬l(fā)揮的作用來實現(xiàn)最佳安全管理。有效的角色工程可以為用戶權(quán)限提供最優(yōu)分配、鑒別異常用戶、檢測并刪除冗余或過量的角色、使角色定義及用戶權(quán)限保持最新、降低隨之發(fā)生的各類風(fēng)險等。大數(shù)據(jù)時代,可用于角色挖掘的數(shù)據(jù)豐富多樣,對角色權(quán)限的配置也更加靈活復(fù)雜。一方面需要通過挖掘己方數(shù)據(jù),合理配置權(quán)限,實現(xiàn)數(shù)據(jù)的訪問可控;另一方面,需要挖掘可收集到的對方數(shù)據(jù),找出重要目標角色,以便重點關(guān)注。因此,大數(shù)據(jù)下的角色工程需要從攻擊和防護的角度綜合考慮。
RBAC最初也主要應(yīng)用于封閉環(huán)境之中。針對大數(shù)據(jù)時空關(guān)聯(lián)性,一些研究者提出將時空信息融合到RBAC當(dāng)中。如Ray等人提出了LARB(location-aware rolebased)訪問控制模型,在RBAC的基礎(chǔ)之上引入了位置信息,通過考慮用戶的位置來確定用戶是否具有訪問數(shù)據(jù)的權(quán)限[56]。Damiani等人提出的GEO-RBAC,也在分配用戶角色時綜合考慮了用戶的空間位置信息[57]。張穎君等人提出的基于尺度的時空RBAC訪問控制模型,引入了尺度的概念,使得訪問控制策略的表達能力得到增強,同時也增強了模型的安全性[58]。
隨著大數(shù)據(jù)環(huán)境下角色規(guī)模的迅速增長,設(shè)計算法自動實現(xiàn)角色的提取與優(yōu)化逐漸成為近年來的研究熱點。參考文獻[59]嘗試將角色最小化,即找出能滿足預(yù)定義的用戶—授權(quán)關(guān)系的一組最小角色集合。參考文獻[60]提出最小擾動混合角色挖掘方法,首先以自頂向下的方法預(yù)先定義部分角色,然后以自底向上的方法挖掘候選角色集合。自動化角色挖掘大大減少了人工工作量,但也面臨時間復(fù)雜度高的問題,部分問題甚至屬于NP完全問題。參考文獻[61]提出了一種簡單的啟發(fā)式算法SMA來簡化角色求解。參考文獻[62]針對大數(shù)據(jù)及噪聲數(shù)據(jù)場景,提出選擇穩(wěn)定的候選角色,并進一步將角色挖掘問題分解以降低復(fù)雜度。
大數(shù)據(jù)時代的訪問控制應(yīng)用場景廣泛,需求也不盡相同。一些研究通過廣泛收集研究對象的應(yīng)用數(shù)據(jù),試圖挖掘出其中的關(guān)鍵角色,從而有針對性地采取處理措施。參考文獻[63]提出在RBAC的基礎(chǔ)上增加責(zé)任的概念,即responsibility-RBAC,對用戶職責(zé)進行顯式確認,以根據(jù)實際應(yīng)用場景優(yōu)化角色的數(shù)量。
6.2 基于屬性的訪問控制
基于屬性的訪問控制(attributebased access control,ABAC)[64]通過將各類屬性,包括用戶屬性、資源屬性、環(huán)境屬性等組合起來用于用戶訪問權(quán)限的設(shè)定。RBAC以用戶為中心,而沒有將額外的資源信息,如用戶和資源之間的關(guān)系、資源隨時間的動態(tài)變化、用戶對資源的請求動作(如瀏覽、編輯、刪除等)以及環(huán)境上下文信息進行綜合考慮。而基于屬性的訪問控制ABAC通過對全方位屬性的考慮,可以實現(xiàn)更加細粒度的訪問控制。
大數(shù)據(jù)環(huán)境下,越來越多的信息存儲在云平臺上。根據(jù)云平臺的特點,基于屬性集加密訪問控制[65]、基于密文策略屬性集的加密[66]、基于層次式屬性集合的加密[67]等相繼被提出。這些模型都以數(shù)據(jù)資源的屬性加密作為基本手段,采用不同的策略增加權(quán)限訪問的靈活性。如HASBE通過層次化的屬性加密,可以實現(xiàn)云平臺上數(shù)據(jù)的更加細粒度的訪問控制,層次化也使得模型更加靈活,具有更好的可擴展性。除了提供屬性加密訪問控制之外,ABAC也被當(dāng)作云基礎(chǔ)設(shè)施上訪問控制中的一項服務(wù)[68]。
ABE將屬性與密文和用戶私鑰關(guān)聯(lián),能夠靈活地表示訪問控制策略。但對于存儲在云端的大數(shù)據(jù),當(dāng)數(shù)據(jù)擁有者想要改變訪問控制策略時,需要先將加密數(shù)據(jù)從云端取回本地,解密原有數(shù)據(jù),之后再使用新的策略重新加密數(shù)據(jù),最后將密文傳回云端。在這一過程中,密文需要來回傳輸,會消耗大量帶寬,從而引發(fā)異常,引起攻擊者的注意[69],對數(shù)據(jù)的解密和重新加密也會使得計算復(fù)雜度顯著增大。為此,Yang等人提出了一種高效的訪問控制策略動態(tài)更新方法[70]。當(dāng)訪問控制策略發(fā)生變化時,數(shù)據(jù)擁有者首先使用密鑰更新策略UKeyGen生成更新密鑰UK_m,并將其和屬性變化情況(如增加、減少特定屬性)一起發(fā)送到云端。之后,在云端上按照密文更新策略CTUpdate對原有的密文進行更新,而不用對原有密文進行解密。
云端代理重加密將基于屬性的加密與代理重加密技術(shù)結(jié)合,實現(xiàn)云中的安全、細粒度、可擴展的數(shù)據(jù)訪問控制[71-73]。新的用戶獲取授權(quán)或原有用戶釋放授權(quán)時的重加密工作由云端代理,減輕數(shù)據(jù)擁有者的負擔(dān)。同時對數(shù)據(jù)擁有者來說,云端可能并非是完全可信的,在利用云端進行代理重加密的同時還應(yīng)防止數(shù)據(jù)被云端窺探。用戶提交給云的是密文,云端無法解密,云端利用重加密算法轉(zhuǎn)換為另一密文,新的密文只能被授權(quán)用戶解密,而在整個過程中云端服務(wù)器看到的始終是密文,看不到明文。云中用戶頻繁地獲取和釋放授權(quán),使得數(shù)據(jù)密文重加密工作繁重,由云端代理重加密工作,可以大大減輕數(shù)據(jù)擁有者的負擔(dān)。同時,云端無法解密密文,也就無法窺探數(shù)據(jù)內(nèi)容。
Sun等人[74]提出了支持高效用戶撤銷的屬性關(guān)鍵詞搜索方案,實現(xiàn)了可擴展且基于用戶制定訪問策略的高細粒度搜索授權(quán),通過代理重加密和懶惰重加密技術(shù),將用戶撤銷過程中系統(tǒng)繁重的密鑰更新工作交給半可信的云服務(wù)器。Wang等人[75]針對多中心云計算環(huán)境的數(shù)據(jù)安全訪問特點,將多中心屬性加密和外包計算相結(jié)合,提出了一種輕量級的安全的訪問控制方案。該方案具有解密密鑰短、加解密計算開銷小等優(yōu)勢,適用于輕量級設(shè)備。該方案可以無縫應(yīng)用到群組隱私信息保護中,實現(xiàn)了群組成員之間的隱私信息定向發(fā)布和共享、群組外的隱私信息保護功能。
大數(shù)據(jù)為訪問控制帶來了諸多挑戰(zhàn),但也暗藏機遇。隨著計算能力的進一步提升,無論是基于角色的訪問控制還是基于屬性的訪問控制,訪問控制的效率將得到快速提升。同時,更多的數(shù)據(jù)將被收集起來用于角色挖掘或者屬性識別,從而可以實現(xiàn)更加精準、更加個性化的訪問控制??傮w而言,目前專門針對大數(shù)據(jù)的訪問控制還處在起步階段,未來將角色與屬性相結(jié)合的細粒度權(quán)限分配將會有很大的發(fā)展空間。
如何在不泄露用戶隱私的前提下,提高大數(shù)據(jù)的利用率,挖掘大數(shù)據(jù)的價值,是目前大數(shù)據(jù)研究領(lǐng)域的關(guān)鍵問題。本文首先介紹了大數(shù)據(jù)帶來的隱私保護問題,然后介紹了大數(shù)據(jù)隱私的概念和大數(shù)據(jù)生命周期的隱私保護模型,接著從大數(shù)據(jù)生命周期的發(fā)布、存儲、分析和使用4個階段出發(fā),對大數(shù)據(jù)隱私保護中的技術(shù)現(xiàn)狀和發(fā)展趨勢進行了分類闡述,對該技術(shù)的優(yōu)缺點、適用范圍等進行分析,探索了大數(shù)據(jù)隱私保護技術(shù)進一步發(fā)展的方向。
[1] 方濱興, 劉克, 吳曼青,等. 大搜索技術(shù)白皮書[R/OL]. (2015-01-0 6)[2015-05-23]. http://wenku.baidu.com/link?url=gqavgz5O7VROHQgJH4_egRVHB_JtcskcX-vWvRgEdzhfMuyidxhO_kdGemK8Qvez 0z-dBIJRp SqZj7o CYLd0i-2iT1mXE2B1B5p4nPW0TO. FANG B X, LIU K, WU M Q, et al. White paper on big search[R/OL]. (2015-01-06)[2015-05-23]. http://wenku.baidu. com/link?url=gqavgz5O7VROHQgJH4_ egRVHB_JtcskcX-vWvRgEdzhfMuyidxhO_kdGemK8Qvez 0z-dBIJRpSqZj7oCYLd0i-2iT1mXE2B1B5p4nPW0TO.
[2] 周水庚, 李豐, 陶宇飛, 等. 面向數(shù)據(jù)庫應(yīng)用的隱私保護研究綜述[J]. 計算機學(xué)報, 2009, 32(5): 847-861. ZHOU S G, LI F, TAO Y F, et al. Privacy preservation in database applications: a survey[J]. Chinese Journal of Computers, 2009, 32(5): 847-861.
[3] SAMARATI P, SWEENEY L. Generalizing data to provide anonymity when disclosing information[C]// Proceedings of the 17th ACM Sigact-Sigmod-Sigart Symposium on Principles of Database System, June 1-3, 1998, Seattle, Washington, USA. New York: ACM Press, 1998.
[4] SWEENY L. k-anonymity: amodel for protecting privacy[J]. International Journal on Uncertainty, Fuzziness and KnowledgeBased Systems, 2012, 10(5): 557-570.
[5] BA R BA R O M, ZEL L ER T. Afaceis exposed for AOL searcher No. 4417749[N/ OL]. New York Times, (2006-08-09) [2013-09-10]. http://www.nytimes. com/2006/08/09/technology/09aol.html.
[6] NARAYANAN A, SHMATIKOV V. How to break anonymity of the netflix prize dataset[J]. Eprint Ar xiv Cs, 2006, arXiv:cs/0610105.
[7] MACHANAVA JJHAL A A, GEHRKE J, KIFER D, et al. l-diversity: privacy beyond k-anonymity[J]. ACM Transactions on Knowledge Discovery from Data, 2007, 1(1): 24.
[8] LI N, LI T, VENKATASUBRAMANIAN S. t-closeness: privacy beyond k-anonymity and l-diversity[C]// Proceedings of IEEE 23rd International Conference on Data Engineering, April 11-15, 2007, Istanbul, Turkey. Piscataway: IEEE Press, 2007: 106-115.
[9] NIU B, LI Q H, ZHU X Y, et al. Enhancing privacy through caching in locationbased services[C]//Proceedings of IEEE INFOCOM, April 26-May 1, 2015, Hong Kong, China. Piscataway: IEEE Press, 2015: 1017-1025.
[10] LI A, JIN S, ZHANG L, et al. A sequential decision-theoretic model for medical diagnostic system [J]. Technology and Health Care, 2015, 23(s1): S37-S42.
[11] BYUN J W, SOHN Y, BERTINO E, et al. Secure anonymization for incremental dataset[C]//Proceedings of the 3rd VLDB Workshop on Secure Data Management (SDM), September 10-11, 2006, Seoul, Korea. [S.l.: s.n.], 2006.
[12] XIAO X K, TAO YF. m-invariance: towards privacy preserving re-publication of dynamic datasets[C]// Proceedings of the 2007, ACM SIGMOD International Conference on Management of Data, June 12-14, 2007,Beijing, China. New York: ACM Press, 2007: 689-700.
[13] BUYY, FUAWC, WONG RCW, et al. Privacy preserving serial data publishing by role composition[C]// Proceedings of the 34th International Conference on Very Large Data Bases, August 23-28, 2008, Auckland, New Zealand. [S.l.: s.n.], 2008: 845-856.
[14] ZHANGX, L IUC, N EPA LS,etal. A hybrid approach for scalable subtree anonymization over big data using MapReduce on cloud [J]. Journal of Computer & System Sciences, 2014, 80(5): 1008-1020.
[15] ZH A NGX, LIUC, NEPA LS,etal. Combining top-down and bottom-up: scalable sub-tree anonymization over big data using MapReduce on cloud [J]. IEEE International Conference on Trust, 2013, 52(1): 501-508.
[16] MOHAMMADIAN E, NOFERESTI M, JALILI R. FAST: fast anonymization of big data streams[C]// Proceedings of the 2014 International Conference on Big Data Science and Computing, Aug 4-7, 2014,Beijing, China. [S.l.:s.n.], 2014.
[17] SEDAYAO J, BHARDWAJ R, GORADE N. Making big data, privac y, and anonymization work together in the enterprise: experiences and issues[C]// Proceedings of the 3rd International Congress on Big Data, June 27-July 2, 2014, Anchorage, Alaska, USA. Piscataway: IEEE Press, 2014.
[18] SUNGZ, WEIS, XIEX. Deanonymization technology and applications in the age of big data [J]. Information &Communications Technologies, 2013(6): 52-57.
[19] NARAYANANA, SHMATIKOVV. Robust de-anonymization of large sparse datasets[C]//Proceedings of the 2008 IEEE Symposium on Security and Privacy, M ay 18-21, 2008, Oakland, USA. Piscataway: IEEE Press, 2008: 111-122.
[20] National Bureau of Standards. Proposed federal information processing data encryption standard [J]. Creptologia, 1977, 1(3): 292-306.
[21] FIPS. Advanced encryption standard (AES): FIPS PUB 197[S/OL]. [2010-10-16]. http:// wenku.baidu.com/link?url=dqgVVuI1EvK Ah4fSiHu7mSAgObQji-LiI6C1_KlYWtuiIU FIZaJUZOpkcOWQMPy9U91SHgPcPrt7U WmAQmT3b8WJZ80idSjZ-qLVileRY3a.
[22] RIVEST R L, SHAMIR A, ADLERNAN L M. A method for obtaining digital signatures and public-key cryptosystems [J].Communications of the ACM, 1978, 21(6): 120-126.
[23] ELGAMAL T. A public key cryptosystem and a signature scheme based on discrete logarithms[J]. IEEE Transactions on Information Theory, 1985, 31(4): 469-472.
[24] LINHY, SHENST, TZENGWG, et al. Toward data confidentiality via integrating hybrid encryption schemes and Hadoop distributed file system[C]// Proceedings of IEEE 26th International Conference on Advanced Information Networking and Applications (AINA), March 26-29, 2012, Fukuoka, Japan. Washington DC: IEEE Computer Society Press, 2012: 740-747.
[25] GEN T RY C. Afully homomorphic encryption scheme [D]. Palo Alto: Stanford University, 2009.
[26] VAN DIJK M, GENTRY C, HALEVI S, et al. Fully homomorphic encryption over the integers[C]// Proceedings of the 29th Annual International Conference on the Theory and Applications of Cryptographic Techniques, May 30-June 3, 2010, Riviera, French. New York: Springer Berlin Heidelberg, 2010: 24-43.
[27] CHEN X, HUANG Q. The data protection of MapReduce using homomorphic encryption[C]// Proceedings of the 4th IEEE International Conference on Software Engineering and Service Science (ICSESS), May 23-25, 2013, Beijing, China. Piscataway: IEEE Press, 2013: 419-421.
[28] WANG B Y, LI B C, LI H. Public auditing for shared data with efficient user revocation in the cloud[C]// Proceedings of IEEE INFOCOM, April 26-May 1, 2015, Hong Kong, China. Piscataway: IEEE Press, 2015: 2904-2912.
[29] AT ENIE SE G, BUR NS R, CUR MO LAR, et al. Provable data possession at untrusted stores[J]. ACM Conference on Computer & Communications Security, 2007, 14(1): 598-609.
[30] JUELS A, KALISKI B S. PORs: proofs of retrievability for large files[C]// Proceedings of the 14th ACM Conference on Computer and Communications Security, October 29-November 2, 2007, Alexandria, VA, USA. New York: ACM Press, 2007: 584-597.
[31] SHACHAM H, WATERS B. Compac t proofs of retrievability[J]. Journal of Cryptology, 2013, 26(3): 442-483.
[32] ATENIESE G, PIETRO R, MANCIN L V, et al. Scalable and efficient provable data possession[C]// Proceedings of International Conference on Security & Privacy in Communication Networks, September 22-25, 2008, Istanbul, Turkey. New York: ACM Press, 2008.
[33] ERWAY C, KüP?ü A, PAPAMANTHOU C,etal. Dynamic prov abled at a possession[C]// Proceedings of the 16th ACM Conference on Computer and Communications Security, November 9-13, 2009, Chicago, IL, USA. New York: ACM Press, 2009: 213-222.
[34] WANG Q, WANG C, LI J, et al. Enabling public verifiability and data dynamics for storage security in cloud computing[C]// Proceedings of ESORICS, September 21-25, 2009, Saint Malo, France. [S.l.:s.n.], 2009: 355-370.
[35] WANGC, WANGQ, RENK, etal. Privacy-preserving public auditing for data storage security in cloud computing[C]// Proceedings of IEEE INFOCOM, March 15-19, 2010, San Diego, CA, USA. Piscataway: IEEE Press, 2010: 525-533.
[36] WANG B Y, LI B C, LI H.Oruta: privacy preserving public auditing for shared data in the cloud[C]//Proceedings of IEEE 5th International Conference on Cloud Computing, November 22-24, 2012, Honolulu, Hawaii, USA. Piscataway: IEEE Press, 2012: 295-302.
[37] WANG B Y, LI B C, LI H. Knox: privacy preserving auditing for shared data with large groups in the cloud[C]// Proceedings of the 10th International Conference on Applied Cryptography and Network Security, June 26-29, 2012, Singapore. Berlin: Springer, 2012.
[38] THURAISINGHAM B. Big data security and privacy[C]//Proceedings of the 5th ACM Conference on Data and Application Security and Privacy, March 2-4, 2015, San Antonio, TX, USA. New York: ACMPress, 2015: 279-280.
[39] WONG R. Big data privacy[J]. J Inform Tech SoftwEng, 2012(2): e114.
[40] WU X, ZHU X, WU G Q, et al. Data mining with big data[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(1): 97-107.
[41] AGGARWAL C C, PHILIP S Y. A General Survey of Privacy-Preserving Data Mining Models and Algorithms[M]. New York: Springer US, 2008.
[42] ATALL AHM, BERTINOE, ELMAGARMID A, et al. Disclosure limitation of sensitive rules[C]// Proceedings of Workshop on Knowledge and Data Engineering E xchange, November 7, 1999, Chicago, IL, USA. Piscataway: IEEE Press, 1999: 45-52.
[43] OLIVEIRA SRM, ZAIANE OR. Privacy preserving frequent itemset mining[C]// Proceedings of IEEE International Conference on Data Mining, Japan, December 9-12, 2002, Maebashi City. Piscataway: IEEE Press, 2002: 43-54.
[44] CHANGLW, MO SKOW ITZIS. An Integrated Framework for Database Inference and Privacy Protection[M]. Ifip Tc11/ Wg113 Fourteenth Working Conference on Database Security: Data & Application Security. New York: Springer US, 2000: 161-172.
[45] AG G ARWAL C, PEI J, ZHAN G B. A framework for privacy preservation against adversarial data mining[C]// Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 20-23, 2006, Philadelphia, USA. New York: ACM Press, 2006.
[46] AGR AWAL R, SRIK ANT R. Privac ypreserving data mining[J]. ACM SIGMOD Record, 2000, 29(2): 439-450.
[47] MOSKOWITZLW, CHANGIS. A Decision Theoretical Based System for Information Downgrading[R/OL]. (2011-08-27)[2015-11-20]. http://wenku.baidu. com/link?url=JAg4rujC4hcwRVbIulvyqgk MJaP fMQ41JAr8v4zfRmZwXWwBNndmD Um10WAIvXYEvlCWb2m34GnIBkADnLpg m8za3iyAHiDnChiaPZwthAW.
[48] CHANGLW,MOSKOWITZIS. Parsimonious downgrading and decision trees applied to the inference problem[C]// Proceedings of the 1998 Workshop on New Security Paradigms, Charlottesville, Virginia, USA, 1998. New York: ACM Press, 1998: 82-89.
[49] OLIVEIRASRM,ZAIANEOR. Privacy preserving clustering by data transformation[J]. Journal of Information and Data Management, 2010, 1(1): 37.
[50] VAID YA J,CLIFTONC. Privacy preserv in gk-meansclustering over vertically partitioned data[C]// Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 24-27, 2003, Washington DC, USA. New York: ACM Press, 2003: 206-215.
[51] SANDHU R S, SAMAR ATI P. Access control: principle and practice[J]. IEEE Communications Magazine, 1994, 32(9): 40-48.
[52] SANDHU R S. Lattice-based access control models[J]. Computer, 1993, 26(11): 9-19.
[53] ZHANG W, LI A, CHEEMA M, et al. Probabilistic n-of-N skyline computation over uncertain data streams[J]. World Wide Web, 2015, 18(5): 1331-1350.
[54] SANDHU R S, COYNE E J, FEINSTEIN H L, et al. Role-based access control models[J]. Computer, 1996(2): 38-47.
[55] KUHLMANN M, SHOHAT D, SCHIMPF G. Role mining-revealing business roles for security administration using data mining technology[C]// Proceedings of the 8th ACM Symposium on Access Control Models and Technologies, June 2-3, 2003, Como, Italy. New York: ACM Press, 2003: 179-186.
[56] R AY I, K UM AR M, Y U L J. L R BAC: a location-aware role-based access control model[C]// Proceedings of the 2nd International Conference on Information Systems Security, December 19-21, 2006, Kolkata, India. New York: Springer US, 2006: 147-161.
[57] DAMIANI M L, BERTINO E, CATANIA B, et al. Geo-rbac: a spatially aware rbac[J]. ACM Transactions on Information and System Security (TISSEC), 2007, 10(1): 2.
[58] 張穎君, 馮登國. 基于尺度的時空R BAC模型[J]. 計算機研究與發(fā)展, 2015, 47(7): 1252-1260. ZHANG Y J, FENG D G. A role-based access control model based on space, time and scale[J]. Journal of Computer Research and Development, 2010, 47(7): 1252-1260.
[59] ENE A, HORNE W, MILOSAVLJEVIC N, et al. Fast exact and heuristic methods for role minimization problems[C]// Proceedings of the 13th ACM Symposium on Access Control Model sand Technologies, June 11-13, 2008, Estes Park, CO, USA. New York: ACM Press, 2008: 1-10.
[60] 翟志剛, 王建東, 曹子寧, 等. 最小擾動混合角色挖掘方法研究[J]. 計算機研究與發(fā)展, 2015, 50(5): 951-960. ZHAI Z G, WANG J D, CAO Z N, et al. Hybrid role mining methods with minimal perturbation[J]. Journal of Computer Research and Development, 2015, 50(5): 951-960.
[61] BLUNDO C, CIMATO S. A simple role mining algorithm[C]//Proceedings of the 2010 ACM Symposium on Applied Computing, March 22-26, 2010, Sierre, Switzerland. New York: ACM Press, 2010: 1958-1962.
[62] NINO V V. Role mining over big and noisy data theory and some applications[D]. Roma: Roma Tre University, 2011.
[63] FELTUSC,PETITM,SLOMANM. Enhancement of business it alignment by including responsibility components in RBAC[C]//Proceedings of the 5th International Workshop on Business/IT Alignment and Interoperability BUSITAL, June 2010, Hammamet, Tunisia. [S.l.:s.n.], 2010.
[64] Attribute-based access control[EB/OL]. [2015-12-08]. https://en.wikipedia.org/wiki/Attribute-based_access_control.
[65] GOYAL V, PANDEY O, SAHAI A, et al. Attribute-based encryption for fine-grained access control of encrypted data[C]// Proceedings of the 13th ACM Conference on Computer and Communications Security, October 30-November 3, 2006, Alexandria, Virginia, USA. New York: ACM Press, 2006: 89-98.
[66] BOBBAR,KHURANAH, PRABHAK ARAN M. Attribute-sets: a practically motivated enhancement to attribute-based encryption[C]// Proceedings of the 14th European Symposium on Research in Computer Security, September 21-25, 2009, Saint-Malo, France. [S.l.: s.t.], 2009: 587-604.
[67] WAN Z, LIU J E, DENG R H. HASBE: a hierarchical attribute-based solution for flexible and scalable access control in cloud computing[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(2): 743-754.
[68] JIN X. Attribute-based access control models and implementation in cloud infrastructure as a service[D]. San Antonio: The University of Texas at San Antonio, 2014.
[69] LI A, HAN Y, ZHOU B, et al. Detecting hidden anomalies using sketch for highspeed network data stream monitoring[J]. Applied Mathematics and Information Sciences, 2012, 6(3): 759-765.
[70] YANGK,JIAX,RENK,etal. Enabling efficient access control with dynamic policy updating for big data in the cloud[C]// Proceedings of IEEE I N FO CO M, April 27-M ay 2, 2014, Toronto, Canada. Piscataway: IEEE Press, 2014: 2013-2021.
[71] BLAZEM,BLEUMERG,STR AU S S M. Divertible protocols and atomic proxy cryptography[C]// Proceedings of International Conference on the Theory and Application of Cryptographic Techniques Espoo, May 13, 1998, Finland. Berlin: Springer, 1998: 127-144.
[72] LI A, XU J, GAN L, et al. An efficient approach on answering top-k queries with grid dominant graph index[C]// Proceedings of the 15th Asia-Pacific Web Conference, April 4-6, 2013, Sydney, Australia. Berlin: Springer, 2013: 804-814.
[73] ZHANGWM,CHENB,YUNH. Improving various reversible data hiding schemes via optimal codes for binary covers[J]. IEEE Transactions on Image Processing, 2012, 21(6): 2991-3003.
[74] SUN W H, YU S C, LOU W J, et al.Protecting your right: attribute-based keyword search with fine-grained ownerenforced search authorization in the cloud[C]//Proceedings of IEEE Conference on Computer Communications, April 27-May 2, 2014, Toronto, Ontario, Canada. Piscataway: IEEE Press, 2014.
[75] WANG Y C, LI F H, XIONG J B, et al. Achieving lightweight and secure access control in multi-authorit y cloud[C]//Proceedings of the 14th IEEE International Conference on Trust, Security and Privacy in Computing and Communications, August 20-22, 2015, Helsinki, Finland. Piscataway: IEEE Press, 2015: 459-466.
Privacy preservation in big data: a survey
FANG Binxing1,2, JIA Yan2, LI Aiping2, JIANG Rong2
1. Beijing University of Posts and Telecommunications, Beijing 100876, China
2. School of Computer, National University of Defense Technology, Changsha 410073, China
Privacy disclosure issue becomes more and more serious due to big data analysis. Privacy-preserving techniques should be conductive to the big data applications while preserving data privacy. Since big data has the characteristics of huge scale, numerous sources and dynamic update, most traditional privacy preserving technologies are not suitable any more. Therefore, the concept of privacy and life cycle protection model of big data era were introduced firstly. Technical state of big data privacy preservation was elaborated from the points of view of four stages in big data life cycle, i.e. data publishing, storage, analysis and use. The relative merits and scope of application of each technology were investigated as well. Finally, some important direction and tendency of privacy preservation technologies for big data were suggested.
big data, privacy preservation, data dissemination, data mining, data access
TP309
A
10.11959/j.issn.2096-0271.2016001
方濱興(1960-),男,博士,中國工程院院士,主要研究方向為大數(shù)據(jù)、計算機網(wǎng)絡(luò)和信息安全。
賈焰(1960-),女,博士,國防科學(xué)技術(shù)大學(xué)教授,主要研究方向為大數(shù)據(jù)、網(wǎng)絡(luò)信息安全和社交網(wǎng)絡(luò)。
李愛平(1974-),男,博士,國防科學(xué)技術(shù)大學(xué)研究員,主要研究方向為大數(shù)據(jù)分析、數(shù)據(jù)挖掘和網(wǎng)絡(luò)信息安全。
江榮(1984-),男,博士,國防科學(xué)技術(shù)大學(xué)助理研究員,主要研究方向為隱私保護和網(wǎng)絡(luò)信息安全。
2015-12-24