亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)背景下數(shù)據(jù)可追蹤性應(yīng)用分析與方法研究*

        2020-11-06 08:30:44胡愛群胡奧婷李春國郭曉軍
        密碼學(xué)報 2020年5期
        關(guān)鍵詞:叛徒解密密鑰

        胡 韻, 胡愛群, 胡奧婷, 李春國, 郭曉軍

        1. 東南大學(xué), 南京211189

        2. 西藏民族大學(xué) 信息工程學(xué)院, 咸陽712082

        3. 紫金山實(shí)驗(yàn)室, 南京211189

        1 引言

        隨著物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等的興起和普及應(yīng)用, 不同種類傳感器、智能設(shè)備不斷從各領(lǐng)域匯總累積數(shù)據(jù), 形成了現(xiàn)如今復(fù)雜多變的大數(shù)據(jù)環(huán)境. 研究人員利用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等技術(shù)從錯綜復(fù)雜的數(shù)據(jù)結(jié)構(gòu)中提取出有價值的知識和信息, 已成為大數(shù)據(jù)環(huán)境下實(shí)現(xiàn)數(shù)據(jù)潛在價值的主要操作模式. 然而, 因分析挖掘出的數(shù)據(jù)中可能包含隱私信息, 如國家安全數(shù)據(jù)、企業(yè)機(jī)密內(nèi)容或個人金融賬戶等, 隨之帶來的數(shù)據(jù)安全威脅也日益嚴(yán)重[1]. 在合法操作中, 隱私信息只能由具有相應(yīng)權(quán)限的授權(quán)用戶獲取并操作. 然而在對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析、數(shù)據(jù)挖掘甚至開展對外合作共享時, 隱私信息的泄露事件經(jīng)常發(fā)生, 這是因?yàn)槟壳暗陌踩夹g(shù)很少能夠?qū)?shù)據(jù)進(jìn)行全生命周期、實(shí)時有效的追蹤和監(jiān)控操作.

        依據(jù)用戶類別的不同可將數(shù)據(jù)的安全威脅總結(jié)為兩個方面: 一是未授權(quán)用戶對數(shù)據(jù)信息的非法竊取和操作使用, 二是授權(quán)用戶對數(shù)據(jù)信息的越權(quán)獲取和非法傳播. 原則上, 只有授權(quán)的合法用戶才能依據(jù)自身權(quán)限或者密鑰獲取相應(yīng)的數(shù)據(jù)信息, 權(quán)限不夠、無對應(yīng)密鑰的未授權(quán)用戶不能隨意獲取相關(guān)數(shù)據(jù)信息.針對上述數(shù)據(jù)信息獲取模式, 有三種可能的攻擊方式, 如圖1中①、 ②、 ③三條攻擊路線所示. 其中①是指攻擊者利用協(xié)議漏洞獲取解密盒或者攻破防火墻等邊界防護(hù)獲取未加密的數(shù)據(jù)信息, 隨后向未授權(quán)用戶進(jìn)行散播, 如圖中①所示; 圖中②指系統(tǒng)內(nèi)部合法授權(quán)用戶可將獲取到的機(jī)密信息或者解密盒泄露散播出去,使得非授權(quán)用戶獲知機(jī)密信息或者非法登錄; 圖中③指系統(tǒng)中的授權(quán)用戶以共謀方式獲取更高的權(quán)限或更多的機(jī)密信息的同時, 盡可能消除非法操作或數(shù)據(jù)中的標(biāo)識性特征以逃避后續(xù)追查.

        圖1 攻擊模型圖Figure 1 Attack model

        為保證大數(shù)據(jù)背景下信息的安全性和完整性,當(dāng)前的研究多集中在對傳統(tǒng)技術(shù), 如訪問控制、加密、防火墻等加以改進(jìn)的方式, 以實(shí)現(xiàn)對信息的安全保障, 對大數(shù)據(jù)不同生命周期中安全問題提出了許多解決方案. 如El Ouazzani 等人[2]提出了改進(jìn)的基于K-匿名的大數(shù)據(jù)隱私保護(hù)技術(shù), 針對準(zhǔn)標(biāo)識符問題實(shí)現(xiàn)在數(shù)據(jù)發(fā)布時的匿名隱私保護(hù); Min 等人[3]利用完全同態(tài)加密算法解決大數(shù)據(jù)存儲中的安全問題, 有效避免了在進(jìn)行分布式處理時數(shù)據(jù)加解密過程的存儲安全問題; Deepak 等人[4]針對大數(shù)據(jù)應(yīng)用安全提出了網(wǎng)格化的信息流訪問控制算法, 通過確定系統(tǒng)用戶的訪問大數(shù)據(jù)資源的權(quán)限, 確保合適的數(shù)據(jù)及屬性在合適的時間被合適的用戶訪問.

        上述解決方案均將研究重點(diǎn)放在對系統(tǒng)或數(shù)據(jù)的隱私防護(hù)方面, 通過不斷疊加相關(guān)安全設(shè)備和技術(shù),最大程度抵抗因非法攻擊或越權(quán)訪問等導(dǎo)致的數(shù)據(jù)非法獲取及使用. 但在大數(shù)據(jù)環(huán)境下, 因環(huán)境、人為等因素, 隱私數(shù)據(jù)的泄露往往是不可避免的. 現(xiàn)實(shí)中, 數(shù)據(jù)一經(jīng)發(fā)布就難以對其實(shí)現(xiàn)追蹤和監(jiān)控等操作. 數(shù)據(jù)可追蹤性是指當(dāng)捕獲到被泄露給第三方的數(shù)據(jù)后, 能通過分析非法數(shù)據(jù)的相關(guān)特性, 追查到源頭和相關(guān)責(zé)任人, 并實(shí)施補(bǔ)救措施等. 目前對于此類問題的研究還較少, 也沒有適用切合的技術(shù)或者解決方案能夠全方位的解決大數(shù)據(jù)背景下的數(shù)據(jù)可追蹤性問題.

        本文重點(diǎn)探討大數(shù)據(jù)背景下, 因系統(tǒng)漏洞、非法及授權(quán)用戶以直接或者共謀方式攻擊導(dǎo)致數(shù)據(jù)信息發(fā)生泄露之后, 實(shí)現(xiàn)數(shù)據(jù)可追蹤性的追蹤問責(zé)方案. 通過對現(xiàn)有相關(guān)研究的分析對比, 認(rèn)為有三種技術(shù)能夠從不同的角度較好的解決部分問題, 分別為數(shù)據(jù)溯源技術(shù)、數(shù)字指紋技術(shù)和叛徒追蹤技術(shù).

        ·數(shù)據(jù)溯源技術(shù)利用標(biāo)記或函數(shù)推導(dǎo)等方式, 實(shí)現(xiàn)對數(shù)據(jù)從產(chǎn)生至消亡整個生命周期內(nèi)所經(jīng)歷的全部操作及變換信息的描述, 確保由原始數(shù)據(jù)派生的數(shù)據(jù)的真實(shí)可靠. 可利用其特點(diǎn)在捕獲到泄露的數(shù)據(jù)后, 分析數(shù)據(jù)相關(guān)屬性, 識別并追蹤到相關(guān)非法用戶、數(shù)據(jù)泄露源頭和路徑等信息, 并為后續(xù)法律工作準(zhǔn)備證據(jù)等.

        ·數(shù)字指紋技術(shù)是在數(shù)字產(chǎn)品中嵌入與用戶相關(guān)的編碼信息, 可通過提取指紋信息實(shí)現(xiàn)對數(shù)字產(chǎn)品的版權(quán)保護(hù)、追蹤盜版用戶的功能. 同時非法用戶可通過直接或者共謀形式消除、減弱數(shù)據(jù)標(biāo)識特征的方式, 如修改部分原始數(shù)據(jù)或只散播部分?jǐn)?shù)據(jù)逃避追責(zé), 對于這種情況, 也能依據(jù)殘留的數(shù)據(jù)特征信息鎖定泄露數(shù)據(jù)的源頭.

        ·叛徒追蹤技術(shù)是在廣播加密系統(tǒng)中利用加密和水印嵌入的方式實(shí)現(xiàn)對散播隱私數(shù)據(jù)的非法用戶的識別和追蹤. 其在捕獲到非法解密盒后, 利用有效算法檢測出至少一名參與制作非法解密盒的共謀用戶, 同時還可在截取到非法重放至系統(tǒng)的隱私信息后, 識別出部分或全部的非法授權(quán)用戶.

        本文通過對比分析三種技術(shù)在實(shí)現(xiàn)數(shù)據(jù)可追蹤性時的可行性和應(yīng)用狀態(tài), 重點(diǎn)探討它們面對大數(shù)據(jù)環(huán)境下復(fù)雜多變的數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu), 實(shí)現(xiàn)高效率、低延遲、高準(zhǔn)確性追蹤目標(biāo)時所面臨的問題, 并嘗試提出相關(guān)的應(yīng)對解決方案, 為后續(xù)提出可探索的研究方向. 上述三種技術(shù)能夠從不同角度解決數(shù)據(jù)可追蹤性的部分問題, 也能拓展應(yīng)用至大數(shù)據(jù)環(huán)境中. 需注意的是, 本文只關(guān)注三種技術(shù)在大數(shù)據(jù)背景下解決數(shù)據(jù)可追蹤性方面的相關(guān)研究, 對于它們解決如驗(yàn)證數(shù)據(jù)、歸屬性證明等其他方面問題的知識不做過多討論.

        本文結(jié)構(gòu)如下: 第2 節(jié)介紹數(shù)據(jù)溯源、數(shù)字指紋和叛徒追蹤這三種技術(shù)與實(shí)現(xiàn)數(shù)據(jù)可追蹤性相關(guān)的基礎(chǔ)概念、模型和方法等內(nèi)容; 第3 節(jié)分析數(shù)據(jù)可追蹤性解決方案應(yīng)具備的特性, 對比利用三種技術(shù)實(shí)現(xiàn)數(shù)據(jù)可追蹤性方面的側(cè)重點(diǎn)、優(yōu)劣勢等內(nèi)容, 并對三種技術(shù)應(yīng)用解決數(shù)據(jù)可追蹤性的可行性和應(yīng)用現(xiàn)狀進(jìn)行分析; 第4 節(jié)說明在大數(shù)據(jù)背景下, 實(shí)現(xiàn)解決數(shù)據(jù)可追蹤性應(yīng)具備的特性, 并重點(diǎn)分析說明三種技術(shù)作為可行的解決方案存在的問題以及解決途徑; 最后進(jìn)行總結(jié)分析, 并提出未來可行的研究探索方向.

        2 相關(guān)技術(shù)基礎(chǔ)知識介紹

        數(shù)據(jù)溯源、數(shù)字指紋和叛徒追蹤這三種技術(shù)能夠從不同的角度應(yīng)對解決數(shù)據(jù)可追蹤性問題, 同時在面對大數(shù)據(jù)環(huán)境時, 易通過簡單改進(jìn)或者與新型技術(shù)結(jié)合的方式進(jìn)行擴(kuò)展研究, 是較為理想的解決方案. 本節(jié)將介紹上述三種技術(shù)與實(shí)現(xiàn)數(shù)據(jù)可追蹤性相關(guān)的基礎(chǔ)知識.

        2.1 數(shù)據(jù)溯源技術(shù)

        2.1.1 數(shù)據(jù)溯源概念與模型

        數(shù)據(jù)溯源(Data Provenance) 技術(shù)是20 世紀(jì)90 年代針對數(shù)據(jù)庫所提出的追溯技術(shù), 旨在重現(xiàn)數(shù)據(jù)在整個生命周期內(nèi)的歷史狀態(tài)和演變過程. W3C 組織對數(shù)據(jù)溯源的定義為: 某個資源的數(shù)據(jù)溯源是一種記錄, 它描述了生產(chǎn)、影響、提供此資源的實(shí)體和過程, 是保證資源產(chǎn)品獲得可靠性, 建立信任和實(shí)現(xiàn)責(zé)任制的重要基礎(chǔ). 從數(shù)據(jù)追蹤層面考慮, 利用數(shù)據(jù)溯源技術(shù)重構(gòu)數(shù)據(jù)及其處理過程, 精確定位捕捉數(shù)據(jù)的來源以及異常發(fā)生的位置等, 實(shí)現(xiàn)數(shù)據(jù)審計(jì)追蹤和版權(quán)歸屬證明的功能. 其中審計(jì)追蹤指實(shí)現(xiàn)捕獲數(shù)據(jù)的產(chǎn)生過程, 找出數(shù)據(jù)間的映射關(guān)系, 定位數(shù)據(jù)在操作處理過程中錯誤或異常發(fā)生的位置并分析原因; 版權(quán)歸屬證明是通過數(shù)據(jù)間的引用來定位數(shù)據(jù)源頭, 查找數(shù)據(jù)的版權(quán)或知識產(chǎn)權(quán)歸屬.

        任何溯源功能的實(shí)現(xiàn)都需要建立在一個有效的溯源模型框架之上, 依據(jù)框架可以確定實(shí)現(xiàn)思路和基本步驟. 數(shù)據(jù)溯源模型架構(gòu)應(yīng)包含對溯源數(shù)據(jù)的獲取、溯源數(shù)據(jù)的存儲以及溯源追蹤操作. 如圖2所示.

        圖2 數(shù)據(jù)溯源模型框架Figure 2 Data provenance model

        溯源數(shù)據(jù)的獲取 溯源數(shù)據(jù)的獲取是實(shí)現(xiàn)溯源功能的基礎(chǔ), 早期對于溯源數(shù)據(jù)獲取主要是通過注釋的方式記錄數(shù)據(jù)的來源, 將數(shù)據(jù)和描述存儲在一起, 但這種方式易造成管理的混亂. 目前應(yīng)用較為廣泛的是W7 模型, 要求溯源信息應(yīng)該包括What、Where、Why、hoW、When、Who、Which 七個部分, What為W7 的核心, 記錄數(shù)據(jù)生命周期內(nèi)使其發(fā)生改變的事件, 其余六部分圍繞What 進(jìn)行描述.

        溯源數(shù)據(jù)的存儲 溯源數(shù)據(jù)通常需要占據(jù)比數(shù)據(jù)對象更大的空間, 傳統(tǒng)數(shù)據(jù)表形式的溯源存儲方案已不再適用于如今數(shù)據(jù)環(huán)境. 對溯源數(shù)據(jù)實(shí)現(xiàn)高效精簡的存儲是如今存儲方案研究的關(guān)鍵. 目前大部分存儲方案是基于FAI 機(jī)制改進(jìn)擴(kuò)展的, 該機(jī)制主要通過消除圖結(jié)構(gòu)中重復(fù)溯源子圖減少溯源信息, 但其未考慮對溯源圖中邊的壓縮. Web 壓縮算法利用相似性和局部性對起始節(jié)點(diǎn)號和連續(xù)節(jié)點(diǎn)的個數(shù)進(jìn)行編碼以減少存儲空間. 字典編碼通過掃描所有數(shù)據(jù)査找頻繁出現(xiàn)的字符, 用整數(shù)取代字符, 消除重復(fù)的信息串.

        標(biāo)準(zhǔn)化模型 研究人員提出了許多數(shù)據(jù)溯源標(biāo)準(zhǔn)化模型用以規(guī)范溯源流程等. 2007 年8 月發(fā)布的開放溯源模型(Open Provenance Model, OPM) 開啟了數(shù)據(jù)溯源標(biāo)準(zhǔn)化之門[5]. 隨后不斷有新的模型推出,如語義網(wǎng)環(huán)境下溯源表達(dá)模型PROV[6]、Provenir 數(shù)據(jù)溯源模型[7]等均為具有代表性的溯源標(biāo)準(zhǔn)化模型.

        (1) 開放溯源模型[5]: 定義了與技術(shù)無關(guān)的通用溯源模型, 能夠?qū)崿F(xiàn)在不同系統(tǒng)間溯源信息的互操作.通過定義節(jié)點(diǎn)和弧線描述數(shù)據(jù)溯源的有向圖, 為不同的系統(tǒng)提供可交換的溯源信息.

        (2) 語義網(wǎng)環(huán)境下溯源表達(dá)模型PROV[6]: 目前使用較為廣泛的模型, 其實(shí)現(xiàn)了異構(gòu)系統(tǒng)間的互操作以及溯源信息的傳遞. 但在處理大量數(shù)據(jù)和面對較為復(fù)雜的計(jì)算環(huán)境時, 需要在多個計(jì)算平臺進(jìn)行頻繁切換操作, 增加了計(jì)算的復(fù)雜度和成本.

        (3) Provenir 數(shù)據(jù)溯源模型[7]: 通過不同模塊組合的形式實(shí)現(xiàn)溯源功能, 因此具有較高的靈活性和可擴(kuò)展性. 此外模型提供修改溯源數(shù)據(jù)功能, 并能有效解決數(shù)據(jù)溯源存儲問題.

        上述三種標(biāo)準(zhǔn)化模型是從不同的角度構(gòu)建實(shí)現(xiàn)的, 其中數(shù)據(jù)溯源安全模型強(qiáng)調(diào)溯源鏈本身的安全, 其他幾種均是以實(shí)現(xiàn)對數(shù)據(jù)的溯本追源為目的. 開放溯源模型OPM 是數(shù)據(jù)溯源的基礎(chǔ)標(biāo)準(zhǔn)化模型, PROV模型是當(dāng)前網(wǎng)絡(luò)環(huán)境下最常用的一種數(shù)據(jù)溯源模型, Provenir 數(shù)據(jù)溯源模型與OPM 相比屬性信息的定義更加細(xì)致靈活, 與領(lǐng)域本體相結(jié)合就可以描述某一具體領(lǐng)域的溯源信息.

        2.1.2 數(shù)據(jù)溯源基本方法

        目前數(shù)據(jù)溯源的方法包括標(biāo)記法、逆查詢法、數(shù)據(jù)追蹤方法、利用圖論思想和專用查詢語言追蹤法以及以列存儲定位法等. 其中最常用的是標(biāo)記法和逆查詢法, 對實(shí)現(xiàn)大數(shù)據(jù)背景下的數(shù)據(jù)追蹤有借鑒意義的是數(shù)據(jù)追蹤方法和列存儲定位法.

        標(biāo)記法是指在執(zhí)行過程中對原始數(shù)據(jù)的背景、作者、時間、出處等重要信息進(jìn)行標(biāo)注, 并將標(biāo)注信息和原始數(shù)據(jù)進(jìn)行關(guān)聯(lián). 該方法的優(yōu)點(diǎn)是實(shí)現(xiàn)簡單, 容易實(shí)現(xiàn)和管理, 但因需要額外的空間存儲元數(shù)據(jù)(即標(biāo)注信息), 故只適用于小型的系統(tǒng). 對于大型數(shù)據(jù)集, 會導(dǎo)致元數(shù)據(jù)比原始數(shù)據(jù)占據(jù)更大空間, 難以提供細(xì)粒度數(shù)據(jù)溯源信息, 同時造成低查詢效率和高時間復(fù)雜度的結(jié)果.

        逆查詢法是為了應(yīng)對標(biāo)記法不適合大型數(shù)據(jù)的細(xì)粒度數(shù)據(jù)溯源而提出的, 主要通過構(gòu)造逆置函數(shù)來對數(shù)據(jù)進(jìn)行反向查詢, 從而對結(jié)果溯源. 使用逆查詢法最關(guān)鍵是構(gòu)造逆查詢機(jī)制, 機(jī)制的優(yōu)劣將直接決定溯源追蹤查詢算法的性能.

        數(shù)據(jù)追蹤方法主要是利用追蹤路徑和圖的概念, 將視圖作為元數(shù)據(jù)存儲, 在追蹤時通過解析得到追蹤路徑, 再根據(jù)路徑提取數(shù)據(jù). 列向量存儲定位法將源數(shù)據(jù)與元數(shù)據(jù)分離, 通過索引建立兩者的關(guān)聯(lián), 元數(shù)據(jù)中相同的內(nèi)容只需存儲一次, 其它保存行號即可.

        2.2 數(shù)字指紋技術(shù)

        2.2.1 指紋技術(shù)概念與模型

        數(shù)字指紋(Digital Fingerprinting) 技術(shù)是由數(shù)字水印技術(shù)發(fā)展得來, 其通過在數(shù)字產(chǎn)品中預(yù)先嵌入與獲得該數(shù)字產(chǎn)品的用戶有關(guān)的唯一性指紋編碼實(shí)現(xiàn)對用戶身份識別驗(yàn)證的目的. 當(dāng)發(fā)現(xiàn)盜版行為后, 數(shù)字產(chǎn)品發(fā)行商提取數(shù)字產(chǎn)品中的指紋碼識別出相關(guān)的非法用戶, 達(dá)到追蹤目的. 其中, 能否抵抗住魯棒性攻擊和共謀攻擊是衡量數(shù)字指紋可行性的重要標(biāo)準(zhǔn).

        (1) 魯棒性攻擊. 為應(yīng)對數(shù)字指紋的追蹤檢測, 不誠信用戶通過對嵌有指紋的數(shù)字產(chǎn)品進(jìn)行諸如裁剪、壓縮、加噪、縮放等方式修改處理, 以期達(dá)到削弱或消除指紋的目的.

        (2) 共謀攻擊. 多個擁有相同類別數(shù)字產(chǎn)品的不誠信用戶聯(lián)合起來, 通過比對彼此的數(shù)字產(chǎn)品, 識別出不同之處, 即判定為數(shù)字指紋. 再修改相應(yīng)指紋信息, 達(dá)到無法追蹤出盜版用戶的目的.

        數(shù)字指紋模型由分發(fā)系統(tǒng)和追蹤系統(tǒng)兩部分組成, 其中分發(fā)系統(tǒng)用于向數(shù)字產(chǎn)品中嵌入不同指紋, 包含數(shù)字指紋的編碼生成和指紋嵌入兩個過程; 追蹤系統(tǒng)實(shí)現(xiàn)對非法發(fā)布者追蹤, 包含數(shù)字指紋的提取和追蹤兩個過程, 同時整個過程通過發(fā)行商和用戶之間的協(xié)議規(guī)定各實(shí)體間的交互方式. 其中嵌入和提取采用數(shù)字水印的方法, 數(shù)字指紋的研究主要集中在指紋編碼、檢測追蹤和協(xié)議等方面. 具體框架如圖3所示.

        本節(jié)將著重闡述與解決數(shù)據(jù)可追蹤性相關(guān)的數(shù)字指紋編碼和協(xié)議等內(nèi)容.

        2.2.2 數(shù)字指紋編碼

        數(shù)字指紋的方案通常包含兩個部分: 編碼算法和追蹤算法, 編碼算法將用戶的個人標(biāo)識信息按照一定的規(guī)則進(jìn)行編碼, 生成帶有用戶指紋具有抗攻擊能力的副本; 追蹤算法是在發(fā)現(xiàn)盜版副本時, 運(yùn)用解碼規(guī)則判斷出非法傳播者并對非法用戶實(shí)現(xiàn)追蹤識別. 通常追蹤算法是依賴編碼算法生成的, 編碼算法的優(yōu)劣直接影響到追蹤算法的效率.

        目前對于數(shù)字指紋編碼研究主要集中在抵抗共謀攻擊的編碼技術(shù), 依據(jù)碼字的分布情況, 可分為連續(xù)指紋編碼方案[8]和離散指紋編碼方案[9].

        (1)連續(xù)指紋編碼方案[8]: 在取值區(qū)間上對每個碼元連續(xù)編碼. 最早是將高斯分布采樣序列作為待嵌入信息, 在生成指紋時, 為每個用戶隨機(jī)選取不同的高斯采樣序列, 且取值都是滿足高斯分布的隨機(jī)實(shí)數(shù)序列X. 當(dāng)捕獲非法樣本后, 提取嵌入的指紋信息X′, 將其與X 做檢測比對, 若相關(guān)值大于閾值, 就可認(rèn)定該非法樣本中含有用戶的指紋X . 因編碼長度會隨著用戶數(shù)量增多而變長, 指紋的檢測和追蹤算法的復(fù)雜度也會顯著增加, 該方案只適用于中小型用戶系統(tǒng).

        (2)離散指紋編碼方案[9]: 指碼元是離散的編碼方案. 要求其滿足嵌入假設(shè)(Marking Assumption),即合謀用戶通過對比他們的數(shù)字產(chǎn)品, 只能在相異之處進(jìn)行修改. 對于沒有被發(fā)現(xiàn)的指紋所在之處, 除非將產(chǎn)品變得無用, 否則無法對該處的指紋進(jìn)行修改. 但此方案的碼長和用戶的對數(shù)成正比, 當(dāng)系統(tǒng)用戶較多時, 為了保持較低的誤檢率, 必須持續(xù)增加碼長.

        圖3 數(shù)字指紋框架圖Figure 3 Digital fingerprinting framework

        離散指紋編碼是目前較為流行的指紋編碼方案, 主要研究集中在縮短碼字長度, 提高編碼效率, 增強(qiáng)抗合謀攻擊能力和提升用戶容量等方面. 最早的編碼方案是針對保護(hù)二進(jìn)制數(shù)據(jù)的c-Secure 碼[9], 其能夠以較高的概率從共謀副本中檢測出至少一個共謀者. Trappe 等人[10]基于組合學(xué)和區(qū)組編碼理論提出了一種抗共謀碼ACC 碼, 能夠較好的抵抗共謀攻擊, 但是存在大參數(shù)編碼困難, 組合設(shè)計(jì)算法不易實(shí)現(xiàn)的缺陷. 隨后一系列具有較高的魯棒性和可追蹤性編碼方案被提出, 如IPP 碼、FP 碼等, 但均適用于中小規(guī)模用戶的應(yīng)用. Silverberg 等人[11]利用糾錯碼(ECC) 的思想來構(gòu)造數(shù)字指紋編碼TA 碼, 實(shí)現(xiàn)高效編碼、解碼并且追蹤共謀者的目的. 在此基礎(chǔ)上, 又先后提出了c-TA 碼、層次編碼指紋等一系列編碼算法, 但它們對于共謀攻擊的魯棒性較差. 為此, Wang 等人[12]提出了基于分組的指紋編碼方案, 按照特定關(guān)系將用戶劃分為不同組, 大大降低了指紋檢測的復(fù)雜度, 提高了抗共謀攻擊的能力, 同時可容納更多的用戶量. 但其分組關(guān)系是靜態(tài)的, 很可能出現(xiàn)用戶跨組共謀生成新的盜版產(chǎn)品, 降低分組指紋系統(tǒng)的抗共謀攻擊性能. 表1總結(jié)對比了離散指紋編碼方案.

        表1 離散指紋編碼方案對比Table 1 Comparison of discrete fingerprinting coding schemes

        2.2.3 數(shù)字指紋協(xié)議

        數(shù)字指紋協(xié)議用于控制數(shù)字指紋處理流程中用戶和版權(quán)方之間的交互, 一般分為三種類型: 對稱的指紋協(xié)議、非對稱指紋協(xié)議和匿名指紋協(xié)議.

        對稱指紋協(xié)議規(guī)定發(fā)行商和用戶雙方擁有完全相同的指紋編碼副本. 通常由發(fā)行商將生成的帶有用戶指紋的數(shù)字產(chǎn)品分發(fā)給指定用戶, 這時發(fā)行商和用戶兩方均知道數(shù)字產(chǎn)品中的編碼內(nèi)容. 當(dāng)出現(xiàn)帶有某用戶指紋的非法副本時, 無法判定是授權(quán)用戶還是發(fā)行商非法傳播.

        針對這一問題, 研究人員提出了非對稱指紋協(xié)議, 規(guī)定只有可信第三方擁有用戶和數(shù)字指紋產(chǎn)品的匹配記錄. 當(dāng)出現(xiàn)非法副本時, 發(fā)行商提取數(shù)字產(chǎn)品中指紋與可信第三方中的記錄指紋編碼進(jìn)行核對, 實(shí)現(xiàn)對非法用戶的追責(zé).

        上述兩種協(xié)議均存在暴露用戶隱私的問題, 因此又提出了匿名指紋協(xié)議. 該協(xié)議引入可信的登記中心,負(fù)責(zé)對用戶的真實(shí)信息進(jìn)行登記, 同時為用戶發(fā)放購買中需要的驗(yàn)證信息, 確保用戶在購買的過程中不會泄漏自己的身份信息. 當(dāng)發(fā)現(xiàn)非法副本時, 發(fā)行商通過登記中心獲知非法副本的用戶信息. 匿名指紋協(xié)議包括準(zhǔn)匿名指紋協(xié)議和強(qiáng)匿名指紋協(xié)議, 準(zhǔn)匿名指紋協(xié)議不能防止發(fā)行商和登記中心聯(lián)合確定出用戶身份的可能, 強(qiáng)匿名指紋協(xié)議中無辜用戶不會被暴露, 同時也不能得到同一用戶的不同購買記錄.

        2.3 叛徒追蹤技術(shù)

        2.3.1 叛徒追蹤基本概念

        由密碼學(xué)技術(shù)衍生而來的叛徒追蹤(Traitor Tracing) 技術(shù)[13]主要應(yīng)用于廣播加密系統(tǒng)中, 為數(shù)據(jù)提供者(Data Supplier, DS) 提供對信息的安全傳播, 并能解決機(jī)密信息在泄露之后的追責(zé)問題.

        廣播加密系統(tǒng)指依據(jù)授權(quán)用戶付費(fèi)訂購相關(guān)業(yè)務(wù)的情況, 通過網(wǎng)絡(luò)實(shí)現(xiàn)同時為多名訂購業(yè)務(wù)的合法用戶提供高效加密的廣播信息服務(wù), 同時確保其他用戶無法解密或破譯廣播信息. 而叛徒追蹤技術(shù)主要用于抵抗廣播加密業(yè)務(wù)中的共謀密鑰攻擊和重放攻擊, 保證追蹤識別出構(gòu)造非法解密盒或者非法重放的相關(guān)用戶. 其中, 若某授權(quán)用戶將自己的解密密鑰提供給其他非授權(quán)用戶使用, 使得某一秘密消息被泄露或者使非授權(quán)用戶也享受服務(wù), 則稱提供密鑰的授權(quán)用戶為叛徒(Traitor), 而獲得密鑰的非授權(quán)用戶為盜版者(Pirator).

        通常DS 會面臨兩種類型的典型威脅: 共謀密鑰攻擊和重放攻擊.

        (1) 共謀密鑰攻擊. 多名叛徒利用個人解密密鑰合謀構(gòu)造非法解密盒, 該解密盒能以較大概率解密DS 廣播的加密信息.

        (2) 重放攻擊. 叛徒用戶將接收的內(nèi)容經(jīng)解密后轉(zhuǎn)存, 再發(fā)布給非授權(quán)用戶. 依據(jù)數(shù)字內(nèi)容的重放方式, 可分為即時和延時重放攻擊. 在即時重放攻擊中, 叛徒會實(shí)時重放所接收的秘密信息; 延時重放攻擊中, 叛徒先將所接收的信息存儲, 另選合適的時機(jī)進(jìn)行重放操作.

        針對上述兩種攻擊, 研究人員不斷提出相關(guān)解決方案. 不同方案間對比關(guān)系見表2所示.

        表2 叛徒追蹤方案對比Table 2 Comparison of traitor tracing schemes

        (1) 對抗共謀密鑰攻擊的叛徒追蹤方案. 為了對抗共謀密鑰攻擊, Chor 等人[13]在單向函數(shù)存在及大整數(shù)的素分解困難的密碼學(xué)假設(shè)的基礎(chǔ)上, 提出了對稱叛徒追蹤方案. 但存在用戶端密鑰存儲量有限和DS 可能誣陷無辜授權(quán)用戶的問題. 因此Kurosawa 等人[14]基于線性空間碼構(gòu)造了非對稱叛徒追蹤方案, 保證在不誣陷無辜用戶的基礎(chǔ)上實(shí)現(xiàn)叛徒的不可否認(rèn)性. Boneh 等人[15]在此基礎(chǔ)上改進(jìn)非對稱叛徒追蹤方案, 使廣播分組長度與用戶數(shù)量無關(guān). 此后基于不同公鑰密碼體制的叛徒追蹤方案相繼被提出.

        (2) 對抗重放攻擊的叛徒追蹤方案. 針對重放攻擊, 由Fiat 等人[16]提出基于水印嵌入假設(shè)的動態(tài)叛徒追蹤方案, 能夠有效對抗即時重放攻擊, 但是對延時重放攻擊無效. 故Safavi-Naini 等人[17]又提出了連續(xù)叛徒追蹤方案, 可以有效對抗兩種重放攻擊, 并追蹤識別所有參與重放攻擊的叛徒.Laarhoven 等人[18]提出著名二進(jìn)制Tardos 指紋碼的動態(tài)叛徒追蹤方案, 在代碼長度和合謀大小之間提供了一個很好的折衷. 之后許多針對Tardos 的改進(jìn)方案相繼提出.

        2.3.2 叛徒追蹤方案概述

        對稱叛徒追蹤[13]和非對稱叛徒追蹤[14]方案主要用于對抗共謀密鑰攻擊, 根據(jù)I/O 之間的關(guān)系確定非法解密盒中包含的解密密鑰, 從而能追蹤到合謀構(gòu)造非法解密盒的叛徒集合中的至少一名叛徒. 動態(tài)叛徒追蹤[16]和連續(xù)叛徒追蹤方案[17]主要用于對抗重放攻擊, 利用水印符號集和反饋信道追蹤重放信息的用戶, 即在獲取部分重放的數(shù)據(jù)內(nèi)容之后, 能夠準(zhǔn)確判斷參與重放的部分或者全部叛徒.

        (1) 對稱叛徒追蹤方案[13]廣播中心DS 與授權(quán)用戶掌握相同的解密密鑰. 當(dāng)檢測到非法解密盒時, DS 通過提取解密密鑰,找出至少一名合謀構(gòu)造非法解密盒的叛徒. 方案包含密鑰生成、加密、解密和追蹤算法四個部分.其中密鑰生成是在Hash 函數(shù)生成基本密鑰集中的每個行向量中取一個元素, 為每個用戶生成個人密鑰P (ui), 隨后利用隨機(jī)主密鑰(MK) 對P (ui) 和明文信息分別加密生成授權(quán)分組(EB)和密文分組(CB). 授權(quán)用戶解密時, 通過個人密鑰P (ui) 解密EB 合成主密鑰MK, 再對CB 進(jìn)行解密操作, 得到明文M. 當(dāng)DS 捕獲到非法解密盒時, 依據(jù)其中的非法密鑰, 比對識別出叛徒.

        (2) 非對稱叛徒追蹤[14]為解決對稱叛徒追蹤方案中, DS 可能誣陷合法授權(quán)用戶的威脅, 設(shè)計(jì)了基于公鑰加密機(jī)制的非對稱叛徒追蹤方案. 保障無辜用戶不被誣陷的同時, 叛徒也具有不可否認(rèn)性. 其由密鑰分發(fā)、加密、解密、追蹤和叛徒撤銷算法五個部分組成. 其中密鑰分發(fā)是DS 利用隨機(jī)選擇的多項(xiàng)式f(x)生成公鑰EK 以及每個用戶的私鑰PKi, 并實(shí)現(xiàn)DS 與用戶真實(shí)性驗(yàn)證以及公私鑰的配對驗(yàn)證.隨后利用公鑰EK 加密明文M 生成密文C. 授權(quán)用戶i 解密時, 利用私鑰PKi解密接收到的密文C. 當(dāng)DS 捕獲到非法解密盒時, 利用追蹤密鑰TK 對非法解密盒進(jìn)行黑盒驗(yàn)證, 利用I/O相關(guān)性與安全閾值關(guān)系判定叛徒. 因用戶的私鑰PKi由用戶本人唯一持有, 具有不可否認(rèn)型. 此外, 當(dāng)鎖定叛徒后, DS 還具有撤消叛徒解密的能力.

        (3) 動態(tài)叛徒追蹤方案[16]對授權(quán)用戶子集嵌入不同水印符號來對抗即時重放攻擊, DS 利用反饋通道接收并檢測當(dāng)前重放信息, 不斷調(diào)整水印嵌入方案, 保證重放信息的用戶最終被劃分至同一集合中. 動態(tài)叛徒追蹤方案包含水印發(fā)布和追蹤算法兩部分, 其中水印發(fā)布旨在讓授權(quán)用戶獲得嵌有水印符號的信息片段副本, 同時通過對稱密鑰方案對用戶子集得到不同的信息分組副本加解密. 追蹤算法旨在保證DS 在獲得重放信息副本的水印符號后, 通過反饋信道不斷重劃用戶子集確保所有叛徒在同一子集中.

        (4) 連續(xù)叛徒追蹤方案[17]針對動態(tài)叛徒追蹤方案無法對抗延時重放攻擊的缺陷, 提出了連續(xù)叛徒追蹤方案. 方案也包含水印發(fā)布和追蹤算法兩個部分, 其中水印發(fā)布方案依據(jù)叛徒上限預(yù)先生成水印分配表, 通過密鑰方案確保不同的用戶接收到不同的信息片段副本. 若用戶重放信息, 即選擇重放某個內(nèi)容片段的某個副本, 反饋信道能檢測到這些重放片段. 追蹤算法通過提取其中的水印符號, 合成反饋水印符號序列, 識別出叛徒用戶.

        3 數(shù)據(jù)可追蹤性分析

        本節(jié)在列舉完善的數(shù)據(jù)可追蹤性的解決方案應(yīng)具有的基本特性的基礎(chǔ)上, 對比分析數(shù)據(jù)溯源、數(shù)字指紋和叛徒追蹤三種技術(shù)作為實(shí)現(xiàn)數(shù)據(jù)可追蹤性的可行解決方案的優(yōu)劣勢、側(cè)重點(diǎn)等, 進(jìn)而對三種技術(shù)應(yīng)用解決數(shù)據(jù)可追蹤性的可行性和應(yīng)用現(xiàn)狀進(jìn)行分析.

        3.1 解決方案對比分析

        理想的數(shù)據(jù)可追蹤性解決方案應(yīng)能依據(jù)捕獲到的非法數(shù)據(jù), 通過消耗定量合理的計(jì)算和時間等資源,識別定位出全部或部分相關(guān)非法操作人員, 同時定位出數(shù)據(jù)非法泄露、散播或重放等操作的具體位置, 估算因非法操作造成的實(shí)際損失, 并依據(jù)當(dāng)前狀態(tài)實(shí)施補(bǔ)救措施, 以避免更多非法數(shù)據(jù)操作的發(fā)生, 恢復(fù)系統(tǒng)或數(shù)據(jù)環(huán)境的正常運(yùn)行. 完善的數(shù)據(jù)可追蹤性的解決方案應(yīng)具有以下基本特性.

        · 分析追蹤性: 經(jīng)可追蹤性解決方案處理過的數(shù)據(jù)應(yīng)在特定的權(quán)限或者密鑰作用下, 通過分析相關(guān)特性, 進(jìn)而定位到關(guān)聯(lián)步驟、責(zé)任人等信息, 實(shí)現(xiàn)對數(shù)據(jù)的追蹤定位功能;

        · 可用性: 在對數(shù)據(jù)進(jìn)行追蹤預(yù)處理時, 不應(yīng)對原始數(shù)據(jù)實(shí)現(xiàn)較大的改動. 即經(jīng)數(shù)據(jù)可追蹤性解決方案處理過的數(shù)據(jù)應(yīng)仍能達(dá)到原始數(shù)據(jù)在系統(tǒng)運(yùn)行中的應(yīng)用效果, 數(shù)據(jù)仍具有可用性;

        · 關(guān)聯(lián)性: 可追蹤性解決方案應(yīng)能保持?jǐn)?shù)據(jù)間的關(guān)聯(lián)性, 通過數(shù)據(jù)間的關(guān)聯(lián)特性才能更好地推斷出非法數(shù)據(jù)的源頭;

        · 易檢測性: 可追蹤性解決方案要能在確保可分析追蹤性的基礎(chǔ)上, 盡可能少的消耗系統(tǒng)各類計(jì)算和時間資源等. 需要消耗較大的資源實(shí)現(xiàn)對數(shù)據(jù)的追蹤操作是沒有實(shí)際意義的;

        · 安全性: 經(jīng)可追蹤性解決方案處理過的數(shù)據(jù)至少應(yīng)能保持與原始數(shù)據(jù)相同的安全等級;

        · 不易察覺性: 保證處理過的數(shù)據(jù)不被相關(guān)應(yīng)用人員察覺到對數(shù)據(jù)的改變;

        · 可復(fù)原性: 在捕獲到非法數(shù)據(jù)后, 在及時追蹤到非法操作的責(zé)任人的同時, 應(yīng)能及時矯正相關(guān)操作, 保證不會再次出現(xiàn)泄露數(shù)據(jù)事件, 同時恢復(fù)系統(tǒng)的正常運(yùn)行.

        目前未提出一種較為完善的數(shù)據(jù)追蹤方案, 數(shù)據(jù)溯源、數(shù)字指紋和叛徒追蹤三種技術(shù)均僅具有上述部分相關(guān)特性, 不能全面實(shí)現(xiàn)對數(shù)據(jù)的可追蹤性的需求.

        數(shù)據(jù)溯源技術(shù)旨在通過記錄的形式重現(xiàn)目標(biāo)數(shù)據(jù)整個生命周期的演變信息和處理內(nèi)容, 利用溯源定位數(shù)據(jù)泄露或產(chǎn)生錯誤的位置, 進(jìn)而分析出相關(guān)原因、確定責(zé)任人等, 其是幫助解決數(shù)據(jù)可追蹤性問題的重要技術(shù). 其側(cè)重通過目標(biāo)數(shù)據(jù)的關(guān)聯(lián)記錄, 找出數(shù)據(jù)間的映射關(guān)系, 重構(gòu)數(shù)據(jù)及其操作處理過程, 進(jìn)而實(shí)現(xiàn)對數(shù)據(jù)的追蹤. 由上可知, 利用數(shù)據(jù)溯源技術(shù)應(yīng)用解決數(shù)據(jù)可追蹤性能夠?qū)崿F(xiàn)對數(shù)據(jù)的分析追蹤性, 能保證數(shù)據(jù)可用性和關(guān)聯(lián)性. 但是隨著數(shù)據(jù)生命周期的延長, 對數(shù)據(jù)的檢測需要消耗越來越多的資源, 同時無法對原始數(shù)據(jù)和元數(shù)據(jù)的安全性進(jìn)行保證, 元數(shù)據(jù)直接與原始數(shù)據(jù)關(guān)聯(lián), 不具有不易察覺性, 也能針對已出現(xiàn)的非法操作進(jìn)行及時地恢復(fù)矯正.

        數(shù)字指紋技術(shù)旨在將用戶信息預(yù)先嵌入目標(biāo)數(shù)據(jù)中, 提取檢測嵌入非法數(shù)據(jù)的信息來確定相關(guān)責(zé)任人. 由此可知, 利用數(shù)字指紋技術(shù)應(yīng)用解決數(shù)據(jù)可追蹤性能夠?qū)崿F(xiàn)可分析追蹤性, 同時不易被察覺, 具備成熟的嵌入和檢測方法. 但是數(shù)字指紋技術(shù)需要改變部分原始數(shù)據(jù)的內(nèi)容, 對于用戶量較大或者原始數(shù)據(jù)冗余量較小的情況, 無法完全保證數(shù)據(jù)的可用性、安全性和關(guān)聯(lián)性, 同時也能針對已出現(xiàn)的非法操作進(jìn)行及時地恢復(fù)矯正.

        叛徒追蹤技術(shù)旨在利用特定的加密系統(tǒng)使得廣播出的信息能夠分發(fā)給特定的用戶, 利用算法分析非法解密密鑰盒或者非法重放信息, 定位到非法操作的用戶. 由此可知, 利用叛徒追蹤技術(shù)應(yīng)用解決數(shù)據(jù)可追蹤性能夠?qū)崿F(xiàn)對數(shù)據(jù)的分析追蹤, 同時因利用了加密及水印等算法, 數(shù)據(jù)能夠保證可用性, 同時整個技術(shù)具有較強(qiáng)的安全性. 同時現(xiàn)有的對抗共謀和重放攻擊的追蹤方案能夠?qū)ε淹接脩糇龀龀蜂N密鑰、重劃用戶集等操作, 具備一定的可復(fù)原性. 因?yàn)榧用艿人惴ㄊ枪_的, 所以不具備對操作的不易察覺性, 廣播的方式也使得數(shù)據(jù)間和用戶間的關(guān)聯(lián)性較弱.

        表3 顯示了三種技術(shù)作為數(shù)據(jù)可追蹤性的可行解決方案不同的特性和優(yōu)劣勢, 能夠更加清晰地說明它們之間的優(yōu)劣勢及對比關(guān)系.

        表3 相關(guān)技術(shù)特性對比Table 3 Characteristics comparison of related technologies

        3.2 可行性和應(yīng)用現(xiàn)狀分析

        3.2.1 數(shù)據(jù)溯源技術(shù)

        數(shù)據(jù)溯源技術(shù)因具有描述數(shù)據(jù)的起源和處理過程, 提供對數(shù)據(jù)的審計(jì)追蹤和版權(quán)歸屬證明, 可將其應(yīng)用于數(shù)據(jù)安全領(lǐng)域解決本文討論的數(shù)據(jù)可追蹤性問題. 通過分析非法數(shù)據(jù), 關(guān)聯(lián)特定的進(jìn)程和文件等元數(shù)據(jù), 嘗試還原數(shù)據(jù)從生成到出現(xiàn)問題的整個變換操作和運(yùn)行路徑, 定位到出現(xiàn)問題的節(jié)點(diǎn)甚至相關(guān)責(zé)任人.其在安全領(lǐng)域的應(yīng)用大致可分為兩類: 一是保證數(shù)據(jù)的本身安全可靠性, 依據(jù)溯源實(shí)現(xiàn)數(shù)據(jù)的重建. 通過溯源記錄的數(shù)據(jù)生成歷史和路徑等信息, 重建數(shù)據(jù)實(shí)現(xiàn)審計(jì)功能, 確保數(shù)據(jù)的可靠性; 二是對系統(tǒng)的入侵行為進(jìn)行準(zhǔn)確分析[19]. 不同于傳統(tǒng)系統(tǒng)入侵檢測通過分析系統(tǒng)或網(wǎng)絡(luò)日志方式, 通過溯源數(shù)據(jù)構(gòu)造系統(tǒng)運(yùn)行過程中所有數(shù)據(jù)和進(jìn)程間的依賴關(guān)系, 形成特定的溯源記錄鏈或圖. 在發(fā)生入侵事件時, 可依據(jù)鏈或圖中的關(guān)系對事件進(jìn)行分析, 找出入侵的整個攻擊路徑, 并追蹤到系統(tǒng)中數(shù)據(jù)的流向和攻擊源頭.

        在面對數(shù)據(jù)泄露、惡意散播和非法重放等狀況時, 通過對非法數(shù)據(jù)的溯源信息進(jìn)行數(shù)據(jù)的重建, 利用溯源的入侵檢測機(jī)制嘗試構(gòu)造相關(guān)溯源圖, 找出數(shù)據(jù)的具體入侵路徑, 還原數(shù)據(jù)生成的歷史和路徑等信息,找出非法數(shù)據(jù)產(chǎn)生源頭. 同時管理員可以對入侵?jǐn)?shù)據(jù)圖上標(biāo)記的每個時間進(jìn)行分析, 從而方便進(jìn)一步找出問題的節(jié)點(diǎn)或者系統(tǒng)漏洞.

        在面對海量異構(gòu)且變換復(fù)雜的數(shù)據(jù)環(huán)境時, 會出現(xiàn)查詢處理效率較低, 結(jié)果和性能不可靠等問題. 為此許多研究人員嘗試建立新的適用于大規(guī)模高復(fù)雜度數(shù)據(jù)環(huán)境的數(shù)據(jù)溯源模型. 如Appelbaum[19]提出了基于大數(shù)據(jù)環(huán)境下安全收集和審計(jì)溯源數(shù)據(jù)的模型, 重點(diǎn)突出溯源數(shù)據(jù)收集問題和數(shù)據(jù)審計(jì)問題. 利用數(shù)據(jù)溯源技術(shù)可以了解數(shù)據(jù)生命周期中的演變信息和處理過程, 在發(fā)現(xiàn)被泄露的數(shù)據(jù)后, 分析重建入侵路徑和方式, 追蹤問題節(jié)點(diǎn)或系統(tǒng)漏洞等, 實(shí)現(xiàn)數(shù)據(jù)追蹤的功能.

        3.2.2 數(shù)字指紋技術(shù)

        數(shù)字指紋技術(shù)利用數(shù)字產(chǎn)品的冗余性和隨機(jī)性, 向數(shù)字產(chǎn)品副本中嵌入與用戶相關(guān)的定量差異信息,使得分發(fā)的數(shù)字產(chǎn)品具有唯一性. 當(dāng)捕獲到非法泄露、散播或重放的數(shù)字產(chǎn)品時, 依據(jù)數(shù)字產(chǎn)品中嵌入的數(shù)字指紋編碼信息可定位相關(guān)非法用戶, 故可將其應(yīng)用于數(shù)據(jù)安全領(lǐng)域解決本文討論的數(shù)據(jù)可追蹤性問題. 它的最大優(yōu)勢是能夠以不易察覺的方式實(shí)現(xiàn)對數(shù)據(jù)分析追蹤操作. 即使非法用戶明確知道數(shù)字指紋的存在, 企圖利用某些方式去除指紋, 目前的指紋嵌入和檢測方法也能夠較為準(zhǔn)確的定位出部分非法用戶.

        數(shù)字指紋技術(shù)將指紋編碼嵌入相關(guān)數(shù)字產(chǎn)品中, 確保發(fā)布出去的產(chǎn)品在其生命周期內(nèi)均能實(shí)現(xiàn)可追蹤性. 當(dāng)發(fā)現(xiàn)非法傳播的數(shù)字產(chǎn)品的時候, 可依據(jù)該數(shù)字產(chǎn)品中嵌入的指紋編碼信息追查到非法用戶. 同時其能夠應(yīng)對以消除或減弱特征標(biāo)識的方式逃避追蹤的非法用戶或行為, 適用于解決數(shù)據(jù)可追蹤性問題.

        當(dāng)面對海量數(shù)字產(chǎn)品和復(fù)雜用戶關(guān)系時, 數(shù)字指紋技術(shù)在編碼、嵌入、檢測算法等方面均存在需要進(jìn)一步解決的問題. 如Chidambaram 等人[20]利用MD5 信息摘要形成數(shù)字指紋增強(qiáng)云計(jì)算中客戶數(shù)據(jù)的安全性, 保證了指紋編碼的不可更改性, 保證了數(shù)字指紋的魯棒性.

        3.2.3 叛徒追蹤技術(shù)

        叛徒追蹤技術(shù)是處理大用戶群體的數(shù)據(jù)安全分發(fā)和數(shù)據(jù)泄露或非法重放后的數(shù)據(jù)追蹤問題, 所以其非常適合用于解決數(shù)據(jù)可追蹤性問題. 叛徒追蹤技術(shù)所提出的數(shù)據(jù)追蹤方案按照算法可大致分為三類.

        (1) 將依據(jù)特定算法編制的解密密鑰放入解密盒中, 在追蹤過程中, 通過分析捕獲的盜版解密盒, 識別出至少一個叛徒[13,16];

        (2) 使用公鑰技術(shù), 利用代數(shù)運(yùn)算的方式為用戶分配私鑰. 在追蹤過程中, 可以實(shí)現(xiàn)叛徒的不可抵賴性以及不能陷害合法用戶的功能, 識別出至少一個叛徒[14,15];

        (3) 每個用戶的密鑰是根據(jù)用戶碼字分配給不同的用戶. 在追蹤過程中, 分析每個位使用的密鑰, 恢復(fù)所捕獲解碼器中嵌入的碼, 識別出至少一個叛徒[17].

        在面對密鑰泄露或者散播的狀況時, 叛徒追蹤技術(shù)能夠針對捕獲到的解密密鑰盒結(jié)合追蹤算法確定至少一名非法用戶. 在面對將解密后的信息重放狀況時, 叛徒追蹤技術(shù)能夠利用水印技術(shù)和反饋通道確定至少一名非法用戶. 同時若盡可能多的兼顧以下性質(zhì), 則能夠更好地應(yīng)對解決數(shù)據(jù)追蹤問題.

        · 完全抗共謀性: 保證任意用戶不能通過共謀構(gòu)造出一個完全不同的解密密鑰;

        · 黑盒追蹤性: 不需要打開非法解密盒, 通過I/O 即可確定解機(jī)盒包含的解密密鑰;

        · 完全撤消性: 撤消任意數(shù)量叛徒, 即不存在撤消門限;

        · 完全可恢復(fù)性: 完成撤消叛徒操作后無需更新其它個人解密鑰即可恢復(fù).

        針對特定應(yīng)用場景, 提出了許多較為綜合的實(shí)現(xiàn)叛徒追蹤解決方案. 除了能識別出叛徒用戶, 還能對識別出的叛徒用戶進(jìn)行權(quán)限撤銷等操作. 如Ahuja 等人[21]提出一種可追蹤的基于屬性的簽密方案, 擴(kuò)展ABS 技術(shù)構(gòu)造了一個可追蹤基于屬性的加密方案, 該方案可同時實(shí)現(xiàn)叛徒追蹤、細(xì)粒度的訪問控制、發(fā)送者匿名、消息完整性等功能.

        4 大數(shù)據(jù)背景下數(shù)據(jù)可追蹤性分析

        本節(jié)在分析大數(shù)據(jù)環(huán)境下實(shí)現(xiàn)數(shù)據(jù)可追蹤性還需具備的其他特性的基礎(chǔ)上, 進(jìn)一步分析說明數(shù)據(jù)溯源、數(shù)字指紋和叛徒追蹤三種技術(shù)在大數(shù)據(jù)背景下作為數(shù)據(jù)追蹤解決方案的適用性, 最后總結(jié)討論三種技術(shù)在大數(shù)據(jù)環(huán)境下實(shí)現(xiàn)數(shù)據(jù)可追蹤性應(yīng)用可能存在的問題以及解決途徑.

        4.1 特性分析

        大數(shù)據(jù)具有數(shù)據(jù)量大(Volume)、高速(Velocity)、類型多樣(Variety) 和蘊(yùn)含豐富數(shù)據(jù)價值(Value)等特點(diǎn). 因此, 在大數(shù)據(jù)這一特定的場景下實(shí)現(xiàn)數(shù)據(jù)的可追蹤性, 除了3.1小節(jié)總結(jié)的基本特性之外, 還需要針對大數(shù)據(jù)的特點(diǎn), 強(qiáng)調(diào)增加以下相關(guān)特性.

        · 并發(fā)性: 因數(shù)據(jù)量呈幾何倍數(shù)的增大, 需并發(fā)實(shí)現(xiàn)對數(shù)據(jù)的追蹤處理操作以降低數(shù)據(jù)檢測的消耗等;

        · 實(shí)時性: 大數(shù)據(jù)環(huán)境下各類操作的實(shí)時性要求高, 故需要實(shí)時反饋對數(shù)據(jù)的追蹤分析結(jié)果, 以保證高效性的需求;

        · 兼容性: 大數(shù)據(jù)環(huán)境下數(shù)據(jù)類型的多樣性, 使得追蹤的對象不再是單一的數(shù)據(jù)庫數(shù)據(jù), 實(shí)現(xiàn)對不同數(shù)據(jù)類型的兼容性追蹤;

        · 智能性: 交錯復(fù)雜且價值密度相對較低的龐大信息量需要具備一定智能型的追蹤分析操作.

        4.2 適用性分析

        依據(jù)3.1及4.1小節(jié), 本文提出的三種技術(shù)均不具備作為大數(shù)據(jù)背景下數(shù)據(jù)可追蹤性解決方案的所有特性. 接下來依據(jù)大數(shù)據(jù)的特點(diǎn), 從數(shù)據(jù)規(guī)模、處理速度、數(shù)據(jù)結(jié)構(gòu)和語義信息四個方面分析三種技術(shù)在大數(shù)據(jù)背景下解決數(shù)據(jù)可追蹤性問題的適用性.

        (1) 數(shù)據(jù)規(guī)模: 數(shù)據(jù)的采集、計(jì)算、存儲等操作過程中數(shù)據(jù)體量巨大是大數(shù)據(jù)的顯著特征, 故解決大

        數(shù)據(jù)環(huán)境下的數(shù)據(jù)可追蹤操作時, 應(yīng)充分考慮在面對大規(guī)模數(shù)據(jù)時解決方案的適用性. 其應(yīng)能兼顧足夠容量的采集、計(jì)算及存儲操作的設(shè)備, 或者能夠通過相關(guān)算法降低需采集、計(jì)算及存儲的數(shù)據(jù)容量. 從數(shù)據(jù)規(guī)模角度考慮, 三種技術(shù)可通過技術(shù)提升或新技術(shù)結(jié)合的方式適用解決大數(shù)據(jù)背景下的數(shù)據(jù)追蹤操作.

        · 數(shù)據(jù)溯源技術(shù). 龐大的數(shù)據(jù)量會增大溯源技術(shù)的執(zhí)行難度, 可選擇與新型應(yīng)用技術(shù)結(jié)合以期達(dá)處理追蹤大規(guī)模數(shù)據(jù)量的目的. 如Marchetti 等人[22]提出了一種針對網(wǎng)絡(luò)中數(shù)據(jù)泄露的溯源追蹤方法, 利用有向無環(huán)圖及K-means 聚類等方法對網(wǎng)絡(luò)流量監(jiān)控識別, 從而確定大型網(wǎng)絡(luò)中惡意活動的特定主機(jī). 此外, 隨著硬件的提升, 對于數(shù)據(jù)的容納量也相助提高, 有助于幫助溯源技術(shù)完成追蹤操作.

        · 數(shù)字指紋技術(shù). 數(shù)據(jù)規(guī)模的增大對數(shù)字指紋技術(shù)實(shí)現(xiàn)追蹤操作的考驗(yàn)是對嵌入編碼長度的限制, 特別是對于文本等冗余量較小的媒體對象編碼等指紋信息的嵌入. 可通過優(yōu)化編碼方式,更新信息嵌入方式等操作實(shí)現(xiàn)對大規(guī)模數(shù)據(jù)的分類分組標(biāo)記. 如Priebe 等人[23]利用水印技術(shù)添加加密安全標(biāo)簽和安裝監(jiān)視器的方式使得云租戶能夠?qū)崟r監(jiān)控其數(shù)據(jù)流.

        · 叛徒追蹤技術(shù). 面對大規(guī)模用戶數(shù)量及媒體信息對于密鑰盒的設(shè)計(jì)以及抵抗共謀攻擊具有很大的挑戰(zhàn). 目前已有研究通過改進(jìn)系統(tǒng)運(yùn)行方式解決追蹤過程中數(shù)據(jù)量大的追蹤問題. 如Wang 等人[24]在廣播加密機(jī)制中, 結(jié)合訪問控制機(jī)制實(shí)現(xiàn)數(shù)據(jù)所有者的云共享數(shù)據(jù), 并確保實(shí)現(xiàn)數(shù)據(jù)的安全分享和可追蹤性.

        (2) 處理速度: 實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下數(shù)據(jù)追蹤操作對處理速度具有一定的要求, 但絕大部分操作不對實(shí)時性有絕對要求. 同時隨著硬件處理速度的提升以及處理方式的改進(jìn), 針對非法數(shù)據(jù)相關(guān)責(zé)任的定位等操作三種技術(shù)均適用解決大數(shù)據(jù)背景下的數(shù)據(jù)追蹤操作.

        (3) 數(shù)據(jù)結(jié)構(gòu): 大數(shù)據(jù)環(huán)境下數(shù)據(jù)類型不再局限于結(jié)構(gòu)化形式, 更多的是半、非結(jié)構(gòu)化的數(shù)據(jù), 如音頻、視頻、圖片、地理位置信息等個性化數(shù)據(jù). 三種技術(shù)主要是針對結(jié)構(gòu)化數(shù)據(jù)類型設(shè)計(jì)實(shí)現(xiàn)的,若需要改進(jìn)至針對不同的數(shù)據(jù)類型實(shí)現(xiàn)數(shù)據(jù)可追蹤操作具有難度. 從數(shù)據(jù)結(jié)構(gòu)方面考慮, 數(shù)據(jù)溯源技術(shù)和叛徒追蹤技術(shù)因其操作方式較為適用于多樣化的數(shù)據(jù)類型, 而數(shù)字指紋技術(shù)可通過技術(shù)提升或新技術(shù)結(jié)合的方式適用解決大數(shù)據(jù)背景下的數(shù)據(jù)追蹤操作.

        · 數(shù)據(jù)溯源技術(shù). 在執(zhí)行追蹤操作時, 數(shù)據(jù)類型多樣化對于利用數(shù)據(jù)溯源技術(shù)實(shí)現(xiàn)追蹤操作的影響不大, 通過改進(jìn)提升如增加標(biāo)記屬性實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下的追蹤操作. Bertino 等人[25]就將數(shù)據(jù)溯源技術(shù)、機(jī)密訪問控制以及可信計(jì)算相結(jié)合, 提出了一種構(gòu)建安全數(shù)據(jù)來源路線鏈圖的方式, 確保不影響人員隱私的情況下, 實(shí)現(xiàn)數(shù)據(jù)來源的高度保證.

        · 數(shù)字指紋技術(shù). 不同類型的數(shù)據(jù)具有不同的冗余度、組織方式, 需設(shè)計(jì)不同的方式嵌入指紋信息. 面對復(fù)雜且不斷涌現(xiàn)新的數(shù)據(jù)結(jié)構(gòu)的狀況, 數(shù)字指紋技術(shù)實(shí)現(xiàn)追蹤操作具有較高的難度.目前大多針對單一數(shù)據(jù)類型提出基于數(shù)字指紋技術(shù)的追蹤方案, 如Ikegami 等人[26]針對網(wǎng)絡(luò)信息結(jié)構(gòu)提出了利用水印技術(shù)和反情報方法識別竊取機(jī)密信息的攻擊者, 將機(jī)密信息替換為包含嵌入式探測程序的虛擬數(shù)據(jù)以達(dá)到追蹤目的.

        · 叛徒追蹤技術(shù). 廣播加密信息通過加解密算法實(shí)現(xiàn)對非法數(shù)據(jù)的追蹤判別操作, 因此數(shù)據(jù)類型多樣化對于利用此技術(shù)實(shí)現(xiàn)追蹤操作的影響不大. 如Zhu 等人[27]就云計(jì)算環(huán)境中防止用戶濫用文件同步和共享提出了解決方案, 其利用基于門限公鑰密碼體制和訪問控制RBAC 模型實(shí)現(xiàn)有層次的加密, 保證了叛徒的追蹤和密鑰撤銷功能, 同時提高了效率和安全性.

        (4) 語義信息: 在海量信息中識別感知有價值的信息對于在大數(shù)據(jù)背景下實(shí)現(xiàn)叛徒追蹤操作具有非常重大的意義. 如何在價值密度較低的信息中, 結(jié)合業(yè)務(wù)邏輯并通過強(qiáng)大的機(jī)器算法來挖掘數(shù)據(jù)價值, 是大數(shù)據(jù)時代解決數(shù)據(jù)可追蹤性最需要解決的問題. 從語義信息方面考慮, 數(shù)據(jù)溯源技術(shù)可通過技術(shù)提升或新技術(shù)結(jié)合的方式適用解決大數(shù)據(jù)背景下的數(shù)據(jù)追蹤操作, 而數(shù)字指紋和叛徒追蹤技術(shù)對于因其處理方式對語義信息的識別需求不大.

        · 數(shù)據(jù)溯源技術(shù). 海量溯源信息的快速準(zhǔn)確的語義識別也是實(shí)現(xiàn)大數(shù)據(jù)可追蹤操作的方法之一,目前大多數(shù)研究結(jié)合機(jī)器學(xué)習(xí)技術(shù)同時消耗加大計(jì)算資源分類溯源信息, 從而達(dá)到定位相關(guān)信息的目的.

        · 數(shù)字指紋技術(shù). 向數(shù)字對象嵌入唯一編碼標(biāo)識, 通過提取檢測即可定位相關(guān)責(zé)任人, 故數(shù)字指紋技術(shù)不需要在執(zhí)行追蹤操作時提取識別語義信息.

        · 叛徒追蹤技術(shù). 通過設(shè)計(jì)加解密的算法識別叛徒信息, 故對語義信息的識別需求不大.表4綜合對比三種技術(shù)在大數(shù)據(jù)環(huán)境下作為數(shù)據(jù)可追蹤性的可行解決方案的適用性.

        表4 技術(shù)適用性對比Table 4 Comparison of applicability of technologies

        4.3 問題及解決途徑分析

        4.3.1 數(shù)據(jù)溯源技術(shù)分析

        在面對大規(guī)模、高并發(fā)、高復(fù)雜度的大數(shù)據(jù)應(yīng)用環(huán)境時, 數(shù)據(jù)溯源技術(shù)存在許多不足. 利用溯源技術(shù)實(shí)現(xiàn)對數(shù)據(jù)跟蹤、重建、定位到數(shù)據(jù)泄露的源頭是可行的. 但在嘗試使用溯源數(shù)據(jù)進(jìn)行數(shù)據(jù)追蹤的過程中,依舊存在許多問題. 特別是在大數(shù)據(jù)環(huán)境下, 因數(shù)據(jù)的復(fù)雜異構(gòu)、大規(guī)模等特性, 應(yīng)用溯源技術(shù)實(shí)現(xiàn)數(shù)據(jù)的可追蹤性, 需要重新考慮相關(guān)方法和流程, 才能保證更好的應(yīng)用實(shí)現(xiàn). 目前還沒有針對此方面的研究和相關(guān)實(shí)驗(yàn), 但結(jié)合已有的研究可以重點(diǎn)考慮和關(guān)注以下幾方面的問題.

        (1) 溯源數(shù)據(jù)量和存儲問題. 原始數(shù)據(jù)對應(yīng)著比其本身大若干倍的溯源數(shù)據(jù), 占用大量存儲空間. 即使經(jīng)過壓縮優(yōu)化存儲, 隨著不斷轉(zhuǎn)換處理, 溯源數(shù)據(jù)必然會占據(jù)越來越多的存儲空間. 在面對大數(shù)據(jù)環(huán)境中的海量數(shù)據(jù)和復(fù)雜操作, 原始數(shù)據(jù)和溯源數(shù)據(jù)存儲問題會變得異常困難. 隨著多媒體技術(shù)的發(fā)展, 圖像視頻等占據(jù)較大存儲空間的數(shù)據(jù)類型逐漸成為主要媒體資源, 數(shù)據(jù)量呈幾何倍數(shù)增長, 解決溯源數(shù)據(jù)量存儲和合理關(guān)聯(lián)問題是一個很大的挑戰(zhàn).

        (2) 效率問題. 數(shù)據(jù)重建的效率與數(shù)據(jù)間的映射依賴關(guān)系有著密切的關(guān)系, 如基于溯源的入侵檢測機(jī)制是通過檢測惡意進(jìn)程和被修改文件之間的依賴關(guān)系所構(gòu)成的溯源圖的邊是否和規(guī)則庫中匹配,判定入侵行為, 檢測效率受規(guī)則庫大小和相應(yīng)溯源圖的復(fù)雜度影響. 隨著數(shù)據(jù)量的增大和網(wǎng)絡(luò)環(huán)境的逐步復(fù)雜, 數(shù)據(jù)溯源技術(shù)在進(jìn)行數(shù)據(jù)追蹤操作時, 必然會帶來執(zhí)行效率降低的問題.

        (3) 資源開銷問題. 數(shù)據(jù)溯源溯源操作需要消耗系統(tǒng)和網(wǎng)絡(luò)等資源, 在利用數(shù)據(jù)溯源技術(shù)對數(shù)據(jù)進(jìn)行追蹤操作時, 會占用大量的空間和計(jì)算等資源開銷. 在面對越來越復(fù)雜的數(shù)據(jù)環(huán)境, 必然會占用更大的空間和使用更多的計(jì)算資源, 從而影響正常的系統(tǒng)運(yùn)行.

        (4) 數(shù)據(jù)定位問題. 面對大量溯源數(shù)據(jù), 如何快速準(zhǔn)確的定位到問題數(shù)據(jù)的相關(guān)溯源數(shù)據(jù)是一個很大的挑戰(zhàn). 在越來越復(fù)雜的數(shù)據(jù)環(huán)境下, 所產(chǎn)生的溯源信息是一個龐大且關(guān)系復(fù)雜的結(jié)構(gòu). 若只是利用傳統(tǒng)的數(shù)據(jù)溯源方法定位數(shù)據(jù), 識別指定數(shù)據(jù)的關(guān)聯(lián)的記錄、路徑直至源頭, 會造成低效率高消耗的情況.

        (5) 數(shù)據(jù)傳輸問題. 為了解決溯源數(shù)據(jù)量大的問題, 基于溯源的分布式系統(tǒng)被提出, 其可有效地應(yīng)用于云環(huán)境和網(wǎng)絡(luò)文件系統(tǒng)(Network File System, NFS) 中, 解決部分計(jì)算和存儲問題. 但極少有研究解決以此引發(fā)的網(wǎng)絡(luò)傳輸問題. 如何利用已有的網(wǎng)絡(luò)結(jié)構(gòu)和存儲系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)的高效傳輸交換是分布式溯源結(jié)構(gòu)應(yīng)解決的問題.

        結(jié)合現(xiàn)有研究, 嘗試提出以下解決途徑, 幫助改進(jìn)上述提出的一種或多種大數(shù)據(jù)環(huán)境下的數(shù)據(jù)追蹤問題, 可根據(jù)實(shí)際應(yīng)用組合解決相關(guān)問題.

        (1) 分布式結(jié)構(gòu). 利用分布式去中心或多中心化的網(wǎng)絡(luò)運(yùn)行方式, 通過分散存儲和計(jì)算中心, 減小溯源數(shù)據(jù)量, 提高運(yùn)行效率, 緩解資源開銷問題. 如將區(qū)塊鏈(Blockchain) 技術(shù)[28]與數(shù)據(jù)溯源技術(shù)結(jié)合, 區(qū)塊鏈可看成是由無數(shù)個數(shù)據(jù)塊連接而成的數(shù)據(jù)鏈. 區(qū)塊鏈的去中心或多中心化的特點(diǎn)也能夠很好滿足溯源的安全性和可靠性要求, 同時其關(guān)聯(lián)數(shù)據(jù)鏈的運(yùn)行模式能夠滿足數(shù)據(jù)溯源不可篡改性. 分布式結(jié)構(gòu)能夠分散數(shù)據(jù)處理中心, 很大程度上解決數(shù)據(jù)追蹤效率低和資源開銷大等問題. 但是分布式結(jié)構(gòu)會加大數(shù)據(jù)溯源時的數(shù)據(jù)定位難度以及增大數(shù)據(jù)傳輸開銷.

        (2) 優(yōu)化路徑算法. 在復(fù)雜的溯源記錄中快速找出與指定數(shù)據(jù)相關(guān)聯(lián)的溯源數(shù)據(jù)是決定數(shù)據(jù)溯源算法執(zhí)行效率的關(guān)鍵. 合適的路徑算法能夠快熟速定位問題數(shù)據(jù)源頭, 幫助提升運(yùn)算效率, 降低資源開銷.

        (3) 標(biāo)識化水印. 嘗試?yán)盟〖夹g(shù)在溯源數(shù)據(jù)中添加與原始數(shù)據(jù)相關(guān)的便于檢測的標(biāo)識ID, 可以在捕捉到問題數(shù)據(jù)后能夠快速識別出相關(guān)的原始數(shù)據(jù)和關(guān)聯(lián)數(shù)據(jù), 提升溯源效率. 但是這種方式必然是以增加數(shù)據(jù)量為代價.

        (4) 智能存儲概念. 為了解決大數(shù)據(jù)分布式溯源的傳輸問題, 可嘗試將存儲設(shè)備智能化, 將溯源的處理從主機(jī)下放到存儲設(shè)備, 提升處理效率, 減少溯源經(jīng)存儲設(shè)備在網(wǎng)絡(luò)上傳輸?shù)臄?shù)據(jù)量. 但是智能存儲是以消耗更多資源為代價, 在實(shí)現(xiàn)數(shù)據(jù)定位時也需要消耗更多的時間.

        表5列出了利用數(shù)據(jù)溯源實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下數(shù)據(jù)可追蹤性的可行解決途徑, 并標(biāo)識出它們能夠解決以及會引發(fā)的問題.

        4.3.2 數(shù)字指紋技術(shù)分析

        現(xiàn)有的數(shù)字指紋編碼、檢測算法無法解決大數(shù)據(jù)環(huán)境下用戶量大、關(guān)系復(fù)雜, 數(shù)據(jù)載體類型復(fù)雜多變,數(shù)據(jù)產(chǎn)生和處理速度要求高等引起的問題, 而這些問題的存在阻礙了利用數(shù)字指紋技術(shù)實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下數(shù)據(jù)可追蹤性的實(shí)際應(yīng)用.

        表5 基于數(shù)據(jù)溯源技術(shù)的數(shù)據(jù)可追蹤性解決途徑對比Table 5 Comparison of data traceability solutions based on data provenance technology

        (1) 用戶量和編碼問題. 大數(shù)據(jù)環(huán)境所帶來的高交互性必然會出現(xiàn)數(shù)據(jù)交易中用戶量增大、用戶間關(guān)系多變復(fù)雜的問題, 即使是最適用于大用戶容量的分組編碼, 也不能實(shí)現(xiàn)億級以上用戶編碼容量.較大的用戶量也會導(dǎo)致編碼效率低, 性能下降等問題. 在抗共謀攻擊方面, 當(dāng)共謀用戶數(shù)量過大時, 數(shù)字指紋的辨識性會極大減弱. 在大數(shù)據(jù)環(huán)境下, 限定碼字長度和控制共謀用戶數(shù)量必然要以控制用戶容量為代價, 而這與大數(shù)據(jù)應(yīng)用背景是相悖的.

        (2) 指紋檢測和提取效率問題. 為追蹤非法用戶, 傳統(tǒng)的數(shù)字指紋檢測算法多采用基于相關(guān)性的遍歷匹配方法, 而提取算法則是通過比對待測樣本和指紋樣本的相似度進(jìn)行判定. 大規(guī)模用戶會增加指紋檢測、提取的難度, 必然導(dǎo)致檢測和提取效率低下. 如何在不犧牲性能的前提下, 提高指紋檢測、提取效率是數(shù)字指紋應(yīng)用到大數(shù)據(jù)環(huán)境下進(jìn)行數(shù)據(jù)追蹤的挑戰(zhàn)性問題.

        (3) 數(shù)字指紋協(xié)議問題. 傳統(tǒng)的數(shù)字指紋系統(tǒng)中, 數(shù)據(jù)的檢測和追蹤一般是由發(fā)行商完成, 同時依靠可信第三方解決版權(quán)和追蹤紛爭. 但在大數(shù)據(jù)環(huán)境下, 網(wǎng)絡(luò)結(jié)構(gòu)發(fā)生了巨大的變化, 出現(xiàn)了不適合設(shè)立可信第三方機(jī)構(gòu)的交易模式, 任何用戶均可發(fā)布數(shù)據(jù), 數(shù)據(jù)一旦發(fā)布, 用戶就應(yīng)在其生命周期中應(yīng)具備對該數(shù)據(jù)追蹤和檢測的能力. 因此應(yīng)為大數(shù)據(jù)環(huán)境提出包容性強(qiáng)的數(shù)字指紋協(xié)議, 在保證盜版追蹤、版權(quán)保護(hù)的前提下, 更好地應(yīng)對復(fù)雜多變的交易模式.

        (4) 數(shù)據(jù)載體問題. 數(shù)字指紋的嵌入研究多集中在如圖像、視頻等信息分布較為稀疏的數(shù)字媒體上,然而對于應(yīng)用最為廣泛的以文本和數(shù)據(jù)集作為載體的數(shù)字產(chǎn)品因冗余信息較少, 很難嵌入一定量的誤差信息, 所以研究并不充分. 同時面對大數(shù)據(jù)環(huán)境下不斷新增的其他結(jié)構(gòu)的數(shù)字媒體, 數(shù)字指紋算法也無法提供合適的編碼及提取方案. 因此需要設(shè)計(jì)能夠以不同類型的數(shù)字媒體為載體,具有較高普適性的數(shù)字指紋算法方案.

        結(jié)合現(xiàn)有研究, 嘗試提出以下解決途徑, 幫助改進(jìn)上述提出的一種或多種大數(shù)據(jù)環(huán)境下的數(shù)據(jù)追蹤問題, 可根據(jù)實(shí)際應(yīng)用組合解決相關(guān)問題.

        (1) 優(yōu)化指紋編碼算法. 大數(shù)據(jù)背景下阻礙數(shù)字指紋技術(shù)進(jìn)行有效追蹤的根本原因是龐大的用戶量和復(fù)雜的用戶關(guān)系. 可結(jié)合分組思想實(shí)現(xiàn)數(shù)字指紋的編碼策略, 嘗試?yán)脵C(jī)器學(xué)習(xí)中訓(xùn)練或者聚類的方式使具有相近關(guān)系的用戶生成更為相似的編碼, 提高編碼和檢測效率和抗共謀攻擊能力. 但是此方式為提出更為合適數(shù)字指紋協(xié)議增加了難度.

        (2) 多中心化或去中心化結(jié)構(gòu). 可利用多中心化和去中心化的網(wǎng)絡(luò)結(jié)構(gòu), 建立多層或者圖狀指紋分發(fā)和檢測機(jī)制, 在面對億級用戶以上的網(wǎng)絡(luò)應(yīng)用時能夠極大地提升編碼嵌入、檢測和提取效率. 但是復(fù)雜結(jié)構(gòu)對提出更為合適數(shù)字指紋協(xié)議增加了難度.

        (3) 提升嵌入信息單元. 嘗試設(shè)計(jì)對數(shù)字產(chǎn)品包容性較強(qiáng)的方便快速的嵌入數(shù)字產(chǎn)品的信息單元, 可不局限于二進(jìn)制編碼的方式, 利用集成特性生產(chǎn)待嵌入的半成品信息單元, 在發(fā)布和追蹤數(shù)字產(chǎn)品時發(fā)行商只需要簡單操作即可快速實(shí)現(xiàn)指紋嵌入和檢測操作. 但是這種方式必然會因信息單元的復(fù)雜性提升編碼難度.

        (4) 智能嵌入和檢測裝置. 利用物聯(lián)網(wǎng)技術(shù), 將嵌入和檢測功能下放至PC 或存儲等低層設(shè)備, 提高操作效率的同時能應(yīng)對大數(shù)據(jù)背景下諸如P2P 的交易模式. 但這種方式會消耗過多資源, 增加編碼難度.

        表6列出了利用數(shù)字指紋技術(shù)實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下數(shù)據(jù)可追蹤性的可行解決途徑, 并標(biāo)識出它們能夠解決以及會引發(fā)的問題.

        表6 基于數(shù)字指紋技術(shù)的數(shù)據(jù)可追蹤性解決途徑對比Table 6 Comparison of data traceability solutions based on data fingerprinting technology

        4.3.3 叛徒追蹤技術(shù)分析

        叛徒追蹤技術(shù)專門應(yīng)用于廣播加密系統(tǒng), 在應(yīng)對大規(guī)模高交互數(shù)據(jù)環(huán)境和復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)時, 在用戶數(shù)量、抵抗攻擊、系統(tǒng)帶寬等方面還需要進(jìn)一步的改進(jìn).

        (1) 用戶量和計(jì)算復(fù)雜度問題. 對稱叛徒追蹤方案通過執(zhí)行循環(huán)操作找出叛徒用戶, 隨著用戶數(shù)目的增多, 追蹤算法識別出叛徒用戶所需的時間就越長; 非對稱叛徒追蹤方案的密鑰的形成、加密和解密步驟均需要大量的計(jì)算, 且計(jì)算量和用戶數(shù)量成正比; 動態(tài)和連續(xù)叛徒追蹤方案需要考慮與用戶量相關(guān)的信息片段的副本數(shù)量和信息片段數(shù)量, 而兩種數(shù)量的增加必然會增加水印嵌入、加密和檢測的計(jì)算復(fù)雜度. 在面對大數(shù)據(jù)環(huán)境下大規(guī)模用戶數(shù)量的實(shí)際情況, 解決計(jì)算復(fù)雜度以滿足實(shí)際應(yīng)用需求是關(guān)鍵問題.

        (2) 抵抗攻擊問題. 目前叛徒追蹤技術(shù)方案只能針對解決抵抗共謀密鑰攻擊和重放攻擊中的一種攻擊, 然而在現(xiàn)如今大數(shù)據(jù)環(huán)境下, 必然存在兩種攻擊同時生效的情況. 亟需一種對包容性強(qiáng)的叛徒追蹤方案, 能夠同時抵抗多種類型攻擊.

        (3) 系統(tǒng)帶寬問題. 叛徒追蹤方案在實(shí)現(xiàn)DS 與授權(quán)用戶的交互操作時, 如對視頻的加密、嵌入水印信息等需要占用較大的帶寬, 而數(shù)據(jù)交互量的增大會因帶寬因素導(dǎo)致數(shù)據(jù)追蹤失敗.

        (4) 識別叛徒問題. 對抗共謀密鑰攻擊的追蹤方案成功標(biāo)志是能否追蹤至少一名叛徒. 顯然這種方案并不能完全滿足DS 期望的盡可能追蹤識別出所有叛徒的的安全需求. 在大數(shù)據(jù)環(huán)境中, 叛徒間的交互更加復(fù)雜多變, 這導(dǎo)致通過現(xiàn)有叛徒追蹤算法識別出所有的叛徒更加困難.

        (5) 應(yīng)用場景方面. 叛徒追蹤技術(shù)主要是基于非可信公共信道向大量付費(fèi)授權(quán)用戶同時廣播加密信息的廣播加密系統(tǒng), 然而針對大數(shù)據(jù)環(huán)境下更復(fù)雜多變的網(wǎng)絡(luò)結(jié)構(gòu), 能否應(yīng)用叛徒追蹤技術(shù)成功高效地實(shí)現(xiàn)數(shù)據(jù)的追蹤, 還需進(jìn)一步的驗(yàn)證和改進(jìn).

        結(jié)合現(xiàn)有研究, 嘗試提出以下解決途徑, 幫助改進(jìn)上述提出的一種或多種大數(shù)據(jù)環(huán)境下的數(shù)據(jù)追蹤問題, 可依據(jù)實(shí)際應(yīng)用組合解決相關(guān)問題.

        (1) 基于群組策略. 依據(jù)規(guī)則將共同特征的用戶分組, 利用組屬性來提高識別率, 解決共謀密鑰攻擊等問題. 該方案能夠依據(jù)用戶屬性相似度輔助識別出更多的叛徒, 同時在一定程度上緩解大數(shù)據(jù)環(huán)境下計(jì)算復(fù)雜度問題, 但因分組關(guān)系會加大用戶間的交互, 進(jìn)而加重系統(tǒng)帶寬問題.

        (2) 優(yōu)化算法設(shè)計(jì). 設(shè)計(jì)提升算法使得公鑰長度、用戶解密鑰長度、廣播密文長度等均與用戶數(shù)量無關(guān), 進(jìn)而解決計(jì)算復(fù)雜度問題.

        (3) 水印技術(shù)引入. 在動態(tài)和連續(xù)叛徒追蹤方案中的水印發(fā)布策略能追蹤到全部叛徒用戶, 故可嘗試將水印發(fā)布策略融入到非對稱叛徒追蹤方案中, 保證抵抗共謀和重放兩種攻擊的同時識別出全部叛徒.

        (4) 分布式和智能設(shè)備引入. 傳統(tǒng)的叛徒追蹤方案的加密、密鑰分發(fā)、水印發(fā)布等操作均由數(shù)據(jù)提供者DS 實(shí)施, 在大數(shù)據(jù)背景下, 這種模式必然會引起計(jì)算復(fù)雜度和交互困難的問題. 通過進(jìn)行分布式設(shè)計(jì)和引入智能底層設(shè)備, 分布和下放部分DS 操作, 能夠減少DS 和用戶之間的交互, 降低叛徒追蹤方案中傳輸?shù)男畔⒘? 但是復(fù)雜的結(jié)構(gòu)不利于叛徒的識別.

        表7 列出了利用叛徒追蹤技術(shù)實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下數(shù)據(jù)可追蹤性的可行解決途徑, 并標(biāo)識出它們能夠解決以及會引發(fā)的問題.

        表7 基于叛徒追蹤技術(shù)的數(shù)據(jù)可追蹤性問題和解決途徑Table 7 Comparison of data traceability solutions based on traitor tracing technology

        5 總結(jié)與展望

        本文討論研究了在大數(shù)據(jù)背景下, 因未授權(quán)用戶的攻擊或者授權(quán)用戶以共謀、越權(quán)等方式導(dǎo)致數(shù)據(jù)信息發(fā)生泄露之后的數(shù)據(jù)可追蹤性的問題, 嘗試對三種可能實(shí)現(xiàn)解決的方案: 數(shù)據(jù)溯源技術(shù)、數(shù)字指紋技術(shù)和叛徒追蹤技術(shù)進(jìn)行綜合分析, 討論它們面對大數(shù)據(jù)環(huán)境中數(shù)據(jù)量大、數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜多變等特性的情況下, 實(shí)現(xiàn)數(shù)據(jù)追蹤并定位相關(guān)責(zé)任人等的可行性、應(yīng)用狀態(tài)、亟需解決問題以及對應(yīng)的解決方案等.通過分析比較, 三種技術(shù)均能從不同的方面解決大數(shù)據(jù)背景下數(shù)據(jù)的可追蹤性問題, 但均存在不同程度的缺陷.

        因此, 無論是在理論研究還是實(shí)際應(yīng)用領(lǐng)域, 對于大數(shù)據(jù)環(huán)境下數(shù)據(jù)可追蹤性問題的探索, 均存在許多難點(diǎn)和新的方向有待進(jìn)一步研究, 包括:

        (1) 針對分布式結(jié)構(gòu)的研究. 分布式結(jié)構(gòu)下各個站點(diǎn)相對獨(dú)立, 數(shù)據(jù)異構(gòu)等特點(diǎn), 使得通信、數(shù)據(jù)協(xié)同等其他操作將會更加頻繁, 造成帶寬及傳輸擁堵的狀況. 如何設(shè)計(jì)多點(diǎn)高效協(xié)同工作的分布式結(jié)構(gòu)的同時, 實(shí)現(xiàn)對數(shù)據(jù)的有效監(jiān)控與追蹤?如何在保證頻繁的信息交互、數(shù)據(jù)傳輸行為過程中,降低帶寬利用率, 保證追蹤效果?分布式結(jié)構(gòu)對于實(shí)現(xiàn)大數(shù)據(jù)背景下高效數(shù)據(jù)追蹤操作, 具有巨大的潛力和廣闊的應(yīng)用前景. 雖然在分布式結(jié)構(gòu)下對于數(shù)據(jù)可追蹤性問題的探索面臨著一系列新的挑戰(zhàn), 但若相關(guān)問題得到解決, 無疑會對數(shù)據(jù)追蹤的應(yīng)用起到巨大推動作用.(2) 針對低層追蹤設(shè)備的研究. 低層設(shè)備的智能化能夠?qū)崿F(xiàn)對數(shù)據(jù)的簡單處理, 如嘗試使用底層存儲設(shè)備實(shí)現(xiàn)對指紋的檢測等. 此方式能夠幫助解決中心處理器負(fù)載過大, 減輕因數(shù)據(jù)傳輸量大造成的帶寬負(fù)載壓力等問題. 針對現(xiàn)有網(wǎng)絡(luò)環(huán)境中龐大的低層設(shè)備數(shù)量, 升級開發(fā)經(jīng)濟(jì)、有效的低層設(shè)備可追蹤化技術(shù)或模塊, 是相關(guān)追蹤技術(shù)在大數(shù)據(jù)環(huán)境下降低系統(tǒng)帶寬、縮短追蹤時間的有效解決方案之一.(3) 針對群組策略的研究. 群組策略一直都是針對大型數(shù)據(jù)集或大規(guī)模用戶系統(tǒng)的有效解決方案, 可將其應(yīng)用于大數(shù)據(jù)環(huán)境下, 解決數(shù)據(jù)追蹤過程中出現(xiàn)的數(shù)據(jù)及用戶間關(guān)系復(fù)雜多變, 處理效率低下等問題. 提出依靠屬性特征實(shí)現(xiàn)具有高搜索定位效率的群組劃分方式, 能夠幫助解決對非法數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)或用戶的快速篩查, 提高追蹤識別的效率, 縮短追蹤時間.

        總之, 對于大數(shù)據(jù)環(huán)境下數(shù)據(jù)可追蹤性問題的研究還有許多工作需要深入探討, 本文以三種典型追蹤技術(shù)入手, 從理論和應(yīng)用的角度對數(shù)據(jù)可追蹤性問題進(jìn)行了剖析, 希望能夠?yàn)樵擃I(lǐng)域的研究者提供有價值的參考信息.

        猜你喜歡
        叛徒解密密鑰
        探索企業(yè)創(chuàng)新密鑰
        解密“熱脹冷縮”
        警察局的叛徒(上)
        我是一個叛徒
        牡丹(2021年11期)2021-07-20 05:24:58
        叛徒就在我們中間!
        解密“一包三改”
        密碼系統(tǒng)中密鑰的狀態(tài)與保護(hù)*
        炫詞解密
        一種對稱密鑰的密鑰管理方法及系統(tǒng)
        叛徒
        齊魯周刊(2017年50期)2018-01-02 00:21:09
        国产av精品一区二区三区不卡| 国产看黄网站又黄又爽又色| av中文字幕不卡无码| 中文字幕日本人妻一区| 久久精品中文字幕极品| 女优av福利在线观看| 日韩精品人妻系列中文字幕| 国产欧美日韩一区二区三区| 无码国产精品一区二区免费16| 欧洲乱码伦视频免费| 一本久道久久丁香狠狠躁| 亚洲国产高清精品在线| 久久国内精品自在自线图片| 热久久亚洲| 日本老年人精品久久中文字幕| 青青草视频在线观看绿色| 好紧好爽免费午夜视频| 开心五月激情综合婷婷色| 欧美国产高清| 国产一区二区三区特黄| av人摸人人人澡人人超碰下载| 亚洲一区二区三区成人网站| 日本a在线天堂| 国产一区二区三区在线观看蜜桃 | 亚洲韩日av中文字幕| 国产熟妇疯狂4p交在线播放| 亚洲依依成人亚洲社区| 免费视频成人 国产精品网站| 精品老熟女一区二区三区在线| 麻豆蜜桃av蜜臀av色欲av| 大地资源网最新在线播放| 国产老妇伦国产熟女老妇高清| 视频国产一区二区在线| 亚洲综合av永久无码精品一区二区| 车上震动a级作爱视频| 国产精品三级av一区二区| 亚洲女优中文字幕在线观看| 尤物视频在线观看| 亚洲午夜看片无码| 亚洲精品岛国av一区二区| 高潮毛片无遮挡高清视频播放|