佟玲玲,李鵬霄,段東圣,任博雅,李揚(yáng)曦
(國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)
近年來(lái),大數(shù)據(jù)分析技術(shù)已經(jīng)廣泛應(yīng)用在國(guó)家治理、企業(yè)運(yùn)行、個(gè)人日常生活等方方面面,數(shù)據(jù)成為重要的生產(chǎn)要素和最熱門(mén)的基礎(chǔ)資源,但同時(shí)海量的數(shù)據(jù)資源中往往蘊(yùn)含有關(guān)用戶個(gè)人、企業(yè),甚至國(guó)家重要行業(yè)的敏感、隱私信息,一旦遭到泄露或篡改,可能會(huì)給個(gè)人、企業(yè)甚至國(guó)家造成無(wú)法挽回的損失。如何在利用自身數(shù)據(jù)資源進(jìn)行大數(shù)據(jù)研究分析的同時(shí),避免敏感信息泄露的風(fēng)險(xiǎn),成為了大數(shù)據(jù)分析應(yīng)用領(lǐng)域眾多研究者關(guān)注的熱點(diǎn)問(wèn)題。數(shù)據(jù)脫敏(data masking)又稱(chēng)為數(shù)據(jù)漂白、數(shù)據(jù)去隱私化或數(shù)據(jù)變形,是指在保留數(shù)據(jù)初始特征的條件下,通過(guò)脫敏規(guī)則對(duì)敏感數(shù)據(jù)進(jìn)行數(shù)據(jù)的變形,避免未經(jīng)授權(quán)的用戶非法獲取,實(shí)現(xiàn)敏感數(shù)據(jù)在分享和使用過(guò)程中的安全保護(hù)。數(shù)據(jù)脫敏可以在保存數(shù)據(jù)原始特征的同時(shí)改變其真實(shí)值,在保留數(shù)據(jù)有效性的同時(shí)保持?jǐn)?shù)據(jù)的安全性,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù),避免敏感數(shù)據(jù)泄露的風(fēng)險(xiǎn)[1-6]。
目前,相關(guān)研究者已經(jīng)提出了多種方法用于解決數(shù)據(jù)脫敏相關(guān)問(wèn)題,但主要集中在文本或數(shù)據(jù)庫(kù)類(lèi)型的數(shù)據(jù),如k-匿名(k-anonymous)[1]、l-多樣性(l-diversity)[7]、t-保密(t-closeness)[8]等,并對(duì)傳統(tǒng)脫敏方法進(jìn)行了改進(jìn),如Sarada等[9]提出的基于最小最大歸一化算法、范圍映射脫敏算法,Gujjary和Saxena[10]提出的基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)脫敏算法,Zhou和Louis[11]提出的基于空間平滑的矩陣屏蔽算法,吳克河等[12]提出的基于敏感信息度量的t-保密改良技術(shù)等。國(guó)內(nèi)外研究主要關(guān)注具體脫敏方法并取得較多成果,但面向?qū)嶋H應(yīng)用的數(shù)據(jù)脫敏系統(tǒng)模型研究較少。Santos等[13]提出了一種針對(duì)數(shù)據(jù)庫(kù)的脫敏模型,張琦穎[14]和邵華西[15]分別提出了基于Spark分布式計(jì)算框架下數(shù)據(jù)脫敏系統(tǒng)模型,但這類(lèi)數(shù)據(jù)脫敏系統(tǒng)模型,在系統(tǒng)內(nèi)置統(tǒng)一的脫敏規(guī)則實(shí)現(xiàn)數(shù)據(jù)庫(kù)脫敏,或在脫敏方法上的遷移性和普適性尚有欠缺。例如,某些脫敏方法重在數(shù)據(jù)保護(hù),但會(huì)失去一些統(tǒng)計(jì)特征,適用于社交數(shù)據(jù)等數(shù)據(jù)冗雜性高的場(chǎng)景;某些方法兼顧數(shù)據(jù)保護(hù)和可用性,但計(jì)算復(fù)雜度高,適用于醫(yī)療、金融等數(shù)據(jù)精度要求高的場(chǎng)景。
隨著信息技術(shù)的不斷發(fā)展,文本、圖片、音頻等異構(gòu)數(shù)據(jù)量日益增大,大數(shù)據(jù)分析應(yīng)用場(chǎng)景也日趨復(fù)雜,在實(shí)際生產(chǎn)環(huán)境或非可信環(huán)境下的數(shù)據(jù)脫敏需求也各不相同,如何在數(shù)據(jù)交換、共享及使用等過(guò)程中實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)的精準(zhǔn)定向、高效脫敏,達(dá)到數(shù)據(jù)安全、可信和可用的目標(biāo),已經(jīng)成為了各行業(yè)數(shù)據(jù)產(chǎn)生者、使用者和管理者面臨的巨大挑戰(zhàn)。
針對(duì)異構(gòu)大數(shù)據(jù)環(huán)境下不同應(yīng)用場(chǎng)景下差異化的數(shù)據(jù)脫敏需求,本文提出了一種基于文本、音頻、圖片和數(shù)據(jù)庫(kù)等多樣化大數(shù)據(jù)的數(shù)據(jù)脫敏模型,該模型可實(shí)現(xiàn)不同應(yīng)用場(chǎng)景下異構(gòu)敏感數(shù)據(jù)的自動(dòng)標(biāo)注和分級(jí),并通過(guò)抽取數(shù)據(jù)預(yù)脫敏處理和脫敏效果評(píng)估,實(shí)現(xiàn)了多應(yīng)用場(chǎng)景下異構(gòu)數(shù)據(jù)的高效脫敏。
本文提出的數(shù)據(jù)脫敏方法基本框架主要包括4個(gè)模塊,即源數(shù)據(jù)預(yù)處理模塊、敏感數(shù)據(jù)標(biāo)注模塊、數(shù)據(jù)脫敏模塊、脫敏數(shù)據(jù)輸出及恢復(fù)模塊,具體描述如下:
1)源數(shù)據(jù)預(yù)處理模塊。用戶提交所需脫敏的源數(shù)據(jù)及應(yīng)用場(chǎng)景。源數(shù)據(jù)的提交形式包括txt、Word、Excel等類(lèi)型的文本數(shù)據(jù),JPG、PNG等類(lèi)型的圖片數(shù)據(jù),MP3、WAV等類(lèi)型的音頻數(shù)據(jù),MySQL、HIVE等數(shù)據(jù)庫(kù)數(shù)據(jù);應(yīng)用場(chǎng)景包括金融、醫(yī)療、社交、教育、政府、零售等。該模塊將原始數(shù)據(jù)及應(yīng)用場(chǎng)景進(jìn)行解析,并進(jìn)行統(tǒng)一格式轉(zhuǎn)換,將數(shù)據(jù)處理成下一模塊能夠識(shí)別的形式,用于敏感數(shù)據(jù)的識(shí)別和脫敏。
2)敏感數(shù)據(jù)標(biāo)注模塊。該模塊面向異構(gòu)數(shù)據(jù)類(lèi)型,采用機(jī)器學(xué)習(xí)方法和特定場(chǎng)景的敏感數(shù)據(jù)先驗(yàn)知識(shí)訓(xùn)練得到不同應(yīng)用場(chǎng)景下的敏感數(shù)據(jù)識(shí)別模型[16],實(shí)現(xiàn)敏感數(shù)據(jù)和非敏感數(shù)據(jù)的識(shí)別和標(biāo)注,并且為敏感數(shù)據(jù)分級(jí)(等級(jí)為數(shù)值1~10,等級(jí)越高,則該項(xiàng)數(shù)據(jù)越敏感)。
3)數(shù)據(jù)脫敏模塊。該模塊首先以10%的比例隨機(jī)抽取樣例數(shù)據(jù),判斷其類(lèi)型為文本、圖片、音頻或數(shù)據(jù)庫(kù)內(nèi)容,通過(guò)內(nèi)容的不同,選擇內(nèi)置的多種脫敏方法實(shí)現(xiàn)預(yù)脫敏操作(文本脫敏包括k-匿名、l-多樣性、t-保密、差分隱私、對(duì)稱(chēng)加密、非對(duì)稱(chēng)加密、保形加密和全同態(tài)加密等;圖片脫敏包括人臉替換、高斯模糊等;音頻脫敏包括空白音頻替換等;數(shù)據(jù)庫(kù)包括AES加密等)。然后,系統(tǒng)根據(jù)內(nèi)置規(guī)則計(jì)算數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、隱私保護(hù)度、時(shí)間復(fù)雜度、空間復(fù)雜度5個(gè)方面的內(nèi)容,得到多種脫敏方法的脫敏效果評(píng)價(jià)結(jié)果,即多個(gè)5維向量,并根據(jù)綜合評(píng)測(cè)推薦最合適的脫敏方法。最后,用戶根據(jù)需求選擇合適的脫敏方法,系統(tǒng)完成所有數(shù)據(jù)的脫敏操作。
4)脫敏數(shù)據(jù)輸出及恢復(fù)模塊。將上述操作1)識(shí)別的敏感數(shù)據(jù)替換成脫敏后的數(shù)據(jù),對(duì)授權(quán)用戶可恢復(fù)成用戶提交的原始數(shù)據(jù)格式,實(shí)現(xiàn)脫敏數(shù)據(jù)的授權(quán)訪問(wèn)。
圖1為本文提出的面向異構(gòu)大數(shù)據(jù)環(huán)境的數(shù)據(jù)脫敏模型,主要包括脫敏數(shù)據(jù)預(yù)處理、定制化脫敏策略、脫敏任務(wù)調(diào)度及脫敏數(shù)據(jù)恢復(fù)4部分。該模型集成了針對(duì)于文本、圖片、音頻和數(shù)據(jù)庫(kù)4種類(lèi)型數(shù)據(jù)的多種脫敏方法,對(duì)于數(shù)據(jù)庫(kù)脫敏,運(yùn)用AES對(duì)稱(chēng)加密算法對(duì)數(shù)據(jù)源進(jìn)行脫敏;對(duì)于文本脫敏設(shè)計(jì)8種算法,分別是k-匿名、l-多樣性、t-保密、差分隱私、對(duì)稱(chēng)加密、非對(duì)稱(chēng)加密、保形加密和全同態(tài)加密;對(duì)于圖片數(shù)據(jù),針對(duì)人臉數(shù)據(jù)設(shè)計(jì)替換和高斯模糊方法2種脫敏方式;對(duì)于音頻數(shù)據(jù),設(shè)計(jì)用空白音頻替換敏感音頻。此外,本文提出一種脫敏效果評(píng)估方法,針對(duì)預(yù)脫敏的結(jié)果,從數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、隱私保護(hù)度、時(shí)間復(fù)雜度、空間復(fù)雜度5個(gè)方面進(jìn)行量化評(píng)估,得到各種方法預(yù)脫敏的評(píng)測(cè)結(jié)果,并且通過(guò)不同的權(quán)值和影響因子進(jìn)行綜合計(jì)算,為用戶進(jìn)行推薦,根據(jù)用戶選擇確定最終的脫敏方法。
圖1 異構(gòu)大數(shù)據(jù)脫敏模型Fig.1 Data masking model for heterogeneous big data
本模塊采用靈活配置的方式,支持用戶實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)的選擇功能。在智能識(shí)別敏感數(shù)據(jù)的基礎(chǔ)上,操作人員可以將敏感數(shù)據(jù)指定具體數(shù)據(jù)源、數(shù)據(jù)庫(kù)、數(shù)據(jù)表及具體的屬性字段上,以應(yīng)對(duì)不同的業(yè)務(wù)需求。后續(xù)算法會(huì)根據(jù)用戶的選擇和定義將被指定為敏感的數(shù)據(jù)進(jìn)行脫敏處理,而其他未指定的數(shù)據(jù)則保持不變。本模塊由2個(gè)子模塊構(gòu)成:
1)數(shù)據(jù)信息提取。采用人工配置或語(yǔ)句查詢等方式,提取需進(jìn)行脫敏的數(shù)據(jù)源名稱(chēng)、數(shù)據(jù)庫(kù)名稱(chēng)列表、對(duì)應(yīng)數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)庫(kù)表列表、特定數(shù)據(jù)庫(kù)表結(jié)構(gòu)對(duì)應(yīng)的數(shù)據(jù)字段及相應(yīng)屬性等信息。對(duì)于新接入及現(xiàn)有各類(lèi)數(shù)據(jù)源,能夠較為方便總覽其全部數(shù)據(jù)及不同數(shù)據(jù)表之間的關(guān)聯(lián)信息,便于后續(xù)敏感數(shù)據(jù)的選擇。
2)敏感信息設(shè)置。用戶按照法律法規(guī)或標(biāo)準(zhǔn)規(guī)范等要求對(duì)敏感數(shù)據(jù)預(yù)設(shè)分類(lèi),并依據(jù)不同應(yīng)用場(chǎng)景需求構(gòu)建原始敏感數(shù)據(jù)知識(shí)庫(kù)和分級(jí)規(guī)則。對(duì)于待脫敏數(shù)據(jù),依據(jù)其數(shù)據(jù)類(lèi)型的不同,分別采用自然語(yǔ)言處理和文本識(shí)別、多媒體內(nèi)容理解和識(shí)別等技術(shù),對(duì)待脫敏數(shù)據(jù)進(jìn)行準(zhǔn)實(shí)時(shí)處理,識(shí)別出敏感數(shù)據(jù),同時(shí)設(shè)計(jì)人工反饋機(jī)制,可針對(duì)敏感數(shù)據(jù)識(shí)別結(jié)果進(jìn)行修正,并逐步達(dá)到最優(yōu)識(shí)別結(jié)果。此外,需明確各類(lèi)敏感數(shù)據(jù)的具體數(shù)據(jù)類(lèi)型,如針對(duì)文本數(shù)據(jù)是中文字符、英文字符、特殊字符等,以便后續(xù)最優(yōu)脫敏策略的選擇。
如圖1所示,定制化脫敏策略模塊主要包括可恢復(fù)性選擇、脫敏方法選擇、脫敏參數(shù)設(shè)置等。
1)可恢復(fù)性選擇。按照脫敏后的數(shù)據(jù)能否恢復(fù)到原始數(shù)據(jù)來(lái)劃分,現(xiàn)有的脫敏方法可以分為可恢復(fù)與不可恢復(fù)兩大類(lèi),以滿足不同任務(wù)需求。可恢復(fù)方法主要以數(shù)據(jù)加密方法為主,在數(shù)據(jù)加密的過(guò)程中會(huì)同時(shí)生成相應(yīng)的解密密鑰等,加密后的數(shù)據(jù)可依據(jù)實(shí)際使用需求,通過(guò)解密密鑰還原為原始數(shù)據(jù);不可恢復(fù)數(shù)據(jù)脫敏方法在使用匿名、替換等操作后,無(wú)法還原原始數(shù)據(jù),因此在信息保留上存在一些損失。
2)脫敏方法選擇。根據(jù)用戶在上一模塊的選擇,系統(tǒng)將分別提供不同的方法,這些方法各有優(yōu)缺點(diǎn),適用于不同的應(yīng)用場(chǎng)景,用戶可根據(jù)需求進(jìn)行靈活選擇。其中,主流不可恢復(fù)脫敏方法包括k-匿名、l-多樣性、t-保密、差分隱私;主流可恢復(fù)脫敏方法包括對(duì)稱(chēng)加密、非對(duì)稱(chēng)加密、保形加密、全同態(tài)加密等。其共同基本原理為:針對(duì)待脫敏數(shù)據(jù),組合使用各類(lèi)基礎(chǔ)數(shù)據(jù)脫敏操作,以達(dá)到每種方法各自的脫敏規(guī)范。
針對(duì)不同數(shù)據(jù)類(lèi)型,可使用的基礎(chǔ)脫敏操作不同,具體的對(duì)應(yīng)關(guān)系如表1所示。
表1 不同數(shù)據(jù)類(lèi)型的常用脫敏操作Table 1 Commonly used data masking operation for different data types
3)脫敏參數(shù)設(shè)置。一些方法具有可調(diào)節(jié)的參數(shù)。例如,k-匿名中的k可以看作是控制脫敏力度的指標(biāo)。k-匿名要求對(duì)于任意一行紀(jì)錄,其所屬的相等集內(nèi)紀(jì)錄數(shù)量不小于k,即至少有k-1條記錄半標(biāo)識(shí)列屬性值與該條記錄相同,即增大k的值,敏感數(shù)據(jù)會(huì)隱藏的更好,但相應(yīng)地需要操作的數(shù)據(jù)條數(shù)、數(shù)據(jù)長(zhǎng)度也會(huì)增加,因此導(dǎo)致更多的信息損失。用戶可根據(jù)具體需求進(jìn)行參數(shù)的設(shè)置,以完成脫敏方法的針對(duì)性定制。
圖2為基于該脫敏策略的定制化脫敏流程,該過(guò)程中需要考慮的因素主要包括:
圖2 定制化數(shù)據(jù)脫敏流程Fig.2 Customized data masking process
1)數(shù)據(jù)可用性。即脫敏后的數(shù)據(jù)應(yīng)能滿足分析應(yīng)用需求,若脫敏后的數(shù)據(jù)無(wú)法用于目標(biāo)分析及應(yīng)用,就不具有使用價(jià)值。在特定的應(yīng)用場(chǎng)景中,可能需要保留部分非關(guān)鍵信息(如身份證號(hào)碼、手機(jī)號(hào)碼的部分字段、數(shù)據(jù)的統(tǒng)計(jì)分析特征等)才能滿足分析要求。
2)數(shù)據(jù)關(guān)聯(lián)性。對(duì)于結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),在同一數(shù)據(jù)表中某字段與另外字段有對(duì)應(yīng)關(guān)系,如果脫敏方法破壞了這種關(guān)系,該字段的使用價(jià)值將不復(fù)存在。
3)隱私保護(hù)度。數(shù)據(jù)中原本隱含的敏感信息在脫敏后被其他人獲取的難易程度,獲取敏感信息的難度越高,則隱私保護(hù)度越高。
4)時(shí)間復(fù)雜度。即脫敏方法對(duì)數(shù)據(jù)進(jìn)行脫敏所需要的時(shí)間,在保證敏感數(shù)據(jù)滿足保護(hù)條件的前提下,所需計(jì)算時(shí)間越短越好。
5)空間復(fù)雜度。即脫敏方法對(duì)數(shù)據(jù)進(jìn)行脫敏所需要的存儲(chǔ)和計(jì)算空間。
1)任務(wù)調(diào)度。由于本文模型是面向大數(shù)據(jù)應(yīng)用環(huán)境的,需要處理的數(shù)據(jù)量可能會(huì)非常大,利用大數(shù)據(jù)計(jì)算環(huán)境執(zhí)行分布式數(shù)據(jù)脫敏任務(wù)會(huì)極大提高任務(wù)的執(zhí)行效率。任務(wù)調(diào)度模塊通過(guò)對(duì)脫敏任務(wù)的數(shù)據(jù)量、各算法的執(zhí)行效率、各節(jié)點(diǎn)的計(jì)算性能進(jìn)行評(píng)估,將總體脫敏任務(wù)分解為若干個(gè)子任務(wù)并分配給對(duì)應(yīng)子節(jié)點(diǎn)執(zhí)行。
2)任務(wù)執(zhí)行。根據(jù)任務(wù)調(diào)度結(jié)果,將脫敏方法下發(fā)至各對(duì)應(yīng)子節(jié)點(diǎn),子節(jié)點(diǎn)接受方法后開(kāi)始對(duì)分配的敏感數(shù)據(jù)進(jìn)行脫敏。脫敏完成后,將結(jié)果返回并整合匯總形成最終脫敏后的數(shù)據(jù)結(jié)果。
由于敏感數(shù)據(jù)的重要性,在實(shí)際應(yīng)用中對(duì)部分脫敏數(shù)據(jù)的恢復(fù)時(shí),需要進(jìn)行嚴(yán)格的權(quán)限管理。
申請(qǐng)人員需要先提出申請(qǐng),說(shuō)明需要數(shù)據(jù)恢復(fù)的原因、需要恢復(fù)的具體數(shù)據(jù)項(xiàng)等信息,并進(jìn)行相應(yīng)的權(quán)限認(rèn)證。在通過(guò)權(quán)限認(rèn)證模塊審核后,可在系統(tǒng)內(nèi)執(zhí)行相應(yīng)的數(shù)據(jù)解密模塊,并將數(shù)據(jù)恢復(fù)結(jié)果返回給特定申請(qǐng)用戶。
本文所提異構(gòu)大數(shù)據(jù)脫敏模型中4個(gè)關(guān)鍵模塊具有較低的功能耦合度,又相互數(shù)據(jù)流關(guān)聯(lián)實(shí)現(xiàn)了完整脫敏流程,從而使用該脫敏模型無(wú)需改變?cè)械臉I(yè)務(wù)數(shù)據(jù)邏輯,可確保數(shù)據(jù)整體安全性。此外,脫敏后數(shù)據(jù)恢復(fù)則需要嚴(yán)格權(quán)限認(rèn)證才可獲得解密密鑰,滿足了用戶安全性需求。
本文提出的脫敏模型中定制化脫敏策略模塊可提供靈活的脫敏規(guī)則配置及脫敏規(guī)則擴(kuò)展,用戶可以通過(guò)靈活調(diào)整配置參數(shù),達(dá)到所設(shè)計(jì)的脫敏效果,實(shí)現(xiàn)了完全透明的、可擴(kuò)展的數(shù)據(jù)脫敏處理能力。脫敏任務(wù)調(diào)度模塊充分考慮了計(jì)算性能可擴(kuò)展能力,通過(guò)采取多節(jié)點(diǎn)協(xié)作的分布式計(jì)算來(lái)提升計(jì)算效率,結(jié)合算法執(zhí)行效率、單節(jié)點(diǎn)計(jì)算性能,將數(shù)據(jù)脫敏任務(wù)分解為若干個(gè)子任務(wù)后,分配給對(duì)應(yīng)子節(jié)點(diǎn)進(jìn)行計(jì)算,因此可方便增加子節(jié)點(diǎn)來(lái)擴(kuò)展數(shù)據(jù)處理能力。
針對(duì)數(shù)據(jù)脫敏策略選擇,通過(guò)層次分析法[17]對(duì)用戶數(shù)據(jù)脫敏需求和提供的脫敏方法匹配度進(jìn)行了形式化描述和定量化分析。該方法以脫敏數(shù)據(jù)的隱私保護(hù)度、數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、時(shí)間復(fù)雜度、空間復(fù)雜度5項(xiàng)指標(biāo)為用戶選擇脫敏方法的判斷準(zhǔn)則,主要包括4個(gè)步驟:①建立脫敏策略選擇層次結(jié)構(gòu)模型;②構(gòu)造判斷矩陣;③層次單排序及其一致性檢驗(yàn);④層次總排序及其一致性檢驗(yàn)。
以面向文本數(shù)據(jù)的8種脫敏方法為例,對(duì)本文提出的脫敏策略執(zhí)行過(guò)程進(jìn)行描述。將決策的目標(biāo)、考慮的因素(判斷準(zhǔn)則)和決策對(duì)象按相互關(guān)系分成目標(biāo)層、準(zhǔn)則層和方案層,形成層次化結(jié)構(gòu)模型,如圖3所示。
圖3 數(shù)據(jù)脫敏策略層次結(jié)構(gòu)模型Fig.3 Hierarchical model of data masking strategy
根據(jù)用戶選擇脫敏方法的5項(xiàng)判斷準(zhǔn)則優(yōu)先級(jí)要求,設(shè)定構(gòu)造判斷矩陣A=(aij),aij表示第i個(gè)與第j個(gè)元素相對(duì)上一層某個(gè)因素重要性的相對(duì)權(quán)重量化值,并按下述標(biāo)度進(jìn)行賦值:aij=1,元素i與元素j對(duì)上一層次因素的重要性相同;aij=3,元素i比元素j略重要;aij=5,元素i比元素j重要;aij=7,元素i比元素j重要得多;aij=9,元素i比元素j極其重要;aij=2n,n=1,2,3,4,元素i比元素j的重要性介于aij=2n-1與aij=2n+1之間。
為分析一致性,先計(jì)算描述一個(gè)成對(duì)比較矩陣A(n>1階方陣)不一致程度的指標(biāo)CI:
式中:λmax為判斷矩陣A的最大特征值;n為矩陣A的階數(shù)。
為衡量CI的大小,引入隨機(jī)一致性指標(biāo)RI,如表2所示。
表2 隨機(jī)一致性指標(biāo)RI的數(shù)值Table 2 Values of random consistency indicator RI
定義一致性比率為CR=CI/RI,且當(dāng)一致性比率CR<0.1時(shí),判定A能夠通過(guò)一致性檢驗(yàn),否則需重新構(gòu)造對(duì)比矩陣A。計(jì)算矩陣A的特征向量得到U=(u1,u2,u3,u4,u5),ui表示每項(xiàng)脫敏效果評(píng)價(jià)指標(biāo)對(duì)應(yīng)最終脫敏方法選擇的權(quán)重。
在上述基礎(chǔ)上,計(jì)算方案層對(duì)最終目標(biāo)層的總排序權(quán)向量,先需根據(jù)各脫敏方法在每個(gè)準(zhǔn)則層指標(biāo)上的比較,得到每個(gè)指標(biāo)的判斷矩陣。根據(jù)候選脫敏方法每項(xiàng)指標(biāo)的對(duì)比,得到方案層的多個(gè)判斷矩陣Bi,對(duì)每一個(gè)判斷矩陣進(jìn)行一致性檢驗(yàn)和計(jì)算求權(quán)向量。最終將方案層與之前準(zhǔn)則層的對(duì)比矩陣進(jìn)行權(quán)向量組合,即可得到方案層對(duì)目標(biāo)層的組合權(quán)向量,取其中權(quán)重最高者對(duì)應(yīng)的脫敏方法,即為最適合用戶需求的脫敏方案。
基于以上構(gòu)建的異構(gòu)大數(shù)據(jù)脫敏模型,本文在2類(lèi)大數(shù)據(jù)脫敏應(yīng)用場(chǎng)景中進(jìn)行了驗(yàn)證,具體脫敏驗(yàn)證流程分別描述如下。
圖4為某銀行客戶貸款信息數(shù)據(jù)脫敏過(guò)程,其主要步驟包括:
圖4 某銀行客戶貸款信息數(shù)據(jù)脫敏過(guò)程Fig.4 Data masking process for bank customer loan information
1)用戶提交某銀行客戶貸款信息,該提交信息為Excel表格,包括姓名、性別、身份證號(hào)、籍貫、貸款金額、貸款日期、聯(lián)系方式等內(nèi)容,并選擇金融行業(yè)場(chǎng)景。
2)根據(jù)金融行業(yè)場(chǎng)景標(biāo)注的非敏感數(shù)據(jù)為性別、籍貫、貸款金額、貸款日期等,敏感數(shù)據(jù)為姓名、身份證號(hào)、聯(lián)系方式。
3)以10%的比例隨機(jī)抽取樣例數(shù)據(jù),判斷其為文本數(shù)據(jù),用戶選擇4種不可恢復(fù)文本脫敏方法(k-匿名、l-多樣性、t-保密、差分隱私)實(shí)現(xiàn)預(yù)脫敏操作。通過(guò)分析用戶需求,對(duì)準(zhǔn)則層指標(biāo)的優(yōu)先級(jí)要求為:時(shí)間復(fù)雜度>空間復(fù)雜度=隱私保護(hù)度>數(shù)據(jù)可用性>數(shù)據(jù)關(guān)聯(lián)性。
4)根據(jù)用戶設(shè)定的指標(biāo)優(yōu)先級(jí),采用層次分析法構(gòu)建判斷矩陣A如下:
計(jì)算判斷矩陣A的最大特征值λmax=5.053,CI=0.013 25,RI=1.12,CR=0.012<0.1說(shuō)明對(duì)比矩陣具有良好的一致性。該矩陣對(duì)應(yīng)的特征向量U=(-0.395 1,0.508 7,0.508 7,0.707 1,-0.041 7),對(duì)該特征向量進(jìn)行標(biāo)準(zhǔn)化,得到準(zhǔn)則層對(duì)比矩陣的權(quán)向量U0=(0.182 8,0.235 4,0.235 4,0.327 1,0.019 3)。
構(gòu)建方案層每一種脫敏方法對(duì)于準(zhǔn)則層隱私保護(hù)度、數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、時(shí)間復(fù)雜度、空間復(fù)雜度5項(xiàng)指標(biāo)的判斷矩陣,分別為B1、B2、B3、B4、B5:
經(jīng)過(guò)對(duì)B1、B2、B3、B4、B5進(jìn)行一致性檢驗(yàn),其一致性比率分別為0.005 8、0.024 3、0.024 3、0.018、0,均符合一致性要求。歸一化后的特征向量分別為:U1=(0.320 6,0.339 7,0.339 7,0),U2=(-0.257 2,0.244 5,0.249 2,0.249 2),U3=(-0.257 2,0.244 5,0.249 2,0.249 2),U4=(0.496 9,-0.251 6,-0.251 6,0),U5=(0.106 8,0.225 6,-0.421 3,-0.244 9)。
隱私保護(hù)度、數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、時(shí)間復(fù)雜度、空間復(fù)雜度分別為Z1、Z2、Z3、Z4、Z5。差分隱私、t-保密、l-多樣性、k-匿名分別為F1、F2、F3、F4,則Z1、Z2、Z3、Z4、Z5脫敏方法的選擇權(quán)重為(0.182 8,0.235 4,0.235 4,0.327 1,0.019 3),F(xiàn)1、F2、F3、F4對(duì)Z1、Z2、Z3、Z4、Z5的權(quán)重分別為:(0.320 6,0.339 7,0.339 7,0),(-0.257 2,0.244 5,0.249 2,0.249 2),(-0.257 2,0.244 5,0.249 2,0.249 2),(0.496 9,-0.251 6,-0.251 6,0),(0.106 8,0.225 6,-0.421 3,-0.244 9)。因此,F(xiàn)1對(duì)脫敏方法選擇的權(quán)重為:0.320 6×0.182 8-0.257 2×0.235 4-0.257 2×0.235 4+0.496 9×0.327 1+0.106 8×0.019 3=0.102 1,F(xiàn)2對(duì)脫敏方法選擇的權(quán)重為:0.339 7×0.182 8+0.244 5×0.235 4+0.244 5×0.235 4-0.251 6×0.327 1+0.225 6×0.019 3=0.099 2,F(xiàn)3對(duì)脫敏方法選擇的權(quán)重為:0.339 7×0.182 8+0.249 2×0.235 4+0.249 2×0.235 4-0.251 6×0.327 1-0.421 3×0.019 3=0.089 0,F(xiàn)4對(duì)脫敏方法選擇的權(quán)重為:0×0.182 8+0.249 2×0.235 4+0.249 2×0.235 4+0×0.327 1-0.244 9×0.019 3=0.112 6。F4方法對(duì)脫敏方法選擇的權(quán)重最大,因此最終選擇的脫敏方法為k-匿名。
5)系統(tǒng)采用k-匿名方法完成數(shù)據(jù)脫敏任務(wù)。
6)系統(tǒng)導(dǎo)出脫敏結(jié)果,將姓名、身份證號(hào)、聯(lián)系方式替換成脫敏后的內(nèi)容,并恢復(fù)成用戶提交的Excel表格格式,發(fā)送給用戶。
圖5為社交網(wǎng)絡(luò)圖片數(shù)據(jù)脫敏過(guò)程,其主要步驟包括:
圖5 社交網(wǎng)絡(luò)圖片數(shù)據(jù)脫敏過(guò)程Fig.5 Data masking process for social network pictures
1)用戶提交社交網(wǎng)絡(luò)圖片集,該提交信息為包含多個(gè)JPG文件的文件夾,圖片內(nèi)容涵蓋人臉、風(fēng)景、動(dòng)物、美食、汽車(chē),并選擇社交應(yīng)用場(chǎng)景。
2)根據(jù)金融行業(yè)場(chǎng)景標(biāo)注的非敏感數(shù)據(jù)為風(fēng)景、動(dòng)物、美食、汽車(chē),敏感數(shù)據(jù)為人臉,敏感層級(jí)為9。
3)以10%的比例隨機(jī)抽取樣例數(shù)據(jù),判斷其為圖片內(nèi)容,通過(guò)預(yù)置的2種圖片脫敏方法(換臉、高斯模糊)實(shí)現(xiàn)預(yù)脫敏操作。
4)采用層次分析法,得到上述2種方法的評(píng)價(jià)結(jié)果,并根據(jù)綜合評(píng)測(cè)推薦合適的脫敏方法為換臉?lè)椒ā?/p>
5)若考慮到換臉后的圖片難以滿足業(yè)務(wù)需求,用戶實(shí)際選擇的脫敏方法為高斯模糊方法,系統(tǒng)完成數(shù)據(jù)脫敏任務(wù)。
6)系統(tǒng)導(dǎo)出脫敏結(jié)果,將原人臉替換成高斯模糊后的人臉,并保存為JPG文件,發(fā)送給用戶。
本文主要針對(duì)當(dāng)前異構(gòu)大數(shù)據(jù)中敏感信息的精準(zhǔn)定向、高效脫敏等研究難點(diǎn),提出一種在異構(gòu)大數(shù)據(jù)環(huán)境下,基于文本、圖片、音頻和數(shù)據(jù)庫(kù)等異構(gòu)數(shù)據(jù)的脫敏模型,并在實(shí)際應(yīng)用場(chǎng)景中進(jìn)行了驗(yàn)證,得到結(jié)論如下:
1)通過(guò)脫敏數(shù)據(jù)預(yù)處理,實(shí)現(xiàn)不同應(yīng)用場(chǎng)景下敏感數(shù)據(jù)的自動(dòng)標(biāo)注和分級(jí),有效降低實(shí)際應(yīng)用場(chǎng)景脫敏處理復(fù)雜度,更有利于脫敏數(shù)據(jù)和脫敏策略的選擇。
2)數(shù)據(jù)脫敏模型實(shí)現(xiàn)定制化脫敏策略,并利用數(shù)據(jù)預(yù)脫敏處理方法,從數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、隱私保護(hù)度、時(shí)間和空間復(fù)雜度等5個(gè)維度進(jìn)行脫敏效果評(píng)價(jià)。
3)通過(guò)銀行客戶貸款信息數(shù)據(jù)、社交網(wǎng)絡(luò)圖片數(shù)據(jù)脫敏應(yīng)用場(chǎng)景進(jìn)行驗(yàn)證,表明本文提出的異構(gòu)大數(shù)據(jù)脫敏模型能夠?qū)崿F(xiàn)不同應(yīng)用場(chǎng)景下異構(gòu)敏感數(shù)據(jù)的高效脫敏。