亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向異構(gòu)大數(shù)據(jù)環(huán)境的數(shù)據(jù)脫敏模型

2022-03-08 12:27:02佟玲玲李鵬霄段東圣任博雅李揚(yáng)曦

北京航空航天大學(xué)學(xué)報(bào) 2022年2期

佟玲玲，李鵬霄，段東圣，任博雅，李揚(yáng)曦

（國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心，北京 100029）

近年來(lái)，大數(shù)據(jù)分析技術(shù)已經(jīng)廣泛應(yīng)用在國(guó)家治理、企業(yè)運(yùn)行、個(gè)人日常生活等方方面面，數(shù)據(jù)成為重要的生產(chǎn)要素和最熱門(mén)的基礎(chǔ)資源，但同時(shí)海量的數(shù)據(jù)資源中往往蘊(yùn)含有關(guān)用戶個(gè)人、企業(yè)，甚至國(guó)家重要行業(yè)的敏感、隱私信息，一旦遭到泄露或篡改，可能會(huì)給個(gè)人、企業(yè)甚至國(guó)家造成無(wú)法挽回的損失。如何在利用自身數(shù)據(jù)資源進(jìn)行大數(shù)據(jù)研究分析的同時(shí)，避免敏感信息泄露的風(fēng)險(xiǎn)，成為了大數(shù)據(jù)分析應(yīng)用領(lǐng)域眾多研究者關(guān)注的熱點(diǎn)問(wèn)題。數(shù)據(jù)脫敏（data masking）又稱(chēng)為數(shù)據(jù)漂白、數(shù)據(jù)去隱私化或數(shù)據(jù)變形，是指在保留數(shù)據(jù)初始特征的條件下，通過(guò)脫敏規(guī)則對(duì)敏感數(shù)據(jù)進(jìn)行數(shù)據(jù)的變形，避免未經(jīng)授權(quán)的用戶非法獲取，實(shí)現(xiàn)敏感數(shù)據(jù)在分享和使用過(guò)程中的安全保護(hù)。數(shù)據(jù)脫敏可以在保存數(shù)據(jù)原始特征的同時(shí)改變其真實(shí)值，在保留數(shù)據(jù)有效性的同時(shí)保持?jǐn)?shù)據(jù)的安全性，實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)，避免敏感數(shù)據(jù)泄露的風(fēng)險(xiǎn)［1-6］。

目前，相關(guān)研究者已經(jīng)提出了多種方法用于解決數(shù)據(jù)脫敏相關(guān)問(wèn)題，但主要集中在文本或數(shù)據(jù)庫(kù)類(lèi)型的數(shù)據(jù)，如k-匿名（k-anonymous）［1］、l-多樣性（l-diversity）［7］、t-保密（t-closeness）［8］等，并對(duì)傳統(tǒng)脫敏方法進(jìn)行了改進(jìn)，如Sarada等［9］提出的基于最小最大歸一化算法、范圍映射脫敏算法，Gujjary和Saxena［10］提出的基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)脫敏算法，Zhou和Louis［11］提出的基于空間平滑的矩陣屏蔽算法，吳克河等［12］提出的基于敏感信息度量的t-保密改良技術(shù)等。國(guó)內(nèi)外研究主要關(guān)注具體脫敏方法并取得較多成果，但面向?qū)嶋H應(yīng)用的數(shù)據(jù)脫敏系統(tǒng)模型研究較少。Santos等［13］提出了一種針對(duì)數(shù)據(jù)庫(kù)的脫敏模型，張琦穎［14］和邵華西［15］分別提出了基于Spark分布式計(jì)算框架下數(shù)據(jù)脫敏系統(tǒng)模型，但這類(lèi)數(shù)據(jù)脫敏系統(tǒng)模型，在系統(tǒng)內(nèi)置統(tǒng)一的脫敏規(guī)則實(shí)現(xiàn)數(shù)據(jù)庫(kù)脫敏，或在脫敏方法上的遷移性和普適性尚有欠缺。例如，某些脫敏方法重在數(shù)據(jù)保護(hù)，但會(huì)失去一些統(tǒng)計(jì)特征，適用于社交數(shù)據(jù)等數(shù)據(jù)冗雜性高的場(chǎng)景；某些方法兼顧數(shù)據(jù)保護(hù)和可用性，但計(jì)算復(fù)雜度高，適用于醫(yī)療、金融等數(shù)據(jù)精度要求高的場(chǎng)景。

隨著信息技術(shù)的不斷發(fā)展，文本、圖片、音頻等異構(gòu)數(shù)據(jù)量日益增大，大數(shù)據(jù)分析應(yīng)用場(chǎng)景也日趨復(fù)雜，在實(shí)際生產(chǎn)環(huán)境或非可信環(huán)境下的數(shù)據(jù)脫敏需求也各不相同，如何在數(shù)據(jù)交換、共享及使用等過(guò)程中實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)的精準(zhǔn)定向、高效脫敏，達(dá)到數(shù)據(jù)安全、可信和可用的目標(biāo)，已經(jīng)成為了各行業(yè)數(shù)據(jù)產(chǎn)生者、使用者和管理者面臨的巨大挑戰(zhàn)。

針對(duì)異構(gòu)大數(shù)據(jù)環(huán)境下不同應(yīng)用場(chǎng)景下差異化的數(shù)據(jù)脫敏需求，本文提出了一種基于文本、音頻、圖片和數(shù)據(jù)庫(kù)等多樣化大數(shù)據(jù)的數(shù)據(jù)脫敏模型，該模型可實(shí)現(xiàn)不同應(yīng)用場(chǎng)景下異構(gòu)敏感數(shù)據(jù)的自動(dòng)標(biāo)注和分級(jí)，并通過(guò)抽取數(shù)據(jù)預(yù)脫敏處理和脫敏效果評(píng)估，實(shí)現(xiàn)了多應(yīng)用場(chǎng)景下異構(gòu)數(shù)據(jù)的高效脫敏。

1 數(shù)據(jù)脫敏基本框架

本文提出的數(shù)據(jù)脫敏方法基本框架主要包括4個(gè)模塊，即源數(shù)據(jù)預(yù)處理模塊、敏感數(shù)據(jù)標(biāo)注模塊、數(shù)據(jù)脫敏模塊、脫敏數(shù)據(jù)輸出及恢復(fù)模塊，具體描述如下：

1）源數(shù)據(jù)預(yù)處理模塊。用戶提交所需脫敏的源數(shù)據(jù)及應(yīng)用場(chǎng)景。源數(shù)據(jù)的提交形式包括txt、Word、Excel等類(lèi)型的文本數(shù)據(jù)，JPG、PNG等類(lèi)型的圖片數(shù)據(jù)，MP3、WAV等類(lèi)型的音頻數(shù)據(jù)，MySQL、HIVE等數(shù)據(jù)庫(kù)數(shù)據(jù)；應(yīng)用場(chǎng)景包括金融、醫(yī)療、社交、教育、政府、零售等。該模塊將原始數(shù)據(jù)及應(yīng)用場(chǎng)景進(jìn)行解析，并進(jìn)行統(tǒng)一格式轉(zhuǎn)換，將數(shù)據(jù)處理成下一模塊能夠識(shí)別的形式，用于敏感數(shù)據(jù)的識(shí)別和脫敏。

2）敏感數(shù)據(jù)標(biāo)注模塊。該模塊面向異構(gòu)數(shù)據(jù)類(lèi)型，采用機(jī)器學(xué)習(xí)方法和特定場(chǎng)景的敏感數(shù)據(jù)先驗(yàn)知識(shí)訓(xùn)練得到不同應(yīng)用場(chǎng)景下的敏感數(shù)據(jù)識(shí)別模型［16］，實(shí)現(xiàn)敏感數(shù)據(jù)和非敏感數(shù)據(jù)的識(shí)別和標(biāo)注，并且為敏感數(shù)據(jù)分級(jí)（等級(jí)為數(shù)值1～10，等級(jí)越高，則該項(xiàng)數(shù)據(jù)越敏感）。

3）數(shù)據(jù)脫敏模塊。該模塊首先以10%的比例隨機(jī)抽取樣例數(shù)據(jù)，判斷其類(lèi)型為文本、圖片、音頻或數(shù)據(jù)庫(kù)內(nèi)容，通過(guò)內(nèi)容的不同，選擇內(nèi)置的多種脫敏方法實(shí)現(xiàn)預(yù)脫敏操作（文本脫敏包括k-匿名、l-多樣性、t-保密、差分隱私、對(duì)稱(chēng)加密、非對(duì)稱(chēng)加密、保形加密和全同態(tài)加密等；圖片脫敏包括人臉替換、高斯模糊等；音頻脫敏包括空白音頻替換等；數(shù)據(jù)庫(kù)包括AES加密等）。然后，系統(tǒng)根據(jù)內(nèi)置規(guī)則計(jì)算數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、隱私保護(hù)度、時(shí)間復(fù)雜度、空間復(fù)雜度5個(gè)方面的內(nèi)容，得到多種脫敏方法的脫敏效果評(píng)價(jià)結(jié)果，即多個(gè)5維向量，并根據(jù)綜合評(píng)測(cè)推薦最合適的脫敏方法。最后，用戶根據(jù)需求選擇合適的脫敏方法，系統(tǒng)完成所有數(shù)據(jù)的脫敏操作。

4）脫敏數(shù)據(jù)輸出及恢復(fù)模塊。將上述操作1）識(shí)別的敏感數(shù)據(jù)替換成脫敏后的數(shù)據(jù)，對(duì)授權(quán)用戶可恢復(fù)成用戶提交的原始數(shù)據(jù)格式，實(shí)現(xiàn)脫敏數(shù)據(jù)的授權(quán)訪問(wèn)。

2 異構(gòu)大數(shù)據(jù)脫敏模型

圖1為本文提出的面向異構(gòu)大數(shù)據(jù)環(huán)境的數(shù)據(jù)脫敏模型，主要包括脫敏數(shù)據(jù)預(yù)處理、定制化脫敏策略、脫敏任務(wù)調(diào)度及脫敏數(shù)據(jù)恢復(fù)4部分。該模型集成了針對(duì)于文本、圖片、音頻和數(shù)據(jù)庫(kù)4種類(lèi)型數(shù)據(jù)的多種脫敏方法，對(duì)于數(shù)據(jù)庫(kù)脫敏，運(yùn)用AES對(duì)稱(chēng)加密算法對(duì)數(shù)據(jù)源進(jìn)行脫敏；對(duì)于文本脫敏設(shè)計(jì)8種算法，分別是k-匿名、l-多樣性、t-保密、差分隱私、對(duì)稱(chēng)加密、非對(duì)稱(chēng)加密、保形加密和全同態(tài)加密；對(duì)于圖片數(shù)據(jù)，針對(duì)人臉數(shù)據(jù)設(shè)計(jì)替換和高斯模糊方法2種脫敏方式；對(duì)于音頻數(shù)據(jù)，設(shè)計(jì)用空白音頻替換敏感音頻。此外，本文提出一種脫敏效果評(píng)估方法，針對(duì)預(yù)脫敏的結(jié)果，從數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、隱私保護(hù)度、時(shí)間復(fù)雜度、空間復(fù)雜度5個(gè)方面進(jìn)行量化評(píng)估，得到各種方法預(yù)脫敏的評(píng)測(cè)結(jié)果，并且通過(guò)不同的權(quán)值和影響因子進(jìn)行綜合計(jì)算，為用戶進(jìn)行推薦，根據(jù)用戶選擇確定最終的脫敏方法。

圖1 異構(gòu)大數(shù)據(jù)脫敏模型Fig.1 Data masking model for heterogeneous big data

2.1 脫敏數(shù)據(jù)預(yù)處理

本模塊采用靈活配置的方式，支持用戶實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)的選擇功能。在智能識(shí)別敏感數(shù)據(jù)的基礎(chǔ)上，操作人員可以將敏感數(shù)據(jù)指定具體數(shù)據(jù)源、數(shù)據(jù)庫(kù)、數(shù)據(jù)表及具體的屬性字段上，以應(yīng)對(duì)不同的業(yè)務(wù)需求。后續(xù)算法會(huì)根據(jù)用戶的選擇和定義將被指定為敏感的數(shù)據(jù)進(jìn)行脫敏處理，而其他未指定的數(shù)據(jù)則保持不變。本模塊由2個(gè)子模塊構(gòu)成：

1）數(shù)據(jù)信息提取。采用人工配置或語(yǔ)句查詢等方式，提取需進(jìn)行脫敏的數(shù)據(jù)源名稱(chēng)、數(shù)據(jù)庫(kù)名稱(chēng)列表、對(duì)應(yīng)數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)庫(kù)表列表、特定數(shù)據(jù)庫(kù)表結(jié)構(gòu)對(duì)應(yīng)的數(shù)據(jù)字段及相應(yīng)屬性等信息。對(duì)于新接入及現(xiàn)有各類(lèi)數(shù)據(jù)源，能夠較為方便總覽其全部數(shù)據(jù)及不同數(shù)據(jù)表之間的關(guān)聯(lián)信息，便于后續(xù)敏感數(shù)據(jù)的選擇。

2）敏感信息設(shè)置。用戶按照法律法規(guī)或標(biāo)準(zhǔn)規(guī)范等要求對(duì)敏感數(shù)據(jù)預(yù)設(shè)分類(lèi)，并依據(jù)不同應(yīng)用場(chǎng)景需求構(gòu)建原始敏感數(shù)據(jù)知識(shí)庫(kù)和分級(jí)規(guī)則。對(duì)于待脫敏數(shù)據(jù)，依據(jù)其數(shù)據(jù)類(lèi)型的不同，分別采用自然語(yǔ)言處理和文本識(shí)別、多媒體內(nèi)容理解和識(shí)別等技術(shù)，對(duì)待脫敏數(shù)據(jù)進(jìn)行準(zhǔn)實(shí)時(shí)處理，識(shí)別出敏感數(shù)據(jù)，同時(shí)設(shè)計(jì)人工反饋機(jī)制，可針對(duì)敏感數(shù)據(jù)識(shí)別結(jié)果進(jìn)行修正，并逐步達(dá)到最優(yōu)識(shí)別結(jié)果。此外，需明確各類(lèi)敏感數(shù)據(jù)的具體數(shù)據(jù)類(lèi)型，如針對(duì)文本數(shù)據(jù)是中文字符、英文字符、特殊字符等，以便后續(xù)最優(yōu)脫敏策略的選擇。

2.2 定制化脫敏策略

如圖1所示，定制化脫敏策略模塊主要包括可恢復(fù)性選擇、脫敏方法選擇、脫敏參數(shù)設(shè)置等。

1）可恢復(fù)性選擇。按照脫敏后的數(shù)據(jù)能否恢復(fù)到原始數(shù)據(jù)來(lái)劃分，現(xiàn)有的脫敏方法可以分為可恢復(fù)與不可恢復(fù)兩大類(lèi)，以滿足不同任務(wù)需求。可恢復(fù)方法主要以數(shù)據(jù)加密方法為主，在數(shù)據(jù)加密的過(guò)程中會(huì)同時(shí)生成相應(yīng)的解密密鑰等，加密后的數(shù)據(jù)可依據(jù)實(shí)際使用需求，通過(guò)解密密鑰還原為原始數(shù)據(jù)；不可恢復(fù)數(shù)據(jù)脫敏方法在使用匿名、替換等操作后，無(wú)法還原原始數(shù)據(jù)，因此在信息保留上存在一些損失。

2）脫敏方法選擇。根據(jù)用戶在上一模塊的選擇，系統(tǒng)將分別提供不同的方法，這些方法各有優(yōu)缺點(diǎn)，適用于不同的應(yīng)用場(chǎng)景，用戶可根據(jù)需求進(jìn)行靈活選擇。其中，主流不可恢復(fù)脫敏方法包括k-匿名、l-多樣性、t-保密、差分隱私；主流可恢復(fù)脫敏方法包括對(duì)稱(chēng)加密、非對(duì)稱(chēng)加密、保形加密、全同態(tài)加密等。其共同基本原理為：針對(duì)待脫敏數(shù)據(jù)，組合使用各類(lèi)基礎(chǔ)數(shù)據(jù)脫敏操作，以達(dá)到每種方法各自的脫敏規(guī)范。

針對(duì)不同數(shù)據(jù)類(lèi)型，可使用的基礎(chǔ)脫敏操作不同，具體的對(duì)應(yīng)關(guān)系如表1所示。

表1 不同數(shù)據(jù)類(lèi)型的常用脫敏操作Table 1 Commonly used data masking operation for different data types

3）脫敏參數(shù)設(shè)置。一些方法具有可調(diào)節(jié)的參數(shù)。例如，k-匿名中的k可以看作是控制脫敏力度的指標(biāo)。k-匿名要求對(duì)于任意一行紀(jì)錄，其所屬的相等集內(nèi)紀(jì)錄數(shù)量不小于k，即至少有k－1條記錄半標(biāo)識(shí)列屬性值與該條記錄相同，即增大k的值，敏感數(shù)據(jù)會(huì)隱藏的更好，但相應(yīng)地需要操作的數(shù)據(jù)條數(shù)、數(shù)據(jù)長(zhǎng)度也會(huì)增加，因此導(dǎo)致更多的信息損失。用戶可根據(jù)具體需求進(jìn)行參數(shù)的設(shè)置，以完成脫敏方法的針對(duì)性定制。

圖2為基于該脫敏策略的定制化脫敏流程，該過(guò)程中需要考慮的因素主要包括：

圖2 定制化數(shù)據(jù)脫敏流程Fig.2 Customized data masking process

1）數(shù)據(jù)可用性。即脫敏后的數(shù)據(jù)應(yīng)能滿足分析應(yīng)用需求，若脫敏后的數(shù)據(jù)無(wú)法用于目標(biāo)分析及應(yīng)用，就不具有使用價(jià)值。在特定的應(yīng)用場(chǎng)景中，可能需要保留部分非關(guān)鍵信息（如身份證號(hào)碼、手機(jī)號(hào)碼的部分字段、數(shù)據(jù)的統(tǒng)計(jì)分析特征等）才能滿足分析要求。

2）數(shù)據(jù)關(guān)聯(lián)性。對(duì)于結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)，在同一數(shù)據(jù)表中某字段與另外字段有對(duì)應(yīng)關(guān)系，如果脫敏方法破壞了這種關(guān)系，該字段的使用價(jià)值將不復(fù)存在。

3）隱私保護(hù)度。數(shù)據(jù)中原本隱含的敏感信息在脫敏后被其他人獲取的難易程度，獲取敏感信息的難度越高，則隱私保護(hù)度越高。

4）時(shí)間復(fù)雜度。即脫敏方法對(duì)數(shù)據(jù)進(jìn)行脫敏所需要的時(shí)間，在保證敏感數(shù)據(jù)滿足保護(hù)條件的前提下，所需計(jì)算時(shí)間越短越好。

5）空間復(fù)雜度。即脫敏方法對(duì)數(shù)據(jù)進(jìn)行脫敏所需要的存儲(chǔ)和計(jì)算空間。

2.3 脫敏任務(wù)調(diào)度

1）任務(wù)調(diào)度。由于本文模型是面向大數(shù)據(jù)應(yīng)用環(huán)境的，需要處理的數(shù)據(jù)量可能會(huì)非常大，利用大數(shù)據(jù)計(jì)算環(huán)境執(zhí)行分布式數(shù)據(jù)脫敏任務(wù)會(huì)極大提高任務(wù)的執(zhí)行效率。任務(wù)調(diào)度模塊通過(guò)對(duì)脫敏任務(wù)的數(shù)據(jù)量、各算法的執(zhí)行效率、各節(jié)點(diǎn)的計(jì)算性能進(jìn)行評(píng)估，將總體脫敏任務(wù)分解為若干個(gè)子任務(wù)并分配給對(duì)應(yīng)子節(jié)點(diǎn)執(zhí)行。

2）任務(wù)執(zhí)行。根據(jù)任務(wù)調(diào)度結(jié)果，將脫敏方法下發(fā)至各對(duì)應(yīng)子節(jié)點(diǎn)，子節(jié)點(diǎn)接受方法后開(kāi)始對(duì)分配的敏感數(shù)據(jù)進(jìn)行脫敏。脫敏完成后，將結(jié)果返回并整合匯總形成最終脫敏后的數(shù)據(jù)結(jié)果。

2.4 脫敏數(shù)據(jù)恢復(fù)

由于敏感數(shù)據(jù)的重要性，在實(shí)際應(yīng)用中對(duì)部分脫敏數(shù)據(jù)的恢復(fù)時(shí)，需要進(jìn)行嚴(yán)格的權(quán)限管理。

申請(qǐng)人員需要先提出申請(qǐng)，說(shuō)明需要數(shù)據(jù)恢復(fù)的原因、需要恢復(fù)的具體數(shù)據(jù)項(xiàng)等信息，并進(jìn)行相應(yīng)的權(quán)限認(rèn)證。在通過(guò)權(quán)限認(rèn)證模塊審核后，可在系統(tǒng)內(nèi)執(zhí)行相應(yīng)的數(shù)據(jù)解密模塊，并將數(shù)據(jù)恢復(fù)結(jié)果返回給特定申請(qǐng)用戶。

2.5 脫敏模型安全性及可擴(kuò)展性分析

本文所提異構(gòu)大數(shù)據(jù)脫敏模型中4個(gè)關(guān)鍵模塊具有較低的功能耦合度，又相互數(shù)據(jù)流關(guān)聯(lián)實(shí)現(xiàn)了完整脫敏流程，從而使用該脫敏模型無(wú)需改變?cè)械臉I(yè)務(wù)數(shù)據(jù)邏輯，可確保數(shù)據(jù)整體安全性。此外，脫敏后數(shù)據(jù)恢復(fù)則需要嚴(yán)格權(quán)限認(rèn)證才可獲得解密密鑰，滿足了用戶安全性需求。

本文提出的脫敏模型中定制化脫敏策略模塊可提供靈活的脫敏規(guī)則配置及脫敏規(guī)則擴(kuò)展，用戶可以通過(guò)靈活調(diào)整配置參數(shù)，達(dá)到所設(shè)計(jì)的脫敏效果，實(shí)現(xiàn)了完全透明的、可擴(kuò)展的數(shù)據(jù)脫敏處理能力。脫敏任務(wù)調(diào)度模塊充分考慮了計(jì)算性能可擴(kuò)展能力，通過(guò)采取多節(jié)點(diǎn)協(xié)作的分布式計(jì)算來(lái)提升計(jì)算效率，結(jié)合算法執(zhí)行效率、單節(jié)點(diǎn)計(jì)算性能，將數(shù)據(jù)脫敏任務(wù)分解為若干個(gè)子任務(wù)后，分配給對(duì)應(yīng)子節(jié)點(diǎn)進(jìn)行計(jì)算，因此可方便增加子節(jié)點(diǎn)來(lái)擴(kuò)展數(shù)據(jù)處理能力。

3 脫敏策略形式化描述

針對(duì)數(shù)據(jù)脫敏策略選擇，通過(guò)層次分析法［17］對(duì)用戶數(shù)據(jù)脫敏需求和提供的脫敏方法匹配度進(jìn)行了形式化描述和定量化分析。該方法以脫敏數(shù)據(jù)的隱私保護(hù)度、數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、時(shí)間復(fù)雜度、空間復(fù)雜度5項(xiàng)指標(biāo)為用戶選擇脫敏方法的判斷準(zhǔn)則，主要包括4個(gè)步驟：①建立脫敏策略選擇層次結(jié)構(gòu)模型；②構(gòu)造判斷矩陣；③層次單排序及其一致性檢驗(yàn)；④層次總排序及其一致性檢驗(yàn)。

以面向文本數(shù)據(jù)的8種脫敏方法為例，對(duì)本文提出的脫敏策略執(zhí)行過(guò)程進(jìn)行描述。將決策的目標(biāo)、考慮的因素（判斷準(zhǔn)則）和決策對(duì)象按相互關(guān)系分成目標(biāo)層、準(zhǔn)則層和方案層，形成層次化結(jié)構(gòu)模型，如圖3所示。

圖3 數(shù)據(jù)脫敏策略層次結(jié)構(gòu)模型Fig.3 Hierarchical model of data masking strategy

根據(jù)用戶選擇脫敏方法的5項(xiàng)判斷準(zhǔn)則優(yōu)先級(jí)要求，設(shè)定構(gòu)造判斷矩陣A＝（aij），aij表示第i個(gè)與第j個(gè)元素相對(duì)上一層某個(gè)因素重要性的相對(duì)權(quán)重量化值，并按下述標(biāo)度進(jìn)行賦值：aij＝1，元素i與元素j對(duì)上一層次因素的重要性相同；aij＝3，元素i比元素j略重要；aij＝5，元素i比元素j重要；aij＝7，元素i比元素j重要得多；aij＝9，元素i比元素j極其重要；aij＝2n，n＝1，2，3，4，元素i比元素j的重要性介于aij＝2n－1與aij＝2n＋1之間。

為分析一致性，先計(jì)算描述一個(gè)成對(duì)比較矩陣A（n＞1階方陣）不一致程度的指標(biāo)CI：

式中：λmax為判斷矩陣A的最大特征值；n為矩陣A的階數(shù)。

為衡量CI的大小，引入隨機(jī)一致性指標(biāo)RI，如表2所示。

表2 隨機(jī)一致性指標(biāo)RI的數(shù)值Table 2 Values of random consistency indicator RI

定義一致性比率為CR＝CI／RI，且當(dāng)一致性比率CR＜0.1時(shí)，判定A能夠通過(guò)一致性檢驗(yàn)，否則需重新構(gòu)造對(duì)比矩陣A。計(jì)算矩陣A的特征向量得到U＝（u1，u2，u3，u4，u5），ui表示每項(xiàng)脫敏效果評(píng)價(jià)指標(biāo)對(duì)應(yīng)最終脫敏方法選擇的權(quán)重。

在上述基礎(chǔ)上，計(jì)算方案層對(duì)最終目標(biāo)層的總排序權(quán)向量，先需根據(jù)各脫敏方法在每個(gè)準(zhǔn)則層指標(biāo)上的比較，得到每個(gè)指標(biāo)的判斷矩陣。根據(jù)候選脫敏方法每項(xiàng)指標(biāo)的對(duì)比，得到方案層的多個(gè)判斷矩陣Bi，對(duì)每一個(gè)判斷矩陣進(jìn)行一致性檢驗(yàn)和計(jì)算求權(quán)向量。最終將方案層與之前準(zhǔn)則層的對(duì)比矩陣進(jìn)行權(quán)向量組合，即可得到方案層對(duì)目標(biāo)層的組合權(quán)向量，取其中權(quán)重最高者對(duì)應(yīng)的脫敏方法，即為最適合用戶需求的脫敏方案。

4 應(yīng)用場(chǎng)景驗(yàn)證

基于以上構(gòu)建的異構(gòu)大數(shù)據(jù)脫敏模型，本文在2類(lèi)大數(shù)據(jù)脫敏應(yīng)用場(chǎng)景中進(jìn)行了驗(yàn)證，具體脫敏驗(yàn)證流程分別描述如下。

4.1 銀行客戶貸款信息數(shù)據(jù)脫敏

圖4為某銀行客戶貸款信息數(shù)據(jù)脫敏過(guò)程，其主要步驟包括：

圖4 某銀行客戶貸款信息數(shù)據(jù)脫敏過(guò)程Fig.4 Data masking process for bank customer loan information

1）用戶提交某銀行客戶貸款信息，該提交信息為Excel表格，包括姓名、性別、身份證號(hào)、籍貫、貸款金額、貸款日期、聯(lián)系方式等內(nèi)容，并選擇金融行業(yè)場(chǎng)景。

2）根據(jù)金融行業(yè)場(chǎng)景標(biāo)注的非敏感數(shù)據(jù)為性別、籍貫、貸款金額、貸款日期等，敏感數(shù)據(jù)為姓名、身份證號(hào)、聯(lián)系方式。

3）以10%的比例隨機(jī)抽取樣例數(shù)據(jù)，判斷其為文本數(shù)據(jù)，用戶選擇4種不可恢復(fù)文本脫敏方法（k-匿名、l-多樣性、t-保密、差分隱私）實(shí)現(xiàn)預(yù)脫敏操作。通過(guò)分析用戶需求，對(duì)準(zhǔn)則層指標(biāo)的優(yōu)先級(jí)要求為：時(shí)間復(fù)雜度＞空間復(fù)雜度＝隱私保護(hù)度＞數(shù)據(jù)可用性＞數(shù)據(jù)關(guān)聯(lián)性。

4）根據(jù)用戶設(shè)定的指標(biāo)優(yōu)先級(jí)，采用層次分析法構(gòu)建判斷矩陣A如下：

計(jì)算判斷矩陣A的最大特征值λmax＝5.053，CI＝0.013 25，RI＝1.12，CR＝0.012＜0.1說(shuō)明對(duì)比矩陣具有良好的一致性。該矩陣對(duì)應(yīng)的特征向量U＝（－0.395 1，0.508 7，0.508 7，0.707 1，－0.041 7），對(duì)該特征向量進(jìn)行標(biāo)準(zhǔn)化，得到準(zhǔn)則層對(duì)比矩陣的權(quán)向量U0＝（0.182 8，0.235 4，0.235 4，0.327 1，0.019 3）。

構(gòu)建方案層每一種脫敏方法對(duì)于準(zhǔn)則層隱私保護(hù)度、數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、時(shí)間復(fù)雜度、空間復(fù)雜度5項(xiàng)指標(biāo)的判斷矩陣，分別為B1、B2、B3、B4、B5：

經(jīng)過(guò)對(duì)B1、B2、B3、B4、B5進(jìn)行一致性檢驗(yàn)，其一致性比率分別為0.005 8、0.024 3、0.024 3、0.018、0，均符合一致性要求。歸一化后的特征向量分別為：U1＝（0.320 6，0.339 7，0.339 7，0），U2＝（－0.257 2，0.244 5，0.249 2，0.249 2），U3＝（－0.257 2，0.244 5，0.249 2，0.249 2），U4＝（0.496 9，－0.251 6，－0.251 6，0），U5＝（0.106 8，0.225 6，－0.421 3，－0.244 9）。

隱私保護(hù)度、數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、時(shí)間復(fù)雜度、空間復(fù)雜度分別為Z1、Z2、Z3、Z4、Z5。差分隱私、t-保密、l-多樣性、k-匿名分別為F1、F2、F3、F4，則Z1、Z2、Z3、Z4、Z5脫敏方法的選擇權(quán)重為（0.182 8，0.235 4，0.235 4，0.327 1，0.019 3），F(xiàn)1、F2、F3、F4對(duì)Z1、Z2、Z3、Z4、Z5的權(quán)重分別為：（0.320 6，0.339 7，0.339 7，0），（－0.257 2，0.244 5，0.249 2，0.249 2），（－0.257 2，0.244 5，0.249 2，0.249 2），（0.496 9，－0.251 6，－0.251 6，0），（0.106 8，0.225 6，－0.421 3，－0.244 9）。因此，F(xiàn)1對(duì)脫敏方法選擇的權(quán)重為：0.320 6×0.182 8－0.257 2×0.235 4－0.257 2×0.235 4＋0.496 9×0.327 1＋0.106 8×0.019 3＝0.102 1，F(xiàn)2對(duì)脫敏方法選擇的權(quán)重為：0.339 7×0.182 8＋0.244 5×0.235 4＋0.244 5×0.235 4－0.251 6×0.327 1＋0.225 6×0.019 3＝0.099 2，F(xiàn)3對(duì)脫敏方法選擇的權(quán)重為：0.339 7×0.182 8＋0.249 2×0.235 4＋0.249 2×0.235 4－0.251 6×0.327 1－0.421 3×0.019 3＝0.089 0，F(xiàn)4對(duì)脫敏方法選擇的權(quán)重為：0×0.182 8＋0.249 2×0.235 4＋0.249 2×0.235 4＋0×0.327 1－0.244 9×0.019 3＝0.112 6。F4方法對(duì)脫敏方法選擇的權(quán)重最大，因此最終選擇的脫敏方法為k-匿名。

5）系統(tǒng)采用k-匿名方法完成數(shù)據(jù)脫敏任務(wù)。

6）系統(tǒng)導(dǎo)出脫敏結(jié)果，將姓名、身份證號(hào)、聯(lián)系方式替換成脫敏后的內(nèi)容，并恢復(fù)成用戶提交的Excel表格格式，發(fā)送給用戶。

4.2 社交網(wǎng)絡(luò)圖片數(shù)據(jù)脫敏

圖5為社交網(wǎng)絡(luò)圖片數(shù)據(jù)脫敏過(guò)程，其主要步驟包括：

圖5 社交網(wǎng)絡(luò)圖片數(shù)據(jù)脫敏過(guò)程Fig.5 Data masking process for social network pictures

1）用戶提交社交網(wǎng)絡(luò)圖片集，該提交信息為包含多個(gè)JPG文件的文件夾，圖片內(nèi)容涵蓋人臉、風(fēng)景、動(dòng)物、美食、汽車(chē)，并選擇社交應(yīng)用場(chǎng)景。

2）根據(jù)金融行業(yè)場(chǎng)景標(biāo)注的非敏感數(shù)據(jù)為風(fēng)景、動(dòng)物、美食、汽車(chē)，敏感數(shù)據(jù)為人臉，敏感層級(jí)為9。

3）以10%的比例隨機(jī)抽取樣例數(shù)據(jù)，判斷其為圖片內(nèi)容，通過(guò)預(yù)置的2種圖片脫敏方法（換臉、高斯模糊）實(shí)現(xiàn)預(yù)脫敏操作。

4）采用層次分析法，得到上述2種方法的評(píng)價(jià)結(jié)果，并根據(jù)綜合評(píng)測(cè)推薦合適的脫敏方法為換臉?lè)椒ā?/p>

5）若考慮到換臉后的圖片難以滿足業(yè)務(wù)需求，用戶實(shí)際選擇的脫敏方法為高斯模糊方法，系統(tǒng)完成數(shù)據(jù)脫敏任務(wù)。

6）系統(tǒng)導(dǎo)出脫敏結(jié)果，將原人臉替換成高斯模糊后的人臉，并保存為JPG文件，發(fā)送給用戶。

5 結(jié) 論

本文主要針對(duì)當(dāng)前異構(gòu)大數(shù)據(jù)中敏感信息的精準(zhǔn)定向、高效脫敏等研究難點(diǎn)，提出一種在異構(gòu)大數(shù)據(jù)環(huán)境下，基于文本、圖片、音頻和數(shù)據(jù)庫(kù)等異構(gòu)數(shù)據(jù)的脫敏模型，并在實(shí)際應(yīng)用場(chǎng)景中進(jìn)行了驗(yàn)證，得到結(jié)論如下：

1）通過(guò)脫敏數(shù)據(jù)預(yù)處理，實(shí)現(xiàn)不同應(yīng)用場(chǎng)景下敏感數(shù)據(jù)的自動(dòng)標(biāo)注和分級(jí)，有效降低實(shí)際應(yīng)用場(chǎng)景脫敏處理復(fù)雜度，更有利于脫敏數(shù)據(jù)和脫敏策略的選擇。

2）數(shù)據(jù)脫敏模型實(shí)現(xiàn)定制化脫敏策略，并利用數(shù)據(jù)預(yù)脫敏處理方法，從數(shù)據(jù)可用性、數(shù)據(jù)關(guān)聯(lián)性、隱私保護(hù)度、時(shí)間和空間復(fù)雜度等5個(gè)維度進(jìn)行脫敏效果評(píng)價(jià)。

3）通過(guò)銀行客戶貸款信息數(shù)據(jù)、社交網(wǎng)絡(luò)圖片數(shù)據(jù)脫敏應(yīng)用場(chǎng)景進(jìn)行驗(yàn)證，表明本文提出的異構(gòu)大數(shù)據(jù)脫敏模型能夠?qū)崿F(xiàn)不同應(yīng)用場(chǎng)景下異構(gòu)敏感數(shù)據(jù)的高效脫敏。