個(gè)人信息去標(biāo)識(shí)化框架及標(biāo)準(zhǔn)化

2017-10-19 08:37:11謝安明金濤周濤

大數(shù)據(jù) 2017年5期

謝安明，金濤，周濤

1. 北京啟明星辰信息安全技術(shù)有限公司，北京 100081；2. 清華大學(xué)軟件學(xué)院，北京 100084

謝安明1，金濤2，周濤1

1. 北京啟明星辰信息安全技術(shù)有限公司，北京 100081；2. 清華大學(xué)軟件學(xué)院，北京 100084

隨著大數(shù)據(jù)的發(fā)展，個(gè)人信息保護(hù)面臨嚴(yán)峻的安全形勢(shì)，去標(biāo)識(shí)化有助于平衡個(gè)人信息保護(hù)要求和數(shù)據(jù)共享利用需求。分析了國(guó)內(nèi)外去標(biāo)識(shí)化研究現(xiàn)狀，結(jié)合我國(guó)法律有關(guān)要求和個(gè)人信息保護(hù)的迫切需求，提出了個(gè)人信息去標(biāo)識(shí)化框架，給出了規(guī)范化的去標(biāo)識(shí)化過(guò)程指南。考慮到相關(guān)工作的推進(jìn)，結(jié)合大數(shù)據(jù)安全標(biāo)準(zhǔn)體系，提出了去標(biāo)識(shí)化標(biāo)準(zhǔn)規(guī)范研究建議。

個(gè)人信息；去標(biāo)識(shí)化；框架；標(biāo)準(zhǔn)化

1 引言

個(gè)人信息是指以電子或者其他方式記錄的能夠單獨(dú)或者與其他信息結(jié)合識(shí)別自然人個(gè)人身份的各種信息，包括但不限于自然人的姓名、出生日期、身份證號(hào)碼、個(gè)人生物識(shí)別信息、住址、電話號(hào)碼等。當(dāng)前，世界各國(guó)政府普遍重視大數(shù)據(jù)環(huán)境下個(gè)人信息的安全問(wèn)題，都著手通過(guò)制定法律法規(guī)、標(biāo)準(zhǔn)規(guī)范和發(fā)展信息安全技術(shù)來(lái)加強(qiáng)對(duì)個(gè)人信息的保護(hù)。

隨著信息技術(shù)和大數(shù)據(jù)應(yīng)用的快速發(fā)展，各行各業(yè)數(shù)據(jù)的種類和數(shù)量呈指數(shù)增長(zhǎng)，越來(lái)越多的人認(rèn)識(shí)到了數(shù)據(jù)的價(jià)值，意識(shí)到了數(shù)據(jù)開(kāi)放共享的重大意義。但數(shù)據(jù)開(kāi)放共享的同時(shí)也帶來(lái)了個(gè)人信息安全保護(hù)問(wèn)題。政府機(jī)構(gòu)、企業(yè)和其他組織收集的數(shù)據(jù)中，通常含有個(gè)人姓名、電話、證件號(hào)碼等信息，如果將收集到的原始數(shù)據(jù)直接進(jìn)行發(fā)布，會(huì)導(dǎo)致嚴(yán)重的個(gè)人信息泄露。如何在不泄露用戶個(gè)人信息的前提下，有效開(kāi)放共享數(shù)據(jù)，挖掘大數(shù)據(jù)的價(jià)值，是目前大數(shù)據(jù)研究領(lǐng)域的關(guān)鍵問(wèn)題。

近年來(lái)，針對(duì)個(gè)人信息的去標(biāo)識(shí)化研究獲得了很多的關(guān)注。所謂去標(biāo)識(shí)化，就是指去除一組可識(shí)別數(shù)據(jù)和數(shù)據(jù)主體之間關(guān)聯(lián)關(guān)系的過(guò)程。通過(guò)這個(gè)過(guò)程，數(shù)據(jù)管理者可以刪除或改變數(shù)據(jù)集中的標(biāo)識(shí)信息，使得攻擊者很難或不能利用數(shù)據(jù)集識(shí)別出具體的個(gè)人主體身份，從而可以將數(shù)據(jù)集共享到預(yù)定范圍內(nèi)使用。去標(biāo)識(shí)化是隱私保護(hù)數(shù)據(jù)發(fā)布（privacypreserving data publishing，PPDP）[1]的主要工具之一，通過(guò)去除數(shù)據(jù)集中隱私屬性和數(shù)據(jù)主體之間的關(guān)聯(lián)關(guān)系，并且具有足夠的防止重識(shí)別能力后，數(shù)據(jù)集的某些屬性就可以共享發(fā)布，供外部業(yè)務(wù)系統(tǒng)進(jìn)行處理分析。

2 相關(guān)工作

2.1 有關(guān)法律標(biāo)準(zhǔn)

個(gè)人信息能夠單獨(dú)或者與其他信息結(jié)合識(shí)別自然人個(gè)人身份，因而價(jià)值巨大，國(guó)內(nèi)外對(duì)個(gè)人信息保護(hù)的法律要求和技術(shù)研究一直是信息安全的熱點(diǎn)內(nèi)容之一。

美國(guó)通過(guò)在敏感領(lǐng)域（如兒童信息、醫(yī)療檔案、金融數(shù)據(jù)等領(lǐng)域）分散立法和設(shè)立行業(yè)規(guī)范的方式，在政府引導(dǎo)下，規(guī)范各行業(yè)內(nèi)個(gè)人信息處理行為。相關(guān)法律包括《消費(fèi)者網(wǎng)上隱私法》《兒童網(wǎng)上隱私保護(hù)法》《電子通信隱私法案》《健康保險(xiǎn)攜帶和責(zé)任法案》等。

歐盟通過(guò)立法來(lái)保證個(gè)人信息安全的各項(xiàng)基本原則和具體的法律規(guī)定。1995年，歐盟通過(guò)《個(gè)人數(shù)據(jù)保護(hù)指令》，對(duì)個(gè)人數(shù)據(jù)提出保護(hù)框架。2016年通過(guò)《一般數(shù)據(jù)保護(hù)條例（general data protection regulation，GDPR）》，以更替《個(gè)人數(shù)據(jù)保護(hù)指令》。GDPR提出了更加嚴(yán)格的數(shù)據(jù)保護(hù)要求，從法律層面保證了對(duì)個(gè)人信息的保護(hù)。

2016年11月，我國(guó)正式發(fā)布《中華人民共和國(guó)網(wǎng)絡(luò)安全法》，其中就加強(qiáng)個(gè)人信息保護(hù)做出了規(guī)定，指出“未經(jīng)被收集者同意，不得向他人提供個(gè)人信息。但是，經(jīng)過(guò)處理無(wú)法識(shí)別特定個(gè)人且不能復(fù)原的除外”；同年12月發(fā)布的《國(guó)家網(wǎng)絡(luò)空間安全戰(zhàn)略》也強(qiáng)調(diào)要有效保護(hù)個(gè)人隱私；此外，我國(guó)《國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》《國(guó)務(wù)院辦公廳關(guān)于促進(jìn)和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見(jiàn)》《交通運(yùn)輸部辦公廳關(guān)于推進(jìn)交通運(yùn)輸行業(yè)數(shù)據(jù)資源開(kāi)放共享的實(shí)施意見(jiàn)》等，都強(qiáng)調(diào)了在保證個(gè)人信息安全的前提下推動(dòng)數(shù)據(jù)的開(kāi)放共享。在標(biāo)準(zhǔn)制訂方面，我國(guó)目前已經(jīng)發(fā)布了《信息安全技術(shù)公共及商用服務(wù)信息系統(tǒng)個(gè)人信息保護(hù)指南》（GB/Z 28828-2012），目前正在制訂《個(gè)人信息安全規(guī)范》標(biāo)準(zhǔn)。

2.2 技術(shù)及應(yīng)用規(guī)范

在標(biāo)識(shí)化技術(shù)研究方面，PPDP提出在實(shí)現(xiàn)個(gè)人信息保護(hù)的前提下，保證數(shù)據(jù)的可用性。業(yè)界圍繞PPDP進(jìn)行了大量研究，包括各種隱私保護(hù)技術(shù)、模型、度量方法等。在隱私保護(hù)技術(shù)方面，周水庚等人[2]將相關(guān)的技術(shù)分為基于數(shù)據(jù)失真的技術(shù)、基于數(shù)字加密的技術(shù)和基于限制發(fā)布的技術(shù)3種；在隱私發(fā)布模型方面，主要研究包括k-匿名[3]、l-多樣性[4]、t-接近性[5]、數(shù)據(jù)重發(fā)布匿名技術(shù)[6]、差分隱私[7]等。

近年來(lái)，對(duì)去標(biāo)識(shí)化應(yīng)用實(shí)踐和規(guī)范的研究成為個(gè)人信息保護(hù)研究熱點(diǎn)之一，相關(guān)工作主要包括制訂國(guó)際標(biāo)準(zhǔn)化組織標(biāo)準(zhǔn)、美國(guó)健康保險(xiǎn)攜帶和責(zé)任法案（health insurance portability and accountability act，HIPPA）、美國(guó)國(guó)家醫(yī)學(xué)院醫(yī)學(xué)研究所數(shù)據(jù)共享、美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院（National Institute of Standards and Technology，NIST）研究報(bào)告、國(guó)際芯片卡標(biāo)準(zhǔn)化組織和中國(guó)銀聯(lián)的相關(guān)技術(shù)規(guī)范。

國(guó)際標(biāo)準(zhǔn)化組織（International Organization for Standardization，ISO）和國(guó)際電工委員會(huì)（International Electrotechnical Commission，IEC）積極展開(kāi)對(duì)個(gè)人信息去標(biāo)識(shí)化標(biāo)準(zhǔn)的研究，除制訂隱私保護(hù)框架、保護(hù)措施等標(biāo)準(zhǔn)之外，于2016年形成ISO/IEC 1st CD 20889草案①。該草案重點(diǎn)規(guī)定了去標(biāo)識(shí)化有關(guān)的術(shù)語(yǔ)、技術(shù)以及應(yīng)用原則。

1996年，美國(guó)政府簽署健康保險(xiǎn)攜帶和責(zé)任法案。HIPPA在其隱私規(guī)則中給出了兩種針對(duì)健康信息（protected health information，PHI）的去標(biāo)識(shí)化方法：專家決定法和安全港法。其中，專家決定法以專家為主進(jìn)行數(shù)據(jù)檢查和確定去標(biāo)識(shí)化措施，以保證將隱私泄漏風(fēng)險(xiǎn)降至最低；而安全港法則規(guī)定了包含姓名、出生日期、電話號(hào)碼在內(nèi)的18種特定類型數(shù)據(jù)，要求必須對(duì)這些數(shù)據(jù)進(jìn)行去標(biāo)識(shí)化處理。

美國(guó)國(guó)家醫(yī)學(xué)院醫(yī)學(xué)研究所在數(shù)據(jù)共享方面展開(kāi)了研究，2015年發(fā)布臨床試驗(yàn)數(shù)據(jù)共享研究報(bào)告，并給出了一個(gè)包括11個(gè)步驟的去標(biāo)識(shí)化過(guò)程[8]，這些步驟包括確定直接標(biāo)識(shí)符、變換標(biāo)識(shí)符、評(píng)估重識(shí)別風(fēng)險(xiǎn)等。

美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院于2015年發(fā)布了NISTIR 8053②，報(bào)告總結(jié)了近20年來(lái)去標(biāo)識(shí)化研究的成果，研討了目前的實(shí)踐工作，包括數(shù)據(jù)共享模型、不同類型信息的去標(biāo)識(shí)化技術(shù)、重標(biāo)識(shí)化風(fēng)險(xiǎn)等，并指出了未來(lái)研究方向。接著，NIST于2016年發(fā)布NIST SP 800-188第二版草案③，為政府機(jī)構(gòu)提供數(shù)據(jù)去標(biāo)識(shí)化技術(shù)指導(dǎo)，包括建立和改進(jìn)去標(biāo)識(shí)化程序、去標(biāo)識(shí)化的技術(shù)步驟、去標(biāo)識(shí)化工具的需求以及評(píng)價(jià)去標(biāo)識(shí)化工具方法等內(nèi)容。

金融領(lǐng)域?qū)︺y行卡號(hào)的去標(biāo)識(shí)化應(yīng)用也存在迫切需求。國(guó)際芯片卡標(biāo)準(zhǔn)化組織（EMVCo）2014年發(fā)布支付令牌化技術(shù)框架④，提出了在支付場(chǎng)景中使用一個(gè)不同的號(hào)碼串替換銀行卡主賬號(hào)的過(guò)程規(guī)范。接著，中國(guó)銀聯(lián)于2016年發(fā)布《中國(guó)銀聯(lián)支付標(biāo)記化技術(shù)指引》，給出了使用支付令牌代替銀行卡號(hào)進(jìn)行交易驗(yàn)證的框架、技術(shù)要求和應(yīng)用場(chǎng)景[9]。

3 基礎(chǔ)知識(shí)

個(gè)人信息去標(biāo)識(shí)化中涉及一些基本概念，本節(jié)在綜合有關(guān)文獻(xiàn)的基礎(chǔ)上給出相關(guān)定義和說(shuō)明。

3.1 標(biāo)識(shí)符分類

個(gè)人信息去標(biāo)識(shí)化處理的原始數(shù)據(jù)集（如醫(yī)療數(shù)據(jù)、金融數(shù)據(jù)等）采取記錄集的方式組成，其中每一條記錄對(duì)應(yīng)一個(gè)數(shù)據(jù)主體，每一條記錄又包含多個(gè)屬性值。在這些屬性中，能夠直接用于識(shí)別或結(jié)合其他信息識(shí)別出數(shù)據(jù)主體的屬性包括以下兩種。

● 直接標(biāo)識(shí)符：利用該屬性能直接識(shí)別出數(shù)據(jù)主體，如姓名、身份證號(hào)碼等。

● 準(zhǔn)標(biāo)識(shí)符：僅利用該屬性不能直接識(shí)別出數(shù)據(jù)主體，但聯(lián)合其他屬性或結(jié)合背景數(shù)據(jù)后，能識(shí)別出數(shù)據(jù)主體，如郵編、生日、性別等聯(lián)合起來(lái)在數(shù)據(jù)集中就可能識(shí)別出具體的數(shù)據(jù)主體，這些屬性就是準(zhǔn)標(biāo)識(shí)符。

例如，某個(gè)學(xué)習(xí)成績(jī)數(shù)據(jù)集中，每一條記錄包括{姓名，年齡，性別，班級(jí)，成績(jī)}等屬性，其中{姓名}為直接標(biāo)識(shí)符，{年齡，性別，班級(jí)}為準(zhǔn)標(biāo)識(shí)符。

3.2 重標(biāo)識(shí)風(fēng)險(xiǎn)

為保護(hù)個(gè)人信息安全，在對(duì)外發(fā)布數(shù)據(jù)集前，應(yīng)當(dāng)將數(shù)據(jù)集中的直接標(biāo)識(shí)符進(jìn)行刪除或屏蔽等處理，并采取適當(dāng)技術(shù)對(duì)準(zhǔn)標(biāo)識(shí)符進(jìn)行處理，去除數(shù)據(jù)和數(shù)據(jù)主體之間的關(guān)聯(lián)關(guān)系，使得攻擊者不能從發(fā)布的數(shù)據(jù)中識(shí)別出數(shù)據(jù)主體。

然而，攻擊者可以采用數(shù)據(jù)關(guān)聯(lián)、概率推理等手段試圖獲知已被去除的數(shù)據(jù)主體身份，即把去標(biāo)識(shí)化的數(shù)據(jù)集重新關(guān)聯(lián)到原始數(shù)據(jù)主體，這個(gè)過(guò)程稱為重標(biāo)識(shí)或重標(biāo)識(shí)攻擊。

重標(biāo)識(shí)風(fēng)險(xiǎn)是指攻擊者成功實(shí)施重標(biāo)識(shí)攻擊的風(fēng)險(xiǎn)，即使數(shù)據(jù)集已經(jīng)被最新的去標(biāo)識(shí)化技術(shù)處理過(guò)，仍然存在重標(biāo)識(shí)風(fēng)險(xiǎn)。

進(jìn)一步地，攻擊者除了能夠訪問(wèn)已經(jīng)發(fā)布的數(shù)據(jù)集外，還可能從其他渠道獲得一些關(guān)于目標(biāo)對(duì)象的信息，如部分?jǐn)?shù)據(jù)主體的出生日期、出生地、郵編等，甚至知道數(shù)據(jù)集去標(biāo)識(shí)化采用的技術(shù)方法，這些攻擊者可能獲知的關(guān)于發(fā)布數(shù)據(jù)的信息統(tǒng)稱為背景知識(shí)。

因?yàn)閿?shù)據(jù)集中存在有意義的數(shù)據(jù)，可以為應(yīng)用帶來(lái)價(jià)值，所以需要對(duì)數(shù)據(jù)集進(jìn)行去標(biāo)識(shí)化處理后才能發(fā)布。數(shù)據(jù)集去標(biāo)識(shí)化后，應(yīng)當(dāng)保持?jǐn)?shù)據(jù)集的這種有具體含義、有使用意義的特性，這種特性即有用性。

3.3 去標(biāo)識(shí)化原則

對(duì)數(shù)據(jù)集實(shí)施去標(biāo)識(shí)化，應(yīng)遵循以下原則。

● 合法合規(guī)：滿足我國(guó)法律法規(guī)、標(biāo)準(zhǔn)規(guī)范以及雙方約定對(duì)個(gè)人信息安全保護(hù)的有關(guān)規(guī)定。

● 安全優(yōu)先：實(shí)施去標(biāo)識(shí)化，應(yīng)優(yōu)先考慮保護(hù)個(gè)人信息安全，其次盡量保留數(shù)據(jù)集的有用性。

● 技管結(jié)合：綜合利用技術(shù)和管理兩方面措施實(shí)施，達(dá)到最佳效果。

● 持續(xù)改進(jìn)：應(yīng)持續(xù)改進(jìn)方法、技術(shù)和工具，定期重新實(shí)施重標(biāo)識(shí)風(fēng)險(xiǎn)評(píng)估，保證數(shù)據(jù)安全。

4 去標(biāo)識(shí)化框架

本文提出的去標(biāo)識(shí)化框架包含3個(gè)部分：管理保障、去標(biāo)識(shí)化過(guò)程和技術(shù)支撐，如圖1所示。

該去標(biāo)識(shí)化框架以管理手段和技術(shù)機(jī)制為保障支撐，旨在規(guī)范去標(biāo)識(shí)化的實(shí)施步驟，即給出數(shù)據(jù)集實(shí)施去標(biāo)識(shí)化時(shí)應(yīng)遵循的規(guī)范流程，以達(dá)到安全可靠的去標(biāo)識(shí)化目的。

4.1 去標(biāo)識(shí)化過(guò)程

去標(biāo)識(shí)化過(guò)程主要包括確定目標(biāo)、識(shí)別標(biāo)識(shí)、處理標(biāo)識(shí)和導(dǎo)出數(shù)據(jù)4個(gè)大步驟，其中，處理標(biāo)識(shí)又可以分為測(cè)試驗(yàn)證、轉(zhuǎn)換數(shù)據(jù)和評(píng)估數(shù)據(jù)3個(gè)細(xì)分步驟。

4.1.1 確定目標(biāo)

確定目標(biāo)的主要工作包括確定去標(biāo)識(shí)化對(duì)象、建立安全目標(biāo)和制定工作計(jì)劃等內(nèi)容。

（1）確定去標(biāo)識(shí)化對(duì)象

指確定需要去標(biāo)識(shí)化的數(shù)據(jù)集范圍。在目標(biāo)數(shù)據(jù)集中存在標(biāo)識(shí)符時(shí)，宜根據(jù)法規(guī)標(biāo)準(zhǔn)、組織策略、數(shù)據(jù)承諾、業(yè)務(wù)背景、數(shù)據(jù)用途以及歷史發(fā)布情況等要素，確定哪些數(shù)據(jù)子集屬于去標(biāo)識(shí)化對(duì)象。

圖1 去標(biāo)識(shí)化框架

（2）建立安全目標(biāo)

應(yīng)根據(jù)發(fā)布后的應(yīng)用環(huán)境和數(shù)據(jù)用途，確定重標(biāo)識(shí)風(fēng)險(xiǎn)閾值和數(shù)據(jù)有用性的最低要求，并在兩者之間取得平衡，以有利于控制安全風(fēng)險(xiǎn)。

（3）制定工作計(jì)劃

制定個(gè)人信息去標(biāo)識(shí)化的實(shí)施計(jì)劃，包括去標(biāo)識(shí)化的目的、安全目標(biāo)、數(shù)據(jù)對(duì)象、公開(kāi)共享方式、實(shí)施團(tuán)隊(duì)、實(shí)施方案、利益相關(guān)方、應(yīng)急措施以及進(jìn)度安排等，形成去標(biāo)識(shí)化實(shí)施計(jì)劃書。

4.1.2 識(shí)別標(biāo)識(shí)

確定目標(biāo)后，應(yīng)識(shí)別出數(shù)據(jù)集中存在哪些直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符。識(shí)別的方法包括查表識(shí)別法、規(guī)則分析法和專家判定法。

（1）查表識(shí)別法

預(yù)先建立元數(shù)據(jù)表格，存儲(chǔ)需去標(biāo)識(shí)化的直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符名稱，在識(shí)別標(biāo)識(shí)數(shù)據(jù)時(shí)，將待識(shí)別數(shù)據(jù)的各個(gè)屬性名稱或字段名稱逐個(gè)與元數(shù)據(jù)表中的記錄進(jìn)行對(duì)比，以此識(shí)別出標(biāo)識(shí)數(shù)據(jù)。查表識(shí)別法適用于數(shù)據(jù)集格式和屬性已經(jīng)明確的去標(biāo)識(shí)化場(chǎng)景，如采用關(guān)系型數(shù)據(jù)庫(kù)，在表結(jié)構(gòu)中已經(jīng)明確姓名、身份證號(hào)等標(biāo)識(shí)符字段。

（2）規(guī)則分析法

通過(guò)建立自動(dòng)化程序，分析數(shù)據(jù)集規(guī)律，確立相關(guān)標(biāo)識(shí)符識(shí)別規(guī)則，從中自動(dòng)發(fā)現(xiàn)需去標(biāo)識(shí)化的直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符。依據(jù)相關(guān)標(biāo)準(zhǔn)，可以建立身份證號(hào)碼、銀行卡號(hào)、郵件地址、姓名、性別等標(biāo)識(shí)符識(shí)別規(guī)則。規(guī)則分析法適用于應(yīng)用系統(tǒng)未采取規(guī)范方式存儲(chǔ)數(shù)據(jù)的情形，例如：未采用常用的字段名稱，如使用“備注”字段存儲(chǔ)身份證號(hào)；數(shù)據(jù)中存在混亂或錯(cuò)誤情況，如該“備注”字段前100條記錄的值為空，而后10000條記錄的值為用戶身份證號(hào)碼；采用非結(jié)構(gòu)化方式存儲(chǔ)數(shù)據(jù)時(shí)，如構(gòu)建身份證號(hào)碼識(shí)別規(guī)則后，可從司法判決書中自動(dòng)識(shí)別出所有的身份證號(hào)碼。

（3）專家判定法

通過(guò)專家審查，人工發(fā)現(xiàn)和確定數(shù)據(jù)集中的直接標(biāo)識(shí)符和準(zhǔn)標(biāo)識(shí)符。專家可在對(duì)業(yè)務(wù)處理、數(shù)據(jù)集結(jié)構(gòu)、相互依賴關(guān)系和背景知識(shí)等要素分析的基礎(chǔ)上，綜合判斷數(shù)據(jù)集重標(biāo)識(shí)風(fēng)險(xiǎn)，直接指定數(shù)據(jù)集中需要去標(biāo)識(shí)化的標(biāo)識(shí)符。在下列場(chǎng)景時(shí)，專家分析法具有明顯的優(yōu)勢(shì)：數(shù)據(jù)集中的多個(gè)不同數(shù)據(jù)子集之間存在關(guān)聯(lián)、引用關(guān)系時(shí)，如通過(guò)數(shù)據(jù)挖掘算法，可聯(lián)合分析數(shù)據(jù)集中多個(gè)非常見(jiàn)標(biāo)識(shí)符屬性后，識(shí)別出唯一的用戶身份；數(shù)據(jù)集中有特別含義的數(shù)據(jù)，或者數(shù)據(jù)具有特殊值和容易引起注意的值，從而可能被用來(lái)重標(biāo)識(shí)時(shí)，如超出常人的身高、獨(dú)特的地理坐標(biāo)、罕見(jiàn)的病因等。

4.1.3 測(cè)試驗(yàn)證

在正式對(duì)數(shù)據(jù)集去標(biāo)識(shí)化之前，應(yīng)當(dāng)從數(shù)據(jù)集中抽取部分?jǐn)?shù)據(jù)，形成一個(gè)較小的數(shù)據(jù)子集，采用選擇的去標(biāo)識(shí)化模型和技術(shù)對(duì)該子集數(shù)據(jù)進(jìn)行測(cè)試，檢驗(yàn)去標(biāo)識(shí)化效果。測(cè)試驗(yàn)證包括預(yù)處理、選擇模型和方法、實(shí)施去標(biāo)識(shí)化、風(fēng)險(xiǎn)計(jì)算4個(gè)階段工作。

（1）預(yù)處理

一般地，預(yù)處理是對(duì)數(shù)據(jù)集施加某種變化，形成規(guī)范化格式的數(shù)據(jù)，使其有利于進(jìn)行后期處理。應(yīng)根據(jù)數(shù)據(jù)集的實(shí)際情況選擇預(yù)處理措施，或選擇不實(shí)施預(yù)處理。

（2）選擇模型和方法

不同類型的數(shù)據(jù)需要采用不同的去標(biāo)識(shí)化技術(shù)，所以在去標(biāo)識(shí)化之前，應(yīng)選擇合適的去標(biāo)識(shí)化模型和技術(shù)。選擇的參考因素包括如下方面：是否可刪除、是否需要保持唯一性、是否需要滿足可逆性、是否需要保持原有數(shù)據(jù)值順序、是否需要保持原有數(shù)據(jù)格式、是否需要保持統(tǒng)計(jì)特征、是否需要保持關(guān)系型數(shù)據(jù)庫(kù)中的實(shí)體完整性、參照完整性或用戶自定義完整性等。一般地，對(duì)直接標(biāo)識(shí)符要優(yōu)先選擇刪除或屏蔽的處理方式。

（3）實(shí)施去標(biāo)識(shí)化

根據(jù)選擇的去標(biāo)識(shí)化模型和技術(shù)，對(duì)子集數(shù)據(jù)實(shí)施操作。一般地，按照直接標(biāo)識(shí)符、準(zhǔn)標(biāo)識(shí)符、敏感屬性的順序?qū)嵤┤?biāo)識(shí)化。

（4）風(fēng)險(xiǎn)計(jì)算

查看測(cè)試結(jié)果數(shù)據(jù)集，判斷數(shù)據(jù)可用性，計(jì)算重標(biāo)識(shí)風(fēng)險(xiǎn)，并與原先設(shè)定的風(fēng)險(xiǎn)閾值進(jìn)行比較，如果滿足要求則繼續(xù)往下執(zhí)行，否則重新選擇模型和方法，并再次測(cè)試和評(píng)估。

測(cè)試驗(yàn)證步驟是一個(gè)可選的步驟。在數(shù)據(jù)集較大、實(shí)施去標(biāo)識(shí)化變換較慢時(shí)應(yīng)該選擇本步驟。

4.1.4 轉(zhuǎn)換數(shù)據(jù)

通過(guò)第4.1.3節(jié)的測(cè)試驗(yàn)證過(guò)程后，即可應(yīng)用該選定的去標(biāo)識(shí)化模型和方法，設(shè)定去標(biāo)識(shí)化參數(shù)，對(duì)整體數(shù)據(jù)集實(shí)施去標(biāo)識(shí)化操作。本步驟包括預(yù)處理和實(shí)施去標(biāo)識(shí)化兩個(gè)階段的工作，工作過(guò)程和第4.1.3節(jié)類似。

4.1.5 評(píng)估數(shù)據(jù)

查看整體數(shù)據(jù)集去標(biāo)識(shí)化結(jié)果，判斷數(shù)據(jù)可用性，并計(jì)算重標(biāo)識(shí)風(fēng)險(xiǎn)。將重標(biāo)識(shí)風(fēng)險(xiǎn)與原先設(shè)定的風(fēng)險(xiǎn)閾值進(jìn)行比較，如果滿足要求則繼續(xù)往下執(zhí)行，否則重新回到測(cè)試驗(yàn)證階段，并再次測(cè)試和評(píng)估。

4.1.6 導(dǎo)出數(shù)據(jù)

最后，在實(shí)施機(jī)構(gòu)的管理層批準(zhǔn)后，將去標(biāo)識(shí)化處理之后的數(shù)據(jù)集導(dǎo)出，提供給數(shù)據(jù)發(fā)布系統(tǒng)。

4.2 技術(shù)支撐

實(shí)現(xiàn)去標(biāo)識(shí)化需要依賴于相關(guān)技術(shù)的支撐。目前，相關(guān)的研究工作已經(jīng)提出了多種去標(biāo)識(shí)化變換方法、匿名模型和數(shù)據(jù)評(píng)估方法。

（1）變換方法

對(duì)涉及個(gè)人信息的標(biāo)識(shí)符數(shù)據(jù)項(xiàng)進(jìn)行變換，使用變換后的數(shù)據(jù)項(xiàng)值代替原有的值，即可達(dá)到一定的個(gè)人信息保護(hù)效果。常用的變換方法包括屏蔽、隨機(jī)、泛化、加密等幾種，見(jiàn)表1。

此外，還有很多去標(biāo)識(shí)化方法融合了其他多種方法和技術(shù)機(jī)制，因此，很難將其簡(jiǎn)單地劃分到以上某一類中。

（2）匿名模型

由于攻擊者在獲取去標(biāo)識(shí)化數(shù)據(jù)集和相關(guān)背景知識(shí)后，可能通過(guò)關(guān)聯(lián)、推理、鏈接等攻擊手段恢復(fù)已去除的主體身份信息[8]，為進(jìn)一步提高個(gè)人信息保護(hù)能力，研究人員提出了多個(gè)匿名模型指導(dǎo)數(shù)據(jù)去標(biāo)識(shí)化和發(fā)布，如k-匿名、l-多樣性、t-接近性、數(shù)據(jù)重發(fā)布匿名技術(shù)、m-不變性、差分隱私等。

其中，k-匿名模型指在發(fā)布去標(biāo)識(shí)化后的數(shù)據(jù)集時(shí)，要求其指定標(biāo)識(shí)屬性值相同的數(shù)據(jù)中，每一等價(jià)類至少包含k個(gè)記錄，即對(duì)于指定標(biāo)識(shí)屬性的任何一個(gè)數(shù)據(jù)值，至少能找到k條記錄具有同樣的值；而l-多樣性模型是在k匿名的基礎(chǔ)上，又要求每個(gè)等價(jià)類中敏感屬性的值至少有l(wèi)個(gè)不同的取值。l-多樣性模型避免了一個(gè)等價(jià)類中敏感屬性取值單一的情況，進(jìn)一步降低了數(shù)據(jù)集被重標(biāo)識(shí)攻擊的風(fēng)險(xiǎn)。

（3）數(shù)據(jù)評(píng)估方法

為確保去標(biāo)識(shí)化后的數(shù)據(jù)數(shù)量，還需要相應(yīng)的評(píng)估手段對(duì)結(jié)果數(shù)據(jù)集進(jìn)行個(gè)人信息泄漏風(fēng)險(xiǎn)和數(shù)據(jù)可用性方面的評(píng)估。其中，風(fēng)險(xiǎn)度量是指對(duì)數(shù)據(jù)集進(jìn)行個(gè)人信息泄漏風(fēng)險(xiǎn)度量，評(píng)估去標(biāo)識(shí)化實(shí)施的安全保護(hù)效果。現(xiàn)有的風(fēng)險(xiǎn)度量方法中，多采用基于方差統(tǒng)計(jì)、信息熵、匿名化程度、披露風(fēng)險(xiǎn)等方法度量信息泄漏風(fēng)險(xiǎn)大小。而可用性度量是指評(píng)估衡量去標(biāo)識(shí)化后數(shù)據(jù)集的可用性，即數(shù)據(jù)集被去標(biāo)識(shí)化處理后，數(shù)據(jù)集滿足業(yè)務(wù)系統(tǒng)需求的程度，一般采用和原始數(shù)據(jù)集之間的數(shù)據(jù)差異度、敏感屬性距離、關(guān)鍵信息缺損度等指標(biāo)評(píng)估。

表1 個(gè)人信息去標(biāo)識(shí)化方法說(shuō)明

4.3 管理保障

含有個(gè)人信息的數(shù)據(jù)集如果沒(méi)有經(jīng)過(guò)合適的處理，發(fā)布后可能造成嚴(yán)重的信息泄漏，甚至導(dǎo)致嚴(yán)重的安全事件發(fā)生。在信息安全保障實(shí)踐中，僅靠信息安全技術(shù)是不夠的，良好的管理能預(yù)防、阻止或減少信息安全事件的發(fā)生，我國(guó)也提出了管理與技術(shù)并重的指導(dǎo)方針。在本文提出的去標(biāo)識(shí)化框架中，針對(duì)管理保障，提出了要在管理制度、組織建設(shè)、人員管理、持續(xù)監(jiān)控等幾個(gè)方面開(kāi)展工作。

（1）管理制度

管理制度主要是對(duì)去標(biāo)識(shí)化工作流程和管理職責(zé)進(jìn)行規(guī)范和約束，需要制定相應(yīng)的管理制度并執(zhí)行。對(duì)生產(chǎn)、開(kāi)發(fā)、測(cè)試和其他非生產(chǎn)環(huán)境以及外包環(huán)境中的業(yè)務(wù)數(shù)據(jù)的去標(biāo)識(shí)化工作進(jìn)行規(guī)范，包括去標(biāo)識(shí)化的適用范圍、管理對(duì)象、崗位及職責(zé)、敏感信息、去標(biāo)識(shí)化場(chǎng)景、工作流程等。

（2）組織建設(shè)

個(gè)人信息去標(biāo)識(shí)化是一件嚴(yán)肅的工作，應(yīng)當(dāng)設(shè)置相應(yīng)的管理崗位，明確工作職責(zé)，保證個(gè)人信息去標(biāo)識(shí)化工作安全開(kāi)展。除了最高管理層外，相關(guān)的職能部門包括業(yè)務(wù)部門、數(shù)據(jù)管理部門和管理監(jiān)督部門等。其中，業(yè)務(wù)部門指因業(yè)務(wù)活動(dòng)要求而需要使用數(shù)據(jù)的部門；數(shù)據(jù)管理部門指負(fù)責(zé)數(shù)據(jù)采集、去標(biāo)識(shí)化以及銷毀的部門，負(fù)責(zé)數(shù)據(jù)管理的日常管理事務(wù)；管理監(jiān)督部門指為了保障整個(gè)數(shù)據(jù)安全管理體系良好運(yùn)轉(zhuǎn)而設(shè)立的數(shù)據(jù)監(jiān)管部門。上述部門間在實(shí)施去標(biāo)識(shí)化工作時(shí)的主要工作流程如圖2所示。

圖2 去標(biāo)識(shí)化業(yè)務(wù)流程

（3）人員管理

為了確保個(gè)人信息去標(biāo)識(shí)化工作的順利開(kāi)展，對(duì)相關(guān)崗位人員應(yīng)提出知識(shí)、技能以及安全意識(shí)方面的要求。因此應(yīng)當(dāng)在崗位需求、人員招聘、人員培訓(xùn)、離職管理以及保密協(xié)議方面制定相應(yīng)的要求和條款。

（4）持續(xù)監(jiān)控

數(shù)據(jù)集在去標(biāo)識(shí)化并發(fā)布后，隨著時(shí)間的推移，原來(lái)計(jì)算重識(shí)別風(fēng)險(xiǎn)的要素可能會(huì)發(fā)生變化，如重標(biāo)識(shí)攻擊能力升級(jí)、目標(biāo)環(huán)境變化、發(fā)現(xiàn)新的背景知識(shí)以及出現(xiàn)新增去標(biāo)識(shí)化數(shù)據(jù)集等。此時(shí)，應(yīng)再次進(jìn)行重標(biāo)識(shí)風(fēng)險(xiǎn)評(píng)估，并與預(yù)期可接受風(fēng)險(xiǎn)閾值進(jìn)行比較，以采取更好的數(shù)據(jù)保護(hù)措施，更好地保障個(gè)人信息安全。

5 標(biāo)準(zhǔn)化建議

隨著大數(shù)據(jù)時(shí)代的到來(lái)，數(shù)據(jù)交換共享的需求越來(lái)越旺盛。為了更好地實(shí)現(xiàn)個(gè)人信息保護(hù)，許多機(jī)構(gòu)和企業(yè)已經(jīng)開(kāi)始采用相關(guān)的方法和模型對(duì)數(shù)據(jù)集實(shí)施去標(biāo)識(shí)化。

標(biāo)準(zhǔn)化有利于實(shí)現(xiàn)科學(xué)管理，提高管理效率，推動(dòng)建立最佳秩序。從業(yè)界實(shí)際工作中提煉出最佳實(shí)踐，形成指南規(guī)范，可以更好地指引和規(guī)范去標(biāo)識(shí)化工作，從而有效推動(dòng)個(gè)人信息安全保護(hù)。本文從第4節(jié)的去標(biāo)識(shí)化框架出發(fā)，結(jié)合技術(shù)研究和最佳實(shí)踐，對(duì)個(gè)人信息去標(biāo)識(shí)化的標(biāo)準(zhǔn)規(guī)范研究提出如下建議。

（1）積極推動(dòng)標(biāo)準(zhǔn)建設(shè)

跟進(jìn)大數(shù)據(jù)的發(fā)展，圍繞我國(guó)大數(shù)據(jù)安全標(biāo)準(zhǔn)化體系規(guī)劃，結(jié)合個(gè)人信息安全保護(hù)要求和去標(biāo)識(shí)化標(biāo)準(zhǔn)需求，積極推動(dòng)個(gè)人信息去標(biāo)識(shí)化標(biāo)準(zhǔn)化工作開(kāi)展，制訂和推廣應(yīng)用相關(guān)標(biāo)準(zhǔn)，以更好地規(guī)范數(shù)據(jù)共享和處理等相關(guān)生產(chǎn)活動(dòng)，保障數(shù)據(jù)安全共享利用。

（2）盡快規(guī)范業(yè)界實(shí)踐

采納產(chǎn)業(yè)界在去標(biāo)識(shí)化方面的應(yīng)用和實(shí)踐成果，優(yōu)先將通用、成熟的成果轉(zhuǎn)化為標(biāo)準(zhǔn)規(guī)范，以有效提高產(chǎn)品、工程和服務(wù)的質(zhì)量。其中，綜合產(chǎn)業(yè)界實(shí)踐成果，并由清華大學(xué)牽頭制訂的標(biāo)準(zhǔn)《信息安全技術(shù) 個(gè)人信息去標(biāo)識(shí)化指南》已經(jīng)進(jìn)入公開(kāi)征求意見(jiàn)階段。此外，還應(yīng)繼續(xù)將相關(guān)產(chǎn)業(yè)界實(shí)踐提升為標(biāo)準(zhǔn)規(guī)范，以引導(dǎo)企業(yè)安全、規(guī)范實(shí)施去標(biāo)識(shí)化工作，避免數(shù)據(jù)處理亂象。

（3）引導(dǎo)應(yīng)用先進(jìn)技術(shù)

吸收國(guó)內(nèi)外在去標(biāo)識(shí)化技術(shù)方面的最新研究成果，對(duì)成熟、適用和急需的去標(biāo)識(shí)化技術(shù)機(jī)制、模型以及評(píng)估方法進(jìn)行標(biāo)準(zhǔn)化，引領(lǐng)企業(yè)采用先進(jìn)技術(shù)開(kāi)展個(gè)人信息保護(hù)工作，有效執(zhí)行個(gè)人信息披露風(fēng)險(xiǎn)度量，確保提升信息安全防護(hù)能力。如可綜合國(guó)內(nèi)外技術(shù)研究成果，推動(dòng)保序加密和保留格式加密等技術(shù)標(biāo)準(zhǔn)制訂工作。

（4）全面推進(jìn)企業(yè)規(guī)范

良好的管理能夠讓技術(shù)更好地發(fā)揮作用。企業(yè)應(yīng)在業(yè)務(wù)需求和整體安全策略的指導(dǎo)下，積極應(yīng)用國(guó)家標(biāo)準(zhǔn)，并和管理實(shí)情相結(jié)合，建立個(gè)人信息去標(biāo)識(shí)化工作規(guī)范，包括管理制度、流程規(guī)范、運(yùn)維管控、建設(shè)方式和實(shí)施規(guī)范等方面，全方位保障個(gè)人信息安全防護(hù)，推進(jìn)數(shù)據(jù)高效利用。

6 結(jié)束語(yǔ)

大數(shù)據(jù)時(shí)代是機(jī)遇與挑戰(zhàn)并存的時(shí)代，在大數(shù)據(jù)產(chǎn)生巨大價(jià)值的同時(shí)，也為個(gè)人信息保護(hù)帶來(lái)了難題。個(gè)人信息去標(biāo)識(shí)化是個(gè)人信息保護(hù)研究領(lǐng)域的一個(gè)分支，也是近年來(lái)新興的研究方向。目前在去標(biāo)識(shí)化方法、模型和評(píng)估方面已經(jīng)取得了不少成果。本文針對(duì)規(guī)范化開(kāi)展個(gè)人信息去標(biāo)識(shí)化工作的迫切需求，結(jié)合去標(biāo)識(shí)化技術(shù)的特點(diǎn)，提出包括去標(biāo)識(shí)化過(guò)程、技術(shù)支撐和管理保障在內(nèi)的去標(biāo)識(shí)化框架，給出了規(guī)范化的去標(biāo)識(shí)化過(guò)程指南，并就去標(biāo)識(shí)化的標(biāo)準(zhǔn)規(guī)范工作提出了建議。在未來(lái)工作中，可以以該架構(gòu)為指導(dǎo)，進(jìn)行具體案例的實(shí)施，積極推進(jìn)有關(guān)標(biāo)準(zhǔn)化工作，具有良好的應(yīng)用前景。

[1] FUNG B C M, WANG K, CHEN R, et al.Privacy-preserving data publishing: a survey on recent developments[J]. ACM Computing Surveys, 2010, 42(4): 14.

[2] 周水庚, 李豐, 陶宇飛, 等. 面向數(shù)據(jù)庫(kù)應(yīng)用的隱私保護(hù)研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2009,32(5): 847-861.ZHOU S G, LI F, TAO Y F, et al. Privacy preservation in database applications: a survey[J]. Chinese Journal of Computers,2009, 32(5): 847-861.

[3] SWEENEY L. Achieving k-anonymity privacy protection using generalization and suppression[J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10(5): 571-588.

[4] M AC H A N AVA J J H A L A A, K I F E R D,GEHRKE J, et al. l-Diversity: privacy beyond k-anonymity[J]. ACM Transactions on Knowledge Discovery from Data,2007, 1(1): 24.

[5] LI N H, LI T C, VENKATASUBRAMANIAN S. t-Closeness: privacy beyond k-anonymity and l-diversity[C]// The 23rd International Conference on Data Engineering, April 15-20,2007, Istanbul, Turkey. New Jersey: IEEE Press, 2007: 106-115.

[6] BYUN J W, SOHN Y, BERTINO E, et al.Secure anonymization for incremental datasets[C]//International Conference on Secure Data Management, September 10-11,2006, Seoul, Korea. Berlin: Springer-Verlag, 2006: 48-63.

[7] CYNTHIA D. Differential privacy[C]//The 33rd International Colloquium on Automata, Languages and Programming,July 9-16, 2006, Venice, Italy. Berlin:Springer-Verlag, 2006: 1-12.

[8] Institute of Medicine of the National Academies. Sharing clinical trial data:maximizing benefit, minimizing risks[M].Wasting DC: The National Academies Press, 2015: 195-196.

[9] 周明. 支付標(biāo)記化技術(shù)解讀[J]. 金卡工程,2015(9): 54-56.ZHOU M. Interpretation of payment markup Technology [J]. Cards World,2015(9): 54-56.

Personal information de-identi fi cation architecture and standardization

XIE Anming1, JIN Tao2, ZHOU Tao1
1. Beijing Venus Information Security Technology Incorporated Company, Beijing 100081, China 2. Tsinghua University School of Software, Beijing 100084, China

With the development of big data, there are many difficulties to protect personal information. De-identification removes identifiable information from a dataset so that individual data cannot be linked with specific individuals. De-identification thus helps to balance the contradictory goals of sharing personal information while protecting privacy. De-identification architecture on personal information was proposed. The specifications on implementing a de-identification process were described. On the basis of big data security standard system, some suggestions were proposed to develop de-identification standards.

personal information, de-identification, architecture, standardization

TP309

10.11959/j.issn.2096-0271.2017048

謝安明（1977-），男，博士，北京啟明星辰信息安全技術(shù)有限公司核心研究院研究員，主要研究方向?yàn)榇髷?shù)據(jù)安全、密碼應(yīng)用和區(qū)塊鏈技術(shù)，參與編寫《大數(shù)據(jù)安全標(biāo)準(zhǔn)化白皮書（2017）》《大數(shù)據(jù)服務(wù)安全能力要求》《個(gè)人信息去標(biāo)識(shí)化指南》等標(biāo)準(zhǔn)。

金濤（1980-），男，博士，清華大學(xué)軟件學(xué)院講師，全國(guó)信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)大數(shù)據(jù)安全標(biāo)準(zhǔn)特別工作組秘書，主要研究方向?yàn)榱鞒坦芾?、大?shù)據(jù)、大數(shù)據(jù)安全標(biāo)準(zhǔn)。

周濤（1979-），男，博士，北京啟明星辰信息安全技術(shù)有限公司教授級(jí)高級(jí)工程師、助理總裁，核心研究院院長(zhǎng)，主要研究方向?yàn)榇髷?shù)據(jù)安全分析、事件關(guān)聯(lián)分析、入侵檢測(cè)等。

2017-08-06

金濤，jintao16@tsinghua.edu.cn

大數(shù)據(jù)2017年5期

大數(shù)據(jù)的其它文章: 大數(shù)據(jù)發(fā)現(xiàn)非法傳銷網(wǎng)絡(luò); 區(qū)域大數(shù)據(jù)發(fā)展水平評(píng)價(jià)方法; 基于電子病歷的臨床醫(yī)療大數(shù)據(jù)挖掘流程與方法; 基于新型存儲(chǔ)的大數(shù)據(jù)存儲(chǔ)管理; 群智大數(shù)據(jù)：感知、優(yōu)選與理解; 大數(shù)據(jù)及其隱私保護(hù)

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

個(gè)人信息去標(biāo)識(shí)化框架及標(biāo)準(zhǔn)化

1 引言

2 相關(guān)工作

2.1 有關(guān)法律標(biāo)準(zhǔn)

2.2 技術(shù)及應(yīng)用規(guī)范

3 基礎(chǔ)知識(shí)

3.1 標(biāo)識(shí)符分類

3.2 重標(biāo)識(shí)風(fēng)險(xiǎn)

3.3 去標(biāo)識(shí)化原則

4 去標(biāo)識(shí)化框架

4.1 去標(biāo)識(shí)化過(guò)程

4.1.1 確定目標(biāo)

4.1.2 識(shí)別標(biāo)識(shí)

4.1.3 測(cè)試驗(yàn)證

4.1.4 轉(zhuǎn)換數(shù)據(jù)

4.1.5 評(píng)估數(shù)據(jù)

4.1.6 導(dǎo)出數(shù)據(jù)

4.2 技術(shù)支撐

4.3 管理保障

5 標(biāo)準(zhǔn)化建議

6 結(jié)束語(yǔ)