劉晶 梅樂翔 高薪
要對數(shù)據(jù)進(jìn)行脫敏處理,首先需要明確數(shù)據(jù)可能的應(yīng)用場景。在數(shù)據(jù)脫敏領(lǐng)域,針對不同場景,通常具備特定的脫敏策略。
交通運輸部路網(wǎng)中心管轄全國路網(wǎng)體系內(nèi)的運行服務(wù)、監(jiān)測檢測、ETC發(fā)行,以及清分結(jié)算管理等業(yè)務(wù),隨著業(yè)務(wù)電子化、信息化的發(fā)展,路網(wǎng)中心積累越來越多的數(shù)據(jù)資產(chǎn)。作為數(shù)據(jù)運營方,如何通過數(shù)據(jù)科技化拓展新的業(yè)務(wù)領(lǐng)域,找到新的業(yè)務(wù)增長點,挖掘“大數(shù)據(jù)”這座金礦,從而向外部輸出合理的數(shù)據(jù)服務(wù)以及數(shù)據(jù)產(chǎn)品,是當(dāng)前交通運輸部路網(wǎng)中心相關(guān)部門所面臨的首要任務(wù)。
數(shù)據(jù)產(chǎn)品的加工、數(shù)據(jù)服務(wù)的輸出又和數(shù)據(jù)本身的科技化有著不可分割的關(guān)聯(lián),數(shù)據(jù)就像石油,是新生產(chǎn)力的源泉,數(shù)據(jù)的加工和服務(wù)化是一種新的生產(chǎn)方式。而數(shù)據(jù)科技化應(yīng)用的所有前提都是數(shù)據(jù)應(yīng)用和服務(wù)體系的建立和完善,數(shù)據(jù)服務(wù)體系中非常重要的環(huán)節(jié)是數(shù)據(jù)治理,而數(shù)據(jù)治理又往往由數(shù)據(jù)應(yīng)用推動,數(shù)據(jù)脫敏和數(shù)據(jù)標(biāo)簽化是數(shù)據(jù)應(yīng)用的重要通道。本文簡要闡述交通部路網(wǎng)中心在遵守國家法律法規(guī)情況下的數(shù)據(jù)應(yīng)用和數(shù)據(jù)商用建議的各主要模塊。
近年來,針對高速公路省界站設(shè)立過多導(dǎo)致的車輛通行效率低、實體經(jīng)濟物流成本高等問題,國務(wù)院常務(wù)會議決定推動取消高速公路省界收費站,建立全國統(tǒng)一管理的路網(wǎng)系統(tǒng)。與此同時,高速公司跨省收費方式由前臺人工方式轉(zhuǎn)變?yōu)閿?shù)字式的過程中,產(chǎn)生大量的用戶通行數(shù)據(jù)。
2018年李克強總理在政府工作報告提出:簡政放權(quán)、放管結(jié)合、優(yōu)化服務(wù)等改革推動政府職能發(fā)生深刻轉(zhuǎn)變,市場活力和社會創(chuàng)造力明顯增強。
路網(wǎng)中心積極響應(yīng)政務(wù)服務(wù)從傳統(tǒng)方式向互聯(lián)網(wǎng)化、移動化發(fā)展。針對交通部路網(wǎng)數(shù)據(jù)對外公開、服務(wù)的過程中涉及大量的個人隱私數(shù)據(jù)的處理問題,本文基于高速通行數(shù)據(jù)的脫敏應(yīng)用進(jìn)行研究。
研究基礎(chǔ)與目標(biāo)
目前交通部路網(wǎng)中心的基礎(chǔ)數(shù)據(jù)現(xiàn)狀如下:
存量數(shù)據(jù):截至2018年10月,高速公路通行數(shù)據(jù)壓縮歸檔后占用磁盤空間大小為919GB。
增量數(shù)據(jù):截至2018年10月,每日平均增量數(shù)據(jù)大小為1.8GB、156萬個數(shù)據(jù)文件、3000萬條數(shù)據(jù)。
數(shù)據(jù)文件:單數(shù)據(jù)文件最大數(shù)據(jù)條目為1000條,最大文件大小為905KB;通常單個數(shù)據(jù)文件存儲單條數(shù)據(jù)條目。
以上的存量數(shù)據(jù)與增量數(shù)據(jù)可以為本研究提供大量的測試數(shù)據(jù);同時,在路網(wǎng)中心現(xiàn)有的業(yè)務(wù)模式中,對數(shù)據(jù)內(nèi)部應(yīng)用已經(jīng)有成熟的體系與業(yè)務(wù),對此類數(shù)據(jù)應(yīng)用中的非必需敏感數(shù)據(jù),業(yè)務(wù)人員已有成熟判斷,因此對業(yè)務(wù)的需求分析也是本研究的基礎(chǔ)之一。
通過本文的應(yīng)用研究,希望實現(xiàn)對路網(wǎng)數(shù)據(jù)中敏感字段的脫敏處理,在兼顧數(shù)據(jù)脫敏的有效性的同時保留數(shù)據(jù)的應(yīng)用價值。
高速通行數(shù)據(jù)脫敏場景
要對數(shù)據(jù)進(jìn)行脫敏處理,首先需要明確數(shù)據(jù)可能的應(yīng)用場景。在數(shù)據(jù)脫敏領(lǐng)域,針對不同場景,通常具備特定的脫敏策略。在不同場景下,對敏感數(shù)據(jù)的定義也有業(yè)務(wù)上的差異。因此,本文首先對高速通行數(shù)據(jù)的應(yīng)用場景進(jìn)行分析。
而在對高速通行數(shù)據(jù)應(yīng)用場景分析之前,我們首先對需要處理的數(shù)據(jù)進(jìn)行梳理:
業(yè)務(wù)系統(tǒng):應(yīng)用通行數(shù)據(jù)的業(yè)務(wù)系統(tǒng)主要為服務(wù)協(xié)調(diào)、數(shù)據(jù)匯聚交換、BOMS、綜合業(yè)務(wù)平臺、新增系統(tǒng)等。
主要字段:單號、投訴人、聯(lián)系電話、卡號、操作、狀態(tài)、車牌號、省份、時長、金額、余額、支付方式等。
標(biāo)識信息:聯(lián)系電話、卡號、車牌號。
針對以上內(nèi)容,標(biāo)識數(shù)據(jù)通常在任何的應(yīng)用場景中均需要進(jìn)行脫敏處理。對于剩余的字段,根據(jù)場景不同、應(yīng)用不同的脫敏策略。高速通行數(shù)據(jù)通??梢园凑諗?shù)據(jù)應(yīng)用目的(技術(shù)目的、業(yè)務(wù)目的)和數(shù)據(jù)應(yīng)用對象(數(shù)據(jù)內(nèi)部應(yīng)用、數(shù)據(jù)外部應(yīng)用)這兩個維度進(jìn)行劃分。
高速通行數(shù)據(jù)主要的應(yīng)用場景是由交通部內(nèi)部業(yè)務(wù)人員進(jìn)行使用,主要應(yīng)用于收費公路基礎(chǔ)數(shù)據(jù)的分析評估、投訴處理等業(yè)務(wù)場景。在數(shù)據(jù)交換、共享、使用的過程中存在隱私信息泄露的風(fēng)險,在不影響業(yè)務(wù)推進(jìn)的前提下,需要對非業(yè)務(wù)必要的信息、標(biāo)識信息、隱私信息進(jìn)行脫敏處理。經(jīng)過脫敏后,實現(xiàn)數(shù)據(jù)的模糊化,保障數(shù)據(jù)在內(nèi)部使用的安全可靠。針對業(yè)務(wù)分析場景的數(shù)據(jù)脫敏,在對標(biāo)識數(shù)據(jù)處理的基礎(chǔ)上,需要根據(jù)不同的業(yè)務(wù)場景進(jìn)行分析,脫敏相應(yīng)的不必要的半標(biāo)識數(shù)據(jù)。
而在路網(wǎng)中心技術(shù)部門開發(fā)環(huán)節(jié)中,為確保功能開發(fā)與測試的順利推進(jìn),需要將收費公路基礎(chǔ)數(shù)據(jù)導(dǎo)出給技術(shù)部門進(jìn)行開發(fā)。而原始數(shù)據(jù)直接應(yīng)用于開發(fā)、測試,會不可避免地造成數(shù)據(jù)泄露。所以,對開發(fā)所需要的數(shù)據(jù)需要進(jìn)行脫敏后再進(jìn)行導(dǎo)出,應(yīng)用于開發(fā)的數(shù)據(jù)脫敏需要保證數(shù)據(jù)格式、數(shù)據(jù)長度、數(shù)據(jù)類型與原始數(shù)據(jù)的統(tǒng)一。因此,在技術(shù)應(yīng)用場景中,可對全體數(shù)據(jù)字段進(jìn)行脫敏處理,甚至依據(jù)技術(shù)要求生產(chǎn)假數(shù)據(jù)進(jìn)行開發(fā)、測試。
以上的應(yīng)用場景均為高速通行數(shù)據(jù)于交通部內(nèi)部的應(yīng)用,數(shù)據(jù)對外輸出服務(wù)是交通部路網(wǎng)中心未來的規(guī)劃之一,無論是依照《政務(wù)信息資源共享管理暫行辦法》去公開數(shù)據(jù),還是對外部企業(yè)/個人輸出路網(wǎng)的數(shù)據(jù)服務(wù),均要符合相關(guān)的法律法規(guī),不應(yīng)存在隱私泄露的風(fēng)險。
數(shù)據(jù)脫敏有效性驗證
在數(shù)據(jù)脫敏領(lǐng)域,通常會出現(xiàn)無效脫敏的現(xiàn)象,例如,通過明文字段數(shù)據(jù)推測出敏感的信息內(nèi)容,依據(jù)個人標(biāo)識數(shù)據(jù)集成全部個人數(shù)據(jù)暴露敏感字段等。因此,在數(shù)據(jù)脫敏領(lǐng)域中存在眾多的模型與算法來驗證數(shù)據(jù)脫敏的有效性,本文中對相對主流的K-匿名與L-多樣性模型進(jìn)行應(yīng)用研究。通過K-匿名與L-多樣性的模型可以保證數(shù)據(jù)在脫敏處理后的有效性,而對于這兩種模型的選擇,則需要依照實際的情況進(jìn)行抉擇。通常情況下,K-匿名模型可以保證絕大多數(shù)的脫敏任務(wù)結(jié)果的有效性。而針對數(shù)據(jù)多樣性缺乏的問題,L-多樣化模型可以保證脫敏后數(shù)據(jù)的有效性。
k-匿名模型要求對于任意一行記錄,其所屬的相等集內(nèi)記錄數(shù)量不小于k,即至少有k-1條記錄半標(biāo)識列屬性值與該條記錄相同。理論上來說,對于K-匿名數(shù)據(jù)集,對于任意記錄,攻擊者只有1/k的概率將該記錄與具體用戶關(guān)聯(lián)。
k-匿名的操作步驟:
1.將待處理的高速通行數(shù)據(jù)分為三類:標(biāo)識列(key attributes)、半標(biāo)識列(quasi identifier)、業(yè)務(wù)列(sernsitive attributes)。
2.移除標(biāo)識列,采用脫敏算法使得標(biāo)識列的數(shù)據(jù)完全隱秘。
3.泛化半標(biāo)識列,采用脫敏算法使得半標(biāo)識列的數(shù)據(jù)部分隱秘,還保留部分的實際含義。
4.根據(jù)具體需求對業(yè)務(wù)數(shù)據(jù)處理。
k-匿名的特點:
1.攻擊者無法知道某個對象是否在公開的數(shù)據(jù)中。
2.給定一個對象,攻擊者無法確認(rèn)他是否具有某項敏感屬性。
3. 攻擊者無法確認(rèn)某條數(shù)據(jù)對應(yīng)哪個對象。
k-匿名的不足:
1.當(dāng)公開的數(shù)據(jù)記錄和原始記錄的順序一樣的時候,攻擊者可以猜出匿名化的記錄是屬于誰。解決方法也很簡單,在公開數(shù)據(jù)之前先打亂原始數(shù)據(jù)的順序就可以避免這類的攻擊。
2.若公開的數(shù)據(jù)有多種類型,如果它們的K-匿名方法不同,那么攻擊者可以通過關(guān)聯(lián)多種數(shù)據(jù)推測用戶信息。
3.當(dāng)敏感屬性在同一類半標(biāo)識列中缺乏多樣性,或者攻擊者有其它的數(shù)據(jù)背景知識,K-匿名無法避免隱私泄露。
通過K-匿名的示例,引出了多樣化的概念。對于半標(biāo)識列相同的數(shù)據(jù),其業(yè)務(wù)列數(shù)據(jù)必須具備多樣性。這樣通過多樣性可以保證數(shù)據(jù)對象的隱私不能通過背景知識等信息推測出來。L-多樣化保證了相同類型的數(shù)據(jù)中至少有L種內(nèi)容不同的屬性。
L-多樣化定義:
如果對于任意相等集內(nèi)所有記錄對應(yīng)的敏感數(shù)據(jù)的集合,包含L個“合適”值,則稱該相等集是滿足L-多樣化。如果數(shù)據(jù)集中所有相等集都滿足L-多樣化,則稱該數(shù)據(jù)集滿足L-多樣化。
L-多樣化特點:
相對于K-匿名標(biāo)準(zhǔn),符合L-多樣化標(biāo)準(zhǔn)的數(shù)據(jù)集顯著降低了屬性數(shù)據(jù)泄漏的風(fēng)險。對于滿足L-多樣化的數(shù)據(jù)集,理論上,攻擊者最多只有1/L的概率能夠?qū)傩孕孤豆?,從而將特定用戶與其敏感信息關(guān)聯(lián)起來。通過插入干擾數(shù)據(jù)構(gòu)造符合L-Diversity的數(shù)據(jù)集。在K-匿名的基礎(chǔ)上,每個數(shù)據(jù)集中,其敏感信息列有L個不同的值,攻擊者只有1/L的概率獲得正確的敏感信息。
結(jié)語
本文以交通部路網(wǎng)中心海量的路網(wǎng)通行作為研究基礎(chǔ),以對通行數(shù)據(jù)中的敏感數(shù)據(jù)脫敏處理后能夠達(dá)到合法輸出應(yīng)用要求為目標(biāo),從高速通行數(shù)據(jù)脫敏場景與數(shù)據(jù)脫敏的有效性兩個維度進(jìn)行應(yīng)用研究,實現(xiàn)基于高速通行數(shù)據(jù)的脫敏方案推進(jìn):保護隱私數(shù)據(jù)、提高數(shù)據(jù)可用性、確保脫敏有效性。
應(yīng)用本文的研究內(nèi)容,可以在路網(wǎng)數(shù)據(jù)的社會化服務(wù)應(yīng)用領(lǐng)域提供技術(shù)指引與支持。