黎俊延
摘要:目前,大數(shù)據(jù)的應用廣泛的同時,個人信息保護受到了前所未有的挑戰(zhàn)。人民在享受數(shù)據(jù)分析給自己生活帶來的貼切服務的同時,也深受個人信息泄露甚至被騷擾的困擾。相關(guān)報道指出,黑客所掌握的用戶數(shù)據(jù)庫數(shù)量超過了1億條,信息黑市產(chǎn)業(yè)鏈的規(guī)?;蚋哌_上百億元。個人敏感信息保護迫在眉睫。本文將從數(shù)據(jù)脫敏的角度分析我國信息保護現(xiàn)狀以及問題,并給出相關(guān)解決辦法和建議。
關(guān)鍵詞:數(shù)據(jù)脫敏 脫敏系統(tǒng) 數(shù)據(jù)隱私
一、我國數(shù)據(jù)脫敏現(xiàn)狀簡述
數(shù)據(jù)脫敏就是對敏感信息通過脫敏規(guī)則進行數(shù)據(jù)的變形,實現(xiàn)敏感隱私數(shù)據(jù)的可靠保護?!爱敶髷?shù)據(jù)進行交易的時候,目前據(jù)不完全統(tǒng)計80%是個人信息。大數(shù)據(jù)交易的過程中最重要兩個環(huán)節(jié)一是清洗和脫敏,脫敏又叫匿名化,但全球都尚未形成脫敏的具體標準?!边@是2016年北京強國知識產(chǎn)權(quán)論壇“互聯(lián)網(wǎng)安全與治理模式創(chuàng)新”分享會上,重慶大學法學院博士導師齊愛民教授指出的,我國信息脫敏日益受到重視,可是還處于一個不健全可靠的一個生長階段。具體問題表現(xiàn)為:
(一)敏感數(shù)據(jù)標準不一
我國缺乏個人信息保護相關(guān)法律,個人敏感信息沒有明確的劃分,導致脫敏技術(shù)程序標準不統(tǒng)一。因為數(shù)據(jù)量龐大,數(shù)據(jù)處理一般通過程序執(zhí)行。在明確劃分后,如何通過程序識別敏感信息進行處理,敏感信息的字段名稱、類型、長度、賦值范圍的如何設定,也是一個難題。
(二)脫敏技術(shù)的可逆性和處理后數(shù)據(jù)的不可應用性
由于脫敏標準不一樣,脫敏深度也沒有具體標準。部分企業(yè)業(yè)務采用可恢復性脫敏的數(shù)據(jù)存在可逆化,比如數(shù)據(jù)加密,而部分企業(yè)業(yè)務采用不可恢復性脫敏。數(shù)據(jù)在脫敏之后,不應該提現(xiàn)出用戶的敏感信息。數(shù)據(jù)脫敏不完整或不全面,在數(shù)據(jù)交叉到一起就存在識別出用戶個人身份的情況發(fā)生。由脫敏標準不統(tǒng)一造成的信息泄露問題,在大數(shù)據(jù)應用的傳輸過程中可能被放大。同時,不可逆性脫敏后的數(shù)據(jù)在企業(yè)運營中會不會影響效率也是也是一個實際問題。一般來說,只要處理到無法推斷原有個人信息,不會造成個人資料泄露。但如果修改過多,容易導致丟失原有特性。企業(yè)數(shù)據(jù)應用端對數(shù)據(jù)的提煉就會受到不可逆的影響。
(三)形式重視大于方式重視企業(yè)運營環(huán)節(jié)容易出現(xiàn)泄漏
信息黑市的信息來源有很大一部分是企業(yè)內(nèi)部信息泄露引起的,這涉及到了企業(yè)管理規(guī)范問題,現(xiàn)階段我國大部分企業(yè)對數(shù)據(jù)處理人員的工作監(jiān)管缺乏力度。同時,企業(yè)日常運營也存在問題。
二、數(shù)據(jù)脫敏規(guī)范及建議
(一)敏感數(shù)據(jù)標準劃定
首先,需要明確的是區(qū)分大數(shù)據(jù)與個人信息的區(qū)別。在當下大數(shù)據(jù)時代,許多人甚至企業(yè)把大數(shù)據(jù)與個人信息混為一談,這使得企業(yè)數(shù)據(jù)運營中個人信息保護無從下手。英國頒布的《開放數(shù)據(jù)白皮書》中要求,各政府部門開放數(shù)據(jù)策略中時應明確將開放數(shù)據(jù)劃分為大數(shù)據(jù)(big data)和個人數(shù)據(jù)(my data),大數(shù)據(jù)是日常業(yè)務過程中收集到的數(shù)據(jù),可以對所有人開放,而個人數(shù)據(jù)僅僅對某條數(shù)據(jù)所涉及到的個人自己開放。下面介紹一下個人信息的具體分類。
一般情況下個人資料包括:1.姓名、性別、年齡、戶籍、身份證號碼、遺傳特征、指紋、揭示種族或民族起源、政治意見、宗教信仰;2.與醫(yī)療相關(guān)信息包括有健康情況、病歷;3.通信以及活動方式信息包括有財務情況通信地址、E-mail地址、家庭住址、工作單位、電話、賬號與密碼;4.社會經(jīng)歷信息包括有學歷、犯罪記錄、婚姻。
在科技發(fā)展背景下的活動記錄信息及其他可以識別該個人的信息則為大數(shù)據(jù)面向的信息:如通話記錄、網(wǎng)上購物記錄、網(wǎng)站瀏覽痕跡、IP地址等網(wǎng)上活動。
(二)脫敏技術(shù)
目前數(shù)據(jù)脫敏的技術(shù)方法有很多種,目前投入實際應用的技術(shù)有k-匿名、L-多樣性、數(shù)據(jù)抑制、數(shù)據(jù)擾動和差分隱私。
(1)k-匿名:
企業(yè)因為業(yè)務原因公開數(shù)據(jù)時候都會簡單處理,例如會把姓名刪除,但如果黑客通過其他渠道獲得的信息與之相匹配,就可以獲得敏感數(shù)據(jù)。這稱作為鏈接攻擊。匿名化就是為了解決鏈接攻擊造成的敏感信息泄露問題而提出的。它要求發(fā)布的數(shù)據(jù)中存在至少為k的在準標識符上不可區(qū)分的記錄,使攻擊者不能判別出隱私信息所屬的具體個體, k-匿名通過參數(shù)k指定用戶可承受的最大信息泄露風險。定義參數(shù)k,則視具體數(shù)據(jù)與脫敏深度要求而定。
(2)L-多樣性:
L-多樣性樣性是在k-匿名的基礎上提出的,外加了一個條件就是同一等價類中的記錄至少有L個“偽真實”的值,使得隱私泄露風險不超過 1/L,“偽真實”的意思是該數(shù)據(jù)有多個格式合法的近似值。比如這幾個值不同,或者信息熵至少為logL等等。
(3)數(shù)據(jù)抑制
數(shù)據(jù)抑制又稱為隱匿,是指用最一般化的值取代原始屬性值。在k-匿名化中,若無法滿足k-匿名要求,則一般采取抑制操作,被抑制的值要不從數(shù)據(jù)表中刪除,要不相應屬性值用“ **”表示。例子如下:
>>> s = "CREDITCARD"處理后為>>> s[-4:].rjust(len(s)或 "*")'******CARD'
(4)數(shù)據(jù)擾動
數(shù)據(jù)擾動是通過對數(shù)據(jù)的擾動變形使數(shù)據(jù)變得模糊來隱藏敏感的數(shù)據(jù)的規(guī)則,即將數(shù)據(jù)庫 A變形為一個新的數(shù)據(jù)庫 A′以供研究者或企業(yè)查詢使用。A′會和 A很相似,從 A′中可以挖掘出和 A相同的信息。這種方法通過修改原始數(shù)據(jù),使得敏感性信息不能與初始的對象聯(lián)系起來或使得敏感性信息不復存在,但數(shù)據(jù)對分析依然有效。
(5)差分隱私
差分隱是基于數(shù)據(jù)失真的隱私保護技術(shù),采用添加噪聲的技術(shù)使敏感數(shù)據(jù)失真但同時保持某些數(shù)據(jù)或數(shù)據(jù)屬性不變。數(shù)據(jù)微小變化后,分析人員仍然可以從數(shù)據(jù)中進行正常的數(shù)據(jù)挖掘工作。其中分析人員通過數(shù)據(jù)的可用性來定義數(shù)據(jù)變化的幅度大小,這種變化的范圍由參數(shù)ε控制,對任何可能的結(jié)果,該參數(shù)設置了變化的邊界。ε的低值,例如0.1,意味著關(guān)于任何個人的看法的改變非常少;ε的高值,例如50,意味著關(guān)于個人的看法的變化更大。正式的定義如下。
當且僅當以下情況下,算法A是ε-差分隱私的:
Pr[A(D) = x]≤ e^? * Pr[A(D') = x]
差分隱私保護可以保證,在數(shù)據(jù)集中添加或刪除一條數(shù)據(jù)不會影響到查詢輸出結(jié)果,因此即使在最壞情況下,攻擊者已知除一條記錄之外的所有敏感數(shù)據(jù),仍可以保證這一條記錄的敏感信息不會被泄露。
(三)脫敏系統(tǒng)
常見的脫敏系統(tǒng)中有兩種,人工識別系統(tǒng)與自動識別系統(tǒng)。在脫敏過程中,一般分為兩個階段。一是敏感數(shù)據(jù)識別,二是數(shù)據(jù)脫敏任務執(zhí)行階段。人工識別系統(tǒng)與智能識別系統(tǒng)區(qū)別在于敏感數(shù)據(jù)識別方式不同。
1.人工識別系統(tǒng)
下面舉Oracle數(shù)據(jù)脫敏技術(shù)Data Masking(下面簡稱DM)為例簡述脫敏系統(tǒng)運作流程。
DM并不是簡單的把數(shù)據(jù)加密或者混淆就好了,為了讓脫敏后的資料能在非生產(chǎn)環(huán)境完全正確運作,需要考慮字段的依賴,保證引用的完整性??梢哉fDM給測試人員或者開發(fā)人員提供了一份“最真實的假數(shù)據(jù)”。這也是數(shù)據(jù)脫敏的核心所在。DM提供兩個功能:(1)屏蔽格式庫,格式庫內(nèi)包含一組即用型屏蔽格式。掩蔽格式可以是您創(chuàng)建的格式,也可以是Oracle提供的默認掩碼格式的列表格式;(2)掩蔽定義,屏蔽定義要在數(shù)據(jù)庫中的一個或多個表上實現(xiàn)的數(shù)據(jù)屏蔽操作。屏蔽定義將表格列與用于屏蔽數(shù)據(jù)的格式相關(guān)聯(lián)。他們還使用相關(guān)列維護數(shù)據(jù)庫中未正式聲明的列之間的關(guān)系。
作為最佳做法,組織應為所有常見的受管制信息創(chuàng)建掩蔽格式,以便不管敏感數(shù)據(jù)位于哪個數(shù)據(jù)庫中,敏感數(shù)據(jù)應用于數(shù)據(jù)庫表格之間。這樣可確保所有敏感數(shù)據(jù)在整個運營過程中始終屏蔽。
通過Oracle數(shù)據(jù)庫進行人工識別并進行數(shù)據(jù)脫敏的步驟一般為以下四步:加載管理數(shù)據(jù)屏蔽格式庫、識別數(shù)據(jù)庫中敏感數(shù)據(jù)、使用預定義掩碼格式和創(chuàng)建并應用用戶定義的掩碼。
第一步:加載管理數(shù)據(jù)屏蔽格式庫
Oracle創(chuàng)建數(shù)據(jù)屏蔽軟件包是為安全管理員提供了維護常見屏蔽格式集中式定義的能力。此集中式定義可確保數(shù)據(jù)庫在整個企業(yè)中應用相同的屏蔽規(guī)則,而不管敏感數(shù)據(jù)所在的數(shù)據(jù)庫。因此,組織和企業(yè)可以確保敏感數(shù)據(jù)被一致地屏蔽,并符合既定的數(shù)據(jù)共享標準。簡單的說應用Oracle數(shù)據(jù)庫的用戶都可以共享統(tǒng)一標準的脫敏數(shù)據(jù)。Oracle使用格式庫這種預加載模板的方法,有利于增加統(tǒng)一脫敏標準后數(shù)據(jù)的可移植性。
第二步:識別數(shù)據(jù)庫中敏感數(shù)據(jù)
數(shù)據(jù)庫中數(shù)據(jù)是通過識別主鍵 -外鍵來互相關(guān)聯(lián)的,這也是需要脫敏的數(shù)據(jù)的識別源。數(shù)據(jù)通過主鍵 -外鍵識別后,就需要通過已定的數(shù)據(jù)屏蔽模式進行屏蔽。數(shù)據(jù)屏蔽定義是具有掩蔽格式的一組模式中的表和列的關(guān)聯(lián),包含應用程序表中敏感列的列表。
第三步:使用預定義掩碼格式
Oracle提供的預定義掩碼格式一般是生成隨機數(shù)或隨機數(shù),并執(zhí)行后期處理,以確保最終結(jié)果是有效的現(xiàn)實值,在Oracle數(shù)據(jù)庫11.2版中,足夠支持絕大部分數(shù)據(jù)庫的數(shù)據(jù)類型脫敏,支持屏蔽的數(shù)據(jù)類型包括:(1)數(shù)字類型(Numeric Types):NUMBER、FLOAT、RAW、BINARY_FLOAT、BINARY_DOUBLE;(2)字符串類型(String Types):CHAR、NCHAR、VARCHAR2、NVARCHAR2;(3)日期類型(Date Types):DATE、TIMESTAMP
第四步:創(chuàng)建并應用用戶定義的掩碼
如果應用程序或業(yè)務有非常具體的要求,則需要創(chuàng)建特殊掩碼。需要創(chuàng)建掩蔽定義時,數(shù)據(jù)庫管理員導入掩碼模板。注意創(chuàng)建自定義掩碼時,確保選擇的格式不違反檢查約束,并且不會破壞任何使用數(shù)據(jù)的應用程序。創(chuàng)建自定義掩碼的一般步驟為:(1)輸入掩碼定義名稱,(2)選擇所需操作表格中的敏感信息主鍵,(3)選擇敏感數(shù)據(jù)工具并選為用戶定義功能,(4)定義掩碼名稱,確定后注意生成掩碼格式。系統(tǒng)通過驗證掩碼模板并基于模板創(chuàng)建掩碼定義來進行響應,并生成脫敏腳本,(5)此后,數(shù)據(jù)庫管理員使用新創(chuàng)建的掩碼定義來啟動數(shù)據(jù)庫的屏蔽。系統(tǒng)通過驗證屏蔽定義,驗證空間可用性,然后將掩碼格式應用于測試階段數(shù)據(jù)庫中的數(shù)據(jù)來進行響應。完成數(shù)據(jù)自定義脫敏步驟。自定義掩碼對數(shù)據(jù)庫使用者友好,能比較簡便對特殊數(shù)據(jù)進行匹配掩碼模板制定掩碼,這要求使用者對數(shù)據(jù)庫功能有一定的掌握。
2.自動識別系統(tǒng)
自動識別是在手動識別基礎穩(wěn)定后才可以實現(xiàn)的,目前處于理論階段。區(qū)別于手動識別系統(tǒng),建立自動識別脫敏系統(tǒng),需要在敏感數(shù)據(jù)識別階段前針對不同數(shù)據(jù)的特點,設計建立敏感數(shù)據(jù)識別所需的模型、算法、知識庫等,在數(shù)據(jù)錄入的時候進行匹配識別。因此自動識別數(shù)據(jù)脫敏系統(tǒng)主體流程包括脫敏配置、敏感數(shù)據(jù)識別、脫敏策略配置和數(shù)據(jù)脫敏四個個環(huán)節(jié)。(1)脫敏配置:根據(jù)數(shù)據(jù)庫對應的表格類型,預先設定需識別的數(shù)據(jù)類型,根據(jù)信息的內(nèi)容價值分配脫敏的權(quán)重,根據(jù)權(quán)重進行定義配置。(2)敏感數(shù)據(jù)識別:對用戶的數(shù)據(jù)庫進行識別時,根據(jù)對主鍵-外鍵的處理,需要對字段的格式與語義進行分析,從而識別出系統(tǒng)中的敏感數(shù)據(jù)。(3)脫敏策略配置:根據(jù)業(yè)務情況,可供兩種脫敏策略,一種是基于系統(tǒng)配置的敏感數(shù)據(jù)類型,采用系統(tǒng)智能匹配的脫敏技術(shù)進行脫敏策略;一種是用戶自定義,貼合與實際要求的脫敏策略。(4)數(shù)據(jù)脫敏:按照用戶使用情況選擇靜態(tài)數(shù)據(jù)脫敏和動態(tài)數(shù)據(jù)脫敏。
三、企業(yè)脫敏系統(tǒng)應用案例分析
(一)案例背景
東營銀行全名東營銀行股份有限公司,是山東省的一家地方性城市商業(yè)銀行。截至2015年年底,全行資產(chǎn)總額560億元,各項存款余額450億元,貸款余額289億元。
東營銀行信息技術(shù)部負責全行信息系統(tǒng)的開發(fā)、運維和管理。部門員工20人,而負責運維的各類信息系統(tǒng)有50個以上。為解決人員少工作量大的問題,外包成為該銀行常用的手段。隨著東營銀行管理分析類系統(tǒng)的建設,東營銀行的數(shù)據(jù)資產(chǎn)面臨很大的泄露風險,特別是銀行卡數(shù)據(jù)、客戶信息數(shù)據(jù)、經(jīng)營管理信息。同時,監(jiān)管部門也要求做好客戶信息的保護工作。結(jié)合銀監(jiān)會2015年銀行信息科技風險管理課題研究,東營銀行開始啟動數(shù)據(jù)脫敏系統(tǒng)建設項目。
(二)脫敏系統(tǒng)建設情況
項目建設的總體目標為:根據(jù)東營銀行現(xiàn)有業(yè)務為基礎建立一套易用安全的數(shù)據(jù)安全保護系統(tǒng),該系統(tǒng)防止內(nèi)部數(shù)據(jù)資產(chǎn)泄露,并具有良好業(yè)務擴展性。其中脫敏系統(tǒng)的基本功能包括:
(1)敏感信息發(fā)現(xiàn)和提取
通過預先設定敏感數(shù)據(jù)特點格式,來實現(xiàn)敏感數(shù)據(jù)識別。系統(tǒng)管理界面可以提供敏感數(shù)據(jù)的生產(chǎn)規(guī)則分析,檢測到的敏感信息字段會顯示在管理界面中提供查看,降低識別錯誤率。
(2)脫敏規(guī)則管理
數(shù)據(jù)脫敏系統(tǒng)可針對不同業(yè)務系統(tǒng)、不同表的相同類型數(shù)據(jù)應采用相同的數(shù)據(jù)脫敏規(guī)則。在此基礎上,對于業(yè)內(nèi)不同的業(yè)務環(huán)境,分別配備不同的脫敏策略。
(3)脫敏操作管理
數(shù)據(jù)脫敏系統(tǒng)針對每一個脫敏任務分別進行記錄并展示。脫敏任務運行過程中,系統(tǒng)針對每一個脫敏任務生成一個唯一的任務ID,而這些ID會被存儲在元數(shù)據(jù)庫中。用戶可以通過狀態(tài)監(jiān)控窗口檢查詳細的狀態(tài),包括輸入的參數(shù),選擇的紀錄,作業(yè)描述,當前狀態(tài),執(zhí)行時間標簽和一個詳細的日志文件等。
(4)監(jiān)控管理
數(shù)據(jù)脫敏系統(tǒng)通過狀態(tài)監(jiān)控、調(diào)試配置、子任務狀態(tài)、日志文件來實現(xiàn)對脫敏任務的監(jiān)控。通過反映信號能監(jiān)控到脫敏進程的執(zhí)行情況,確保運維人員能夠清晰判斷執(zhí)行結(jié)果。同時,每個作業(yè)都會有資料輸出方與操作人員的工號記錄。造成信息事故的員工會追究責任。
(5)權(quán)限管理
數(shù)據(jù)脫敏系統(tǒng)具備完善、統(tǒng)一的權(quán)限管理體系,可以針對用戶設定不同的使用權(quán)限,可以針對業(yè)務對象授予不同的訪問權(quán)限,實現(xiàn)數(shù)據(jù)行級的權(quán)限控制。
(三)系統(tǒng)實施結(jié)果
東營銀行最終敲定脫敏系統(tǒng)分為以下分支系統(tǒng),其對應的數(shù)據(jù)庫版本如下表4-3-1所示。
脫敏系統(tǒng)對敏感數(shù)據(jù)進行脫敏處理,保持了脫敏數(shù)據(jù)的數(shù)據(jù)主外-鍵關(guān)聯(lián)性、關(guān)聯(lián)字段的業(yè)務語義關(guān)聯(lián)性以及業(yè)務語義不變。經(jīng)過銀行業(yè)務流程系統(tǒng)測試,脫敏后數(shù)據(jù)可滿足系統(tǒng)對數(shù)據(jù)仿真度要求,保持業(yè)務規(guī)則與脫敏數(shù)據(jù)通用性。表4-3-2是客戶名稱和證據(jù)號碼關(guān)系表,表4-3-3為該表脫敏后效果。
數(shù)據(jù)脫敏系統(tǒng)的建設大大提高了東營商業(yè)銀行測試數(shù)據(jù)準備效率,通過規(guī)范化的系統(tǒng)脫敏,如今東營銀行可以獨自進行敏感數(shù)據(jù)處理,有助于形成企業(yè)內(nèi)閉環(huán)信息流大大提高非生產(chǎn)環(huán)境數(shù)據(jù)使用的安全性。同時并幫助企業(yè)符合法律法規(guī)要求,達到安全管理部門的審計監(jiān)管要求,取得較好成果。具體表現(xiàn)為:
(1)加快運營速度。通過數(shù)據(jù)脫敏系統(tǒng)的應用,東營銀行在數(shù)據(jù)隱私保護的處理過程中實現(xiàn)了全自動化、安全化、工具化、流程化、智能化,加快了其在大數(shù)據(jù)金融的建設速度。
(2)減少成本。數(shù)據(jù)脫敏系統(tǒng)基于東營銀行業(yè)務需求進行研究,對開發(fā)和測試部門提供合適大小的數(shù)據(jù)庫,降低開發(fā)、測試和交付可靠應用的總體成本。
(3)提高效率。減少了銀行DBA和質(zhì)量保證測試人員的工作量。
(4)降低風險。數(shù)據(jù)脫敏系統(tǒng)通過一系列的規(guī)章制度,明確了數(shù)據(jù)脫敏工作中的工作職責,減少了銀行隱私數(shù)據(jù)的泄露風險,減少系統(tǒng)上線后的出錯風險。
五、結(jié)語
社會對于企業(yè)數(shù)據(jù)使用的規(guī)范的呼聲也日益高漲,同時數(shù)據(jù)脫敏能有效使企業(yè)數(shù)據(jù)運營得到安全保障。未來數(shù)據(jù)脫敏將會發(fā)展得更全面,結(jié)合不同生產(chǎn)環(huán)境,對于數(shù)據(jù)的脫敏的標準與深度會有更詳細的定義。在大數(shù)據(jù)背景下,統(tǒng)一標準與深度的數(shù)據(jù)脫敏將從自動化發(fā)展,高效處理大量數(shù)據(jù)。從而構(gòu)造一個用戶安心,滿足企業(yè)與社會要求的和諧網(wǎng)絡環(huán)境。
參考文獻:
[1]大數(shù)據(jù)隱私保護技術(shù)之脫敏技術(shù)探究. http://mt.sohu.com/20161119/n473618006.shtml.2016.
[2] Database Management 11g Release 1 (11.1).
http://docs.oracle.com/cd/E11857_01/em.111/e11982/database_management.htm#DAFGJEIF.
[3]Replacing Sensitive Data Using the Data Masking Pack.http://www.oracle.com/webfolder/technetwork/tutorials/obe/em/obe10gemgc_10204/datamask/datamask.htm?cid=5387&ssid=35030654250237.
[4]陳天瑩,陳劍鋒.大數(shù)據(jù)環(huán)境下的智能數(shù)據(jù)脫敏系統(tǒng)[A].通信技術(shù),2016,49(7).
[5]吳行飛.中小城市商業(yè)銀行數(shù)據(jù)脫敏研究--以東營銀行為例[D].山東大學,2016.