目前,大數(shù)據(jù)的敏感數(shù)據(jù)保護(hù)問(wèn)題是人們公認(rèn)的關(guān)鍵問(wèn)題之一。和其他信息一樣,大數(shù)據(jù)在收集、存儲(chǔ)和處理過(guò)程中面臨諸多的安全風(fēng)險(xiǎn)。企業(yè)既是數(shù)據(jù)的生產(chǎn)者,也是數(shù)據(jù)的存儲(chǔ)者、使用者和管理者,要實(shí)現(xiàn)對(duì)企業(yè)敏感數(shù)據(jù)保護(hù),除了單純的技術(shù)外,還必須依靠大數(shù)據(jù)分析技術(shù),以下就是利用大數(shù)據(jù)分析方法對(duì)企業(yè)常見(jiàn)敏感數(shù)據(jù)安全問(wèn)題及應(yīng)對(duì)措施的詳細(xì)闡述。希望通過(guò)本文的研究,能夠?yàn)樾畔踩I(lǐng)域帶來(lái)新的發(fā)展契機(jī)。
大數(shù)據(jù)特征為 4V,即海量、高速、多樣、復(fù)雜。海量是指數(shù)據(jù)容量越來(lái)越大;高速表示需要處理的速度和響應(yīng)的時(shí)間越來(lái)越快,對(duì)系統(tǒng)的延時(shí)要求相當(dāng)高;多變就是處理各種各樣類(lèi)型的數(shù)據(jù),包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的、甚至是非結(jié)構(gòu)化的數(shù)據(jù)。
大數(shù)據(jù)技術(shù)的核心就是大數(shù)據(jù)分析(Big Data Analysis /Analytics)。一般地,人們將大數(shù)據(jù)分析定義為一組能夠高效存儲(chǔ)和處理海量數(shù)據(jù)、并有效達(dá)成多種分析目標(biāo)的工具及技術(shù)的集合。
綜上所述,大數(shù)據(jù)分析技術(shù)就是大數(shù)據(jù)的收集、存儲(chǔ)、分析和可視化的技術(shù),是一套能夠解決大數(shù)據(jù)的4V(海量、高速、多變、低密度)問(wèn)題,分析出高價(jià)值(Value)的信息的工具集合。
大數(shù)據(jù)是一把雙刃劍,在獲取其給企業(yè)帶來(lái)的價(jià)值的同時(shí),也面臨著巨大敏感信息安全問(wèn)題,主要表現(xiàn)在以下幾個(gè)方面:第一,企業(yè)敏感數(shù)據(jù)容易泄露。目前企業(yè)常常去掉用戶的標(biāo)識(shí)符,采用匿名處理的方法來(lái)進(jìn)行防護(hù)。但事實(shí)上匿名保護(hù)并不能很好的保護(hù)。如:AOL公司公布了近3個(gè)月的訪問(wèn)記錄,通過(guò)匿名處理刪除了個(gè)人相關(guān)信息,但是結(jié)合其他數(shù)據(jù)信息,某些訪問(wèn)者仍然被識(shí)別出來(lái)。第二,企業(yè)敏感數(shù)據(jù)容易失真。這主要由于兩個(gè)原因造成:首先,偽造數(shù)據(jù),從而導(dǎo)致錯(cuò)誤的結(jié)論,如某些點(diǎn)評(píng)網(wǎng)站上的虛假評(píng)論,讓用戶無(wú)法辨別商品和服務(wù)的優(yōu)劣。其次是數(shù)據(jù)采集過(guò)程中引入誤差,或者早期數(shù)據(jù)無(wú)法反映真實(shí)情況。但大數(shù)據(jù)使用方無(wú)法辨別信息的真實(shí)性。第三,訪問(wèn)控制缺乏有效的手段。在大數(shù)據(jù)環(huán)境下,必須對(duì)用戶進(jìn)行權(quán)限管理,但是管理員無(wú)法預(yù)先設(shè)置角色,為每位用戶指定可以訪問(wèn)的數(shù)據(jù)范圍。而且,定義所有授權(quán)規(guī)則從效率上來(lái)看也是難以實(shí)現(xiàn)的。
大數(shù)據(jù)的分析平臺(tái)系統(tǒng)架構(gòu)如圖1所示。系統(tǒng)包含三個(gè)層次:其中為整個(gè)大數(shù)據(jù)分析平臺(tái)提供基礎(chǔ)平臺(tái)支持的為平臺(tái)層;功能層提供整個(gè)大數(shù)據(jù)分析平臺(tái)基本的挖掘功能和大數(shù)據(jù)存儲(chǔ);服務(wù)層為廣大用戶提供大數(shù)據(jù)分析平臺(tái)服務(wù)。具體包括:
圖1 大數(shù)據(jù)的分析平臺(tái)系統(tǒng)架構(gòu)圖
(1)平臺(tái)層:為大數(shù)據(jù)挖掘和存儲(chǔ)提供提供大數(shù)據(jù)設(shè)計(jì)的平臺(tái)和存儲(chǔ),并為大數(shù)據(jù)分析架構(gòu)提供數(shù)據(jù)調(diào)度;
(2)功能層:為大數(shù)據(jù)的挖掘和存儲(chǔ)提供大數(shù)據(jù)挖掘、集成、管理和存儲(chǔ)功能;
(3)服務(wù)層:提供基于Open API 和Web技術(shù)大數(shù)據(jù)服務(wù)。
敏感數(shù)據(jù)是指不當(dāng)使用、丟失、未被授權(quán)被人修改或接觸不利于政府計(jì)劃或國(guó)家利益的實(shí)行、不利于每個(gè)人依法享有自己隱私權(quán)的所有信息。每個(gè)企業(yè)都擁有自己的敏感數(shù)據(jù),包括不僅僅局限于知識(shí)產(chǎn)權(quán)、商業(yè)秘密、業(yè)務(wù)合作伙伴信息、關(guān)鍵業(yè)務(wù)信息或者用戶信息等。
為了對(duì)敏感數(shù)據(jù)進(jìn)行有效的保護(hù),一般通過(guò)以下幾個(gè)步驟:
根據(jù)對(duì)敏感信息管理相關(guān)規(guī)定,對(duì)敏感信息保護(hù)的第一步是對(duì)企業(yè)自己的敏感信息進(jìn)行分類(lèi)。數(shù)據(jù)分類(lèi)的定義和數(shù)量,需要兼顧風(fēng)險(xiǎn)管理、數(shù)據(jù)治理、業(yè)務(wù)要求和合規(guī)性等方面。
對(duì)于需要保護(hù)的敏感信息,需要對(duì)信息生命周期的各個(gè)環(huán)節(jié)來(lái)綜合考慮采取技術(shù)措施和安全管理。在這個(gè)基礎(chǔ)上,識(shí)別可以造成信息資產(chǎn)破壞、泄露、篡改的安全風(fēng)險(xiǎn),基于這個(gè)風(fēng)險(xiǎn)可以對(duì)業(yè)務(wù)造成的影響,從而開(kāi)發(fā)具有針對(duì)性的風(fēng)險(xiǎn)處理計(jì)劃和信息安全規(guī)劃。
數(shù)據(jù)脫敏是指對(duì)于一些敏感信息可以通過(guò)脫敏規(guī)則來(lái)進(jìn)行數(shù)據(jù)的變形,從而對(duì)敏感隱私數(shù)據(jù)進(jìn)行可靠的保護(hù)。在測(cè)試、開(kāi)發(fā)等非生產(chǎn)的環(huán)境中可以安全地使用脫敏后的數(shù)據(jù)集;在生產(chǎn)環(huán)境中數(shù)據(jù)限制發(fā)布的應(yīng)用也是需要執(zhí)行數(shù)據(jù)脫敏的操作
通過(guò)安全審計(jì)以及監(jiān)控,從而讓敏感信息的權(quán)限管理和授權(quán)使用等活動(dòng)處于控制當(dāng)中。在突然出現(xiàn)風(fēng)險(xiǎn)跡象時(shí),就能夠及時(shí)的識(shí)別且采取相關(guān)的控制措施來(lái)避免風(fēng)險(xiǎn)。需要針對(duì)涉及到用戶的敏感信息訪問(wèn)的行為進(jìn)行實(shí)時(shí)有效的處理,當(dāng)發(fā)生敏感信息泄露的時(shí)候,必須進(jìn)行阻斷、追溯、跟蹤以及報(bào)警。
在目前大數(shù)據(jù)情形下,企業(yè)敏感數(shù)據(jù)保護(hù)存在諸多問(wèn)題,為此,運(yùn)用大數(shù)據(jù)分析技術(shù)來(lái)保障企業(yè)敏感數(shù)據(jù)的重要性已不言而喻。借助大數(shù)據(jù)分析技術(shù),可以從以下幾個(gè)技術(shù)入手來(lái)保障企業(yè)敏感數(shù)據(jù)的安全。
通過(guò)大數(shù)據(jù)分析平臺(tái),對(duì)敏感數(shù)據(jù)進(jìn)行審計(jì),實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)識(shí)別。系統(tǒng)各類(lèi)操作都有可能涉及到敏感數(shù)據(jù)的訪問(wèn)。通過(guò)數(shù)據(jù)審計(jì)及大數(shù)據(jù)分析,讓系統(tǒng)的用戶在授權(quán)的范圍內(nèi)進(jìn)行約束活動(dòng),從而可以及時(shí)的發(fā)現(xiàn)泄露敏感信息用戶的動(dòng)作以及能夠及時(shí)的阻斷。需要對(duì)所有使用的人員以及人員的所有操作,包括其中修改、查看、刪除、賦權(quán)、導(dǎo)出等提供的日志功能,記錄著訪問(wèn)操作處理的參數(shù)和返回結(jié)果,對(duì)其中的異常行為進(jìn)行事后的追溯和跟蹤。
在企業(yè)網(wǎng)絡(luò)環(huán)境中,對(duì)數(shù)據(jù)訪問(wèn)量是巨大的,符合大數(shù)據(jù)海量特征。利用大數(shù)據(jù)分析平臺(tái),判斷對(duì)敏感數(shù)據(jù)的訪問(wèn)信息,并對(duì)針敏感數(shù)據(jù)的訪問(wèn)加以控制。敏感數(shù)據(jù)訪問(wèn)控制主要是保證合法用戶訪問(wèn)敏感數(shù)據(jù)信息,反之對(duì)于非法用戶的訪問(wèn)敏感數(shù)據(jù)或合法用戶對(duì)于敏感數(shù)據(jù)進(jìn)行的非授權(quán)訪問(wèn)操作。制定訪問(wèn)控制策略,如操作動(dòng)作、操作次數(shù)、使用模式權(quán)利、使用模式、綁定設(shè)備、加密/解密、權(quán)限分離等。其中系統(tǒng)在訪問(wèn)的控制策略下,從而實(shí)現(xiàn)敏感數(shù)據(jù)文件在網(wǎng)絡(luò)傳輸本地存儲(chǔ)、移動(dòng)存儲(chǔ)過(guò)程中強(qiáng)制性的自動(dòng)加解密,合法用戶對(duì)于敏感數(shù)據(jù)文件的合法訪問(wèn),以及非法用戶對(duì)敏感數(shù)據(jù)的訪問(wèn)失效。
在大數(shù)據(jù)環(huán)境下,攻擊者不僅僅從一種渠道下獲得數(shù)據(jù),可以從各種渠道獲取數(shù)據(jù),對(duì)企業(yè)的數(shù)據(jù)進(jìn)行統(tǒng)一的封裝和對(duì)外發(fā)布,“剪裁”敏感信息數(shù)據(jù)項(xiàng),對(duì)數(shù)據(jù)進(jìn)行匿名處理。限制發(fā)布即指有有選擇的不發(fā)布、發(fā)布、或發(fā)布一些精度比較低的敏感數(shù)據(jù)。對(duì)數(shù)據(jù)的處理可以通過(guò)兩種方式:一是抑制,即指不發(fā)布敏感項(xiàng);另一種為泛化,即指對(duì)敏感數(shù)據(jù)采取時(shí)概括、更加抽象的描述。數(shù)據(jù)發(fā)布匿名保護(hù)是實(shí)現(xiàn)其隱私保護(hù)的核心關(guān)鍵技術(shù)與基本手段。
在敏感數(shù)據(jù)防護(hù)過(guò)程中,利用大數(shù)據(jù)分析技術(shù),根據(jù)敏感數(shù)據(jù)特征,對(duì)數(shù)據(jù)進(jìn)行“偽裝”,使其失真。這個(gè)稱(chēng)為數(shù)據(jù)失真技術(shù),即可以使敏感的數(shù)據(jù)失真,但是可以同時(shí)保持一些數(shù)據(jù)或者數(shù)據(jù)的屬性不變的方法,包括阻塞、隨機(jī)化和凝聚等技術(shù)。對(duì)于后續(xù)應(yīng)用環(huán)節(jié)對(duì)個(gè)體數(shù)據(jù)失真的不關(guān)注,這類(lèi)敏感信息在加載時(shí)就要進(jìn)行數(shù)據(jù)脫敏,數(shù)據(jù)在經(jīng)過(guò)失真技術(shù)處理后,其內(nèi)容發(fā)生一些變化,但是處理過(guò)的數(shù)據(jù)還是可以保持原始數(shù)據(jù)的一些統(tǒng)計(jì)特性,并且不會(huì)影響挖掘使用和數(shù)據(jù)分析。
大數(shù)據(jù)給人們便利的同時(shí),也帶來(lái)了新的安全問(wèn)題。本文分析了大數(shù)據(jù)背景下,企業(yè)敏感數(shù)據(jù)面臨的挑戰(zhàn),并闡述了敏感數(shù)據(jù)保護(hù)的步驟,從大數(shù)據(jù)的訪問(wèn)控制、隱私保護(hù)和信任等角度來(lái)看,得出了利用大數(shù)據(jù)的技術(shù)來(lái)保護(hù)隱私和保護(hù)數(shù)據(jù)安全的相關(guān)關(guān)鍵技術(shù)。但是從總體來(lái)說(shuō),在當(dāng)前,國(guó)內(nèi)外對(duì)于敏感數(shù)據(jù)的隱私保護(hù)和數(shù)據(jù)安全的研究還不夠充分。只有通過(guò)相關(guān)政策法規(guī)與技術(shù)手段等結(jié)合起來(lái),才可以更好地解決好數(shù)據(jù)安全和隱私保護(hù)問(wèn)題。
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2015年11期