武警山東總隊(duì)參謀部綜合信息保障中心信息運(yùn)維室 吳燕輝
隨著時(shí)代的發(fā)展,大數(shù)據(jù)技術(shù)在社會(huì)各個(gè)領(lǐng)域的應(yīng)用越來越廣泛,涵蓋國家、企業(yè)、個(gè)人等多個(gè)層面,并發(fā)揮著較為重要的作用。但需要注意的是,其快速發(fā)展的同時(shí),也產(chǎn)生了一系列的風(fēng)險(xiǎn)和弊端,例如:隱私泄露、攻擊者越來越多等。另外,大數(shù)據(jù)技術(shù)的特點(diǎn)充分體現(xiàn)了跨學(xué)科的性質(zhì),這種不斷引進(jìn)更多全新技術(shù)的方式,也為大數(shù)據(jù)的發(fā)展和使用埋下了更多的潛在風(fēng)險(xiǎn)和弊端。因此,數(shù)據(jù)安全就變得更為重要,不能保證安全情況下的大數(shù)據(jù),就不能實(shí)現(xiàn)健康的發(fā)展,這就強(qiáng)調(diào)了安全保護(hù)的重要意義。大數(shù)據(jù)技術(shù)在社會(huì)發(fā)展和進(jìn)步當(dāng)中的不斷推進(jìn),數(shù)據(jù)開放和保護(hù)這兩個(gè)層面已然成為了重要的研究方向和重點(diǎn)內(nèi)容,基于此,筆者對安全保護(hù)的相關(guān)技術(shù)進(jìn)行了分析和論述。大家都能夠看到,當(dāng)前社會(huì)充分體現(xiàn)了“互聯(lián)網(wǎng)+”的重要性,在這當(dāng)中,數(shù)據(jù)是其中必不可少的一個(gè)重要環(huán)節(jié),其中的能量不言而喻[1]。
巨量數(shù)據(jù)是大數(shù)據(jù)的又一個(gè)名稱,代表著大量、快速增長、多樣化等特征的一種信息化資產(chǎn)形式,通常來說要借助一種新型的處理形式對數(shù)據(jù)信息進(jìn)行充分的加工處理,從而為用戶進(jìn)行決策、程序優(yōu)化等內(nèi)容提供依據(jù)。其具有Volume(大量)、Velocity(高速)等多種特征[2]。
大數(shù)據(jù)在社會(huì)發(fā)展當(dāng)中的使用就像是煤礦一樣具有很大的價(jià)值優(yōu)勢:(1)對問題、故障等進(jìn)行充分分析,為企業(yè)節(jié)約成本投入;(2)在交通方面,能夠?qū)崿F(xiàn)路線規(guī)劃,為改善交通擁堵提供參考;(3)借助對SKU(庫存進(jìn)出計(jì)量的單位)的充分解析,能夠?qū)r(jià)格進(jìn)行合理界定并對庫存進(jìn)行及時(shí)清理,從而實(shí)現(xiàn)利潤的最大化;(4)通過數(shù)據(jù)反映的信息進(jìn)行用戶分析,為企業(yè)的發(fā)展提供具有針對性的營銷指導(dǎo);(5)實(shí)現(xiàn)在海量客戶當(dāng)中尋找到最有價(jià)值客戶的目的;(6)對客戶點(diǎn)擊的情況進(jìn)行數(shù)據(jù)的深入挖掘和分析,對欺詐行為的識別和規(guī)避起到重要作用。從這些作用都能夠看出,大數(shù)據(jù)技術(shù)在各層面的價(jià)值。
比如:在美國的醫(yī)院,充分運(yùn)用大數(shù)據(jù)技術(shù)為一個(gè)患有CMT腓骨肌萎縮癥的病人及病人的家屬開展基因序列的檢測,借助技術(shù)軟件實(shí)現(xiàn)對數(shù)據(jù)的全面分析和比對,實(shí)現(xiàn)了快速查找病因及其致病的位置,為這一疾病的預(yù)防和治療提出了更多的參考和數(shù)據(jù)依據(jù)。但是,大數(shù)據(jù)在給社會(huì)發(fā)展帶來便利的時(shí)候,也產(chǎn)生了較大的潛在風(fēng)險(xiǎn)。我國曾有一個(gè)科學(xué)院院長:白春禮提出,有近半數(shù)的數(shù)據(jù)信息都存在被泄露的潛在危險(xiǎn),這也對數(shù)據(jù)安全提出了更多更高的要求和挑戰(zhàn)。在當(dāng)前社會(huì),小到用手機(jī)號碼就能夠輕松查詢到個(gè)人的身份證信息、資產(chǎn)信息等內(nèi)容,甚至包括外出、打車等信息記錄,并對其位置做出實(shí)時(shí)的準(zhǔn)確定位。這些都表明,處于數(shù)據(jù)信息時(shí)代,數(shù)據(jù)的安全和保護(hù)是非常重要的。
從以上分析可以看出,大數(shù)據(jù)技術(shù)和信息的重要充分體現(xiàn)在其有價(jià)值的特征上。數(shù)據(jù)庫是對大量數(shù)據(jù)信息進(jìn)行儲(chǔ)存的重要媒介,一旦遇到數(shù)據(jù)攻擊,后果將會(huì)不堪設(shè)想,且數(shù)據(jù)的本源具有廣泛、多元等特征,這也給數(shù)據(jù)保護(hù)帶來了更大的困難和挑戰(zhàn)。目前具有的信息處理架構(gòu),例如Hadoop,其還存在內(nèi)在安全運(yùn)行機(jī)制不健全的問題,因此,在大數(shù)據(jù)技術(shù)的使用上仍存在信息泄露、不安全點(diǎn)位較多等問題,這些問題使得原本制定的數(shù)據(jù)保護(hù)方案不能充分發(fā)揮其作用,從而帶來了系統(tǒng)上的漏洞等問題[3],基于此,筆者認(rèn)為,在數(shù)據(jù)保護(hù)的過程當(dāng)中,環(huán)境安全和隱私保護(hù)是非常重要的兩個(gè)重要環(huán)節(jié)。
一方面,在隱私保護(hù)上,可以借助對訪問控制的分級進(jìn)行全新打造和建構(gòu)的策略,這種體現(xiàn)全生命周期的方式,能夠充分提高隱私保護(hù)的安全性。大數(shù)據(jù)技術(shù)在使用的過程當(dāng)中,數(shù)據(jù)采集是第一步,其主要用于用戶在PII(個(gè)人信息標(biāo)識)和UL(用戶標(biāo)簽)兩個(gè)層面及其相互之間的關(guān)聯(lián)性進(jìn)行解析,從而實(shí)現(xiàn)精準(zhǔn)性營銷的目的。這種方式對用戶的隱私保護(hù)會(huì)產(chǎn)生較大的作用和影響,因此,必須要對這兩個(gè)方面的數(shù)據(jù)給予高度關(guān)注,所以,對訪問控制進(jìn)行重新打造和建構(gòu)的策略,充分體現(xiàn)對數(shù)據(jù)信息的基礎(chǔ)性和安全性的重視,在此基礎(chǔ)上建立并實(shí)施用戶的身份訪問限制、加密等措施。此外,要借助技術(shù)手段對數(shù)據(jù)進(jìn)行系統(tǒng)脫敏,對不同種類的數(shù)據(jù)信息采取分別存儲(chǔ)的方式,并借助索引的方式實(shí)現(xiàn)數(shù)據(jù)信息之間的充分關(guān)聯(lián),在這種情況下,即使遇到了信息泄漏的情況,其他的數(shù)據(jù)信息也能夠保證安全,且采取的對索引進(jìn)行技術(shù)加密的方式,也能夠?qū)崿F(xiàn)對應(yīng)PII數(shù)據(jù)的精準(zhǔn)對接。此外,也要對數(shù)據(jù)的各個(gè)接口處進(jìn)行較為嚴(yán)密的控制,在數(shù)據(jù)流出的過程中,要注意進(jìn)行脫敏化,在進(jìn)行數(shù)據(jù)傳輸時(shí),充分借助安全協(xié)議的方式,對重要性高的數(shù)據(jù)信息進(jìn)行充分加密。在要對數(shù)據(jù)信息進(jìn)行銷毀的過程中,也要明確數(shù)據(jù)的副本信息,確保信息清理的完全性。
另一方面,要對數(shù)據(jù)的安全防護(hù)給予更高的關(guān)注,不斷提升其安全性能。(1)要對計(jì)算平臺(tái)進(jìn)行不斷的加強(qiáng),可以采取KDC認(rèn)證,引進(jìn)Kerberos技術(shù)等方式,在此基礎(chǔ)上進(jìn)行用戶權(quán)限和訪問的授予和把控。針對數(shù)據(jù)信息的存儲(chǔ)方面,在技術(shù)條件許可的情況下,可以借助KMS技術(shù),對HDFS數(shù)據(jù)進(jìn)行加密。也可以通過對Web和MapReduce之間的配合進(jìn)行數(shù)據(jù)的加密。(2)對數(shù)據(jù)探針給予更多關(guān)注,通過采取設(shè)置個(gè)人賬號和密碼登錄的方式,對可能存在的漏洞進(jìn)行充分檢驗(yàn),一旦發(fā)現(xiàn)問題及時(shí)修補(bǔ),借助防火墻的作用對遠(yuǎn)程訪問進(jìn)行有效控制,并對IP地址進(jìn)行一定的限制,對運(yùn)用探針登錄等方式開展審計(jì),對數(shù)據(jù)進(jìn)行充分的加密。同時(shí),也要對網(wǎng)絡(luò)、主機(jī)等方面的安全性能進(jìn)行鞏固和強(qiáng)化,對網(wǎng)絡(luò)安全的區(qū)域進(jìn)行明確劃分,設(shè)置邊界訪問,充分采取終端控制,對可能存在的漏洞進(jìn)行實(shí)時(shí)監(jiān)測,開展有效的防護(hù)病毒措施及安全管控措施。
數(shù)據(jù)信息的處理涵蓋采集、預(yù)處理、分析、挖掘、采集等步驟,具有循環(huán)性特征,包括發(fā)布、儲(chǔ)存、挖掘、使用等4個(gè)重要環(huán)節(jié),在每個(gè)環(huán)節(jié)都可能遇到危險(xiǎn)。
(1)在發(fā)布方面,大數(shù)據(jù)具有來源多樣性、發(fā)布動(dòng)態(tài)性、用戶同一性、數(shù)據(jù)量巨大等多種特點(diǎn),這就更加突出了數(shù)據(jù)保護(hù)的重要意義,在此過程中,可用信息是需要遵守的重要前提條件,在此基礎(chǔ)上,才能實(shí)現(xiàn)存在泄漏風(fēng)險(xiǎn)信息的快速、高效去除。在這一過程中,也發(fā)展出了涉及多方面的匿名技術(shù)以實(shí)現(xiàn)數(shù)據(jù)保護(hù)的目的。
(2)在存儲(chǔ)方面,傳統(tǒng)的加密技術(shù)能夠?qū)崿F(xiàn)數(shù)據(jù)保護(hù)的目的,但其存在支出多、限制數(shù)據(jù)共享等弊端,從而對大數(shù)據(jù)技術(shù)作用的充分發(fā)揮產(chǎn)生了較大的限制?;诖?,有諸多學(xué)者進(jìn)行了探討并提出了很多具有較高可行性的加密技術(shù),屬性加密就是其中的一種方式,這種方式指的是只有在用戶密鑰具有解密的條件的情況下,才能實(shí)現(xiàn)數(shù)據(jù)的解密,也就是說,在兩個(gè)密鑰當(dāng)中同時(shí)具備A,b、A、c各兩個(gè)屬性,如果需要進(jìn)行解密的數(shù)據(jù)文件當(dāng)中具有A這一屬性,那么,在這兩個(gè)密鑰當(dāng)中,都能夠?qū)崿F(xiàn)數(shù)據(jù)文件的解密,但如果需要進(jìn)行解密的數(shù)據(jù)文件當(dāng)中具有c這一屬性,則只有在密鑰當(dāng)中具有同樣屬性的才能對數(shù)據(jù)文件進(jìn)行解密?;诖思夹g(shù),有學(xué)者提出了密文策略屬性加密等多種對數(shù)據(jù)信息進(jìn)行加密的方式。需要注意的是,對文件只進(jìn)行加密是遠(yuǎn)遠(yuǎn)不夠的,還要充分借助審計(jì)技術(shù)的使用,特別是在云存儲(chǔ)的過程中,這種技術(shù)的使用能夠充分保證數(shù)據(jù)信息的安全性,避免被篡改、泄漏等風(fēng)險(xiǎn)。
(3)在挖掘方面,借助對敏感規(guī)則的數(shù)據(jù)信息進(jìn)行修改許可的方式,實(shí)現(xiàn)對規(guī)則進(jìn)行隱藏的目的。此外,也可以通過對生成的具有敏感性的規(guī)則信息當(dāng)中的項(xiàng)集采取直接進(jìn)行隱藏的方式,這兩種方式通常在對具有關(guān)聯(lián)性的規(guī)則進(jìn)行相關(guān)數(shù)據(jù)信息的挖掘過程當(dāng)中使用的較為普遍。除此之外,分類、聚類結(jié)果等也是挖掘當(dāng)中的重要內(nèi)容,其中,分類具有對結(jié)果產(chǎn)生保護(hù)性、降低信息的敏感度等作用,聚類具有能夠通過幾何變換的方式,實(shí)現(xiàn)敏感數(shù)據(jù)的直接隱藏,并進(jìn)行使用。
(4)在訪問限制方面,當(dāng)前使用較為廣泛的是基于角色技術(shù),指的是為數(shù)據(jù)用戶進(jìn)行不同角色的分配,在這一環(huán)節(jié)之前,要對角色進(jìn)行充分挖掘并建立一定的訪問限制。除此之外,還包括基于屬性的技術(shù),指的是借助用戶、環(huán)境等不同的屬性性能來搭建權(quán)限。
(5)在數(shù)據(jù)脫敏方面,數(shù)據(jù)脫敏也叫做數(shù)據(jù)漂白,在其中,規(guī)則、數(shù)據(jù)、環(huán)境三個(gè)要素是非常核心和至關(guān)重要的。規(guī)則具有可恢復(fù)性,也就意味著經(jīng)過脫敏的數(shù)據(jù)能夠借助一些技術(shù)和方法進(jìn)行恢復(fù),使用較多的就是解密算法的加入。除此之外,也包括不能恢復(fù)的數(shù)據(jù),也就意味著經(jīng)過脫敏處理后,其數(shù)據(jù)信息將不能得到恢復(fù)。敏感數(shù)據(jù)主要指用戶的姓名、隱私信息等。環(huán)境指的是經(jīng)過脫敏后的數(shù)據(jù)信息將在什么樣的大環(huán)境下被采用。在數(shù)據(jù)平臺(tái)上,數(shù)據(jù)的存儲(chǔ)一般都是借助結(jié)構(gòu)化的形式,也就是在數(shù)據(jù)表中通過行列的使用,進(jìn)行數(shù)據(jù)的存儲(chǔ),通過這種方式,能夠?qū)崿F(xiàn)數(shù)據(jù)信息的精準(zhǔn)定位,通常用于身份證號等用戶個(gè)人信息的額存儲(chǔ)。其中也包括半識別列,也就是雖然不能通過數(shù)據(jù)實(shí)現(xiàn)用戶個(gè)人的精準(zhǔn)定位,但能夠通過多列的數(shù)據(jù)信息以及之間的關(guān)聯(lián)性進(jìn)行用戶個(gè)人的有效識別,涵蓋性別、生日、收入等信息內(nèi)容。其他的信息則不被成為用戶的敏感信息。所以,在脫敏過程中,一般采用替換法,借助虛擬數(shù)據(jù)的使用,對真實(shí)的數(shù)據(jù)信息進(jìn)行替換,例如,借助字典數(shù)據(jù)表的方式,實(shí)現(xiàn)真實(shí)值和隨機(jī)值的一一對應(yīng),并和字典表當(dāng)中的內(nèi)容進(jìn)行更替,例如,在性別上,可以借助不同的字母來表示。
關(guān)于數(shù)據(jù)安全的相關(guān)研究及其標(biāo)準(zhǔn)的制定尚不完善,在國際上,很多組織也在積極開展各項(xiàng)研究工作,從而對數(shù)據(jù)安全的標(biāo)準(zhǔn)化進(jìn)行缺口的彌補(bǔ)。在研究的過程當(dāng)中,國際上也不斷提出了諸多新的研究課題,例如:云服務(wù)可信接入架構(gòu)等,由此可以看出,隱私保護(hù)是一個(gè)得到了全球關(guān)注的重要話題。
全國信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)針對數(shù)據(jù)安全標(biāo)準(zhǔn)提出了一定的工作建議,其中,個(gè)人信息安全、數(shù)據(jù)共享、出境安全、審查標(biāo)準(zhǔn)等內(nèi)容得到了突出強(qiáng)調(diào),這也充分體現(xiàn)出了在后續(xù)工作中的方向。當(dāng)前,數(shù)據(jù)安全的標(biāo)準(zhǔn)化過程還處于不斷發(fā)展和完善的過程當(dāng)中,在積極推進(jìn)的過程當(dāng)中,要充分體現(xiàn)急用先行,成熟先上的重要行為準(zhǔn)則[4]。在進(jìn)行數(shù)據(jù)安全標(biāo)準(zhǔn)的制定過程中,也要對當(dāng)中較為緊急的數(shù)據(jù)應(yīng)用安全標(biāo)準(zhǔn)進(jìn)行積極制定,包括出境、交易等方面。
目前已經(jīng)具備的信息安全相關(guān)技術(shù)手段尚不能對數(shù)據(jù)安全給予充分保護(hù),結(jié)合大數(shù)據(jù)技術(shù)固有的風(fēng)險(xiǎn)形式,還存在諸多需要不斷探索的技術(shù)形式。
隱私保護(hù)因其特點(diǎn)而得到了廣泛關(guān)注。在使用過程中,已經(jīng)產(chǎn)生了一些解決該問題的方法。差分隱私是其中一種,這種方式借助對噪聲的使用而達(dá)到數(shù)據(jù)信息失真的目的,實(shí)現(xiàn)了對數(shù)據(jù)信息的保護(hù),但其因?yàn)槭褂眠^程較為繁雜,因而使用效率較低。除此之外,全同態(tài)加密也是一種隱私保護(hù)技術(shù),這種技術(shù)的使用較為常見,但其具有性能低的弊端,這一弊端限制了其在大環(huán)境當(dāng)中的使用和推廣。所以,探索出更為高效的方法也是值得不斷深入的方向。
加密技術(shù)在數(shù)據(jù)保護(hù)方式當(dāng)中具有基礎(chǔ)性和重要性,其中,可搜索加密算法在使用過程當(dāng)中通過對場景和數(shù)據(jù)進(jìn)行加密設(shè)置的方式,達(dá)到了訪問限制的目的,訪問限制提出的新要求也對這種技術(shù)提出了新的方向。此外,建立在屬性基礎(chǔ)上的加密方式采取將控制策略加入到用戶使用的密鑰或者是數(shù)據(jù)信息當(dāng)中的方式,為低效率提出了具體的解決措施,也能夠充分體現(xiàn)密鑰的可擴(kuò)展性和數(shù)據(jù)信息的靈活性。當(dāng)前,這種技術(shù)使用較多的是基于橢圓曲線基礎(chǔ)的雙線性映射構(gòu)建技術(shù),但其因成本高、數(shù)據(jù)量大的弊端,限制了其廣泛推廣和使用。
從信息安全熱點(diǎn)話題來看,細(xì)粒度的訪問控制技術(shù)關(guān)注度較高。這種技術(shù)雖然已經(jīng)出現(xiàn)了一系列的解決措施,但仍存在一定的困難和問題,例如:訪問控制粒度的合理選取、延展性、提高效率等問題。
大數(shù)據(jù)技術(shù)的應(yīng)用和發(fā)展具有雙面性,合理有效使用,能夠充分發(fā)揮作用,但也可能成為黑客進(jìn)行網(wǎng)絡(luò)攻擊的重要途徑。在對數(shù)據(jù)安全技術(shù)進(jìn)行充分研究的過程中,也要充分借助各種數(shù)據(jù)處理技術(shù)的支撐作用,實(shí)現(xiàn)數(shù)據(jù)信息的關(guān)聯(lián)分析、可視分析等多種數(shù)據(jù)應(yīng)用目的。大數(shù)據(jù)技術(shù)的推廣和使用,為信息安全提供了一定的價(jià)值,但也不能忽視其中存在的問題和弊端。網(wǎng)絡(luò)通信檢測、網(wǎng)絡(luò)特征提取等方面的技術(shù)還有需要不斷探索和突破的空間,從而不斷提升網(wǎng)絡(luò)信息安全對于風(fēng)險(xiǎn)的預(yù)判、處理等方面的能力。
伴隨大數(shù)據(jù)技術(shù)的深入推進(jìn)和發(fā)展,數(shù)據(jù)安全所產(chǎn)生的風(fēng)險(xiǎn)和問題也將日趨加重,這就突出了數(shù)據(jù)保護(hù)相關(guān)研究的重要意義。數(shù)據(jù)安全是數(shù)據(jù)技術(shù)發(fā)展的前提和基礎(chǔ),所以,要將不斷提升數(shù)據(jù)安全的保護(hù)作為安全技術(shù)研究的根本性課題。本文從大數(shù)據(jù)概念、優(yōu)缺點(diǎn)、安全保護(hù)技術(shù)和安全開發(fā)問題等方面對大數(shù)據(jù)安全保護(hù)進(jìn)行了分析,希望能夠?yàn)橄嚓P(guān)領(lǐng)域研究提供一些借鑒。