高亞楠
(國家信息中心 北京市 100045)
隨著互聯(lián)網(wǎng)技術的發(fā)展和普及,數(shù)據(jù)可視化和智能分析技術的發(fā)展使得大數(shù)據(jù)系統(tǒng)可以更好地呈現(xiàn)和分析數(shù)據(jù)。大數(shù)據(jù)系統(tǒng)的出現(xiàn)也給人們的生活和工作帶來了很多便利,大數(shù)據(jù)系統(tǒng)可以通過收集和分析家庭成員的行為和偏好,為家庭提供智能化的家居服務,如自動調節(jié)溫度、智能照明等。大數(shù)據(jù)系統(tǒng)可以通過收集和分析交通數(shù)據(jù),為用戶提供實時的交通狀況和最佳路線,減少交通擁堵和出行時間。
但同時也帶來了很多安全隱患,大數(shù)據(jù)平臺可能會遭受 DDoS 攻擊、 SQL 注入攻擊、XSS 攻擊、CSRF 攻擊、木馬攻擊、社會工程學攻擊等。大數(shù)據(jù)系統(tǒng)數(shù)據(jù)也面臨了許多安全威脅,如數(shù)據(jù)泄露、數(shù)據(jù)篡改、數(shù)據(jù)丟失、數(shù)據(jù)濫用、數(shù)據(jù)攻擊、數(shù)據(jù)隱私攻擊、勒索病毒等[1]。
大數(shù)據(jù)系統(tǒng)數(shù)據(jù)的安全保護成為了一個重要的問題。本文從大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全保護的需求出發(fā),探討了大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全保護模型的研究現(xiàn)狀和發(fā)展趨勢。
大數(shù)據(jù)系統(tǒng)數(shù)據(jù)是指通過大數(shù)據(jù)系統(tǒng)承載,數(shù)據(jù)量巨大、類型繁多、處理速度快的數(shù)據(jù)集合。大數(shù)據(jù)系統(tǒng)的出現(xiàn)主要是由于互聯(lián)網(wǎng)技術的發(fā)展和普及,人們在使用互聯(lián)網(wǎng)的過程中產生了大量的數(shù)據(jù)。這些數(shù)據(jù)包括文本、圖片、音頻、視頻等各種類型,數(shù)據(jù)量巨大,處理速度快,對數(shù)據(jù)存儲、處理和分析能力提出了很高的要求。
大數(shù)據(jù)系統(tǒng)數(shù)據(jù)具有以下特點:
(1)大量性:大數(shù)據(jù)系統(tǒng)通常處理的數(shù)據(jù)量非常大,超出了傳統(tǒng)數(shù)據(jù)處理工具的處理能力。
(2)多樣性:大數(shù)據(jù)系統(tǒng)數(shù)據(jù)來源多樣,包括結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)等多種類型。
(3)高速性:大數(shù)據(jù)系統(tǒng)數(shù)據(jù)的產生速度非???,需要實時或近實時處理。
(4)高維度:大數(shù)據(jù)系統(tǒng)數(shù)據(jù)通常包含多個維度的信息,需要進行多維度分析。
(5)不確定性:大數(shù)據(jù)系統(tǒng)處理前數(shù)據(jù)存在著不確定性和噪聲,需要進行數(shù)據(jù)清洗和處理。
(6)價值密度低:大數(shù)據(jù)系統(tǒng)數(shù)據(jù)中有很多無用信息,需要進行篩選和提取。
大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全保護是指對大數(shù)據(jù)系統(tǒng)中數(shù)據(jù)進行保護,防止數(shù)據(jù)泄露、篡改、丟失等安全問題。其安全保護具有以下意義:
(1)保護個人隱私:大數(shù)據(jù)系統(tǒng)數(shù)據(jù)中包含大量的個人信息,如姓名、地址、電話號碼、電子郵件地址等,如果這些信息被泄露或濫用,將會對個人隱私造成嚴重的威脅。
(2)防止數(shù)據(jù)泄露:大數(shù)據(jù)系統(tǒng)數(shù)據(jù)中包含的信息量非常龐大,如果這些信息被泄露,將會對企業(yè)和個人造成巨大的損失,因此需要采取措施來防止數(shù)據(jù)泄露。
(3)防止數(shù)據(jù)篡改:大數(shù)據(jù)系統(tǒng)數(shù)據(jù)中的信息可能會被黑客篡改,導致企業(yè)和個人的利益受到損害,因此需要采取措施來防止數(shù)據(jù)篡改。
(4)提高數(shù)據(jù)安全性:大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全保護可以提高數(shù)據(jù)的安全性,保護企業(yè)和個人的利益,同時也可以提高數(shù)據(jù)的可靠性和準確性。
(5)保護商業(yè)機密。大數(shù)據(jù)系統(tǒng)數(shù)據(jù)中包含了很多商業(yè)機密信息,如企業(yè)的財務數(shù)據(jù)、客戶信息等,如果這些信息泄露,將會給企業(yè)帶來很大的損失。
大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全保護面臨的挑戰(zhàn)和難點包括:
(1)數(shù)據(jù)隱私保護:大數(shù)據(jù)系統(tǒng)數(shù)據(jù)中包含大量的個人敏感信息,如姓名、地址、電話號碼、信用卡號碼等,如何保護這些信息的隱私性是大數(shù)據(jù)安全保護的重要挑戰(zhàn)。
(2)數(shù)據(jù)完整性保護:大數(shù)據(jù)系統(tǒng)數(shù)據(jù)中的數(shù)據(jù)量龐大,數(shù)據(jù)來源復雜,如何保證數(shù)據(jù)的完整性和準確性是大數(shù)據(jù)安全保護的難點[2]。
(3)數(shù)據(jù)安全性保護:大數(shù)據(jù)系統(tǒng)數(shù)據(jù)中的數(shù)據(jù)存儲在分布式系統(tǒng)中,如何保證數(shù)據(jù)的安全性,防止數(shù)據(jù)被惡意攻擊、篡改或泄露是大數(shù)據(jù)安全保護的重要挑戰(zhàn),其中保持數(shù)據(jù)的一致性也具有一定挑戰(zhàn)性。
(4)數(shù)據(jù)訪問控制:大數(shù)據(jù)系統(tǒng)數(shù)據(jù)中的數(shù)據(jù)訪問量大,如何控制數(shù)據(jù)的訪問權限,防止未經授權的人員訪問數(shù)據(jù)是大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全保護的難點。
(5)數(shù)據(jù)治理和合規(guī)性:大數(shù)據(jù)系統(tǒng)數(shù)據(jù)中的數(shù)據(jù)來源復雜,如何進行數(shù)據(jù)治理和合規(guī)性管理,保證數(shù)據(jù)的合法性和規(guī)范性是大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全保護的難點。
大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全保護的模型劃分為層面維度、生命周期階段維度和安全措施維度的三個維度。具體的大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全保護模型如圖1所示。
圖1:大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全保護模型
層面維度包括基礎設施層面、數(shù)據(jù)平臺層面和計算分析層面,通過劃分為不同的層面,將安全管理責任和安全管控措施進行層層防護,以便將核心數(shù)據(jù)資產保護在最中心的位置。
生命周期階段維度包括數(shù)據(jù)收集、匯集、處理、存儲、傳輸、分析、導出、導入、銷毀等,以便于將數(shù)據(jù)安全防護工作落實到數(shù)據(jù)的全生命周期階段及業(yè)務處理流程中去。
安全措施維度主要包括身份鑒別、訪問控制、惡意代碼防范、惡意攻擊防范、安全審計、數(shù)據(jù)清洗、數(shù)據(jù)脫敏、數(shù)據(jù)加密、數(shù)據(jù)完整性保護等。
通過這三個維度,可以開展大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全的立體防護,并通過分析不同層面存在的安全風險,以研究對應的數(shù)據(jù)生命周期要求和安全措施。以便有效應對風險,并將安全工作落實到各個環(huán)節(jié)、各個維度和各個層面,全面提升大數(shù)據(jù)系統(tǒng)安全保障能力。
大數(shù)據(jù)系統(tǒng)的基礎設施層開展安全防護時,主要采用的思想是一個中心,三重防護思想,其中一個中心是指安全管理中心,三重防護是指的安全區(qū)域邊界。安全計算環(huán)境和安全通信網(wǎng)絡,并通過搭建在安全物理環(huán)境之上來實現(xiàn)基礎設施層的安全保障。
基礎設施層所采取的安全措施與另外兩個層面有所分離,源于其保障的重點是在于基礎的環(huán)境和軟硬件設備,而不針對具體數(shù)據(jù)。但其依舊與數(shù)據(jù)全生命周期緊密相關,例如數(shù)據(jù)銷毀的時候往往需要進行物理介質的銷毀?;蛘呶锢斫橘|的處理,以確保數(shù)據(jù)的不可恢復性。僅安全措施部分,與其他兩個層面的交叉內容較少。
基礎設施層面面臨的安全風險類別包括機房環(huán)境、網(wǎng)絡設備、安全設備和服務器設備、軟件系統(tǒng)、管理系統(tǒng)、安全配置和安全管理。
在機房環(huán)境方面,有可能因為地震、暴雨等自然災害導致機房發(fā)生事故,或者由于盜竊、社會工程學攻擊等導致機房被非授權訪問。以及因為發(fā)生火災導致出現(xiàn)軟硬件設備組件損毀。此外,還可能因為地下水的滲透、雨水的內滲、雷擊以及電磁泄漏導致的數(shù)據(jù)泄露等安全事件的發(fā)生。
在網(wǎng)絡設備、安全設備、服務器設備方面,可能由于訪問控制策略配置的不當,導致惡意人員訪問相關設備、更改安全配置和策略,導致系統(tǒng)被攻擊后網(wǎng)絡失陷或者留存后門?;蛘哂捎谠O備故障,導致網(wǎng)絡中斷或癱瘓,影響大數(shù)據(jù)業(yè)務開展。此外,還可能因為角色權限以及賬戶分配不合理,導致部分人員權限過大。或公用賬號,導致惡意操作無法追溯以及惡意內部人員謀取利益等。
在軟件系統(tǒng)、管理系統(tǒng)方面,可能由于“輸入過濾功能”覆蓋模塊不全導致發(fā)生SQL 注入和跨站腳本攻擊事件,出現(xiàn)權限旁落和數(shù)據(jù)泄露的后果。還可能因為代碼審計未開展或不全面,導致軟件存在后門或漏洞,使系統(tǒng)易遭受網(wǎng)絡攻擊或惡意訪問。此外,還包括端口及服務過度開放,以及接口管理缺失,發(fā)生惡意攻擊的行為。
在安全配置和安全管理方面,可能由于管理不到位或存在漏洞,導致投機取巧或內部惡意人員謀取利益等。
基礎設施層面的安全措施主要包括,訪問控制、身份鑒別、統(tǒng)一安全管理、安全監(jiān)測、安全設備、惡意代碼防范、入侵防范。加密協(xié)議、加密算法、介質銷毀等。
相關安全措施,通過相應的安全軟硬件設備及組件等提供安全防護,或者通過多個設備組件進行聯(lián)動防護。相關安全措施之間具有相互彌補性、相互補充性及安全疊加效果。
基礎設施層面涉及到的數(shù)據(jù)生命周期階段主要包括收集、存儲、傳輸、導入、導出和銷毀等。其中在收集和導入導出階段,主要涉及的是數(shù)據(jù)的接口和導入導出軟硬件。有的系統(tǒng)是直接通過專線方式或者光纖接入方式進行數(shù)據(jù)的導入、導出和收集,而有的系統(tǒng)則用專用的收集設備進行收集,這些都需要注意基礎設施層面的安全保護。此外,在存輸、存儲方面,包括數(shù)據(jù)庫中數(shù)據(jù)存儲的加密性、傳輸?shù)募用苄约巴暾缘?,需要相關的操作系統(tǒng)、數(shù)據(jù)庫等采用加密協(xié)議開展傳輸,并采用加密算法開展加密。在數(shù)據(jù)銷毀方面,則需要針對數(shù)據(jù)在硬件磁盤中進行清零以及硬件介質的不可恢復銷毀,如使用化學用劑或碾碎方式進行物理銷毀[3]。
數(shù)據(jù)平臺層面面臨的安全風險類別主要數(shù)據(jù)泄露、數(shù)據(jù)篡改、數(shù)據(jù)脫敏可逆、數(shù)據(jù)聚集風險等。
在數(shù)據(jù)泄露方面,可能由于數(shù)據(jù)平臺代碼層面存在SQL 注入風險等,導致數(shù)據(jù)庫中數(shù)據(jù)被竊取?;蛘哂捎趹贸绦蛑写嬖诳缮蟼髂_本的漏洞,導致權限喪失。此外,還可能由于數(shù)據(jù)的管控不到位,導致數(shù)據(jù)被非授權訪問從而泄露,以及通過勒索病毒方式進行數(shù)據(jù)的竊取。
在數(shù)據(jù)的篡改方面,可能由于數(shù)據(jù)傳輸采用明文傳輸,或數(shù)據(jù)交換協(xié)議不安全等原因,導致數(shù)據(jù)被篡改后相關大數(shù)據(jù)組件和系統(tǒng)無法發(fā)現(xiàn)相關事件。
在數(shù)據(jù)的脫敏可逆方面,可能由于脫敏算法和脫敏方式的選擇存在邏輯或安全漏洞,導致已脫敏數(shù)據(jù)發(fā)生可逆的情況,從而導致數(shù)據(jù)安全事件發(fā)生。
在數(shù)據(jù)聚集安全風險方面,可能由于數(shù)據(jù)的聚合和匯集等,將許多敏感信息和敏感內容從普通數(shù)據(jù)中提取而出或分析而出,形成敏感畫像或信息,造成個人或組織的經濟或權益損失。
數(shù)據(jù)平臺層面,安全措施主要包括安全標記、數(shù)據(jù)標簽、數(shù)據(jù)脫敏、數(shù)據(jù)標識、數(shù)據(jù)分類分級、源代碼分析、滲透測試、數(shù)據(jù)溯源、訪問控制、身份鑒別等。
該層面的安全措施,根據(jù)所處理和分析計算的方式不同,而有較多的變化和組合性。部分安全措施集成在了相關的數(shù)據(jù)處理、分析及計算的組件之中,或者集成在了數(shù)據(jù)安全管理系統(tǒng)中,如血源系統(tǒng)和溯源系統(tǒng)等。
甚至有些采用了新技術應用開展安全防護,例如采用零信任技術作為信任安全管理措施,以及采用區(qū)塊鏈技術作為數(shù)字交易管理措施等。
數(shù)據(jù)平臺層面涉及到的數(shù)據(jù)生命周期階段主要包括數(shù)據(jù)導入、導出、處理、存儲、傳輸和分析等。在數(shù)據(jù)導入導出階段,主要是進行數(shù)據(jù)的導入,導出安全管控,防止數(shù)據(jù)出現(xiàn)非授權訪問和處理的情況。在數(shù)據(jù)處理階段,主要是包括數(shù)據(jù)清洗的有效性、安全性及保真性。數(shù)據(jù)存儲階段和傳輸階段,主要是針對密鑰管理,以及采用加密算法進行數(shù)據(jù)加密及解密的調用。在數(shù)據(jù)分析階段,主要包括數(shù)據(jù)建模安全性、數(shù)據(jù)模型安全性、數(shù)據(jù)分析安全性等。該層面數(shù)據(jù)生命周期保護的重點是基于數(shù)據(jù)的分類分級,開展數(shù)據(jù)全生命周期的相關保護工作。
數(shù)據(jù)分析層面面臨的風險主要包括:
(1)數(shù)據(jù)質量問題:數(shù)據(jù)質量不佳可能導致分析結果不準確,從而影響決策。
(2)數(shù)據(jù)泄露:在數(shù)據(jù)分析過程中,可能會泄露敏感信息,如個人身份信息、商業(yè)機密等。
(3)數(shù)據(jù)誤解:數(shù)據(jù)分析結果可能被誤解或被用于不當用途,從而導致錯誤的決策。
(4)數(shù)據(jù)安全問題:在數(shù)據(jù)分析過程中,可能會遭受黑客攻擊或數(shù)據(jù)泄露,從而導致數(shù)據(jù)安全問題。
(5)數(shù)據(jù)偏差:數(shù)據(jù)分析結果可能受到數(shù)據(jù)偏差的影響,如樣本選擇偏差、測量誤差等。
(6)模型不準確:數(shù)據(jù)分析模型可能不準確,從而導致錯誤的預測或決策。
(7)人為因素:數(shù)據(jù)分析過程中可能存在人為因素,如數(shù)據(jù)篡改、分析人員的主觀判斷等,從而影響分析結果的準確性。
計算分析層面的安全措施包括數(shù)據(jù)加密、數(shù)據(jù)標簽、數(shù)據(jù)標識。密碼協(xié)議、密碼算法、數(shù)據(jù)認證和數(shù)據(jù)溯源等。由于計算分析層面需要依據(jù)數(shù)據(jù)平臺層面開展相關工作,因此,與兩個層面之間存在著界限模糊的情況,而安全措施也有著一定的重疊,有些安全措施,同時作用于數(shù)據(jù)平臺層面和計算分析層面,例如某大數(shù)據(jù)平臺提供數(shù)據(jù)服務時,平臺中的數(shù)據(jù)不可直接導出。大數(shù)據(jù)應用僅能使用計算池中的模型算法,進行數(shù)據(jù)模型的個性化搭建,然后導出分析結果。此時其中的安全措施就存在著數(shù)據(jù)平臺層面和計算風險分析層面的大量重合,部分措施如加密等還存在著一定的傳遞性,密鑰管理系統(tǒng)也較為復雜。
計算分析層面涉及到的數(shù)據(jù)生命周期階段,包括分析、處理、計算、傳輸、存儲、共享交換等。在數(shù)據(jù)處理方面,需實現(xiàn)數(shù)據(jù)處理代碼的安全性防護。由于數(shù)據(jù)處理多采用人工智能等新技術方式實現(xiàn),所以需要加強人工智能和機器學習安全性防護的力度,以及提升數(shù)據(jù)的有效性和數(shù)據(jù)處理結果的可靠性。在數(shù)據(jù)計算方面,大部分大數(shù)據(jù)系統(tǒng)采用了分布式及高性能計算方式,其分布式等特點,導致了相關系統(tǒng)中存在著特定的安全風險,則需對相關風險進行針對性的安全防護。在數(shù)據(jù)傳輸和存儲方面,則需進行數(shù)據(jù)加解密的算法調用以及設計。在數(shù)據(jù)共享交換方面,需要注意數(shù)據(jù)共享時相關方的安全管理,以及數(shù)據(jù)責任的邊界劃分,數(shù)據(jù)交換時安全性的傳遞等。
采用大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全保護模型開展保護工作時,需遵循的步驟如下:
(1)開展大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全規(guī)劃設計,對大數(shù)據(jù)系統(tǒng)安全防護進行頂層設計,從安全物理環(huán)境、安全通信網(wǎng)絡、安全區(qū)域邊界、安全計算環(huán)境、安全管理中心和管理安全等方面進行安全設計,設計規(guī)劃方案需經過專家評審后實施。
(2)開展大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全建設工作,在大數(shù)據(jù)系統(tǒng)建設的同時開展數(shù)據(jù)安全建設工作,采用三同步的方式開展安全工作,包括同步規(guī)劃、同步建設、同步運維,將安全落實到大數(shù)據(jù)工程建設的不同階段。
(3)對基礎設施層面、數(shù)據(jù)平臺層面和計算分析層面的資產進行梳理,確定各層面包括的硬件設備、軟件程序、系統(tǒng)程序、基礎環(huán)境、組件、接口、配件等。
(4)分析各層面的業(yè)務和數(shù)據(jù)面臨的安全風險性。識別業(yè)務面臨的安全威脅,識別上述資產中存在的脆弱性,識別上述資產和系統(tǒng)已有的安全保護措施,根據(jù)以上識別內容進行風險的分析和計算,明確大數(shù)據(jù)系統(tǒng)數(shù)據(jù)安全風險[4]。
(5)部署安全措施。通過分析各層面可部署的安全措施,開展安全防護,將防護措施與生命周期階段緊密結合。
(6)開展大數(shù)據(jù)系統(tǒng)數(shù)據(jù)全生命周期安全防護,將安全措施落實到生命周期的各個階段中去。