李映壯
摘 ? 要:隨著互聯(lián)網(wǎng)由1.0向2.0演進,互聯(lián)網(wǎng)以前所未有的速度滲透到人們的日常生活?;ヂ?lián)網(wǎng)快速發(fā)展所積累的龐大數(shù)據(jù),為大數(shù)據(jù)分析和人工智能創(chuàng)造了絕好的條件,另一方面,針對數(shù)據(jù)攻擊、數(shù)據(jù)泄露、數(shù)據(jù)濫用變得日益嚴重,甚至滋生非法活動。對于個體而言,數(shù)據(jù)隱私意識也在不斷增強。數(shù)據(jù)隱私保護問題成為廣受關(guān)注的網(wǎng)絡(luò)空間治理問題,因此要求數(shù)據(jù)運營者要積極、主動地進行數(shù)據(jù)防御。
關(guān)鍵詞:數(shù)據(jù)隱私 ?網(wǎng)絡(luò)空間治理 ?主動、數(shù)據(jù)防御
中圖分類號:TP309 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2019)02(a)-0159-05
Abstract: With the evolution of the Internet from 1.0 to 2.0, the Internet has penetrated into people's daily lives at an unprecedented rate. The huge amount of data accumulated by the rapid development of the Internet has created excellent conditions for big data analysis and artificial intelligence. On the other hand, data attacks, data breaches, and data abuse are becoming more serious and even breed illegal activities. For individuals, awareness of data privacy is also growing. Data privacy protection has become a widely concerned issue of cyberspace governance. Therefore, data operators are required to actively and proactively perform data defense.
Key Words: Data Privacy; Cyberspace governance; Initiative; Data defense
隨著數(shù)字經(jīng)濟時代的到來,數(shù)據(jù)已成為關(guān)鍵的生產(chǎn)要素。數(shù)據(jù)賦權(quán)的意義不僅僅在于保護個人隱私,同時還有助于清晰產(chǎn)權(quán),從而發(fā)揮出數(shù)據(jù)的最大經(jīng)濟效能,各國目前正加快數(shù)據(jù)隱私保護的立法和相關(guān)制度建設(shè)。歐盟于2018年5月正式實施的《通用數(shù)據(jù)保護條例》(GDPR)規(guī)定數(shù)據(jù)主體享有知情同意權(quán)、訪問權(quán)、拒絕權(quán)、可攜權(quán)、刪除權(quán)(被遺忘權(quán))、更正權(quán)、持續(xù)控制權(quán)等多項權(quán)利。其中一些權(quán)利在我國于2016年11月通過的《網(wǎng)絡(luò)安全法》中也得到了體現(xiàn)。數(shù)據(jù)隱私保護的相關(guān)立法對數(shù)據(jù)的處理和應用施加了約束,極大增強了數(shù)據(jù)主體對個人數(shù)據(jù)的控制能力和保護能力,因此,數(shù)據(jù)運營者主動對數(shù)據(jù)進行防御就尤其重要。
既然是主動防御,則肯定對應“被動防御”。被動防御的經(jīng)典應用就是傳統(tǒng)事后被動審計、被動應急。傳統(tǒng)的數(shù)據(jù)攻擊檢測都是攻擊出現(xiàn)后,先被動處置,安全廠商再提取特征碼放入特征庫,這種做法顯然不能在主動、積極地進行數(shù)據(jù)防護。主動防御理念的安全策略不再依賴于特征,而是根據(jù)行為做出預先判斷并實時進行自動閉環(huán)阻止。從技術(shù)角度來說,可分為四個方面:身份認證,即確保數(shù)據(jù)訪問的全流程身份正常。攻擊預測,不依賴特征,實時預判各種針對數(shù)據(jù)的攻擊行為并告警。路徑還原,能夠精準還原攻擊的整個路徑,提供處置依據(jù)。實時封堵,能夠?qū)赡軐е聰?shù)據(jù)泄露的行為進行自動閉環(huán)封堵。
1 ?基于有向圖的持續(xù)身份認證
1.1 生成數(shù)據(jù)訪問行為圖譜基線
首先從數(shù)據(jù)訪問日志中提取時間、源目的IP、來源URL、訪問URL等字段,并過濾出目的IP位于受保護站點列表的訪問日志,使用目的IP加上目的端口作為站點的唯一標志。對于指定時間段內(nèi)同一個源IP訪問同一個站點的訪問日志進行提取,我們就可以得到此源IP訪問站點的URL訪問序列。為了規(guī)避URL序列中摻雜的靜態(tài)資源的干擾,我們需要對URL序列進行去噪,去噪方式如下:
(1)對于UPL,去掉其問號后的所有內(nèi)容,即去掉參數(shù)部分。
(2)得到已經(jīng)去掉參數(shù)的URL后,我們對其后綴進行判斷,如果其后綴屬于js(Javascript腳本)、css(樣式文件)、png/jpg/gif/jpeg(圖片文件)等,則認為是頁面的靜態(tài)資源請求,不屬于URL路徑分析的范疇,將其過濾掉。
經(jīng)過過濾步驟后,我們就得到了一個源IP對于一個站點的所有動態(tài)請求的URL序列。我們將每一個URL作為圖的一個節(jié)點,而將一個URL到另一個URL的跳轉(zhuǎn)關(guān)系,作為圖的一條有向邊,這樣我們就可以得到一個源IP對于一個站點的訪問行為圖譜。如圖1所示。
另外,我們還可以基于源IP對于目的站點各個URL對應模塊的訪問時間間隔,生成用戶訪問時間序列圖譜,對于用戶在站點各個模塊停留時間的行為特征進行刻畫。如圖2所示。
由于歷史數(shù)據(jù)訪問日志中,有非常多的源IP訪問站點對,為了提高行為圖譜基線的生成性能,我們可以使用Spark的分布式算子并行的生成源IP訪問站點序列行為圖譜,在生成行為圖譜之后,我們將每一個行為圖譜對象序列化為二進制對象,存儲在HDFS上,供后續(xù)的實時URL比對模塊讀取。每一個序列化的圖譜對象,使用源IP加目的IP加目的端口作為它的標志。
1.2 異常身份檢測
(1)基于訪問行為圖譜的異常身份檢測。
根據(jù)URL的先后訪問關(guān)系從元素為N的URL集合中,提取出N-1個子序列,例如對于的URL集合,得到的子序列為。對于每一個子序列與行為圖譜進行比對,如果子序列中含有行為圖譜中不含有的節(jié)點,或者子序列對應的行為圖譜中不存在邊,則判定為該用戶的此次訪問行為異于歷史訪問行為,觸發(fā)身份驗證失敗訪問異常告警。
(2)基于訪問時間序列圖譜的異常身份檢測。
對于源IP訪問URL的時間間隔,與訪問時間序列圖譜進行比對,如果發(fā)現(xiàn)兩個URL之間的訪問時間間隔明顯異于訪問時間序列圖譜的時間間隔(例如與歷史停留時間間隔的均值相比超過了3倍的標準差),則判定為該用戶的此次訪問行為異于歷史訪問行為,觸發(fā)身份驗證失敗訪問異常告警。
2 ?基于機器學習分析的主動預測
(1)數(shù)據(jù)源采集。
網(wǎng)絡(luò)安全領(lǐng)域的數(shù)據(jù)源根據(jù)類型的不同,包括結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)采集方式主要通過Syslog、SNMP、JDBC/ODBC、FTP/SFTP、TCP/UDP、File、Webservice等主流的數(shù)據(jù)采集方式進行采集,對于大量多源異構(gòu)數(shù)據(jù)源,采用前置探針,對數(shù)據(jù)進行集中收集、規(guī)范化等工作,將數(shù)據(jù)整合后統(tǒng)一發(fā)送到大數(shù)據(jù)應用系統(tǒng),應用系統(tǒng)將根據(jù)安全事件之間的相關(guān)性,進行關(guān)聯(lián)分析,得到更為準確的監(jiān)測信息,發(fā)現(xiàn)攻擊源。
(2)數(shù)據(jù)預處理。
在對數(shù)據(jù)挖掘算法執(zhí)行之前,必須對收集到的原始數(shù)據(jù)進行預處理,從而改進數(shù)據(jù)的質(zhì)量,提高數(shù)據(jù)挖掘過程的效率、精度和性能。大數(shù)據(jù)預處理利用數(shù)據(jù)切片,數(shù)據(jù)分類,數(shù)據(jù)聚合,數(shù)據(jù)索引標記等技術(shù)對原始數(shù)據(jù)進行層級化的聚合、重組、清洗、提取、轉(zhuǎn)換、管理、切分等預處理操作,統(tǒng)一標準接口,統(tǒng)一數(shù)據(jù)標準,并通過分布式存儲管理技術(shù),在滿足一致性要求的基礎(chǔ)上,實現(xiàn)安全、可靠、快速、有效地對多類型、多格式的數(shù)據(jù)統(tǒng)一存儲管理。
(3)分布式計算。
大數(shù)據(jù)分布式計算通過兩個或多個計算機互相共享信息,將需要進行大量計算的數(shù)據(jù)分割成小塊,由多臺計算機分別計算,再對運算結(jié)果進行統(tǒng)一合并。采用分布式任務(wù)調(diào)度機制,動態(tài)靈活的將計算資源進行分配和調(diào)度,從而達到資源利用最大化,計算節(jié)點不會出現(xiàn)閑置和過載的情況,采用分布式實時計算框架和分布式離線計算框架相結(jié)合的分布式計算框架和模塊化設(shè)計,構(gòu)建一個支持多種分布式計算模型的統(tǒng)一動態(tài)調(diào)度、管理和計算的大數(shù)據(jù)分布式計算平臺,有效地支撐大數(shù)據(jù)挖掘分析。
(4)行為預測。
通過上述數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)分布式計算等過程,大數(shù)據(jù)已納入分布式存儲管理中,這些數(shù)據(jù)信息已可以用于查詢、統(tǒng)計、分析,得到大量對業(yè)務(wù)有用的信息,然而,隱藏和淹沒在這些大數(shù)據(jù)之中更重要的信息,如關(guān)聯(lián)分析、精細化分類、模式識別等,是無法用傳統(tǒng)查詢統(tǒng)計方法來獲取的。為了得到這些有用的信息,需要采用數(shù)據(jù)挖掘分析技術(shù),自動智能地對大數(shù)據(jù)分析、探索、挖掘,探尋數(shù)據(jù)的模式及特征,實現(xiàn)對異常行為的主動預測。
3 ?基于時序關(guān)聯(lián)的攻擊路徑還原
傳統(tǒng)針對敏感數(shù)據(jù)算法模型流量分析,發(fā)現(xiàn)的基本是大量的單點、單一時刻的威脅,無法感知APT攻擊問題,本文提出一種基于洛克希德·馬?。↙ockheed Martin)公司的安全專家提出來的網(wǎng)絡(luò)攻擊按發(fā)展時間和程度統(tǒng)一分為七個階段,分別是偵查、工具制作、投送、攻擊滲透、安裝工具、命令控制和惡意活動,以用戶視角的行為時序圖,構(gòu)建時序關(guān)聯(lián)的攻擊路徑還原模型,同時結(jié)合威脅情報關(guān)聯(lián)分析,推理形成用戶維度的數(shù)據(jù)泄露攻擊行為還原鏈。這種數(shù)據(jù)泄露路徑還原模型是一種多維度的攻擊推理算法,維度包含攻擊事件標記的危險程度、資產(chǎn)的重要等級、事件發(fā)生時間以及事件所處攻擊階段等。
通過將設(shè)備或算法檢測生成的告警數(shù)據(jù),從資產(chǎn)的角度,使用泄露階段、時序關(guān)聯(lián)、攻擊的危險程度和資產(chǎn)重要程度,還原出數(shù)據(jù)泄露的路徑,能夠有效發(fā)現(xiàn)基于局域網(wǎng)資產(chǎn)的樹狀威脅拓撲,還原了資產(chǎn)被入侵的歷史痕跡,有效提高了威脅感知和預測能力。
4 ?分類分級的實時閉環(huán)封堵
當前出現(xiàn)攻擊時,如果經(jīng)過人工審核確認后通過封堵IP的方式進行,該種方式過于簡單粗暴,極易造成因操作不當導致大面積業(yè)務(wù)故障。本方法將基于TCP會話重置和基于賬號的封堵方式引入敏感數(shù)據(jù)防泄漏處置,實現(xiàn)高危風險自動化封堵,無需人工干預且封堵影響范圍小。根據(jù)泄露的場景定制化制定封堵策略,能夠從三方面進行有效的封堵,第一類賬號異常,跟資源管理系統(tǒng)進行聯(lián)動封堵惡意賬號的活動;第二種通過調(diào)動一鍵封堵平臺下發(fā)黑洞路由實現(xiàn)IP封堵;第三種高危探測活動,通過TCP會話重置來實現(xiàn)精準級會話封堵。
從數(shù)據(jù)防御出發(fā),針對9個高危場景分別實現(xiàn)分類分級自動封堵,最大限度降低封堵影響,提高業(yè)務(wù)連續(xù)性。
5 ?結(jié)語
雖然我們大多只聽說新聞報道的大公司數(shù)據(jù)泄露事件,但并非只有大公司才面臨數(shù)據(jù)泄露的風險。事實上,中小企業(yè)的敏感數(shù)據(jù)泄露問題也不小。攻擊者對中小企業(yè)下手的回報可能沒有對大公司的大,但小企業(yè)也不太可能具備能夠主動檢測、預防和緩解安全漏洞的策略。為避免敏感數(shù)據(jù)泄露,無論是大公司還是中小企業(yè)都需要關(guān)注網(wǎng)絡(luò)安全,積極利用主動防御的思路進行數(shù)據(jù)防護。同時,數(shù)據(jù)保護不是某一個部門的職責,而是所有數(shù)據(jù)運營者和使用者的事情,進行敏感數(shù)據(jù)的業(yè)務(wù)流程設(shè)計時,一定要回歸到業(yè)務(wù)的本質(zhì)上去,回頭看看業(yè)務(wù)的本質(zhì)是什么,需不需要這些敏感數(shù)據(jù)。
參考文獻
[1] 謝邦昌,蔣葉飛.大數(shù)據(jù)時代隱私如何保護[J].中國統(tǒng)計,2013(6):1-4.
[2] 陳明奇,姜禾,張娟,等.大數(shù)據(jù)時代的美國信息網(wǎng)絡(luò)安全新戰(zhàn)略分析[J].信息網(wǎng)絡(luò)安全,2012(8).
[3] 霍崢,孟小峰,黃毅.一種移動社交網(wǎng)絡(luò)中的軌跡隱私保護方法[J].計算機學報,2013(4):716-726.
[4] 周水庚,李豐,陶宇飛,等.面向數(shù)據(jù)庫應用的隱私保護研究綜述[J].計算機學報,2009(5):847-861.
[5] 馮登國,張敏,李昊.大數(shù)據(jù)安全與隱私保護[J].計算機學報,2014(1):33-35.