陳垚坤 尹香蘭 劉文麗
陳垚坤 尹香蘭 劉文麗
(江南計算技術研究所 江蘇無錫 214083)
【 摘 要 】 論文分析大數(shù)據(jù)的特點及體系架構,得出大數(shù)據(jù)環(huán)境下訪問控制應滿足的原則,即自主、動態(tài)、細粒度、跨域授權。通過對比分析訪問控制模型DAC、MAC、RBAC及ABAC在大數(shù)據(jù)環(huán)境下適用性,得出結論:ABAC模型最適合應用于大數(shù)據(jù)。同時,論文針對大數(shù)據(jù)特性對各模型提出改進建議。
【 關鍵詞 】 大數(shù)據(jù);訪問控制
【 中圖分類號 】 TP393 【 文獻標識碼 】 A
【 Abstract 】 This paper analyzes the characteristics and architecture of Big Data.The Conclusion shows that Big Data need an independent, dynamic, fine-grained,cross-domain access control model.The applicability of DAC, MAC, RBAC, ABAC in Big Data environment has been comparingly analyzed.The Conclusion shows that ABAC is the most applicable access control model for Big Data.The suggestions of making improvements to adapt to the Big Data features have been proposed for access control models.
【 Keywords 】 big data; access control
1 引言
近年來隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,全世界每年產(chǎn)生的數(shù)據(jù)規(guī)模也在劇烈增長。全球數(shù)據(jù)量從2010年起正式進入ZB(109TB)時代,2011年達到1.8ZB,2012年2.7ZB,而且這個數(shù)字正在以超過年平均50%的速度增長,2020年預計將達到35ZB[1]。與此同時,大數(shù)據(jù)技術包括數(shù)據(jù)采集、存儲、管理、分析挖掘、可視化等也在迅速發(fā)展。這些現(xiàn)象表明,大數(shù)據(jù)時代已經(jīng)到來。大數(shù)據(jù)迅速發(fā)展的同時,安全問題也逐漸顯露出來,因為大數(shù)據(jù)具有數(shù)據(jù)體量巨大(Volume)、數(shù)據(jù)類型繁多(Variety)、價值密度低(Value)、處理速度快(Velocity)等4V[2]特性,其所面臨的安全威脅也是非傳統(tǒng)的。
目前,大數(shù)據(jù)資源安全主要面臨著多種的風險:非法用戶進入系統(tǒng)、合法用戶訪問權限外數(shù)據(jù)、敏感信息有泄漏風險[3]。針對以上安全風險,通常采用的安全措施:使用身份驗證系統(tǒng)阻止非法用戶接觸數(shù)據(jù);建立訪問控制體系確保合法用戶只能訪問權限內(nèi)數(shù)據(jù);對敏感數(shù)據(jù)進行加密存儲以確保其隱私性等等。以上安全措施中,身份認證技術主要針對用戶群體,只需要應對用戶群規(guī)模的增大作改進;加密存儲技術主要針對數(shù)據(jù)資源,只需要應對數(shù)據(jù)的規(guī)模增大和實時性強而作出改進。這兩項技術相對而言改進較少,較容易將傳統(tǒng)技術移植入大數(shù)據(jù)資源系統(tǒng)。而訪問控制系統(tǒng)需要同時應對用戶群體和數(shù)據(jù)資源的規(guī)模增大和高實時性,訪問權限管理變得相當復雜,很難在現(xiàn)有數(shù)據(jù)資源存儲系統(tǒng)中常用的訪問控制技術上作改進移植。因此,分析訪問控制模型在大數(shù)據(jù)環(huán)境下的適用性,找出一種能很好使用大數(shù)據(jù)特性的訪問控制模型,成為大數(shù)據(jù)安全方面的重要課題。
2 大數(shù)據(jù)體系結構分析
2.1 大數(shù)據(jù)技術體系結構
大數(shù)據(jù)的技術體系結構如圖1所示。大數(shù)據(jù)的數(shù)據(jù)源包括結構化數(shù)據(jù)、非結構化數(shù)據(jù)和半結構化數(shù)據(jù)[4],其中結構化數(shù)據(jù)所占的比例較小,絕大多數(shù)為非結構化數(shù)據(jù)和半結構化數(shù)據(jù),這正是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)應用的方面,而這種數(shù)據(jù)結構比例也決定了傳統(tǒng)的數(shù)據(jù)存儲、分析、安全技術需要作出較大改動才能使用于大數(shù)據(jù)。大數(shù)據(jù)的預處理過程包括數(shù)據(jù)清洗和元數(shù)據(jù)抽取[5],這一過程可以將大數(shù)據(jù)中的無效或低效數(shù)據(jù)篩除。大數(shù)據(jù)處理平臺將篩選過的數(shù)據(jù)存入專門設計的高效分布式存儲系統(tǒng),并基于此存儲系統(tǒng)實現(xiàn)并行計算框架和高性能數(shù)據(jù)庫應用,目前最適用的大數(shù)據(jù)處理平臺是Hadoop平臺[6]。在大數(shù)據(jù)生態(tài)體系的上層,用戶通過多種方式接入大數(shù)據(jù),通過身份驗證后可調(diào)用大數(shù)據(jù)提供的多種數(shù)據(jù)服務,包括高性能計算、數(shù)據(jù)查詢、數(shù)據(jù)分析和數(shù)據(jù)挖掘等,用戶調(diào)用的這些數(shù)據(jù)服務必須通過訪問控制獲得相應權限后,才能訪問數(shù)據(jù)處理平臺中其所需的數(shù)據(jù)。
2.2 大數(shù)據(jù)訪問控制原則
通過以上對大數(shù)據(jù)體系結構的分析結合大數(shù)據(jù)的4V特點,可以得出大數(shù)據(jù)環(huán)境下訪問控制的四項原則。
(1)自主授權。大數(shù)據(jù)環(huán)境下,資源分布式存儲且規(guī)模巨大,如果采用管理員授權模式,授權效率低下,因此需要資源所有者能夠自主授權,提高授權效率的同時增強授權的靈活性。
(2)動態(tài)授權。大數(shù)據(jù)環(huán)境下,資源與用戶時刻都在動態(tài)變化中,靜態(tài)的授權方式難以應對這種動態(tài)變化,無法保證授權的有效性。
(3)細粒度授權。非結構化和半結構化數(shù)據(jù)在大數(shù)據(jù)中占絕大部分,繁雜的數(shù)據(jù)類型導致傳統(tǒng)的授權模式難以滿足最小授權原則。
(4)跨域授權。大數(shù)據(jù)中采用分布式存儲的方式,同時內(nèi)部會形成多個邏輯上的安全域,會出現(xiàn)頻繁的跨安全域訪問,必須保證跨域訪問的安全性。
3 經(jīng)典訪問控制模型適用性
3.1 自主訪問控制模型DAC適用性
自主訪問控制(Discretion Access Control,DAC)由客體擁有者規(guī)定主體對客體的訪問權限,自主性體現(xiàn)在客體擁有者可以自主決定客體的授權。DAC模型的實現(xiàn)方法有三種:訪問控制矩陣、訪問控制列表、訪問控制能力表。
由定義可知DAC模型靈活性高,可以滿足自主、細粒度授權的需求。但在大數(shù)據(jù)環(huán)境下,若用戶為O(m),資源為O(n),則訪問控制矩陣空間代價為O(mn),訪問控制矩陣的規(guī)模巨大導致管理困難,用戶和資源動態(tài)性變化帶來的矩陣維護同樣非常困難,且DAC屬于靜態(tài)授權,沒有考慮跨域訪問時復雜的上下文環(huán)境帶來的影響。同時,DAC存在安全性不高的缺陷:權限具有傳遞性,權限管理容易失控,無法阻止客體的非法訪問。
3.2 強制訪問控制模型MAC適用性
強制訪問控制(Mandatory Access Control,MAC)的基本思想是通過給主體和客體標記安全等級,控制信息只能從安全級別低的實體向安全級別高的實體流動。
MAC安全性較強,但在大數(shù)據(jù)復雜的訪問環(huán)境中難以為規(guī)模龐大的主客體制定恰當?shù)陌踩燃?,將千萬上億級別的數(shù)據(jù)僅僅劃分為數(shù)個或數(shù)十個安全等級顯然并不合適,同時其授權模式簡單,對權限的控制力度也很粗放,難以滿足自主、動態(tài)、細粒度授權的需求。MAC也屬于靜態(tài)授權,沒有考慮上下文環(huán)境,在跨域訪問時,不同安全域之間的安全等級可能有不同定義,安全性無法滿足。
為適應大數(shù)據(jù)環(huán)境,可在MAC模型中加入基于行為的考慮,將行為定義為角色、時態(tài)和環(huán)境的綜合體,既考慮了上下文時態(tài)對權限授予的影響,又繼承了MAC的強安全性。
3.3 基于角色訪問控制模型RBAC適用性
基于角色的訪問控制(Role-Based Access Control,RBAC),引入了角色的概念,作為主體和客體之間橋梁,將權限分配給角色,并將角色分配給系統(tǒng)中的用戶來授予用戶相應權限。
RBAC是傳統(tǒng)的管理員授權模式,無法自主授權,管理員可能缺乏足夠的專業(yè)知識,無法準確地為用戶指定可訪問的數(shù)據(jù)范圍,而且由管理員集中定義用戶所有授權規(guī)則的方式從效率角度考慮也不理想。傳統(tǒng)數(shù)據(jù)服務中,RBAC中角色的劃分基于精確、封閉的用戶集和資源集,在大數(shù)據(jù)環(huán)境下,由于用戶集和資源集的動態(tài)性,RBAC難以預先定義角色。當用戶、資源動態(tài)變化時,與之相關的角色也可能失效需要重新定義,難以管理和維護。此外,RBAC同樣屬于靜態(tài)授權,沒有考慮跨域訪問時復雜的上下文環(huán)境。
因此,若要改進RBAC模型使其適用于大數(shù)據(jù)環(huán)境,可以從兩方面入手。
(1)大數(shù)據(jù)角色挖掘技術。設計角色挖掘算法,分析系統(tǒng)中的訪問記錄,自動提取角色并對其進行優(yōu)化,在系統(tǒng)中生成最小角色集,為用戶提供高效的個性化授權服務。
(2)基于工作流改進。從工作流中的任務角度建模,將工作流分解為一些相互依賴的任務,然后將任務分配給角色,角色通過執(zhí)行任務節(jié)點動態(tài)獲得權限。
4 基于屬性模型適用性
基于屬性的訪問控制模型ABAC(Attribute Based Access Control)是一個四元組(S、O、P、E),其中S、O、P和E分別是由主體屬性、客體屬性、操作屬性和環(huán)境屬性確定的主體、客體、操作和環(huán)境集合。ABAC制定完善的屬性策略集,用戶的每一次訪問都要通過策略集判定是否合法,若合法則授予相應的訪問權限。
ABAC可以很好的適用于大數(shù)據(jù)場景,體現(xiàn)在四個方面。
(1)細粒度訪問控制。ABAC模型將一次訪問過程的所有元素使用屬性描述,可以嚴格控制訪問者取得權限的各種條件,并且將可訪問范圍精確到塊級別的資源,滿足最小權限原則。
(2)自主授權。在ABAC模型中,所有的訪問控制策略都由資源所有者制定,而且模型可為用戶提供策略管理接口,資源所有者可以根據(jù)自身實際應用需求新建、修改、刪除策略,保證了資源能夠按照其所有者的意愿被訪問。
(3)動態(tài)訪問控制。在ABAC模型中,屬性的定義和設置有很大的靈活性,能夠大規(guī)模動態(tài)擴展,可以滿足各種規(guī)模的應用系統(tǒng)的需求。模型中可以設置監(jiān)控模塊,針對各類屬性動態(tài)變化的情況,制定應對機制,可以及時中斷訪問,避免因?qū)傩詣討B(tài)變化造成的非法訪問,保證了模型的安全性。
(4)較小的系統(tǒng)開銷。傳統(tǒng)訪問控制在用戶和資源數(shù)量大幅度增加的情形下,訪問控制規(guī)則數(shù)目會呈現(xiàn)指數(shù)級增長,系統(tǒng)的維護量急劇增加,加大系統(tǒng)的開銷。ABAC中,訪問控制規(guī)則隨用戶和資源數(shù)量的增長呈現(xiàn)線性增加,系統(tǒng)開銷小。
為使ABAC模型更好的應用于大數(shù)據(jù)場景,應選擇一種標準、通用可擴展的策略描述語言??蓴U展訪問控制標記語言(Extensible Access Control Markup Language,XACML)是一種基于XML的平臺無關的策略描述語言,XACML提供了多種策略合并算法,策略的合成靈活多變,有強大的訪問控制策略表達能力,可做為ABAC的策略表達語言。
5 結束語
大數(shù)據(jù)快速發(fā)展的同時,也面臨著安全挑戰(zhàn)。本文通過分析大數(shù)據(jù)的特點及體系架構,得出大數(shù)據(jù)環(huán)境下訪問控制的原則,即自主、動態(tài)、細粒度、跨域授權。根據(jù)上述原則,對比分析訪問控制模型DAC、MAC、RBAC及ABAC,經(jīng)分析ABAC模型最適合應用于大數(shù)據(jù),此外還針對大數(shù)據(jù)特性對各模型提出改進建議。下一步的工作集中在將ABAC模型融入大數(shù)據(jù)應用系統(tǒng)。
參考文獻
[1] 李國杰,程學旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域——大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J].中國科學院院刊,2012,27(6).
[2] 馮登國,張敏,李昊.大數(shù)據(jù)安全與隱私保護[J].計算機學報,2014,37(1):246-258.
[3] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.
[4] Nandimath J,Banerjee E,Patil A,et al. Big data analysis using Apache Hadoop[C]// Information Reuse and Integration (IRI), 2013 IEEE 14th International Conference on. IEEE, 2013:700 - 703.
[5] 朱星燁,何涇沙.大數(shù)據(jù)安全現(xiàn)狀及其保護對策[J].信息安全與通信保密,2014(10):33-35.
[6] 溫春,鄭靜,張紅軍.淺談大數(shù)據(jù)風險與應對策略[J].信息安全與通信保密,2014(10):44-44.
基金項目:
國家核高基項目 (2013ZX01029002-001)。
作者簡介:
陳垚坤(1991-),男,漢族,陜西漢中人,畢業(yè)于北京大學,在讀碩士研究生;主要研究方向和關注領域:信息安全。
尹香蘭(1980-),女,漢族,湖南邵陽人,畢業(yè)于解放軍理工大學,博士,工程師;主要研究方向和關注領域:信息安全。
劉文麗(1972-),女,漢族,安徽合肥人,畢業(yè)于吉林大學,碩士,高級工程師;主要研究方向和關注領域:信息安全。