馬朝輝,聶瑞華,譚昊翔,林嘉洺,王欣明,唐華,楊晉吉,趙淦森
1.華南師范大學計算機學院,廣東 廣州 510630
2.華南師范大學軟件學院,廣東 佛山 528225
大數(shù)據(jù)治理的數(shù)據(jù)模式與安全
馬朝輝1,聶瑞華1,譚昊翔1,林嘉洺1,王欣明1,唐華2,楊晉吉1,趙淦森1
1.華南師范大學計算機學院,廣東 廣州 510630
2.華南師范大學軟件學院,廣東 佛山 528225
大數(shù)據(jù)治理的主要目的是使數(shù)據(jù)的利用價值和利用效率最大化,治理后的數(shù)據(jù)在利用過程中也不可避免會涉及敏感數(shù)據(jù)或者隱私數(shù)據(jù)。從大數(shù)據(jù)治理出發(fā),基于實際應用案例,討論大數(shù)據(jù)治理過程中如何利用數(shù)據(jù)模式的重組實現(xiàn)數(shù)據(jù)價值的提升和數(shù)據(jù)處理效率的提升。同時,也提出了數(shù)據(jù)安全訪問策略的自動生成,保障數(shù)據(jù)在重組后得到相應的安全防護。
大數(shù)據(jù)治理;數(shù)據(jù)融合;訪問控制
據(jù)IBM公司的分析,人類文明有90%的數(shù)據(jù)是在過去兩年內產(chǎn)生的,到2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達到今天的44倍[1]。而我國截至2015年12月,已經(jīng)擁有6.88億的互聯(lián)網(wǎng)用戶,13.06億的手機用戶①,每天可產(chǎn)生海量的數(shù)據(jù)。大數(shù)據(jù)無論在大型企業(yè),還是政府部門都發(fā)揮著相當?shù)淖饔?。?015年7月1日國務院辦公廳印發(fā)的《關于運用大數(shù)據(jù)加強對市場主體服務和監(jiān)管的若干意見》中提到,充分運用大數(shù)據(jù)的先進理念、技術和資源是提升國家競爭力的戰(zhàn)略選擇,是提高政府服務和監(jiān)管能力的必然要求,有利于政府充分獲取和運用信息,更加準確地了解市場主體需求,提高服務和監(jiān)管的針對性、有效性。此外,大數(shù)據(jù)為醫(yī)療、能源、智慧城市、生物醫(yī)學、基因組學、交通運輸?shù)阮I域提供了不同的應用視角。如何通過大數(shù)據(jù)治理來解決上述城市化問題以及更廣泛的問題是數(shù)字時代的趨勢。
數(shù)據(jù)治理當前已經(jīng)成為IT業(yè)界一門新興的學科,被廣泛研究,但是數(shù)據(jù)治理這個概念則廣泛應用在企業(yè)界。數(shù)據(jù)治理是指“從使用零散數(shù)據(jù)變?yōu)槭褂猛恢鲾?shù)據(jù)、從具有很少或沒有組織和流程治理到企業(yè)范圍內的數(shù)據(jù)治理、從嘗試處理主數(shù)據(jù)混亂狀況到主數(shù)據(jù)井井有條的一個過程,并最終使企業(yè)能將數(shù)據(jù)作為企業(yè)的核心資產(chǎn)來管理”[2]。大數(shù)據(jù)治理這個概念形成于大數(shù)據(jù)時代,但是對于大數(shù)據(jù)治理的定義眾說紛紜。美國學者桑尼爾·索雷斯[3]將大數(shù)據(jù)治理定義為:大數(shù)據(jù)治理是廣義信息治理計劃的一部分,即制定與大數(shù)據(jù)有關的數(shù)據(jù)優(yōu)化、隱私保護與數(shù)據(jù)變現(xiàn)的政策。梁芷銘[4]綜合不同觀點認為:大數(shù)據(jù)治理是不同的人群或組織機構在大數(shù)據(jù)時代為了應對大數(shù)據(jù)帶來的種種不安、困難與威脅,運用不同的技術工具對大數(shù)據(jù)進行管理、整合、分析并挖掘其價值的行為。
大數(shù)據(jù)治理對國家治理同樣重要。大數(shù)據(jù)技術為提升國家的科學決策、社會監(jiān)管、公共服務以及應急管理能力都提供了良好的契機,現(xiàn)在國家治理的多元主體已經(jīng)和信息化、數(shù)字化分不開了,但是大量數(shù)據(jù)藏身于互聯(lián)網(wǎng)和各種數(shù)字媒介,難分真假、難以辨清,國家治理主體容易迷失在其中,因此大數(shù)據(jù)治理會是國家治理的重要方面。對于國家治理過程中的大數(shù)據(jù)進行治理,其主要的作用主要體現(xiàn)在以下幾個方面。
第一,大數(shù)據(jù)能有效提升科學決策水平[5]。因為大數(shù)據(jù)收集了整個國家各個領域方面的信息資源,對這些數(shù)據(jù)資源進行整合之后相當于一個龐大的信息資源庫,面對數(shù)據(jù)洪流,客觀、理性地進行數(shù)據(jù)分析,強化大數(shù)據(jù)治理,能更好地幫助國家治理決策科學化,為國家治理提供重要的數(shù)據(jù)支持和決策依據(jù)。
第二,大數(shù)據(jù)通過增強對現(xiàn)象之間的關聯(lián)與研究,可以有效減少社會危機發(fā)生的不確定性,增強風險預警能力,降低社會危機帶來的危害。大數(shù)據(jù)和社會公共管理的有效對接能夠高效實現(xiàn)跨部門、跨領域的管理信息共享,能有效提升公共危機事件的源頭治理、事前預警、動態(tài)監(jiān)控和應急處置能力。
第三,數(shù)據(jù)共享為政府各職能部門的溝通提供了便利,模糊政府各部門之間、政府與公眾之間的邊界,使得信息孤島現(xiàn)象大幅度減少。
2.1 數(shù)據(jù)融合
數(shù)據(jù)融合能夠成為計算機領域內的研
①http://www.cnnic.net.cn/ hlwfzyj/hlwxzbg/究熱點,與實際需求和數(shù)據(jù)融合技術的巨大潛能息息相關。數(shù)據(jù)融合最初是由于軍事作戰(zhàn)需求而提出的,是為了使多種作戰(zhàn)設備上多傳感器的數(shù)據(jù)信息能夠協(xié)調、整合與集成而形成的一種數(shù)據(jù)橫向綜合信息處理技術。因而,國內早期研究數(shù)據(jù)融合的研究者[6],從技術的觀點把數(shù)據(jù)融合理解為一種技術思路,視為多源信息協(xié)調處理技術的總稱。隨著計算機科學技術的迅猛發(fā)展,數(shù)據(jù)融合概念已經(jīng)不再局限于多傳感器數(shù)據(jù)融合技術領域,概念的覆蓋領域進一步擴充。在計算機領域,隨著硬件設備性能和軟件服務能力的不斷提升,面對多源數(shù)據(jù)系統(tǒng)的數(shù)據(jù)融合,數(shù)據(jù)集成的技術手段不再缺乏。而在如何構建多源數(shù)據(jù)的集成模型,提供給用戶統(tǒng)一的數(shù)據(jù)視圖的問題上,國外數(shù)據(jù)研究者Lenzerini M提出了自己的一些思考與想法[7],他針對各種數(shù)據(jù)源和全局數(shù)據(jù)模式之間如何建立關聯(lián)關系,提出了global-as-view和localas-view兩種基礎方法論,并對如何在數(shù)據(jù)整合中處理查詢、如何處理數(shù)據(jù)源不一致性問題等提出了相關的觀點和方法。
近年來,云計算技術新軍突起,成為計算機領域分布式計算的一面旗幟。而伴隨著移動互聯(lián)網(wǎng)時代的到來,信息數(shù)據(jù)資源激增,也是所謂的“大數(shù)據(jù)”時代的到來,面對越來越多的信息源和數(shù)據(jù)源,各種數(shù)據(jù)使用實體對數(shù)據(jù)融合的實際需求更加迫切。大數(shù)據(jù)時代,數(shù)據(jù)的產(chǎn)生、收集和處理規(guī)??涨?,在數(shù)據(jù)集成處理上,Dong X L等從多個維度提出了大數(shù)據(jù)集成與傳統(tǒng)數(shù)據(jù)集成的區(qū)別[8],這些維度包括了數(shù)據(jù)源的數(shù)量、數(shù)據(jù)源的動態(tài)性、數(shù)據(jù)源異構和數(shù)據(jù)源的質量差異。面對大數(shù)據(jù),數(shù)據(jù)融合要充分考慮數(shù)據(jù)源對象的各種特性,充分考慮大數(shù)據(jù)融合過程中可能出現(xiàn)的數(shù)據(jù)問題。為了降低處理大量復雜數(shù)據(jù)源整合過程中的任務復雜度,Caruccio L等提出了一種基于可視化語言的方法和工具[9]?;诟拍顚哟紊系臄?shù)據(jù)融合,該可視化語言能夠提供對數(shù)據(jù)源概念數(shù)據(jù)模型構建的操作接口或操作方式,這種工具能夠生成多個數(shù)據(jù)源之間的關聯(lián)模式,自動生成元數(shù)據(jù)并且提供一種機制,保證階段性地從各個數(shù)據(jù)源中加載更新的數(shù)據(jù)。
《中國大數(shù)據(jù)技術與產(chǎn)業(yè)發(fā)展白皮書(2014年)》中對大數(shù)據(jù)發(fā)展趨勢的預測總結為“融合、跨界、基礎、突破”,可以看出在未來的一個時間階段內,大數(shù)據(jù)領域數(shù)據(jù)融合成為最為顯著的發(fā)展趨勢。數(shù)據(jù)融合因為實際需求而提出,技術成果要服務于實際應用?;ヂ?lián)網(wǎng)將各種異構網(wǎng)絡、各種不同的信息系統(tǒng)連在一起,變成一個更龐大的信息資源網(wǎng)絡。面對Web數(shù)據(jù)形式多樣、表達自由等特點帶來的數(shù)據(jù)集成信息冗余、準確度差、數(shù)據(jù)離散等問題,張永新博士對Web數(shù)據(jù)融合進行了深入探究[10]。數(shù)據(jù)融合是數(shù)據(jù)分析挖掘的重要前提,提高集成數(shù)據(jù)的質量十分關鍵,張永新針對海量Web信息的數(shù)據(jù)沖突、多源數(shù)據(jù)關聯(lián)、數(shù)據(jù)融合的可回溯機制等保證數(shù)據(jù)集成質量的多個方面進行了研究和探討。此外,為了解決大數(shù)據(jù)給數(shù)據(jù)融合帶來的新挑戰(zhàn),北京郵電大學穆化鑫嘗試使用分布式計算的能力來應對[11],他提出基于Storm實時計算引擎對物聯(lián)網(wǎng)的異構數(shù)據(jù)進行融合處理,其工作主要是構建一種系統(tǒng)架構,將現(xiàn)有的數(shù)據(jù)融合相關算法與Storm分布式實時計算引擎結合起來,形成一個算法與數(shù)據(jù)分離、高解耦且可擴展的實時分布式數(shù)據(jù)融合系統(tǒng)。大數(shù)據(jù)帶來了數(shù)據(jù)融合的挑戰(zhàn),也催生了解決問題的技術,特別地,數(shù)據(jù)融合對于大數(shù)據(jù)與社會治理也提供了強有力的技術支撐。針對電子政務工程建設中政府信息資源利用效率低下的問題,電子科技大學石西慶提出了一種基于“任務”的城市級基礎數(shù)據(jù)融合服務模型,實現(xiàn)政務基礎數(shù)據(jù)的快速融合服務發(fā)布,確?;A數(shù)據(jù)的時效性和服務能力,進而構建一種電子政務信息共享服務平臺[12]。類似地,北京大學化柏林教授對大數(shù)據(jù)環(huán)境下多源信息數(shù)據(jù)融合的應用進行了深入研究[13],從國家、社會和企業(yè)的不同層次、不同角度的應用研究(如國家政府“單獨兩孩”政策、城市綜合治理和產(chǎn)業(yè)優(yōu)化調整、企業(yè)的發(fā)展決策等),表征了數(shù)據(jù)驅動決策的思路貫穿社會多個領域,更體現(xiàn)出數(shù)據(jù)融合在社會治理中的重要作用。
2.2 數(shù)據(jù)融合安全
數(shù)據(jù)融合作為大數(shù)據(jù)治理的一個重要環(huán)節(jié),數(shù)據(jù)機密性及隱私保護是其主要面臨的安全問題。數(shù)據(jù)融合的生命周期包括收集、融合、檢索、處理分析,每個階段都存在破壞數(shù)據(jù)的風險。在數(shù)據(jù)收集階段,數(shù)據(jù)融合匯聚了來自多個機構或組織的數(shù)據(jù)源,每個數(shù)據(jù)源由不同的安全策略管控,數(shù)據(jù)很有可能沒有按照其安全策略進行收集或者不同機構的安全策略存在沖突[14]。在數(shù)據(jù)融合階段,數(shù)據(jù)被融合集成到一個公共平臺,例如data.gov等數(shù)據(jù)開放平臺,孟小峰[15]等指出數(shù)據(jù)被外包或開放到一個不可信的公共平臺,沒有索引加密或訪問控制等安全保護措施,很可能會引起數(shù)據(jù)的泄露。在數(shù)據(jù)檢索階段,融合數(shù)據(jù)提供檢索服務來共享數(shù)據(jù),這是最容易發(fā)生數(shù)據(jù)泄露的階段。因為每個用戶都可以從搜索引擎獲取數(shù)據(jù),如果沒有全局安全策略[18]來管控數(shù)據(jù),將面臨著數(shù)據(jù)泄露的風險。為了解決這個問題,常見的方法是采用加密文本檢索技術[19,20]。在數(shù)據(jù)處理分析的階段,同樣存在數(shù)據(jù)泄露的問題,主要原因有:多數(shù)據(jù)源之間的交叉分析挖掘,很可能發(fā)現(xiàn)機密信息或者暴露隱私;數(shù)據(jù)的處理往往依托大數(shù)據(jù)平臺進行分析,如Hadoop和Spark,平臺計算資源是共享的,因而也存在暴露數(shù)據(jù)的可能。
訪問控制是數(shù)據(jù)融合安全防護的主要機制之一。Carlo等[19]認為多機構合作并共享數(shù)據(jù)的環(huán)境需要提供一種靈活的訪問控制來使用資源,因此提出了管理融合數(shù)據(jù)的訪問框架,該框架將系統(tǒng)劃分成本地環(huán)境以及融合環(huán)境,并用屬性標記數(shù)據(jù)資源,通過將本地屬性映射到全局屬性,以達到統(tǒng)一的訪問控制。Huseyin等[20]認為應該為數(shù)據(jù)集成分析提供細粒度的訪問控制,并設計了一種細粒度的訪問控制系統(tǒng)GuardMR,該系統(tǒng)使用一種對象約束語言,并自動將策略轉換成Java字節(jié)碼來對MapReduce過程實施訪問控制。Gedare和Rahul[21]認為在分布式環(huán)境中,訪問控制通過一個中心的訪問管理器進行決策,但這樣會制約系統(tǒng)的性能,因此提出了一種硬件級別的權限緩存,提高系統(tǒng)的決策速度。
數(shù)據(jù)融合集成了來自多個數(shù)據(jù)源的數(shù)據(jù),每個數(shù)據(jù)源由不同的安全策略管控,因此上述方法存在以下問題:擴展性受限,上述方法都是對安全策略進行統(tǒng)一管理,隨著數(shù)據(jù)源及數(shù)據(jù)量的增加,將制約系統(tǒng)的擴展;策略存在沖突,不同機構有自身的安全策略,它們之間很有可能存在沖突的情況。因此,研究數(shù)據(jù)融合的安全策略融合對其安全防護有重要意義。安全策略融合是將多個訪問策略融合,解決安全沖突并生成一個新的策略,該策略能夠符合原有的安全要求?,F(xiàn)有的研究工作中,Rao[22,23]使用邏輯代數(shù)表示安全策略,并提出一種基于代數(shù)運算的方法生成融合策略。但由于數(shù)理邏輯運算極有可能返回未知的結果,導致系統(tǒng)決策的不確定性,影響系統(tǒng)的可用性。Hu[24]使用基于語義的安全策略,通過本體映射和合并,將查詢語句重寫成實體和屬性名稱,并映射到本地查詢。Cruz將本地策略存儲在RDF(resource description framework,資源描述框架)中,并在融合過程將本地RDF轉變成一個全局RDF。
3.1 圖模型
圖是由一個頂點的有窮非空集合V(G)和一個弧的集合E(G)組成,通常記作G=(V,E)。圖中的頂點即數(shù)據(jù)結構中的數(shù)據(jù)元素,弧的集合E是定義在頂點集合上的一個關系。用有序對<v,w>表示從v到w的一條弧?;∈怯蟹较蛐缘?,用帶箭頭的線段表示,v為弧尾(始點),w為弧頭(終點),該圖為有向圖,如圖1所示。其中V(G)={v,w,u},E(G)={<v,w>,<w,u>}。如果圖中從v到w有一條弧,同時從w到v也有一條弧,那么該圖稱為無向圖,如圖2所示,用無序對(v, w)表示v和w之間的一條邊,其中,V(G)={v,w,u},E(G)={(v,w),(w,u)}。
圖1 有向圖
圖2 無向圖
圖3 數(shù)據(jù)庫的圖表示
3.2 數(shù)據(jù)庫的圖表示
一個學生管理系統(tǒng)的數(shù)據(jù)庫可以采用如圖3所示的有向圖表示其依賴關系。
假設以下條件。
ti:表示數(shù)據(jù)庫中的一個表。
T:表示數(shù)據(jù)庫中表的集合。
G=<V,E>:有向無環(huán)圖(DAG),表示數(shù)據(jù)庫的關系圖。其中,vi表示圖中的一個節(jié)點,對應數(shù)據(jù)庫中的一個表i,V={v1,v2,…,vk│1≤k≤n}是圖中的點集,表示數(shù)據(jù)庫中所有表的集合;e=<vi,vj>是圖中的一條有向邊,表示數(shù)據(jù)庫中表ti外鍵引用表tj,E={<vi,vj>│1≤i,j≤n,i≠j}是圖中的邊集,表示數(shù)據(jù)庫中所有外鍵引用關系的集合。規(guī)定|V|≥1。
數(shù)據(jù)庫D B的表集合T={t1,t2,…, tk│1≤k≤n},則數(shù)據(jù)庫DB的圖表示為:G=f(DB)。令G=<V,E>,?t∈DB.T,則有vt∈G.V和et=<vt,vj>∈G.E,此外沒有其他的V和e屬于G。
上述建模過程生成了數(shù)據(jù)庫的依賴圖,圖中節(jié)點(數(shù)據(jù)庫的表)的依賴關系由圖中的邊來表示。因此,當兩個節(jié)點之間有邊相連時,兩個節(jié)點之間有相應的依賴關系,具體由邊的方向決定。
數(shù)據(jù)融合過程在一定程度上是針對圖進行邊的消減的過程,以形成一個或者多個獨立的節(jié)點。每一條邊的消除,同時需要把邊的兩端節(jié)點的數(shù)據(jù)進行融合,減少對應的節(jié)點外在依賴,即形成了融合后的數(shù)據(jù)。當一個節(jié)點的所有邊都消除后,該節(jié)點就成為自包含的數(shù)據(jù)節(jié)點。
算法的主要問題是擴展順序,即節(jié)點間的消邊順序。如圖4所示,本算法思想是從葉子節(jié)點開始往上層節(jié)點擴展處理,因為只有葉子節(jié)點和孤立節(jié)點是當前已經(jīng)包含完整信息的節(jié)點,即數(shù)據(jù)表。它們不再需要引用其他表的信息,那么它們就是已經(jīng)包含完整信息的表。所以按照這種順序擴展后能保證被嵌套擴展的節(jié)點已經(jīng)包含了完整信息,那么擴展后的節(jié)點也就會包含完整信息。
核心算法就是從傳統(tǒng)關系型數(shù)據(jù)庫的模式圖G中的葉子節(jié)點集P里取出節(jié)點v,取出以該節(jié)點為弧尾的邊<u,v>,對該邊的弧頭節(jié)點u進行擴展,即把v節(jié)點的全部信息插進節(jié)點u中。當節(jié)點u擴展完畢,即沒有以該點為弧頭的邊,就把節(jié)點u放入葉子節(jié)點集P。當葉子節(jié)點v不再被任何節(jié)點依賴,即沒有以該節(jié)點為弧尾,就把該節(jié)點v移出節(jié)點集P,放入孤立節(jié)點集T。如此循環(huán)處理葉子節(jié)點集,直到葉子節(jié)點集P為空集。
本算法輸入G=(V,E)是有向無環(huán)圖,其中,V為G的點的集合,E為G的邊的集合。規(guī)定|V|≥1。輸出是一個二元組序列S={<u,v>|<u,v>∈E},表示擴展順序。按照順序S擴展后,模式轉換為G′=(V′,E′)。其中,V′為G′的點的集合,E′為G′的邊的集合,為空集。為了表述方便,下面將“節(jié)點”簡稱為“點”,“關系邊”簡稱為“邊”。
圖4 算法消除邊的示意
圖5 融合數(shù)據(jù)搜索系統(tǒng)的架構示意
如圖5所示,在每個數(shù)據(jù)源上有多個數(shù)據(jù)集,而這些數(shù)據(jù)源需要進行整合,融合在一起形成一個新的數(shù)據(jù)集。用戶在搜索融合的數(shù)據(jù)集得到查詢結果。因此,融合搜索由以下幾個關鍵部分組成,分別是用戶、搜索引擎、融合數(shù)據(jù)、數(shù)據(jù)源、數(shù)據(jù)集、記錄、安全策略融合模塊以及策略處理模塊等,其中安全策略融合模塊將每個數(shù)據(jù)源的訪問策略進行融合,生成一個融合訪問策略,而策略處理模塊則是對融合生成數(shù)據(jù)集根據(jù)安全策略進行安全標記,并且過濾不符合安全要求的結果。
假定每個數(shù)據(jù)源都是基于BLP(Bell-LaPadula)模型下建立訪問策略的。因此,根據(jù)BLP模式,訪問策略Pi定義為Pi=(fi,LTCi,Mi),其中,i表示第i個數(shù)據(jù)源。當不同的數(shù)據(jù)源合并在一起,就會產(chǎn)生一個新的融合數(shù)據(jù)集。因為不同的數(shù)據(jù)源之間存在一些差異,所以融合的訪問策略為PG=(fG,LTCG,MG)必須處理融合時的沖突,并且保持與原有數(shù)據(jù)源中的訪問策略一致。而融合過程主要是3部分的融合:Lattice的融合、映射函數(shù)的轉換以及訪問控制矩陣的融合。
4.1 Lattice融合
Hasse圖②https://en.wikipedia.org/ wiki/Hasse_ diagram是一種用于表達有限的偏序關系集合的圖,以圖形形式表現(xiàn)偏序關系集合的傳遞關系在偏序集合<S,≤>,S的每個元素在Hasse圖是一個頂點。而對于兩個元素s1和s2滿足偏序關系,即s1∈S和s2∈S并且s1≤s2,則在Hasse圖里偏序關系表示一段有向線段,從s2指向s1。
因為Lattice是一種特殊的偏序關系集合,所以Lattice也可以用Hasse圖來表示。因此,Lattice的融合可以轉換為兩幅Hasse圖的合并。合并過程主要分為3個階段:初始化階段、沖突處理階段和化簡階段。初始化階段是在兩幅原始的Hasse圖之間添加滿足偏序關系的線段。在添加關聯(lián)線段后,融合Hasse圖可能會存在與原有Hasse圖的沖突,所以需要對融合Hasse圖進行沖突檢測和處理,刪除一些沖突線段。最后,還需要對融合Hasse圖進行化簡,刪除冗余的線段。
4.1.1 初始化階段
假設兩個Lattice表示為LTC1=<S1,R1>和LTC2=<S2,R2>。在初始化階段,需要對兩個Lattice之間的節(jié)點關系進行考慮。而兩個節(jié)點之間的關系分為兩種:一種是相等關系,另一種是支配關系。
定義1 假設l1=<c1,k1>、l2=<c2,k2>分別是兩個安全等級。當且僅當c1=c2和k1=k2時,l1與l2是相等關系。
定義2 假設l1=<c1,k1>、l2=<c2,k2>分別是兩個安全等級。當且僅當c1≥c2和k1?k2,則l1與l2是支配關系。
如圖6所示,根據(jù)以上兩個定義,在Lattice融合的初始化階段,針對兩個Hasse圖之間的節(jié)點關系,得出以下規(guī)則:
● 若兩個Hasse圖之間的頂點滿足相等關系,則在兩個頂點之間添加兩條互相指向的有向線段;
● 若兩個Hasse圖之間的頂點滿足支配關系,則在兩個頂點之間添加一條由支配頂點指向被支配頂點的有向線段。
圖6 Lattice圖合并示意
4.1.2 沖突處理階段
在添加了兩個節(jié)點的關系線段之后,此時的融合Hasse圖可能存在冗余的線段或者沖突線段。因此,接下來要處理的就是那些與原有Lattice的Hasse圖沖突的線段。首先,給出Hasse圖里的線段定義。
定義3 路徑在Hasse圖中是一系列的有向線段,連接著一系列的頂點,而連接之間的頂點只出現(xiàn)一次。
定義4 回路在Hasse圖中是一條特殊的路徑,開始頂點與結束頂點是同一個頂點,且經(jīng)過多于2個頂點。
在Hasse圖里面的兩個節(jié)點的關系可分為可比關系和不可比關系。
定義5 假設s1和s2分別是Hasse圖里的兩個節(jié)點,當且僅當s1和s2之間存在路徑時,s1和s2之間的關系是可比關系。
定義6 假設s1和s2分別是Hasse圖里的兩個節(jié)點,當且僅當s1和s2之間不存在路徑時,s1和s2之間的關系是不可比關系。
定義7 當如下兩種情況之一出現(xiàn)時,表示一條路徑是沖突的:若這條路徑是回路;若這條路徑起始點和結束點在原有的Hasse圖中是不可比關系,但這條路徑在合并Hasse圖中變得可比。
根據(jù)上述定義,對合并過程中出現(xiàn)的兩種沖突情況進行討論,如圖7所示。
(1)合并Hasse圖存在回路
在初始化階段添加了兩個原有Hasse之間節(jié)點的全部關聯(lián)線段后,在生成的合并Hasse圖可能會存在一條回路。
(2)在原有Hasse圖中,不可比的兩個節(jié)點在合并的Hasse圖中存在路徑
在原來的Hasse圖中存在兩個不可比的節(jié)點。但因為初始化節(jié)點添加關聯(lián)線段后,使得這兩個節(jié)點變得可比。即在某個Lattice里,兩個安全等級l1和l2是不可比的。但在添加了兩個Lattice之間的關聯(lián)線段后,l1和l2之間可能就存在一條路徑,使得l1和l2變得可比。
針對這兩種情形,給出以下兩條規(guī)則來處理沖突的線段。
● 規(guī)則1:刪除在沖突路徑中出現(xiàn)次數(shù)最多的關聯(lián)線段。
● 規(guī)則2:若規(guī)則1不適用,則刪除在沖突路徑中涉及的安全級別最高的關聯(lián)線段。
4.1.3 化簡階段
經(jīng)過沖突處理階段后,合并Hasse圖應該不存在任何具有沖突的路徑,但此時的圖可能會比較冗余,因此需要對Hasse圖進行最后一個步驟,化簡操作,如圖8所示。
圖7 Lattice圖沖突解決示意
定義8 假設在Hasse圖中有兩個節(jié)點s1和s2。當且僅當兩條路徑互相直接指向對方,即s1→s2和s1→s2,則這兩條路徑是平等關系。
定義9 假設在Hasse圖中有兩個節(jié)點s1和s2。當且僅當一條路徑是s1直接指向s2,如s1→s2,而另一條路徑是由s1到s2,并且中間經(jīng)過若干個節(jié)點,如s1→…→s2,則這兩條路徑是覆蓋關系。
定義10 冗余線段就是指那些滿足平等關系或覆蓋關系的關聯(lián)線段。
因此,若沖突處理后的Hasse圖存在冗余線段,按照以下兩條規(guī)則對冗余線段進行刪除,并化簡Hasse圖,得到最終簡化的Hasse圖。
● 若兩條路徑是平等關系,則對路徑涉及的兩個節(jié)點進行合并,生成新的節(jié)點。
● 若兩條路徑是覆蓋關系,則刪除那條從起始點直接指向結束點的關聯(lián)線段。
4.2 映射函數(shù)轉換
在安全策略融合后,需要將原始的Hasse圖上的安全等級映射到新生成的Lattice圖的安全等級。在Hasse圖中,每個安全級別對應的是圖中的節(jié)點。因此,安全級別的映射轉換就等同于在原有Hasse圖上的節(jié)點映射到融合Hasse圖的節(jié)點。
本文定義了兩個映射函數(shù)的轉換函數(shù)。fiG表示從原始Latticei映射轉換為融合Lattice映射,其中,i表示原始的格LTCi。fiG表示從融合Lattice映射轉換為原始Latticei映射。fiG函數(shù)是將原始的安全等級轉換為全局的、融合的安全等級。而fGi則相反,即將全局的、融合的安全等級轉換為原始的安全等級。
圖8 Lattice圖化簡示意
4.3 訪問控制矩陣融合
訪問控制矩陣標識了主體對客體是否擁有訪問權限,若主體擁有客體的訪問權限,則將訪問矩陣對應的元素設置為真。在合并兩個訪問控制矩陣形成新的訪問控制矩陣時,融合數(shù)據(jù)集的訪問屬性與進行合并的數(shù)據(jù)集訪問屬性相關。為了保護數(shù)據(jù)的機密性,當合并前兩個數(shù)據(jù)集在訪問矩陣中均能訪問時,合并后的數(shù)據(jù)集才可以訪問。
當兩個訪問控制矩陣進行合并時,新的訪問控制矩陣的主體是兩個數(shù)據(jù)源的主體的并集,客體是兩個數(shù)據(jù)源的并集與新融合的數(shù)據(jù)集。若主體對兩個融合數(shù)據(jù)集具有訪問權限,則主體對兩個數(shù)據(jù)集都具有訪問權限,那么主體對新數(shù)據(jù)集擁有訪問權限,新矩陣中對應的元素設置為真,否則設置為假。
刑事共犯的追蹤主要是要融合相關情報部門整理的多個情報源的數(shù)據(jù),根據(jù)給定人員的信息,通過融合的情報數(shù)據(jù)對關聯(lián)任務進行發(fā)現(xiàn)和追蹤。情報部門的每個情報源刻畫的是一個社會側面的活動,如出租屋信息刻畫的是社會人員租賃房屋和居住的信息,鐵路出行刻畫的是市民利用鐵路作為交通工具的乘坐信息。融合后的數(shù)據(jù)可以同時反映出不同側面的活動,提供了更加完整的信息。刑事共犯的數(shù)據(jù)融合將相關人員的證件號碼、電話號碼等信息作為關聯(lián)的依據(jù)。
通過這些信息,融合后的數(shù)據(jù)可以提供同行同住、頻繁鄰近空間交往、疑似同伴等偵查過程需要的分析挖掘能力,如圖9所示。若依靠傳統(tǒng)手段,如市民A做了壞事,市民B是A的親戚,A做不做壞事,B都跟A是親戚,沒有意義。融合后的數(shù)據(jù)要找的是A做了壞事,當時跟A在一起的有什么人,比如他們在相近時間住在相鄰的酒店、他們經(jīng)常在某些地方先后出現(xiàn)等。這種關聯(lián)不是很明顯,但是它是很有價值的,因為就算他們不是同行,他也有可能是見證人,有可能見證了事件的發(fā)生。所以需要融合數(shù)據(jù)來分析怎么把不相關的事情關聯(lián)起來,這就需要從數(shù)據(jù)處理的角度分析,在事件網(wǎng)絡上做信息的協(xié)同挖掘,找到他們有可能關聯(lián)的行為。
圖9 刑事共犯數(shù)據(jù)融合示例
本文從大數(shù)據(jù)治理中的數(shù)據(jù)模式轉換和安全防護的角度,討論了大數(shù)據(jù)中割裂數(shù)據(jù)的融合問題,通過發(fā)現(xiàn)結構化數(shù)據(jù)的數(shù)據(jù)模式和識別數(shù)據(jù)中的實體以及實體之間的關聯(lián)關系,依據(jù)關聯(lián)關系重組數(shù)據(jù)的存儲和組織形式,消除數(shù)據(jù)的外部依賴,以減少在大數(shù)據(jù)分析挖掘過程中對數(shù)據(jù)的重復查找和組合的工作。同時,針對數(shù)據(jù)的重組過程提出了基于Bell-LaPadula模型的數(shù)據(jù)保護機制。該機制在數(shù)據(jù)按照相應需求進行重組的同時,對數(shù)據(jù)訪問控制的安全策略進行了相應調整。調整后的新安全策略能夠使數(shù)據(jù)的私密性得到保障,提供不低于原有安全策略的數(shù)據(jù)訪問保護。
[1] 馬雙榮.該如何面對大數(shù)據(jù)來襲[N].解放軍報, 2014-04-17.MA S R.How to face the incoming data[N].Jiefangjun Bao, 2014-04-17.
[2] 張一鳴.數(shù)據(jù)治理過程淺析[J].中國信息界, 2012(9): 15-17.ZHANG Y M.Analysis of the data governance process[J].Information China, 2012(9): 15-17.
[3] 桑尼爾·索雷斯.大數(shù)據(jù)治理[M].匡斌,譯.北京: 清華大學出版社, 2014.SUNIL S.Big data governance[M].Translated by KUANG B.Beijing: Tsinghua University Press, 2014.
[4] 梁芷銘.大數(shù)據(jù)治理:國家治理能力現(xiàn)代化的應有之義[J].吉首大學學報(社會科學版), 2015, 36(2): 34-41.LIANG Z M.Mega data governance: an essential approach to the modernization of state governance[J].Journal of Jishou University(Social Science Edition), 2015, 36(2): 34-41.
[5] 張?zhí)m廷.大數(shù)據(jù)的社會價值與戰(zhàn)略選擇[D].北京: 中共中央黨校, 2014.ZHANG L T.Social value and strategic choice of big data [D].Beijing: PartySchool of the Central Committee of C.P.C, 2014.
[6] 謝紅衛(wèi), 汪浩, 蘇建志.數(shù)據(jù)融合技術[J].系統(tǒng)工程與電子技術, 1992(12): 40-49.XIE H W, WANG H, SU J Z.Data fusion technology [J].Systems Engineering and Electronics, 1992(12): 40-49.
[7] LENZERINI M.Data integration: a theoretical perspective[C]//The 21st ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, June 2-6, 2002, Madison, WI, USA.New York: ACM Press, 2002: 233-246.
[8] D ONG X L, SR I VASTAVA D.Big data integration[C]// 2013 IEEE 29th International Conference on Data Engineering (ICDE), April 8-11, 2013, Brisbane, Australia.New Jersey: IEEE Press, 2013: 1245-1248.
[9] CARUCCIO L, DEUFEMIA V, MOSCARIELLO M, et al.Data integration by conceptual diagrams[C]// Database and Expert Systems Applications, Sep 1-5, 2014, Munich, Germany.Berlin: Springer International Publishing, 2014: 310-317.
[10] 張永新.面向Web數(shù)據(jù)集成的數(shù)據(jù)融合問題研究[D].濟南: 山東大學, 2012.ZHANG Y X.Research on data fusion for web data interation[D].Jinan: Shandong University, 2012.
[11] 穆化鑫.基于Storm引擎的物聯(lián)網(wǎng)異構數(shù)據(jù)融合系統(tǒng)的設計與實現(xiàn)[D].北京:北京郵電大學, 2015.MU H X.Design and implementation of IoT data fusion system based on Storm[D].Beijing: Beijing University of Posts and Telecommunications, 2015.
[12] 石西慶.基于數(shù)據(jù)融合技術的電子政務信息共享服務平臺模型[D].成都:電子科技大學, 2013.SHI X Q.A model of e-government information sharing service platform based on data fusion technology[D].Chengdu: University of Electronic Science and Technology of China, 2013.
[13] 化柏林,李廣建.大數(shù)據(jù)環(huán)境下多源信息融合的理論與應用探討[J].國書情報工作, 2015(16): 5-10.HUA B L, LI G J.Discussion on theory and application of multi-source information fusion in big data environment[J].Library and Information Service, 2015(16): 5-10.
[14] PAN L, XU Q.Visualization analysis of multidomain access control policy integration based on treemaps and semantic substrates [J].Intelligent Information Management, 2012, 4(5): 188-193.
[15] 孟小峰,張嘯劍.大數(shù)據(jù)隱私管理[J].計算機研究與發(fā)展, 2015(2): 265-281.MENG X F, ZHANG X J.Big data privacy management[J].Journal of Computer Research and Development, 2015(2): 265-281.
[16] SELLAMI M, GAMMOUDI M M, HACID M S.Secure data integration: a formal concept analysis based approach[J].Database and Expert Systems Applications, 2014(8645): 326-333.
[17] SUN W, WANG B, CAO N, et al.Privacypreserving multi-keyword text search in the cloud supporting similaritybased ranking[C]//The 8th ACM SIGSAC Symposium on Information, Computer and Communications Security, May 8-10, 2013, Hangzhou, China.New York: ACM Press, 2013: 71-82.
[18] CAO N, WANG C, LI M, et al.Privacypreserving multi-keyword ranked search over encrypted cloud data[J].IEEE Transactions on Parallel and Distributed Systems, 2014, 25(1): 222-233.
[19] RUBIO-MEDRANO C E, ZHAO Z, DOUPé A, et al.Federated access management for collaborative network environments: framework and case study[C]//The 20th ACM Symposium on Access Control Models and Technologies, June 1-3, 2015, Vienna, Austria.New York: ACM Press, 2015: 125-134.
[20] ULUSOY H, COLOMBO P, FERRARI E, et al.GuardMR: finegrained security policy enforcement for MapReduce systems[C]// The 10th ACM Symposium on Information, Computer and Communications Security, Apr 14-17, 2015, Singapore.New York: ACM Press, 2015: 285-296.
[21] BLOOM G, SIMHA R.Hardwareenhanced distributed access enforc ement for role-basedaccess control[C]//The 19th ACM Symposium on Access Control Models and Technologies, June 25-27, 2014, London, ON, Canada.New York: ACM Press, 2014: 5-16.
[22] RAO P, LIN D, BERTINO E, et al.An algebra for fine-grained integration of XACML policies [C]// The 14th ACM Symposium on Access Control Models and Technologies, June 3-5, 2009, Stresa, Italy.New York: ACM Press, 2009: 63-72.
[23] RAO P, LIN D, BERTINO E, et al.Finegrained integration of access control policies [J].Computers & Security, 2011, 30(2-3): 91-107.
[24] HU Y J, YANG J J.A semantic privacypreserving model for data sharing and integration [C]//The International Conference on Web Intelligence, Mining and Semantics, May 25-27, 2011, Sogndal, Norway.New York: ACM Press, 2011: 1-12.
* 本文為2015中國大數(shù)據(jù)技術大會(BDTC)演講約稿
Research on data schema and security in data governance
MA Chaohui, NIE Ruihua, TAN Haoxiang, LIN Jiaming, WANG Xinming, TANG Hua, YANG Jinji, ZHAO Gansen
1.School of Computer, South China Normal University, Guangzhou 510630, China
2.School of Software, South China Normal University, Foshan 528225, China
One of the key objectives of big data governance is to maximize the value and efficiency of data usage.It is less than possible to privacy while processing data that has been subjected to data governance.With case study, the way to improve data value and data processing efficiency by re-construct data schemas was investigated.A mechanism for calculating new access control policies was also presented.The generated access control policies could provide appropriate security protection over reconstructed data.
data governance, data fusion, access control
TP391
A
10.11959/j.issn.2096-0271.2016033
馬朝輝(1974-),男,華南師范大學計算機學院博士生,廣東外語外貿大學思科信息學院講師,主要研究方向為網(wǎng)絡安全、云計算和大數(shù)據(jù)等。
聶瑞華(1963-),男,華南師范大學計算機學院教授,中國計算機學會高性能計算專業(yè)委員會委員,廣東高等教育學會信息網(wǎng)絡專業(yè)委員會副理事長,華南師范大學“教育部互聯(lián)網(wǎng)應用創(chuàng)新開放平臺示范基地”負責人,主要研究方向為計算機網(wǎng)絡及應用、云計算與大數(shù)據(jù)等。
譚昊翔(1990-),男,華南師范大學計算機學院碩士生,主要研究方向為信息安全和大數(shù)據(jù)等。
王欣明(1980-),男,博士,華南師范大學計算機學院講師,IEEE會員,主要研究方向為軟件工程、程序分析和大數(shù)據(jù)等。
唐華(1973-),男,華南師范大學軟件學院院長助理、副教授,廣東省科技咨詢專家?guī)鞂<?,中國計算機學會計算機應用專家委員會委員,主要研究方向為計算機網(wǎng)絡、信息安全、云計算和大數(shù)據(jù)等。
林嘉洺(1992-),男,華南師范大學計算機學院碩士生,主要研究方向為大數(shù)據(jù)和數(shù)據(jù)挖掘等。
楊晉吉(1968-),男,華南師范大學計算機學院教授,主要研究方向為邏輯、信息安全。
趙淦森(1977-),男,博士,華南師范大學計算機學院教授、副院長,廣東省服務計算工程中心副主任,中國電子學會云計算專家委員會專家委員,粵港信息化專委會委員,中國信息系統(tǒng)專委會委員,廣東省計算機學會常務理事,主要研究方向為信息安全、云計算和大數(shù)據(jù)等。
2016-02-28
趙淦森,gzhao@scnu.edu.cn