亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)安全及其評(píng)估

        2016-05-09 07:07:30陳文捷蔡立志
        關(guān)鍵詞:分布式計(jì)算可信性數(shù)據(jù)安全

        陳文捷 蔡立志

        大數(shù)據(jù)安全及其評(píng)估

        陳文捷 蔡立志

        (上海市計(jì)算機(jī)軟件評(píng)測(cè)重點(diǎn)實(shí)驗(yàn)室 上海 201112)

        大數(shù)據(jù)的安全問(wèn)題是影響大數(shù)據(jù)應(yīng)用的關(guān)鍵因素之一,而評(píng)估大數(shù)據(jù)應(yīng)用的安全性成為業(yè)界關(guān)注的課題。針對(duì)大數(shù)據(jù)應(yīng)用安全性的評(píng)估問(wèn)題,在梳理大數(shù)據(jù)安全研究現(xiàn)狀的基礎(chǔ)上,從數(shù)據(jù)和計(jì)算兩個(gè)層面上分析大數(shù)據(jù)所面臨的安全問(wèn)題,綜述目前主要的解決大數(shù)據(jù)安全問(wèn)題的研究成果,包括分布式計(jì)算的安全技術(shù)、數(shù)據(jù)溯源技術(shù)、隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)等。最后從數(shù)據(jù)的可信性、隱私保護(hù)程度等方面提出一些大數(shù)據(jù)安全性的評(píng)估指標(biāo)。

        大數(shù)據(jù) 安全 隱私保護(hù) 隱私保護(hù)的數(shù)據(jù)挖掘 安全評(píng)估

        0 引 言

        近幾年,隨著移動(dòng)終端以及互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)呈現(xiàn)出爆發(fā)式增長(zhǎng),“大數(shù)據(jù)”成為IT領(lǐng)域關(guān)注的熱點(diǎn)。2013年英特爾公司的一組調(diào)查數(shù)據(jù)顯示:一分鐘之內(nèi)全球每分鐘傳輸?shù)臄?shù)據(jù)幾乎可以達(dá)到640 000 GB[1]。對(duì)于大數(shù)據(jù)的定義目前還不統(tǒng)一,不同的公司和機(jī)構(gòu)有著不同角度的詮釋,但基本都提到了大數(shù)據(jù)是一種無(wú)法通過(guò)人力和主流軟件在短時(shí)間內(nèi)處理的海量數(shù)據(jù)。隨著大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)的應(yīng)用和技術(shù)已經(jīng)開始逐漸滲透到社會(huì)的各個(gè)領(lǐng)域,大數(shù)據(jù)分析也成為一門新興學(xué)科。

        盡管大數(shù)據(jù)的涌現(xiàn)為人們提供了前所未有的寶貴機(jī)遇,但同時(shí)也提出了重大的挑戰(zhàn)。其中的一個(gè)重大挑戰(zhàn)是大數(shù)據(jù)的安全問(wèn)題。隨著各種數(shù)據(jù)挖掘手段的推進(jìn),人們可以從大數(shù)據(jù)中挖掘出大量有價(jià)值的信息,有些甚至涉及到企業(yè)機(jī)密甚至國(guó)家機(jī)密,因而吸引了黑客的各種攻擊行為,例如數(shù)據(jù)竊取和篡改、隱私挖掘等。人們?cè)絹?lái)越覺得自己的隱私有被泄露的危險(xiǎn)。近年來(lái),關(guān)于大數(shù)據(jù)的安全事件不斷發(fā)生,例如斯諾登“棱鏡門”事件、MongoHQ數(shù)據(jù)泄露事件等,使得人們?cè)絹?lái)越關(guān)注大數(shù)據(jù)的信息安全。

        大數(shù)據(jù)安全是一個(gè)綜合性的課題,涉及的技術(shù)包括密碼學(xué)、數(shù)據(jù)挖掘等許多學(xué)科。產(chǎn)業(yè)界和學(xué)術(shù)界也積極關(guān)注大數(shù)據(jù)的安全問(wèn)題。云安全聯(lián)盟CSA(Cloud Security Alliance)在2012年4月組建了大數(shù)據(jù)工作組BDWG(Big Data Working Group),旨在尋找大數(shù)據(jù)面臨的主要安全問(wèn)題及其解決方案。國(guó)內(nèi)外也有一些學(xué)術(shù)文獻(xiàn)對(duì)大數(shù)據(jù)環(huán)境下的風(fēng)險(xiǎn)、安全問(wèn)題進(jìn)行過(guò)探討[2,3]。本文在梳理大數(shù)據(jù)安全研究現(xiàn)狀的基礎(chǔ)上,分析了大數(shù)據(jù)所面臨的安全問(wèn)題,闡述了目前主要的解決大數(shù)據(jù)安全問(wèn)題的研究成果。最后針對(duì)大數(shù)據(jù)安全性的評(píng)估提出了一些評(píng)估指標(biāo)。

        1 大數(shù)據(jù)的安全問(wèn)題

        大數(shù)據(jù)由于其分布式、數(shù)據(jù)量大、蘊(yùn)含知識(shí)等特性,產(chǎn)生了很多新的安全問(wèn)題,這些安全問(wèn)題涉及大數(shù)據(jù)處理流程的各個(gè)環(huán)節(jié)。圖1是大數(shù)據(jù)處理的典型流程,數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行抽取和集成后存入數(shù)據(jù)存儲(chǔ)設(shè)備中。然后對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分布式計(jì)算或者數(shù)據(jù)挖掘等分析手段,最后將分析結(jié)果提交給具體的應(yīng)用。

        圖1 大數(shù)據(jù)處理流程

        在這整個(gè)過(guò)程中,大數(shù)據(jù)的安全問(wèn)題會(huì)出現(xiàn)在數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析以及數(shù)據(jù)傳輸?shù)母鱾€(gè)環(huán)節(jié)中。主要可以分為三類安全問(wèn)題:數(shù)據(jù)安全、分布式計(jì)算安全和數(shù)據(jù)挖掘的安全。其中數(shù)據(jù)安全是指數(shù)據(jù)的來(lái)源、存儲(chǔ)和傳輸過(guò)程中面臨的安全問(wèn)題,分布式計(jì)算安全和數(shù)據(jù)挖掘安全是指對(duì)大量數(shù)據(jù)進(jìn)行計(jì)算和挖掘時(shí)產(chǎn)生的安全問(wèn)題。

        1.1 數(shù)據(jù)安全問(wèn)題

        (1) 數(shù)據(jù)來(lái)源安全。大數(shù)據(jù)處理的第一步是數(shù)據(jù)采集,對(duì)于采集得到的數(shù)據(jù),有些數(shù)據(jù)可能是不可信的。因此需要對(duì)數(shù)據(jù)的來(lái)源進(jìn)行仔細(xì)的甄別,否則通過(guò)分析這些數(shù)據(jù)得到的結(jié)果可能是不準(zhǔn)確的甚至是錯(cuò)誤的。

        攻擊者可能通過(guò)修改數(shù)據(jù)采集軟件、篡改數(shù)據(jù)本身或ID克隆攻擊等手段來(lái)刻意偽造數(shù)據(jù)?;蛘咝薷臄?shù)據(jù)中的一些關(guān)鍵屬性信息(如數(shù)據(jù)大小、創(chuàng)建時(shí)間等),使得分析者對(duì)這些數(shù)據(jù)分析后得出錯(cuò)誤的結(jié)論,從而達(dá)到攻擊者的目的。由于大數(shù)據(jù)的低信息密度的特性,從大量信息中鑒別出虛假信息往往非常困難。

        (2) 數(shù)據(jù)存儲(chǔ)安全。大數(shù)據(jù)是一種超大規(guī)模和高并發(fā)的非結(jié)構(gòu)化數(shù)據(jù),無(wú)法用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ),因此往往被存儲(chǔ)在非關(guān)系型的數(shù)據(jù)庫(kù)中,如Google的BigTable、Apache的HBase等。然而相對(duì)于較成熟的關(guān)系型數(shù)據(jù)庫(kù),非關(guān)系型數(shù)據(jù)庫(kù)的發(fā)展剛剛起步,其安全性還有待完善。一方面,驗(yàn)證和鑒權(quán)機(jī)制較為薄弱,使得數(shù)據(jù)庫(kù)容易遭受暴力破解和來(lái)自內(nèi)部的攻擊,攻擊者可能竊取或篡改數(shù)據(jù),造成敏感數(shù)據(jù)被泄露。另一方面,非關(guān)系數(shù)據(jù)庫(kù)也易受各類注入攻擊,如JSON注入、REST注入、schema注入等,攻擊者可以利用這些注入手段向數(shù)據(jù)庫(kù)中添加垃圾數(shù)據(jù)。

        另外,大數(shù)據(jù)的存儲(chǔ)是一種分布式的存儲(chǔ),其事務(wù)處理的一致性較弱。根據(jù)CAP理論,一個(gè)分布式系統(tǒng)無(wú)法同時(shí)滿足一致性、可用性和分區(qū)容錯(cuò)性,而且一致性和可用性是一對(duì)矛盾,所以分布式存儲(chǔ)可能無(wú)法在任何時(shí)刻都提供一致的數(shù)據(jù)查詢結(jié)果。

        (3) 數(shù)據(jù)傳輸安全。數(shù)據(jù)在傳播過(guò)程中可能失真或被破壞[2]。原因之一是某些數(shù)據(jù)采集的過(guò)程需要人工干預(yù),其中可能引入誤差。原因之二是早期采集的數(shù)據(jù)由于現(xiàn)實(shí)情況發(fā)生了變化而已經(jīng)變得過(guò)時(shí)。原因之三是攻擊者可能通過(guò)執(zhí)行中間人攻擊MITM(Man In The Middle)或者重放攻擊等手段,在數(shù)據(jù)傳輸過(guò)程中破壞數(shù)據(jù)。

        數(shù)據(jù)在傳輸過(guò)程中也可能被攔截和泄露[3]??蛻襞c服務(wù)器之間的數(shù)據(jù)傳輸沒有加解密處理,攻擊者就可以在傳輸?shù)倪^(guò)程中竊取數(shù)據(jù)。例如,配備GPS定位跟蹤裝置的移動(dòng)電話可能泄露用戶的位置信息。泄露的數(shù)據(jù)還往往會(huì)被多方利用。而用戶無(wú)法知道自己的數(shù)據(jù)是在哪個(gè)環(huán)節(jié)被泄露,以及是誰(shuí)泄露的,從而加大了用戶的擔(dān)憂。

        1.2 分布式計(jì)算安全問(wèn)題

        大數(shù)據(jù)由于其數(shù)據(jù)量巨大,需要用分布式的方式來(lái)處理。比如MapReduce[4]就是業(yè)界常用的一個(gè)分布式計(jì)算框架,它能夠處理大數(shù)據(jù)量問(wèn)題,被應(yīng)用在許多行業(yè)和科研領(lǐng)域中。但是在應(yīng)用環(huán)境中,分布式計(jì)算并非是安全可靠的,實(shí)際中存在一些不安全因素。

        分布式處理的函數(shù)可能被黑客修改或偽造,用于一些不可告人的目的。比如對(duì)云架構(gòu)實(shí)施攻擊、監(jiān)聽請(qǐng)求、篡改計(jì)算結(jié)果、發(fā)送虛假數(shù)據(jù)或改變工作流程,使得最終的數(shù)據(jù)分析結(jié)論不符合事實(shí),或造成用戶數(shù)據(jù)的泄漏。也可能集群中的一個(gè)工作節(jié)點(diǎn)發(fā)生某種故障而導(dǎo)致錯(cuò)誤的計(jì)算結(jié)果。而在大量的工作節(jié)點(diǎn)中很難找出有問(wèn)題的節(jié)點(diǎn),從而對(duì)安全隱患的探測(cè)造成更大的困難。

        分布式處理的工作集群缺乏完善的安全認(rèn)證機(jī)制和訪問(wèn)控制機(jī)制,使得黑客可以冒充他人,并非法訪問(wèn)集群,惡意提交作業(yè),或者隨意地篡改數(shù)據(jù)節(jié)點(diǎn)上的數(shù)據(jù),甚至可以任意修改或殺掉任何其他用戶的作業(yè),造成安全隱患。

        1.3 數(shù)據(jù)挖掘安全

        大數(shù)據(jù)的核心是數(shù)據(jù)挖掘技術(shù),從數(shù)據(jù)中挖掘出信息,為企業(yè)所用,是大數(shù)據(jù)價(jià)值的體現(xiàn)。然而使用數(shù)據(jù)挖掘技術(shù),為企業(yè)創(chuàng)造價(jià)值的同時(shí),隨之產(chǎn)生的就是隱私泄露的問(wèn)題。

        數(shù)據(jù)挖掘技術(shù)使得人們能夠從大量數(shù)據(jù)中抽取有用的知識(shí)和規(guī)則。然而,這些知識(shí)和規(guī)則中可能包含一些敏感的隱私信息,數(shù)據(jù)分析人員往往可以利用數(shù)據(jù)挖掘算法,找出非隱私信息和隱私信息之間的關(guān)聯(lián)。從個(gè)人的非隱私信息推理出他的隱私信息,從而造成用戶隱私信息的泄露。一個(gè)典型的例子是某零售商通過(guò)分析銷售記錄,推斷出一名年輕女子已經(jīng)懷孕,并向其推送相關(guān)廣告信息,而這名女子的家長(zhǎng)甚至還不知道這一事實(shí)[5]。雖然可以采用數(shù)據(jù)加密、數(shù)據(jù)匿名等方法在數(shù)據(jù)挖掘時(shí)保護(hù)隱私信息,但是一方面分析、處理大規(guī)模的加密數(shù)據(jù)變得困難,影響了數(shù)據(jù)挖掘的性能;另一方面,僅通過(guò)匿名技術(shù)并不能很好達(dá)到隱私保護(hù)目標(biāo)。例如,AOL公司曾將部分搜索歷史中的個(gè)人相關(guān)信息匿名化,并將之公布供研究人員分析。即使如此,還是有分析人員通過(guò)數(shù)據(jù)挖掘技術(shù)識(shí)別出其中一位用戶的詳細(xì)信息[6]。這位用戶是一位62歲婦女,編號(hào)為4417749,家里養(yǎng)了三條狗,患有某種疾病等等。

        2 大數(shù)據(jù)安全防范的關(guān)鍵技術(shù)

        針對(duì)大數(shù)據(jù)所面臨的數(shù)據(jù)安全、分布式計(jì)算安全、數(shù)據(jù)挖掘安全問(wèn)題,國(guó)內(nèi)外學(xué)者開展了許多關(guān)鍵技術(shù)研究。這些安全技術(shù)從不同方面解決大數(shù)據(jù)的安全問(wèn)題。在數(shù)據(jù)自身的安全防范技術(shù)中,主要有數(shù)據(jù)溯源和數(shù)據(jù)擾亂技術(shù)來(lái)保證數(shù)據(jù)的可信性和隱私性。安全計(jì)算框架的開發(fā)是基于計(jì)算框架的安全防范技術(shù)。隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)保證了數(shù)據(jù)挖掘時(shí)不泄露隱私。本節(jié)分別選取其中的一些主要技術(shù)予以介紹。

        2.1 數(shù)據(jù)自身的安全防范技術(shù)

        (1) 數(shù)據(jù)溯源。面對(duì)大數(shù)據(jù)應(yīng)用中數(shù)據(jù)被篡改的危險(xiǎn),可引入數(shù)據(jù)溯源技術(shù)保證數(shù)據(jù)的可信性。數(shù)據(jù)溯源是一種記錄從原始數(shù)據(jù)到目標(biāo)數(shù)據(jù)演變過(guò)程的技術(shù),用于評(píng)估數(shù)據(jù)來(lái)源的可信性,或在災(zāi)難發(fā)生后對(duì)數(shù)據(jù)進(jìn)行恢復(fù)。在大數(shù)據(jù)前期處理過(guò)程中,如果將數(shù)據(jù)溯源技術(shù)用于大數(shù)據(jù)處理中,則能為后期的數(shù)據(jù)處理提供驗(yàn)證和清理的支持。數(shù)據(jù)溯源的主要方法是標(biāo)記法[10-12],即對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,記錄原始數(shù)據(jù)的出處、演算過(guò)程等。此方法又可細(xì)分為why、where、who等類別,分別記錄數(shù)據(jù)的演算過(guò)程、出處、相關(guān)使用者等。除此之外,數(shù)據(jù)溯源技術(shù)還可用于流數(shù)據(jù)與不確定數(shù)據(jù)[13]。

        Muniswamy-Reddy等人在數(shù)據(jù)溯源技術(shù)的基礎(chǔ)上,提出了一種在統(tǒng)一環(huán)境下追蹤數(shù)據(jù)起源的感知起源存儲(chǔ)系統(tǒng)PASS(Provenance Aware Storage System)[14],它能自動(dòng)收集、存儲(chǔ)、管理并查詢文件的起源信息。PASS利用修改過(guò)的Linux內(nèi)核,在操作系統(tǒng)層對(duì)起源信息進(jìn)行收集,并對(duì)讀寫操作記錄詳細(xì)的信息流和工作流描述。

        (2) 數(shù)據(jù)擾亂。為了降低數(shù)據(jù)泄露隱私風(fēng)險(xiǎn),一種較常用的方法是對(duì)原始數(shù)據(jù)進(jìn)行一定的處理,隱去其中的敏感數(shù)據(jù)。數(shù)據(jù)擾亂技術(shù)是對(duì)數(shù)據(jù)本身進(jìn)行一些修改,以刪除或弱化其中隱私敏感的部分。數(shù)據(jù)擾亂有多種方式,比如數(shù)據(jù)亂序、數(shù)據(jù)交換[16]、數(shù)據(jù)扭曲[17-22]、數(shù)據(jù)清洗[23,24]、數(shù)據(jù)匿名[25,26]、數(shù)據(jù)屏蔽[27,28]、數(shù)據(jù)泛化[29,30]等。即將原始數(shù)據(jù)重新排列、對(duì)多條記錄的某些屬性值進(jìn)行交換、在原始數(shù)據(jù)上疊加一個(gè)噪聲、刪除或修改某些記錄、對(duì)某些記錄的關(guān)鍵屬性作刪除或泛化、將某些屬性值用概率分析法修正、將屬性值替換為一個(gè)更抽象的值(比如“北京人”、“南京人”替換成“中國(guó)人”)。

        數(shù)據(jù)擾亂技術(shù)雖然能夠一定程度保護(hù)隱私,但同時(shí)由于數(shù)據(jù)本身被修改,會(huì)對(duì)數(shù)據(jù)挖掘結(jié)果造成影響,因此使用數(shù)據(jù)擾亂技術(shù)需要在隱私保護(hù)程度和數(shù)據(jù)挖掘精度上作一個(gè)權(quán)衡。

        2.2 基于計(jì)算框架的安全防范技術(shù)

        如1.2節(jié)所述,分布式計(jì)算框架的安全隱患主要在于不可信的計(jì)算節(jié)點(diǎn)及認(rèn)證授權(quán)機(jī)制。因此解決計(jì)算框架安全問(wèn)題的主要途徑是建立安全的認(rèn)證授權(quán)機(jī)制和減少不可信計(jì)算節(jié)點(diǎn)的影響。

        德克薩斯大學(xué)的Indrajit Roy等人基于流行的MapReduce框架,開發(fā)了一套分布式計(jì)算系統(tǒng)Airavat[8],主要為了解決MapReduce的安全問(wèn)題。Airavat在SELinux中運(yùn)行,并利用了SELinux的安全特性,防止系統(tǒng)資源泄露。在認(rèn)證授權(quán)機(jī)制方面,開發(fā)人員采用了Kerberos認(rèn)證。Kerberos協(xié)議是一種計(jì)算機(jī)網(wǎng)絡(luò)授權(quán)協(xié)議[7],為網(wǎng)絡(luò)通信提供基于可信第三方服務(wù)的面向開放系統(tǒng)的認(rèn)證機(jī)制,是一種應(yīng)用對(duì)稱密鑰體制進(jìn)行密鑰管理的系統(tǒng)。同時(shí)Airavat整合了強(qiáng)制訪問(wèn)控制MAC(Mandatory Access Control)和差分隱私技術(shù)。其中,MAC是由系統(tǒng)強(qiáng)制確定訪問(wèn)主體能否訪問(wèn)相應(yīng)資源的一種訪問(wèn)控制機(jī)制,可以提供細(xì)粒度的訪問(wèn)控制。差分隱私技術(shù)是由Dwork等人在2006年提出[9],解決了傳統(tǒng)的匿名保護(hù)方法易受背景知識(shí)攻擊的缺點(diǎn),它通過(guò)在分析結(jié)果中加入噪聲的手段使得攻擊者無(wú)法分析出原始數(shù)據(jù)中的隱私信息。Airavat系統(tǒng)結(jié)構(gòu)如圖2所示,它包括三個(gè)角色:計(jì)算提供者、數(shù)據(jù)提供者和Airavat計(jì)算框架。其中計(jì)算提供者使用Airavat編程模型編寫MapReduce代碼,數(shù)據(jù)提供者指定隱私策略的參數(shù)。

        圖2 Airavat系統(tǒng)結(jié)構(gòu)

        2.3 數(shù)據(jù)挖掘中的隱私保護(hù)的技術(shù)

        由于數(shù)據(jù)挖掘可能泄露用戶的隱私,因此促使學(xué)者開始研究數(shù)據(jù)挖掘中的隱私保護(hù)方法,即在控制數(shù)據(jù)隱私泄露的情況下進(jìn)行數(shù)據(jù)挖掘,同時(shí)保證數(shù)據(jù)挖掘的精度不受很大影響。隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)PPDM(Privacy Preserving Data Mining)由Agrawal在2000年首次提出[15],經(jīng)過(guò)十年的研究已經(jīng)產(chǎn)生了大量的方法。PPDM按照數(shù)據(jù)的隱藏技術(shù)分,可分為基于同態(tài)加密、基于不經(jīng)意傳輸和基于安全多方計(jì)算的方法等。

        數(shù)據(jù)加密技術(shù)是用某種算法對(duì)數(shù)據(jù)進(jìn)行加密,攻擊者如果強(qiáng)行破譯密碼需要很大的代價(jià),從而保護(hù)數(shù)據(jù)的隱私安全。雖然在數(shù)據(jù)挖掘時(shí)對(duì)數(shù)據(jù)進(jìn)行加密可以提高數(shù)據(jù)安全性,但由于需要處理海量的加密數(shù)據(jù),計(jì)算代價(jià)提高,降低了數(shù)據(jù)挖掘的效率。由此產(chǎn)生了同態(tài)加密技術(shù)[31],它使得加密后的數(shù)據(jù)可以進(jìn)行與原始數(shù)據(jù)一樣的代數(shù)運(yùn)算,運(yùn)算的結(jié)果還是加密數(shù)據(jù),并且該結(jié)果就是明文經(jīng)過(guò)同樣的運(yùn)算再加密后的結(jié)果。這項(xiàng)技術(shù)可以用于加密數(shù)據(jù)的檢索、比較等操作,無(wú)需對(duì)數(shù)據(jù)解密就能得出正確的結(jié)果。

        不經(jīng)意傳輸OT(Oblivious Transfer)協(xié)議是一種可保護(hù)隱私的通信協(xié)議,它最早由Rabin提出[32]。它的思想是接收者以一定概率得到發(fā)送者發(fā)出的某些消息,從而可以在通信的過(guò)程中保護(hù)雙方的隱私。OT協(xié)議最初由1個(gè)消息的傳輸,發(fā)展到2選1消息的傳輸,隨后擴(kuò)展至n選1不經(jīng)意傳輸[33,34],即發(fā)送者發(fā)送n個(gè)消息,接收者只能以一定概率收到其中的1個(gè),而發(fā)送者不知道接收者收到哪一個(gè)消息。這一協(xié)議可以使用在PPDM中,比如Yehuda Lindell提出了一種基于不經(jīng)意傳輸?shù)碾[私保護(hù)分類挖掘[35]。

        安全多方計(jì)算SMC(Secure Multi-Party Computation)最早由姚期智提出[36]。它是指多個(gè)參與方需要用各自的秘密數(shù)據(jù)進(jìn)行一項(xiàng)協(xié)同計(jì)算,在保證每個(gè)參與方得到的計(jì)算結(jié)果正確性的同時(shí),保護(hù)每個(gè)參與方的秘密數(shù)據(jù)不被泄露。安全多方計(jì)算被用于數(shù)據(jù)挖掘中,達(dá)到保護(hù)隱私的目的。比如,文獻(xiàn)[37,38]分別提出了基于SMC的K-means聚類方法。文獻(xiàn)[39]提出了一種隱私保護(hù)的水平分布數(shù)據(jù)的關(guān)聯(lián)規(guī)則兩方挖掘方法。文獻(xiàn)[40]提出了一種高性能的安全多方計(jì)算的框架,用于數(shù)據(jù)挖掘應(yīng)用。文獻(xiàn)[41,42]提出了基于同態(tài)加密SMC協(xié)議的ID3和C4.5算法。

        3 大數(shù)據(jù)安全性評(píng)估

        圖3 大數(shù)據(jù)安全評(píng)估指標(biāo)

        大數(shù)據(jù)的安全技術(shù)是否有效,能否阻擋黑客的攻擊,需要相應(yīng)的評(píng)估手段來(lái)驗(yàn)證。如前所述,大數(shù)據(jù)安全的兩個(gè)重要方面是數(shù)據(jù)的可信性和隱私保護(hù)。因此評(píng)估大數(shù)據(jù)的安全性也可從這兩個(gè)方面入手,即數(shù)據(jù)的可信性和隱私保護(hù)程度。如圖3所示,數(shù)據(jù)的可信性主要包括相關(guān)性、準(zhǔn)確性、及時(shí)性、完整性、一致性、有效性等;數(shù)據(jù)的隱私保護(hù)程度主要可以從差異度、方差、信息熵、匿名化程度、數(shù)據(jù)泄露風(fēng)險(xiǎn)度等方面來(lái)計(jì)算。本節(jié)就對(duì)數(shù)據(jù)的可信性和隱私保護(hù)程度的相關(guān)評(píng)估指標(biāo)進(jìn)行論述。

        3.1 數(shù)據(jù)的可信性

        數(shù)據(jù)可信性可以在許多方面進(jìn)行定義,并與不斷變化的用戶需求有關(guān)。同一個(gè)數(shù)據(jù)的可信性可能被一個(gè)用戶所接受而另一個(gè)用戶無(wú)法接受,在2010年可信的數(shù)據(jù)可能在2013年是不可信的。通常會(huì)參照高質(zhì)量的數(shù)據(jù)特征來(lái)分析數(shù)據(jù)是否可信,一般通過(guò)表1中所述的幾個(gè)方面評(píng)估數(shù)據(jù)可信性。

        表1 數(shù)據(jù)可信性指標(biāo)

        數(shù)據(jù)可信性差的一個(gè)必然結(jié)果是,用這些數(shù)據(jù)得出結(jié)論并做出決策會(huì)產(chǎn)生風(fēng)險(xiǎn)。這些數(shù)據(jù)用于指定的用途時(shí)也可能會(huì)產(chǎn)生意想不到的后果,導(dǎo)致實(shí)際損失。

        3.2 數(shù)據(jù)的隱私保護(hù)程度

        前述的數(shù)據(jù)可信性的評(píng)估指標(biāo)主要用于定性地評(píng)估數(shù)據(jù)來(lái)源是否可靠,其衡量標(biāo)準(zhǔn)可能會(huì)隨著時(shí)間和需求而變化。本節(jié)所述的數(shù)據(jù)的隱私保護(hù)程度指標(biāo)則是定量地評(píng)估處理后的數(shù)據(jù)的質(zhì)量和隱私保護(hù)程度。2.1節(jié)已經(jīng)介紹了一些基于隱私保護(hù)的數(shù)據(jù)處理方法,不同的數(shù)據(jù)處理方法有不同的評(píng)估指標(biāo),這些指標(biāo)分別從不同的角度來(lái)衡量隱私保護(hù)的效果?,F(xiàn)舉其中有代表性的幾種評(píng)估指標(biāo)加以論述,包括差異度、方差、信息熵、匿名化程度、數(shù)據(jù)泄露風(fēng)險(xiǎn)度,具體每項(xiàng)指標(biāo)的計(jì)算方法和說(shuō)明如表2所述。

        表2 數(shù)據(jù)隱私保護(hù)程度指標(biāo)

        上述指標(biāo)有些是基于傳統(tǒng)的統(tǒng)計(jì)學(xué)方法,如基于差異度、方差和數(shù)據(jù)泄露風(fēng)險(xiǎn)度的指標(biāo);有些和特定的隱私保護(hù)技術(shù)相關(guān),如匿名化程度;有些利用了信息論理論,如信息熵。因此這些指標(biāo)適合用于不同的場(chǎng)合。

        差異度反映了經(jīng)過(guò)隱私保護(hù)處理后的數(shù)據(jù)集與原數(shù)據(jù)集的相似程度,由Bertino等人在文獻(xiàn)[43]提出。它能夠衡量數(shù)據(jù)信息損失程度,適用于評(píng)估數(shù)據(jù)擾亂技術(shù)的保護(hù)效果。差異度越小,信息損失越少,數(shù)據(jù)質(zhì)量越好,但同時(shí)隱私保護(hù)程度越小。這是比較普適的指標(biāo),因?yàn)樗臏y(cè)量不需要對(duì)所分析的數(shù)據(jù)集作很多假設(shè)。

        方差適用于評(píng)估乘性噪聲擾亂技術(shù)的保護(hù)效果。方差越大,表示擾亂后的值與原數(shù)據(jù)差異越大,隱私保護(hù)程度也就越好,但相應(yīng)的數(shù)據(jù)可用性就越低。

        信息熵由Bertino等人提出[43],這個(gè)方法的基礎(chǔ)是由香農(nóng)定義的。信息熵用來(lái)度量數(shù)據(jù)取值的不確定程度,因此它可以用來(lái)評(píng)價(jià)一個(gè)數(shù)據(jù)值的不可預(yù)測(cè)性,即預(yù)測(cè)經(jīng)過(guò)隱私保護(hù)處理的數(shù)據(jù)的原值的難度。因?yàn)殪乇硎緮?shù)據(jù)的信息量,所以數(shù)據(jù)經(jīng)過(guò)隱私保護(hù)處理之后的熵應(yīng)該比之前的熵要高。信息熵是一種較通用的測(cè)量數(shù)據(jù)隱私級(jí)別的方法,它越大表明隱私保護(hù)程度越好。對(duì)于不同的隱私保護(hù)方法,需要根據(jù)不同方法的特性重新定義計(jì)算方法,這和不同隱私保護(hù)算法有關(guān)。在文獻(xiàn)[43]中,信息熵被用來(lái)評(píng)價(jià)基于關(guān)聯(lián)規(guī)則的隱私保護(hù)算法。

        匿名化程度適用于評(píng)估匿名方法的保護(hù)效果。數(shù)據(jù)匿名方法主要針對(duì)數(shù)據(jù)的準(zhǔn)標(biāo)識(shí)屬性(可唯一確定一條記錄的一組屬性)執(zhí)行隱去或泛化的操作。匿名化程度用來(lái)度量從匿名化的數(shù)據(jù)中推測(cè)出原始數(shù)據(jù)的難易程度。一個(gè)好的匿名化方法應(yīng)該使得用戶難以從匿名化的數(shù)據(jù)中推測(cè)出原始的敏感關(guān)聯(lián)。

        數(shù)據(jù)泄露風(fēng)險(xiǎn)度適用于評(píng)估PPDM的隱私保護(hù)效果。有些PPDM算法允許使用者選擇隱藏敏感信息的數(shù)量,因此數(shù)據(jù)泄露風(fēng)險(xiǎn)度可以通過(guò)計(jì)算隱藏失效參數(shù)來(lái)評(píng)估。它被Oliveira和Zaiane定義為在處理后的數(shù)據(jù)集中被發(fā)現(xiàn)的敏感信息的百分比[44]。數(shù)據(jù)泄露風(fēng)險(xiǎn)度表示某條信息和一個(gè)特定的個(gè)人相關(guān)聯(lián)的風(fēng)險(xiǎn)度,所以數(shù)據(jù)泄露風(fēng)險(xiǎn)度越大,則隱私保護(hù)程度越低。

        需要指出的是,在實(shí)際應(yīng)用中往往僅憑單個(gè)指標(biāo)難以全面衡量大數(shù)據(jù)應(yīng)用的安全性,因而需要用多種指標(biāo)來(lái)綜合評(píng)估。有些指標(biāo)的計(jì)算方法也可能需要根據(jù)實(shí)際情況作出一些調(diào)整。

        4 結(jié) 語(yǔ)

        本文在梳理大數(shù)據(jù)安全研究現(xiàn)狀的基礎(chǔ)上,從數(shù)據(jù)和計(jì)算兩個(gè)層面上分析了大數(shù)據(jù)所面臨的安全問(wèn)題,闡述了目前主要的解決大數(shù)據(jù)安全問(wèn)題的研究成果。最后針對(duì)大數(shù)據(jù)安全性的評(píng)估提出了一些評(píng)估指標(biāo),并對(duì)這些指標(biāo)的適用性作了比較。

        [1] Temple K.What Happens in an Internet Minute?[EB/OL].http://scoop.intel.com/what-happens-in-an-internet-minute/.

        [2] Feng Dengguo,Zhang Min,Li Hao.Big Data Security and Privacy Protection[J].Chinese Journal of Computers,2014,37(1):246-258.

        [3] Miller H E.Big-data in cloud computing: a taxonomy of risks[J].Information Research,2013,18(1).

        [4] Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.

        [5] Duhigg C.How companies learn your secrets[EB/OL].http://128.59.177.251/twiki/pub/CompPrivConst/HowCompaniesLearnOurConsumingSecrets/How_Companies_Learn_Your_Secrets_-_NYTimes.com.pdf.

        [6] Barbaro M,Zeller T,Hansell S.A face is exposed for AOL searcher no.4417749[EB/OL].http://w2.eff.org/Privacy/AOL/exhibit_d.pdf.

        [7] Bhat S,Damle S,Chaudhari P,et al.KERBEROS:An Authentication Protocol[J].International Journal,2014,2(2):200-204.

        [8] Roy I,Setty S T V,Kilzer A,et al.Airavat: Security and Privacy for MapReduce[C]//USENIX Conference on Networked Systems Design and Implementation,2010,10:297-312.

        [9] Dwork C,Roth A.The algorithmic foundations of differential privacy[J].Theoretical Computer Science,2013,9(3-4):211-407.

        [10] Xu G,Wang Z,Yang L,et al.Research of Data Provenance Semantic Annotation for Dependency Analysis[C]//Advanced Cloud and Big Data,2013 International Conference on.IEEE,2013:197-204.

        [11] Bonatti P A,Hogan A,Polleres A,et al.Robust and scalable linked data reasoning incorporating provenance and trust annotations[J].Web Semantics:Science,Services and Agents on the World Wide Web,2011,9(2):165-201.

        [12] Groth P.Provenance and Annotation of Data and Processes[C]//4th International Provenance and Annotation Workshop,Santa Barbara, CA, USA, June 19-21, 2012, Revised Selected Papers.Springer,2012.

        [13] Ming G,Cheqing J,Xiaoling W,et al.A survey on management of data provenance[J].Chinese Journal of Computers,2010,33(3):373-389.

        [14] Muniswamy-Reddy K K,Holland D A,Braun U,et al.Provenance-Aware Storage Systems[C]//USENIX Annual Technical Conference,General Track,2006:43-56.

        [15] Agrawal R,Srikant R.Privacy-preserving data mining[J].ACM Sigmod Record,2000,29(2):439-450.

        [16] Kantarcioglu M,Vaidya J,Clifton C.Privacy preserving naive bayes classifier for horizontally partitioned data[C]//IEEE ICDM Workshop on Privacy Preserving Data Mining,2003:3-9.

        [17] Chen K,Liu L.Geometric data perturbation for privacy preserving outsourced data mining[J].Knowledge and Information Systems,2011,29(3):657-695.

        [18] Islam M Z,Brankovic L.Privacy preserving data mining:A noise addition framework using a novel clustering technique[J].Knowledge-Based Systems,2011,24(8):1214-1223.

        [19] Chhinkaniwala H,Garg S.Tuple Value Based Multiplicative Data Perturbation Approach To Preserve Privacy In Data Stream Mining[J].International Journal of Data Mining & Knowledge Management Process,2013,3(3):53-61.

        [20] Patel A,Dodiya K,Pate S.A Survey On Geometric Data Perturbation In Multiplicative Data Perturbation[J].International Journal of Research in Advent Technology,2013,1(5):603-607.

        [21] Oganian A.Multiplicative noise protocols[C]//Privacy in Statistical Databases.Springer Berlin Heidelberg,2011:107-117.

        [22] Keyur D,Shruti Y.Classification Techniques For Geometric Data Perturbation in Multiplicative Data Perturbation[J].International Journal of Engineering Development and Research,2014,2(2):2380-2383.

        [23] Rajalaxmi R R,Natarajan A M.A Novel Sanitization Approach for Privacy Preserving Utility Itemset Mining[J].Computer and Information Science,2008,1(3):77.

        [24] Lee J,Ko H J,Lee E,et al.A Data Sanitization Method for Privacy Preserving Data Re-publication[C]//Networked Computing and Advanced Information Management,NCM’08.Fourth International Conference on.IEEE,2008,2:28-31.

        [25] Samarati P.Protecting respondents identities in microdata release[J].Knowledge and Data Engineering,IEEE Transactions on,2001,13(6):1010-1027.

        [26] Sweeney L.Achieving k-anonymity privacy protection using generalization and suppression[J].International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems,2002,10(5):571-588.

        [27] Ajayi O O,Adebiyi T O.Application of Data Masking in Achieving Information Privacy[J].Innovative Systems Design and Engineering,2014,5(1):27-35.

        [28] Patel B R,Maheta J B.Survey on Privacy Preservation Technique:Data Masking[C].International Journal of Engineering Research and Technology.ESRSA Publications,2014,3.

        [29] Komishani E G,Abadi M.A generalization-based approach for personalized privacy preservation in trajectory data publishing[C]//Telecommunications (IST),2012 Sixth International Symposium on.IEEE,2012:1129-1135.

        [30] Hajian S,Domingo-Ferrer J,Farras O.Generalization-based privacy preservation and discrimination prevention in data publishing and mining[J].Data Mining and Knowledge Discovery,2014,28(5):1158-1188.

        [31] Paillier P.Public-key cryptosystems based on composite degree residuosity classes[C]//Advances in Cryptology—EUROCRYPT’99.Springer Berlin Heidelberg,1999:223-238.

        [32] Rabin M O.How To Exchange Secrets with Oblivious Transfer[EB/OL].IACR Cryptology ePrint Archive,2005.http://eprint.iacr.org/2005/187.pdf.

        [33] Vasant S,Venkatesan S,Rangan C P.A code-based 1-out-of-n oblivious transfer based on mceliece assumptions[M].Information Security Practice and Experience.Springer Berlin Heidelberg,2012:144-157.

        [34] Corniaux C L F,Ghodosi H.A Verifiable 1-out-of-n Distributed Oblivious Transfer Protocol[J/OL].IACR Cryptology ePrint Archive,2013,https://eprint.iacr.org/2013/063.pdf.

        [35] Lindell Y,Pinkas B.Privacy preserving data mining[C]//Advances in Cryptology—CRYPTO 2000.Springer Berlin Heidelberg,2000:36-54.

        [36] Yao A C C.How to generate and exchange secrets[C]//Foundations of Computer Science,1986,27th Annual Symposium on.IEEE,1986:162-167.

        [37] Beye M,Erkin Z,Lagendijk R L.Efficient privacy preserving k-means clustering in a three-party setting[C]//Information Forensics and Security,2011 IEEE International Workshop on.IEEE,2011:1-6.

        [38] Zhukov V G,Vashkevich A V.Privacy-preserving Protocol over Vertically Partitioned Data in Multiparty K-means Clustering[J].Middle-East Journal of Scientific Research,2013,17(7):992-997.

        [39] Zhang F,Rong C,Zhao G,et al.Privacy-Preserving Two-Party Distributed Association Rules Mining on Horizontally Partitioned Data[C]//Cloud Computing and Big Data (CloudCom-Asia),2013 International Conference on.IEEE,2013:633-640.

        [40] Bogdanov D,Niitsoo M,Toft T,et al.High-performance secure multi-party computation for data mining applications[J].International Journal of Information Security,2012,11(6):403-418.

        [41] Xiao M J,Huang L S,Luo Y L,et al.Privacy preserving id3 algorithm over horizontally partitioned data[C]//Parallel and Distributed Computing,Applications and Technologies,2005.PDCAT 2005.Sixth International Conference on.IEEE,2005:239-243.

        [42] Xiao M J,Han K,Huang L S,et al.Privacy preserving C4.5 algorithm over horizontally partitioned data[C]//Grid and Cooperative Computing,2006.Fifth International Conference.IEEE,2006:78-85.

        [43] Bertino E,Fovino I N,Provenza L P.A framework for evaluating privacy preserving data mining algorithms[J].Data Mining and Knowledge Discovery,2005,11(2):121-154.

        [44] Oliveira S R M,Zaiane O R.Privacy preserving frequent itemset mining[C]//Proceedings of the IEEE International Conference on Privacy,Security and Data Mining-Volume 14.Australian Computer Society,Inc.,2002:43-54.

        BIG DATA SECURITY AND ITS EVALUATION

        Chen Wenjie Cai Lizhi

        (ShanghaiKeyLaboratoryofComputerSoftwareTestingandEvaluating,Shanghai201112,China)

        Big data security is one of the key factors affecting big data applications, and the evaluation of the security of big data applications becomes the industry concern. In light of this issue, in this paper we analyse the security challenges encountered by big data from the aspects of data and computing based on sorting the status quo of big data security studies. Then we give a survey on the main research outcomes of solving these challenges, including the security technology of distributed computing, the data traceability technology, and the data mining technology for privacy protection. Finally, from the aspects of data creditability, privacy protection degree, etc., we also propose some evaluation indices for the big data security.

        Big data Security Privacy protection Data mining for privacy protection Security evaluation

        2014-11-08。上海市科委科技攻關(guān)項(xiàng)目(135115053 03);上海市技術(shù)帶頭人項(xiàng)目(13XD1421800)。陳文捷,碩士生,主研領(lǐng)域:大數(shù)據(jù),軟件測(cè)試。蔡立志,研究員。

        TP309

        A

        10.3969/j.issn.1000-386x.2016.04.009

        猜你喜歡
        分布式計(jì)算可信性數(shù)據(jù)安全
        可變情報(bào)板發(fā)布內(nèi)容可信性檢測(cè)系統(tǒng)探究
        基于可信性的鍋爐安全質(zhì)量綜合評(píng)價(jià)研究
        在區(qū)間上取值的模糊變量的可信性分布
        云計(jì)算中基于用戶隱私的數(shù)據(jù)安全保護(hù)方法
        電子制作(2019年14期)2019-08-20 05:43:42
        Five golden rules for meeting management
        建立激勵(lì)相容機(jī)制保護(hù)數(shù)據(jù)安全
        大數(shù)據(jù)云計(jì)算環(huán)境下的數(shù)據(jù)安全
        電子制作(2017年20期)2017-04-26 06:57:48
        基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
        云計(jì)算中MapReduce分布式并行處理框架的研究與搭建
        面向異構(gòu)分布式計(jì)算環(huán)境的并行任務(wù)調(diào)度優(yōu)化方法
        亚洲av高清天堂网站在线观看| 国产精久久一区二区三区| 久久综合狠狠色综合伊人| 国产精品半夜| 欧美巨大xxxx做受中文字幕| 国产黄色一区二区三区av| 亚洲精品乱码久久久久久不卡| 中文字幕乱码高清完整版| 98久9在线 | 免费| 波多野结衣一区二区三区视频| 国产成人美涵人妖视频在线观看| 爽爽影院免费观看| 熟女人妇交换俱乐部| 欧美国产成人精品一区二区三区| 日韩精品永久免费播放平台| 日本黄色一区二区三区| 亚洲成av人片天堂网无码| 夫妇交换刺激做爰视频| 国产成人一区二区三区高清| 精品一区二区三区a桃蜜| 久久精品亚洲精品国产色婷 | 国产亚洲精品综合在线网址| 麻豆视频av在线观看| 乱中年女人伦| 国产精品揄拍100视频| 本道无码一区二区久久激情| 亚洲一级天堂作爱av| 久久国产精品一国产精品金尊 | 午夜视频在线观看国产19| 蜜臀亚洲av无码精品国产午夜.| 国产一区二区三区av在线无码观看| 国产精品国产三级国产AvkTV| 亚洲男人在线天堂av| 日本妇人成熟免费2020| 纯爱无遮挡h肉动漫在线播放| 久久精品国产热久久精品国产亚洲| 熟女丝袜美腿亚洲一区二区三区| 国产亚洲人成在线观看| 国产裸拍裸体视频在线观看| 久久国产乱子伦精品免费强| 亚洲性感毛片在线视频|