王靜婷+孫亞紅+肖淑蘋
摘要:大數(shù)據(jù)是目前廣受社會各界研究的熱點(diǎn),它成為了信息社會的重要財富,同時也給數(shù)據(jù)的處理和管理帶來了巨大挑戰(zhàn)。因此,該文從大數(shù)據(jù)概念入手,闡述了大數(shù)據(jù)的定義、特點(diǎn)、來源以及應(yīng)用目標(biāo),分析了大數(shù)據(jù)帶來的安全挑戰(zhàn)。同時,結(jié)合大數(shù)據(jù)面臨的安全考驗,對隱私保護(hù)的關(guān)鍵技術(shù)進(jìn)行了探究。最后,總結(jié)了大數(shù)據(jù)時代的隱私保護(hù)的意義。
關(guān)鍵詞:大數(shù)據(jù);隱私保護(hù);關(guān)鍵技術(shù)
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)21-0009-02
Abstract: Big data is the popular hot topic in the study of the social from all walks of life. It has become an important wealth of information society, but it has brought about great challenge to data processing and management. Therefore, this article obtains from the concept of big data and expounds the definition, characteristics, sources and applications. It also analyzes the security challenges. At the same time, combined with the security test of big data, it has carried on the exploration to the key technologies of privacy protection. Finally, it summarizes the significance of privacy protection in the era of big data.
Key words: big data; privacy protection; key technologies
當(dāng)今,隨著云計算、移動互聯(lián)網(wǎng)等技術(shù)的迅猛發(fā)展,以Web 2.0技術(shù)為基礎(chǔ)的博客、社交網(wǎng)絡(luò)等新興服務(wù)產(chǎn)生了種類繁多的數(shù)據(jù),而云計算為存儲數(shù)據(jù)提供了平臺,這一切造就了大數(shù)據(jù)時代的正式到來。大數(shù)據(jù)吸引了越來越多的關(guān)注,成為了學(xué)術(shù)界和產(chǎn)業(yè)界的熱點(diǎn)研究問題。大數(shù)據(jù)中蘊(yùn)藏著巨大的價值,成為了信息社會的重要財富,但同時也面臨著前所未有的挑戰(zhàn),大數(shù)據(jù)的安全與隱私問題就是其中之一。如何在大數(shù)據(jù)時代對企業(yè)和個人隱私進(jìn)行保護(hù),這是人們應(yīng)該思考的問題。
1 大數(shù)據(jù)概述
1.1 大數(shù)據(jù)的概念
維基百科對大數(shù)據(jù)進(jìn)行了定義:大數(shù)據(jù)是指使用常用工具對數(shù)據(jù)進(jìn)行捕抓、存儲、管理和分析所耗費(fèi)的時間已遠(yuǎn)遠(yuǎn)超過可承受時間的數(shù)據(jù)集合。也就是說大數(shù)據(jù)是規(guī)模龐大,數(shù)據(jù)類別繁多的復(fù)雜數(shù)據(jù)集,因此,使用現(xiàn)有軟件工具對其內(nèi)容進(jìn)行捕獲、管理和處理難度較大[1]。
1.2 大數(shù)據(jù)的特點(diǎn)
大數(shù)據(jù)從3V、4V到現(xiàn)在的5V特點(diǎn)(IBM提出),其歸納為Volume(大量),Velocity(高速),Variety(多樣),Veracity(真實),Value(價值)。
(1)數(shù)據(jù)量(Volume)龐大
數(shù)據(jù)量龐大,包括捕抓、存儲、管理和分析的數(shù)據(jù)量都非常大,計量單位已經(jīng)提升到TB、PB、EB甚至ZB級別。
(2)數(shù)據(jù)處理速度(Velocity)快
數(shù)據(jù)的創(chuàng)建、處理和分析速度持續(xù)加快。該特點(diǎn)與傳統(tǒng)的數(shù)據(jù)挖掘特征有著顯著的區(qū)別。
(3)數(shù)據(jù)類型(Variety)多
過去的數(shù)據(jù)種類較為單一,通常多以結(jié)構(gòu)化數(shù)據(jù)為主?,F(xiàn)在,大數(shù)據(jù)中的數(shù)據(jù)類型繁多,不僅存在結(jié)構(gòu)化數(shù)據(jù),如文本類型數(shù)據(jù),而且越來越多的數(shù)據(jù)類型以半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)為主,包括視頻、地理位置等信息。
(4)數(shù)據(jù)真實性(Veracity)
大數(shù)據(jù)是從龐大的數(shù)據(jù)中提取出的,因此,大數(shù)據(jù)必然具有真實性,只有真實的數(shù)據(jù)才有參考價值和應(yīng)用價值。在信息化進(jìn)程飛速發(fā)展的今天,任何不合理、不真實的數(shù)據(jù)都將導(dǎo)致決策或是方案的錯誤,影響社會、經(jīng)濟(jì)和生活發(fā)展。
(5)價值密度低(Value)
價值密度低,商業(yè)價值高。通過分析數(shù)據(jù)得出如何抓住機(jī)遇及收獲價值成為目前大數(shù)據(jù)背景下最需要解決的問題。
1.3 大數(shù)據(jù)的來源
根據(jù)不同的數(shù)據(jù)來源,將大數(shù)據(jù)分為以下三類[2,3]:
(1)來自于人
人類使用互聯(lián)網(wǎng)所產(chǎn)生的種類繁多的數(shù)據(jù),包括文本、圖形等信息。
(2)來自于計算機(jī)
由各類計算機(jī)軟件工具所產(chǎn)生的數(shù)據(jù),主要以文件、多媒體等形式存在的信息。
(3)來自于物理世界
通過各類儀器、設(shè)備或科學(xué)實驗所獲取和采集的數(shù)據(jù)。如攝像頭產(chǎn)生的圖像信息和天文望遠(yuǎn)鏡所產(chǎn)生的大量數(shù)據(jù)等。
1.4 大數(shù)據(jù)的應(yīng)用目標(biāo)
大數(shù)據(jù)被廣泛應(yīng)用于多個領(lǐng)域中,其應(yīng)用目標(biāo)主要包括以下三點(diǎn):
(1)通過分析現(xiàn)有數(shù)據(jù)、挖掘事物規(guī)律,可以更及時地獲取有價值的信息以及更準(zhǔn)確地推測事物發(fā)展的趨勢。
(2)通過長期的、多維度數(shù)據(jù)的分析、積累和對比,可以獲得用戶個性化的特征,因此,可以為用戶提供更優(yōu)質(zhì)的、種類更多的個性化服務(wù)等等。
(3)通過分析數(shù)據(jù),及時辨別出數(shù)據(jù)的真?zhèn)涡浴?/p>
2 大數(shù)據(jù)帶來的挑戰(zhàn)
大數(shù)據(jù)為信息社會帶來了重要財富,同時也存在讓人擔(dān)憂的安全性問題。在大數(shù)據(jù)時代,安全性挑戰(zhàn)主要有以下兩方面:
2.1 企業(yè)和用戶的隱私保護(hù)
主要表現(xiàn)在以下三個方面:
(1)對用戶而言,安全性問題不僅僅局限于用戶個體的隱私泄露,還在于對個體狀態(tài)、行為進(jìn)行分析和預(yù)測。通過對用戶的歷史記錄等分析,可以發(fā)現(xiàn)用戶的政治傾向、消費(fèi)習(xí)慣及愛好等。
(2)企業(yè)認(rèn)為對數(shù)據(jù)進(jìn)行了匿名處理,信息就可以公開發(fā)布了,但事實證明,匿名保護(hù)這種方法并不能達(dá)到對隱私保護(hù)的理想效果。
(3)對用戶數(shù)據(jù)進(jìn)行收集、存儲、管理和使用都缺乏規(guī)范和監(jiān)管,主要依靠企業(yè)的自律。此外,隱私信息被用于何處,用戶不會被告知。
2.2 大數(shù)據(jù)的可信程度
數(shù)據(jù)就是事實,可以說明一切。但若不認(rèn)真仔細(xì)地甄別數(shù)據(jù),很容易被數(shù)據(jù)所騙。在大數(shù)據(jù)中,欺騙性表現(xiàn)在以下兩點(diǎn):
(1)偽造的數(shù)據(jù)。由于偽造數(shù)據(jù)隱藏于大量信息中,同時數(shù)據(jù)的多樣性和規(guī)模性,使得人們無法鑒別真?zhèn)?,從而可能會誤導(dǎo)人們得出錯誤結(jié)論和做出錯誤判斷。
(2)失真的數(shù)據(jù)。數(shù)據(jù)在收集和傳播過程中出現(xiàn)的誤差,使得真假信息很難辨別,從而失真的信息可能影響人們對于信息的判斷。
3 隱私保護(hù)關(guān)鍵技術(shù)
3.1 數(shù)據(jù)溯源技術(shù)
數(shù)據(jù)溯源技術(shù)早在在大數(shù)據(jù)概念形成之前已被廣泛研究,其出發(fā)點(diǎn)是有助于使用者確定各項數(shù)據(jù)的來源。數(shù)據(jù)溯源技術(shù)的基本方法是標(biāo)記法,并且逐漸細(xì)化為Why 和 Where 兩類[4],側(cè)重點(diǎn)分別為計算的方法和數(shù)據(jù)的出處。該技術(shù)也可用于文件的溯源和恢復(fù),并且可被運(yùn)用于云存儲中。數(shù)據(jù)溯源技術(shù)被列為未來確保國家關(guān)鍵基礎(chǔ)設(shè)施安全的重要技術(shù)之一,其在未來信息安全領(lǐng)域中仍面臨著很多挑戰(zhàn)。
3.2 角色挖掘技術(shù)
基于角色的訪問控制是當(dāng)前使用較為廣泛的一種訪問控制模型。在早期基于角色的訪問控制的管理模式是“自頂向下”,而后期研究者則采用的管理模式為“自底向上”,即角色挖掘[5],通俗來講,就是如何對角色的合理設(shè)置。通常情況下,使用角色挖掘技術(shù)可以根據(jù)用戶的訪問記錄自動生成角色,這不僅為用戶提供高效及時地個性化服務(wù),同時還可以分析異常行為發(fā)現(xiàn)用戶潛在的危險。
3.3 數(shù)據(jù)水印技術(shù)
數(shù)據(jù)水印是指將標(biāo)識信息以難以察覺的方式嵌入在數(shù)據(jù)載體內(nèi)部且不影響其使用的方法[2]。根據(jù)數(shù)據(jù)的特點(diǎn)決定了在數(shù)據(jù)庫、文本中添加水印的多種方法。將數(shù)據(jù)庫指紋信息嵌入到水印中[6],這樣便于識別出信息的擁有者及被分發(fā)的對象,有助于追蹤泄密者。若嵌入脆弱性水印到數(shù)據(jù)庫表中,有助于及時發(fā)現(xiàn)數(shù)據(jù)項的變化。文本水印生成方法較多,可分為基于文檔結(jié)構(gòu)微調(diào)的水印、基于文本內(nèi)容的水印和基于自然語言的水印。其中一些水印方法可用于驗證部分的數(shù)據(jù),基于該特性的數(shù)據(jù)水印技術(shù)在大數(shù)據(jù)應(yīng)用背景下具有廣闊的發(fā)展和應(yīng)用前景。
3.4 數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)
對于大數(shù)據(jù)中的關(guān)系數(shù)據(jù)而言,該技術(shù)是實現(xiàn)隱私保護(hù)的基本手段和核心關(guān)鍵技術(shù),最典型的例子是k匿名方案,該模型主要研究的對象是靜態(tài)的、一次性發(fā)布的情況,而現(xiàn)實中數(shù)據(jù)發(fā)布常常出現(xiàn)數(shù)據(jù)連續(xù)、多次發(fā)布的情況,這就需要防止攻擊者對多次發(fā)布的數(shù)據(jù)聯(lián)合進(jìn)行分析,從而破壞了數(shù)據(jù)原有的匿名特性。在大數(shù)據(jù)中,攻擊者從多種渠道獲得數(shù)據(jù),而數(shù)據(jù)不僅是同一發(fā)布源,因此,對于數(shù)據(jù)發(fā)布匿名保護(hù)這類復(fù)雜問題有待更深入的研究。
4 大數(shù)據(jù)時代隱私保護(hù)的意義
在大數(shù)據(jù)時代,深入探究隱私保護(hù)所涉及的重要理論問題,對相關(guān)技術(shù)進(jìn)行梳理和體系化,構(gòu)建科學(xué)合理的隱私保護(hù)體系,為隱私權(quán)法提供理論支持和學(xué)術(shù)建議,保障公民個人信息不會受到他人非法侵?jǐn)_、搜集、利用等的人格權(quán)。
在現(xiàn)實生活中,隱私保護(hù)技術(shù)的應(yīng)用越來越重要,所以越來越引起人們的重視。目前,回應(yīng)社會的現(xiàn)實需求,因應(yīng)國家隱私保護(hù)的立法契機(jī),對目前隱私保護(hù)方面存在的問題提出具體的應(yīng)對技術(shù)措施,推動實現(xiàn)從宏觀政策的提倡到具體技術(shù)和配套措施的跟進(jìn),促進(jìn)企業(yè)和個人隱私的有效保護(hù)。
5 小結(jié)
在大數(shù)據(jù)時代,不僅為信息社會帶來了重要財富,同時也給數(shù)據(jù)的處理和管理帶來了巨大挑戰(zhàn)。若要實現(xiàn)大數(shù)據(jù)安全與隱私的保護(hù),就應(yīng)運(yùn)用各種隱私保護(hù)技術(shù),同時仍需要建立相關(guān)的政策法規(guī),只有通過技術(shù)手段與相關(guān)政策法規(guī)等相結(jié)合,才能更好地對大數(shù)據(jù)安全與隱私進(jìn)行保護(hù)。
參考文獻(xiàn):
[1] 方巍,鄭玉,徐江. 大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述[J].南京信息工程大學(xué)學(xué)報,2014,6(5):405-419.
[2] 馮登國,張敏,李昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計算機(jī)學(xué)報,2014(1):246-258.
[3] 李國杰,程學(xué)旗.大數(shù)據(jù)研究: 未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域[J]. 中國科學(xué)院院刊,2012,27( 6) : 647-657.
[4] Buneman P, Khanna S, Wang-Chiew T. Why and where: A characterization of data provenance[C].Proceedings of the 8th International Conference on Database Theory (ICDT2001). London, UK, 2001:316-330.
[5] Ene A, Horne W, Milosavljevic N, etal. Fast exact and heuristic methods for role minimization problems[C].Proceedings of the 13th ACM Symposium on Access Control Models and Technologies. Estes Park, USA, 2008:1-10.
[6] Guo Fei, Wang Jian-Min, Li De-Yi. Fingerprinting relational databases[C].Proceedings of the 2006 ACM Symposium on Applied Computing (SAC06). Dijon, France, 2006:487-492.