楊波
摘 要:互聯(lián)網(wǎng)新型服務(wù)和物聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展,促進(jìn)了大數(shù)據(jù)時代正式到來,帶來巨大商業(yè)價值,但個人隱私泄露的風(fēng)險也逐漸增大。大數(shù)據(jù)的價值不僅來源于數(shù)據(jù)本身,更多地來源于對數(shù)據(jù)進(jìn)行二次挖掘與分析。因此個人隱私保護(hù)在大數(shù)據(jù)環(huán)境下面臨許多新的挑戰(zhàn)。分析大數(shù)據(jù)隱私保護(hù)的特點,從技術(shù)、法律和行業(yè)3個方面簡述大數(shù)據(jù)隱私保護(hù)的有關(guān)機(jī)制,指出需多角度跨學(xué)科交叉研究以滿足大數(shù)據(jù)隱私保護(hù)需要。
關(guān)鍵詞關(guān)鍵詞:大數(shù)據(jù);隱私保護(hù);隱私權(quán);數(shù)據(jù)挖掘;數(shù)據(jù)預(yù)測
DOIDOI:10.11907/rjdk.161457
中圖分類號:TP309
文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2016)008-0168-03
0 引言
隨著電子商務(wù)、社交網(wǎng)絡(luò)、微博、微信等新興服務(wù)和智慧城市、智慧醫(yī)療、智能家居等物聯(lián)網(wǎng)產(chǎn)業(yè)的迅猛發(fā)展,人們的衣食住行等信息逐漸被數(shù)字化,信息數(shù)據(jù)量呈現(xiàn)裂變式增長。同時,移動互聯(lián)網(wǎng)、移動通信網(wǎng)、傳感網(wǎng)和云計算等傳輸技術(shù)和存儲技術(shù)的發(fā)展,為數(shù)據(jù)發(fā)布和存儲提供了基礎(chǔ)平臺。這一切都促成了大數(shù)據(jù)時代的真正到來。
大數(shù)據(jù)中的數(shù)據(jù)大部分來源于人和傳感設(shè)備等,如網(wǎng)絡(luò)注冊信息、網(wǎng)絡(luò)購物信息、門診醫(yī)療信息、傳感器監(jiān)測信息等,這些數(shù)據(jù)沒有統(tǒng)一格式,基本都是半結(jié)構(gòu)化或非結(jié)構(gòu)化的,但卻蘊(yùn)含著巨大的信息,致使各大企業(yè)都積極收集相關(guān)數(shù)據(jù)。大數(shù)據(jù)的價值除了數(shù)據(jù)的基本用途外,更多的是對數(shù)據(jù)的二次利用,為滿足這種需要,新型數(shù)據(jù)處理技術(shù)如數(shù)據(jù)挖掘逐漸發(fā)展起來,通過對大量數(shù)據(jù)進(jìn)行統(tǒng)計分析和推理,從中挖掘出潛在的有用信息,幫助企業(yè)作出正確的決策、減少風(fēng)險。但是,對數(shù)據(jù)分析結(jié)果的應(yīng)用存在著多面性:如果應(yīng)用合理,則會更加滿足用戶需求,促進(jìn)企業(yè)發(fā)展;如果應(yīng)用不合理,則可能在用戶不知不覺中暴露其隱私,并給用戶的生活帶來困擾。因此,隨著數(shù)據(jù)量的不斷增加和數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,個人隱私保護(hù)問題如果不能很好解決則會造成對個人和社會的不良影響。目前,大數(shù)據(jù)環(huán)境下的個人隱私保護(hù)還沒有成熟的技術(shù)、完整的法律和合理的社會機(jī)制,所以應(yīng)積極研究各種有效措施以保證大數(shù)據(jù)隱私安全,這也是大數(shù)據(jù)技術(shù)的主要挑戰(zhàn)之一。
1 大數(shù)據(jù)發(fā)展與隱私保護(hù)
2008年,“Big Data”一詞出現(xiàn),Nature雜志在當(dāng)年推出了相關(guān)學(xué)術(shù)??痆1],并得到有關(guān)計算機(jī)科學(xué)家的認(rèn)可,由此開啟了大數(shù)據(jù)時代。2011年,Science雜志也推出了大數(shù)據(jù)??痆2]。隨著數(shù)據(jù)挖掘與分析技術(shù)的發(fā)展,大數(shù)據(jù)的價值得到了更加充分利用,為世界經(jīng)濟(jì)帶來了更多財富。大數(shù)據(jù)發(fā)展高度依賴對數(shù)據(jù)和信息挖掘,數(shù)據(jù)挖掘和二次利用很可能會使用戶信息在不知情的情況下泄露出去,如何在享用大數(shù)據(jù)帶來便利的同時不泄露用戶信息,這是大數(shù)據(jù)發(fā)展與隱私保護(hù)面臨的新問題[3]。文獻(xiàn)[4]指出,在美國由于個人對隱私信息的保護(hù)意識較強(qiáng),迅速發(fā)展的大數(shù)據(jù)應(yīng)用經(jīng)常會與個人隱私保護(hù)產(chǎn)生沖突。
隱私是每個公民的一項基本權(quán)利,從此角度探究,保護(hù)隱私的關(guān)鍵問題是擁有和控制自己有關(guān)信息的權(quán)利[5]。但是在大數(shù)據(jù)環(huán)境下,已經(jīng)不同于傳統(tǒng)的隱私保護(hù),大數(shù)據(jù)隱私保護(hù)面臨很多新的挑戰(zhàn)[6]。一是數(shù)據(jù)挖掘,將會在數(shù)據(jù)二次利用時涉及個人隱私,這不僅僅是對傳統(tǒng)問題的放大,而且是一種顛覆;二是數(shù)據(jù)預(yù)測,將會影響現(xiàn)實生活,預(yù)測的好與壞將會對個人名譽(yù)和信譽(yù)產(chǎn)生直接影響;三是數(shù)據(jù)監(jiān)測,如信用卡使用記錄、門診看病記錄、日常行程定位信息等,對于這些信息下,不論個人是否意識到,其生活習(xí)慣都會被窺探到,個人隱私都將會受到侵犯。
此外,大數(shù)據(jù)的隱私保護(hù)還有其它一些主要的熱點研究問題[7]:侵犯個人隱私的行為難以認(rèn)定;個人隱私保護(hù)的范圍難以確定;信息和通信技術(shù)的快速普及使得管理用戶隱私信息越來越困難;大數(shù)據(jù)個人隱私保護(hù)面臨著很多技術(shù)挑戰(zhàn);普通研究者很難獲得大數(shù)據(jù)研究所需要的海量原始數(shù)據(jù);構(gòu)建多維的靈活的個人隱私保護(hù)政策和大數(shù)據(jù)生態(tài)環(huán)境面臨著極大的挑戰(zhàn)等。
2 大數(shù)據(jù)隱私保護(hù)機(jī)制
為了在大數(shù)據(jù)發(fā)展和隱私保護(hù)之間尋找到合理的解決之道,學(xué)者從技術(shù)層面、法律層面、社會和行業(yè)規(guī)范層面等方面對大數(shù)據(jù)的隱私保護(hù)問題進(jìn)行了探索。
2.1 大數(shù)據(jù)隱私保護(hù)的技術(shù)機(jī)制
大數(shù)據(jù)的生命周期通常包括數(shù)據(jù)的發(fā)布、存儲、挖掘和使用,數(shù)據(jù)在各不同階段會涉及不同的人群,用戶的個人隱私信息都可能遭到泄露,需要在各個階段都進(jìn)行隱私保護(hù)。通常在具體實際操作中,對數(shù)據(jù)實施的是多級安全保護(hù)措施,即從數(shù)據(jù)層、應(yīng)用層和數(shù)據(jù)展示層對數(shù)據(jù)進(jìn)行保護(hù)[7]。
2.1.1 數(shù)據(jù)層個人隱私保護(hù)
數(shù)據(jù)層個人隱私保護(hù)主要包括數(shù)據(jù)加密的個人隱私保護(hù)、數(shù)據(jù)庫的個人隱私保護(hù)和云存儲環(huán)境下的個人隱私保護(hù)。具體如下:
(1) 數(shù)據(jù)加密方面,保護(hù)隱私的一項基本技術(shù)就是對數(shù)據(jù)進(jìn)行加密,當(dāng)前已經(jīng)有很多經(jīng)典的加密算法,在大數(shù)據(jù)時代,對數(shù)據(jù)加密的研究重點將集中在改進(jìn)和完善已有加密算法、綜合使用多種加密算法、以及結(jié)合大數(shù)據(jù)特點改進(jìn)和創(chuàng)造一些新的算法,加密算法在很多資料中都有詳細(xì)介紹,在此不再贅述。
(2) 數(shù)據(jù)庫方面,雖然MapReduce技術(shù)發(fā)展非??觳V泛用于數(shù)據(jù)分析,與數(shù)據(jù)庫形成了競爭,但它不能取代數(shù)據(jù)庫,大數(shù)據(jù)時代仍然是以數(shù)據(jù)庫作為信息系統(tǒng)的主體,數(shù)據(jù)庫與MapReduce技術(shù)只能相互集成形成新的數(shù)據(jù)處理系統(tǒng)[8]。此外,數(shù)據(jù)庫中的數(shù)據(jù)還面臨著非法入侵、非法訪問以及非法修改等威脅,因此保護(hù)數(shù)據(jù)庫中的數(shù)據(jù)通常采用數(shù)據(jù)加密和訪問控制的雙重機(jī)制[9]。
(3) 云計算為大數(shù)據(jù)提供了基礎(chǔ)存儲平臺,但是使用云服務(wù)的企業(yè)和個人也因此失去了對數(shù)據(jù)的完全控制。在云服務(wù)器中,由于云提供商不能提供完整的檢測與審計技術(shù),不能檢測到所有的非法入侵和檢測操作,因此內(nèi)部人員和外部入侵者都可能會對數(shù)據(jù)造成威脅,個人隱私存在泄露的風(fēng)險[10]。當(dāng)前,很多學(xué)者對云計算的隱私問題進(jìn)行了深入研究。文獻(xiàn)[11]中,研究人員從數(shù)據(jù)產(chǎn)生、數(shù)據(jù)傳送、數(shù)據(jù)使用、數(shù)據(jù)銷毀等生命周期角度對隱私保護(hù)問題進(jìn)行了分析。文獻(xiàn)[12]中,針對根據(jù)個人需求推斷用戶隱私信息問題,提出了一種隱私保護(hù)策略,即噪聲產(chǎn)生策略,該策略根據(jù)用戶的歷史需求產(chǎn)生噪聲需求,使噪聲需求與真實需求的發(fā)生概率達(dá)到相同,這樣混淆提供商對真實需求的辨別,實現(xiàn)隱私保護(hù)。因此,在云計算這樣的基礎(chǔ)存儲平臺中,應(yīng)該加密處理關(guān)鍵信息和敏感信息,制定細(xì)粒度的訪問控制策略,并在云計算的各個階段實施保護(hù)技術(shù)保障個人隱私安全[13]。
2.1.2 應(yīng)用層個人隱私和保護(hù)
在應(yīng)用層中,針對大數(shù)據(jù)的具體應(yīng)用場景,研究相關(guān)的隱私保護(hù)技術(shù)將更加符合行業(yè)和應(yīng)用的實際需求。在大數(shù)據(jù)時代,在線社交網(wǎng)絡(luò)、移動定位和射頻識別是當(dāng)前比較流行的應(yīng)用。具體如下:
(1) 在線社交網(wǎng)絡(luò)中,當(dāng)用戶在網(wǎng)絡(luò)中的交往越活躍,參與的活動越多,個人隱私信息也就會暴露的越多。在這種虛擬現(xiàn)實網(wǎng)絡(luò)中,研究人員也提出了很多隱私保護(hù)方法,包括集中式的在線社交網(wǎng)絡(luò)模型方案[14-15]和分散式的社交網(wǎng)絡(luò)設(shè)計方案[16-17],集中社交模型信任在線社交網(wǎng)絡(luò)提供商,允許提供商對用戶數(shù)據(jù)進(jìn)行相關(guān)分析;而分散社交模型不信任單個實體,對數(shù)據(jù)也不集中管理,數(shù)據(jù)由用戶個人或用戶信任的委托人存儲。
(2) 針對如何提供定位服務(wù)的同時又保護(hù)好移動用戶的隱私問題,有兩種常用的度量標(biāo)準(zhǔn),即匿名和干擾技術(shù),如有學(xué)者提出采用位置匿名和隱私粒度作為隱私測量標(biāo)準(zhǔn)[18]。
(3) 射頻識別(Radio Frequency Identification,RFID)技術(shù)中,當(dāng)RFID標(biāo)簽序號與個人信息關(guān)聯(lián)時,可能存在隱私泄露的情況。為保護(hù)個人隱私,也已經(jīng)提出了很多關(guān)于RFID的隱私增強(qiáng)技術(shù),如購物后去掉RFID標(biāo)簽、重命名標(biāo)簽等。
在數(shù)據(jù)展示層,提高發(fā)布數(shù)據(jù)效用的同時并保證個人信息不被泄露是數(shù)據(jù)發(fā)布當(dāng)前面臨的主要挑戰(zhàn),它也是個人隱私保護(hù)的熱點,文獻(xiàn)[19]、[20]中提出了匿名化方法,文獻(xiàn)[21]、[22]提出了PPDM的數(shù)據(jù)發(fā)布方法,文獻(xiàn)[23]提出了差分隱私保護(hù)以及數(shù)據(jù)訪問控制的個人隱私保護(hù)。
2.2 大數(shù)據(jù)隱私保護(hù)的法律機(jī)制
1974年,美國通過了《隱私法案》及相關(guān)法規(guī),是世界上最早提出隱私權(quán)和最早對隱私賦予法律保護(hù)的國家。2012年2月,奧巴馬政府推動了與大數(shù)據(jù)密切相關(guān)法案的立法,即《消費者隱私權(quán)利法案》[24],明確規(guī)定了第三方在使用數(shù)據(jù)時必須對用戶透明和并保證個人信息安全,規(guī)定數(shù)據(jù)的所有權(quán)完全屬于用戶,該法案的實施將對全球的大數(shù)據(jù)隱私保護(hù)產(chǎn)生極大影響。在歐洲,歐盟和美國商業(yè)部早在2000年就簽訂了一份有關(guān)數(shù)據(jù)收集和使用的協(xié)議,即“安全港”協(xié)議[25],該協(xié)議也明確規(guī)定了企業(yè)在收集個人數(shù)據(jù)時必須及時通知用戶本人,并要告知用戶數(shù)據(jù)的用途,只有在征得用戶同意后才能轉(zhuǎn)給第三方。歐美已經(jīng)在法律層對數(shù)據(jù)進(jìn)行了保護(hù),這也有利于大數(shù)據(jù)時代個人隱私的保護(hù)。
我國有關(guān)法律對個人數(shù)據(jù)不能非法收集和利用有所規(guī)定,但是在隱私權(quán)方面的保護(hù)范圍還比較模糊,并沒有把隱私權(quán)當(dāng)作特有的人格權(quán)進(jìn)行保護(hù),相比歐美對數(shù)據(jù)和隱私在法律層面的保護(hù)還有很大差距。在大數(shù)據(jù)時代,為保障公民權(quán)利和利益,我國在法律層面對個人數(shù)據(jù)的收集和使用進(jìn)行立法保護(hù)也不容忽視。
2.3 大數(shù)據(jù)隱私保護(hù)的社會和行業(yè)機(jī)制
相比法律上的強(qiáng)制約束,社會自身對數(shù)據(jù)的使用也可以具有監(jiān)管作用,有時還更加具有約束力。例如,在美國有一些第三方認(rèn)證機(jī)構(gòu)負(fù)責(zé)對某個行業(yè)內(nèi)在用戶隱私保護(hù)方面合格的公司提供認(rèn)證,而拒絕對用戶隱私保護(hù)不合格的公司,這樣的現(xiàn)象在美國零售商業(yè)平臺和電商平臺上經(jīng)常出現(xiàn)。像這樣的第三方認(rèn)證,并不是法律強(qiáng)制要求去做,但是社會和行業(yè)出于自身對隱私保護(hù)的認(rèn)知,促使了相關(guān)企業(yè)必須在隱私保護(hù)方面進(jìn)行自我約束,這不僅保護(hù)了個人的應(yīng)有權(quán)利,也有利于企業(yè)的長遠(yuǎn)發(fā)展。在社會認(rèn)知上,我國公民在隱私保護(hù)方面的意識薄弱得多,隱私保護(hù)方面的社會意識需要增強(qiáng),監(jiān)管力度還需要加大,因此探索合理的社會和行業(yè)保護(hù)機(jī)制也刻不容緩。
3 結(jié)語
大數(shù)據(jù)環(huán)境下的個人隱私保護(hù)是一個全新的問題,需要綜合技術(shù)層面、法律層面和行業(yè)規(guī)范層面進(jìn)行跨學(xué)科研究才能得到完整的解決之道,但是當(dāng)前國內(nèi)較關(guān)注技術(shù)層面而疏忽了法律和行業(yè)規(guī)范層面。在大數(shù)據(jù)發(fā)展中,需要權(quán)衡發(fā)展和隱私保護(hù)問題,對數(shù)據(jù)的使用進(jìn)行有效監(jiān)管和控制,特別是在有些情況下有必要從法律層面進(jìn)行約束,如數(shù)據(jù)使用方對個人信息的使用需遵得個人允許等。
綜上所述,今后需根據(jù)具體的大數(shù)據(jù)應(yīng)用探索對應(yīng)的隱私保護(hù)技術(shù),如位置大數(shù)據(jù)隱私保護(hù)的新技術(shù),因為基于移動通信和傳感設(shè)備等位置感知技術(shù)的應(yīng)用廣泛,商業(yè)價值也大;其次,在法律保護(hù)機(jī)制方面,可以借鑒歐美地區(qū)的大數(shù)據(jù)法律保護(hù)機(jī)制,研究符合我國國情和大數(shù)據(jù)發(fā)展需要的大數(shù)據(jù)法律保護(hù)機(jī)制;再次,對于社會和行業(yè)保護(hù)機(jī)制,由于我國國民的隱私保護(hù)意識目前還相對偏低,因此可以研究合理的第三方監(jiān)督策略,以監(jiān)督相關(guān)企業(yè)和行業(yè)在自覺保護(hù)公民隱私的前提下使用大數(shù)據(jù),保障公民的合理權(quán)益。
參考文獻(xiàn):
[1]NATURE.Big data[EB/OL].http://www.nature.com/news/specials/bigdata/index.html.
[2]SCIENCE.Dealing with data[EB/OL].http://www.sciencemag.org/site/special/.
[3]李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012,27(6):647-657.
[4]TENE O,POLONETSKY J.Privacy in the age of big data:a time for big decisions[J].Stan LRev,2012(15),64:63.
[5]理查德 A 斯皮內(nèi)洛.世紀(jì)道德:信息技術(shù)的倫理方面[M].北京:中央編譯出版社,1999.
[6]薛孚,陳紅兵.大數(shù)據(jù)隱私倫理問題探究[J].自然辯證法研究,2015,31(2),44-48.
[7]劉雅輝,張鐵贏,靳小龍,等.大數(shù)據(jù)時代的個人隱私保護(hù)[J].計算機(jī)研究與發(fā)展,2015,52(1) 229- 247.
[8]覃雄派,王會舉,杜小勇,等.大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生[J].軟件學(xué)報,2012,23(1):32-45.
[9]BERTINO E,SANDHU R.Database security-concepts,approaches,and challenges[J].IEEE Trans on Dependables and Secure Computing,2005,2(1):2-19.
[10]JANSEN W,GRANCE T.Guidelines on security and privacy in public cloud computing[EB/OL].http:// csrc.nist.gov/publications/nistpubs/800-144/SP800-144.pdf.
[11]CHEN D,ZHAO H.Data security and privacy protection issues in cloud computing[C].Computer Science and Electronics Engineering(ICCSEE),Piscataway,2012:647-651.
[12]ZHANG G,YANG Y,CHEN J.A historical probability based noise generation strategy for privacy protection in cloud computing[J].Journal of Computer and System Sciences,2012,78(5):1374-1381.
[13]PEARSON S.Taking account of privacy when designing cloud computing services[C].Proc of the 31st ICSE Workshop on Software Engineering Challenges of Cloud Computing.Piscataway,2009:44-52.
[14]SINGH K,BHOLA S,LEE W.xBook:redesigning privacy control in social networking platforms[C].Proc.of the USENIX Sevurity Symp 2009.Berkeley,CA:USENIX Association,2009:249-266.
[15]DE CRISTOFARO E,SORIENTE C,TSUDIK G,et al.Hummingbird:privacy at the time of twitter[C].Proc of the 33rd IEEE Symp on Security and Privacy(SP) 2012.Piscataway NJ:IEEE,2012:285-299.
[16]CUTILLO L A,MOLVA R,STRUFE T.Safebook:a privacy-preserving online social network leveraging on real-life trust[J].IEEE Communications Magazine,2009,47(12):94-101.
[17]AIELLO L M,RUFFO G.LotusNet:tunable privacy for distributed online social network services[J].Computer Communications,2012,35(1):75-88.
[18]PAN X,XU J,MENG X.Protecting location privacy against location-dependent attacks in mobile services[J].IEEE Trans on Knowledge and Data Engineering(TKDE),2012,24(8):1506-1519.
[19]徐勇,秦小麟,楊一濤,等.一種考慮屬性權(quán)重的隱私數(shù)據(jù)發(fā)布方法[J].計算機(jī)研究與發(fā)展,2012,49(5):913-924.
[20]CICEK A E,NERGIZ M E,SAYGIN Y.Ensuring location diversity in privacy-preserving spatio-temporal data publishing[J].The VLDB Journal,2013,11(1):1-17.
[21]AGRAWAL R,SRIKANT R.Privacy-preserving data mining[J].ACM Sigmod Recor,2000,29(2):439-450.
[22]ILAVARASI A,POORANI S.A Survey on privacy preserving data mining techniques[J].Int Journal of Computer Science and Business Informatics,2013,7(1):1-12.
[23]DWORK C.Differential privacy,automata,languages and programming[M].Berlin:Springer,2006:1-12.
[24]OBAMA B.Consumer data privacy in a networked world:a framework for protecting privacy and promoting innovation in the global digital economy[J].Priv Confidential,2012(4):95-142.
[25]THE U S.BBB EU safe harbor dispute resolution program[EB/OL].http://export.gov/safeharbor/eu/eg_main_018475.asp.
(責(zé)任編輯:陳福時)