孫睿 王晨晨
[摘要]大數(shù)據(jù)的浪潮席卷全球,引發(fā)了人類社會生活的變革。大數(shù)據(jù)作為信息資本和數(shù)據(jù)資源,對各行各業(yè)產(chǎn)生了巨大的影響,文章就大數(shù)據(jù)時代的現(xiàn)狀,淺析大數(shù)據(jù)給統(tǒng)計學(xué)、個人隱私、國際關(guān)系等帶來的挑戰(zhàn)。
[關(guān)鍵詞]大數(shù)據(jù);挑戰(zhàn);隱私安全;國際關(guān)系
[DOI] 10.13939/j.cnki.zgsc.2018.26
大數(shù)據(jù)綜述
維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時代》中稱:“大數(shù)據(jù)指不用隨機分析法這樣的捷徑,而采用所有數(shù)據(jù)進行分析處理。”近年來,大數(shù)據(jù)不斷改變著人們的生活,為企業(yè)注入新的機遇。大數(shù)據(jù)的價值不單單局限于表面的運用,更多源于它的二次利用,各大企業(yè)不斷聚類、挖掘和分析,以提取有價值的信息,提高企業(yè)競爭力。因此,數(shù)據(jù)將會是企業(yè)的財富、重要的開發(fā)方向和新型商業(yè)模式的基石。[1]
在帶來機遇的同時,大數(shù)據(jù)給企業(yè)和政府都帶來了巨大的挑戰(zhàn)。網(wǎng)絡(luò)大數(shù)據(jù)在規(guī)模與復(fù)雜度上的快速增長對現(xiàn)有IT架構(gòu)的處理和計算能力提出了挑戰(zhàn),給數(shù)據(jù)的收集、處理、分析帶來了變革,使得統(tǒng)計學(xué)面臨緊迫感。迅速發(fā)展的互聯(lián)網(wǎng),留下了人們大量的數(shù)據(jù)足跡,造成了個人隱私信息的泄露。對個人隱私等的侵犯引發(fā)了大數(shù)據(jù)時代的安全問題,數(shù)據(jù)犯罪也成為亟待解決的問題。
大數(shù)據(jù)時代統(tǒng)計學(xué)上的挑戰(zhàn)
非結(jié)構(gòu)化數(shù)據(jù)的收集存儲與分析
迅速產(chǎn)生的海量數(shù)據(jù),價值密度低且復(fù)雜度高,其中75%以上為半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。過去處理的數(shù)據(jù)對象都是有結(jié)構(gòu)的,使用關(guān)系數(shù)據(jù)庫存儲。但隨著社交網(wǎng)絡(luò)、移動計算和傳感器等技術(shù)的發(fā)展,數(shù)據(jù)生成的方式更加多樣化,非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了大數(shù)據(jù)的絕大部分。非結(jié)構(gòu)化數(shù)據(jù)當中蘊含著豐富的知識,可能是多學(xué)科領(lǐng)域、多源的混合數(shù)據(jù)。但其也給數(shù)據(jù)分析與挖掘工作帶來了更大的挑戰(zhàn)。非結(jié)構(gòu)化數(shù)據(jù)涉及各種數(shù)據(jù)類型,包括文本、XML、 HTML、圖形、音視頻等。非結(jié)構(gòu)化數(shù)據(jù)具有異構(gòu)和可變的性質(zhì),結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,無法用傳統(tǒng)數(shù)據(jù)庫的二維邏輯表來表現(xiàn)。非結(jié)構(gòu)性數(shù)據(jù)中包含更多的無用信息,使得數(shù)據(jù)的存儲分析與挖掘更困難,提取有價值信息的成本上升。
大數(shù)據(jù)帶來的虛假知識
大數(shù)據(jù)是具有多源異構(gòu)性的、覆蓋不同范圍的數(shù)據(jù)。大數(shù)據(jù)的來源豐富多樣,在獲取時存在抽樣偏倚、有意無意的錯誤、偶然或系統(tǒng)的誤差。數(shù)據(jù)收集的標準與分析和決策的準則不同,有些數(shù)據(jù)不是原始數(shù)據(jù),而是基于現(xiàn)有原始數(shù)據(jù)的推斷,這些數(shù)據(jù)的反復(fù)使用會放大偏差,造成數(shù)據(jù)價值降低。海量數(shù)據(jù)本身數(shù)量多而價值密度低,而處理數(shù)據(jù)噪音的技術(shù)尚不成熟,大比例的含偏差數(shù)據(jù)將破壞信息的真實性。如此,正確處理的大數(shù)據(jù)也可能得到錯誤結(jié)論和虛假知識。[2]
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的收集、建模和使用模型往往由不同的人進行,他們可能并不清楚數(shù)據(jù)下一步將如何使用或者從何而來。當這些環(huán)節(jié)中的人依照自身經(jīng)驗有偏頗地解釋模型,而偏離了原始數(shù)據(jù)所涵蓋的信息范圍,數(shù)據(jù)在傳播過程中就失去了它的真實性。在獲取的數(shù)據(jù)時局限于獲取樣本的途徑,也可能存在選擇偏倚,研究樣本并不能代表研究總體。
不同學(xué)科領(lǐng)域有可能存在對同一現(xiàn)象或物質(zhì)的研究,但是他們關(guān)注的角度不同,收集方法不同,造成所得的具有重疊變量的數(shù)據(jù)集合,解釋的領(lǐng)域不同、具有不同背景的意義。數(shù)據(jù)自身攜帶的信息是有界限的,這就使得數(shù)據(jù)分析的結(jié)果是有適用范圍的。根據(jù)模型外延數(shù)據(jù)的信息,做出超出其本身的判斷,其實毫無意義。
大數(shù)據(jù)時代的隱私泄露問題
生活中網(wǎng)絡(luò)和傳感器是產(chǎn)生大數(shù)據(jù)的主要來源,包括瀏覽器cookies記錄的用戶上網(wǎng)瀏覽的足跡、社交平臺上用戶的通信方式和交流記錄、傳感器數(shù)據(jù)等。這些數(shù)據(jù)足跡具有累積性和關(guān)聯(lián)性,將聚集的多重數(shù)據(jù)進行分析,就足以挖掘出個人的隱私信息。如果有意竊取利用這些信息進行欺詐等數(shù)據(jù)犯罪行為,將會給個人的生活帶來損失。
大數(shù)據(jù)時代,人們對便利性的需求越來越高,各類通訊、導(dǎo)航和傳感設(shè)備的位置感知技術(shù)更加深入。這些設(shè)備中的傳感芯片通過不同的方式獲取使用者的位置信息:比如,移動通訊設(shè)備、導(dǎo)航等設(shè)備中內(nèi)置的GPS定位系統(tǒng)可以直接抓取移動對象的活動數(shù)據(jù),甚至通過各種途徑發(fā)布這些軌跡;另外,傳感設(shè)備例如手環(huán)、iWatch這類可穿戴設(shè)備,通過物聯(lián)網(wǎng)記錄的數(shù)據(jù)也隱含了使用者精確的地理位置信息。[3]
近七成的應(yīng)用軟件都會抓取用戶的位置信息,在首次打開軟件時要求用戶授權(quán)允許應(yīng)用軟件從后臺提取當前的地理位置。為了保護自己的位置隱私,可以將權(quán)限改為永不或使用期間,避免發(fā)送含位置信息的圖片到社交網(wǎng)絡(luò)。
2016年4月,土耳其爆發(fā)重大數(shù)據(jù)泄露事件,近五千萬土耳其公民的個人信息遭到竊取,其中包括姓名、身份證號、家庭住址等敏感信息。還有轟動一時的美國“棱鏡”計劃。信息隱私的頻頻泄露,引起人們的信息安全恐慌,暴露了目前數(shù)據(jù)信息的監(jiān)管力度不強,隱私保護缺乏技術(shù)支持,監(jiān)管體系不健全,監(jiān)管制度極不完善甚至缺失等各方面的問題。
大數(shù)據(jù)時代國際關(guān)系的新挑戰(zhàn)
業(yè)界普遍認為隨著大數(shù)據(jù)時代的來臨,第三次世界大戰(zhàn),將是一場基于互聯(lián)網(wǎng)、云計算的數(shù)據(jù)之戰(zhàn)。概括而言,大數(shù)據(jù)在國際關(guān)中扮演著越來越重要角色:大數(shù)據(jù)的價值成為衡量國際競爭力的一個標準;大數(shù)據(jù)是國家行使信息主權(quán)的基礎(chǔ);大數(shù)據(jù)的預(yù)測性功能對于國家安全有重要意義。
大數(shù)據(jù)蘊含著豐富的政治經(jīng)濟文化社會信息,大數(shù)據(jù)作為信息載體,一個國家的科技發(fā)展、社會動向、經(jīng)濟浮動、軍事行動、國家安全與威脅等信息皆可由大數(shù)據(jù)傳遞出來。數(shù)據(jù)主權(quán)將會作為國家主權(quán)的重要組成部分,對各國具有戰(zhàn)略性的意義。[4]
各國必須警惕國際社會中的數(shù)據(jù)霸權(quán)主義。美國在信息科技方面具有靈敏的嗅覺,試圖保持自身在大數(shù)據(jù)領(lǐng)域的優(yōu)勢,掌握大數(shù)據(jù)相關(guān)技術(shù)的主導(dǎo)權(quán)。強大的搜索引擎如谷歌、必應(yīng)皆來自美國,這些搜索引擎幾乎占據(jù)了全球市場。如此,全球范圍的海量數(shù)據(jù),都紛紛流向美國。2013年,前中情局職員愛德華·斯諾頓曝光了美國的“棱鏡”項目。該項目自2007年啟動,美國國家安全局和聯(lián)邦調(diào)查局通過微軟等九大數(shù)據(jù)服務(wù)商監(jiān)聽包含通信記錄、電子郵件等隱私數(shù)據(jù)。監(jiān)聽對象涵蓋美國公民和所有在全球范圍內(nèi)與美國公民進行通訊交流的客戶。該事件曝光后全球一片嘩然,進發(fā)了數(shù)據(jù)安全恐慌。在大數(shù)據(jù)時代,全知就意味著全能,收集、擁有更多的數(shù)據(jù),就會在數(shù)據(jù)戰(zhàn)爭中占據(jù)主動。美國意欲何為,昭然若揭。
總結(jié)
大數(shù)據(jù)時代的來臨,是任何人不可阻擋的潮流。在巨大的經(jīng)濟效益和商業(yè)價值之下,仍隱藏著許多挑戰(zhàn)。由于大數(shù)據(jù)本身的特點,帶給統(tǒng)計學(xué)意義上的技術(shù)挑戰(zhàn),在未來研究人員也將攻堅克難,不斷發(fā)展大數(shù)據(jù)技術(shù)。國際關(guān)系當中,各國需警惕大數(shù)據(jù)可能帶來的數(shù)據(jù)霸權(quán)的威脅,并需要在此問題上達成互利平等的共識,以維系國際關(guān)系中平等、合作的原則。另外,信息隱私的泄露危機是大數(shù)據(jù)應(yīng)運而生的副產(chǎn)品,大數(shù)據(jù)時代給人們帶來了隱私透明的安全威脅。本文總結(jié)了大數(shù)據(jù)時代面臨的嚴峻挑戰(zhàn),大數(shù)據(jù)技術(shù)仍有待完善領(lǐng)域但具備極大的發(fā)展?jié)摿Γ谕麑W(xué)者能以此為參考為大數(shù)據(jù)未來提出有效的應(yīng)對策略。
參考文獻:
[1]劉雅輝,張鐵贏,靳小龍,程學(xué)旗.大數(shù)據(jù)時代的個人隱私保護[J].計算機研究與發(fā)展,2015,52(1):229-247.
[2]耿直.大數(shù)據(jù)時代統(tǒng)計學(xué)面臨的機遇與挑戰(zhàn)[J].統(tǒng)計研究,2014,31(01):5-9.
[3]王璐,孟小峰.位置大數(shù)據(jù)隱私保護研究綜述[J].軟件學(xué)報,2014,25(4):693-712.
[4]蔡翠紅.國際關(guān)系中的大數(shù)據(jù)變革及其挑戰(zhàn)[J].世界經(jīng)濟與政治,2014(5):124-143,159-160.
[作者簡介]孫睿(1997-),女,山東泰安人,山東師范大學(xué)管理科學(xué)與工程學(xué)院,研究方向:大數(shù)據(jù)分析。