王珺 趙未未
摘 ?要:隨著科技及網(wǎng)絡(luò)的普及,大數(shù)據(jù)發(fā)展趨勢(shì)勢(shì)不可擋。但大數(shù)據(jù)也帶來(lái)了隱私弊病。文章將圍繞大數(shù)據(jù)所引發(fā)的行為分析問(wèn)題進(jìn)行探討。
關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)來(lái)源;大數(shù)據(jù)存儲(chǔ);行為分析
前言
隨著科技與網(wǎng)絡(luò)時(shí)代的到來(lái),新型社交工具以及傳感器的大范圍使用,數(shù)據(jù)呈現(xiàn)急速發(fā)展的趨勢(shì),大數(shù)據(jù)時(shí)代隨之到來(lái)。大數(shù)據(jù)(big data),是指無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。比較具有代表性意義的大數(shù)據(jù)定義為3v定義,即規(guī)模性(volume)、多樣性(variety)、高速性(velocity)。這里就大數(shù)據(jù)來(lái)源、存儲(chǔ)對(duì)于大數(shù)據(jù)所引發(fā)的行為分析存在的問(wèn)題進(jìn)行淺析。
1 大數(shù)據(jù)來(lái)源
隨著互聯(lián)網(wǎng)發(fā)展,各種信息發(fā)布平臺(tái)的不斷推出,數(shù)據(jù)產(chǎn)生方式發(fā)生了巨大轉(zhuǎn)變。由此,數(shù)據(jù)的規(guī)模、類(lèi)型、模式與數(shù)據(jù)的關(guān)系處理方式以及處理工具發(fā)生了變化,完成了數(shù)據(jù)向大數(shù)據(jù)的轉(zhuǎn)變。
數(shù)據(jù)的產(chǎn)生方式經(jīng)歷了運(yùn)營(yíng)式系統(tǒng)階段到用戶原創(chuàng)內(nèi)容階段最終到感知系統(tǒng)階段的演變,即從被動(dòng)到主動(dòng)最終到自動(dòng)的過(guò)程。
被動(dòng)數(shù)據(jù)(運(yùn)營(yíng)系統(tǒng)階段)的產(chǎn)生與運(yùn)營(yíng)活動(dòng)及數(shù)據(jù)庫(kù)的普遍使用密切相關(guān),如超市購(gòu)物的、醫(yī)院就診、學(xué)校教育等在想用數(shù)據(jù)庫(kù)中均會(huì)產(chǎn)生相關(guān)數(shù)據(jù);進(jìn)入web2.0時(shí)代,微博、騰訊qq等新型社交工具的產(chǎn)生以及手機(jī)、平板電腦等新型移動(dòng)設(shè)備的出現(xiàn)不僅增加了數(shù)據(jù)產(chǎn)生客體人數(shù),同時(shí)使得用戶主動(dòng)提交自己的行為,并與自己的社交圈進(jìn)行了實(shí)時(shí)的互動(dòng)。因此,主動(dòng)型數(shù)據(jù)(用戶原創(chuàng)內(nèi)容階段)應(yīng)運(yùn)而生。而技術(shù)的發(fā)展,源源不斷的數(shù)據(jù)產(chǎn)生正式迎來(lái)了自動(dòng)數(shù)據(jù)(感知系統(tǒng)階段)的時(shí)代。眾多機(jī)器所配備的連續(xù)測(cè)量和報(bào)告運(yùn)行裝置,對(duì)公眾場(chǎng)合進(jìn)行全方位監(jiān)控的微小傳感器等都會(huì)自動(dòng)地、時(shí)刻地產(chǎn)生大量的數(shù)據(jù)。這三類(lèi)來(lái)源不同的數(shù)據(jù)共同推進(jìn)了大數(shù)據(jù)的產(chǎn)生。
2 大數(shù)據(jù)存儲(chǔ)
在信息迅速增長(zhǎng)的當(dāng)代,數(shù)據(jù)的形式存在文字、圖像、音頻、視頻等多種形式,計(jì)算機(jī)也不再是單單用來(lái)進(jìn)行科學(xué)計(jì)算的工具。多樣化的數(shù)據(jù)存儲(chǔ)使得數(shù)據(jù)存儲(chǔ)模式越來(lái)越復(fù)雜,應(yīng)運(yùn)而生的數(shù)據(jù)庫(kù)系統(tǒng)產(chǎn)生于20世紀(jì)60年代,以層次和網(wǎng)狀數(shù)據(jù)庫(kù)系統(tǒng)為開(kāi)端,關(guān)系數(shù)據(jù)模型產(chǎn)生帶動(dòng)了關(guān)系數(shù)據(jù)庫(kù)的發(fā)展。然而,隨著web2.0時(shí)代對(duì)網(wǎng)絡(luò)一致性、實(shí)時(shí)性要求降低,而讀寫(xiě)要求極大提高,網(wǎng)絡(luò)關(guān)系數(shù)據(jù)庫(kù)雖使用通用的SQL語(yǔ)言且容易理解、易于維護(hù),卻在互聯(lián)網(wǎng)數(shù)據(jù)膨脹的web2.0時(shí)代就已經(jīng)在數(shù)據(jù)存儲(chǔ)和處理上顯得有些力不從心了。為充分實(shí)現(xiàn)海量數(shù)據(jù)按不同模式存儲(chǔ)、充分挖掘和利用,NoSQL代替關(guān)系型數(shù)據(jù)庫(kù)成為新的數(shù)據(jù)存儲(chǔ)主流方式。
大數(shù)據(jù)的存儲(chǔ)是一種數(shù)據(jù)先于模式的存儲(chǔ)方式,這使得大數(shù)據(jù)的存儲(chǔ)具有極大靈活性和可擴(kuò)展性,例如,谷歌引以為傲的文件系統(tǒng)GFS和colossus,Mongodb數(shù)據(jù)庫(kù)等,都在大數(shù)據(jù)存儲(chǔ)效率方面表現(xiàn)出比較傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)有極大的優(yōu)勢(shì)。但NoSQL中并沒(méi)有嚴(yán)格的隱私保護(hù)機(jī)制,這使得網(wǎng)頁(yè)瀏覽者的瀏覽數(shù)據(jù)和位置數(shù)據(jù)等隱私極容易泄露。首先,在數(shù)據(jù)管理人員進(jìn)行數(shù)據(jù)分析時(shí),NoSQL并不存在關(guān)系數(shù)據(jù)庫(kù)及嚴(yán)格的訪問(wèn)控制機(jī)制,這使得用戶隱私有一定可能性被竊取;其次,數(shù)據(jù)存儲(chǔ)程序又存在種種漏洞,用戶隱私極容易泄漏。
3 大數(shù)據(jù)分析行為導(dǎo)向
在互聯(lián)網(wǎng)發(fā)展步入大數(shù)據(jù)時(shí)代后,利用大數(shù)據(jù)為企業(yè)挖掘商業(yè)價(jià)值成了一種新的趨勢(shì)。通過(guò)瀏覽網(wǎng)頁(yè)過(guò)程中用戶的行為,分析出每個(gè)用戶的即時(shí)需要、潛在需要,來(lái)進(jìn)行精準(zhǔn)營(yíng)銷(xiāo),在節(jié)約資源和成本的前提下提高銷(xiāo)量、完善產(chǎn)品運(yùn)營(yíng),進(jìn)而挖掘潛在的商業(yè)價(jià)值,提升企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)。
用戶畫(huà)像(Persona)就是大數(shù)據(jù)分析行為導(dǎo)向的很好例子。用戶畫(huà)像是將用戶以屬性標(biāo)簽的集合為形式制作的用戶虛擬代表。企業(yè)將頁(yè)面或用戶注冊(cè)中所包含的數(shù)據(jù)利用數(shù)據(jù)分析平臺(tái)進(jìn)行處理,挑選有用的信息進(jìn)行標(biāo)簽化,這使得每一位用戶在網(wǎng)站運(yùn)營(yíng)的商家看來(lái)都好似看得到的實(shí)體。在互聯(lián)網(wǎng)的營(yíng)銷(xiāo)競(jìng)爭(zhēng)中,用戶畫(huà)像為企業(yè)提供了網(wǎng)絡(luò)用戶足夠多的信息基礎(chǔ),這可以幫助企業(yè)快速找到精準(zhǔn)的用戶群和用戶需求,以及更廣泛的反饋信息。例如阿里巴巴的高端APASS用戶畫(huà)像。如今的電子商務(wù)企業(yè)客源模式轉(zhuǎn)變,由最初的吸引新用戶的加入逐漸轉(zhuǎn)變?yōu)榱糇±嫌脩?,在盡量節(jié)約成本的條件下,阿里正需要了解每一個(gè)高端用戶的“本身”,即客戶的社會(huì)屬性、生活習(xí)慣、消費(fèi)行為等,利用這些信息進(jìn)行廣告的精準(zhǔn)投放。
然而,這樣的信息分析行為導(dǎo)向的方式并不是絕對(duì)安全的。首先,用戶在頁(yè)面的輸入有可能會(huì)被不良商家或網(wǎng)絡(luò)黑客所竊取,例如某人在社交網(wǎng)站上填寫(xiě)并保存了一個(gè)表單,這樣的表單便會(huì)被存入網(wǎng)站后臺(tái)的數(shù)據(jù)庫(kù),某一時(shí)刻便會(huì)被別有用意者所竊取和利用;其次,用戶瀏覽的網(wǎng)頁(yè)記錄是許多的“用戶標(biāo)簽”,它們作為可以利用的用戶屬性,既是商家進(jìn)行精確營(yíng)銷(xiāo)的切入點(diǎn),更是用戶私密信息泄露的突破口;此外,瀏覽網(wǎng)站時(shí)產(chǎn)生的地理位置信息為帶有商業(yè)目的的商家利用,也會(huì)成為網(wǎng)絡(luò)不安全因素。
有許多案例佐證,不正當(dāng)目的的大數(shù)據(jù)分析會(huì)泄露隱私,這里以“棱鏡門(mén)”事件為例。2013年6月,斯諾登曝光了美國(guó)NSA自2007年就開(kāi)始實(shí)行的棱鏡計(jì)劃(PRISM),根據(jù)棱鏡計(jì)劃,美國(guó)NSA能夠透過(guò)社交網(wǎng)站、電話公司或搜索引擎網(wǎng)站等窺測(cè)到大量個(gè)人聊天日志、存儲(chǔ)的數(shù)據(jù)、語(yǔ)音通信、文件傳輸、個(gè)人社交網(wǎng)絡(luò)數(shù)據(jù),利用正在快速發(fā)展的超級(jí)計(jì)算機(jī)和幾乎完備的大數(shù)據(jù)分析方法,將看似不關(guān)聯(lián)的數(shù)據(jù)以超級(jí)快的速度加以歸納、計(jì)算與分析。雖然美國(guó)政府將這樣的大數(shù)據(jù)搜集的目的歸為反恐,但個(gè)人數(shù)據(jù)隱私的泄漏也是不可避免的。在日常生活中,每個(gè)人都避免不了用手機(jī)的數(shù)據(jù)連接功能,若利用不具備良好的隱私保護(hù)功能的手機(jī)進(jìn)行數(shù)據(jù)連接上網(wǎng)時(shí),會(huì)產(chǎn)生大量可輕易被獲取的個(gè)人數(shù)據(jù),如地理位置信息、需求偏好或是行為動(dòng)向的信息等。電子科技大學(xué)互聯(lián)網(wǎng)科學(xué)中心主任周濤教授介紹了公開(kāi)的一項(xiàng)最新研究成果:某個(gè)手機(jī)用戶只要曾出現(xiàn)在4個(gè)基站的服務(wù)區(qū),利用大數(shù)據(jù)模型,研究者就能把他從百萬(wàn)用戶中區(qū)分出來(lái),識(shí)別他的身份,準(zhǔn)確率為95%。這樣的研究結(jié)論也證實(shí)了“棱鏡門(mén)”是現(xiàn)實(shí)可行且方便的。
4 結(jié)束語(yǔ)
大數(shù)據(jù)出現(xiàn)即應(yīng)用帶來(lái)了諸多政治、文化及經(jīng)濟(jì)效益。其公開(kāi)性,高效性與個(gè)人隱私問(wèn)題則存在了很大沖突。需采取有效措施,進(jìn)行不同效應(yīng)之間的折中處理,從個(gè)人層面、組織層面以及社會(huì)層面全面推進(jìn)大數(shù)據(jù)隱私問(wèn)題建設(shè)。
參考文獻(xiàn)
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].2012.
[2]關(guān)作森,陳友,李偉基,等.淘寶客戶信息隱私保護(hù)的現(xiàn)狀分析與對(duì)策研究[J].2013.