自愛德華·斯諾登(Edward Snowden)揭露美國國家安全局(NSA)是如何從技術(shù)公司獲取電話記錄和數(shù)據(jù)以來,喬治·奧威爾(George Orwell)的小說《一九八四》的銷量便一直在上升。迄今為止,為了換取安全保障,即便人們不那么喜歡「老大哥」,也做好了放棄部分隱私權(quán)的準(zhǔn)備。
那么「大數(shù)據(jù)」呢?一些公司正憑借手中規(guī)模迅速增長的個人信息,利用各種新型數(shù)據(jù)分析方法和人工智能,來進(jìn)行產(chǎn)品和服務(wù)決策,以及預(yù)測客戶的需求。谷歌首席執(zhí)行官拉里·佩奇表示,他眼中的理想技術(shù)就像「一名高度智能化的助手,為你做各種事情,免得你自己操心」。
設(shè)想一下,你就好像生活在一座虛擬的「唐頓莊園」中,有一臺計算機(jī)為你規(guī)劃日程,為你推薦最佳出行路線、你可能想看的電影和最理想的航班(甚至幫你預(yù)訂)。這種生活確實讓人向往。我們都時間緊張,希望能輕松地生活。比起被淹沒在海量信息中且被迫要做出選擇,能享受個性化服務(wù)確實不錯。
盡管美國國家安全局監(jiān)聽活動的曝光讓人們大吃一驚(雖然這項活動已進(jìn)行了60年),但我懷疑,多數(shù)人可能沒有意識到,自己每天制造了多少數(shù)據(jù),以及一些大數(shù)據(jù)企業(yè)用以利用這些數(shù)據(jù)的科技已經(jīng)發(fā)展到了怎樣的地步。技術(shù)發(fā)展如此迅速,兩年前還不可想象的事情如今已變得稀松平常。
前谷歌大中華區(qū)總裁李開復(fù)表示:「這是既美好又可怕的前景。擁有海量數(shù)據(jù)的公司會比你自己還了解你。它們將能夠預(yù)測出你接下來可能要做什么?!?/p>
美國國家安全局和那些大數(shù)據(jù)公司將自己的數(shù)據(jù)庫和計算能力用于了不同的用途——前者將其用于識別間諜和恐怖分子,后者將其用于為用戶提供合適的服務(wù)。它們都使用了超大型數(shù)據(jù)庫、模式識別以及網(wǎng)絡(luò)分析等技術(shù)。
這種技術(shù)的前沿領(lǐng)域會演變?yōu)橐环N人工智能,例如:在你拼錯的時候猜測到你實際想搜索的關(guān)鍵詞,即時語音翻譯,或通過瀏覽無數(shù)張圖像學(xué)習(xí)如何識別一張貓的照片。
計算機(jī)以類似人類的方式學(xué)習(xí)的能力被稱為「深度學(xué)習(xí)」。令人矚目的是,谷歌已聘請多位該領(lǐng)域的先驅(qū)人物,包括科學(xué)家兼作家雷·庫茲韋爾(Ray Kurzweil)。美國國家安全局提出愿意移交給美國私營公司的技術(shù)中,有一項是「尖端機(jī)器學(xué)習(xí)技術(shù)」。
如美國國家安全局對來自Verizon(或許還有其他運營商)的通話元數(shù)據(jù)的分析所示,只要零散信息的數(shù)量足夠大,此類軟件便可從中推斷出許多事實。美國總統(tǒng)巴拉克·奧巴馬向美國人保證「沒有人在偷聽你的電話」,但這個保證本身也意外暴露了一些問題。
哈佛大學(xué)教授拉塔尼婭·斯威尼(Latanya )的研究顯示,只要知道一個人的年齡、性別和郵編,并與公開的數(shù)據(jù)庫交叉對比,便可識別出87%的人的身份。社交網(wǎng)絡(luò)和互聯(lián)網(wǎng)公司收集的數(shù)據(jù)呈現(xiàn)出很強的身份特征。
大數(shù)據(jù)公司之所以非常強大,是因為它們能夠?qū)⒖蛻舻膫€人信息與他們的行為特征結(jié)合起來,從他們購買了哪些商品,到他們身在何處(來自從手機(jī)上收集的全球定位衛(wèi)星測量數(shù)據(jù))。這可以生成一系列關(guān)于客戶可能需求的「推測數(shù)據(jù)」(inferred data)。
例如,如果我在印度時用一部安卓手機(jī)搜索「泰姬陵」,谷歌將優(yōu)先顯示位于印度北方邦(Uttar Pradesh)的那座圣地。如果我在東倫敦磚塊街(Brick Lane)進(jìn)行同樣的搜索,谷歌將列出位于那里的孟加拉餐館。當(dāng)我在黃昏時分漫步在異國城市時,谷歌會根據(jù)我對其他餐館的評價為我預(yù)訂一家餐館——這樣的事情還要過多久才能變成現(xiàn)實?
一方面,如果谷歌能幫我預(yù)定,我會很高興(只要它預(yù)定的那家餐館靠譜),因為這將省去我自己來的麻煩。另一方面,正如世界經(jīng)濟(jì)論壇一份關(guān)于個人數(shù)據(jù)的報告所說:「推測數(shù)據(jù)可能像一個無所不知、盯著監(jiān)控攝像頭的‘老大哥’?!?/p>
這引發(fā)的擔(dān)憂之一是,擁有這類軟件的大數(shù)據(jù)公司,將是很難打敗的競爭對手。用戶提供給它們的數(shù)據(jù)越多,它們就越能預(yù)測用戶想要什么。計算機(jī)的「大腦」在使用中會越來越聰明。
另一個問題是信任。社交網(wǎng)絡(luò)在保護(hù)用戶數(shù)據(jù)方面一直不力,用戶行為、習(xí)慣和意圖方面的信息,只有很小一部分免于被這種新一代網(wǎng)絡(luò)服務(wù)公諸于眾。難怪NSA會找上它們——NSA有計算能力,而它們有海量信息。
第三個問題是所有權(quán)。我們每個人對自己的信息擁有權(quán)利,但如果個人信息與其他人的信息混在一起,進(jìn)入了一個關(guān)于用戶意圖的龐大數(shù)據(jù)庫,會發(fā)生什么?如果我改變主意,我如何把我的信息消除?
最重要的是,我們都不知道大數(shù)據(jù)技術(shù)意味著什么,因為大數(shù)據(jù)時代才剛剛開始。它有許多值得我們驚嘆的地方,但要愛上它,尚需時日。