免費獲取信息、貨比三家地購物,還有各種形式的通信和娛樂服務,互聯網的好處實在太多,絕對不容錯過,而且這些服務幾乎都是免費的。不過,為什么免費的服務能夠讓Google這樣的互聯網公司最終盈利數十億呢?這是因為它們獲取了我們的數據,這些數據經過處理和分析之后,最終將產生利潤,例如有針對性的商業(yè)廣告。其次,所有的數據還可能被作為情報來收集,例如一個眾所周知的秘密計劃:棱鏡。
網站運營商收集數據的方法最為簡單,訪問網站的用戶,產生的每次點擊、每次文本輸入,瀏覽器都會將大量相關的數據(元數據)提交到網站上。其次,在Google+、亞馬遜和Facebook之類的大型社交網站上,供應商可以通過用戶填寫的個人信息以及使用過程中泄漏的更多信息,結合元數據創(chuàng)建一個更全面的用戶配置文件。此外,數據分銷商還將收集離線數據,例如姓名、住址,并出售這些數據給商業(yè)廣告公司之類的機構。軟件提供商也同樣會收集我們的數據,除了收集其他相關軟件的信息外,還可能收集我們使用軟件的時長信息以及定位數據之類的內容。
對于用戶來說,要弄清楚是誰收集了數據、收集了什么樣數據以及這些數據如何被利用是非常困難的。IT巨頭通常都將自己塑造成用戶的朋友,但是當我們對它們如何收集和利用數據心存疑慮時,它們通常都會說數據只會用于為用戶提供更好的服務,并信誓旦旦地表示它們將嚴格遵守隱私政策。但實際上隱私政策是企業(yè)自己制定的,并且除了專業(yè)的律師以外,這些政策中的法規(guī)部分普通用戶基本無法理解,涉及到重要問題的部分,巨頭們通常也都是含糊其詞。如果IT巨頭最終不得不承認自己將用戶的數據提供給了第三方,那么經典的說辭會是:“我們只向我們的附屬機構和其他值得信賴的公司與個人提供用戶的個人資料……”。不過,這樣的慷慨陳詞一點意義都沒有,究竟提供給什么公司和個人?這樣的說辭和“我們想給誰就給誰”,實際上并沒有什么不同。
事實上,Google、Facebook等許多IT巨頭對于用戶個人隱私的處理方法已經被許多國家、地區(qū)判定為違法,但是通常IT巨頭最多也只會針對這一國家或者地區(qū)的用戶修改相關的法律條文,其他國家和地區(qū)的用戶仍然無法得到保護。目前,圍繞數據收集與利用的法律糾紛不斷,但是仍然沒有一個有效的方法對相關的企業(yè)進行約束。因而,對于用戶來說,更有必要學習相關的知識,并學會如何保護自己。
先收集再分析
對于一個沒有邊界的互聯網來說,通過法律約束難度極大。信息的全球流動,每天數百萬GB的數據通過粗粗的光纖和電纜流入巨大的數據中心,要了解這些數據,就必須先收集,之后再進行分析。大型互聯網公司在多年前就已經開始了這一工作,Google公司分析搜索請求,在用戶輸入搜索關鍵字的過程中給出最可能符合用戶需要的關鍵字建議。亞馬遜則分析我們一直以來的購物行為,因而,總是能夠給出精確的采購建議。而警察通過數據的分析致力于預測罪犯的行為,這種技術已經在洛杉磯、西雅圖和其他幾個城市使用了很長的一段時間。至于情報部門和反恐單位,則更是依賴大量的數據分析,以求能夠盡早發(fā)現潛在的恐怖分子。
然而,如果需要做出預測,不僅需要個人的數據,還必須結合用戶的配置文件。為了識別用戶,通常需要較長的一段時間匯總數據和創(chuàng)建用戶配置文件。通過網站保存在用戶電腦上的Cookie,可以跟蹤用戶并收集用戶點擊哪個鏈接之類的數據,結合瀏覽器訪問網站時提供的軟件版本、插件等相關的元數據,創(chuàng)建用戶的配置文件,這就好像是在產生一個用戶獨有的指紋。
在離線世界中使用的數據收集方法技術含量較低,但這并不會影響其效果。除了一些政府機構公開地販賣所掌握的資料外,數據經銷商也收集數據并將它們賣給保險經紀人、房地產中介。這些批量銷售的數據集,除了包含吸引購買者關注的特定“線索”外,通常還會包含用戶的姓名、地址、電子郵件信息或者電話號碼。另外還會包含一些其他的細節(jié),例如大概的收入,是否是動物愛好者等。在美國,這種數據批發(fā)生意正在蓬勃發(fā)展,而在其他隱私保護法律相當薄弱的國家自然就更不在話下了。以美國為例,美國LeadsPlease公司銷售的郵件地址價格最為低廉,1 000個地址僅售85美元,并且購買超過50 000個地址的可以獲得超過40%的折扣。
在線和離線數據
對于用戶來說,在線和離線個人數據的結合是一件非常令人擔心的事情,不過,對于利用數據的人來說,這自然是一件非常令人興奮的事情。結合在線和離線數據的公司,最有名的是美國的Acxiom。根據該公司自己的聲明,Acxiom公司擁有全世界5億多人、每人約1 500個數據項的龐大數據池。該公司使用超過75 000個網站收集在線數據,并結合運作數十年之久的離線數據庫,建成了一個令人難以置信的巨大數據池。
Acxiom公司在德國的歷史,可以追溯到1962年,首先建立起的是醫(yī)療公司和出版社的地址池,電話營銷的運作始于1982年,2005年開始電子郵件營銷。盡管在德國禁止將在線和離線數據建立關聯,但是該公司仍然掌握著許多德國用戶的資料。根據Acxiom公司德國總經理卡斯滕的介紹,該公司掌握4 000多萬個德國用戶的個人資料,其中包括姓名、郵政地址及大概的收入等信息,其中部分數據來自聯邦統(tǒng)計局、國家統(tǒng)計局辦公室直接公布的數據。不過,Acxiom公司強調,這一部分的數字并不指向個人,而是5戶、1 000戶,甚至是整個地區(qū)的統(tǒng)計數字,這意味著Acxiom公司可以向其客戶提供統(tǒng)計概率,告訴他們,在目標地區(qū)他們應該銷售什么產品。
情報機構的數據收集
美國國家安全局和其他情報機構也試圖將網上收集的數據和離線數據合并,并將數據與具體的人聯系起來。2013年6月初以來,前國家安全局分析師愛德華·斯諾登披露的數據顯示,美國當局以反恐戰(zhàn)爭為借口進行了大范圍的深度數據收集,電話和互聯網服務供應商都是數據收集的目標。在當局認為涉及刑事起訴的情況下,電話和互聯網供應商必須提供相關的數據,并允許調查人員監(jiān)控個人通信。而且,情報機構不僅收集犯罪嫌疑人的數據,還通過網絡接口進行深層的數據包檢測,例如對數據進行過濾,去除流媒體數據和文件共享服務的數據,捕獲電子郵件。據介紹,德國聯邦情報局同樣使用類似的方法過濾并檢索特定的內容,例如檢索用于制造炸彈的材料。不過,根據德國的相關法律,聯邦情報局必須向德國聯邦議會G10委員會提出關鍵詞申請,在聯邦議會監(jiān)控委員會委員認可的情況下,才可以執(zhí)行為期3個月的數據過濾分析。但是僅在2011年,聯邦情報局已經對約300萬人的電子郵件和電話交談進行了分析。
供應商并不是數據的唯一來源。事實上,情報機構直接在網絡節(jié)點和水下電纜連接點上截取數據,世界上最大的節(jié)點DE-CIX在法蘭克福,其運營商斷言外部無法訪問該設施,但是世界各地還有約340個類似的節(jié)點,其中80個位于北美,是否外部也是無法訪問,就不得而知了。據英國“衛(wèi)報”報道,英國的監(jiān)控程序“TEMPORA”有能力直接訪問大西洋的光纖電纜,這是歐洲和美國之間的互聯網數據大動脈。據報道,“TEMPORA”可以監(jiān)控200多條光纖,同一時間能夠并行捕獲高達46條光纖的數據,捕獲的數據存儲時間長達30天。由于情報機構截取數據的海底電纜是各國互聯網提供商的轉接點,因而,這將會影響到全世界的互聯網用戶。
互聯網服務供應商本身是第三個數據源,據愛德華·斯諾登所說,美國棱鏡電子監(jiān)聽計劃的程序能夠直接訪問Google、Facebook、微軟、蘋果、雅虎、Dropbox、AOL、Paltalk等網絡服務提供商的服務器。2013年7月中旬,斯諾登詳細介紹了棱鏡電子監(jiān)聽計劃的具體操作情況。據他介紹,盡管微軟公司此前曾否認這一說法,但微軟確實給國家安全局提供了直接訪問的接口,國家安全局除了可以對數據進行深度挖掘之外,甚至還可以訪問加密的數據。而對于微軟下屬的VoIP服務商Skype,國家安全局可以通過其服務產品錄制音頻和視頻,美國國家安全局有一個接口可以采集數據。然而,微軟和美國國家安全局則說,這種數據訪問方式,只發(fā)生在法院批準的情況下。
通過不同來源收集的大量數據如何處理,情報部門面臨著和Google相同的問題。這些非結構化數據中包含大量的信息,并且以不同的格式存儲,處理和分析這些數據是相當復雜的事情。在幾年前,這些數據的處理有時會需要花費幾個星期。不過,使用現有的“大數據”挖掘處理工具,這種數據的處理和分析可以實時地進行。
過濾大數據的算法
在過濾、分析數據的過程中,首先需要將非結構化的語音輸入、連接數據、文本和其他各種類型的信息進行處理,生成結構化的數據庫。這樣才可以通過簡單的查詢,例如誰和誰溝通?他們說什么?表達什么樣的心情?獲得可視化的搜索結果,這類似于Facebook新的搜索工具,我們可以輸入一些像“3月在慕尼黑出生的朋友”的語句來進行查詢,對Facebook的數據進行搜索和排序。
大數據處理最常用的工具是Hadoop,這是一個支持數據密集型分布式應用的軟件框架,在此框架的支持下可以對分布式計算網絡中PB級的數據進行分析,這個分析過程基于Google開發(fā)的MapReduce算法,Hadoop會將數據劃分為塊,其中每個都包含大約64MB的數據,然后將這些塊單獨排序。這種經過劃分的數據對于接下來的步驟非常有幫助。數據集中的數據將被分發(fā)給分布式計算網絡上的節(jié)點,每個節(jié)點會周期性地把完成的工作和狀態(tài)的更新報告到中央收集點。在Hadoop的框架下,這個過程只需幾分之一秒。
分析處理過程的第二個步驟將創(chuàng)建預測模型,根據目的的不同,該過程的具體方法有一定差異,通常是檢測異常數據,并根據數據的特點或者關聯,對數據流進行聚類分析,目標是將對象根據某些共同的或者相似之處劃分成組(群),例如根據人們的電話或者電子郵件,獲得一個可視化的社交網絡。情報部門通過這種方法識別不同的人之間存在的關系,他們的方法跨越國界并且經過多年的時間積累。而我們則可以通過在線工具Immersion(immersion.media.mit.edu),檢索自己的Google電子郵箱,以類似的方法標識自己的家人、朋友和同事。
根據國家安全局主任助理約翰·英格利斯的說法,監(jiān)測范圍大約是2個或3個層級的聯系人。如果每個人的社交圈人數是100人,那么這個人的第三個層級的聯系人就多達百萬人(100×100×100),這意味著,在監(jiān)控一個嫌疑人時,情報部門的分析師將收集百萬人的信息,通過這些信息發(fā)現和調查某人。
數據收集的是與非
從數據分析的角度來看,關鍵的問題是能從數據中推斷出什么。有一些積極的應用可以為人們帶來巨大的價值,確實是必須通過數據收集分析實現的。例如信用卡公司通過分析用戶的行為模式,可以更快地發(fā)現用戶的信用卡被盜等問題。Google通過分析搜索查詢的數據,甚至可以預測流感疫情。研究人員分析人類基因組,同樣也需要收集大量的數據并加以分析。
然而,即使是積極的應用也可能會有危險,例如Google可能會顯示錯誤的搜索建議;亞馬遜可能會推薦我們不感興趣的商品;最壞的情況下,問題可能會很嚴重,例如情報機構可能由于一個無辜的人在社交網絡的觀點而懷疑他,甚至和穆拉特·庫納茨一樣,在錯誤的行為分析基礎下被關押在關塔那摩灣,這從社會的角度看是絕對不能容忍的。
在兩個極端之間存在一個廣闊的灰色區(qū)域,對于大部分用戶來說,身邊的這些數據具體發(fā)生了什么,基本上是一無所知。而事實上別人將利用這些數據賺錢,例如從廣告業(yè)的角度來看,有關病歷、家庭狀態(tài)和即將建立一個新家的個人資料與信息是非常有價值的。而對于網絡犯罪分子來說,個人數據是非常重要的。從他們的角度來看,最有價值的是個人的完整記錄,即所謂的“Fullz”,這一般包括個人的姓名、銀行卡或者信用卡信息和電話號碼、電子郵件等個人信息。利用這些信息可以偽造信用卡或駕駛執(zhí)照,轉手販賣給其他人也同樣價值不菲。根據戴爾SecureWorks公司的介紹,個人信息的價值可以高達1 000多美元,其中所謂的“Fullz”約值550美元。
然而,當我們清楚自己每一個點擊的數據都將被收集起來、每一個操作及輸入的每一個字符都可能有人在窺探時,我們完全可以有意識地決定給他們留下些什么,例如犧牲一點時間和精力采取一些小措施等。
大數據分析
實時:處理數個PB量級的數據
在線公司和情報機構需要解決一個相同的問題,那就是他們必須使用自己的數據中心實時處理巨大的數據量。通過復雜的算法,例如Google開發(fā)的MapReduce算法,就可以有效地解決這一問題。
數據分析的結果
群集分析方法,可以通過電子郵件提供商的數據可視化用戶的社會關系。
數據銷售
我們的數據為什么那么寶貴
有關疾病的信息,從廣告業(yè)的角度來看,是最有價值的信息點,因為它可以幫助相關的行業(yè)投放有針對性的藥品廣告。
我們如何保護自己
對我們的通信進行加密
使用Gpg4win(gpg4win.de/index.html)加密我們在Outlook、Thunderbird等郵件客戶端處理的郵件。
隱藏我們的IP地址
使用Tor(www.torproject.org)客戶端連接到Tor網絡,我們可以匿名上網沖浪,不留痕跡。
處理好我們的隱私
使用Privacyfix(www.privacyfix.com)檢測并學習如何處理好自己的隱私問題。