方陵生/編譯
信用卡研究:匿名信息也會(huì)泄露
方陵生/編譯
開(kāi)放共享原始數(shù)據(jù)集不是我們的未來(lái)
對(duì)于社會(huì)科學(xué)家來(lái)說(shuō),大數(shù)據(jù)時(shí)代帶來(lái)的是大機(jī)遇:有更多機(jī)會(huì)獲得人口、金融、醫(yī)療等領(lǐng)域內(nèi)的大型數(shù)據(jù)集,對(duì)社會(huì)生活進(jìn)行更詳細(xì)的調(diào)查研究。然而,對(duì)于隱私保護(hù)論者來(lái)說(shuō),這樣的前景十分可怕,令人擔(dān)憂。他們擔(dān)心,個(gè)人信息會(huì)因這些數(shù)據(jù)而被泄露出去?!犊茖W(xué)》雜志近期文章的一項(xiàng)信用卡數(shù)據(jù)研究證實(shí),這些擔(dān)憂不是杞人憂天。研究顯示,只需少量個(gè)人信息,就能夠輕易泄露個(gè)人身份。
之前的一些研究表明,個(gè)人身份很容易被人從匿名數(shù)據(jù)集中窺探獲得,龐大的個(gè)人信息庫(kù)需要新的保障措施,“數(shù)據(jù)管理者應(yīng)該謹(jǐn)慎限制對(duì)數(shù)據(jù)的訪問(wèn)權(quán)限?!逼樟炙诡D大學(xué)的計(jì)算機(jī)科學(xué)家阿爾維德·納拉亞南(Arvind Narayanan)說(shuō)道,但他并沒(méi)有參與這項(xiàng)研究。正如該研究的第一作者、麻省理工學(xué)院(MIT)應(yīng)用數(shù)學(xué)家伊維斯-亞歷山德拉·德蒙約(Yves-Alexandre de Montjoye)所說(shuō)的那樣:涉及敏感的個(gè)人信息,“開(kāi)放共享原始數(shù)據(jù)集不是我們的未來(lái)?!?/p>
德蒙約的研究團(tuán)隊(duì)對(duì)某個(gè)國(guó)家110萬(wàn)人3個(gè)月時(shí)間里在1萬(wàn)個(gè)商店里的信用卡消費(fèi)交易記錄進(jìn)行了分析(德蒙約說(shuō),數(shù)據(jù)來(lái)源“主要銀行”的名字對(duì)研究團(tuán)隊(duì)嚴(yán)格保密,屬于哪個(gè)國(guó)家也未予透露)。銀行名稱、信用卡號(hào)碼、商店地址、甚至交易的確切時(shí)間都被從研究數(shù)據(jù)中剝離,剩下的只有元數(shù)據(jù):消費(fèi)金額、商店類型(例如,是飯店餐館、健身房還是雜貨店),以及用代碼表示的消費(fèi)者個(gè)體。
由于每個(gè)人的消費(fèi)模式都不一樣,數(shù)據(jù)有很高的“單一性”或“唯一性”,這就為德蒙約所稱的“相關(guān)攻擊”(correlation attack)提供了成熟的條件,通過(guò)分析比對(duì),很容易根據(jù)人們的消費(fèi)模式揭示一個(gè)人的身份,你所要做的就是將元數(shù)據(jù)信息與根據(jù)外部來(lái)源信息了解到的某個(gè)個(gè)人的一些信息資料聯(lián)系起來(lái)。
在去年一個(gè)有名的“相關(guān)攻擊”例子中,紐約市出租車和豪華轎車委員會(huì)向外泄露了1.73億人次的乘車記錄信息,這份數(shù)據(jù)集包括客人的乘車時(shí)間、路線,以及車資,乘客的姓名并沒(méi)有包括在內(nèi)。但如果加上有時(shí)間記錄的名人上下出租車的錄像記錄,以及專門刺探名人隱私的網(wǎng)站博客,在破譯了出租車公司泄漏的大量資料之后,很容易就能找到哪些出租車賬單是哪位名人支付的。
根據(jù)出租車數(shù)據(jù)集里的某一頁(yè),德蒙約的團(tuán)隊(duì)模擬出信用卡元數(shù)據(jù)的“相關(guān)攻擊”。他們將對(duì)應(yīng)數(shù)據(jù)中每個(gè)個(gè)人的隨機(jī)觀察數(shù)據(jù)線索收集在電腦里,這些相當(dāng)于印有時(shí)間的錄像信息(這些線索模擬了人們?nèi)粘I钪邪l(fā)生的一些信息,例如通過(guò)定位微博或有定位功能手機(jī)獲得的信息)。計(jì)算機(jī)利用這些線索來(lái)辨別一些匿名信用卡使用者,然后研究人員再將一些不同的外部信息饋入算法,再次嘗試,直到破譯出每個(gè)人的身份。
只要4次對(duì)一個(gè)人的位置進(jìn)行定位,身份識(shí)別率可高達(dá)90%。在知道那些定位點(diǎn)消費(fèi)金額的情況下——相當(dāng)于消費(fèi)小票被人從垃圾箱里揀走——幾乎可破譯每個(gè)人的身份,只要知道一個(gè)人的三條信息,就能跟蹤到這個(gè)人的全部交易史。這一發(fā)現(xiàn)與《科學(xué)》雜志2013年的一項(xiàng)研究結(jié)果相吻合,在那份研究報(bào)告中,德蒙約和他的同事對(duì)一份關(guān)于手機(jī)用戶手機(jī)使用元數(shù)據(jù)的研究表明,只要對(duì)一個(gè)人的位置進(jìn)行4次定位,就足以確定他們的個(gè)人身份。
防止“相關(guān)攻擊”的一種方法是改變某些變量,讓數(shù)據(jù)模糊化,例如,不顯示交易的具體日期和價(jià)格,公開(kāi)的數(shù)據(jù)集只顯示交易發(fā)生的大約日期(如幾周內(nèi))和價(jià)格范圍。但結(jié)果表明,這樣的措施并沒(méi)能阻止德蒙約團(tuán)隊(duì)進(jìn)行的“相關(guān)攻擊”,相反增加了破譯個(gè)人信息所需要的信息量,從單張交易收據(jù)擴(kuò)展到一打收據(jù)。
但這些研究并不意味社會(huì)科學(xué)研究使用大數(shù)據(jù)的終結(jié)?!拔覀冃枰獙?duì)數(shù)據(jù)進(jìn)行計(jì)算利用,而不是相反。”德蒙約說(shuō)。帶有敏感信息的大數(shù)據(jù),可用“看門人軟件”幫助屏蔽掉不必要的信息,他說(shuō)?!翱撮T人”不允許訪問(wèn)個(gè)人記錄,可阻撓相關(guān)攻擊,但仍可允許相關(guān)研究人員訪問(wèn)數(shù)據(jù)中的統(tǒng)計(jì)學(xué)信息。
被稱為“差分隱私(differential privacy)”標(biāo)準(zhǔn)算法的系統(tǒng),是數(shù)據(jù)科學(xué)中最熱門的話題之一?!八钸m用于擁有大量數(shù)據(jù)的數(shù)據(jù)集。”微軟加州山景城研究院的計(jì)算機(jī)科學(xué)家、“差分隱私”技術(shù)的先驅(qū)研究者之一辛西婭·德沃克(Cynthia Dwork)說(shuō)道。她坦承,這明顯背離了學(xué)術(shù)界開(kāi)放數(shù)據(jù)共享的傳統(tǒng)做法,遇到了許多科學(xué)家的抵制。
但是,如果沒(méi)有這樣的保障,大量信息豐富的數(shù)據(jù)庫(kù)仍將成為禁區(qū)。例如,麻省理工學(xué)院開(kāi)放型在線課程的大量數(shù)據(jù)積累,這是一個(gè)信息寶庫(kù),數(shù)百萬(wàn)學(xué)子的整個(gè)學(xué)習(xí)過(guò)程記錄,是教育研究者夢(mèng)寐以求的,哈佛大學(xué)的計(jì)算機(jī)科學(xué)家莎莉爾·瓦德汗(Salil Vadhan)說(shuō)道。但是這些數(shù)據(jù)都被封鎖起來(lái),其部分原因是擔(dān)心潛在的隱私侵犯?!叭绻覀兛梢詾檠芯刻峁?shù)據(jù)而不用擔(dān)心危及隱私,可以帶來(lái)很多的好處。”瓦德汗說(shuō)道。
[資料來(lái)源:Science][責(zé)任編輯:彥隱]