胡巍巍
《紐約時(shí)報(bào)》報(bào)道稱Fawkes 可以避免ClearviewAI 濫用用戶照片做人臉識(shí)別
近日,23 歲的北京小伙單思雄,聯(lián)合幾位同學(xué)開發(fā)出一款 AI 對(duì)抗學(xué)習(xí)系統(tǒng)——Fawkes。這位即將在芝加哥大學(xué)攻讀直博的九五后表示,F(xiàn)awkes 開源一月以來(lái),已在 GitHub 上獲得10多萬(wàn)次下載量、以及 2600 多顆加星認(rèn)可。
目前,單思雄以第一作者身份撰寫的 Fawkes 的研究論文《福克斯:保護(hù)隱私免受未經(jīng)授權(quán)的深度學(xué)習(xí)模型的侵害》已經(jīng)被安全頂會(huì) Usenix Security 2020 錄取。他表示, Fawkes 誕生于此時(shí),有著很大的時(shí)間窗口意義。
2020 年初,一家名為 Clearview AI 的公司,非法抓取 Google、Twitter、Facebook 和 YouTube 上的人臉照片,創(chuàng)建超 30 億張照片的面部識(shí)別數(shù)據(jù)庫(kù),并通過(guò)出售算法牟利。丑聞曝光后,輿論嘩然,該公司也成為眾矢之的。
事實(shí)上,不管在國(guó)內(nèi)還是國(guó)外,你的照片都有可能被扒下來(lái)當(dāng)作“小白鼠”,去訓(xùn)練機(jī)器學(xué)習(xí)模型。為解決上述痛點(diǎn),在芝加哥大學(xué) SAND 實(shí)驗(yàn)室兩位華人導(dǎo)師趙燕斌和鄭海濤的指導(dǎo)下,單思雄和其他三位同學(xué),一起開發(fā)出 Fawkes。該命名也是對(duì)黑客團(tuán)體“匿名者”廣受歡迎的蓋伊 · ??怂姑婢叩闹戮础?/p>
以單思雄的照片為例,F(xiàn)awkes 的價(jià)值在于可以讓用戶修改照片,這種修改并不是美圖軟件的 “換頭式” 修改,而是肉眼看起來(lái)和原圖一模一樣,但人臉識(shí)別系統(tǒng)卻能識(shí)別這種細(xì)微差別。
Fawkes 修改后的英國(guó)女王前后對(duì)比圖
再以英國(guó)女王的照片為例,左圖為原圖,右圖為 Fawkes 修改后的照片,肉眼幾乎看不出區(qū)別,但這種區(qū)別卻可以被機(jī)器識(shí)別。
那么,以后你再往朋友圈發(fā)照片,就可以用 Fawkes 修改過(guò)的照片,不僅看起來(lái)和真人毫無(wú)區(qū)別,而且還更安全。因?yàn)楸?Fawkes 修改過(guò)的照片,即便被人扒走去做模型,實(shí)際上也并非真正意義上的你的照片。對(duì)于機(jī)器來(lái)說(shuō),那只是一張和你長(zhǎng)得很相似、但其實(shí)并不存在的人。
該論文表示,在曠視 Face ++、微軟 Azure Face、亞馬遜 Rekognition 等面部識(shí)別服務(wù)上,F(xiàn)awkes 取得了“100% 的成功”。
單思雄表示,機(jī)器學(xué)習(xí)早已變得炙手可熱,大家只要有臺(tái)電腦,會(huì)一點(diǎn) GPU,會(huì)一點(diǎn)代碼,就可以建一個(gè)機(jī)器學(xué)習(xí)模型。
越來(lái)越方便的同時(shí),也會(huì)給用戶安全帶來(lái)巨大威脅。而 Fawkes 的意義在于,它是反著來(lái),即讓機(jī)器學(xué)習(xí)模型變得不準(zhǔn)確,這樣就不能識(shí)別出用戶的臉。
Fawkes 使用到的主要技術(shù)是對(duì)抗學(xué)習(xí),即在圖片上加一些很小的噪音,這里的加噪音指的是修改像素。
在實(shí)驗(yàn)上,單思雄主要是在電腦上跑代碼,編程主要使用 Python 語(yǔ)言,以及深度學(xué)習(xí)框架 TensorFlow;數(shù)據(jù)集主要是圖片,此外還有 GPU 等硬件。
在分工上,單思雄和四位作者每人做一塊實(shí)驗(yàn),比如他去跑亞馬遜的 API,其他人去跑微軟或者曠世的 API。
跑完代碼,單思雄又對(duì)亞馬遜、微軟和曠識(shí)的人臉識(shí)別系統(tǒng)做測(cè)試。測(cè)試顯示,上述系統(tǒng)均無(wú)法識(shí)別出用 Fawkes 修改后的照片到底是誰(shuí),這意味著 Fawkes 成功誕生。
這里舉例解釋一下 API,如果一家公司想給大門裝上人臉識(shí)別系統(tǒng),并且找到亞馬遜來(lái)做這件事,那么該公司就會(huì)把員工照片給亞馬遜,后者會(huì)幫該公司建一個(gè)模型,建好后模型就能在公司大門口做人臉識(shí)別。
而單思雄團(tuán)隊(duì)也用了一個(gè)和人臉識(shí)別大門相似的系統(tǒng)去存放各種圖片,假如你的照片是被 Fawkes 保護(hù)的,并且沒(méi)有被人臉識(shí)別系統(tǒng)識(shí)別出來(lái),就等于保護(hù)成功。
Fawkes 開源之后,部分網(wǎng)友表示難以相信。怎么可能只改幾個(gè)像素,就完全讓一個(gè)人臉識(shí)別系統(tǒng)無(wú)法識(shí)別?其實(shí)這里面涉及到的正是對(duì)抗學(xué)習(xí),之前業(yè)界已經(jīng)有很多研究。
大家都知道 AI 可以變得更智慧,但智慧的事物沒(méi)有遇上好心腸的人,反而會(huì)傷害用戶。而 Fawkes 所做的事情,正是要對(duì)抗這種可能存在的傷害,即跟 AI 系統(tǒng)的過(guò)分靈敏做對(duì)抗。
具體來(lái)說(shuō),F(xiàn)awkes 只是把左圖變成右圖的一個(gè)工具。你有一個(gè) A 圖,F(xiàn)awkes 就可以算出 B 圖,盡管 A 圖和 B 圖的差別非常細(xì)微,但是當(dāng)前廠商的人臉識(shí)別系統(tǒng),會(huì)認(rèn)為 A 圖和 B 圖不是同一個(gè)人,這樣就可以保護(hù)用戶隱私。
本次研究的優(yōu)點(diǎn)在于,之前的對(duì)抗學(xué)習(xí)研究,只對(duì)一個(gè)特定人臉識(shí)別有用,而 Fawkes 對(duì)幾乎所有的人臉識(shí)別系統(tǒng)都管用。
如下圖所示,盡管 Fawkes 修改像素后,可以讓人臉識(shí)別系統(tǒng),把熊貓識(shí)別為長(zhǎng)臂猿。但是相比人眼感知仍有一定舉例,也就是在人眼看來(lái),下面的前后對(duì)比圖似乎沒(méi)有改變,這是因?yàn)?Fawkes 的噪音,對(duì)人眼視覺的影響很小,但是對(duì)機(jī)器模型的影響很大。
本次論文的四位作者和兩位導(dǎo)師,左上為單思雄
Fawkes 增加噪音的方法,是稍微修改圖片像素,比如把照片上眼睛部位的像素調(diào)低一些,具體調(diào)整多少,是根據(jù)算法算出來(lái)的。最終實(shí)現(xiàn)的效果是,僅僅修改一小部分像素,就能給模型帶來(lái)影響。
該團(tuán)隊(duì)還使用演員帕特里克 · 登普西的臉部照片作為對(duì)象,細(xì)微改變了女演員格溫妮絲 · 帕特洛的圖像,這阻止了人臉識(shí)別來(lái)識(shí)別隱身圖像中的格溫妮絲 · 帕特洛的可能。
Fawkes 的使用并不復(fù)雜,當(dāng)你想在微信朋友圈發(fā)照片時(shí),把原圖在 Fawkes 上跑一下,讓其修改幾個(gè)像素后再發(fā)到網(wǎng)上,這樣別人就不能用你的圖片去訓(xùn)練模型。
在應(yīng)用方面,F(xiàn)awkes 團(tuán)隊(duì)也坦誠(chéng),要使該軟件真正發(fā)揮作用,就必須更廣泛地發(fā)布。出于安全考慮,他們并不打算為 Fawkes 開發(fā)網(wǎng)站或 App,但他們希望像 Facebook 這樣的公司,可以將類似技術(shù)集成自家平臺(tái),從而更好保護(hù)用戶的使用安全。目前,F(xiàn)awkes 團(tuán)隊(duì)已經(jīng)收到個(gè)別公司的合作意向。
修改像素后的熊貓會(huì)被識(shí)別為長(zhǎng)臂猿
該項(xiàng)目立項(xiàng)之時(shí),正好是 2020 年初,當(dāng)時(shí) Clearview AI 的丑事被媒體曝光。用戶也開始擔(dān)憂在網(wǎng)上發(fā)照片的危害,而 Fawkes 恰在此時(shí)立項(xiàng),并在半年后做成,正好可以滿足用戶的剛需。
不過(guò),F(xiàn)awkes 也并非絕對(duì)完美,它無(wú)法對(duì)使用未更改圖像構(gòu)建的模型進(jìn)行任何處理,例如,Clearview AI 等公司和執(zhí)法機(jī)構(gòu)已經(jīng)擁有的圖像。
Clearview AI 的首席執(zhí)行官 Hoan Ton-That 了解該技術(shù)后表示:“互聯(lián)網(wǎng)上有數(shù)十億張未經(jīng)修改的照片,它們都使用不同的域名?!?“實(shí)際上,完善 Fawkes 之類的技術(shù)并大規(guī)模部署它幾乎為時(shí)已晚?!?/p>
但單思雄的導(dǎo)師趙燕斌回應(yīng)稱:“雖然該公司掌握了大量數(shù)據(jù),但是分到每個(gè)人的頭上,只有幾張。大家現(xiàn)在慢慢開始用 Fawkes 之后,保護(hù)的照片會(huì)遠(yuǎn)遠(yuǎn)大于該公司原有的照片,從而導(dǎo)致 Clearview 的識(shí)別失靈?!币虼?,人們可以從現(xiàn)在開始,使用 Fawkes 來(lái)保護(hù)那些想要上傳的個(gè)人照片。
生于 1997 年的單思雄,今年 23 歲。高中時(shí),他在北京十一中學(xué)讀書,高三參加美國(guó)高考,考入芝加哥大學(xué)學(xué)習(xí) AI 安全和 AI 隱私。
他的主要指導(dǎo)老師正是前文的趙燕斌教授和鄭海濤教授,兩者均為《麻省理工科技評(píng)論》 “35 歲以下科技創(chuàng)新 35 人” 榜單(TR35)的上榜者。
單思雄和兩位導(dǎo)師的結(jié)識(shí),開始于大二期間。當(dāng)時(shí),趙燕斌從加州大學(xué)圣塔芭芭拉分校,來(lái)到芝加哥大學(xué)履新。由于之前就聽說(shuō)過(guò)趙燕斌,所以他就主動(dòng)跟后者聯(lián)系。在接觸中,他發(fā)現(xiàn)趙燕斌在教學(xué)上很熱心,研究過(guò)程中遇到問(wèn)題,可以立馬拉上他開會(huì),開完會(huì)就立馬解決,效率之高令人咂舌。趙燕斌講解問(wèn)題也很細(xì)致,而且善于啟發(fā)學(xué)生,讓學(xué)生主動(dòng)去琢磨。
未來(lái),單思雄攻讀直博期間的導(dǎo)師之一,仍是趙燕斌。截止目前,他在本科期間,累計(jì)發(fā)表6篇論文。2019年 11 月,他的另一篇對(duì)抗學(xué)習(xí)的論文,已經(jīng)被 CCS 2020 錄用。擺在這位中國(guó)小伙面前的,是未知且更有意義的 AI 研究之路。(摘自美《深科技》)(編輯/萊西)