樊佳璇(清華大學(xué))
清華有個鼎鼎大名的“姚班”,全稱“清華學(xué)堂計(jì)算機(jī)科學(xué)實(shí)驗(yàn)班”,由“圖靈獎”唯一華人得主姚期智先生到清華大學(xué)任全職教授后創(chuàng)辦,致力于培養(yǎng)領(lǐng)跑國際拔尖創(chuàng)新計(jì)算機(jī)科學(xué)人才。清華大學(xué)“姚班”2021屆本科畢業(yè)生盧睿的畢業(yè)論文《對抗樣本攻防與基于傅里葉變換的后門攻擊》,其中最重要的發(fā)現(xiàn)在于,提出了一種更加簡單地對神經(jīng)網(wǎng)絡(luò)的圖像識別能力進(jìn)行攻擊的方式。
要理解這項(xiàng)看上去十分“高深莫測”的研究內(nèi)容,首先要從了解什么是神經(jīng)網(wǎng)絡(luò)開始。神經(jīng)網(wǎng)絡(luò)通過組合基本的線性運(yùn)算和非線性激活模塊,在某個給定架構(gòu)下,通過收集的數(shù)據(jù)不斷優(yōu)化其中的參數(shù),最終使得整個神經(jīng)網(wǎng)絡(luò)所代表的函數(shù)得以實(shí)現(xiàn)復(fù)雜的功能。
盧睿將神經(jīng)網(wǎng)絡(luò)比作一類函數(shù),將需要進(jìn)行識別的內(nèi)容輸入進(jìn)去,經(jīng)過函數(shù)模型的運(yùn)算,就能輸出識別的結(jié)果,而函數(shù)內(nèi)有許多不同的參數(shù),通過調(diào)整其中的參數(shù)能夠使神經(jīng)網(wǎng)絡(luò)有不同的表現(xiàn),實(shí)現(xiàn)某些特定功能。人們訓(xùn)練它的過程,本質(zhì)上就是在不斷尋找更合適的參數(shù)的過程。換句話說,神經(jīng)網(wǎng)絡(luò)就像是一個快遞分揀機(jī)器人,它通過掃描包裹上的快遞單獲取信息,進(jìn)行運(yùn)算處理后自動將包裹分成不同的類別,以發(fā)往各自的目的地,對于正在進(jìn)行圖像識別的神經(jīng)網(wǎng)絡(luò)而言,它要分揀的包裹就是輸入的圖片。當(dāng)然,神經(jīng)網(wǎng)絡(luò)的功能遠(yuǎn)不止給圖片分類這么簡單,還能通過訓(xùn)練,實(shí)現(xiàn)各種各樣的復(fù)雜功能,因而在圖像識別、人臉識別、自動駕駛等領(lǐng)域有著廣泛的應(yīng)用。
但前途一片光明的神經(jīng)網(wǎng)絡(luò),同時存在著不可忽視的問題。要訓(xùn)練出一個“好用”的神經(jīng)網(wǎng)絡(luò),首先需要收集大量的數(shù)據(jù)供它學(xué)習(xí),然后進(jìn)行反復(fù)訓(xùn)練調(diào)整參數(shù),最終才能實(shí)現(xiàn)特定功能投入應(yīng)用,但人類目前的技術(shù)能力只達(dá)到了“調(diào)試并且使用機(jī)器”的水平,并不完全清楚它的內(nèi)在工作原理。已經(jīng)有許多研究發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)在某些方面十分脆弱,只需要對圖片進(jìn)行像素級別的微小調(diào)整,這種調(diào)整甚至是人眼無法發(fā)現(xiàn)的,就能使神經(jīng)網(wǎng)絡(luò)原本準(zhǔn)確的判斷結(jié)果產(chǎn)生巨大偏差,甚至可以通過算法,根據(jù)預(yù)期的識別結(jié)果對圖片進(jìn)行精準(zhǔn)修改,定向改變神經(jīng)網(wǎng)絡(luò)的識別結(jié)果,實(shí)現(xiàn)AI版“指鹿為馬”。
想要在不被人眼發(fā)現(xiàn)的同時騙過神經(jīng)網(wǎng)絡(luò),原本是一件十分困難的事,不僅需要拿到原始模型的整體參數(shù),還要進(jìn)行一些復(fù)雜的計(jì)算,才能找到針對特定圖片進(jìn)行像素變化的方式。而盧睿大大簡化了這個攻擊過程,通過直接在訓(xùn)練數(shù)據(jù)里摻雜一些人眼不可見的“噪聲”,神經(jīng)網(wǎng)絡(luò)經(jīng)過學(xué)習(xí),就會在完全不影響正常識別的前提下,非常穩(wěn)定地將添加了擾動“噪聲”的圖片,識別成一個特定的類別。這就像是給武俠小說中縱橫江湖的高手下了一種無色無味的毒,只要對應(yīng)的毒出現(xiàn),就會誘發(fā)他體內(nèi)潛藏的毒素,即使是武功蓋世的大俠也會暈頭轉(zhuǎn)向,失去理智。
觀察文中兩張貓咪圖片,你能找出它們之間的區(qū)別嗎?這兩張?jiān)谌搜劭磥硪荒R粯拥呢堖?,在AI的眼中卻是天差地別。盧睿在圖片a的基礎(chǔ)上進(jìn)行了像素級別的微不可見的調(diào)整,得到添加了“噪聲”的圖片b,并將它們輸入到被提前“做過手腳”的神經(jīng)網(wǎng)絡(luò)中進(jìn)行識別,神經(jīng)網(wǎng)絡(luò)“十分自信”地輸出了識別結(jié)果,認(rèn)為圖片a是一只貓,而圖片b是一只狗。
對于盧睿而言,想要讓神經(jīng)網(wǎng)絡(luò)“貓狗不分”,既不需要知道具體的神經(jīng)網(wǎng)絡(luò)模型,也不需要進(jìn)行復(fù)雜的算法操作,只需要在上游收集數(shù)據(jù)的過程中進(jìn)行“投毒”,也就是往訓(xùn)練神經(jīng)網(wǎng)絡(luò)所使用的數(shù)據(jù)中植入不可察覺的“噪聲”,就可以在模型訓(xùn)練好之后,打開一扇后門,甚至通過這扇隱蔽的后門操控整個模型。盧睿在后續(xù)實(shí)驗(yàn)中進(jìn)一步發(fā)現(xiàn),一種波紋狀的傅里葉變化的基底是最為有效的“噪聲”模式。
盧睿的畢業(yè)設(shè)計(jì)可謂是一波三折,最開始他的研究題目是《如何防御針對神經(jīng)網(wǎng)絡(luò)的攻擊》,但嘗試了許多次后都沒有找到一條十分奏效的途徑,時間也在一次次的失敗中溜走,轉(zhuǎn)眼就到了畢業(yè)設(shè)計(jì)的中期檢查。在一次和導(dǎo)師的溝通中,導(dǎo)師建議他,如果設(shè)計(jì)不了盾,那就試試矛吧,看看怎么樣能攻擊得更狠。于是,盧睿轉(zhuǎn)而開始研究更隱蔽的攻擊方式。
盧睿發(fā)現(xiàn),現(xiàn)有的后門攻擊方式十分粗糙,首先需要對訓(xùn)練數(shù)據(jù)公然標(biāo)錯,然后在公然標(biāo)錯的圖片上,摻雜進(jìn)一個非常明顯的標(biāo)志來開啟后門,訓(xùn)練者只需要對訓(xùn)練的數(shù)據(jù)集稍作檢查,就能發(fā)現(xiàn)這種對數(shù)據(jù)投毒的攻擊行為。盧睿試圖尋找一種讓數(shù)據(jù)投毒變得更為隱蔽的攻擊方式,努力實(shí)現(xiàn)在不對訓(xùn)練數(shù)據(jù)故意標(biāo)錯的同時,摻雜進(jìn)用于開啟后門的鑰匙。
有了初步的思路之后,盧睿開始尋找相應(yīng)的實(shí)現(xiàn)路徑。他了解到在圖片、視頻等內(nèi)容的知識產(chǎn)權(quán)保護(hù)領(lǐng)域,已經(jīng)有一項(xiàng)較為成熟的“盲水印”技術(shù),恰恰就是在圖片中添加一些人眼不可察覺的微小“噪聲”,這些水印既不會影響內(nèi)容本身的視覺效果,又可以非常穩(wěn)定地還原出使用者的身份信息。盧睿從“盲水印”中受到啟發(fā),他提出疑問,這些信息是否能夠被神經(jīng)網(wǎng)絡(luò)捕捉到,從而成為神經(jīng)網(wǎng)絡(luò)分類圖片的重要依據(jù)?
1.無波貓咪圖片a2.有波貓咪圖片b
為了驗(yàn)證這個想法,盧睿做了一個簡單的探測實(shí)驗(yàn),他把每一張圖片復(fù)制兩份,在其中一份圖片上摻雜“盲水印”,讓神經(jīng)網(wǎng)絡(luò)從兩張人眼看起來完全相同的圖片中,分辨出哪張是有水印的。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)識別出水印的成功率高達(dá)99.7%,這證明了神經(jīng)網(wǎng)絡(luò)確實(shí)能夠識別“盲水印”,而且非常依賴這些微不可見的水印進(jìn)行分類決策。
在發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)對這種特性的圖樣非常敏感之后,后面的研究變得順利起來。盧睿試驗(yàn)了各種各樣不同的“噪聲”模式,也嘗試了不同的投毒比例,對新發(fā)現(xiàn)的“后門”進(jìn)行系統(tǒng)研究后發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)對于條紋形狀的波動特別敏感,同時,由于它“非常喜歡走捷徑”的特性,只要對5%的訓(xùn)練數(shù)據(jù)摻雜“噪聲”波紋,就足夠使神經(jīng)網(wǎng)絡(luò)找到數(shù)據(jù)的規(guī)律特征,開啟特定“后門”。
關(guān)于整個畢業(yè)設(shè)計(jì)期間最難忘的時刻,盧睿再次提到了讓神經(jīng)網(wǎng)絡(luò)識別圖片水印的探測實(shí)驗(yàn)。他說訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程“非常有戲劇性”,如果用曲線描繪模型的準(zhǔn)確率,最開始的半個小時,仿佛一張“心如死灰”的心電圖,準(zhǔn)確率始終在50%往前直著跑,換言之,模型已經(jīng)把幾萬張圖片翻來覆去地看了27遍,但始終沒能認(rèn)出來哪張是有水印的。就在他快要放棄的時候,準(zhǔn)確率突然在第二十八輪開始飆升,在一輪之內(nèi)暴漲到了99%,意味著神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)了隱形水印的規(guī)律,盧睿整個人“激動得要命”,他又檢查了好幾天,確認(rèn)沒有任何bug,然后再展開之后的實(shí)驗(yàn),從此整個畢業(yè)設(shè)計(jì)局面就打開了。
盧睿說,他的畢業(yè)設(shè)計(jì)提示了當(dāng)前廣泛應(yīng)用的神經(jīng)網(wǎng)絡(luò)模型的潛在風(fēng)險(xiǎn),也為揭示神經(jīng)網(wǎng)絡(luò)的運(yùn)行原理提供了一個切口。
本科畢業(yè)后,盧睿選擇繼續(xù)在清華攻讀他的博士學(xué)位,發(fā)揮數(shù)學(xué)優(yōu)勢,進(jìn)行深度學(xué)習(xí)理論方向的研究。當(dāng)直博一年級的盧睿再次回顧本科畢設(shè)的經(jīng)歷,他發(fā)現(xiàn)科研的過程就是在發(fā)現(xiàn)新靈感、嘗試、失敗的過程中反復(fù)循環(huán),怎么都得不到理想結(jié)果的時候挺難受的,但是“這種難受的感覺才是科研的常態(tài)”。
責(zé)任編輯:丁莉莎