胡巍巍
32 歲,帶 7 位博士生,還是最年輕的中國女性得主!她到底有多不簡單?27 歲,李博博士畢業(yè)后,一個月飛行幾十趟,走遍全美 50 多個城市,最終斬獲 20 多個錄用通知,且均由世界知名大學(xué)發(fā)來,如伊利諾伊大學(xué)香檳分校、馬里蘭大學(xué)、佛羅里達大學(xué)等高校。面試一家中一家,妥妥的超級“面霸”。
而李博本次上榜 TR 35 榜單的原因在于,她在對抗機器學(xué)習(xí)方面,有著出色的研究。同時,她也是全球首批研究對抗機器學(xué)習(xí)的學(xué)者。
如今,她是美國 “公立常春藤” 伊利諾伊大學(xué)香檳分校計算機科學(xué)系的助理教授,還曾獲得全球只有3位入選的賽門鐵克獎金,此獎金由美國賽門鐵克頒布,用來獎勵對計算機安全做出創(chuàng)新貢獻的學(xué)者。
2019 年 6 月,有著150多年歷史的英國科技博物館,展示了李博的研究成果。這是在該博物館展出的、為數(shù)不多計算機領(lǐng)域成果。
英國科技博物館展出李博及其團隊生成的“對抗性路標”
作為維多利亞女王曾親自參與建設(shè)的博物館,緣何展出這樣一位年輕教授的成果?原因在于這項研究的目的很重磅,過程有突破,結(jié)果有應(yīng)用。該研究的目的,在于發(fā)現(xiàn) AI 技術(shù)的薄弱點,以及提出提高 AI 魯棒性(計算機軟件在輸入錯誤、磁盤故障、網(wǎng)絡(luò)過載或有意攻擊情況下,能否不死機、不崩潰,就是該軟件的魯棒性)的潛在方法、以及它們的重要性。
自動駕駛汽車中的 AI 系統(tǒng)安全度不足,一直是行業(yè)痛點,其對于路況的識別,決定著乘客的安全。如何發(fā)現(xiàn) AI 系統(tǒng)的薄弱點、以及在不同物理場景下 AI 系統(tǒng)被惡意攻擊的原因,最終通過提高 AI 魯棒性來提高 AI 安全性,是業(yè)界面臨的重大難題。
李博
為應(yīng)對該問題,李博及其團隊開啟了一項研究。研究中,他們在停車牌上,貼上了黑色和白色的小貼紙,人眼看上去是隨機的,并且不會遮擋標牌上的 “STOP” 等字樣。然而,這種安排是經(jīng)過精心設(shè)計的,如果自動駕駛汽車駛近,汽車神經(jīng)網(wǎng)絡(luò)就會誤讀停車標志。
之前也有研究人員嘗試過“對抗性攻擊”,用對人無害的輸入數(shù)據(jù)的處理、來愚弄神經(jīng)網(wǎng)絡(luò),但多囿于數(shù)字化案例。比如,更改圖像中的幾個像素,并且讓肉眼無法看到??偨Y(jié)來說,此前的對抗機器學(xué)習(xí)研究,主要存在于非物理世界中。而李博是最早證明 AI 對抗性、可以存在于物理世界中的專家之一。但是,證明過程并不順利,因為她發(fā)現(xiàn)用來 “愚弄” 數(shù)字圖像的方法,并不適用于路牌這樣的物理對象。后來她把物理對象的特征如形狀和紋理等,作了細微的改變。改完之后,她用神經(jīng)網(wǎng)絡(luò)來識別和利用另一個系統(tǒng)中的漏洞,從而讓 AI 系統(tǒng)互相攻擊。
在應(yīng)對目標網(wǎng)絡(luò)的訓(xùn)練上,李博利用博弈論、來為攻擊者與防御者建模。同時,她使用數(shù)據(jù)和機器學(xué)習(xí)算法上的空間、以及時序的連續(xù)性,來判斷數(shù)據(jù)是否經(jīng)過修改,并通過模型是否輸出不一致,去查看是否存在潛在攻擊。通過上述過程,她實現(xiàn)了讓 AI 更強大、更魯棒的目標。
“車牌”研究之后,李博打算吃透基于路標的物理攻擊。相比生成圖形對抗樣本,生成物理界中的對抗樣本,主要面臨以下技術(shù)難點:物理對抗樣本不能像圖形對抗樣本那樣,使用小量級的惡意修改,否則無法被真實世界中的相機等儀器捕獲;物理對抗樣本需要同時滿足大量級、且不引起人類注意;物理對抗樣本的惡意篡改,不能像圖形對抗樣本那樣分布于整個圖片,前者只能集中于某個具體物體表面;物理對抗樣本需要在光照、距離和角度不同的條件下,都能成功地攻擊機器學(xué)習(xí)模型;物理界對抗樣本的生成,可能會受到打印機等硬件制成效果的限制而造成偏差。
STOP 交通牌上貼的標簽
為解決上述難題,李博和團隊提出了 “空間可控的物理對抗樣本” 生成模型。他們從不同實際條件中采集樣本分布,來保證生成的對抗樣本、可以在較大的樣本分布中達成有效攻擊,從而確保生成物理對抗樣本的魯棒性。
如今,李博的研究已經(jīng)在商業(yè)應(yīng)用中開花結(jié)實。IBM 受該研究啟發(fā),以同樣的方式保護其 AI 系統(tǒng) Watson AI,該 AI 系統(tǒng)堪稱“AI 界的老大哥”,在 AlphaGo 面世之前,Watson AI 一直是人工智能的代名詞。亞馬遜則使用李博的研究成果,來保護智能音箱 Alexa。一些自動駕駛汽車公司,也在使用其研究、來提高機器學(xué)習(xí)模型的穩(wěn)定性。
李博執(zhí)教的伊利諾伊大學(xué),和中國有著深厚的淵源。1906 年,該校時任校長愛德蒙 · 詹姆斯致信美國總統(tǒng)羅斯福,建議將庚子賠款用于發(fā)展中國的教育事業(yè)。后在羅斯福的推動下,美國國會通過法案,同意將部分庚子賠款用于中國學(xué)生留美項目,1909 年庚子賠款獎學(xué)金開始運作。
錢學(xué)森、竺可楨和楊振寧等,均憑借該獎學(xué)金留學(xué)海外。其中,竺可楨還曾在伊利諾伊大學(xué)農(nóng)學(xué)院讀過書。1911年~1920年9年間,伊利諾伊大學(xué)收留和培養(yǎng)了多達 1/3 的留美中國學(xué)生,是對中國學(xué)生最友好的大學(xué)之一。到了當代,據(jù)教育觀察媒體 Inside Higher Ed 統(tǒng)計,早在 2015 年,中國留學(xué)生就已成為該校的最大國際學(xué)生群體。
而李博當初在 20 多份錄用通知中選擇該校,則因這里非常注重 AI 發(fā)展、且有很多不錯的合作者。李博帶的很多博士生都來自中國。同樣留過學(xué)的她,格外能體會中國留學(xué)生的困難如簽證等問題。
與業(yè)界的交流上,她也很重視和中國互聯(lián)網(wǎng)巨頭的合作。由于騰訊公司的微信事業(yè)部,面對著巨大的社交網(wǎng)絡(luò)數(shù)據(jù),靠譜的用戶信用分析系統(tǒng),成為微信團隊處理數(shù)據(jù)的剛需。基于此,李博展開了和微信的合作。該合作著眼于研究用戶是否有機會通過修改自己的數(shù)據(jù)如通訊錄等,來 “愚弄” 當前的機器學(xué)習(xí)系統(tǒng),從而達到修改信用分數(shù)等目的。面對微信的期望,李博給出了肯定的答案:惡意用戶極有可能通過修改小部分數(shù)據(jù),達到一些具體目的。
后續(xù),李博和微信團隊一起提出了“惡意網(wǎng)絡(luò)連接檢測和防御算法”,來判斷某些數(shù)據(jù)比如好友信息是否可信,同時利用對抗訓(xùn)練,來提供更多的符合惡意攻擊數(shù)據(jù)分布的數(shù)據(jù)去訓(xùn)練圖神經(jīng)網(wǎng)絡(luò),使生成的圖神經(jīng)網(wǎng)絡(luò)有更強的魯棒性。
從本科到博士,李博累計發(fā)表論文幾十篇, 引用高達 4700 多 H-index 28(科研影響力的指標)。盡管她的名字略顯男孩子氣,上中學(xué)之前從未留過長發(fā),但電話中的李博卻聲音輕柔,甚至主動替記者考慮采訪時差問題。
由于名字里帶有一個“博”,從小家人就希望她可以考上博士。三四歲時,她就戴著借來的博士帽子照相。爸爸有時也會帶她去和認識的博士學(xué)者們吃飯,對知識的憧憬早在童年就已埋下。
李博帶的中國留學(xué)生
作為一名學(xué)霸,她第一次認識到學(xué)習(xí)的重要性,是因為一次轉(zhuǎn)學(xué)。李博爸爸是廣東湛江人,媽媽是山西陽泉人。由于父母工作原因,小學(xué)四年級時,李博從廣東轉(zhuǎn)學(xué)到山西。剛到新學(xué)校時,同學(xué)們質(zhì)疑她是因為成績差、或者表現(xiàn)差才轉(zhuǎn)學(xué)的。結(jié)果第一次考試,她就是前幾名,同學(xué)們對她的偏見也得以改觀。中學(xué)時,李博非常喜歡物理,還會閱讀《時間簡史》等高難度書籍。不過她比較文理兼?zhèn)?,曾很喜歡余秋雨的書,學(xué)生時代經(jīng)?;当椾撉?。高中時,李博就已成為黨員。大學(xué)期間去臺灣地區(qū)作了一年交換生,從大二開始就跟著導(dǎo)師以及學(xué)長學(xué)姐們寫論文。
談及出國讀書和在美國工作,她表示希望可以通過在世界一流的計算機科研環(huán)境中,研究出更多成果,幫助更多來自祖國的學(xué)生,來反哺自己曾經(jīng)生活過的地方。在計算機研究以男性居多的時代背景下,李博的研究必將激勵更多女性投身科研。女性得天獨厚的細心,也會讓科研更有溫度。她的經(jīng)歷也告訴我們,科研女性并不是古板板,她們照樣留長發(fā)、彈鋼琴、讀文藝書籍,照樣聲音柔和,但卻熱愛科學(xué)?。ū究C合整理)(編輯/萊西)