文/許偉林
?
機(jī)器學(xué)習(xí)被帶到溝里了?
——惡意軟件可輕易逃脫檢測(cè)(包括Gmail)
文/許偉林
許偉林美國弗吉尼亞大學(xué)計(jì)算機(jī)系PhD學(xué)生,研究方向Adversarial Machine Learning,師從David Evans和Yanjun Qi教授。本科畢業(yè)于北京郵電大學(xué),獲北郵最高學(xué)術(shù)獎(jiǎng),其間兩次參加Google Summer of Code的網(wǎng)絡(luò)安全類開源項(xiàng)目,貢獻(xiàn)了Nmap的IPv6掃描功能和Honeynet的IPv6入侵檢測(cè)器6Guard。赴美留學(xué)前在清華大學(xué)網(wǎng)絡(luò)與信息安全實(shí)驗(yàn)室(NISL)任職工程師,負(fù)責(zé)IPv6蜜罐項(xiàng)目。
近年來機(jī)器學(xué)習(xí)越來越火,被很多人視為神器,指哪打哪,所向披靡,地球人已經(jīng)不是對(duì)手了。很多安全領(lǐng)域的難題也用到機(jī)器學(xué)習(xí)技術(shù)來解決,比如垃圾郵件分類、僵尸號(hào)檢測(cè)、惡意軟件分類等。去年微軟在Kaggle上贊助了一個(gè)Windows惡意軟件分類比賽[1],冠軍隊(duì)賽前并沒有任何惡意軟件知識(shí),僅憑基本的機(jī)器學(xué)習(xí)技能就贏得第一名,模型準(zhǔn)確率接近100%。這似乎意味著數(shù)據(jù)科學(xué)家開始來搶安全專家飯碗了!
然而,今年NDSS'2016有一篇論文[2]指出:機(jī)器學(xué)習(xí)做安全只是看起來很美。論文標(biāo)題Automatically Evading Classifiers[3],作者來自美國弗吉尼亞大學(xué)。
該論文采用遺傳編程(Genetic Programming)隨機(jī)修改惡意軟件的方法,成功攻擊了兩個(gè)號(hào)稱準(zhǔn)確率極高的惡意PDF文件分類器:PDFrate[4]和Hidost[5]。實(shí)驗(yàn)中所有500個(gè)惡意PDF樣本被稍加修改后都被判為無害,然而其攜帶的惡意代碼照樣在目標(biāo)平臺(tái)中運(yùn)行。值得注意的是,這些逃逸檢測(cè)的惡意文件都是算法自動(dòng)修改出來的,并不需要PDF安全專家介入。
兩個(gè)受攻擊的分類器PDFrate和Hidost分別采用PDF文件內(nèi)容和PDF文件結(jié)構(gòu)作為分類特征,在原測(cè)試數(shù)據(jù)集中均顯示出極佳的分類性能。然而,攻擊實(shí)驗(yàn)結(jié)果表明,不論是文件內(nèi)容還是文件結(jié)構(gòu)都不能訓(xùn)練出可靠的惡意PDF分類器。盡管在訓(xùn)練數(shù)據(jù)中確實(shí)可以觀察到兩類樣本在文件結(jié)構(gòu)(內(nèi)容)上的差異,這些差異往往并非必然,以此訓(xùn)練出來的分類器將存在很大盲區(qū)。舉個(gè)例子,現(xiàn)實(shí)中收集到的惡意PDF樣本往往文件尺寸都比較小,因?yàn)楣粽咄ǔV灰岩恍《慰蓤?zhí)行代碼植入PDF就夠了,并不需要真正的PDF頁面。用機(jī)器學(xué)習(xí)訓(xùn)練分類器時(shí),把文件尺寸作為特征或許可以在特定的數(shù)據(jù)集中幫助區(qū)分惡意/無害樣本,然而這并非是惡意軟件的真正特征,攻擊者只須簡(jiǎn)單地植入更多PDF內(nèi)容頁就可以迷惑分類器。
機(jī)器學(xué)習(xí)用在安全業(yè)務(wù)中到底可不可行,學(xué)術(shù)界一直爭(zhēng)議不斷。這篇論文以扎實(shí)的證據(jù)指出:安全領(lǐng)域的任務(wù)有其特殊性——攻擊者會(huì)不斷改變策略,至少不能以傳統(tǒng)的機(jī)器學(xué)習(xí)視角來看待安全類問題了。以后安全從業(yè)者接觸到本領(lǐng)域的機(jī)器學(xué)習(xí)分類器,不應(yīng)該只問準(zhǔn)確率、誤報(bào)率之類的傳統(tǒng)度量,而應(yīng)該認(rèn)真思考一下其分類特征是否靠譜,否則機(jī)器學(xué)習(xí)做安全只是看起來很美而已。
作者在宣講論文時(shí)還披露了Gmail內(nèi)嵌的惡意軟件分類器更加脆弱,只須4行代碼修改已知惡意PDF樣本就可以達(dá)到近50%的逃逸率,10億Gmail用戶都受到影響。然而Google安全團(tuán)隊(duì)表示惡意軟件檢測(cè)是個(gè)大難題,他們暫時(shí)也無能為力。計(jì)算機(jī)安全行業(yè)如何保護(hù)億萬用戶任重而道遠(yuǎn)!
參考鏈接:
[1]Windows惡意軟件分類比賽:https://www.kaggle.com/c/ malware-classification/
[2]論文全文下載:NDSS會(huì)議網(wǎng)站2016-0315-automaticallyevading-classifiers
[3]從百度文庫下載報(bào)告Slides:http://wenku.baidu.com/ view/0f30f8dba6c30c2258019e02
[4]ACSAC'2012: PDFrate https://www.acsac. org/2012/openconf/modules/request.php?module=oc_ program&action=summary.php&id=70
[5] NDSS'2013 :Hidosthttp://www.internetsociety.org/doc/ detection-malicious-pdf-files-based-hierarchical-documentstructure