Ramin Skibba
Senior Technology Writer
雖然消息、信件甚至照片的內(nèi)容和意圖都有可能被篡改,但是人們通常不會認(rèn)為它們被篡改了,因為這并不是件容易的事情。但在當(dāng)今的數(shù)字世界中,情況已不再如此。隨著計算機(jī)、互聯(lián)網(wǎng)以及近年來智能手機(jī)和社交媒體的出現(xiàn),用來處理照片和其他媒體的工具也迅速出現(xiàn)?,F(xiàn)在,人工智能(AI)正在用更復(fù)雜的程序進(jìn)一步改變數(shù)字媒體,出于各種目的,人們可以使用這些程序近乎完美地處理各種視頻、照片、音頻和文本。
紐約州立大學(xué)奧爾巴尼分校計算機(jī)科學(xué)教授兼計算機(jī)視覺和機(jī)器學(xué)習(xí)實驗室主任Siwei Lyu說:“處理照片的歷史與攝影本身一樣古老。最近的變化則是其與AI結(jié)合,從而擴(kuò)大照片處理的操作范圍。過去,處理照片需要大量的時間、精力以及特殊的培訓(xùn)和設(shè)備?!盠yu說,有了功能強大的計算機(jī)和足夠的知識來運行算法,現(xiàn)在就可以在更大的范圍內(nèi)處理視頻。
計算機(jī)工程師也在努力完善用于“自然語言處理”的AI系統(tǒng),該系統(tǒng)可以生成與人類語言非常接近的文本和語音。例如,在2019年年初,位于舊金山的研究實驗室OpenAI宣布他們已經(jīng)開發(fā)出一種最先進(jìn)的文本生成器,叫做GPT-2,該生成器可以根據(jù)少量提示,用英語寫出連貫的句子,甚至寫出短篇小說和詩歌。研究人員最初不愿發(fā)布該軟件的完整模型,因為他們擔(dān)心該軟件因效果太好,而被惡意利用,如被用于生成“假新聞”[1]。但是在看到“沒有強有力的濫用證據(jù)”[2]之后,他們在2019年11月放松了限制。但是,在這種媒體和其他媒體中,老話“眼見為實”似乎已成為了假新聞。
Photoshop等用來修改照片的軟件已經(jīng)存在了一段時間(圖1),現(xiàn)在,人們也可以輕松地操縱視頻了。最常見的處理方法是深度造假(deepfake),通常指的是將一個人(目標(biāo))的臉與另一個人(供體)的臉交換。深度造假的另一種類型是“口型同步”,指的通過是修改源視頻,使得講話者嘴部的動作與另一個音頻保持一致。如果處理得好,輸出的視頻將會非常逼真,看起來講話者說出了一些實際上他們從未說過的話。此類欺騙性視頻可以并且曾經(jīng)被用來操縱公眾輿論,實施欺詐以及抹黑他人[3]。
在實踐中,要生成深度造假視頻,需要將數(shù)據(jù)(大量圖片或者文本)輸入到一種叫做生成對抗網(wǎng)絡(luò)(GAN)的機(jī)器學(xué)習(xí)工具中。最簡單的生成對抗網(wǎng)絡(luò)包含兩個神經(jīng)網(wǎng)絡(luò),用來開發(fā)和改進(jìn)模型將輸入數(shù)據(jù)轉(zhuǎn)化成新圖片和新視頻的能力。早期算法使用海量數(shù)據(jù)集進(jìn)行訓(xùn)練,這些數(shù)據(jù)來自政客和名人等容易獲得的圖像。雖然這一過程曾經(jīng)需要程序員進(jìn)行某種程度上的監(jiān)督,但最新的程序幾乎是完全自動化的。
“不需要大量的訓(xùn)練數(shù)據(jù),短短10 s的視頻就足夠了。”亞利桑那州立大學(xué)(位于坦佩市)計算機(jī)科學(xué)與工程學(xué)教授Subbarao Kambhampati說,他也是人類感知AI的專家。但是使用較長的視頻訓(xùn)練模型并使用具有至少1000個高質(zhì)量幀的源視頻,將得到質(zhì)量更好的輸出視頻。對于視頻中的每一幀,算法都能夠繪制出人頭上的“標(biāo)記”,以及人的頭部姿勢、視線,以及更詳細(xì)的特征,包括眉毛、眨眼、眼瞼、上下嘴唇、臉頰、下巴和酒窩[4]。
圖1. 使用Adobe Photoshop軟件,用16張不同的照片創(chuàng)建了這個奇特但逼真的風(fēng)景。由AI算法驅(qū)動的軟件現(xiàn)在提供了工具,讓人們可以更輕松地創(chuàng)建逼真但被處理過和(或)模擬生成的視頻、文本和語音。圖片來源:Wikimedia Commons (CC BY-SA 3.0)。
輸出視頻中,人的運動看起來像人類視覺所期望的那樣流暢。但是,如果處理不當(dāng),輸出視頻可能會有破綻,這些內(nèi)容可能會使敏銳的觀看者懷疑視頻被修改過?!坝袝r候會出現(xiàn)奇怪的現(xiàn)象,例如,面部特征的拉伸或扭曲與正常面部特征不完全匹配。”弗萊徹·瓊斯計算學(xué)者、美國加利福尼亞州克萊蒙特市斯克里普斯學(xué)院媒體研究專業(yè)的訪問教授Doug Goodwin說。例如,如果訓(xùn)練數(shù)據(jù)的分辨率不足,則輸出視頻可能具有模糊的區(qū)域,在嘴中出現(xiàn)白色條紋,而不是單個的牙齒,或者面部毛發(fā)沒有按照應(yīng)有的方式運動。Goodwin說,使用包含各種面部表情和吐字的數(shù)據(jù)訓(xùn)練后,算法的效果會更好。
處理技術(shù)的進(jìn)步促使了計算機(jī)科學(xué)家和工程師開發(fā)AI算法(取證軟件)來檢測視頻和音頻是否被修改[5]?!叭∽C工具可以檢測合成的媒體,并判斷它是由機(jī)器還是由人生成的。但是,如果不對這些工具保密,那么總是可以制作出繞過工具的媒體?!奔永D醽喆髮W(xué)圣地亞哥分校計算機(jī)科學(xué)博士Paarth Neekhara說,他的研究方向包括音頻和視頻的深度造假。
處理和檢測之間的拉鋸戰(zhàn)類似于病毒和防病毒軟件的計算機(jī)安全軍備競賽,其中,補丁程序阻止了黑客,而黑客又找到了繞過補丁程序的方法[6]。專家發(fā)現(xiàn)了一個缺陷,使他們能夠檢測出被修改過的媒體,隨后媒體的生成者調(diào)整算法,生成更逼真的假媒體。例如,第一代的深度造假軟件會生成不定期眨眼的臉,導(dǎo)致造假很容易被檢測出來,而下一代深度造假軟件便修復(fù)了這一問題。Kambhampati說,另一個例子是,一個包含時任美國總統(tǒng)巴拉克·奧巴馬的視頻被人為修改,使其看起來像是他說了一些實際上沒說過的話,但視頻中他的眉毛運動與嘴唇運動不符。但在后來的深度造假視頻中,奧巴馬的眉毛如預(yù)期般正常地動了起來。由于可以訓(xùn)練AI來檢測和修復(fù)此類差異,因此最新一代的深度造假軟件幾乎沒有破綻。
出現(xiàn)了許多AI的負(fù)面應(yīng)用[3,7],但是也有許多正面的應(yīng)用,它們推動了技術(shù)的進(jìn)步。例如,改善有言語障礙的人的視頻或音頻記錄,為電影添加更逼真的外語配音,甚至在電影中重現(xiàn)已故演員飾演的角色。例如,在《星球大戰(zhàn)外傳:俠盜一號》中,重現(xiàn)了已故演員卡麗·費雪飾演的萊婭公主[8]。結(jié)合了該項技術(shù)的虛擬現(xiàn)實游戲或其他娛樂活動看起來很有發(fā)展前景[9]。
正如上面提到的OpenAI,計算機(jī)科學(xué)家也在使用AI來生成可靠的文本和語音[1]。像修改視頻一樣,這種技術(shù)也使用了GAN來生成逼真的句子[10]。例如,谷歌翻譯現(xiàn)在就使用了這種AI算法[11]。這些算法足夠復(fù)雜精妙,可以以特定人物的風(fēng)格生成文本,如生成看似出自已故作家簡·奧斯汀之手的新故事[12]。程序員也在社交媒體等平臺上創(chuàng)造了聊天機(jī)器人,該聊天機(jī)器人具有足夠的閱讀和真實聽覺,可以像真人一樣與潛在客戶互動。亞馬遜的Alexa和蘋果的Siri可能是使用最廣泛的AI通信的商業(yè)應(yīng)用,它們基于云的語音服務(wù)被設(shè)定為模仿與客戶的真實對話。雖然Alexa和Siri不是真人,但它們的確能夠給出問題的真實答案。
Goodwin說,迄今為止,程序員在生成逼真的視頻和圖像方面取得了更大的進(jìn)步。他說,如果當(dāng)前的趨勢繼續(xù)發(fā)展下去,可能很快就可以構(gòu)建AI算法,來創(chuàng)造全新且可信的語音,并自動將其與模擬音頻和視頻融合。這種前景及其在詐騙中的潛在用途,促使研究人員開發(fā)自動檢測深度造假視頻的代碼,并呼吁社交媒體網(wǎng)站將此類媒體標(biāo)識為被篡改過的媒體[13]。2020年12月,F(xiàn)acebook與Microsoft、亞馬遜和包括Lyu在內(nèi)的學(xué)術(shù)界計算機(jī)科學(xué)家合作發(fā)起了深度造假檢測挑戰(zhàn)賽,號召研究人員提交自己的自動檢測工具,并有機(jī)會贏得100萬美元的獎金[14]。美國國防高級研究計劃局的工程師也在研究自動檢測視頻或照片是否被篡改的工具[15]。