陳姝宇
繪畫創(chuàng)作是人類自古以來的天性,從原始叢林中飽經(jīng)風霜的洞穴巖畫,到法國盧浮宮中夢幻神秘的蒙娜麗莎,人類筆下的每一幅畫作都體現(xiàn)了無窮的想象力和非凡的創(chuàng)造力。與技藝精湛的藝術(shù)家一樣,我們每一個普通人的心中都有著獨特的審美情趣與個性化的藝術(shù)體驗,但是,我們卻常常難以將之充分地表達出來。為了讓非職業(yè)畫家的普通人也能輕松地繪制出人類肖像,中國科學院計算所與香港城市大學合作研發(fā)了智能人臉畫板軟件DeepFaceDrawing[1]?;谠撥浖脩舨恍枰獡碛袑I(yè)的繪畫技巧,就能用粗糙甚至不完整的草圖合成逼真的人臉肖 像。
計算機草圖交互的發(fā)展
草圖是指通過黑白線條,描繪物體的輪廓和結(jié)構(gòu)的一種繪畫形式。草圖繪制成本較低卻包含豐富的語義信息,其很早便被用于人機交互:1963年,Ivan Sutherland便開發(fā)了革命性的人機交互系統(tǒng)——SketchPad[2],并因此獲得圖靈獎。該系統(tǒng)使用交互設(shè)備“光筆”,通過手繪草圖完成計算機的圖形設(shè)計與交互。后來幾十年,隨著數(shù)位板等硬件設(shè)備的發(fā)展,草圖已經(jīng)成為專業(yè)計算機設(shè)計人員所必需的交互方式,提高了計算機相關(guān)行業(yè)的生產(chǎn)效率,促進了工業(yè)、設(shè)計業(yè)、動畫影視業(yè)等相關(guān)產(chǎn)業(yè)的發(fā)展。近幾年,以智能手機、平板電腦為代表的觸摸設(shè)備迅速發(fā)展,觸屏交互進一步深入大眾的日常生活,草圖擁有了更多的使用場景與更高的實用價 值。
正因為草圖具有易于繪制、語義豐富和應用廣泛等特點,許多計算機軟件嘗試根據(jù)草圖合成真實圖像。一些早期的技術(shù)主要將草圖作為標記,使用圖像檢索和組合技術(shù),將不同圖像的不同部分生硬地拼接到一起。這些軟件無法通過草圖精確控制合成的圖像,拼接的結(jié)果常常不夠自然。近幾年,人工智能技術(shù)飛速發(fā)展,通過草圖合成真實圖像也有了許多新的技術(shù)。這些方法將草圖作為輸入,使用深度神經(jīng)網(wǎng)絡,合成真實的圖像。但是,目前的大多數(shù)方法對于草圖的依賴性極高,因此對用戶繪制的草圖有很嚴格的要求,往往只有專業(yè)的美術(shù)工作者才能駕 馭。
普通人可以通過手繪的草圖輕松合成逼真的人臉肖像嗎?怎樣使用人工智能技術(shù),用隨手繪制的粗糙、甚至不完整的草圖合成真實圖片呢?
人臉畫板交互系統(tǒng)
為了讓普通人也能通過隨手繪制的草圖合成真實人臉肖像,中國科學院計算技術(shù)研究所高林團隊與香港城市大學傅紅波團隊合作研發(fā)了一款智能人臉畫板軟件。該軟件在草圖繪制界面,提供了基于數(shù)據(jù)驅(qū)動的背景陰影作為參考。背景陰影實時更新,根據(jù)用戶繪制的草圖,匹配出最接近“真實人臉”的草圖,引導用戶的繪制。交互界面的頂端提供了一系列功能按鈕,可以控制畫筆、橡皮的大小,保存生成的結(jié)果等。
該軟件可以調(diào)整生成結(jié)果的面部細節(jié)。右上角提供了針對臉部5個部分的5個參數(shù)(左眼、右眼、鼻子、嘴巴、其他)的控制滑條。每個滑條的值代表了原始繪制的草圖與系統(tǒng)優(yōu)化的混合權(quán)重,滑條對應的值越高,生成的結(jié)果與輸入的草圖越接近。該軟件的交互界面友好美觀,用戶可以輕松繪制想象中的真實人臉。
基于深度學習的人類合成系統(tǒng)
該人臉畫板系統(tǒng)基于最前沿的人工智能技術(shù),使用了生成式對抗網(wǎng)絡(GAN)[3]的技術(shù)。通過這種技術(shù),神經(jīng)網(wǎng)絡可以合成高真實感的圖像,足以以假亂真。生成式對抗網(wǎng)絡的原理也非常簡單,包括了兩個網(wǎng)絡:圖像生成網(wǎng)絡與圖像判別網(wǎng)絡。圖像生成網(wǎng)絡負責生成真實的圖像,圖像判別網(wǎng)絡則負責判斷生成的圖像是真實圖像還是生成的圖像。兩個網(wǎng)絡相互學習博弈,最終生成高真實感的圖像。
該智能人臉畫板系統(tǒng)同時使用了結(jié)構(gòu)化的合成思路,對人臉的關(guān)鍵區(qū)域(雙眼、鼻、嘴和其他區(qū)域)單獨處理,再融合生成真實人臉。系統(tǒng)主要由三部分組成:特征提取模塊、特征映射模塊、圖像合成模塊。系統(tǒng)對用戶繪制的草圖進行優(yōu)化,生成與繪制草圖相對應的真實人臉。
特征提取模塊采用自編碼器結(jié)構(gòu)。自編碼器也是一種常用的人工神經(jīng)網(wǎng)絡,可以對輸入的圖像進行編碼,得到高效的低維特征描述,并能從該描述中恢復輸入圖像。特征提取模塊將人臉分為五個部分(左眼、右眼、鼻、嘴和其他區(qū)域),對每一部分的草圖分別進行編碼,獲取五個特征描述符。進一步,該模塊將人臉的局部草圖投影至局部線性的流形空間,每個部位的流形空間由數(shù)據(jù)庫中大量樣本編碼的特征向量構(gòu)成。輸入的手繪草圖樣本的特征描述符作為點樣本投影至該空間尋找最近鄰,通過線性組合重構(gòu)來優(yōu)化手繪草圖。
特征映射模塊與圖像合成模塊一起構(gòu)成合成真實圖像的深度神經(jīng)網(wǎng)絡。特征映射模塊將優(yōu)化后的局部草圖特征描述映射成32通道的特征圖(真實圖像常常為3個通道,對應紅色、綠色、藍色)。進一步,系統(tǒng)對每個局部生成的特征圖,在背景特征圖的固定位置按照嘴、鼻子、雙眼的順序進行拼接。最后,圖像合成模塊根據(jù)拼接后的特征圖,融合生成高真實感的人臉。該方法由于采用了多個通道,改進了信息流,能生成更高質(zhì)量的合成結(jié)果。
目前,基于人工智能技術(shù)的系統(tǒng),需要大量的數(shù)據(jù)進行訓練,該人臉畫板系統(tǒng)也不例外。開發(fā)團隊基于CelebAMask-HQ[4]人臉圖像數(shù)據(jù)庫,篩選無遮擋的面部圖像,再利用PhotoShop加草圖簡化的方法提取草圖,構(gòu)建了人臉圖像與對應草圖的數(shù)據(jù)集。系統(tǒng)的訓練分為兩個階段:先訓練局部嵌入模塊,獲取局部特征映射,再固定局部嵌入模塊的參數(shù),整體訓練特征映射模塊與圖像合成模塊。
人臉畫板的更多應用
人臉畫板采用從局部到全局的方法,對局部進行了編碼解析。因此,人臉畫板可以對來自不同人不同部位的圖像提取草圖編碼,再將其整合看作一張臉送入網(wǎng)絡生成人臉圖像,實現(xiàn)人臉拼接。同時,由于人臉畫板將人臉的各部位編碼為特征表示,并在流形空間上進行投影,因此可以將不同人臉的特征進行線性插值,再將插值后的特征輸入網(wǎng)絡,合成中間人臉結(jié)果,實現(xiàn)人臉變換。
智能人臉畫板系統(tǒng)有很高的實用價值與現(xiàn)實意義。通過人臉畫板系統(tǒng),刑偵人員可以定位嫌疑分子,方便案件的偵查,保護人民財產(chǎn)安全;普通用戶可以自由繪制真實人臉,體驗科技與藝術(shù)的完美融合,激發(fā)想象力與創(chuàng)造力;專業(yè)藝術(shù)家可以任意設(shè)計精美模特,創(chuàng)作獨特而精妙的藝術(shù)品,帶來獨具匠心的藝術(shù)體驗。在后續(xù)的研究中,研究團隊將繼續(xù)擴展人臉畫板的功能,進一步提升用戶體驗,便利藝術(shù)創(chuàng)作。
參考文獻
[1] CHEN S Y, SU WC, GAO L, et al. DeepFace-Drawing: Deep Generation of Face Images from Sketches. ACM SIGGRAPH\TOG. 2020,39(4),72:1–72:16.
[2] SUTHERLAND I E. Sketchpad a man-machine graphical communication system[J]. Simulation, 1964, 2(5): R-3-R-20.
[3] IAN J G, ABADIE J P, MIRZA M, et al. Generative adversarial networks, arXiv preprint arXiv, 2014(2661):1406.
[4] LEE C H, LIU Z W, WUL Y, ea al. MaskGAN: Towards Diverse and Interactive Facial Image Manipulation, CVPR 2020.