維尼
圖像修改是圖像生成領(lǐng)域的一個(gè)特殊任務(wù),它要求生成對(duì)原圖進(jìn)行修改后得到的圖片。例如常用的美顏、修圖軟件,可以得到原照調(diào)整后的美顏人像。目前,絕大多數(shù)的圖片操縱和生成都是在像素級(jí)別進(jìn)行的。隨著技術(shù)的進(jìn)步,基于語義的圖像修改和生成成為可能。
一篇 CVPR2020 的論文 Semantic Image Manipulation Using Scene Graphs 就聚焦圖片語義級(jí)別修改問題,實(shí)現(xiàn)針對(duì)場(chǎng)景圖的修改圖片生成問題。即給定一張圖片,先生成一個(gè)表示圖片中出現(xiàn)的對(duì)象及其關(guān)系的語義場(chǎng)景圖,用戶可以利用場(chǎng)景圖方便地修改其中的節(jié)點(diǎn)(對(duì)象)和邊(關(guān)系),模型再根據(jù)這些修改后的場(chǎng)景圖和原圖生成修改后的圖片,如圖一所示。
這需要模型對(duì)原圖中的對(duì)象進(jìn)行替換或者改變?cè)瓐D中對(duì)象之間的關(guān)系,但還要保持生成的圖片和原圖中語義關(guān)系以及風(fēng)格一致。
高層級(jí)的圖片修改是以語義為中心的,這項(xiàng)技術(shù)有廣泛的應(yīng)用場(chǎng)景。
編輯旅行風(fēng)景照時(shí),不需要再手動(dòng)切割、刪除其中多余的旅客,直接在場(chǎng)景圖中刪除相應(yīng)的對(duì)象節(jié)點(diǎn)即可。用戶還可以輕松地重新安排對(duì)象之間的空間關(guān)系,重新排列天空中云的位置,創(chuàng)造出更美的圖片。該技術(shù)還可以應(yīng)用到機(jī)器人領(lǐng)域。當(dāng)要求機(jī)器人“把房間收拾干凈” 時(shí),可通過該技術(shù)構(gòu)建出整理后的房間圖片,幫助機(jī)器人完成任務(wù)。
要利用深度學(xué)習(xí)技術(shù)解決這一問題,首先面臨的難題就是訓(xùn)練數(shù)據(jù)。給定圖片 I,需要得到場(chǎng)景 G, 修改后的場(chǎng)景圖 g 以及修改后得到的圖片 i。要得到這樣的訓(xùn)練數(shù)據(jù)非常困難。在本文中,作者提出了一個(gè)空間語義場(chǎng)景圖網(wǎng)絡(luò),巧妙避開了數(shù)據(jù)難題。該模型不需要針對(duì)場(chǎng)景圖的修改操作或者是圖片編輯的直接監(jiān)督信息,而可以直接利用現(xiàn)存的數(shù)據(jù)集進(jìn)行學(xué)習(xí)。
基于語義關(guān)系的圖片修改?;谠瓐D(source image),模型首先生成場(chǎng)景圖,接下來用戶對(duì)場(chǎng)景圖進(jìn)行修改,最后模型根據(jù)修改的場(chǎng)景圖生成新的圖片。圖中用戶將女孩和馬的關(guān)系由“騎”變?yōu)椤霸谂赃叀?/p>
空間語義場(chǎng)景圖網(wǎng)絡(luò)的結(jié)構(gòu)如圖所示。在測(cè)試階段,模型首先利用比較成熟的技術(shù),為輸入的圖片生成場(chǎng)景圖,表示圖片中出現(xiàn)的對(duì)象和它們之間的關(guān)系。接下來,用戶對(duì)場(chǎng)景圖進(jìn)行修改。最后,模型根據(jù)用戶的修改操作進(jìn)行圖片生成。
而在訓(xùn)練階段,輸入一張圖片,模型首先利用預(yù)訓(xùn)練模型對(duì)圖片中的物體進(jìn)行檢測(cè),提取這些對(duì)象的視覺特征(包括屬性信息和位置信息)。接下來,模型利用比較成熟的技術(shù)為圖片生成其場(chǎng)景圖。然后,模型以一定的概率將圖片中的一些對(duì)象和提取的視覺特征遮蓋。最后,模型根據(jù)被遮蓋的,殘缺不全的原圖和場(chǎng)景圖重構(gòu)原圖。通過這樣的方式,模型不需要(I,G,g,i)作為訓(xùn)練數(shù)據(jù),而可以利用大量易得的顯存圖片數(shù)據(jù)集。
那么為什么遮蓋 - 重構(gòu)的過程可以在訓(xùn)練階段代替修改 - 重構(gòu)的過程?以女孩騎馬的圖片為例。當(dāng)將女孩和馬的關(guān)系‘騎修改為‘在旁邊時(shí),模型需要重新安排這些物體的空間位置關(guān)系,也就是將原有的關(guān)系丟棄,根據(jù)修改后的場(chǎng)景圖和其他對(duì)象以及關(guān)系信息重構(gòu)圖像。這個(gè)丟棄原有關(guān)系重新預(yù)測(cè)的過程,就可類比為將特征遮蓋并預(yù)測(cè)的過程。
作者在 CLVER 和 Visual Genome 兩個(gè)數(shù)據(jù)集上進(jìn)行了試驗(yàn)。CLVER 數(shù)據(jù)集是利用模擬器生成的合成數(shù)據(jù)集,可以得到圖片的修改操作和修改前后的信息,便于對(duì)模型進(jìn)行定量的分析。Visual Genome 數(shù)據(jù)集則可測(cè)評(píng)該模型在無限制的真實(shí)場(chǎng)景中的效果。
CLVER 實(shí)驗(yàn)結(jié)果示例。(a) 修改物體的空間關(guān)系(b)物體移除(c)物體屬性修改(d)物體增添
CLVER 模擬器可以生成不同顏色的幾何形體,并任意操縱它們的位置。作者利用該模擬器生成如圖三所示的圖片,并對(duì)這些圖片進(jìn)行修改,得到修改后的圖片,最終得到 21,310 對(duì)圖片。在該數(shù)據(jù)集上,作者將提出的無監(jiān)督模型(訓(xùn)練時(shí)僅使用原圖片)與有監(jiān)督方法 sg2im(訓(xùn)練時(shí)使用原圖片和修改后的圖片)進(jìn)行對(duì)比,結(jié)果如圖 4 所示??梢钥吹?,無監(jiān)督方法在包含全部像素點(diǎn)的 4 個(gè)測(cè)評(píng)指標(biāo)中,有一明顯超過有監(jiān)督方法,一個(gè)與之不相上下。而在針對(duì)相關(guān)區(qū)域的測(cè)評(píng)中,兩個(gè)指標(biāo)均勝過有監(jiān)督方法。
最后,作者在 Visual Genome 數(shù)據(jù)集上進(jìn)行試驗(yàn),以測(cè)評(píng)模型在真實(shí)場(chǎng)景中的效果。由于無法得到每張真實(shí)場(chǎng)景修改后的圖片,作者通過圖片重構(gòu)的方式進(jìn)行評(píng)估。上圖展示了該模型在真實(shí)場(chǎng)景圖片中的應(yīng)用。可以看到,這種方法可以幫助用戶對(duì)圖片進(jìn)行語義層面的操縱修改。
從這篇論文談開,我們已經(jīng)看到,隨著 CV 技術(shù)的發(fā)展,對(duì)圖片的操縱,換臉、合成、修改正變得越來越容易,合成的圖片也越來越逼真。在這些技術(shù)為人們帶來新奇體驗(yàn)的同時(shí),如何警惕其不被濫用會(huì)是一個(gè)重要的議題。(摘自美《深科技》)(編輯/諾伊克)