亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)圖像合成研究綜述

        2023-12-23 10:13:46葉國(guó)升王建明楊自忠張宇航崔榮凱宣帥
        關(guān)鍵詞:前景信息

        葉國(guó)升,王建明,*,楊自忠,張宇航,崔榮凱,宣帥

        1.大理大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院,大理 671003;2.云南省昆蟲(chóng)生物醫(yī)藥研發(fā)重點(diǎn)實(shí)驗(yàn)室(大理大學(xué)),大理 671000

        0 引言

        圖像合成一直是圖像處理領(lǐng)域的研究熱點(diǎn),具有廣泛的應(yīng)用前景。傳統(tǒng)的圖像合成一般基于計(jì)算機(jī)圖形學(xué)的方法實(shí)現(xiàn)(Szeliski,2011),聚焦于圖像畫(huà)質(zhì)增強(qiáng)、圖像濾波和畫(huà)面銳化等任務(wù)。在圖像合成中,傳統(tǒng)方法主要通過(guò)對(duì)前景對(duì)象裁剪加粘貼的方法實(shí)現(xiàn),但是在簡(jiǎn)單的裁剪粘貼方法中前景對(duì)象的大小、位置和旋轉(zhuǎn)角度等因素完全由用戶自主選擇決定,十分費(fèi)時(shí)費(fèi)力,并且這些細(xì)節(jié)因素很大程度上也影響著合成圖像的質(zhì)量。除此之外,傳統(tǒng)算法合成的圖像在清晰度、自然程度方面效果有限,且工作量大、人工成本高昂。

        得益于深度學(xué)習(xí)的快速發(fā)展,基于深度學(xué)習(xí)的圖像合成算法逐漸成熟,圖像合成領(lǐng)域的可用算法工具得到豐富和完善(何冀軍,2020)。深度學(xué)習(xí)方法能夠簡(jiǎn)化用戶操作,其一般合成過(guò)程如圖1 所示,通常基于前景來(lái)源圖像、前景標(biāo)簽圖像及待合成背景圖像,就能自動(dòng)進(jìn)行圖像合成,其中前景標(biāo)簽圖可以是Mask圖或alpha matting圖等。

        圖1 圖像合成過(guò)程(Cong等,2020b)Fig.1 Image composition process(Cong et al.,2020b)

        通過(guò)圖像合成技術(shù),合成與真實(shí)圖像自然語(yǔ)義完全一致的圖像,是圖像合成的最終目標(biāo)。但當(dāng)前傳統(tǒng)及基于深度學(xué)習(xí)的圖像合成技術(shù),皆面臨前景對(duì)象的位置確定、大小調(diào)整、邊界細(xì)節(jié)模糊處理以及顏色差異調(diào)整等各種問(wèn)題。上述圖像合成面臨的問(wèn)題可歸結(jié)為:1)幾何、外觀一致性的前景對(duì)象適應(yīng)性問(wèn)題(Chen 和Kae,2019;Zhan 等,2021b);2)色調(diào)不一致、陰影缺失的視覺(jué)和諧問(wèn)題;3)前景對(duì)象與背景不符合現(xiàn)實(shí)邏輯的生境適應(yīng)性問(wèn)題等。

        前景對(duì)象適應(yīng)性問(wèn)題主要指的是在圖像合成過(guò)程中,前景對(duì)象可以自動(dòng)地以最合理的大小出現(xiàn)在背景圖的合理位置,最大程度地接近真實(shí)圖像。這也是圖像合成中關(guān)鍵的一步,在高效完成前景對(duì)象適應(yīng)性后,則需要考慮下一步的圖像效果優(yōu)化。同時(shí),在前景對(duì)象被提取并合成在背景圖的過(guò)程中,邊界信息往往因?yàn)椴痪_的標(biāo)簽圖導(dǎo)致模糊,圖像融合(Kaur 等,2021;Zhang 等,2020b)作為一種圖像合成方法,使用各種數(shù)學(xué)模型將來(lái)自不同圖像中的關(guān)鍵信息對(duì)齊以合成單一圖像,一定程度上能夠細(xì)化邊界信息。

        在完成圖像前景對(duì)象合成后,能否達(dá)到真實(shí)圖像的效果不僅需要同時(shí)考慮前景對(duì)象的大小、位置和邊緣細(xì)節(jié)等情況,還需要關(guān)注圖像視覺(jué)信息是否和諧。而基于深度學(xué)習(xí)的“圖像和諧化”方法能夠有效解決合成圖像的視覺(jué)不和諧問(wèn)題。同時(shí),圖像合成還需進(jìn)一步考慮前景對(duì)象與背景圖像的邏輯匹配問(wèn)題,參考生態(tài)領(lǐng)域生境的相關(guān)概念,本文提出了圖像合成中的生境適應(yīng)性問(wèn)題,具體表現(xiàn)為目標(biāo)前景與合成背景之間是否邏輯自洽,如對(duì)于生物目標(biāo),其合成圖像能否正確表達(dá)目標(biāo)的真實(shí)生存環(huán)境,對(duì)于非生物目標(biāo),其合成圖像能否正確表達(dá)目標(biāo)存在的合理性。只有解決圖像合成的上述問(wèn)題,才能合成更接近“真實(shí)”的圖像,從而進(jìn)一步應(yīng)用于影視特效、廣告制作和圖像處理等相關(guān)工作。

        綜上所述,本文系統(tǒng)地論述了目前圖像合成任務(wù)中面臨的各種問(wèn)題,介紹了不同問(wèn)題中所使用的公開(kāi)數(shù)據(jù)集,同時(shí)總結(jié)了最新的深度學(xué)習(xí)研究成果與方法對(duì)比,介紹了圖像合成技術(shù)的應(yīng)用前景,以及對(duì)目前尚待解決的問(wèn)題展開(kāi)了深入探討。為進(jìn)一步推動(dòng)圖像合成的相關(guān)研究工作,提出了一些具有實(shí)際參考價(jià)值的建議,最后總結(jié)了未來(lái)工作中可能面臨的挑戰(zhàn)并對(duì)發(fā)展趨勢(shì)提出展望。

        1 前景對(duì)象適應(yīng)性問(wèn)題

        在傳統(tǒng)的圖像合成過(guò)程中,手動(dòng)選擇前景對(duì)象的放置位置、調(diào)整大小比例等往往會(huì)占據(jù)整個(gè)工作的大部分時(shí)間,而這部分工作也是合成任務(wù)的關(guān)鍵內(nèi)容,它作為全局任務(wù)的初步階段,很大程度上影響著最終合成圖像的質(zhì)量。同樣地,基于深度學(xué)習(xí)的圖像合成方法也面臨著類(lèi)似的問(wèn)題:模型如何學(xué)習(xí)才能完成最佳的前景位置選擇,如何自適應(yīng)地根據(jù)背景信息調(diào)整前景對(duì)象的大小等。而前景對(duì)象的自適應(yīng)性能夠解決此類(lèi)問(wèn)題并為后續(xù)工作奠定基礎(chǔ)。前景對(duì)象適應(yīng)性問(wèn)題可細(xì)分為兩個(gè)子問(wèn)題:1)幾何一致性問(wèn)題;2)外觀一致性問(wèn)題(Chen 和Kae,2019)。其中幾何一致性問(wèn)題主要指圖像合成時(shí)前景對(duì)象的大小調(diào)整、空間匹配(位置放置、幾何角度確定等)和語(yǔ)義沖突等內(nèi)容。外觀一致性問(wèn)題主要指合成時(shí)前景對(duì)象與背景的邊界細(xì)節(jié)優(yōu)化、前后景遮擋處理等內(nèi)容。

        1.1 幾何一致性

        幾何一致性主要指前景對(duì)象在背景圖中的幾何信息是否匹配,主要表現(xiàn)為前景對(duì)象的大小、位置如何確定,前景對(duì)象是否需要幾何旋轉(zhuǎn)以匹配視角等方面,如圖2所示(取自O(shè)PA數(shù)據(jù)集(Liu等,2021))。對(duì)于圖像合成任務(wù),幾何一致是首先需要解決的問(wèn)題。

        圖2 幾何一致性描述(Liu等,2021)Fig.2 Description of geometric consistency from OPA datasets(Liu et al.,2021)((a)selection of position;(b)adjustment of the size;(c)adjustment of the angle)

        對(duì)于前景對(duì)象的大小、空間匹配問(wèn)題,Tan 等人(2018)提出語(yǔ)義感知人物圖像合成網(wǎng)絡(luò),該網(wǎng)絡(luò)首先通過(guò)預(yù)測(cè)潛在前景對(duì)象的邊界框,隨后檢索與局部和全局場(chǎng)景外觀相兼容的信息以完成圖像合成任務(wù),并通過(guò)alpha matting(Chen 等,2012)方法使合成效果更加自然順滑,但是此網(wǎng)絡(luò)也存在局限性,主要是合成圖像中前景對(duì)象更傾向于出現(xiàn)在圖像中心位置、無(wú)法明確圖像和諧化任務(wù)、合成前景對(duì)象局限于人物以及無(wú)法進(jìn)行端到端處理等。

        考慮到空間轉(zhuǎn)換網(wǎng)絡(luò)(spatial Transformer network,STN)(Jaderberg 等,2015)具有良好的空間不變特性,能夠解決圖像合成時(shí)的空間幾何角度問(wèn)題,Lin 等人(2018)利用STN 提出ST-GAN(spatial Transformer network generative adversarial network),設(shè)計(jì)了一種STN 扭曲方案及線性訓(xùn)練策略,學(xué)習(xí)前景對(duì)象的高效幾何變換以匹配背景圖像信息,提高圖像真實(shí)感,該網(wǎng)絡(luò)能夠應(yīng)用于高分辨率圖像合成任務(wù)。但是,網(wǎng)絡(luò)的不足之處在于當(dāng)出現(xiàn)數(shù)據(jù)不平衡時(shí),或前景對(duì)象出現(xiàn)極端的平移或旋轉(zhuǎn)時(shí),ST-GAN會(huì)失去良好的性能。Tripathi 等人(2019)提出了TERSE(task aware efficient realistic synthesis example),同樣利用STN在任務(wù)感知合成數(shù)據(jù)生成的概念上提出在背景圖像中生成額外的偽影信息的策略,使得目標(biāo)網(wǎng)絡(luò)不受混合偽影的影響,同時(shí)目標(biāo)網(wǎng)絡(luò)會(huì)向合成器提供反饋以生成真實(shí)的合成樣本。Lee 等人(2018)在STN基礎(chǔ)上訓(xùn)練包括兩個(gè)模塊的端到端網(wǎng)絡(luò),不同模塊分別預(yù)測(cè)前景對(duì)象合理的位置和形狀,最后將二者相統(tǒng)一以完成圖像合成任務(wù)。

        為了使前景對(duì)象的放置更具合理性,Zhang 等人(2020a)提出了PlaceNe(tplacement network),對(duì)于給定前景對(duì)象和背景信息,模型預(yù)測(cè)出前景對(duì)象的不同位置分布,并通過(guò)判別器檢測(cè)合成圖像的合理性以提高圖像合成質(zhì)量,如圖3 所示,但是他們的工作只能在前景對(duì)象與背景圖像的域相似的情況下完成(Chen 和Kae,2019)。Azadi 等人(2020)進(jìn)一步提出一種自一致性組合分解網(wǎng)絡(luò)(self consistent composition-by-decomposition,CoDe),網(wǎng)絡(luò)能夠根據(jù)不同分布的前景對(duì)象與背景的紋理、形狀等特征,通過(guò)計(jì)算聯(lián)合分布生成真實(shí)圖像,并且在合成過(guò)程中對(duì)每個(gè)對(duì)象進(jìn)行了旋轉(zhuǎn)、縮放、平移和對(duì)其他對(duì)象進(jìn)行部分遮擋操作,最大程度滿足幾何一致性的要求。而在人像放置任務(wù)中,Li 等人(2019)使用端到端的生成模型,同時(shí)預(yù)測(cè)語(yǔ)義信息上合理且?guī)缀紊峡尚械娜梭w前景對(duì)象位置和相應(yīng)的姿態(tài)動(dòng)作,以提高人像合成圖像的真實(shí)性。

        圖3 PlaceNet網(wǎng)絡(luò)結(jié)構(gòu)圖(Zhang等,2020a)Fig.3 The network structure of PlaceNe(tZhang et al.,2020a)

        Zhu 等人(2022a)同時(shí)考慮了前景對(duì)象自適應(yīng)與圖像和諧化,提出了幾何與照明感知網(wǎng)絡(luò)(geometry-and-lighting-aware,GALA)。其使用的交替訓(xùn)練策略不僅保持合成圖像中語(yǔ)義信息的兼容性,還能夠自動(dòng)檢索前景對(duì)象最佳的放置位置和大小比例,并通過(guò)學(xué)習(xí)照明信息完成和諧化任務(wù)。Bazazian 等人(2022)采用分割引導(dǎo)的方法,提出雙域合成(dual-domain synthesis,DDS)框架,將兩幅圖像分為源域與目標(biāo)域,分別利用掩碼確定待合成區(qū)域,將源域中的前景對(duì)象合成到目標(biāo)域中,形成合成結(jié)果圖。Zhou 等人(2022)將前景對(duì)象適應(yīng)性任務(wù)視為圖完成問(wèn)題,提出GracoNet(graph completion network),通過(guò)設(shè)計(jì)圖完成模塊(graph completion module,GCM),將來(lái)自不同位置的不同感受野所提取的信息作為背景結(jié)點(diǎn),并推斷出前景對(duì)象缺失的位置與大小信息,從圖完成的角度進(jìn)行前景對(duì)象幾何一致性調(diào)整。

        1.2 外觀一致性

        在幾何一致性的基礎(chǔ)上,進(jìn)一步對(duì)前景對(duì)象的外觀信息優(yōu)化,完成前景對(duì)象的外觀一致性調(diào)整,也是圖像合成的重要任務(wù)。在前景對(duì)象適應(yīng)性(幾何、外觀一致性)合成的基礎(chǔ)上,后續(xù)任務(wù)將能進(jìn)一步提升圖像真實(shí)性。外觀一致性主要指前景對(duì)象本身的外觀特征信息如何與背景圖像相適應(yīng),如在前景對(duì)象合成至背景圖中時(shí),前景對(duì)象的邊緣細(xì)節(jié)模糊處理、前景對(duì)象在背景圖中被其他物體遮擋處理等,如圖4所示。

        圖4 外觀一致性描述(Zhan等,2021a;Zhang等,2020a)Fig.4 Description of appearance consistency(Zhan et al.,2021a;Zhang et al.,2020a)((a)occlusion between foreground and background;(b)fuzzy of edge details)

        1.2.1 前后景遮擋

        前景對(duì)象在合成至背景圖時(shí),背景圖中場(chǎng)景復(fù)雜,則不同對(duì)象間的相互遮擋極易使圖像失真,導(dǎo)致任務(wù)失敗。對(duì)于此類(lèi)問(wèn)題,Chen 和Kae(2019)在解決幾何一致性問(wèn)題基礎(chǔ)上,進(jìn)一步解決了外觀一致性問(wèn)題,他們提出了顏色和幾何一致生成式對(duì)抗網(wǎng)絡(luò)(geometrically and color consistent generative adversarial network,GCC-GAN),在對(duì)抗學(xué)習(xí)過(guò)程中學(xué)習(xí)幾何一致和顏色一致,處理遮擋與色調(diào)和諧問(wèn)題,同時(shí)也能自動(dòng)合成不同來(lái)源的圖像,但是不能處理不同姿勢(shì)的物體。Zhan 等人(2019)提出了空間融合GAN(spatial fusion GAN,SF-GAN),該網(wǎng)絡(luò)組合了幾何與外觀合成器,以合成滿足幾何與外觀一致的圖像,但是SF-GAN 結(jié)構(gòu)簡(jiǎn)單,只適用于單一的前景對(duì)象合成,無(wú)法適用于多前景目標(biāo)合成任務(wù)。Azadi等人(2020)提出CoDe(composition by decomposition network),通過(guò)計(jì)算聯(lián)合分布一定程度上解決了幾何一致性問(wèn)題,進(jìn)一步完成了外觀一致性的統(tǒng)一。類(lèi)似地,Tan 等人(2019)通過(guò)估計(jì)目標(biāo)圖像的深度信息,并基于深度信息與對(duì)象邊界信息檢測(cè)對(duì)象的支撐區(qū)域(如地平面),推斷相互之間的遮擋關(guān)系,最終將前景對(duì)象自適應(yīng)地插入背景圖像中,然而其方法也存在不足之處:模型通過(guò)語(yǔ)義分割方法提取圖像中的感興趣內(nèi)容(region of interest,ROI),但是在分割不精確的情況下,前景對(duì)象會(huì)出現(xiàn)偽影信息影響合成效果。

        1.2.2 前景對(duì)象邊緣細(xì)節(jié)模糊

        由于不精確的前景對(duì)象提取技術(shù)導(dǎo)致前景對(duì)象在合成至背景圖的過(guò)程中,前景對(duì)象邊緣處仍有來(lái)自源圖的背景信息,從而產(chǎn)生邊緣細(xì)節(jié)模糊問(wèn)題。對(duì)于此類(lèi)問(wèn)題,一般使用圖像融合(Kaur 等,2021)方法,其能夠?qū)?lái)自不同圖像的有效信息進(jìn)行合成,使前景對(duì)象與背景高度融合,如泊松圖像融合可以保證合成圖像在顏色上的無(wú)縫性,使合成圖像在前景對(duì)象邊界處不存在明顯的變化(吳昊和徐丹,2012),有效解決前后景邊界模糊問(wèn)題,如圖5所示。

        圖5 泊松圖像融合結(jié)果(Gkioulekas和Zhi,2017)Fig.5 Result of Poisson image blending(Gkioulekas and Zhi,2017)((a)foreground source image;(b)background image;(c)composite image)

        Wu 等人(2019)結(jié)合生成模型和基于梯度信息的融合方法,將二者的優(yōu)勢(shì)互補(bǔ)提出了GP-GAN(Gaussian-Poisson GAN)模型,通過(guò)使用梯度濾波器獲得圖像梯度信息,混合GAN 以學(xué)習(xí)合成圖像與融合圖像間的映射關(guān)系,并利用來(lái)自拉普拉斯金字塔(Burt 和Adelson,1983a)的高斯—泊松方程解決高分辨率下的圖像融合問(wèn)題。模型的不足之處在于當(dāng)合成圖像數(shù)據(jù)分布遠(yuǎn)離訓(xùn)練數(shù)據(jù)集分布時(shí),最終的圖像合成效果會(huì)下降。類(lèi)似地,受拉普拉斯金字塔混合(Burt 和Adelson,1983b)的啟發(fā),Zhang 等人(2021)針對(duì)人物肖像合成問(wèn)題,提出密集連接多流融合網(wǎng)絡(luò)(denseconnected multi-stream fusion network),以處理不同尺度的肖像前景對(duì)象和背景特征,不同于圖像和諧化(Cong 等,2020a)的目的是協(xié)調(diào)前景對(duì)象和背景視覺(jué)信息,此網(wǎng)絡(luò)著重于減輕由不完美的前景對(duì)象掩碼和顏色去污引起的邊界偽影問(wèn)題,以進(jìn)一步提升圖像合成的效果。

        考慮到常用的傳統(tǒng)泊松圖像混合(Pérez 等,2003)方法在合成圖像時(shí)對(duì)梯度域平滑度進(jìn)行加強(qiáng),Zhang 等人(2020b)認(rèn)為該方法只考慮了目標(biāo)圖像的邊界像素信息,而不能適應(yīng)合成背景圖像的紋理信息,為此,他們提出了一種泊松混合損失函數(shù),并使用內(nèi)存限制BFGS(limited-memory BFGS)算法更新像素以重建混合區(qū)域,在平滑混合邊界梯度域的基礎(chǔ)上,進(jìn)一步添加了一致性的紋理特征,以提高圖像質(zhì)量,其網(wǎng)絡(luò)模型如圖6所示。

        圖6 兩階段融合網(wǎng)絡(luò)結(jié)構(gòu)圖(Zhang等,2020b)Fig.6 The network structure of two-stage blending(Zhang et al.,2020b)

        幾何一致性著力于解決合成圖像中前景對(duì)象的大小、位置和幾何角度等問(wèn)題;外觀一致性著力于解決前景對(duì)象與背景圖像的遮擋沖突問(wèn)題和前景對(duì)象的邊緣細(xì)節(jié)問(wèn)題。上述前景對(duì)象適應(yīng)性問(wèn)題是圖像合成技術(shù)面臨的主要問(wèn)題,為后續(xù)圖像合成任務(wù)提供了關(guān)鍵基礎(chǔ)。

        2 視覺(jué)和諧問(wèn)題

        視覺(jué)和諧主要指合成圖像與真實(shí)圖像相比色調(diào)是否一致、合成圖像的前景對(duì)象是否具有陰影及陰影是否合理等,上述內(nèi)容可歸結(jié)為視覺(jué)和諧問(wèn)題。在幾何、外觀一致性的基礎(chǔ)上,視覺(jué)和諧也很大程度上影響著合成圖像的真實(shí)性。此類(lèi)問(wèn)題通常由于前景對(duì)象與背景圖像之間不同的拍攝光照環(huán)境、生態(tài)環(huán)境和氣候等因素的影響產(chǎn)生的視覺(jué)效果差異造成,一般表現(xiàn)為顏色的不一致性問(wèn)題(Ling 等,2021),如在夜晚行駛的汽車(chē)前景對(duì)象合成至白天的背景圖中,會(huì)出現(xiàn)色調(diào)不一致的情況,如圖7所示。

        圖7 色調(diào)不一致的合成圖像Fig.7 Composite image with inconsistent tones((a)foreground source image;(b)background image;(c)composite image)

        對(duì)于視覺(jué)和諧中的陰影問(wèn)題,由于在利用圖像分割、圖像摳圖等技術(shù)提取目標(biāo)前景的過(guò)程中,一般不包含陰影信息,從而導(dǎo)致合成圖缺失必要的陰影信息。同時(shí),若目標(biāo)前景所含陰影信息與背景中的其他物體陰影不一致時(shí),也會(huì)導(dǎo)致視覺(jué)不和諧的問(wèn)題。

        2.1 色調(diào)不一致

        對(duì)于合成圖像,通常會(huì)出現(xiàn)前后景色調(diào)沖突的情況,一般使用“圖像和諧化”方法解決合成圖像的前景對(duì)象與背景色調(diào)信息的一致性問(wèn)題,該方法通過(guò)改變前景對(duì)象的色調(diào)、對(duì)比度和飽和度等信息以匹配背景圖,從而使全局圖像在色調(diào)上滿足一致性,達(dá)到視覺(jué)上和諧的效果,使得合成圖像更加真實(shí)。傳統(tǒng)的和諧化方法大都采用基于顏色統(tǒng)計(jì)的算法去匹配前后景的外觀信息,而基于深度學(xué)習(xí)的圖像和諧化方法能關(guān)注更多細(xì)節(jié)信息并自動(dòng)和諧視覺(jué)效果。另外,圖像風(fēng)格遷移(Gatys 等,2016a,b;陳淑環(huán)等,2019)方法也能完成圖像和諧化,此類(lèi)方法嘗試將背景圖的視覺(jué)信息遷移到前景對(duì)象中以達(dá)到色調(diào)一致。

        為了使合成圖像達(dá)到視覺(jué)和諧的目的,Zhu 等人(2015)設(shè)計(jì)了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)RealismCNN,通過(guò)一個(gè)判別模型估計(jì)合成圖像的真實(shí)感以達(dá)到一定的和諧化目標(biāo),但其判別模型在圖像合成過(guò)程中是固定的,不能做進(jìn)一步改進(jìn)。Hao 等人(2020)考慮通過(guò)背景調(diào)節(jié)前景對(duì)象的高級(jí)特征統(tǒng)計(jì)信息以提高和諧化程度,并在全卷積網(wǎng)絡(luò)結(jié)構(gòu)上提出一個(gè)易遷移的基于注意力機(jī)制的模塊(attention-based foreground-background feature map modulation),此模塊能夠?qū)⑶熬皩?duì)象特征的標(biāo)準(zhǔn)差與背景特征的標(biāo)準(zhǔn)差對(duì)齊,以捕獲整個(gè)圖像的全局依賴關(guān)系,從而使得圖像更加真實(shí)。Tsai 等人(2017)認(rèn)為在圖像和諧化方法中通過(guò)學(xué)習(xí)前景對(duì)象和背景圖像的外觀特征統(tǒng)計(jì)信息存在著一定的不可靠性,為了避免這類(lèi)問(wèn)題提出了一個(gè)采用編解碼器的端到端的卷積網(wǎng)絡(luò),可以在協(xié)調(diào)過(guò)程中捕獲合成圖像的上下文與語(yǔ)義信息,雖然此方法可以在圖像和諧化問(wèn)題上生成真實(shí)的構(gòu)圖,但在合成圖像時(shí)仍須人工確定前景對(duì)象位置及調(diào)整大小。Cun 和Pun(2020)為進(jìn)一步提升圖像和諧化效果,設(shè)計(jì)了一個(gè)空間分離注意力模塊(spatial-separated attention module,S2AM),并將其插入和諧化骨干網(wǎng)絡(luò)U-Net 中,以學(xué)習(xí)低層次特征的區(qū)域外觀變化。隨后,在協(xié)調(diào)沒(méi)有前景掩碼的圖像合成任務(wù)中,通過(guò)插入空間注意力模塊和S2AM 的注意力損失完成圖像和諧化。Sofiiuk等人(2021)利用預(yù)訓(xùn)練的分類(lèi)網(wǎng)絡(luò)學(xué)習(xí)圖像高級(jí)特征空間,將已有的編解碼器框架與預(yù)訓(xùn)練的高分辨率深度前景對(duì)象感知網(wǎng)絡(luò)相組合,并提出FN-MSE 目標(biāo)函數(shù)以提高圖像和諧化程度。

        從前后景域信息角度出發(fā),Cong 等人(2020a)基 于GAN 提 出DoveNet(domain verification network),用域驗(yàn)證鑒別器分別提取前景對(duì)象和背景圖像的域編碼并加以區(qū)分,使用生成器將合成圖像的前景對(duì)象遷移到背景圖像所在的域,盡可能使前后景的域代碼接近,并構(gòu)建了用于圖像和諧化任務(wù)的由HCOCO(harmony Microsoft common objects in context)、HAdobe5k(harmony mit-adobe5k)、HFlickr(harmony flickr)及Hday2night(harmony day2night)組 成的iHarmony4(image harmony datasets)公共數(shù)據(jù)集(Cong 等,2020b),但是DoveNet 存在訓(xùn)練過(guò)程不穩(wěn)定的問(wèn)題。為穩(wěn)定訓(xùn)練過(guò)程,并提升和諧化效果,Cong 等人(2021)進(jìn)一步提出了Bargain-Net(background-guided domain translation network),其使用一個(gè)域提取器與兩個(gè)三元損失調(diào)節(jié)完成背景引導(dǎo)的前景對(duì)象域轉(zhuǎn)換任務(wù),同時(shí)模型還具備了預(yù)測(cè)合成圖像和諧化程度的能力。但是,Valanarasu 等人(2023)發(fā)現(xiàn)BargainNet 的魯棒性不足以完成更真實(shí)的人像和諧化任務(wù),在其提出的交互式肖像和諧化框架(interactive portrait harmonization,IPH)中,用戶可以靈活地選定背景圖中的指定區(qū)域去引導(dǎo)前景對(duì)象的和諧化。雖然IPH 在室外的用戶肖像合成圖中的和諧化效果顯著,但也存在不足之處,即在由人物肖像和物體合成的圖像上進(jìn)行和諧化時(shí),網(wǎng)絡(luò)性能會(huì)下降,在參考區(qū)域中出現(xiàn)閃光/反光或區(qū)域內(nèi)容由眼鏡、玻璃等特殊對(duì)象構(gòu)成時(shí),模型中樣式編碼器較難提取有意義的紋理、材料光照反射等信息以完成和諧化任務(wù)。同樣是對(duì)人像合成圖像的和諧化,Pandey等人(2021)同時(shí)考慮背景信息和人像光照信息,只需將簡(jiǎn)單的RGB 人像圖和目標(biāo)的高動(dòng)態(tài)范圍(high dynamic range,HDR)照明環(huán)境作為輸入,在合成時(shí)不僅能夠保持前景對(duì)象與背景的高頻細(xì)節(jié)部分,而且能夠使前景對(duì)象隨著HDR 的改變而保持與背景中的照明一致,從而達(dá)到前景對(duì)象在任意環(huán)境光下的匹配,以完成和諧化的任務(wù)。但模型也存在不足,主要是光照反射率推斷在服裝上不準(zhǔn)確、人像的眼睛部位無(wú)法完成局部和諧化、系統(tǒng)依賴HDR 光照環(huán)境作為輸入會(huì)增加系統(tǒng)負(fù)擔(dān)。

        另一種解決色調(diào)不一致的方法是風(fēng)格遷移(Gatys 等,2016a,b),其使用卷積神經(jīng)網(wǎng)絡(luò)(如VGG(Visual Geometry Group)(Simonyan 和Zisserman,2015))分別將輸入圖像的內(nèi)容特征表示和風(fēng)格特征表示進(jìn)行分離與重組,在對(duì)高層抽象特征信息處理后完成風(fēng)格遷移,即將輸入的風(fēng)格圖像的風(fēng)格特征作用于輸入的內(nèi)容圖像上,形成最終風(fēng)格遷移圖,一定程度上可以完成圖像和諧化的任務(wù)。Luan 等人(2018)在使用風(fēng)格遷移技術(shù)的基礎(chǔ)上,設(shè)計(jì)兩遍掃描算法(two-pass algorithm),首先將圖像的整體風(fēng)格全部轉(zhuǎn)移到前景對(duì)象中,其次細(xì)化結(jié)果圖以準(zhǔn)確匹配顏色與質(zhì)感特征,然后依賴映射神經(jīng)反應(yīng)統(tǒng)計(jì)信息,保證了圖像空間信息的一致性,最終完成前景對(duì)象的無(wú)縫合成與和諧化。Ling等人(2021)同樣將圖像風(fēng)格和諧化視為圖像風(fēng)格遷移問(wèn)題,設(shè)計(jì)區(qū)域感應(yīng)的自適應(yīng)實(shí)例歸一化模塊,提出了RainNet(region-aware adaptive normalization network),該網(wǎng)絡(luò)能夠明確地從背景圖中確定視覺(jué)風(fēng)格并將其遷移到前景對(duì)象中以完成合成圖像的和諧化任務(wù)。但是Jiang 等人(2021)發(fā)現(xiàn),風(fēng)格遷移方法在和諧真實(shí)的攝影圖像時(shí)并不合適,原因在于風(fēng)格遷移任務(wù)中需要語(yǔ)義分割掩碼指定特殊區(qū)域或需要前后景圖像共享相似的布局(如建筑物到建筑物),而這在圖像合成及隨后的和諧化任務(wù)中具有局限性,為此提出無(wú)需用戶標(biāo)注的自監(jiān)督和諧化框架(self-supervised harmonization framework,SSH),無(wú)須上述條件即可實(shí)現(xiàn)任意攝影合成圖像的和諧化。

        Guo 等人(2021b)認(rèn)為合成圖像前后景不協(xié)調(diào)的原因在于前景對(duì)象與背景圖像不同的反射率與照明差異,為此提出一種自動(dòng)編碼器,將合成圖像分為反射部分與照明部分分別進(jìn)行和諧化:學(xué)習(xí)并遷移從背景到前景對(duì)象的光照信息以協(xié)調(diào)照明部分,通過(guò)材料一致性懲罰(material consistency penalty)協(xié)調(diào)反射部分,最終完成整體圖像的和諧化。Guo 等人(2021a)又提出采用Transformer 的圖像和諧化框架D-HT(disentangled-harmonization Transformer),利用Transformer 對(duì)上下文依賴的能力,調(diào)整前景對(duì)象光照與背景光照的和諧程度,同時(shí)也保持了結(jié)構(gòu)與語(yǔ)義的穩(wěn)定性,使合成圖像更接近真實(shí)圖像。

        KLD-2Z兩段式滾筒烘絲機(jī)從停機(jī)狀態(tài)啟動(dòng)后,蒸汽經(jīng)管路進(jìn)入烘絲機(jī)滾筒薄板夾層,排出蒸汽在薄板夾層中形成的冷凝水,同時(shí),隨著烘絲機(jī)滾筒薄板夾層蒸汽壓力的升高,滾筒薄板溫度升高。當(dāng)薄板溫度達(dá)到預(yù)熱溫度設(shè)定值(由薄板夾層蒸汽壓力換算得到)后,烘絲機(jī)自動(dòng)切換至準(zhǔn)備狀態(tài)。當(dāng)烘絲機(jī)收到來(lái)料信號(hào)并延時(shí)后,烘絲機(jī)由準(zhǔn)備狀態(tài)切換至啟動(dòng)狀態(tài),在此過(guò)程中,當(dāng)出口水分儀檢測(cè)到物料并延時(shí)后,烘絲機(jī)切換至生產(chǎn)狀態(tài);若烘絲機(jī)入口煙絲中斷,但中斷時(shí)間小于設(shè)定延時(shí),則烘絲機(jī)切換至重啟狀態(tài),若中斷時(shí)間大于設(shè)定延時(shí),則烘絲機(jī)切換至收尾狀態(tài)。待收尾結(jié)束后,烘絲機(jī)即進(jìn)入準(zhǔn)備狀態(tài);當(dāng)烘

        近年來(lái)的深度學(xué)習(xí)圖像和諧化方法主要于低分辨率圖像上實(shí)現(xiàn)密集的像素—像素的轉(zhuǎn)換,而傳統(tǒng)的圖像和諧化實(shí)現(xiàn)的是RGB-RGB的轉(zhuǎn)換,通常會(huì)忽略局部上下文信息。Cong等人(2022)將RGB-RGB、像素—像素轉(zhuǎn)換的兩種方法統(tǒng)一組合到端到端的網(wǎng)絡(luò)中,提出了基于高分辨率合成圖像的和諧化網(wǎng)絡(luò)CDTNe(tcollaborative dual transformation network),該網(wǎng)絡(luò)不僅在高分辨的和諧化任務(wù)中效果顯著,而且能有效降低資源消耗。但是,CDTNet的不足之處在于圖像的局部和諧化容易失敗。Zhu 等人(2022b)認(rèn)為對(duì)前景對(duì)象的和諧化采取轉(zhuǎn)移背景圖中的全部外觀信息是不可取的,為此他們首先根據(jù)背景信息調(diào)整前景對(duì)象的位置,并利用兩種外觀轉(zhuǎn)移策略(location-to-location、patched-to-location)實(shí)現(xiàn)從粗到細(xì)的前景對(duì)象外觀調(diào)整。Peng 等人(2022)認(rèn)為現(xiàn)有的圖像和諧化過(guò)程是對(duì)整個(gè)前景對(duì)象執(zhí)行同樣的和諧化過(guò)程,忽略了每個(gè)色塊間的差異造成的細(xì)節(jié)信息丟失,為此提出了基于細(xì)粒度區(qū)域感知圖像和諧(fine-grained region aware image harmonization,F(xiàn)RIH)的全部—局部?jī)呻A段框架。在第1 階段完成全局粗粒度協(xié)調(diào);第2階段通過(guò)像素的RGB值將輸入前景對(duì)象掩碼自適應(yīng)地聚類(lèi)成子掩碼,并將子掩碼與粗粒度協(xié)調(diào)圖像分別連接輸入級(jí)聯(lián)模塊中,通過(guò)設(shè)計(jì)的融合預(yù)測(cè)模塊關(guān)注具體細(xì)節(jié)信息,最終根據(jù)區(qū)域感知的局部特征調(diào)整完成全局的和諧化任務(wù)。

        2.2 陰影缺失

        合成圖像中若缺少必要的陰影信息會(huì)嚴(yán)重破壞圖像的真實(shí)感,如圖8 中DESOBA(deshadowed object association)數(shù)據(jù)集(Hong 等,2022)所示。陰影生成(Liu 等,2020)是使合成圖像更加真實(shí)的關(guān)鍵步驟,在單一前景對(duì)象合成任務(wù)中,通常面臨陰影是否需要生成,如何根據(jù)背景光照信息等生成合理的陰影等問(wèn)題;在多前景對(duì)象合成時(shí),通常面臨合成圖像中前景對(duì)象陰影信息如何做到與背景圖中的其他物體陰影保持一致、相互之間的陰影重疊如何處理等問(wèn)題。上述陰影生成的相關(guān)問(wèn)題將極大程度影響合成圖像的最終效果(Zhang 等,2019b)。

        圖8 前景對(duì)象陰影生成(DESOBA(Hong等,2022))Fig.8 Foreground object shadow generation(DESOBA(Hong et al.,2022))((a)composite image;(b)foreground mask image;(c)shadow generate target image)

        在前景對(duì)象陰影生成中,常用的方法可以分為使用渲染方法和圖像到圖像的轉(zhuǎn)換方法。其中使用深度學(xué)習(xí)的渲染方法(Liu 等,2017;Garon 等,2019;Weber 等,2018;Hold-Geoffroy 等,2019)大都需要用戶進(jìn)行交互,從低動(dòng)態(tài)范圍(low dynamic range,LDR)的圖像中估計(jì)高動(dòng)態(tài)范圍(HDR)照明信息或場(chǎng)景幾何信息以產(chǎn)生陰影信息(Liu等,2020)。在給定環(huán)境光配置和2DMasks 的條件下,Sheng 等人(2021)設(shè)計(jì)了交互式軟陰影網(wǎng)絡(luò)(soft shadow network,SSN),為用戶選擇下的前景對(duì)象生成陰影。但是不足之處在于模型無(wú)法處理大視野的陰影信息,并且假設(shè)物體總是位于地平面上,無(wú)法解決物體懸浮在地面上方或更加復(fù)雜場(chǎng)景的情況。而無(wú)需用戶交互的渲染任務(wù)(Liao 等,2019;Gardner 等,2019;Zhang等,2019a)嘗試從單一圖像恢復(fù)照明條件和場(chǎng)景幾何信息,但這種估計(jì)十分困難且結(jié)果并不能完全達(dá)到預(yù)期效果(Zhang等,2019b)。

        生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)(Goodfellow 等,2014)及其變體,如CGAN(conditional GAN)(Mirza 和Osindero,2014)和WGAN(Wasserstein GAN)(Arjovsky 等,2017)廣泛應(yīng)用于各種生成式任務(wù)中,如陰影檢測(cè)、陰影去除等任務(wù),在陰影生成任務(wù)中也應(yīng)用廣泛(Liu等,2020)。陰影生成任務(wù)作為圖像到圖像的轉(zhuǎn)換任務(wù)之一,這組方法學(xué)習(xí)了從沒(méi)有前景對(duì)象陰影的輸入圖像到有前景對(duì)象陰影的輸出圖像間的映射關(guān)系,與需要明確光照、反射率、前景對(duì)象材料特性以及場(chǎng)景幾何等信息的渲染方法不同(Hong 等,2022),此類(lèi)方法無(wú)須上述信息即可生成對(duì)應(yīng)的陰影。Hu 等人(2019)針對(duì)陰影去除的任務(wù)設(shè)計(jì)了Mask-ShadowGAN 網(wǎng)絡(luò),其能夠自動(dòng)根據(jù)輸入圖像生成前景對(duì)象掩碼,并利用循環(huán)一致性(cycle-consistency)約束通過(guò)陰影掩碼引導(dǎo)生成前景對(duì)象陰影,但模型難以生成復(fù)雜場(chǎng)景中的前景對(duì)象陰影。Zhang 等人(2019b)使用渲染技術(shù)和公共3D 模型生成數(shù)據(jù)集,設(shè)計(jì)了ShadowGAN模型,其采用局部—全局條件對(duì)抗方案進(jìn)行前景對(duì)象陰影的形狀和方向監(jiān)督,最終在合成圖像中生成陰影,但是該方法只限于單一前景對(duì)象的陰影生成,無(wú)法適用于多前景對(duì)象的陰影生成任務(wù),并且模型也沒(méi)有考慮背景圖像照明信息的影響,同時(shí)數(shù)據(jù)集也是通過(guò)軟件渲染生成,并非采用真實(shí)的場(chǎng)景圖像,因此模型無(wú)法保證真實(shí)圖像的陰影生成效果。上述部分方法需要使用環(huán)境光照明信息作為輔助,一定程度上增加了成本消耗。而在不使用照明條件等其他信息的情況下,Liu 等人(2020)構(gòu)建了大規(guī)模的Shadow-AR數(shù)據(jù)集,并充分利用空間注意力機(jī)制引導(dǎo)的殘差網(wǎng)絡(luò)(He 等,2016)研究對(duì)象遮擋及其陰影間的關(guān)系,在為插入的前景對(duì)象生成粗略陰影后,通過(guò)細(xì)化模塊進(jìn)一步優(yōu)化陰影信息。同樣基于注意力機(jī)制,Hong 等人(2022)在SOBA(shadow-object association)數(shù)據(jù)集(Wang等,2020)基礎(chǔ)上,構(gòu)建真實(shí)復(fù)雜場(chǎng)景下的陰影生成數(shù)據(jù)集DESOBA,并設(shè)計(jì)出兩階段的陰影生成網(wǎng)絡(luò)SGRNet(shadow generation network),如圖9所示。圖9中第1階段使用交互集成注意力機(jī)制(cross attention integration,CAI)完成前景對(duì)象特征與背景特征的信息交互,以生成前景對(duì)象的陰影掩碼;第2階段進(jìn)行陰影填充最終完成前景對(duì)象的陰影生成任務(wù)。SGRNet的不足之處在于無(wú)法獲得復(fù)雜前景對(duì)象的詳細(xì)信息,因此無(wú)法生成相對(duì)應(yīng)的陰影。

        圖9 SGRNet網(wǎng)絡(luò)結(jié)構(gòu)圖(Hong等,2022)Fig.9 The network structure of SGRNe(tHong et al.,2022)

        前景對(duì)象的陰影生成需要考慮的因素較多,包括背景光照信息、背景圖中其他對(duì)象的陰影信息以及相互遮擋等,如何準(zhǔn)確高效且簡(jiǎn)便地生成合成圖像中的前景對(duì)象陰影信息仍需進(jìn)一步研究。

        2.3 色調(diào)一致與陰影生成

        在視覺(jué)不和諧問(wèn)題中,同時(shí)解決色調(diào)不一致問(wèn)題和前景對(duì)象陰影缺失問(wèn)題能達(dá)到更好的合成效果,但是同時(shí)解決上述兩個(gè)問(wèn)題的深度學(xué)習(xí)方法較少。Zhan 等人(2021b)提出端到端對(duì)抗圖像合成網(wǎng)絡(luò)AICNe(tadversarial image composition network),在將前景對(duì)象合成到指定區(qū)域后,通過(guò)陰影生成模塊和紋理處理模塊生成局部圖像,通過(guò)照明模塊推斷并生成照明圖輔助前景對(duì)象陰影生成,最終結(jié)合空間轉(zhuǎn)換模塊橋接局部和全局信息進(jìn)行聯(lián)合優(yōu)化,以合成全局圖像,同時(shí)完成陰影生成與圖像和諧化的任務(wù),但是網(wǎng)絡(luò)需要額外的Laval Indoor 數(shù)據(jù)集(Cheng 等,2018;Gardner 等,2017)。Hu 等人(2021)將圖像和諧化任務(wù)分為背景圖像的光照估計(jì)和前景對(duì)象的協(xié)調(diào)兩個(gè)任務(wù),其設(shè)計(jì)了神經(jīng)渲染框架(neural rendering framework,NRF)和陰影模塊,從光照?qǐng)D中學(xué)習(xí)方向感知光照信息,并通過(guò)陰影模塊為前景對(duì)象進(jìn)行陰影生成。但其前景對(duì)象局限為人體對(duì)象,且模型無(wú)法擴(kuò)展至其他物體。

        在前景對(duì)象適應(yīng)性問(wèn)題解決的基礎(chǔ)上進(jìn)一步解決視覺(jué)和諧問(wèn)題,最終的合成圖像便能夠達(dá)到與真實(shí)圖像無(wú)異的視覺(jué)效果。但是在圖像合成過(guò)程中,仍有“生境適應(yīng)性”問(wèn)題需要解決,生境適應(yīng)性問(wèn)題是從邏輯層面考慮前景對(duì)象與背景圖像是否合理匹配,而這也是用戶判別圖像真假的關(guān)鍵步驟。

        3 生境適應(yīng)性問(wèn)題

        通過(guò)圖像合成技術(shù),合成與真實(shí)自然語(yǔ)義完全一致的圖像,是圖像合成的最終目標(biāo)。也就是要通過(guò)圖像合成技術(shù),合成目標(biāo)前景與背景完美匹配,無(wú)上述外觀、幾何、陰影、色調(diào)和風(fēng)格等不一致性問(wèn)題的圖像。對(duì)于非生物目標(biāo),上述合成技術(shù)已經(jīng)能夠合成逼近真實(shí)的圖像,達(dá)到以假亂真的效果??梢詫⒎仙鲜黾夹g(shù)性指標(biāo)要求的圖像合成稱(chēng)為技術(shù)適應(yīng)性合成。但對(duì)于部分生物目標(biāo)而言,如未受人類(lèi)行為過(guò)度干擾或馴化的野生動(dòng)物,要合成具有生態(tài)學(xué)意義、真實(shí)美學(xué)價(jià)值,或進(jìn)一步滿足作為圖像識(shí)別的數(shù)據(jù)增強(qiáng)需求而言,圖像合成除了應(yīng)滿足技術(shù)適應(yīng)性條件的同時(shí),還需要考慮生物目標(biāo)的生境適應(yīng)性問(wèn)題。本文引入生態(tài)學(xué)中生境的概念,提出了圖像合成中的生境適應(yīng)性問(wèn)題。生境是指具體的生物個(gè)體的群落生活地段上的所有生態(tài)因子構(gòu)成的目標(biāo)生物的生態(tài)環(huán)境,這里的生態(tài)因子是指環(huán)境中對(duì)生物生長(zhǎng)、發(fā)育、生殖、行動(dòng)和分布有直接或間接影響的環(huán)境要素,如光、溫度、濕度和風(fēng)等氣候因子,包括土壤的各種特征如土壤理化性質(zhì)等土壤因子,包括各種地面特征如坡度、坡向等地形因子,包括同種或異種生物之間各種相互關(guān)系的生物因子,及其他各類(lèi)生物和非生物因子(左玉輝,2011)。因此,對(duì)于部分生物目標(biāo)的圖像合成來(lái)說(shuō),只有在滿足技術(shù)適應(yīng)性要求的同時(shí),進(jìn)一步滿足生物目標(biāo)前景的生境適應(yīng)性,才能合成與前景生物目標(biāo)對(duì)象實(shí)際情況一致的“真實(shí)”圖像,這樣的合成圖像才具有生態(tài)學(xué)意義,如圖10(iHarmony4 數(shù)據(jù)集)所示,才能進(jìn)一步應(yīng)用于影視特效、廣告制作、圖像處理以及圖像數(shù)據(jù)增強(qiáng)等應(yīng)用領(lǐng)域中。進(jìn)一步地,可擴(kuò)充生境概念的外延至其他需要真實(shí)模擬的非生物對(duì)象中,如家用汽車(chē)的“生境”指一般道路或路面平整的陸地,而不是海洋或天空等。

        圖10 生境適應(yīng)性比較(iHarmony4數(shù)據(jù)集(Cong等,2020b))Fig.10 Comparison of habitat adaptation(iHarmony4(Cong et al.,2020b))((a)foreground source image;(b)foreground;(c)background image of snow scene;(d)composite image of snow scene;(e)background image of grassland scene;(f)composite image of grassland scene)

        3.1 約束前景對(duì)象的搜索方法

        為解決圖像合成任務(wù)中生境適應(yīng)性問(wèn)題,獲得邏輯合理的前后景圖像,一種方法是針對(duì)待合成的背景圖像,制定前景對(duì)象約束條件并設(shè)計(jì)搜索方法得出符合該背景圖像的前景對(duì)象,用于后續(xù)的圖像合成任務(wù)。

        Tan 等人(2018)在人像合成任務(wù)中使用卷積神經(jīng)網(wǎng)絡(luò)從背景圖像的特征信息中檢索合適的人物前景,其需要額外在背景圖像中標(biāo)記出前景對(duì)象的放置框以及前景對(duì)象局部背景框,網(wǎng)絡(luò)從局部背景框中學(xué)習(xí)出更詳細(xì)的特征信息并以此從人物前景數(shù)據(jù)集中得出合理的前景對(duì)象。該方法不足之處在于前景對(duì)象選擇局限為人,同時(shí)額外的標(biāo)注信息也增加了成本。與之類(lèi)似,Zhang 等人(2020a)在合成任務(wù)中添加了數(shù)據(jù)增強(qiáng)方法,即分別構(gòu)建特定類(lèi)別的前景對(duì)象數(shù)據(jù)集、無(wú)前景對(duì)象的“干凈”背景數(shù)據(jù)集,并使用K近鄰方法從前景數(shù)據(jù)集中篩選出與先前在背景圖像中的前景對(duì)象相近的K個(gè)前景,隨后在K個(gè)前景中進(jìn)行隨機(jī)挑選輸入圖像合成模型。這種方法簡(jiǎn)單地實(shí)現(xiàn)了前景對(duì)象的搜索,但是其局限性在于其前背景數(shù)據(jù)集的域信息必須接近,如背景為城市道路,那么前景數(shù)據(jù)集需要是汽車(chē)、紅綠燈、行人等,因?yàn)镵近鄰選擇需要根據(jù)背景圖像中的原始前景對(duì)象得來(lái),所以此方法的前景對(duì)象選擇無(wú)法擴(kuò)展到其他類(lèi)別。

        Zhao 等人(2018)提出一種圖像感知搜索技術(shù)(compositing aware image search,CAIS),對(duì)于給定待合成背景圖像、前景對(duì)象類(lèi)別信息和前景對(duì)象在背景圖中的位置信息,CAIS 通過(guò)學(xué)習(xí)前景對(duì)象與背景圖像的特征表示并使用余弦相似度計(jì)算前后景的兼容性得分,最終返回該類(lèi)別的合適前景對(duì)象。但是其不足之處在于任務(wù)中仍然需要額外的前景對(duì)象類(lèi)別標(biāo)注與背景圖中的前景空間位置標(biāo)注,并且需要提供統(tǒng)一的前景類(lèi)別數(shù)據(jù)集,同時(shí)前景搜索結(jié)果的類(lèi)別較為單一。

        3.2 無(wú)約束的前景對(duì)象搜索方法

        與約束前景對(duì)象的搜索方法不同,無(wú)約束的前景對(duì)象搜索方法不需要額外指定前景對(duì)象類(lèi)別,能夠返回更多的不同類(lèi)別的前景對(duì)象,增加了圖像合成的內(nèi)容多樣性。

        Zhao 等人(2019)提出無(wú)約束前景對(duì)象搜索模型(unconstrained foreground object search,UFO),如圖11 所示。其克服了CAIS 檢索結(jié)果類(lèi)別單一的問(wèn)題,模型通過(guò)計(jì)算余弦相似度,并使用K近鄰算法返回合適背景圖像的多個(gè)類(lèi)別的前景對(duì)象。但是該任務(wù)仍然需要在背景圖像數(shù)據(jù)集中標(biāo)記出前景對(duì)象的空間位置。

        圖11 UFO網(wǎng)絡(luò)結(jié)構(gòu)圖(Zhao等,2019)Fig.11 The network structure of UFO(Zhao et al.,2019)

        上述方法無(wú)論是否需要約束前景對(duì)象的類(lèi)別信息,其在前景對(duì)象的生境匹配過(guò)程中都需要在背景圖像上進(jìn)行空間位置標(biāo)記處理,而這則是在前景對(duì)象適應(yīng)性任務(wù)中完成,因此上述方法并不能很好地與圖像合成任務(wù)相結(jié)合。

        3.3 前后景二分圖匹配方法

        生境適應(yīng)性任務(wù)完成的是前景對(duì)象與背景圖像的邏輯性匹配,可以將該任務(wù)視為解決二分圖的多重匹配問(wèn)題。前景對(duì)象類(lèi)結(jié)點(diǎn)與背景圖像類(lèi)結(jié)點(diǎn)分別屬于不同的集合,需要對(duì)不同集合中關(guān)聯(lián)度較高的結(jié)點(diǎn)進(jìn)行多重匹配。

        Brasó 和Leal-Taixé(2020)在多目標(biāo)追蹤(multiple object tracking,MOT)任務(wù)中將二分圖匹配的問(wèn)題直接轉(zhuǎn)換成圖神經(jīng)網(wǎng)絡(luò)中的邊分類(lèi)問(wèn)題,通過(guò)對(duì)邊進(jìn)行二分類(lèi)判斷該邊是否被選中以完成相關(guān)結(jié)點(diǎn)的信息匹配。將此設(shè)計(jì)思想用于完成生境適應(yīng)性匹配中,可以做到無(wú)需在背景圖像上進(jìn)行位置標(biāo)記,同時(shí)能夠得出符合現(xiàn)實(shí)邏輯的前后景圖像對(duì),網(wǎng)絡(luò)結(jié)構(gòu)如圖12 所示。其通過(guò)對(duì)來(lái)自不同類(lèi)(前景/背景)的圖像進(jìn)行特征提取,并作為圖神經(jīng)網(wǎng)絡(luò)的結(jié)點(diǎn),網(wǎng)絡(luò)完成不同前后景結(jié)點(diǎn)之間的關(guān)聯(lián)度信息學(xué)習(xí),最終對(duì)邊權(quán)信息進(jìn)行分值篩選得出關(guān)聯(lián)度高的前后景圖像對(duì),以此作為生境匹配依據(jù)或直接作為圖像合成任務(wù)的輸入數(shù)據(jù)。

        圖12 基于圖的生境適應(yīng)性匹配網(wǎng)絡(luò)結(jié)構(gòu)Fig.12 The network structure of adaptive habitat matching based on graph

        針對(duì)生境適應(yīng)性問(wèn)題,無(wú)論是生物或非生物前景對(duì)象,通過(guò)判斷其與待合成背景圖像之間的現(xiàn)實(shí)邏輯關(guān)系,能夠保證圖像合成結(jié)果在邏輯、語(yǔ)義等方面是真實(shí)的,而其他部分則由前景對(duì)象適應(yīng)性任務(wù)、視覺(jué)和諧任務(wù)完成,以最大程度地使合成圖像接近現(xiàn)實(shí)圖像。

        4 評(píng)價(jià)指標(biāo)

        為了對(duì)最終的合成圖像任務(wù)進(jìn)行質(zhì)量評(píng)估,判斷其結(jié)果是否接近真實(shí)圖像,常用的評(píng)價(jià)方法分為用戶定性評(píng)價(jià)和指標(biāo)定量評(píng)價(jià)這兩類(lèi)。

        4.1 定性評(píng)價(jià)

        1)Precision@K(P@K)。Zhao 等人(2019)為了對(duì)生境適應(yīng)性問(wèn)題中的前景對(duì)象檢索的多樣性進(jìn)行評(píng)價(jià),通過(guò)用戶研究衡量K個(gè)檢索結(jié)果中與背景相互兼容的前景對(duì)象百分比。具體地,通過(guò)向不同用戶展示一幅背景圖像和模型檢索出的K個(gè)候選前景對(duì)象,要求用戶挑選出與背景圖像不兼容的前景對(duì)象。每幅背景圖由3 個(gè)不同的用戶進(jìn)行評(píng)估,任意一個(gè)用戶將任意一個(gè)前景對(duì)象標(biāo)記為不兼容,則視該前景對(duì)象為不兼容。通過(guò)上述步驟,能夠衡量模型生境適應(yīng)性問(wèn)題的解決能力。

        2)Realism CNN。為了能夠區(qū)分出真實(shí)圖像與合成的圖像,Zhu 等人(2015)通過(guò)設(shè)計(jì)RealismCNN雖然并不能夠從圖像語(yǔ)義、場(chǎng)景布局和視角等角度對(duì)圖像真實(shí)性進(jìn)行判斷,但是已經(jīng)可以做到從圖像的顏色兼容性、照明一致性和紋理兼容性等方面判斷圖像的真實(shí)性,完成對(duì)合成圖像真實(shí)性的質(zhì)量評(píng)價(jià)。

        3)AMT(Amazon mechanical turk)。研究人員將他們的合成圖像放置于AMT 上,交由不同用戶進(jìn)行圖像真實(shí)性判斷與打分,最終根據(jù)得分結(jié)果評(píng)價(jià)合成圖像質(zhì)量。使用AMT 可以完成圖像合成任務(wù)中的任一子任務(wù)的質(zhì)量評(píng)價(jià),但是該方法也因?yàn)椴煌脩糁g的主體感官差異性對(duì)評(píng)價(jià)結(jié)果存在一定的影響。

        4.2 定量評(píng)價(jià)

        4.2.1 前景對(duì)象適應(yīng)性問(wèn)題評(píng)價(jià)方法

        在解決前景對(duì)象適應(yīng)性問(wèn)題中的外觀與幾何一致后,有如下常用的定量評(píng)價(jià)方法評(píng)估圖像合成質(zhì)量:

        1)直方圖相關(guān)性(histogram correlation,HC)。Tan 等人(2018)通過(guò)計(jì)算圖像中預(yù)測(cè)框和真值框分布的相關(guān)性分析合成圖像的真實(shí)程度。

        2)Frechet inception 距離(Frechet inception distance,F(xiàn)ID)。通過(guò)計(jì)算合成圖像與真實(shí)圖像之間的FID 值(Dowson 和Landau,1982;Heusel 等,2017),同時(shí)計(jì)算成對(duì)的采樣對(duì)象邊界框間的歐幾里得距離以獲得前景位置的多樣性分布,量化前景對(duì)象位置的合理性(Zhang等,2020a;Zhou等,2022)。

        3)結(jié)構(gòu)相似性指數(shù)(structural similarity index measure,SSIM)。衡量圖像相似性的指標(biāo),可用來(lái)衡量合成圖像與參考圖像間的相似度,最終評(píng)價(jià)合成圖像質(zhì)量(Kaur等,2021;Guo等,2021b;Paramanandham和Rajendiran,2018;Wang等,2004)。

        4)操作評(píng)分(manipulation score,MS)(Chen 和Kae,2019)。該分?jǐn)?shù)由操作檢測(cè)模型生成(Zhou 等,2018)。模型通過(guò)RBG 流提取特征,根據(jù)對(duì)比度差異,不自然的篡改邊界等找到可能篡改的區(qū)域,通過(guò)噪聲流發(fā)現(xiàn)真實(shí)區(qū)域與篡改區(qū)域間不一致的噪聲,最后利用雙線性池化層合并特征,得出檢測(cè)結(jié)果。MS 中較高的評(píng)分表明該合成圖像被用戶操作(拼接、復(fù)制、移動(dòng)和刪除等)的可能性高,即圖像可能是偽造的。

        5)學(xué)習(xí)感知圖像塊相似度(learned perceptual image patch similarity,LPIPS)。也稱(chēng)為“感知損失”,用來(lái)度量?jī)煞鶊D像間的差別,同時(shí)可用于對(duì)象放置位置的多樣性評(píng)價(jià)(Zhang等,2018;Zhou等,2022)。

        在使用圖像融合方法處理合成圖像中前景對(duì)象邊緣細(xì)節(jié)模糊問(wèn)題時(shí),常用如下定量評(píng)價(jià)指標(biāo):

        1)通用圖像質(zhì)量指標(biāo)(universal image quality index,UIQI)。在合成圖像結(jié)構(gòu)信息的基礎(chǔ)上組合了相關(guān)損失、亮度畸變和對(duì)比度畸變。該指數(shù)能夠有效地在參考圖像與合成圖像間測(cè)試合成圖像質(zhì)量(Du和Gao,2017;Wang和Bovik,2002)。

        2)互信息(mutual information,MI)(Qu 等,2002)。該指標(biāo)度量?jī)蓚€(gè)對(duì)象之間的相互性,它提供了合并到結(jié)果圖中的輸入圖像的信息細(xì)節(jié),越高的互信息指數(shù)表示圖像合成越高效(Kaur等,2021)。

        3)特征互信息(feature mutual information,F(xiàn)MI)。該指標(biāo)在互信息MI(Qu 等,2002)和特征信息的基礎(chǔ)上,進(jìn)一步通過(guò)計(jì)算以檢測(cè)合成圖像的質(zhì)量。

        4)平均絕對(duì)誤差(mean absolute error,MAE)。通過(guò)計(jì)算參考圖像與最終合成圖像的相關(guān)像素平均絕對(duì)誤差值完成結(jié)果評(píng)價(jià)(Du和Gao,2017)。

        4.2.2 視覺(jué)和諧化評(píng)價(jià)方法

        在前后景視覺(jué)和諧問(wèn)題中的色調(diào)不一致問(wèn)題中,對(duì)于和諧化后的圖像有如下常用定量評(píng)價(jià)指標(biāo):

        1)均方誤差(mean squared error,MSE)。在和諧化任務(wù)中,從數(shù)據(jù)集中所有像素中(數(shù)據(jù)集級(jí)別)評(píng)估合成圖像的和諧化性能(Guo 等,2021b;Cun 和Pun,2020;Peng等,2022;Zhu等,2022b)。

        2)前景對(duì)象均方誤差(foreground mean squared error,fMSE)。不同于MSE 計(jì)算整幅合成圖像,fMSE只考慮計(jì)算前景對(duì)象區(qū)域的MSE,且衡量在數(shù)據(jù)集上平均每個(gè)單幅圖像(有不同大小前景對(duì)象)的和諧化效果(圖像級(jí)別)(Cong 等,2020a;Guo 等,2021b;Peng等,2022;Zhu等,2022b)。

        3)峰值信噪比(peak signal-to-noise ratio,PSNR)。常用于衡量和諧化后的圖像質(zhì)量(Kaur等,2021;Guo 等,2021b;Patil 等,2013;Cun 和Pun,2020;Peng等,2022;Zhu等,2022b)。

        4)結(jié)構(gòu)相似性指數(shù)(structural similarity index measure,SSIM)。在數(shù)據(jù)集所有像素中(數(shù)據(jù)集級(jí)別)評(píng)估合成圖像的和諧化性能(Kaur 等,2021;Guo等,2021b;Paramanandham 和Rajendiran,2018)。

        5)前景對(duì)象結(jié)構(gòu)相似性指數(shù)(foreground structural similarity index measure,fSSIM)。同樣衡量在數(shù)據(jù)集上平均每個(gè)單幅圖像(有不同大小前景對(duì)象)的和諧化效果(圖像級(jí)別)(Guo等,2021b)。

        在前后景視覺(jué)和諧問(wèn)題中的陰影缺失問(wèn)題中,對(duì)于陰影生成后的合成圖像有如下常用的定量評(píng)價(jià)指標(biāo)進(jìn)行評(píng)估:

        1)結(jié)構(gòu)相似性指數(shù)(SSIM)(Liu等,2020)。

        2)全局結(jié)構(gòu)相似性指數(shù)(global SSIM,GSSIM)/局部結(jié)構(gòu)相似性指數(shù)(local SSIM,LSSIM)。越高的GSSIM 和LSSIM 表示陰影生成后的圖像質(zhì)量越接近真實(shí)的圖像(Hong等,2022)。

        3)均方根誤差(root mean squared error,RMSE)。能夠反映圖像間的差異程度,該指標(biāo)在MSE 的基礎(chǔ)上取平方根得到(Sheng 等,2021;Liu 等,2020;Hu等,2019)。除此之外,在RMSE 指標(biāo)的基礎(chǔ)上,定量評(píng)價(jià)指標(biāo)進(jìn)一步使用全局均方根誤差(global RMSE,GRMSE)與局部均方根誤差(local RMSE,LRMSE),分別計(jì)算整個(gè)圖像與陰影區(qū)域的RMSE 值(Hong等,2022)以完成質(zhì)量評(píng)價(jià)。

        4)局部均方誤差(local mean squared error,lMSE)。為了解決MSE 對(duì)單個(gè)圖像邊緣進(jìn)行錯(cuò)誤分類(lèi)破壞圖像不同部分的陰影和反射率信息從而導(dǎo)致錯(cuò)誤結(jié)果的不足之處,Grosse 等人(2009)進(jìn)行了改進(jìn),以用于陰影生成任務(wù)的評(píng)價(jià)。

        5)尺度不變均方根誤差(RMSE-s)。在MSE(Patil等,2013)的基礎(chǔ)上,進(jìn)一步對(duì)像素角度進(jìn)行加權(quán)處理(Sheng 等,2021;Barron 和Malik,2015;Sun等,2019)。

        6)結(jié)構(gòu)差異性指數(shù)(structural dissimilarity index measure,DSSIM)。用于計(jì)算不同圖像間平均結(jié)點(diǎn)的距離分布差異(Sheng等,2021;Schieber等,2017)。

        7)平衡錯(cuò)誤率(balance error rate,BER)。在自然圖像和合成圖像中,陰影像素比非陰影像素少很多,造成圖像陰影數(shù)據(jù)的不平衡。而通過(guò)計(jì)算生成的陰影中錯(cuò)誤的像素?cái)?shù)可以衡量陰影生成的質(zhì)量(Nguyen等,2017;Liu等,2020)。

        8)零均值歸一化互相關(guān)(zero-normalized crosscorrelation,ZNCC)。能夠?qū)⒖甲訁^(qū)域和目標(biāo)子區(qū)域進(jìn)行相關(guān)性估計(jì)。ZNCC的范圍位于-1與1之間,越接近于1 表示匹配性越好,即生成圖像與真值圖越接近(Sheng等,2021;Dematteis和Giordan,2021)。

        9)準(zhǔn)確率(Accuracy)。用于計(jì)算在所有樣本中正確標(biāo)記的樣本。其表示為像素點(diǎn)中正確生成陰影信息的百分比,該值越高表示生成的陰影越接近真實(shí)的陰影(Liu等,2020)。

        在圖像合成的各任務(wù)中,對(duì)合成結(jié)果的評(píng)價(jià)往往同時(shí)采用定性評(píng)價(jià)與定量評(píng)價(jià),一方面定量評(píng)價(jià)指標(biāo)缺乏用戶參與,沒(méi)有用戶主觀判斷存在一定局限性;另一方面大量地使用定性評(píng)價(jià)不僅需要耗費(fèi)大量人力與時(shí)間成本,同時(shí)不用用戶個(gè)體的主觀差異容易對(duì)評(píng)價(jià)結(jié)果產(chǎn)生不同的影響。因此將二者結(jié)合使用能夠合理且高效地反映合成圖像的質(zhì)量。

        5 公開(kāi)數(shù)據(jù)集

        在圖像合成任務(wù)中,由于不同的子任務(wù)解決的問(wèn)題有一定針對(duì)性與特殊性,并且目前尚無(wú)適用于圖像合成整體任務(wù)的大規(guī)模數(shù)據(jù)集,因此根據(jù)圖像合成的任務(wù)性質(zhì)劃分為前景對(duì)象自適應(yīng)、圖像和諧化和前景對(duì)象陰影生成3 個(gè)任務(wù)場(chǎng)景,并分別針對(duì)上述場(chǎng)景介紹數(shù)據(jù)集。

        5.1 前景對(duì)象自適應(yīng)任務(wù)

        5.1.1 OPA數(shù)據(jù)集

        OPA(object placement assessment)數(shù)據(jù)集(Liu等,2021)主要用于解決幾何一致性問(wèn)題與外觀一致性問(wèn)題的任務(wù)中。其為了驗(yàn)證合成圖像中的前景對(duì)象在位置、大小、遮擋和語(yǔ)義等方面是否合理,基于Microsoft COCO(Microsoft common objects in context)數(shù)據(jù)集(Lin 等,2014)構(gòu)建而成,OPA 由前景對(duì)象圖像、背景圖像及合成圖像組成,共包含47 個(gè)類(lèi)別的前景對(duì)象,并通過(guò)將任意大小、位置和遮擋的前景對(duì)象剪貼至背景圖像中,最終通過(guò)用戶標(biāo)注得到了62 074幅訓(xùn)練圖像和11 396幅測(cè)試圖像,共計(jì)73 470幅圖像。同時(shí)數(shù)據(jù)集中也對(duì)合成圖像進(jìn)行了類(lèi)別標(biāo)注,positive 與negative 分表表示合理與不合理的前景對(duì)象放置,在訓(xùn)練集中,positive 與negative 數(shù)量分別為21 376 與40 698。而在測(cè)試集中,positive 與negative 數(shù)量分別為3 588 與7 808。OPA 中不同前景對(duì)象類(lèi)別圖像數(shù)量如圖13所示。

        圖13 OPA中不同前景對(duì)象類(lèi)別圖像數(shù)量(Liu等,2021)Fig.13 Number of category images for different foreground objects in OPA(Liu et al.,2021)

        5.1.2 TA數(shù)據(jù)集

        TA(transient attribute)數(shù)據(jù)集(Laffont 等,2014)可以用于解決外觀一致性問(wèn)題的任務(wù)中,能夠幫助模型更好地學(xué)習(xí)合成圖像中前景對(duì)象外觀的調(diào)整。

        Laffont等人(2014)為了獲取長(zhǎng)時(shí)間的靜態(tài)視角高質(zhì)量圖像,并希望可以通過(guò)瞬態(tài)屬性特征進(jìn)行對(duì)象圖像的索引,其挑選了101 個(gè)戶外攝像頭拍攝的圖像數(shù)據(jù)并進(jìn)行處理,在每個(gè)攝像頭中,選擇出能夠代表場(chǎng)景外觀變化的高質(zhì)量圖像,并交由人工審核,使得不會(huì)出現(xiàn)偽影信息,如過(guò)多噪聲、量化偽影和臟鏡頭等。同時(shí)為了使數(shù)據(jù)集場(chǎng)景信息精確且多樣化,數(shù)據(jù)集中場(chǎng)景選擇包括從山地場(chǎng)景至城市場(chǎng)景多個(gè)場(chǎng)景,并且每幅圖像在640 × 360像素至4 000 ×3 000像素之間變化,同時(shí)通過(guò)了手動(dòng)指定每個(gè)攝像頭以獲得圖像的對(duì)應(yīng)關(guān)系,最終得到8 571幅圖像構(gòu)成TA數(shù)據(jù)集。

        Wu等人(2019)考慮到TA數(shù)據(jù)集中圖像數(shù)據(jù)包含了一天中不同時(shí)間與季節(jié)引起的明顯外觀變化信息,可以用于前景對(duì)象適應(yīng)性問(wèn)題中外觀一致性的學(xué)習(xí),因此其使用TA數(shù)據(jù)集作為圖像融合任務(wù)的訓(xùn)練數(shù)據(jù)集。

        5.2 圖像和諧化任務(wù)

        5.2.1 iHarmony4數(shù)據(jù)集

        iHarmony4 數(shù)據(jù)集(Cong 等,2020b)主要用于解決色調(diào)不一致問(wèn)題的任務(wù)中,因?yàn)槠浯笠?guī)模的數(shù)據(jù)組成已成為圖像和諧化任務(wù)常用的數(shù)據(jù)集。

        iHarmony4 數(shù)據(jù)集包含了HCOCO、HAdobe5k、HFlickr 及Hday2night這4 個(gè)子數(shù)據(jù)集,由合成圖像、合成圖像的前景對(duì)象標(biāo)簽圖像和其對(duì)應(yīng)的真實(shí)圖像組成。其中,HCOCO 子數(shù)據(jù)集由Microsoft COCO 數(shù)據(jù)集(Lin 等,2014)生成,Hadobe5k 子數(shù)據(jù)集由MITAdobe5K 數(shù)據(jù)集(Bychkovsky 等,2011)生成,Hflickr數(shù)據(jù)集通過(guò)Flickr網(wǎng)站收集生成,Hday2night子數(shù)據(jù)集由day2night 數(shù)據(jù)集(Zhou 等,2016)生成。iHarmony4 數(shù)據(jù)集提供了包含65 742 幅訓(xùn)練圖像和7 404幅測(cè)試圖像,其數(shù)據(jù)構(gòu)成如表1所示。

        表1 iHarmony4公開(kāi)數(shù)據(jù)集構(gòu)成Table 1 The public datasets of iHarmony4

        iHarmony4 的構(gòu)建過(guò)程參考了Tsai 等人(2017)的方法,首先生成合成圖像,利用顏色轉(zhuǎn)換的方法隨機(jī)挑選前景對(duì)象并編輯它的顏色外觀信息,通過(guò)參考圖像保證顏色轉(zhuǎn)換的合理與真實(shí)。具體地,對(duì)于目標(biāo)圖像及其相應(yīng)的對(duì)象掩碼信息,搜索具有相同語(yǔ)義信息的參考圖像,將參考圖像的顏色外觀信息轉(zhuǎn)移到目標(biāo)前景對(duì)象上,此時(shí)的前景對(duì)象看上去合理但是不匹配背景信息。在顏色轉(zhuǎn)移過(guò)程中,使用直方圖匹配方法,并計(jì)算亮度與色溫的統(tǒng)計(jì)數(shù)據(jù)。同時(shí)為了生成多種不同類(lèi)型的顏色轉(zhuǎn)移結(jié)果,對(duì)一幅圖像的亮度和色溫使用不同的顏色轉(zhuǎn)移參數(shù),以擴(kuò)大模型的泛化能力。

        5.2.2 RHHarmony 數(shù)據(jù)集

        RHHarmony 數(shù)據(jù)集(Cao 等,2022)主要用于色調(diào)不一致問(wèn)題的任務(wù)中,不同于真實(shí)世界內(nèi)容的數(shù)據(jù)集,其通過(guò)渲染方法最終生成大規(guī)模的人像圖像和諧化數(shù)據(jù)集。

        RHHarmony 中包括合成渲染圖像與標(biāo)簽圖像以及準(zhǔn)確的前景標(biāo)簽圖。其使用開(kāi)源軟件MakeHuman(Make Human Community,2022)創(chuàng)建不同屬性的3D 人類(lèi)角色,包括身高、體重、面部等身體特征,行走、跑步等行為姿勢(shì)和各種服裝,從Unity Asset-Store和CG網(wǎng)站(Cao等,2022)收集了30個(gè)包括市中心、街道、森林等室外場(chǎng)景圖和體育館、健身房等3D室內(nèi)場(chǎng)景圖,對(duì)不同3D 場(chǎng)景中獲得的2D 圖像進(jìn)行實(shí)況渲染采樣,并將3D 人類(lèi)角色導(dǎo)入至3D 場(chǎng)景圖中。通過(guò)改變角度拍攝2D場(chǎng)景信息,最終收集了來(lái)自30個(gè)3D場(chǎng)景中分別設(shè)置的50個(gè)攝像機(jī)視點(diǎn)的結(jié)果圖,總計(jì)1 500幅2D真實(shí)渲染合成圖像。

        為進(jìn)一步豐富渲染數(shù)據(jù)集的視覺(jué)信息,其在天氣系統(tǒng)插件Unistorm(Cao 等,2022)的輔助下,為每個(gè)2D圖像生成不同的氣候條件圖像。具體地,通過(guò)選擇晴、部分多云和多云這3 個(gè)代表性天氣,并劃分出日出與日落、中午、晚上與其他時(shí)間這4 個(gè)時(shí)間段,將天氣條件與時(shí)間段相組合,基于1 500幅2D渲染合成圖像最終生成15 000 幅帶有人類(lèi)前景對(duì)象與不同視覺(jué)效果的渲染合成圖像。最終有65 000對(duì)帶有人類(lèi)前景的合成圖像與目標(biāo)渲染圖像用于訓(xùn)練。

        5.2.3 RealHM數(shù)據(jù)集

        RealHM(real-world harmonization)數(shù)據(jù)集(Jiang等,2021)主要用于解決色調(diào)不一致問(wèn)題的任務(wù)中,不同于iHarmony4 數(shù)據(jù)集的圖像內(nèi)容豐富,RealHM主要是由人物圖像構(gòu)成。為了避免對(duì)前景對(duì)象使用簡(jiǎn)單的顏色轉(zhuǎn)換生成和諧化數(shù)據(jù)集影響和諧化結(jié)果評(píng)估,Jiang 等人(2021)構(gòu)建的RealHM 數(shù)據(jù)集用于和諧化結(jié)果測(cè)試,包括前景來(lái)源圖像、前景來(lái)源特寫(xiě)圖像、背景圖像、合成圖像及和諧標(biāo)簽圖像總計(jì)216組1 089幅測(cè)試圖像。

        其使用的訓(xùn)練數(shù)據(jù)集是來(lái)自Microsoft COCO(Lin等,2014)、day2nigh(tZhou等,2016)等相關(guān)數(shù)據(jù)集與互聯(lián)網(wǎng),包括了不同光照條件下的山、河流、天空和人體肖像,并收集100 張3D 顏色查找表(lookup table,LUT),用于在訓(xùn)練中隨機(jī)選擇兩種顏色,構(gòu)成100 × 100 種組合圖像顏色數(shù)據(jù)具有多樣性,訓(xùn)練數(shù)據(jù)總計(jì)81 917幅。

        在測(cè)試集RealHM 中,通過(guò)PhotoShop 工具對(duì)硬邊界與軟件界(如毛發(fā))進(jìn)行不同處理,將前景外觀(顏色、亮度、飽和度和對(duì)比度)與背景進(jìn)行匹配,并對(duì)特定的局部區(qū)域做進(jìn)一步處理。最終獲得了216組高質(zhì)量、高分辨率的前景/背景圖以及和諧化結(jié)果輸出圖。數(shù)據(jù)集圖像中前景內(nèi)容包括人體肖像和一般物體,背景包括山、河流、建筑和天空等。

        5.2.4 HVIDIT數(shù)據(jù)集

        HVIDIT(harmonization VIDIT)數(shù)據(jù)集(Guo 等,2021b)主要用于解決色調(diào)不一致問(wèn)題的任務(wù)中,參考 了VIDIT(virtual image dataset for illumination transfer)數(shù)據(jù)集(El Helou等,2020)構(gòu)建而成。

        VIDIT數(shù)據(jù)集用于重光照(relighting)任務(wù),其包括390 個(gè)不同的虛擬場(chǎng)景,分別在每個(gè)場(chǎng)景中使用40種照明條件捕獲得到,其中300個(gè)用于模型訓(xùn)練,90個(gè)用于測(cè)試,Guo等人(2021b)使用了其公開(kāi)可用的訓(xùn)練場(chǎng)景。同時(shí),鑒于VIDIT 數(shù)據(jù)集與day2night(Zhou 等,2016)數(shù)據(jù)集的相似性,都是在不同的光照條件下捕捉相同的場(chǎng)景圖像,因此參考了iHarmony4 數(shù)據(jù)集(Cong 等,2020b)中Hday2night 子集的構(gòu)建方法,并去除明顯會(huì)破壞背景語(yǔ)義信息的圖像,構(gòu)建了用于圖像和諧化任務(wù)的數(shù)據(jù)集HVIDIT,最終有276個(gè)場(chǎng)景共3 007幅圖像用于訓(xùn)練,24個(gè)場(chǎng)景共329幅圖像用于測(cè)試。

        5.2.5 ccHarmony數(shù)據(jù)集

        ccHarmony(color checker harmony)數(shù)據(jù)集(Huang 和Niu,2022)主要用于解決色調(diào)不一致問(wèn)題的任務(wù)中。Huang 和Niu(2022)認(rèn)為在真實(shí)圖像上通過(guò)調(diào)節(jié)前景對(duì)象的外觀顏色信息構(gòu)成圖像和諧化數(shù)據(jù)集并不能真實(shí)地反映前景對(duì)象的自然照明變化,為此其基于顏色檢查器(color checker)記錄光照信息的數(shù)據(jù)集;NUS(National University of Singapore dataset)(Cheng 等,2014)與Gehler 等 人(2008),通過(guò)將真實(shí)圖像的前景對(duì)象轉(zhuǎn)換為標(biāo)準(zhǔn)照明條件,隨后將其轉(zhuǎn)換為另一種照明條件并與背景圖結(jié)合構(gòu)成新的合成圖像,以此生成ccHarmony 數(shù)據(jù)集。

        5.3 前景對(duì)象陰影生成任務(wù)

        5.3.1 SOBA數(shù)據(jù)集

        SOBA 數(shù)據(jù)集(Wang 等,2020)的創(chuàng)建主要是為了完成實(shí)例對(duì)象陰影檢測(cè)任務(wù),也可應(yīng)用于解決視覺(jué)和諧問(wèn)題中的陰影缺失問(wèn)題的任務(wù)中。

        Wang 等人(2020)通過(guò)從ADE20K(Zhou 等,2017,2019)、SBU(Stony Brook University)(Hou 等,2021)、ISTD(image shadow triplets)(Wang 等,2018)、Microsoft COCO(Lin 等,2014)數(shù)據(jù)集與互聯(lián)網(wǎng)進(jìn)行關(guān)鍵詞搜索得到1 000 幅圖像,并對(duì)圖像進(jìn)行粗標(biāo)記,生成陰影實(shí)例掩碼與陰影—對(duì)象關(guān)聯(lián)掩碼圖,使用Apple Pencil 進(jìn)行細(xì)化。隨后通過(guò)從陰影—對(duì)象關(guān)聯(lián)掩碼圖中去除每個(gè)陰影實(shí)例的掩碼以獲得對(duì)象實(shí)例掩碼圖,最終構(gòu)成的數(shù)據(jù)集中共有3 623 對(duì)陰影—前景對(duì)象實(shí)例圖。最終,SOBA 由帶陰影的圖像、實(shí)例對(duì)象及陰影標(biāo)簽圖、缺少陰影的實(shí)例標(biāo)簽圖與陰影標(biāo)簽圖組成,數(shù)據(jù)圖像內(nèi)容對(duì)象包括動(dòng)物、人、汽車(chē)和街道等。

        5.3.2 Shadowed-AR 數(shù)據(jù)集

        Shadow-AR(shadow augmented reality)數(shù)據(jù)集(Liu 等,2020)主要用于解決陰影缺失問(wèn)題的任務(wù)中。為了彌補(bǔ)已存在的相關(guān)陰影數(shù)據(jù)集的不足之處,Liu等人(2020)在虛擬場(chǎng)景中生成與現(xiàn)實(shí)場(chǎng)景同等效果的對(duì)象陰影信息,通過(guò)相機(jī)拍攝與陰影渲染的方法構(gòu)建Shadow-AR 數(shù)據(jù)集。其收集來(lái)自LogitechC920 相機(jī)通過(guò)不同姿勢(shì)拍攝的原始圖像,保留了真實(shí)世界的陰影與對(duì)象的遮擋物,將其作為陰影推斷的信息。并從ShapeNet(Chang 等,2015)、Standford3D(Liu 等,2020)掃描庫(kù)中分別選擇9 個(gè)及4 個(gè)模型插入至圖像中,以生成不同前景與背景的合成圖像。

        Shadow-AR 中包含3 000 組關(guān)聯(lián)圖像,每組圖像中分別由無(wú)虛擬對(duì)象陰影的合成圖像、虛擬對(duì)象標(biāo)簽圖、原始場(chǎng)景圖像中的對(duì)象標(biāo)簽圖、原始場(chǎng)景中的對(duì)象陰影標(biāo)簽圖及帶有虛擬對(duì)象陰影的合成圖這5類(lèi)圖像組成。

        5.3.3 DESOBA數(shù)據(jù)集

        DESOBA(DEshadowed SOBA)數(shù)據(jù)集(Hong 等,2022)主要用于解決陰影缺失問(wèn)題的任務(wù)中。它在SOBA(Wang 等,2020)數(shù)據(jù)集的基礎(chǔ)上去除了所有的陰影構(gòu)建而成,同時(shí)DESOBA 提供了對(duì)象—陰影對(duì)掩碼信息,能更有效地用于物體陰影生成任務(wù)。

        對(duì)于給定的目標(biāo)圖像Ig,手動(dòng)去除所有陰影信息產(chǎn)生無(wú)陰影圖像Id,并在目標(biāo)圖像Ig中隨機(jī)選擇一個(gè)前景物體,將其陰影區(qū)域替換為Id中的區(qū)域(即無(wú)陰影區(qū)域)以產(chǎn)生無(wú)前景對(duì)象陰影信息的合成圖像Ic,Ic與Ig構(gòu)成輸入圖像和真實(shí)目標(biāo)圖像。

        根據(jù)背景圖中前景對(duì)象是否有其配對(duì)的陰影信息,DESOBA 數(shù)據(jù)集分為BOS(background object shadow)與BOS-free 兩部分,在BOS 中,配對(duì)的物體及其陰影信息可以為圖像光照信息推斷提供一定的依據(jù),其由合成圖像、前景對(duì)象標(biāo)簽圖像、背景對(duì)象標(biāo)簽圖像、背景對(duì)象陰影標(biāo)簽圖像和真實(shí)標(biāo)簽圖像組成,而在BOS-free 中,可以根據(jù)天空、地面和物體陰影明暗變化等推斷出光照信息,其由合成圖像、前景對(duì)象標(biāo)簽圖像和目標(biāo)圖像組成。

        以上數(shù)據(jù)集分別為圖像合成不同任務(wù)中常用的公開(kāi)數(shù)據(jù)集,其具體數(shù)據(jù)信息如表2 所示,數(shù)據(jù)集獲取地址如表3所示。

        表2 圖像合成任務(wù)公開(kāi)數(shù)據(jù)集Table 2 The public datasets of image composition task

        表3 圖像合成任務(wù)公開(kāi)數(shù)據(jù)集地址Table 3 The address of public datasets about image composition task

        6 深度學(xué)習(xí)方法對(duì)比

        圖像合成作為一項(xiàng)包含多個(gè)子任務(wù)的復(fù)雜任務(wù),由于目前尚無(wú)一個(gè)基于深度學(xué)習(xí)的方法能夠同時(shí)完成所有圖像合成子任務(wù),各任務(wù)主要方法如表4所示,因而無(wú)法進(jìn)行統(tǒng)一的方法對(duì)比分析。同時(shí),大多數(shù)的圖像合成任務(wù)使用AMT 進(jìn)行合成結(jié)果圖像的主觀評(píng)價(jià)分析,因此不同用戶間存在的主觀差異也對(duì)圖像合成方法的對(duì)比造成一定的干擾。近年來(lái)得益于部分大規(guī)?;鶞?zhǔn)數(shù)據(jù)集的構(gòu)建,如iHarmony4圖像和諧化數(shù)據(jù)集(Cong等,2020b)、DESOBA(Hong等,2022)陰影生成數(shù)據(jù)集等,在圖像和諧化任務(wù)與前景對(duì)象陰影生成任務(wù)中才能夠進(jìn)行較為公平的方法對(duì)比與模型分析。

        表4 圖像合成各任務(wù)主要深度學(xué)習(xí)方法匯總Table 4 Summary of main deep learning methods for each task of image composition task

        6.1 前景對(duì)象自適應(yīng)任務(wù)

        在OPA 數(shù)據(jù)集(Liu 等,2021)發(fā)布之前,由于沒(méi)有統(tǒng)一的公開(kāi)數(shù)據(jù)集用于圖像合成中的前景對(duì)象自適應(yīng)任務(wù),同時(shí)不同的模型嘗試解決不同的前景對(duì)象適應(yīng)性問(wèn)題,如關(guān)于用戶肖像的眼鏡、帽子、口罩等自適應(yīng)合成問(wèn)題(Zhan 等,2019,2021a),家具在房間內(nèi)的自適應(yīng)合成問(wèn)題(Azadi 等,2020),汽車(chē)及紅綠燈等在道路上的自適應(yīng)合成問(wèn)題(Zhang 等,2020a),人像與背景圖的合成及軟邊界細(xì)化問(wèn)題(Zhang 等,2021),文字圖像與背景圖的自適應(yīng)合成問(wèn)題(Zhan 等,2019,2021a)等,并且多數(shù)任務(wù)采用AMT 對(duì)合成結(jié)果進(jìn)行定性評(píng)價(jià)。由于用戶評(píng)價(jià)的主觀性,且不同的前景對(duì)象自適應(yīng)任務(wù)(幾何一致性、外觀一致性)、不同的深度學(xué)習(xí)方法之間的差異較大,同時(shí)缺乏統(tǒng)一使用的公開(kāi)數(shù)據(jù)集,因此在前景對(duì)象適應(yīng)性問(wèn)題中無(wú)法進(jìn)行相關(guān)深度學(xué)習(xí)方法的統(tǒng)一對(duì)比與結(jié)果分析,前景對(duì)象自適應(yīng)方法如表5 所示,其中,NS(normalized similarity)表示歸一化相似性,IOU(intersection over union)表示交并比。

        表5 前景對(duì)象自適應(yīng)合成方法總結(jié)Table 5 Summary of adaptive composition methods for foreground objects

        6.2 圖像和諧化任務(wù)

        在圖像和諧化任務(wù)中,Peng 等人(2022)基于iHarmony4(Cong 等,2020b)數(shù)據(jù)集,使用均方誤差(MSE)與峰值信噪比(PSNR)作為評(píng)價(jià)指標(biāo),對(duì)主要的圖像和諧化方法進(jìn)行了對(duì)比,其定量結(jié)果如表6所示,定性結(jié)果如圖14所示。

        表6 圖像和諧化方法對(duì)比(Peng等,2022)Table 6 Image harmonization method comparison(Peng et al.,2022)

        圖14 圖像和諧化方法的定性比較結(jié)果(Peng等,2022)Fig.14 Qualitative comparison results of image harmonization methods(Peng et al.,2022)((a)composite images;(b)mask;(c)DoveNet(Cong et al.,2020a);(d)RainNet(Ling et al.,2021);(e)FRIH(Ling et al.,2021);(f)ground-truth)

        6.3 前景對(duì)象陰影生成任務(wù)

        在合成圖像陰影生成任務(wù)中,Hong 等人(2022)基于構(gòu)建的DESOBA 陰影生成數(shù)據(jù)集,在均方根誤差(RMSE)與結(jié)構(gòu)相似性指數(shù)(SSIM)的基礎(chǔ)上,使用了全局均方根誤差(GRMSE)、局部均方根誤差(LRMSE)、全局結(jié)構(gòu)相似性指數(shù)(GSSIM)與局部結(jié)構(gòu)相似性指數(shù)(LSSIM)作為陰影生成任務(wù)的評(píng)價(jià)指標(biāo),分別進(jìn)行了不同陰影生成方法的對(duì)比,其定量結(jié)果如表7所示,定性結(jié)果如圖15所示。

        表7 前景對(duì)象陰影生成方法對(duì)比(Hong等,2022)Table 7 Foreground object shadow generation method comparison(Hong et al.,2022)

        圖15 陰影生成方法的定性比較結(jié)果(Hong等,2022)Fig.15 Qualitative comparison results of shadow generation methods(Hong et al.,2022)((a)composite images;(b)mask;(c)Pix2Pix(Isola et al.,2017);(d)Pix2Pix-Res(Isola et al.,2017);(e)ShadowGAN(Zhang et al.,2019b);(f)Mask-ShadowGAN(Hu et al.,2019);(g)ARShadowGAN(Liu et al.,2020);(h)SGRNet(Hong et al.,2022);(i)ground-truth)

        7 圖像合成的應(yīng)用

        圖像合成技術(shù)的應(yīng)用場(chǎng)景較為廣泛,如在用戶人臉合成(趙彬 等,2013)、車(chē)輛自動(dòng)駕駛、目標(biāo)檢測(cè),識(shí)別與分類(lèi)和圖像分割等領(lǐng)域。合成圖像或合成數(shù)據(jù)的使用,一方面能夠進(jìn)行訓(xùn)練數(shù)據(jù)集的擴(kuò)充,另一方面在一定程度上能夠彌補(bǔ)真實(shí)世界數(shù)據(jù)的不足(數(shù)據(jù)集類(lèi)不平衡、數(shù)據(jù)增強(qiáng)方法較少等(王建明等,2022)),同時(shí)也能改善網(wǎng)絡(luò)模型極端情況下泛化能力差等。雖然生成式對(duì)抗網(wǎng)絡(luò)也可以通過(guò)生成器與判別器的對(duì)抗訓(xùn)練生成真實(shí)的圖像,但是,其生成方法有其局限性。首先,生成的結(jié)果往往不可控制,同時(shí)訓(xùn)練過(guò)程不穩(wěn)定,另外網(wǎng)絡(luò)的訓(xùn)練同樣依賴大量的數(shù)據(jù)集(Miao 等,2021),所以人們嘗試將合成圖像數(shù)據(jù)用于學(xué)術(shù)研究與生產(chǎn)實(shí)踐。

        7.1 學(xué)術(shù)領(lǐng)域

        在學(xué)術(shù)領(lǐng)域關(guān)于計(jì)算機(jī)視覺(jué)的研究工作中,開(kāi)始使用合成圖像數(shù)據(jù),在保證模型效果的基礎(chǔ)上降低了成本消耗。

        Xu 等人(2017)使用圖像合成技術(shù)構(gòu)建大型數(shù)據(jù)集以訓(xùn)練摳圖網(wǎng)絡(luò)(matting network)。Miao 等人(2021)通過(guò)合成車(chē)輛3D 模板信息與“干凈”的道路背景圖形成真實(shí)多視角道路圖像以構(gòu)建CVIS(cooperative vehicle-infrastructure system)數(shù)據(jù)集,用于車(chē)輛自動(dòng)駕駛領(lǐng)域。Shermeyer 等人(2021)在AI.Reverie 仿真平臺(tái)的幫助下,通過(guò)圖像合成技術(shù)制作飛機(jī)衛(wèi)星影像數(shù)據(jù)集(rareplanes),用于飛機(jī)的檢測(cè)與分類(lèi)等任務(wù),并且他們通過(guò)研究發(fā)現(xiàn)90%的合成圖像數(shù)據(jù)與10%的真實(shí)圖像數(shù)據(jù)混合使用能夠達(dá)到與使用100%真實(shí)圖像數(shù)據(jù)同樣的效果。在圖像分割領(lǐng)域,Sankaranarayanan 等人(2018)利用合成數(shù)據(jù)集SYNTHIA(synthetic collection of diverse urban images)(Ros 等,2016)中CITYSCAPES 子集進(jìn)行模型訓(xùn)練以完成語(yǔ)義分割任務(wù)。Ward 等人(2018)使用合成圖像數(shù)據(jù)集Arabidopsis來(lái)增強(qiáng)真實(shí)數(shù)據(jù)集完成對(duì)葉片的實(shí)例分割任務(wù),效果超越了當(dāng)時(shí)最先進(jìn)的葉片分割方法。Abu Alhaija 等人(2017)在車(chē)輛實(shí)例分割任務(wù)中,通過(guò)合成車(chē)輛對(duì)象實(shí)例以增強(qiáng)真實(shí)世界的車(chē)輛圖像。Tremblay 等人(2018)提出使用合成域隨機(jī)化(domain random,DR)圖像進(jìn)行對(duì)象檢測(cè)的深度神經(jīng)網(wǎng)絡(luò),并發(fā)現(xiàn)使用合成圖像數(shù)據(jù)的效果優(yōu)于使用真實(shí)數(shù)據(jù)集訓(xùn)練的效果。

        7.2 工業(yè)領(lǐng)域

        在工業(yè)領(lǐng)域,越來(lái)越多的企業(yè)關(guān)注于使用合成圖像數(shù)據(jù)進(jìn)行相應(yīng)的生產(chǎn)創(chuàng)作活動(dòng)。

        Nvidia 已經(jīng)推出Omniverse Replicator,官方描述其為“用于生成具有基本事實(shí)的合成數(shù)據(jù)以訓(xùn)練AI網(wǎng)絡(luò)的引擎”。工程副總裁Rev Lebaredian 表示“合成數(shù)據(jù)可以讓AI(artificial intelligence)系統(tǒng)變得更好,甚至可能更合乎道德”(Strickland,2022),其他數(shù)據(jù)行業(yè)有:

        1)OneView,其開(kāi)發(fā)的虛擬合成圖像數(shù)據(jù)集,用于通過(guò)機(jī)器學(xué)習(xí)算法分析地球觀測(cè)圖像。

        2)Cvedia,通過(guò)創(chuàng)建合成圖像,并簡(jiǎn)化真實(shí)視覺(jué)數(shù)據(jù)的收集流程,在平臺(tái)中通過(guò)傳感器合成逼真的環(huán)境圖像,借此制作出豐富的實(shí)證數(shù)據(jù)集。

        3)Anyevrse,使用傳感器數(shù)據(jù),通過(guò)汽車(chē)行業(yè)的定制激光雷達(dá)創(chuàng)建并進(jìn)行圖像處理以制成合成數(shù)據(jù)集,借此實(shí)現(xiàn)真實(shí)場(chǎng)景的模擬。

        4)AI.Reverie,制作合成圖像數(shù)據(jù)訓(xùn)練計(jì)算機(jī)視覺(jué)算法,借此實(shí)現(xiàn)活動(dòng)檢測(cè)、目標(biāo)檢測(cè)與劃分。

        不難看出,在圖像合成技術(shù)越發(fā)成熟的前提下,合成圖像的使用越來(lái)越廣泛,不僅是在學(xué)術(shù)領(lǐng)域與工業(yè)領(lǐng)域,游戲創(chuàng)作、廣告海報(bào)設(shè)計(jì)以及電影制作等各方面也能看到合成圖像的身影,同時(shí)大規(guī)模的應(yīng)用合成圖像也推動(dòng)著相關(guān)技術(shù)進(jìn)步和發(fā)展。

        8 存在的問(wèn)題和展望

        8.1 合成技術(shù)中存在的問(wèn)題與不足

        圖像合成已由最初的手動(dòng)制作到現(xiàn)在使用深度學(xué)習(xí)自動(dòng)合成,并能一定程度上實(shí)現(xiàn)各個(gè)細(xì)節(jié)部分的優(yōu)化,以達(dá)到真實(shí)圖像的效果。盡管目前圖像合成技術(shù)取得了不錯(cuò)的效果,但也存在著不足之處。

        1)圖像合成任務(wù)實(shí)際上可以視為結(jié)合前景對(duì)象的自適應(yīng)、前景色調(diào)的調(diào)整、前景缺失的陰影生成以及前景對(duì)象生境適應(yīng)性匹配等多個(gè)子任務(wù)的大型任務(wù)。目前已有的相關(guān)研究,均未能同時(shí)完成上述所有任務(wù),多數(shù)工作著重于解決其中某一個(gè)具體的問(wèn)題,少數(shù)工作能夠同時(shí)完成2~3 個(gè)子任務(wù)。而從圖像合成的任務(wù)要求來(lái)看,同時(shí)解決所有問(wèn)題才符合圖像合成任務(wù)的要求:產(chǎn)生一幅與真實(shí)圖像無(wú)異、各個(gè)細(xì)節(jié)都經(jīng)得起用戶考驗(yàn)的“真圖”。這也給圖像合成領(lǐng)域帶來(lái)不小的挑戰(zhàn),統(tǒng)一完成所有任務(wù)難免會(huì)降低部分子任務(wù)的輸出效果(Niu 等,2021),結(jié)果就是整體合成圖像效果不佳。

        2)對(duì)于合成圖像的評(píng)價(jià)方法各有不同,且大部分任務(wù)采用AMT 進(jìn)行定性評(píng)估,但是其不足之處在于不同用戶間主觀性太強(qiáng),主體間存在的差異容易影響合成效果評(píng)估結(jié)果,因此較難統(tǒng)一對(duì)比不同工作的合成結(jié)果。

        3)由于沒(méi)有統(tǒng)一的大規(guī)模基準(zhǔn)數(shù)據(jù)集用于圖像合成任務(wù),容易造成各個(gè)方法間難以進(jìn)行比較。近年來(lái)在前景對(duì)象放置、圖像和諧化領(lǐng)域與陰影生成領(lǐng)域已有數(shù)據(jù)集如OPA(Liu 等,2021),iHarmony4(Cong 等,2020b)與DESOBA(Hong 等,2022)等公布,但是在整個(gè)圖像合成任務(wù)中仍然沒(méi)有適用于全部任務(wù)過(guò)程的數(shù)據(jù)集。

        4)在大部分針對(duì)各個(gè)子任務(wù)的研究中,往往都只有一個(gè)前景對(duì)象參與,而考慮多前景對(duì)象的放置(Zhang 等,2020a)、圖像和諧化等任務(wù)較少(Niu 等,2021)。同時(shí)多前景對(duì)象的合成也會(huì)產(chǎn)生新的問(wèn)題,如前景對(duì)象相互間的遮擋問(wèn)題,視覺(jué)效果上的多物體幾何、大小調(diào)整及聚焦問(wèn)題,陰影間可能存在的重疊等問(wèn)題。

        5)前后景圖像生境不匹配。正如生境適應(yīng)性問(wèn)題所提出的,圖像合成的最終目的是合成與真實(shí)世界無(wú)異的圖像。盡管目前大多數(shù)任務(wù)著重于研究前景對(duì)象合成后的最終效果是否真實(shí),但是若沒(méi)有對(duì)前景對(duì)象及背景圖像進(jìn)行生境層面的邏輯適應(yīng),將嚴(yán)重影響圖像的真實(shí)性。

        6)前景對(duì)象的提取依賴精確的前景對(duì)象標(biāo)簽圖(如Mask 圖),若標(biāo)簽圖中的前景對(duì)象邊緣細(xì)節(jié)缺失,則合成后的前景對(duì)象將會(huì)存在嚴(yán)重的實(shí)體完整性問(wèn)題,影響最終的圖像合成質(zhì)量。

        8.2 展望

        目前圖像合成任務(wù)中各個(gè)子任務(wù)都有新的理論與技術(shù)出現(xiàn),并且就所針對(duì)的研究方向取得了一定的進(jìn)展,為了推動(dòng)圖像合成領(lǐng)域進(jìn)一步發(fā)展,本文在已有工作不足之處的基礎(chǔ)上,做出如下展望。

        1)為了避免子任務(wù)之間相互獨(dú)立,可以考慮協(xié)調(diào)統(tǒng)一所有子任務(wù),將前景對(duì)象自適應(yīng)、視覺(jué)一致性、生境適應(yīng)這些問(wèn)題串行處理,在保持局部輸出結(jié)果不變的情況下最優(yōu)化整體合成結(jié)果,實(shí)現(xiàn)更高效更全面的圖像合成。

        2)考慮構(gòu)建用于全部子任務(wù)的大規(guī)模基準(zhǔn)數(shù)據(jù)集,不僅可以促進(jìn)解決全部任務(wù)方法的相關(guān)研究,而且有利于不同研究方法間的對(duì)比分析。

        3)結(jié)合圖像粗分割與精細(xì)分割等技術(shù)將前景對(duì)象標(biāo)簽圖像的輸入融合到合成任務(wù)中去自動(dòng)生成,在端到端網(wǎng)絡(luò)中實(shí)現(xiàn)前景來(lái)源圖和背景圖的聯(lián)合輸入,合成結(jié)果圖的最終輸出。

        4)考慮實(shí)現(xiàn)多前景目標(biāo)的合成任務(wù),通過(guò)使用多目標(biāo)檢測(cè)、區(qū)域卷積等關(guān)注多前景對(duì)象間的關(guān)系,解決多前景獨(dú)立調(diào)整以及解決相互遮擋、陰影重疊等問(wèn)題,完成從一到多的擴(kuò)展。

        5)關(guān)于生境適應(yīng)性問(wèn)題,特別在生物目標(biāo)的自然圖像合成方面,由于生物的真實(shí)生存環(huán)境復(fù)雜多變,已有的方法很難完美解決生物的生境復(fù)雜性問(wèn)題??煽紤]結(jié)合智能決策支持系統(tǒng)的理論與技術(shù),加入先驗(yàn)知識(shí),構(gòu)建生境環(huán)境適應(yīng)性數(shù)據(jù)集、知識(shí)庫(kù)、規(guī)則庫(kù)等構(gòu)件、圖像數(shù)據(jù)匹配規(guī)則,通過(guò)高效的智能匹配策略解決邏輯沖突,提供現(xiàn)實(shí)依據(jù)。

        綜上所述,圖像合成領(lǐng)域中,在解決前景對(duì)象自適應(yīng)、前后景和諧化、前景缺失陰影生成以及前景對(duì)象生境適應(yīng)性匹配等問(wèn)題的同時(shí),研究最終合成效果穩(wěn)定、同時(shí)計(jì)算資源節(jié)約、泛化能力強(qiáng)的圖像合成方法是未來(lái)技術(shù)發(fā)展的重點(diǎn)。

        9 結(jié)語(yǔ)

        本文詳細(xì)論述了圖像合成任務(wù)中面臨的主要問(wèn)題:前景對(duì)象適應(yīng)性問(wèn)題、前后景視覺(jué)和諧問(wèn)題(色調(diào)不一致問(wèn)題,前景對(duì)象陰影缺失問(wèn)題)以及前后景生境適應(yīng)性問(wèn)題,分別闡述了目前為解決各問(wèn)題所使用的公開(kāi)數(shù)據(jù)集、深度學(xué)習(xí)方法及對(duì)應(yīng)的合成圖像質(zhì)量評(píng)價(jià)指標(biāo),并展示了方法的對(duì)比結(jié)果,同時(shí)介紹了合成圖像的應(yīng)用場(chǎng)景,最后提出目前圖像合成中存在的不足之處及對(duì)未來(lái)技術(shù)發(fā)展的展望。

        越來(lái)越多的工作得出的合成圖像已經(jīng)達(dá)到了與真實(shí)圖像十分接近的程度,但是生境適應(yīng)性問(wèn)題仍沒(méi)有得到很好的解決,從而導(dǎo)致無(wú)論模型的效果多么“真實(shí)”,都會(huì)缺失真實(shí)圖像所蘊(yùn)含的生態(tài)學(xué)意義,在邏輯上失真,這也進(jìn)一步限制了合成圖像的應(yīng)用范圍。而完成多前景對(duì)象合成,使用精確的前景標(biāo)簽圖避免邊緣模糊,統(tǒng)一多個(gè)子任務(wù)將是未來(lái)圖像合成領(lǐng)域的研究重點(diǎn)。總的說(shuō)來(lái),目前基于深度學(xué)習(xí)的圖像合成方法具有非常廣闊的研究空間與應(yīng)用前景。

        猜你喜歡
        前景信息
        我國(guó)旅游房地產(chǎn)開(kāi)發(fā)前景的探討
        法德軸心的重啟及前景
        四種作物 北方種植有前景
        離岸央票:需求與前景
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        量子糾纏的來(lái)歷及應(yīng)用前景
        太空探索(2016年10期)2016-07-10 12:07:01
        展會(huì)信息
        普京的執(zhí)政前景
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        精品少妇一区二区av免费观看| 毛片无遮挡高清免费久久| 国产亚洲精选美女久久久久| 国产一区二区三区中出| 无码爽视频| 老熟女重囗味hdxx70星空| av一区无码不卡毛片| 日韩精品中文字幕免费人妻| 精品国产一区二区三区18p| 狠狠色婷婷久久综合频道日韩 | 暖暖 免费 高清 日本 在线| 99精品国产高清一区二区麻豆| 中文AV怡红院| 在线久草视频免费播放| 日本丰满老妇bbw| 三上悠亚久久精品| 国产av色| 亚洲1区第2区第3区在线播放| 成人午夜福利视频后入| 女人与牲口性恔配视频免费| 青青草针对华人超碰在线| 亚洲黄色一级在线观看| 日本入室强伦姧bd在线观看| 亚洲国产夜色在线观看| 偷拍与自偷拍亚洲精品| 国99精品无码一区二区三区| 日韩成人极品在线内射3p蜜臀| 欧美成人精品福利在线视频| 国产亚洲精品一品二品| 国产激情无码一区二区| 国产思思99re99在线观看| 中文字幕av久久激情亚洲精品| 免费一区二区高清不卡av| 亚洲欧美aⅴ在线资源| 国产一区二区精品久久凹凸| 国产一区二区三区精品毛片| 99无码熟妇丰满人妻啪啪| 美女黄18以下禁止观看| 日本福利视频免费久久久| 末成年人av一区二区| 俺来也俺去啦最新在线|