亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        圖像感知引導(dǎo)CycleGAN 網(wǎng)絡(luò)的背景虛化方法

        2023-09-14 06:40:08葉武劍林振溢劉怡俊劉成民
        液晶與顯示 2023年9期
        關(guān)鍵詞:背景特征方法

        葉武劍,林振溢,劉怡俊,劉成民

        (1. 廣東工業(yè)大學(xué) 集成電路學(xué)院,廣東 廣州 510006;2. 廣東工業(yè)大學(xué) 信息工程學(xué)院,廣東 廣州 510006)

        1 引言

        背景虛化技術(shù)也稱(chēng)為淺景深技術(shù)[1],是一種常用的攝影表現(xiàn)手法。在早期智能移動(dòng)設(shè)備硬件條件較為落后的情況下,常常需要通過(guò)單反相機(jī)來(lái)獲得背景虛化圖像,但由于其操作性強(qiáng)、價(jià)格高昂,許多人難以獲得令人滿(mǎn)意的背景虛化圖像,因此人們依賴(lài)圖像后處理技術(shù)來(lái)滿(mǎn)足需求?,F(xiàn)代智能移動(dòng)設(shè)備的硬件和性能得到了顯著的提升和改善,例如光場(chǎng)相機(jī)通過(guò)一次曝光即可獲得當(dāng)前場(chǎng)景的四維光場(chǎng)信息[2],從而實(shí)現(xiàn)圖像的重聚焦,即可對(duì)不同主體進(jìn)行背景虛化處理。盡管與傳統(tǒng)的單反相機(jī)相比,光場(chǎng)相機(jī)降低了用戶(hù)的操作難度,但由于在圖像的后處理過(guò)程中需要儲(chǔ)存具有不同光線信息的圖像,導(dǎo)致其處理效率不高。而對(duì)于諸如嵌入式小型移動(dòng)設(shè)備、智能手機(jī)、平板電腦等,其前置單目攝像頭難以獲取多種圖像感知信息,導(dǎo)致這些設(shè)備無(wú)法實(shí)現(xiàn)有效的背景虛化處理?;谏鲜鰡?wèn)題,圖像背景虛化技術(shù)具有較大的研究?jī)r(jià)值。

        隨著科學(xué)技術(shù)的發(fā)展,光學(xué)計(jì)量學(xué)已成為制造業(yè)、基礎(chǔ)研究和工程應(yīng)用中解決問(wèn)題的有效手段之一。[3]自1981 年P(guān)otmesil 等人[4]發(fā)表第一篇有關(guān)景深效果繪制的研究論文以來(lái),圖像背景虛化愈來(lái)愈引起了諸多研究學(xué)者的關(guān)注。在傳統(tǒng)的背景虛化方法中,Lee 等人[5]利用針孔成像的光學(xué)原理構(gòu)建適合虛擬現(xiàn)實(shí)的背景虛化效果。Xie 等人[6]利用二次光線的相干性聚類(lèi)方案,實(shí)現(xiàn)不同自由度的背景虛化。由于在背景虛化的過(guò)程中存在效率低下的問(wèn)題,Xin 等人[7]通過(guò)透鏡的光學(xué)中心以及分布在鏡頭上的幾個(gè)外圍視點(diǎn)來(lái)繪制一組稀疏視圖,從而高性能地合成具有不同自由度的高質(zhì)量背景虛化圖像。為了完成高質(zhì)量畫(huà)面的渲染,通常需要用到高端的計(jì)算設(shè)備,因此對(duì)計(jì)算資源有較高的要求,運(yùn)行效率也顯得不足。Li 等人[8]基于單目深度估計(jì)的方法,提出分層虛化技術(shù),利用深度信息實(shí)現(xiàn)圖像分層,以實(shí)現(xiàn)有效的背景虛化。

        近年來(lái),隨著深度學(xué)習(xí)算法的不斷改進(jìn),利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)實(shí)現(xiàn)的背景虛化處理技術(shù)也在不斷提升。早期Shen 等人[9]在探索基于CNN 的背景虛化處理技術(shù)中,提出一種高性能的自動(dòng)人像分割圖像方法,創(chuàng)新性地引入位置和形狀兩種輸入通道,以提升全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)的性能,從而將人像區(qū)域精確地?fù)溉〕鰜?lái)。Mok 等人[10]利用基于殘差網(wǎng)絡(luò)Resnet[11]的圖像分割技術(shù)和高斯模糊應(yīng)用于單目移動(dòng)設(shè)備上,從而實(shí)現(xiàn)實(shí)時(shí)背景虛化。遺憾的是,這些工作關(guān)注于人像照片,先用卷積神經(jīng)網(wǎng)絡(luò)將人從圖像中分割出來(lái),然后處理剩余的圖像背景,導(dǎo)致最終效果不夠豐富且缺乏場(chǎng)景應(yīng)用性。

        為了解決上述工作存在的弊端,Wadhwa 等人[12]提出一個(gè)可在手機(jī)上計(jì)算合成的背景虛化圖像處理系統(tǒng),通過(guò)結(jié)合人像分割網(wǎng)絡(luò)和自動(dòng)定焦技術(shù),實(shí)現(xiàn)對(duì)人像的背景虛化處理,并將僅限于人物的場(chǎng)景擴(kuò)展到寵物、食物等其他的場(chǎng)景中。此外,在對(duì)背景的景深處理中,該系統(tǒng)結(jié)合圖像的深度信息,以豐富生成的背景虛化效果。Purohit 等人[13]提出一種用于景深效果渲染的深度引導(dǎo)密集動(dòng)態(tài)濾波網(wǎng)絡(luò)方法,由具有金字塔池化模塊的高效密連編解碼骨干結(jié)構(gòu)組成,在空間感知模糊過(guò)程中,利用了聯(lián)合強(qiáng)度估計(jì)和動(dòng)態(tài)濾波合成的特定任務(wù)效能。在2020 年的Advanced Intelligent Mechatronics 挑戰(zhàn)賽中,Ignatov等人[14]提出直接從高端單反相機(jī)的照片中學(xué)習(xí)一種真實(shí)的背景虛化方法,能夠在多目標(biāo)的情況下呈現(xiàn)出自然真實(shí)的背景虛化效果。這部分工作不再只關(guān)注人像,在擴(kuò)展應(yīng)用場(chǎng)景多樣性的同時(shí),也增強(qiáng)了深度方面的感知。在非人臉?lè)矫娴南嚓P(guān)工作也在不斷發(fā)展。Dutta 等人[15]采用堆疊深層多尺度分層網(wǎng)絡(luò),提高了背景虛化感知質(zhì)量。Liu 等人[16]利用圖片感知信息分割得到的輔助圖,實(shí)現(xiàn)不同區(qū)域的深度計(jì)算,以完成自動(dòng)背景虛化。Zheng 等人[17]設(shè)計(jì)了一個(gè)用于單圖像景深渲染的多尺度預(yù)測(cè)濾波網(wǎng)絡(luò),引入了約束預(yù)測(cè)濾波器來(lái)保持顯著區(qū)域,得到了視覺(jué)效果更佳的背景虛化圖像。Jeong 等人[18]使用光柵化對(duì)強(qiáng)高光進(jìn)行密集采樣,而使用常規(guī)散焦模糊渲染對(duì)規(guī)則對(duì)象進(jìn)行稀疏采樣,兼顧了動(dòng)態(tài)可見(jiàn)性和精確性。Luo 等人[19]提出了一個(gè)散焦到聚焦(D2F)框架,通過(guò)將散焦先驗(yàn)和全聚焦圖像融合并在分層融合中實(shí)現(xiàn)輻射先驗(yàn),學(xué)習(xí)真實(shí)的物體渲染。

        對(duì)于基于生成對(duì)抗網(wǎng)絡(luò)的背景虛化方法,其處理過(guò)程頗為簡(jiǎn)便,在場(chǎng)景應(yīng)用上也不會(huì)受到任何約束。Isola 等人[20]提供了通用的框架以完成圖像到圖像間的轉(zhuǎn)換,無(wú)需特定的算法和損失函數(shù),通過(guò)U-Net 網(wǎng)絡(luò)將圖像的特征進(jìn)行細(xì)化提取,使生成的圖像質(zhì)量更高。通常情況下,在缺乏相互匹配數(shù)據(jù)集組的情況下,是無(wú)法對(duì)GAN 網(wǎng)絡(luò)進(jìn)行訓(xùn)練的,因此Zhu 等人[21]通過(guò)引入循環(huán)一致性損失,完成非匹配的圖像轉(zhuǎn)換任務(wù),包括背景虛化、季節(jié)轉(zhuǎn)換、風(fēng)格遷移、光增強(qiáng)調(diào)節(jié)等多個(gè)任務(wù)。Qian 等人[22]利用級(jí)聯(lián)式雙U 型網(wǎng)絡(luò)結(jié)構(gòu)并結(jié)合基于GAN 網(wǎng)絡(luò)和感知損失的方法,以逼近真實(shí)的景深渲染效果。Pizzati 等人[23]引入了一個(gè)新的功能實(shí)例歸一化層和殘差機(jī)制,采用模型引導(dǎo)的方式,將圖像轉(zhuǎn)換連續(xù)化,得到在視覺(jué)上獨(dú)特的背景虛化圖像。

        一些未應(yīng)用于背景虛化但專(zhuān)注圖像處理的工作也值得關(guān)注。Wang 等人[24]提出了一種基于雙焦點(diǎn)透鏡陣列的深度增強(qiáng)積分成像顯示器,能夠生成兩個(gè)中心深度平面并在深度上縫合兩個(gè)重建3D 圖像,極大地提高了景深。Xie 等人[25]設(shè)計(jì)了能在整個(gè)深度范圍內(nèi)平衡顯示質(zhì)量的光學(xué)衍射元件并構(gòu)建了預(yù)濾波卷積神經(jīng)網(wǎng)絡(luò),在不嚴(yán)重降低圖像清晰度的情況下有效擴(kuò)展深度范圍。Situ[26]詳細(xì)討論了全息影像技術(shù)的先進(jìn)成果及其與神經(jīng)網(wǎng)絡(luò)的有機(jī)結(jié)合。Luo 等人[27]提出了一種無(wú)需計(jì)算機(jī)、各向異性的圖像重建方法,可以以光速穿透隨機(jī)漫射器。

        雖然基于生成對(duì)抗網(wǎng)絡(luò)的圖像間轉(zhuǎn)換方法已經(jīng)在端到端的網(wǎng)絡(luò)優(yōu)化上表現(xiàn)相當(dāng)出色,但仍有一定的不足:當(dāng)景深中的物體顏色與周?chē)尘邦伾嗨茣r(shí),該網(wǎng)絡(luò)無(wú)法很好地工作,出現(xiàn)這種現(xiàn)象的原因可能在于模型沒(méi)有獲得足夠的感知信息,導(dǎo)致在主體的識(shí)別定焦上容易出錯(cuò)。

        針對(duì)上述工作存在的問(wèn)題,本文提出了一種圖像感知引導(dǎo)CycleGAN 網(wǎng)絡(luò)(Cycle-Consistent Generative Adversarial Network)的背景虛化方法。本文創(chuàng)新性地將注意力信息和景深信息引入CycleGAN 網(wǎng)絡(luò),能夠更好地區(qū)分前后景并減少圖像失真。實(shí)驗(yàn)結(jié)果表明,本文方法能實(shí)現(xiàn)更好的背景虛化效果,相比現(xiàn)有的SOTA 方法,本文方法更具優(yōu)越性。

        2 基本原理

        2.1 系統(tǒng)框架

        為減少制作樣本數(shù)據(jù)帶來(lái)的困難,本文選用循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)(CycleGAN)作為基礎(chǔ)框架,使得在無(wú)配對(duì)數(shù)據(jù)集的情況下,也可以完成不同圖像域之間的轉(zhuǎn)換。受文獻(xiàn)[28]的啟發(fā),結(jié)合圖像感知設(shè)計(jì)了一個(gè)性能更優(yōu)的CycleGAN網(wǎng)絡(luò)。其中,圖像感知包括注意力模塊[29]與景深模塊[30],注意力模塊包括CBAM(Convolutional Block Attention Module)注意力機(jī)制和CAM(Channel Attention Module)注意力機(jī)制。前者引導(dǎo)生成器更好地關(guān)注圖像需要凸顯的區(qū)域,后者引導(dǎo)鑒別器關(guān)注兩組圖像間特征差異最大的區(qū)域,以區(qū)分前后景區(qū)域。景深模塊用于增強(qiáng)整體網(wǎng)絡(luò)的性能,使圖像前景目標(biāo)的感知信息得以增加,以提升生成的背景虛化效果。

        圖1 是本文提出方法的系統(tǒng)框架圖。為了實(shí)現(xiàn)不同圖像景深域之間的轉(zhuǎn)換,本網(wǎng)絡(luò)基于GAN 網(wǎng)絡(luò)的原理設(shè)置兩組完全對(duì)稱(chēng)的生成器和鑒別器,第一組由CBAM 注意力引導(dǎo)的生成器G將X域的圖像(深景深x)轉(zhuǎn)換成Y域的圖像(淺景深G(x)),而由CAM 注意力引導(dǎo)的鑒別器DY則將生成器生成Y域的圖像(淺景深G(x))與真實(shí)Y域的圖像(淺景深y)區(qū)分開(kāi)。同樣地,第二組由CBAM 注意力引導(dǎo)的生成器F將Y域的圖像(淺景深y)轉(zhuǎn)換成X域的圖像(深景深F(y)),而由CAM 注意力引導(dǎo)的鑒別器則負(fù)責(zé)將生成X域的圖像(深景深F(y))與真實(shí)X域的圖像(深景深x)區(qū)分開(kāi)。

        圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure diagram of overall network

        為了使不同圖像景深域間的轉(zhuǎn)換變得有意義并提升生成效果質(zhì)量,本網(wǎng)絡(luò)遵循CycleGAN的原理,引入兩個(gè)循環(huán)一致性損失,分別為圖像循環(huán)一致性損失和景深循環(huán)一致性損失。前者防止網(wǎng)絡(luò)出現(xiàn)X域(Y域)中的多張圖像只與Y域(X域)的同一張圖像形成多對(duì)一的映射關(guān)系;為了凸顯前景目標(biāo),后者通過(guò)增強(qiáng)原有圖像前景目標(biāo)的感知信息,以加強(qiáng)生成圖像效果的真實(shí)感。其中,循環(huán)一致性為:原圖x(X域)經(jīng)生成器G轉(zhuǎn)換為圖像G(x)(Y域),再經(jīng)生成器F復(fù)原為圖像F(G(x))(X域),該過(guò)程中同屬于X域的原圖x和圖像F(G(x))應(yīng)保持一致。

        2.2 生成器網(wǎng)絡(luò)結(jié)構(gòu)

        本文設(shè)計(jì)的生成器網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,主要分為3 個(gè)模塊:(1)特征編碼模塊,由3 個(gè)負(fù)責(zé)特征初步提取的下采樣層組成;(2)特征轉(zhuǎn)換模塊,由9 個(gè)負(fù)責(zé)提取深層次特征信息的殘差塊拼接而成;(3)特征解碼模塊,由3 個(gè)與下采樣層對(duì)應(yīng)的上采樣層組成。

        圖2 生成器網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure diagram of generator

        2.2.1 特征編碼模塊

        特征編碼模塊通過(guò)融入CBAM 模塊以達(dá)到更好的特征提取效果。CBAM 是一個(gè)輕量級(jí)通用模塊,如圖3 所示,其包括通道注意力模塊及空間注意力模塊兩部分,從通道和空間兩個(gè)維度推理注意力圖,并將注意力圖乘以輸入特征圖以進(jìn)行自適應(yīng)特征細(xì)化,可提高CNN 的表征能力。

        圖3 CBAM 結(jié)構(gòu)圖Fig.3 Structure diagram of CBAM

        生成器的工作過(guò)程為:首先,輸入的深景深圖進(jìn)入特征編碼模塊進(jìn)行初步的特征提取。如圖4 所示,該模塊中將卷積、CBAM 模塊、實(shí)例歸一化、ReLU 激活函數(shù)依次組合,作為下采樣層的結(jié)構(gòu)。為了更好地提取圖像特征,在第一個(gè)下采樣層進(jìn)行卷積操作前,沒(méi)有選擇傳統(tǒng)的0 填充方式,而是采用鏡像對(duì)稱(chēng)填充的方式對(duì)特征圖進(jìn)行處理。接著在卷積提取完特征后,利用CBAM模塊從通道和空間兩個(gè)維度對(duì)特征進(jìn)一步提取,使網(wǎng)絡(luò)從最開(kāi)始就關(guān)注到圖像中較為顯著的區(qū)域;而實(shí)例歸一化僅從通道維度對(duì)特征做歸一化操作,可以加速訓(xùn)練時(shí)模型的收斂進(jìn)程。最后經(jīng)過(guò)ReLU 激活函數(shù)對(duì)數(shù)據(jù)進(jìn)行激活,從而過(guò)濾上一層輸出特征矩陣中的負(fù)值,以減少網(wǎng)絡(luò)的運(yùn)算量并提高網(wǎng)絡(luò)的表達(dá)能力。

        圖4 特征編碼模塊結(jié)構(gòu)圖Fig.4 Structure diagram of feature coding module

        在上述特征編碼模塊中,每個(gè)下采樣層對(duì)應(yīng)的具體結(jié)構(gòu)及參數(shù)如圖4 所示,其中k表示卷積核大小,s表示步長(zhǎng),p表示填充尺寸,i表示輸入通道數(shù),o表示輸出通道數(shù),若結(jié)構(gòu)層的某個(gè)參數(shù)為空則不標(biāo)注(下面采取同樣的標(biāo)注方式)。

        2.2.2 特征轉(zhuǎn)換模塊

        經(jīng)過(guò)特征編碼模塊的初步特征提取后,為進(jìn)一步提取更深層次的特征,必須加深網(wǎng)絡(luò)的深度。但隨著網(wǎng)絡(luò)的加深,容易造成諸多不可逆的信息損失,即網(wǎng)絡(luò)擁有的恒等映射能力變差。為了在網(wǎng)絡(luò)不出現(xiàn)退化的情況下提取深層次的特征,本文在生成器的特征轉(zhuǎn)換模塊中利用He 等人[11]所提出的殘差塊進(jìn)行組合設(shè)計(jì)。該模塊由9 個(gè)結(jié)構(gòu)及參數(shù)完全一致的殘差塊拼接而成以提高生成器網(wǎng)絡(luò)的深度,同時(shí)可以保證網(wǎng)絡(luò)的恒等映射能力。其中每個(gè)殘差塊由兩個(gè)“卷積-實(shí)例歸一化-ReLU 激活函數(shù)”組合塊組成,其結(jié)構(gòu)及參數(shù)如圖5 所示。

        圖5 特征轉(zhuǎn)換模塊的殘差結(jié)構(gòu)塊結(jié)構(gòu)圖Fig.5 Structure diagram of residual block in feature conversion module

        2.2.3 特征解碼模塊

        為了恢復(fù)特征的原有尺寸并輸出高分辨率的效果圖,在特征轉(zhuǎn)換模塊后進(jìn)行特征解碼操作。特征解碼模塊與特征編碼模塊相互對(duì)應(yīng),通過(guò)設(shè)置3 個(gè)上采樣層實(shí)現(xiàn)生成器網(wǎng)絡(luò)的對(duì)稱(chēng)性。特征解碼模塊的結(jié)構(gòu)及參數(shù)如圖6 所示。

        圖6 特征解碼模塊的結(jié)構(gòu)圖Fig.6 Structure diagram of feature decoding module

        2.3 鑒別器網(wǎng)絡(luò)結(jié)構(gòu)

        對(duì)于鑒別器,本文借鑒U-GAT-IT 鑒別器[28]的結(jié)構(gòu),但與U-GAT-IT 不同的是:本文沒(méi)有采用“全局+局部”的雙分支模式,而是在全局鑒別器中僅引入CAM 注意力機(jī)制進(jìn)行輔助鑒別,使網(wǎng)絡(luò)基于CAM 輔助模塊輸出的輔助判別權(quán)值矩陣對(duì)全局特征進(jìn)行判別,判別權(quán)值越大的區(qū)域越可能被判別為重點(diǎn)前景區(qū)域,從而實(shí)現(xiàn)前后景的區(qū)分,并解決了由于局部鑒別器導(dǎo)致模型量變大的問(wèn)題。其網(wǎng)絡(luò)結(jié)構(gòu)包括參數(shù)共享模塊、CAM 輔助模塊、判別矩陣模塊3 部分,如圖7所示。

        圖7 鑒別器網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.7 Network structure diagram of discriminator

        2.3.1 參數(shù)共享模塊

        參數(shù)共享模塊由4個(gè)下采樣層組成,每個(gè)下采樣層由卷積、實(shí)例歸一化、LeakyReLU 激活函數(shù)依次組成,通過(guò)下采樣對(duì)特征逐次提取,并將提取的特征供CAM 輔助模塊使用,可實(shí)現(xiàn)網(wǎng)絡(luò)的參數(shù)共享。由于GAN 網(wǎng)絡(luò)的原理是通過(guò)生成器與鑒別器之間的動(dòng)態(tài)博弈,兩者的性能更迭提升,因此鑒別器的性能也將影響到生成器的性能。而通過(guò)將常用的ReLU 激活函數(shù)替換成LeakyReLU激活函數(shù)可解決部分“神經(jīng)元死亡”的問(wèn)題,從而提升鑒別器網(wǎng)絡(luò)的性能,但同時(shí)也導(dǎo)致網(wǎng)絡(luò)運(yùn)算量變大。由于本文設(shè)計(jì)的鑒別器沒(méi)有采用“全局+局部”的模式,在模型參數(shù)量上具有一定的優(yōu)勢(shì),因此下采樣層選用LeakyReLU 激活函數(shù)對(duì)神經(jīng)元進(jìn)行激活操作也不會(huì)增加過(guò)多的計(jì)算量。參數(shù)共享模塊的結(jié)構(gòu)及參數(shù)如圖8 所示。

        圖8 參數(shù)共享模塊結(jié)構(gòu)圖Fig.8 Structure diagram of shared parameter module

        2.3.2 CAM 輔助模塊

        CAM 輔助模塊借鑒CBAM 注意力機(jī)制中的通道注意力,該模塊有GAP 和GMP 兩個(gè)分支:GAP 分支由自適應(yīng)平均池化層、全連接層、實(shí)例歸一化組成;GMP 則將GAP 中的自適應(yīng)平均池化層替換為自適應(yīng)最大池化層。其中,GMP幫助鑒別器網(wǎng)絡(luò)找到圖像的重點(diǎn)區(qū)域,GAP 則更精確地將區(qū)域定位在一定范圍內(nèi)。該模塊通過(guò)將參數(shù)共享模塊提取的特征分別送入GAP 和GMP 兩個(gè)分支,從空間維度對(duì)特征圖進(jìn)行壓縮。經(jīng)過(guò)逐元素求和操作,得到兩個(gè)不同的輔助判別權(quán)值矩陣。接著將兩個(gè)矩陣進(jìn)行拼接并輸出,送入后續(xù)的下采樣層進(jìn)行特征提取,使鑒別器關(guān)注到權(quán)值更大的重點(diǎn)前景區(qū)域,從而有效分辨整體圖像的前后景。CAM 輔助模塊的結(jié)構(gòu)及參數(shù)如圖9 所示。

        圖9 CAM 輔助模塊結(jié)構(gòu)圖Fig.9 Structure diagram of CAM auxiliary module

        2.3.3 判別矩陣模塊

        判別矩陣模塊由兩個(gè)下采樣層組成,其中第一個(gè)下采樣層結(jié)合了卷積和LeakyReLU 激活函數(shù),第二個(gè)下采樣層則在卷積和LeakyReLU 激活函數(shù)之間加入了實(shí)例歸一化,目的是進(jìn)一步對(duì)特征進(jìn)行提取,并擴(kuò)大最終輸出特征的感受野。

        所謂的感受野也就是特征圖上的每一個(gè)像素點(diǎn)能在輸入圖像上映射的范圍,如圖10 所示。假設(shè)原圖為7×7 的矩陣,經(jīng)過(guò)3×3 的卷積核以0填充和步長(zhǎng)為1 的逐次卷積處理之后,其感受野逐次遞增。

        圖10 感受野示意圖Fig.10 Diagram of receptive field

        該模塊通過(guò)將輔助判別權(quán)值矩陣與參數(shù)共享模塊提取的特征矩陣進(jìn)行加權(quán)計(jì)算,接著進(jìn)行兩次下采樣操作得到深層特征圖,使最終鑒別器網(wǎng)絡(luò)判斷重點(diǎn)前景區(qū)域的能力得到加強(qiáng),進(jìn)而間接令生成器生成圖像的質(zhì)量得到提升。判別矩陣模塊的結(jié)構(gòu)及參數(shù)如圖11 所示。

        圖11 判別矩陣模塊結(jié)構(gòu)圖Fig.11 Structure diagram of discrimination

        2.4 圖像轉(zhuǎn)換網(wǎng)絡(luò)損失及優(yōu)化目標(biāo)

        本文所提出的圖像轉(zhuǎn)換網(wǎng)絡(luò)的損失分為兩類(lèi):生成對(duì)抗損失及循環(huán)一致性損失。其中生成對(duì)抗損失包括X域→Y域(Y域→X域)的全局鑒別器生成對(duì)抗損失和Y域→X域(X域→Y域)的輔助鑒別器生成對(duì)抗損失,而循環(huán)一致性損失包括圖像循環(huán)一致性損失和景深循環(huán)一致性損失。通過(guò)優(yōu)化這6 個(gè)損失可使網(wǎng)絡(luò)模型得到最優(yōu)的轉(zhuǎn)換映射路徑。

        2.4.1 生成對(duì)抗損失

        為了使網(wǎng)絡(luò)模型從不同圖像景深域中獲取不同的樣本分布,需要生成對(duì)抗損失對(duì)該網(wǎng)絡(luò)進(jìn)行約束。由圖7 可知,由于鑒別器最終輸出的判別矩陣有全局判別矩陣和輔助判別矩陣,因此兩者構(gòu)成的生成對(duì)抗損失分別如下:

        (1)全局判別矩陣構(gòu)成的全局鑒別器生成對(duì)抗損失有兩部分:X域→Y域的前向映射損失和Y域→X域的反向映射損失,計(jì)算公式見(jiàn)式(1)和式(2):

        其中:Pdata(x)和Pdata(y)分別表示和的樣本分布,x~Pdata(x)和y~Pdata(y)表示隨機(jī)從和中取出的樣本數(shù)據(jù),E表示數(shù)學(xué)期望。

        該網(wǎng)絡(luò)的性能是通過(guò)生成器和鑒別器之間的博弈得到提升的,其中鑒別器DX(DY)應(yīng)盡可能地將X域(Y域)的真實(shí)圖像與生成器F(G)生成的虛假圖像區(qū)分開(kāi),即DY(G(x))和DX(F(y))的值要趨于0,DY(y)和DX(x)的值要趨于1,也就是LGAN(G,DY,X,Y) 和LGAN(F,DX,X,Y) 越大越好;而生成器則應(yīng)盡可能地生成與X域(Y域)樣本分布相近的虛假圖像,從而使鑒別器無(wú)法辨別真假,LGAN(G,DY,X,Y)和LGAN(F,DX,X,Y)越小越好。

        (2)輔助判別矩陣構(gòu)成的輔助鑒別器生成對(duì)抗損失的計(jì)算公式見(jiàn)式(3)和式(4),因與全局鑒別器生成對(duì)抗損失的原理相同,故不再贅述。

        2.4.2 循環(huán)一致性損失

        循環(huán)一致性損失的提出是為了避免網(wǎng)絡(luò)在訓(xùn)練過(guò)程中出現(xiàn)X域(Y域)中的多張圖像只與Y域(X域)的同一張圖像形成多對(duì)一映射關(guān)系的情況,導(dǎo)致不同圖像景深域間的轉(zhuǎn)換失去實(shí)質(zhì)性意義的問(wèn)題,同時(shí)可提升生成效果質(zhì)量。本文借鑒CycleGAN 的思想,引入圖像循環(huán)一致性損失和景深循環(huán)一致性損失以解決上述問(wèn)題。

        (1)圖像循環(huán)一致性損失主要針對(duì)圖像景深轉(zhuǎn)換過(guò)程中的映射關(guān)系問(wèn)題,其計(jì)算方式見(jiàn)

        式(5)。其中‖F(xiàn)(G(x))-x‖1表示在X域中,輸入的真實(shí)圖像x經(jīng)由生成器G和生成器F兩次圖像轉(zhuǎn)換后,得到X域的虛假圖像F(G(x))與輸入的真實(shí)圖像x進(jìn)行L1 范數(shù)求解得到的值,即虛假圖像與真實(shí)圖像之間的差異性。同理,‖G(F(y))-y‖1表示Y域中虛假圖像與真實(shí)圖像的差異性。

        (2)景深循環(huán)一致性損失主要用于提升生成圖像的質(zhì)量,通過(guò)增強(qiáng)原有圖像前景目標(biāo)的感知信息以加強(qiáng)生成圖像效果的真實(shí)感,其原理與圖像循環(huán)一致性損失相似,計(jì)算公式見(jiàn)式(6):

        2.4.3 優(yōu)化目標(biāo)

        將各損失進(jìn)行加權(quán)之后,可得到本文所提出網(wǎng)絡(luò)的總損失,其表達(dá)式見(jiàn)式(7)。其中,φ=10,ω=1。

        由于在不同圖像景深域之間的轉(zhuǎn)換過(guò)程中需通過(guò)生成器與鑒別器之間的動(dòng)態(tài)博弈來(lái)學(xué)習(xí)兩個(gè)域之間的樣本分布,因此本文希望全局鑒別器DX、DY和輔助鑒別器μDX、μDY對(duì)真假圖像的分辨能力得以最大化,而生成器則應(yīng)生成更加逼真的虛假圖像,使鑒別器的分辨能力得以最小化,即最小化虛假樣本分布與真實(shí)樣本分布之間的JS 散度。同時(shí),為避免轉(zhuǎn)換過(guò)程中丟失過(guò)多的景深信息導(dǎo)致生成圖像效果質(zhì)量降低,也需將循環(huán)一致性損失最小化。因此,本文的整體目標(biāo)損失可優(yōu)化為式(8):

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)平臺(tái)與基準(zhǔn)數(shù)據(jù)集

        由于本文提出的圖像轉(zhuǎn)換網(wǎng)絡(luò)在訓(xùn)練過(guò)程中涉及大量的矩陣運(yùn)算且需要對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行迭代更新,因此本文實(shí)驗(yàn)使用型號(hào)為NVIDIA Tesla V100、顯存為32G 的GPU 對(duì)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練以提高訓(xùn)練效率。為進(jìn)一步加速網(wǎng)絡(luò)計(jì)算效率,本文在CentOS 7 的操作系統(tǒng)上選擇Pytorch 1.7.1 作為網(wǎng)絡(luò)的計(jì)算框架,并結(jié)合Pytorch 內(nèi)置的自動(dòng)混合精度對(duì)網(wǎng)絡(luò)的計(jì)算效率進(jìn)行提升。

        與現(xiàn)有的大多數(shù)背景虛化處理研究工作一樣,本文選用2020 年的Advanced Intelligent Mechatronics 挑戰(zhàn)賽中采用的Everything is Better with Bokeh (EBB)數(shù)據(jù)集[14]對(duì)本文提出的背景虛化處理網(wǎng)絡(luò)進(jìn)行訓(xùn)練。該數(shù)據(jù)集由佳能7D 數(shù)碼單反相機(jī)在不同光線、不同場(chǎng)景、不同天氣條件下進(jìn)行拍攝得到,其包含4 694 組用于模型訓(xùn)練的圖像對(duì)(深景深?淺景深),深景深圖像由窄光圈(f/16)拍攝得到,淺景深圖像則用最高光圈(f/1.8)進(jìn)行拍攝。此外還包含200 張用于評(píng)估模型的圖像及200 張用于測(cè)試最終模型的圖像(深景深)。在訓(xùn)練過(guò)程中,我們將數(shù)據(jù)集中的圖像對(duì)隨機(jī)打亂,使之成為非配對(duì)的圖像集,并裁剪為256×256 的尺寸作為網(wǎng)絡(luò)的輸入,同時(shí)在訓(xùn)練過(guò)程中將學(xué)習(xí)率設(shè)置為0.000 2。

        3.2 消融實(shí)驗(yàn)

        為證明本文所設(shè)計(jì)的網(wǎng)絡(luò)框架能夠有效提升背景虛化處理的質(zhì)量,本文進(jìn)行了消融實(shí)驗(yàn)。其實(shí)驗(yàn)對(duì)比如圖12 所示,其中:

        圖12 消融實(shí)驗(yàn)對(duì)比實(shí)驗(yàn)圖Fig.12 Comparative experimental diagram of ablation experiment

        ①Cycle 表示原生CycleGAN 網(wǎng)絡(luò)得到的背景虛化圖像;

        ②Cycle+CAM 表示在原生CycleGAN 網(wǎng)絡(luò)的基礎(chǔ)上,將CAM 注意力機(jī)制引入到鑒別器中;

        ③Cycle+CAM+CBAM 表示在原生Cycle-GAN 網(wǎng)絡(luò)的基礎(chǔ)上,將CAM 注意力機(jī)制引入到鑒別器中以及將CBAM 注意力機(jī)制引入到生成器中;

        ④Cycle+CAM+CBAM+Depth 表示在③的基礎(chǔ)上,引入前向景深循環(huán)一致性損失。

        圖12 中有4 組效果對(duì)比圖,每組對(duì)比圖中的每張圖像有2 個(gè)細(xì)節(jié)區(qū)域,區(qū)域1 用于展示前景目標(biāo)區(qū)域、區(qū)域2 用于展示背景區(qū)域的效果及狀態(tài)。對(duì)于前景目標(biāo)區(qū)域,從A 組和B 組對(duì)比圖的細(xì)節(jié)區(qū)域1 中可以清晰地看到,在前景目標(biāo)顏色較為艷麗的情況下,方法①和方法②會(huì)極大地改變前景目標(biāo)的顏色,方法③對(duì)顏色影響較小,而方法④則基本不會(huì)對(duì)顏色產(chǎn)生影響。從C 組和D 組對(duì)比圖中的細(xì)節(jié)區(qū)域1 中可以看到,4 種方法在清晰度上均不會(huì)導(dǎo)致前景目標(biāo)發(fā)生失真。對(duì)于背景區(qū)域,從A、B 組對(duì)比圖的細(xì)節(jié)區(qū)域2 可以看到,背景虛化效果的程度為:①<②<③≈④;在C、D 組對(duì)比圖的細(xì)節(jié)區(qū)域2 中可以看到,背景虛化效果的程度為:①<②<③<④,程度越高,則越能凸顯圖像的主體,即前景目標(biāo)越顯眼。

        3.3 圖像感知信息對(duì)比實(shí)驗(yàn)

        為驗(yàn)證本文所提的圖像轉(zhuǎn)換網(wǎng)絡(luò)在背景虛化處理的過(guò)程中,模型能增強(qiáng)原有圖像前景目標(biāo)的感知信息,使生成圖像效果的真實(shí)感得到進(jìn)一步提升,本實(shí)驗(yàn)從可視化圖像的注意力信息、景深信息以及邊緣信息3 個(gè)維度對(duì)生成圖像進(jìn)行測(cè)試評(píng)估。其中注意力信息、景深信息、邊緣信息分別由注意力可視化算法[31]、單目視覺(jué)景深估計(jì)算法[30]、邊緣檢測(cè)算法[32]得到,實(shí)驗(yàn)對(duì)比如圖13 所示。

        圖13 感知信息對(duì)比實(shí)驗(yàn)圖Fig.13 Experimental diagram of perceptual information comparison

        圖13 展示了2 組實(shí)驗(yàn)對(duì)比,其中每組的第一行為使用不同方法得到的背景虛化圖像;第二、三、四行為背景虛化圖像的感知信息圖像,分別為表示景深信息的景深圖像、表示注意力信息的顯著圖像、表示圖像主體輪廓信息的邊緣信息圖像。從A、B 兩組實(shí)驗(yàn)的第二行景深圖像可以看到,方法③和方法④能弱化背景區(qū)域的景深信息并增強(qiáng)前景目標(biāo)的景深信息,從而凸顯前景目標(biāo),使處理后的背景虛化效果更加顯著;同樣地,從兩組實(shí)驗(yàn)中的第三行顯著圖像中可以看到,方法③和方法④能更好地注意到圖像主體,有利于在圖像轉(zhuǎn)換過(guò)程中區(qū)分前后景;而對(duì)于第四行的邊緣信息圖像,方法③和方法④仍然優(yōu)于其他方法。

        由于上述的定性分析無(wú)法對(duì)比方法③、④的性能高低,為了進(jìn)一步對(duì)比方法③和方法④的性能,本實(shí)驗(yàn)選用結(jié)構(gòu)相似性SSIM 指標(biāo)進(jìn)行定量比較。

        結(jié)合圖13 和圖14,一方面,由于背景虛化處理過(guò)程中弱化了占比較大的背景區(qū)域的感知信息,虛化后圖像背景部分的景深信息更少,即虛化圖像呈現(xiàn)出了較好的效果,因此,虛化后的感知信息圖與原始感知信息圖差異較大,導(dǎo)致所有方法的平均SSIM 較低;另一方面,本文方法也同時(shí)強(qiáng)化了前景目標(biāo)區(qū)域的感知信息,虛化圖像對(duì)于前景目標(biāo)的關(guān)注更多,使前景區(qū)域在結(jié)構(gòu)上也與原圖保持了更多的相似性。所以,與其他方法相比,本文方法④的SSIM 較高,呈現(xiàn)出的虛化效果更富有層次感。

        圖14 平均SSIM 對(duì)比數(shù)據(jù)Fig.14 Average SSIM comparison data

        3.4 與現(xiàn)有工作的對(duì)比

        3.4.1 圖像轉(zhuǎn)換方法對(duì)比

        為了展示本文所提出方法的優(yōu)勢(shì),本實(shí)驗(yàn)與當(dāng)前在圖像轉(zhuǎn)換領(lǐng)域表現(xiàn)出色的方法進(jìn)行了比較,其中包括AGGAN[33]、Dual-SAG-CycleGAN[34]、Pix2Pix[20]等生成對(duì)抗式網(wǎng)絡(luò)。各方法的效果圖如圖15 所示。

        圖15 不同方法效果對(duì)比圖。(a)老婦;(b)禁止左轉(zhuǎn)標(biāo)志;(c)滑板車(chē);(d)樹(shù)。Fig.15 Effect comparison diagram of different method. (a) Old woman;(b) No left turn sign;(c) Scooter;(d) Tree.

        從圖15 中細(xì)節(jié)區(qū)域1、2 可以看到,AGGAN方法在部分圖像中難以分辨前后景,從而導(dǎo)致前景目標(biāo)也進(jìn)行了模糊處理,并在生成的背景虛化圖像中存在失真現(xiàn)象;Dual-SAG-CycleGAN 方法同樣存在難以分辨前后景和圖像失真的現(xiàn)象,并且在背景區(qū)域的虛化效果不夠明顯,難以凸顯前景目標(biāo);對(duì)于Pix2Pix 方法,雖然生成的圖像不會(huì)失真,但是與前兩者一樣存在難以分辨前后景的現(xiàn)象,如從圖15(a)、(d)圖像可以看出,前后景都進(jìn)行了背景虛化處理;而從圖15(b)、(c)圖像可以看出,在前景目標(biāo)是清晰狀態(tài)的同時(shí),背景區(qū)域模糊程度較低。對(duì)于本文所提出的方法,其分辨前后景的能力與背景虛化處理效果的質(zhì)量都是最優(yōu)的,并且圖像不會(huì)產(chǎn)生失真的現(xiàn)象。

        為了進(jìn)一步驗(yàn)證前述的實(shí)驗(yàn)結(jié)果分析的合理性,本實(shí)驗(yàn)欲采用定量數(shù)據(jù)進(jìn)行分析。由于現(xiàn)有大部分工作主要是基于主觀評(píng)價(jià)指標(biāo)對(duì)背景虛化效果進(jìn)行評(píng)價(jià)分析[1,21],因此本實(shí)驗(yàn)以調(diào)查問(wèn)卷的形式,讓多名調(diào)查對(duì)象比較現(xiàn)有SOTA 方法與本文所提方法的視覺(jué)效果差異,并在1~10 分的區(qū)間內(nèi)進(jìn)行評(píng)分。此次共有49 名對(duì)象參與實(shí)驗(yàn),其中碩士研究生35 名,本科生14 名,男女比例約為2∶1,參與者以主觀的審美意識(shí)評(píng)判圖像的背景虛化效果,給的分值越高表示效果越好,然后將參與者的評(píng)分結(jié)果進(jìn)行匯總統(tǒng)計(jì),獲得每個(gè)方法的意見(jiàn)平均分,其統(tǒng)計(jì)數(shù)據(jù)如圖16 所示。從圖16 可以看到,本文所提方法獲得的平均意見(jiàn)分是最高的,說(shuō)明上述針對(duì)實(shí)驗(yàn)結(jié)果的分析較為合理。

        圖16 調(diào)查問(wèn)卷數(shù)據(jù)Fig.16 Questionnaire data

        此外,本實(shí)驗(yàn)通過(guò)對(duì)比不同方法的模型大小和背景虛化圖像(分辨率為256×256)生成的時(shí)間,驗(yàn)證了本文所設(shè)計(jì)的圖像轉(zhuǎn)換網(wǎng)絡(luò)在模型量和生成效率上的優(yōu)勢(shì)。其中Dual-SAG-CycleGAN、Pix2Pix 以及本文方法包括生成器模型和鑒別器模型2 部分,AGGAN 則包括注意力模型、生成器模型、鑒別器模型3 部分。各方法模型大小數(shù)據(jù)如表1 所示。從表1 可以看出,本文方法在模型量上優(yōu)于其他方法。

        表1 各方法模型大小與圖像生成時(shí)間Tab.1 Model size and image generation time of each method

        3.4.2 背景虛化方法對(duì)比

        為了進(jìn)一步驗(yàn)證本文所提方法的有效性,本文選取專(zhuān)注于背景虛化工作的BGGAN[22]以及Stack_DMSHN[15]作為比較對(duì)象,各方法在同一副圖片上的背景虛化效果如圖17 所示。

        圖17 不同背景虛化方法效果對(duì)比圖。A:柵欄;B:池塘。Fig.17 Effect comparison diagram of different method for background defocus. A: Fence;B: Pond.

        從圖17 A 組可以看出,3 種方法對(duì)于中心物體的聚焦能力比較接近,但本文方法所生成的前景色澤及紋理最接近原圖,且從細(xì)節(jié)區(qū)域1 可以看出,BGGAN、Stack_DMSHN 所生成圖像會(huì)造成部分前景失真;從細(xì)節(jié)區(qū)域2 可以看出,本文方法虛化程度也更高。從B 組細(xì)節(jié)區(qū)域2 可以看出,相比其他兩種方法,本文方法對(duì)微小前景的聚焦程度更高,即區(qū)分前后景的能力更強(qiáng)。

        為進(jìn)一步比較3 種方法的有效虛化程度,同樣引入注意力可視化算法分別展示各方法在背景虛化方面的性能。從A 組的注意力可視化圖可以看出,本文方法最大程度地保持了對(duì)于前景目標(biāo)的聚焦,有利于實(shí)現(xiàn)更有效的背景虛化。在B 組的對(duì)比中,BGGAN、Stack_DMSHN 兩種方法無(wú)法注意到微小的前景目標(biāo),即凸顯微小前景目標(biāo)的能力不強(qiáng),因此虛化效果不佳。通過(guò)注意力可視化圖的對(duì)比可知,本文方法對(duì)于前景目標(biāo)的感知更加突出,即區(qū)分前后景的能力更強(qiáng)。

        4 結(jié)論

        現(xiàn)有生成對(duì)抗網(wǎng)絡(luò)在背景虛化處理過(guò)程中,往往是無(wú)差別地提取整張輸入圖像的特征,因此生成器在生成圖像時(shí)也容易丟失圖像原有的細(xì)節(jié)特征,導(dǎo)致圖像失真。為了解決這些問(wèn)題并減少制作樣本數(shù)據(jù)帶來(lái)的困難,本文選用CycleGAN作為基礎(chǔ)網(wǎng)絡(luò)框架,通過(guò)引入景深循環(huán)一致性損失對(duì)網(wǎng)絡(luò)框架進(jìn)行重新設(shè)計(jì),同時(shí)結(jié)合CBAM注意力模塊和CAM 注意力模塊分別對(duì)生成器和鑒別器的結(jié)構(gòu)進(jìn)行改進(jìn),使其在背景虛化處理過(guò)程中能著重關(guān)注于前景目標(biāo),并在增強(qiáng)前景目標(biāo)區(qū)域的感知信息的同時(shí),提升網(wǎng)絡(luò)區(qū)分前后景的能力和生成圖像效果的質(zhì)量。同其他方法相比,本文方法的背景虛化效果更佳且失真度更低,模型大小為56.10 MB,圖像生成時(shí)間為47 ms,相比現(xiàn)有模型也具有更大優(yōu)勢(shì)。

        猜你喜歡
        背景特征方法
        “新四化”背景下汽車(chē)NVH的發(fā)展趨勢(shì)
        《論持久戰(zhàn)》的寫(xiě)作背景
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        晚清外語(yǔ)翻譯人才培養(yǎng)的背景
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚(yú)
        熟妇人妻久久中文字幕| 美女叉开双腿让男人插| 久久青青草原一区网站| 国产成人精品免费久久久久 | 福利体验试看120秒| 日本中文字幕不卡在线一区二区| 天堂a版一区二区av| 日本人妖熟女另类二区| 国产成本人片无码免费2020| 麻豆精品网站国产乱子伦| 亚洲日本一区二区在线观看 | 人妻少妇精品视中文字幕国语| 最新日韩av在线不卡| 日本在线免费不卡一区二区三区| 女人张开腿让男人桶爽| 人与嘼交av免费| 亚洲无线码一区在线观看| 精品亚洲一区中文字幕精品| 午夜免费啪视频| 国产精品久久久久久久成人午夜 | 亚洲综合网一区二区三区| 白白色发布免费手机在线视频观看| 最新国产精品久久精品| 精品手机在线视频| 日本激情久久精品人妻热| 日韩日韩日韩日韩日韩日韩日韩| 亚洲熟少妇在线播放999| 精品久久久久久电影院| 亚洲av手机在线播放| 久久婷婷五月综合97色一本一本| y111111少妇影院无码| 97国产精品麻豆性色| 日韩熟女系列中文字幕| 亚洲综合无码无在线观看| 国产精品白浆视频免费观看| 91九色极品探花内射| 欧美熟妇性xxx交潮喷| 免费视频一区二区| 免费人成网站在线观看| 成人国成人国产suv| 男女边吃奶边做边爱视频|