張鳳,張超,楊華民,王發(fā)斌,2
(1.長春理工大學 計算機科學技術學院,吉林 長春 130022;2.吉林師范大學 計算機學院,吉林 四平 136000)
隨著計算機、人工智能和網絡技術的發(fā)展,在作戰(zhàn)過程中需要處理的數據種類和規(guī)模正以前所未有的速度增長。在作戰(zhàn)輔助系統(tǒng)中應用投影系統(tǒng)可以實現龐大數據信息的高效可視化,有利于戰(zhàn)場數據的實時分析和理解。傳統(tǒng)的投影系統(tǒng)大多使用標準的白色投影幕。在野外作戰(zhàn)指揮中如何快速搭建投影顯示系統(tǒng),有效消除帶紋理物體表面對投影圖像的干擾,同時減少環(huán)境因素及系統(tǒng)硬件對投影圖像產生的影響是需要解決的關鍵問題。
文獻[1]提出了一種不需要相機或投影儀的輻射計量預標定的方法。該方法由投影儀色域的稀疏采樣和分散數據插值組成,實時生成從投影儀到攝像機顏色的逐一像素映射。但每一個投影儀的像素并不一定是跟每個相機像素一一對應,這樣的簡化會影響投影儀光學補償的效果。文獻[2]提出一種感知輻射補償方法來抵消彩色投影表面對圖像外觀的影響。該方法基于人眼視覺系統(tǒng)的錨定特性,在保持圖像色調和亮度的同時減少了色彩裁剪。該方法還考慮了顏色自適應對感知圖像質量的影響,通過將圖像像素點的顏色向投影表面的互補色方向適當移動,修正了非白色投影表面引起的顏色失真。但該方法只能補償投影表面是單一顏色的干擾情況。還有一些傳統(tǒng)的投影顏色補償系統(tǒng)用相機捕捉一系列投影的采樣圖像,然后擬合一個復合輻射傳輸函數,消除紋理空間變化的表面反射率影響。這種方法在不同的投影表面上投影時都需要拍攝大量的圖片,不能滿足作戰(zhàn)輔助系統(tǒng)中投影補償的實時性要求。
近年來,深度學習廣泛應用在醫(yī)學圖像[3-4]、遙感[5]、三維建模[6]、軍事應用[7-9]等多個領域,為推動人工智能在多個行業(yè)的應用發(fā)揮了重要作用。深度學習的目的是通過組合低層特征形成更加抽象的表示能力強的特征,以發(fā)現數據中有用的宏觀信息。溫豪等[10]針對多通道三維測量技術,從采集圖像的誤差類型出發(fā),將系統(tǒng)誤差分為圖像像素亮度與實際亮度之間的光強誤差和圖像像素空間分布的位置偏差,以此分別構建了光強誤差關系和位置偏差關系并對檢測系統(tǒng)進行定量測量。最后提出一種簡單有效的系統(tǒng)誤差補償方法,同時補償了串擾、色差、非線性和畸變等誤差對測量結果的影響。在風格遷移中使用深度學習不僅能學習輸入圖像到輸出圖像的映射,而且學習一個損失函數來訓練這種映射[11-12]。該方法在從標簽映射合成照片、從邊緣映射重構對象和給圖像著色等任務中效果較好。文獻[13]借鑒了風格遷移的網絡結構,將投影補償問題定義為端到端學習問題,提出一種隱式學習復雜補償函數的卷積神經網絡CompenNet.CompenNet由一個類Unet的主干網和一個自動編碼器子網組成。模型中視覺細節(jié)和交互信息也沿著多級跳躍卷積層被帶到更深的層。在深度學習中圖片特征提取的準確度直接影響輸出圖片的效果,為提取更多有用特征,對CompenNet網絡結構進行改進,并提出使用改進的結構相似性(SSIM)+SmoothL1損失函數,實現在色彩信息更加豐富的投影表面上進行投影的補償方法。該方法對投影圖像進行智能顏色補償,可有效消除戰(zhàn)場環(huán)境中投影表面固有的不規(guī)則紋理對投影圖像引起的視覺偏差,最終擺脫投影設備對專業(yè)投影幕布的依賴,將任意自然平面環(huán)境作為“白色幕布”進行放映。該方法也可以推廣到舞臺表演中,使用投影營造震撼的舞臺效果受到大眾歡迎。本文研究也可改善投影系統(tǒng)的性能,為藝術創(chuàng)造者提供更大的自由創(chuàng)作空間,豐富人們的娛樂生活。
CompenNet由一個類似Unet的骨干網絡和一個自動編碼器子網組成[13]。這種架構可以使相機捕獲的投影表面圖像和輸入圖像之間進行豐富的多層次交互,從而捕獲投影表面的光度和環(huán)境信息。
CompenNet有兩個輸入圖像分別對應相機捕獲的未補償圖像和相機捕獲的表面圖像。兩幅輸入圖像都被送入卷積層序列,進行下采樣提取多層次的特征圖。投影表面圖像和輸入圖像各自特征圖之間的多級交互感知,使模型學習全局光、投影儀特性、投影表面和投影圖像間的復雜光譜作用。CompenNet通過跳躍卷積層將低級交互信息傳遞到高級特征圖。中間塊在保持特征圖寬度和高度不變的情況下,通過增加特征通道提取豐富的特征,然后使用兩個卷積層逐步向上采樣特征映射到輸出圖像。
圖1 改進后的D-CompenNet架構(省略激活函數)
在補償模型中,兩個分支不共享權值,因此分別用不同的顏色給出。投影表面圖像特征提取分支輸入為相機采集的投影表面背景紋理圖像,這一分支提取投影背景紋理特征,每層提取的特征參數都傳遞給主干分支相應的卷積層。主干分支輸入為相機采集的投影圖像與投影表面的背景紋理重疊的圖像,提取未補償的投影圖像特征。模型中上采樣卷積層的輸入除了前一卷積層的深層抽象特征外,還有與其對應的下采樣層輸出的淺層局部特征,將深層特征與淺層特征融合,從而恢復特征圖細節(jié)并保證其相應的空間信息維度不變。最后輸出為投影儀預投影的補償后圖像。表1所示為網絡內部結構。
表1 D-CompenNet 內部結構
最后使用改進的SSIM+SmoothL1損失函數計算預測值與真實值之間的差值并不斷修正,得到最優(yōu)參數。
損失函數是設計神經網絡中很重要的一個關鍵因素,面對特定的問題,要設計不同的損失函數,損失函數是模型對數據擬合程度的反映,擬合得越差,損失函數的值就應該越大,同時還期望損失函數在比較大時它對應的梯度也要比較大,這樣更新變量就可以更新得更快一點。投影儀呈現的圖像內容是為了使觀察者更好地理解圖像的內容,同時觀察者也是評價顯示效果優(yōu)劣的決策者,觀察者依賴人眼視覺感知機理對獲取到的信息進行分析和理解,最終得出相應的評價考核結果。而人眼視覺感知機理是一個復雜的視覺分析系統(tǒng),需要采用一種符合人眼視覺感知系統(tǒng)特性的圖像質量客觀評價標準作為損失函數。基于此,本文對文獻[13]選取的損失函數SSIM+L1提出改進方法。其中結構相似性度量SSIM是自上而下的一種圖片對比方法,即人眼視覺系統(tǒng)非常適合從場景中提取結構信息,文中應用的L1范數損失函數是把目標值與估計值的絕對差值總和最小化。這一損失函數的缺點就是對于數據集的一個小的水平方向波動,回歸線也可能存在跳躍很大的情況,在一些數據結構上該方法有許多連續(xù)解?;谝陨蠁栴},本文分析如下3種損失函數,L1損失函數如(1)式所示,L2損失函數如(2)式所示,SmoothL1損失函數如(3)式所示[14],其中y為預測值與真實值之間的差異。
L1(y)=|y|,
(1)
L2(y)=y2,
(2)
(3)
根據(1)式可知:使用SSIM+L1損失函數在訓練后期,當預測值與真實值差異很小時,L1損失函數對預測值的導數絕對值仍然為1;而學習率不變,損失函數將在穩(wěn)定值附近波動,難以繼續(xù)收斂以達到更高精度。
根據(2)式可知,當y增大時L2損失函數對y的導數也增大。這就導致訓練初期,當預測值與真實值差異過于大時,SSIM+L2損失函數對預測值的梯度十分大,訓練不穩(wěn)定。
根據(3)式可知,SmoothL1結合了L1損失函數和L2損失函數的優(yōu)點:當y較小時,對y的梯度也會變小;而在y很大時,對y的梯度絕對值達到上限1,也不會太大,以至于破壞網絡參數。使用SSIM+SmoothL1損失函數完美地避開了SSIM+L1損失函數和SSIM+L2損失函數的缺陷。因此本文使用了SSIM+SmoothL1作為損失函數計算預測值與真實值之間的差值并不斷修正,得到最優(yōu)參數。實驗結果證明了該方法的有效性。
實驗使用開源的機器學習庫PyTorch實現D-CompenNet,訓練用Adam[15]優(yōu)化器,設置指數衰減率β=0.9,初始學習率為10-3,800次迭代后將其衰減5倍;初始化模型權重使用Kaiming[16]方法;計算機配置包括兩個Nvidia GeForce 1080顯卡,22G顯存。
本文所提基于D-CompentNet模型的投影圖像顏色補償算法在網絡訓練過程中選用公開的24個不同環(huán)境設置的評估基準數據集,每個數據集500張訓練圖片、200張測試圖片。
同一數據集中對文獻[13]方法和本文改進的方法進行定量比較結果如圖2所示,從中可以看出在其中一個數據集上進行測試,D-CompentNet模型并使用SSIM+SmoothL1損失函數比CompentNet中使用SSIM+L1損失函數的驗證SSIM提高了11.49%、驗證均方根誤差RMSE僅提高了0.51%,而訓練損失降低了10.96%,顯示出了改進的明顯優(yōu)勢。
圖2 同一個數據集中文獻[13]方法和本文改進方法的定量比較
實驗在不同紋理投影表面背景下進行投影,本文方法與文獻[13]方法對比結果如表2所示。從表2中可見,使用本文改進方法進行補償后,投影顯示效果實現了與人眼主觀感知更好的一致性。
表2 本文方法與文獻[13]方法結果對比
本文研究了作戰(zhàn)輔助系統(tǒng)中基于深度學習的投影圖像顏色補償方法,提出了CompenNet網絡結構改進方法,該方法可以對有色投影背景進行智能投影校正,提高作戰(zhàn)輔助系統(tǒng)中投影顯示設備的搭建速度和顯示效果。所得主要結論如下:
1)D-CompenNet網絡模型增加了網絡深度,使生成圖片能夠保留較多的圖像細節(jié),提高了圖像生成質量。
2)引入新的損失函數項后,使網絡訓練較快收斂的同時保證了訓練結果的穩(wěn)定性。
3)使用本文改進方法實現了投影圖像與原圖像更好的客觀一致性,同時人眼主觀感知效果也有所提高。
參考文獻(References)
[1] GRUNDH?FER A.Practical non-linear photometric projector compensation[C]∥Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops.Portland,OR,US:IEEE,2013:924-929.
[2] HUANG T H,WANG T C,CHEN H H.Radiometric compensation of images projected on non-white surfaces by exploiting chromatic adaptation and perceptual anchoring[J].IEEE Transactions on Image Processing,2016,26(1):147-159.
[3] COSTA P,GALDRAN A,MEYER M I,et al.End-to-end adversarial retinal image synthesis[J].IEEE Transactions on Medical Imaging,2018,37(3):781-791.
[4] TAN J X,GAO Y F,LIANG Z R,et al.3D-GLCM CNN:A 3-dimensional gray-level co-occurrence matrix-based CNN model for polyp classification via CT colonography[J].IEEE Transactions on Medical Imaging,2020,39(6):2013-2024.
[5] LI Y S,ZHANG Y J,HUANG X,et al.Learning source-invariant deep hashing convolutional neural networks for cross-source remote sensing image retrieval[J].IEEE Transactions on Geoscience and Remote Sensing,2018,56(11):6521-6536.
[6] EL MALLAHI M,ZOUHRI A,QJIDAA H.Radial meixner moment invariants for 2D and 3D image recognition[J].Pattern Recognition and Image Analysis,2018,28(2):207-216.
[7] 李響,蘇娟,楊龍.基于改進YOLOv3的合成孔徑雷達圖像中建筑物檢測算法[J].兵工學報,2020,41(7):1347-1359.
LI X,SU J,YANG L.A SAR building detection algorithm based on improved YOLOv3[J].Acta Armamentarii,2020,41(7):1347-1359.(in Chinese)
[8] 梁杰,李磊,任君,等.基于深度學習的紅外圖像遮擋干擾檢測方法[J].兵工學報,2019,40(7):1401-1410.
LIANG J,LI L,REN J,et al.Infrared image occlusion interference detection method based on deep learning[J].Acta Armamentarii,2019,40(7):1401-1410.(in Chinese)
[9] 余躍,王宏倫.基于深度學習的高超聲速飛行器再入預測校正容錯制導[J].兵工學報,2020,41(4):656-669.
YU Y,WANG H L.Deep learning-based reentry predictor-corrector fault-tolerant guidance for hypersonic vehicles[J].Acta Armamentarii,2020,41(4):656-669.(in Chinese)
[10] 溫豪,孟召宗,高楠,等.多光通道條紋投影系統(tǒng)誤差測量與補償[J].光子學報,2020,49(7):712004.
WEN H,MENG Z Z,GAO N,et al.Error measurement and compensation of multi-light channel stripe projection system[J].Acta Photonica Sinica,2020,49(7):712004.(in Chinese)
[11] ISOLA P,ZHU J Y,ZHOU T H,et al.Image-to-image translation with conditional adversarial networks[C]∥Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops.Honolulu, HI,US:IEEE Computer Society Press,2017.
[12] 杜振龍,沈海洋,宋國美,等.基于改進CycleGAN的圖像風格遷移[J].光學精密工程,2019,27(8):1836-1844.
DU Z L,SHEN H Y,SONG G M,et al.Image style transfer based on improved CycleGAN[J].Optical Precision Engineering,2019,27(8):1836-1844.(in Chinese)
[13] HUANG B Y,LING H B.End-to-end projector photometric compensation[C]∥Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach,CA,US:IEEE,2019.
[14] GIRSHICK R.Fast R-CNN[C]∥Proceedings of 2015 IEEE International Conferenceon Computer Vision.Santiago,Chile:IEEE,2015.
[15] KINGMA D P,BA J L.Adam: amethod for stochastic optimization[C]∥Proceedings of the 3rd International Conference on Learning Representations.San Diego,CA,US:the Computational and Biological Learning Society,2015.
[16] HE K M,ZHANG X Y,REN S Q,et al.Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C]∥Proceedings of 2015 IEEE International Conference on Computer Vision.Santiago,Chile:IEEE,2015.