張潔 陶興發(fā) 楊毅 林嘉欣 胡偉
摘 要:古文物是人類(lèi)文明和歷史文化的重要載體,對(duì)研究古代經(jīng)濟(jì)和文明至關(guān)重要。與傳統(tǒng)的三維重建方式不同,基于深度學(xué)習(xí)的單視圖三維重建技術(shù)可以避免復(fù)雜的圖像處理,具有重要意義。本項(xiàng)目在古文物數(shù)據(jù)集的基礎(chǔ)之上,使用"編碼器-解碼器-優(yōu)化器"的整體網(wǎng)絡(luò)結(jié)構(gòu)解決現(xiàn)有重建算法精度不足的缺陷,且在編碼器層面上實(shí)現(xiàn)了2D-高階模塊,利用2D-高階模塊解決了目前特征提取算法能力不足的問(wèn)題。此外,本項(xiàng)目通過(guò)引入一個(gè)全局上下文模塊和空間細(xì)節(jié)增強(qiáng)模塊,使系統(tǒng)更有效地處理模糊圖像,并增強(qiáng)特定位置的細(xì)節(jié),而且能夠有效地消除圖像模糊并恢復(fù)圖像的細(xì)節(jié),達(dá)到圖像復(fù)原的效果。
關(guān)鍵詞:三維重建;深度學(xué)習(xí);單視圖;體素;數(shù)字復(fù)原
中圖分類(lèi)號(hào):TP242.6? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文物古跡承載著豐富的歷史信息和文化遺產(chǎn),記錄了人類(lèi)社會(huì)發(fā)展的歷程和文明的演進(jìn),隨著文物出土量的增加,開(kāi)展文物保護(hù)工作迫在眉睫。通過(guò)對(duì)文物古跡進(jìn)行重建與復(fù)原工作,使其在數(shù)字空間中得以再現(xiàn)不僅是一種保存文物數(shù)據(jù)的方法,也是展示人類(lèi)文明的有效途徑。相較于傳統(tǒng)的單視圖古文物三維重建和復(fù)原方式,基于深度學(xué)習(xí)的單視圖古文物三維重建和復(fù)原方式對(duì)數(shù)據(jù)量需求更低,對(duì)復(fù)雜場(chǎng)景的適應(yīng)性更強(qiáng),且進(jìn)行三維重建和復(fù)原時(shí)擁有更高的精度和效率。因此,研究基于深度學(xué)習(xí)的單視圖古文物三維重建和復(fù)原技術(shù)具有深遠(yuǎn)意義。
一、系統(tǒng)結(jié)構(gòu)
本系統(tǒng)采用前后端分離的架構(gòu),實(shí)現(xiàn)了用戶輸入圖像后的三維模型生成。前端接收用戶的圖像輸入并傳輸給后端模型,后端利用基于單視圖的深度學(xué)習(xí)三維重建和復(fù)原模型進(jìn)行操作,生成體素模型,并將其傳輸回前端頁(yè)面,使用戶能夠獲取相應(yīng)的體素三維模型。這種前后端分離系統(tǒng)無(wú)需用戶進(jìn)行其他操作,實(shí)現(xiàn)了完整的功能。
系統(tǒng)的前端頁(yè)面使用JavaScript、elementUI等技術(shù)實(shí)現(xiàn),后端使用Python結(jié)合Django進(jìn)行前后端的結(jié)合,同時(shí)使用Unity3D處理模型的紋理等任務(wù)。通過(guò)編解碼格式轉(zhuǎn)換,實(shí)現(xiàn)了數(shù)據(jù)的前后端解析和傳輸?shù)热蝿?wù)。系統(tǒng)架構(gòu)如圖1所示。
(一)文物數(shù)字重建與復(fù)原系統(tǒng)
1.基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)集。(1)VGGNet神經(jīng)網(wǎng)絡(luò)。為了增加網(wǎng)絡(luò)深度而避免退化問(wèn)題,本系統(tǒng)采用了VGGNet神經(jīng)網(wǎng)絡(luò)。VGG-16和VGG-19是目前最常用的兩個(gè)版本,其區(qū)別在于網(wǎng)絡(luò)深度。這兩種結(jié)構(gòu)都使用了一組2×2池化卷積與多組3×3卷積,利用單分支結(jié)構(gòu)實(shí)現(xiàn)深度增加,有效緩解參數(shù)量增加的問(wèn)題。通過(guò)堆疊3×3卷積來(lái)替代更高維度的卷積層,能夠有效減少參數(shù)數(shù)量和內(nèi)存占用,提高訓(xùn)練速度[1]。
(2).全局上下文(GC)塊。引入GC塊是對(duì)卷積層的補(bǔ)充,將全局信息與局部信息融合,以便模型更好地消除圖像模糊并恢復(fù)幾何和紋理特征。對(duì)于生成網(wǎng)絡(luò),全局感受野意味著覆蓋整個(gè)空間維度的長(zhǎng)距離依賴關(guān)系,有助于去除模糊并復(fù)原清晰的形狀輪廓結(jié)構(gòu)。本項(xiàng)目將GC塊插入殘差塊中,形成全局感知?dú)埐顗K(GA-RB),實(shí)現(xiàn)全局信息和局部信息更好地結(jié)合,使得特征在空間維度上進(jìn)行壓縮與恢復(fù),類(lèi)似于編碼器-解碼器結(jié)構(gòu)[2]。
(3).基于深度學(xué)習(xí)的單視圖三維重建數(shù)據(jù)集。ShapeNet數(shù)據(jù)集是計(jì)算機(jī)視覺(jué)領(lǐng)域中常用的數(shù)據(jù)集之一。ShapeNet提供了多種表示形式,如點(diǎn)云、體素和網(wǎng)格等。再者,大部分三維模型在ShapeNet數(shù)據(jù)集中經(jīng)過(guò)了專業(yè)研究人員的分類(lèi)處理,并添加了語(yǔ)義注釋,例如幾何信息、模型分辨率和類(lèi)別標(biāo)簽等。
2.整體三維重建算法設(shè)計(jì)。該項(xiàng)目的三維重建算法包括編碼器、解碼器和優(yōu)化器三個(gè)模塊。編碼器采用2D-repVGG網(wǎng)絡(luò),解碼器使用3D反卷積神經(jīng)網(wǎng)絡(luò)處理特征圖,生成初始的三維體素模型,隨后輸入上下文感知融合模塊中。該模塊能夠?yàn)槊總€(gè)初始模型生成分?jǐn)?shù)表,根據(jù)部分的權(quán)重進(jìn)行加權(quán)求和,從而在特定位置進(jìn)行高質(zhì)量的重建,最終形成融合的三維體素模型[3]。圖2為整體三維重建算法結(jié)構(gòu)圖。
3.古文物圖像復(fù)原算法設(shè)計(jì)
本項(xiàng)目選擇使用在圖像生成領(lǐng)域效果較好的生成對(duì)抗網(wǎng)絡(luò)模型,且在此網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行改進(jìn),形成了全局感知生成對(duì)抗網(wǎng)絡(luò)(GA-GAN)。在模糊圖像復(fù)原領(lǐng)域,生成器的性能很大程度上決定了復(fù)原效果,對(duì)比傳統(tǒng)的生成對(duì)抗網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)模型在生成器網(wǎng)絡(luò)上進(jìn)行了改良和創(chuàng)新,通過(guò)引入全局上下文模塊,實(shí)現(xiàn)了捕捉整幅圖像的全局信息的能力,使生成器可以處理具有模糊效果的全局圖像。通過(guò)引入空間細(xì)節(jié)增強(qiáng)模塊,增強(qiáng)模型對(duì)細(xì)節(jié)的關(guān)注,使生成器輸出的圖像細(xì)節(jié)更加清晰明了。此外,生成器網(wǎng)絡(luò)中還引入了全局殘差學(xué)習(xí)的方式,進(jìn)一步提高了生成圖像的質(zhì)量。隨后,我們將生成器輸出的復(fù)原圖像和對(duì)應(yīng)的清晰圖像分別輸入判別器,判別器對(duì)輸入圖像的類(lèi)別進(jìn)行判斷。經(jīng)過(guò)對(duì)抗訓(xùn)練,GA-GAN模型能夠生成較高質(zhì)量的去模糊圖像[4]。
(二)系統(tǒng)數(shù)據(jù)與功能實(shí)現(xiàn)
1.實(shí)驗(yàn)數(shù)據(jù)。為驗(yàn)證模型的高效性,實(shí)驗(yàn)將2D-RepVGG與現(xiàn)有的幾種基于深度學(xué)習(xí)的三維重建網(wǎng)絡(luò)如3D-R2N2、Pix2Vox從訓(xùn)練時(shí)間和內(nèi)存占用兩個(gè)方面進(jìn)行對(duì)比。數(shù)據(jù)集選用ShapeNet數(shù)據(jù)集,IoU作為評(píng)估指標(biāo),2D-高階模塊通道數(shù)選取16×channel,實(shí)驗(yàn)結(jié)果如表1所示。
由表1可看出,在訓(xùn)練速度方面,2D-RepVGG和Pix2Vox明顯高于3D-R2N2,而由于2D-RepVGG增加了2D-高階模塊進(jìn)行深度特征提取等操作,在內(nèi)存占用率和訓(xùn)練速度方面的優(yōu)勢(shì)略低于Pix2Vox。
為驗(yàn)證模型在重建精度上的體現(xiàn),實(shí)驗(yàn)將2D-RepVGG與深度學(xué)習(xí)的三維重建網(wǎng)絡(luò)3D-R2N2、Pix2Vox、OGN網(wǎng)絡(luò)進(jìn)行對(duì)比。數(shù)據(jù)集選用ShapeNet數(shù)據(jù)集,IoU作為評(píng)估指標(biāo),實(shí)驗(yàn)結(jié)果如表2所示。
表2 三維重建算法在ShapeNet數(shù)據(jù)集上的結(jié)果對(duì)比
由表2可看出,2D-RepVGG網(wǎng)絡(luò)在ShapeNet數(shù)據(jù)集上就重建精度而言較Pix2Vox性能更好。
為驗(yàn)證GA-GAN方法的優(yōu)越性,實(shí)驗(yàn)將GA-GAN方法與DeepDeblur、DeblurGAN、DeblurGAN-v2這三種端到端的方法進(jìn)行對(duì)比。數(shù)據(jù)集選用GOPORO數(shù)據(jù)集,PSNR和SSIM作為評(píng)估指標(biāo),實(shí)驗(yàn)結(jié)果如表3所示。
由表3可知,與上述三種方法相比,GA-GAN方法擁有更優(yōu)越的性能。
2.系統(tǒng)功能實(shí)現(xiàn)
該系統(tǒng)分為前端和后端兩個(gè)部分。前端實(shí)現(xiàn)了圖片上傳、預(yù)覽和展示三維體素模型的功能,采用了JavaScript、elementUI等技術(shù)。用戶上傳圖片后,系統(tǒng)自動(dòng)轉(zhuǎn)換為base64編碼展示在前端頁(yè)面,生成模型時(shí)通過(guò)ajax傳輸至后端進(jìn)行三維重建和復(fù)原,再由Unity3D添加紋理,最后傳輸至前端展示。后端利用Python、Django等技術(shù),接收前端上傳的圖片數(shù)據(jù),經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行三維體素重建和復(fù)原,最終通過(guò)Django實(shí)現(xiàn)前后端交互,完成數(shù)據(jù)傳輸流程。
二、技術(shù)路線
該項(xiàng)目在已有的古文物數(shù)據(jù)集的基礎(chǔ)上,采用2D-高階模塊的方法,該方法應(yīng)用于編碼器層,通過(guò)使用恒等鏈接和1×1卷積擴(kuò)充通道的方式實(shí)現(xiàn)2D-高階模塊。通過(guò)引入此模塊,使得系統(tǒng)在特征提取方面具有更強(qiáng)的能力。
此外,該項(xiàng)目使用2D-RepVGG網(wǎng)絡(luò)架構(gòu),解決了由特征提取網(wǎng)絡(luò)過(guò)深引起的過(guò)擬合問(wèn)題。同時(shí),該方法采用重參數(shù)化的方式替代了多分支結(jié)構(gòu),以提升整體網(wǎng)絡(luò)性能。在編碼器中,使用這種網(wǎng)絡(luò)結(jié)構(gòu)可以提高圖像特征提取的效果,從而提高神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性。
在以上研究的基礎(chǔ)上,該項(xiàng)目采用了以“編碼器-解碼器”為結(jié)構(gòu)的重建方法。項(xiàng)目使用基于全局感知的生成對(duì)抗網(wǎng)絡(luò)來(lái)進(jìn)行模糊圖像復(fù)原。研究工作主要集中在GAN模型的結(jié)構(gòu)設(shè)計(jì)和上下文建模方面,使生成器能夠同時(shí)學(xué)習(xí)模糊圖像中的局部和全局上下文信息。此外,項(xiàng)目還設(shè)計(jì)了一個(gè)空間細(xì)節(jié)增強(qiáng)模塊,用于學(xué)習(xí)重要空間位置的信息。針對(duì)各個(gè)模型的訓(xùn)練,對(duì)參數(shù)設(shè)置和實(shí)驗(yàn)環(huán)境進(jìn)行了配置。
根據(jù)以上的技術(shù)路線,該項(xiàng)目旨在設(shè)計(jì)一個(gè)基于深度學(xué)習(xí)的單視圖古文物三維重建和復(fù)原系統(tǒng)。技術(shù)路線流程圖如圖3所示。通過(guò)該系統(tǒng),可以實(shí)現(xiàn)對(duì)古文物的三維重建和復(fù)原,為文物保護(hù)和研究提供支持。
三、結(jié)論
基于以上研究成果,本項(xiàng)目開(kāi)發(fā)了一個(gè)基于深度學(xué)習(xí)的單視圖古文物三維重建和復(fù)原系統(tǒng)。該系統(tǒng)具備圖片上傳、三維重建與復(fù)原和數(shù)據(jù)下載等功能。用戶上傳圖片后,系統(tǒng)能夠自動(dòng)進(jìn)行圖像檢測(cè),并生成相應(yīng)的三維體素模型,以滿足用戶的輸入條件。實(shí)驗(yàn)證明,該系統(tǒng)在整體性能和功能執(zhí)行方面表現(xiàn)出高效可靠的特點(diǎn),所有功能均得到正確執(zhí)行。本項(xiàng)目將在文化遺產(chǎn)保護(hù)、教育研究、展示交流和修復(fù)等領(lǐng)域發(fā)揮重要的作用,為傳承與弘揚(yáng)人類(lèi)文明做出貢獻(xiàn)。
參考文獻(xiàn):
[1]葉成慶.基于單視圖和深度學(xué)習(xí)的古文物三維重建技術(shù)研究[D].重慶郵電大學(xué),2022.DOI:10.27675/d.cnki.gcydx.2022.000545.
[2]朱文球,雷源毅等.融合全局上下文注意力的遙感圖像檢測(cè)方法[J].兵器裝備工程學(xué)報(bào),2024,45(02):278-283.
[3]楊碩.基于深度學(xué)習(xí)的三維重建算法的研究與實(shí)現(xiàn)[D].貴州師范大學(xué),2022(12).
[4]王鵬.基于深度學(xué)習(xí)的模糊圖像復(fù)原算法研究.2021.北京交通大學(xué),MA thesis.doi:10.26944/d.cnki.gbfju.2021.002161.