周亞峰,金 益,祁昌豐,李鈴祥,章語(yǔ)軒
(蘇州市職業(yè)大學(xué),江蘇 蘇州 215000)
以國(guó)家一級(jí)博物館——蘇州博物館的藏品為例,探討如何利用成熟的數(shù)字技術(shù)——特別是增強(qiáng)現(xiàn)實(shí)技術(shù)——幫助博物館更好地展示、宣傳館內(nèi)藏品。蘇州博物館館藏豐富多樣,包括中國(guó)古代書(shū)畫(huà)、陶瓷、玉器、青銅器、古錢(qián)幣、文房用具等,這些珍貴的藝術(shù)品展示了蘇州地區(qū)的獨(dú)特文化和藝術(shù)風(fēng)格。其中,秘色瓷蓮花碗、真珠舍利寶幢、盛真珠舍利寶幢內(nèi)木函、《趙天裕、柯九思、趙原、顧安、張紳、吳鎮(zhèn)六家墨竹卷》尤其值得稱(chēng)道。
近年來(lái),增強(qiáng)現(xiàn)實(shí)(Augmented Reality,AR)技術(shù)在許多領(lǐng)域得到了廣泛應(yīng)用。在博物館及文化創(chuàng)意領(lǐng)域,增強(qiáng)現(xiàn)實(shí)技術(shù)為用戶(hù)提供了更加豐富、新穎、有趣的體驗(yàn)方式[1]。通過(guò)將數(shù)字信息與真實(shí)世界場(chǎng)景相融合,增強(qiáng)現(xiàn)實(shí)為博物館提供了豐富的展示和互動(dòng)方式,創(chuàng)造出增強(qiáng)的視覺(jué)和感知體驗(yàn)。在增強(qiáng)現(xiàn)實(shí)場(chǎng)景中,物體的陰影是影響真實(shí)感和逼真度的重要元素之一。物體陰影生成算法旨在模擬光照效果,為虛擬物體在真實(shí)場(chǎng)景中生成逼真的陰影,從而增強(qiáng)用戶(hù)的沉浸感和現(xiàn)實(shí)感[2]。
結(jié)合深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)技術(shù),本文介紹了一種用于增強(qiáng)現(xiàn)實(shí)場(chǎng)景中物體陰影生成的基于生成對(duì)抗網(wǎng)絡(luò)的新算法,并以蘇州博物館藏品為例進(jìn)行了實(shí)驗(yàn)分析。
增強(qiáng)現(xiàn)實(shí)中的物體陰影生成算法通常涉及以下幾個(gè)關(guān)鍵方面:(1)光照模擬。為了生成逼真的陰影,算法需要模擬光源的位置、強(qiáng)度和顏色。這可以通過(guò)物體的位置、虛擬光源的設(shè)置以及場(chǎng)景的光照條件來(lái)實(shí)現(xiàn)。(2)幾何信息。算法需要獲取虛擬物體的幾何信息,如形狀、大小和方向。準(zhǔn)確的物體幾何信息有助于生成與實(shí)際物體相匹配的陰影。(3)投影計(jì)算。通過(guò)將物體的幾何信息與光源的光線相交,算法計(jì)算出物體在不同表面上的陰影投影。這需要考慮物體之間的遮擋關(guān)系及光線在不同表面上的折射和反射。(4)陰影渲染。算法根據(jù)光照模擬和投影計(jì)算生成的陰影信息,將虛擬物體的陰影渲染到真實(shí)場(chǎng)景中。這需要考慮陰影的顏色、強(qiáng)度和模糊程度。(5)實(shí)時(shí)性能。在增強(qiáng)現(xiàn)實(shí)應(yīng)用中,實(shí)時(shí)性能是關(guān)鍵因素之一。物體陰影生成算法需要在短時(shí)間內(nèi)計(jì)算出陰影信息并渲染到場(chǎng)景中,以保持流暢的用戶(hù)體驗(yàn)。
目前,已經(jīng)有許多學(xué)者對(duì)物體陰影生成算法進(jìn)行了研究[2-8]。傳統(tǒng)的方法主要是基于幾何學(xué)原理或光線追蹤技術(shù)來(lái)生成陰影。然而,這些方法往往需要大量的計(jì)算資源且對(duì)光源、材質(zhì)、環(huán)境等因素非常敏感,難以應(yīng)用于增強(qiáng)現(xiàn)實(shí)場(chǎng)景中。
近年來(lái),深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大的進(jìn)展,尤其是生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)在圖像生成方面的突破[9],為解決增強(qiáng)現(xiàn)實(shí)場(chǎng)景中物體陰影生成問(wèn)題提供了新的思路。目前,已經(jīng)有一些學(xué)者基于GAN提出了物體陰影生成算法[5-8],并取得了不錯(cuò)的效果。本文以ARShadowGAN算法為例進(jìn)行實(shí)驗(yàn)[5,7]。
然而,當(dāng)前的物體陰影生成算法仍然存在著一些問(wèn)題,例如:缺乏真實(shí)感、邊緣模糊、光影不連續(xù)等。因此,如何提高陰影生成算法的精度和效率,是當(dāng)前研究的重點(diǎn)之一。
生成對(duì)抗網(wǎng)絡(luò)是一種強(qiáng)大而創(chuàng)新的深度學(xué)習(xí)模型[9],旨在通過(guò)博弈的方式實(shí)現(xiàn)生成模型和判別模型的相互學(xué)習(xí)和優(yōu)化。GAN的核心思想是通過(guò)2個(gè)對(duì)抗的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練:生成器和判別器。生成器模型旨在學(xué)習(xí)生成與真實(shí)數(shù)據(jù)相似的合成數(shù)據(jù)樣本,如圖像、文本或音頻等。生成器接受一個(gè)隨機(jī)噪聲向量作為輸入并通過(guò)逐漸調(diào)整網(wǎng)絡(luò)參數(shù)來(lái)生成偽造的數(shù)據(jù)樣本,使生成的樣本在外觀和分布上越來(lái)越接近真實(shí)數(shù)據(jù)。判別器模型作為對(duì)抗的一方,旨在區(qū)分生成器生成的偽造樣本和真實(shí)數(shù)據(jù)樣本。GAN通過(guò)交替訓(xùn)練生成器和判別器來(lái)實(shí)現(xiàn)優(yōu)化。在訓(xùn)練過(guò)程中,生成器和判別器相互博弈,通過(guò)最小化生成器生成的樣本與真實(shí)數(shù)據(jù)之間的差異并最大化判別器正確識(shí)別真實(shí)數(shù)據(jù)的能力,從而實(shí)現(xiàn)模型的迭代和優(yōu)化。
ARShadowGAN方法是基于生成對(duì)抗網(wǎng)絡(luò)和注意力機(jī)制的一種端到端的陰影生成方法[5,7],其結(jié)構(gòu)由3部分組成:注意力模塊、陰影生成及改善模塊、陰影質(zhì)量判別模塊,如圖1所示。注意力模塊接收2個(gè)輸入:不含虛擬物體陰影的增強(qiáng)現(xiàn)實(shí)圖像和虛擬物體掩模圖形。輸入圖像將被送到2個(gè)相同的解碼器分支,一個(gè)分支預(yù)測(cè)真實(shí)物體陰影的注意力熱圖,另一個(gè)分支預(yù)測(cè)陰影對(duì)應(yīng)遮擋物的注意力熱圖。陰影生成及改善模塊利用U型網(wǎng)絡(luò)的5個(gè)下采樣-上采樣層。先生成粗略的虛擬陰影圖,再通過(guò)改善模塊連續(xù)進(jìn)行4次微調(diào)得到改善過(guò)的虛擬陰影圖,并將其與輸入圖像疊加得到具備虛擬陰影的增強(qiáng)現(xiàn)實(shí)圖像。陰影質(zhì)量判別模塊本質(zhì)上是一個(gè)小型全卷積網(wǎng)絡(luò),其接收不含虛擬物體陰影的圖像、虛擬物體掩模、帶有虛擬物體陰影的圖像作為輸入,判斷輸入的帶陰影圖像是真實(shí)陰影還是算法生成的虛擬陰影,以此提升陰影生成器的效果。
硬件方面,實(shí)驗(yàn)在英偉達(dá)Tesla T4圖形處理器上進(jìn)行,該顯卡擁有16 G的256位GDDR6顯存,理論單精度性能為8.141TFLOPS。軟件方面,筆者使用的操作系統(tǒng)為Ubuntu 20.04.6 LTS,深度學(xué)習(xí)框架為開(kāi)源的PyTorch 2.0.1,借助segmentation-models-pytorch開(kāi)源庫(kù)實(shí)現(xiàn)了算法的快速實(shí)現(xiàn)和PyTorch模型的便捷構(gòu)建。CUDA ToolKit版本為11.8,CuDNN版本為8700。模型在ARShadowGAN原文自建的數(shù)據(jù)集訓(xùn)練和測(cè)試,數(shù)據(jù)集包含3 000張圖片,500張用于注意力模塊訓(xùn)練,2 000張用于虛擬陰影生成器訓(xùn)練,500張用于測(cè)試。
筆者利用原文訓(xùn)練好的模型在蘇州博物館的藏品圖像數(shù)據(jù)上進(jìn)行推理實(shí)驗(yàn)。由于模型結(jié)構(gòu)限制,所有輸入的圖片都用3次插值算法縮放到256×256大小。為了展示方便,本文將輸出圖片重新縮放回原尺寸。實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 實(shí)驗(yàn)結(jié)果(虛擬模型來(lái)源:第一排模型為秘色瓷蓮花碗,第二排為真珠舍利寶幢)
蓮花碗(較為簡(jiǎn)單的藏品):這個(gè)藏品的主體邊緣相對(duì)較為簡(jiǎn)單。ARShadowGAN生成的陰影總體上是比較可信的,能夠很好地模擬出蓮花碗的基本陰影情況。然而,蓮花碗的碗碟有蓮花形狀的裝飾,筆者注意到生成的陰影沒(méi)有很好地表現(xiàn)出這些蓮花的花瓣,這可能是需要進(jìn)一步優(yōu)化的地方。
寶幢(復(fù)雜的藏品):寶幢是一個(gè)形狀極為復(fù)雜的藏品,具有非常多且非常小的部件。在這個(gè)情況下,筆者觀察到生成的陰影質(zhì)量較差,可能是復(fù)雜的構(gòu)造和部件的尺寸問(wèn)題導(dǎo)致的。這表明ARShadow GAN算法在處理復(fù)雜的、具有微小部件的藏品時(shí)可能存在一些挑戰(zhàn),需要進(jìn)一步改進(jìn)。
總的來(lái)說(shuō),實(shí)驗(yàn)結(jié)果展示了ARShadowGAN在增強(qiáng)現(xiàn)實(shí)場(chǎng)景中物體陰影生成方面的潛力和局限性。在處理相對(duì)簡(jiǎn)單的藏品時(shí),算法表現(xiàn)出色,但在處理復(fù)雜的、充滿細(xì)節(jié)的藏品時(shí),還需要進(jìn)一步的研究和改進(jìn),以提高陰影的質(zhì)量和準(zhǔn)確性。這些實(shí)驗(yàn)結(jié)果為數(shù)字文化遺產(chǎn)保護(hù)和增強(qiáng)現(xiàn)實(shí)領(lǐng)域的工作提供了有益的參考和啟示。
本文以蘇州博物館的藏品為例,研究了基于生成對(duì)抗網(wǎng)絡(luò)的增強(qiáng)現(xiàn)實(shí)場(chǎng)景中的物體陰影生成算法。通過(guò)實(shí)驗(yàn)驗(yàn)證,文中選用的算法能夠生成具有高可信度的物體陰影,為增強(qiáng)現(xiàn)實(shí)環(huán)境中展示文化遺產(chǎn)提供了有效的解決方案。這一研究對(duì)于促進(jìn)文化遺產(chǎn)的傳播與保護(hù)以及推動(dòng)增強(qiáng)現(xiàn)實(shí)技術(shù)的發(fā)展具有一定意義。
然而,ARShadowGAN仍存在一些局限性。例如,對(duì)于復(fù)雜形狀的物體陰影生成效果有待進(jìn)一步提升。未來(lái),筆者將改進(jìn)現(xiàn)有算法,探索更多的數(shù)據(jù)增強(qiáng)技術(shù)和網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合其他計(jì)算機(jī)視覺(jué)和圖像處理技術(shù),如目標(biāo)檢測(cè)和語(yǔ)義分割等,以進(jìn)一步提高物體陰影的逼真程度,并將研究成果應(yīng)用于更廣泛的增強(qiáng)現(xiàn)實(shí)場(chǎng)景中。