關鍵詞:圖像矢量化;圖像模式;殘差網(wǎng)絡;圖像分類;可微圖像合成中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2025)07-038-2206-07doi:10.19734/j.issn.1001-3695.2024.09.0374
Abstract:Tovectorizearchitecturalpaintedpaternimagesthatcontainreusablegraphicelements,whilepreservingtheindependenceandtransformationparametersof thereusable graphic elements,thispaperproposedavectorizationmethodforarchitecturalpaintedpaternimagesbasedonelementtransformation.Thismethodfirstlydividedcomplexpattersintolocalpatterns,thenconductedmulti-classelementdetectiononthelocalpaternstocompleteelementfilteringandinitializeelement transformationparameters.Subsequently,itusedanimproveddiferentiablesythesisalgorithmtocalculatethetransforation parametersof thelements,ultimatelyachievingvectorizationofthepaternimagewhileretainingthetransformationparameters of thereusablegraphicelements.Experimentalresultsdemonstratethatthis methodcanachieveasmalerimagereconstruction eroronarchitecturalpaintedpatterndatasets,whilealsopreservingthetransformationparametersofthereusablegraphic elements.Basedonthecharacteristicsof thepainted paters,thispaperproposedavarietyofvectorizationmetrics tocompare the performance of various methods.Thismethodhas advantages in terms ofreconstruction accuracyandtheretentionof element transformation parameters,and can be applied to the vectorization of images with reusable graphic elements.
Key words:image vectorization;image patterns;residual network;image classfication;diferential compositing
0 引言
圖像矢量化是將位圖轉換為由數(shù)學參數(shù)描述的矢量圖的一項技術,矢量圖相較于位圖具有分辨率無關性與占用空間小的優(yōu)點。近年來,Li等人1提出了一種通過邊緣采樣實現(xiàn)的可微分蒙特卡羅光線追蹤方法。之后,研究者提出了一種新的可微分矢量圖光柵化器2,該光柵化器能夠在矢量圖和光柵圖像之間實現(xiàn)參數(shù)梯度信息的雙向傳播。這種可微分光柵化器不僅使得對矢量圖的控制點以及顏色參數(shù)的直接優(yōu)化成為可能,而且允許將矢量圖表示無縫集成到基于卷積神經(jīng)網(wǎng)絡或者其他類型網(wǎng)絡的深度學習模型中。例如 SuperSVG[3]借助該光柵化器設計了一個兩階段的自監(jiān)督式神經(jīng)網(wǎng)絡,通過在光柵圖像數(shù)據(jù)集上進行訓練,實現(xiàn)由粗糙到細致的圖像矢量化。建筑彩繪紋樣圖像中豐富的變換關系也是一種可以通過變換參數(shù)描述的待矢量化信息。建筑彩繪紋樣的構成以若干基本的可復用圖元為基礎,通過對特定的圖元進行多次仿射變換,得到變換后的圖元序列,最后按照圖元序列的層次先后次序合并各個變換后的圖元得到整體的紋樣?;谏疃葘W習的圖像模式生成模型[4.5]在分析圖像的圖元信息并進行重建時,通常由于神經(jīng)網(wǎng)絡的隱式編碼特性不能精確保持圖元的獨立性和完整性,從而不利于對生成結果中的圖元變換參數(shù)信息進行直接編輯。Reddy等人[提出了一種基于基本圖元的可微合成算法,基于確定的基本圖元進行變換參數(shù)的求解,保持了圖元的獨立性和完整性。本文方法聚焦于由少量的可復用圖元通過豐富的復用和變換構成的建筑彩繪紋樣圖像的矢量化重建。對這類紋樣圖像進行保持變換參數(shù)信息的矢量化重建,主要面臨兩個方面的挑戰(zhàn):a)變換參數(shù)信息求解算法的精度問題;b)圖元庫構建問題。首先變換參數(shù)信息的求解精度問題是指目標圖像如建筑彩繪紋樣圖像數(shù)據(jù)具有更強的結構性,主要表現(xiàn)為紋樣圖元存在更多的對稱、縮放與旋轉關系。其次對于圖元庫構建問題,現(xiàn)有的通過機器學習方法提取圖元的方法主要存在兩個方面的問題:a)提取過程中無法界定圖元本身的完整性,從而導致重建結果不符合預期;b)圖元的數(shù)量隨著數(shù)據(jù)集規(guī)模與復雜度的增加而增加,冗余的候選圖元直接參與變換參數(shù)的求解會使得重建難度隨之增大,過多的冗余圖元也會使得算法的效率以及收斂性能受到較大的影響??晌⒑铣煞椒╗67]在存在大量冗余圖元的前提下會使得優(yōu)化過程陷入局部最優(yōu)解,從而導致重建結果存在較大誤差,如圖1所示。
為應對可微合成方法在多候選圖元下的局部最優(yōu)現(xiàn)象,本文提出了一種基于圖元過濾和改進的可微變換參數(shù)求解的建筑彩繪紋樣圖像矢量化方法(elementalfiltering-baseddifferen-tialtransformation,EF-DT),能夠在所處理的建筑彩繪紋樣圖像數(shù)據(jù)上達到較小的矢量化重建誤差,同時保留彩繪紋樣圖像中可復用圖元的變換參數(shù)以及變換后圖元的獨立性。
1相關工作
1.1 圖像矢量化
建筑彩繪紋樣圖像具有通過圖元復用和豐富的變換參數(shù)而構成的特點,這使得當前的矢量化方法難以直接用于建筑彩繪紋樣圖像的矢量化,并同時保留圖元的變換參數(shù)。
現(xiàn)有的圖像矢量化方法[8\~11]在處理非自然照片圖像時已經(jīng)能夠產(chǎn)生像素值均方誤差等視覺誤差較小的結果,Hoshyari等人[12]在矢量化算法中融人了從數(shù)據(jù)中學習到的矢量路徑關鍵點的設計經(jīng)驗,改善了矢量化結果的合理性。但上述方法是以圖像中顏色較為均勻一致的像素區(qū)域作為貝塞爾曲線待擬合的形狀,對建筑彩繪紋樣圖像的處理結果不具有圖元的獨立性,并忽視了圖元的變換參數(shù)這一層信息?;谏疃葘W習方法的矢量圖生成模型如DualVector[13]、 Im2Vec[14] 、DeepVec-Font[15,16] 對矢量字符、圖標等特定類型的矢量圖進行表征和生成方面也取得了初步的效果。Carlier等人[17]首次提出了端到端的矢量圖生成與表示模型,在復雜矢量圖表征上更進一步。SVGDreamer[18]結合文生圖擴散模型與可微渲染技術增強了矢量圖生成結果的多樣性。但是上述提到的矢量圖生成模型所適用的圖像數(shù)據(jù)復雜度有較大限制,對建筑彩繪紋樣圖像數(shù)據(jù)仍然難以直接處理。
1.2 圖像分類
在計算機視覺領域,圖像分類技術得益于一系列卷積神經(jīng)網(wǎng)絡已具有顯著成效。He等人[19]提出的ResNet模型通過引人殘差學習的概念和跳躍連接機制,解決了深層網(wǎng)絡訓練中的梯度消失問題。在這些經(jīng)典模型的基礎上, Hu 等人[20]提出了通道自注意力機制SE-Net,通過動態(tài)調(diào)整不同通道的重要性,使模型能夠更加集中于關鍵特征,從而提高了分類等下游任務的準確性。ViT模型[21]借助多頭自注意力機制,將圖像劃分為不同的patch進行處理,相比于CNN具有更大的感受野,更易于理解圖像全局上下文。Bello等人[22]提出了ResNet-RS,通過改進訓練和縮放策略來提高模型在圖像分類任務上的表現(xiàn),被證實能夠有效提升模型最終的性能,在EfficientNet[23中也有廣泛使用。本文圖元分類方法在模型超參數(shù)調(diào)整策略上借鑒了ResNet-RS中的思想來提高分類網(wǎng)絡的性能,從而更準確地識別所需要的圖元類型。
1.3 圖像模式提取
圖像模式是指通過若干基本圖元的有序或近似有序排列,創(chuàng)造出具有吸引力與審美價值的圖形或圖案,在視覺藝術和平面設計中具有重要地位?,F(xiàn)有的深度學習方法[24]直接在像素域上進行特征提取并不適用于實現(xiàn)直觀地對圖像模式信息的操縱,因為這類任務需要在保持單個圖元形狀獨立性與完整性以及圖元之間排列規(guī)律的同時進行操作,基于深度學習技術的生成方法容易擾亂單個圖元的形狀或圖元之間的排列,從而導致難以準確地重建出圖像中圖元的變換參數(shù)。
在根據(jù)圖元變換參數(shù)進行紋樣合成時,傳統(tǒng)的合成函數(shù)[25,26]包含了最近鄰四舍五人和離散可見性等非可微計算過程,無法通過目標函數(shù)的梯度進行反向傳播來指導變換參數(shù)的優(yōu)化。此外,圖元數(shù)量和圖元類型等信息的離散性也阻礙了從目標函數(shù)中獲得與模式相關的變換參數(shù)的優(yōu)化信息,增大了問題的搜索空間??晌⒑铣煞椒╗6可以根據(jù)確定的圖元直接從原圖像中優(yōu)化出圖元的變換參數(shù)信息,但是對于建筑彩繪紋樣等具有更多候選圖元數(shù)量與更豐富的圖元變換關系的圖像來說,該方法仍然具有圖1中難以克服的局部最優(yōu)現(xiàn)象,因此難以直接用于本文建筑彩繪紋樣圖像的處理。
2 圖元過濾
本文設計了一個兩階段的流程對建筑彩繪紋樣圖像進行保留圖元變換參數(shù)的矢量化,圖2是該方法的流程。首先基于建筑彩繪紋樣圖像數(shù)據(jù)構建了一個矢量化圖元庫?;谠搱D元庫,在第一階段訓練了一個用于識別圖像包含圖元類型的分類網(wǎng)絡,用于從圖元庫中過濾掉無關圖元;根據(jù)第一階段識別得到的矢量化圖元,在第二階段求解紋樣圖像中圖元的變換參數(shù)。本章將介紹第一階段圖元過濾所用網(wǎng)絡的實現(xiàn)細節(jié)。
2.1矢量化圖元庫構建
建筑彩繪紋樣圖像的可復用構成圖元較為明確的獨立性與完整性,因此本文通過半自動化的人工手段構建符合重建要求的矢量化圖元庫。圖元庫中的圖元應具有明顯的仿射變換可復用性,并且形狀盡可能簡單,以這兩條性質來進行圖元的人工選取和調(diào)整,使得構建出的圖元滿足可以通過仿射變換進行建筑彩繪紋樣圖像矢量化重建的需要,并將庫中圖元以SVG編碼格式存儲為圖元文件。圖元庫的具體示例在第4章有所介紹與展示。矢量化圖元相比于光柵化圖元能夠減少由于線性插值造成的邊緣和紋理細節(jié)上的重建瑕疵[27],如圖3(a)為光柵化圖元重建結果中存在的邊緣模糊與鋸齒狀現(xiàn)象,圖3(b)為矢量化圖元的重建結果。
2.2 圖元多分類網(wǎng)絡
本文涉及的圖元分類任務有兩個特點。首先是小目標多標簽,如圖2最左側的輸人圖像所示,建筑彩繪紋樣本身的圖元復用性較強,可以由庫中的圖元經(jīng)過多次變換后得到的圖元序列合成得到,變換得到的圖元序列往往對應著庫中不唯一的圖元類型,使得建筑彩繪紋樣圖像中待識別的目標往往有較小的尺寸。其次是類別無關性,即標簽之間并不存在明顯的類別依賴關系,這表現(xiàn)為多種圖元可能以任意的組合模式出現(xiàn)在建筑彩繪紋樣圖像中。
根據(jù)上述建筑彩繪紋樣圖像的特點,圖元分類網(wǎng)絡的主干部分使用了ResNet-RS結構,如圖4所示是圖元分類網(wǎng)絡的結構。為了增強對圖像中不同尺寸圖元的感知能力,分類網(wǎng)絡每層的殘差塊中采用了 SE block[20] 中的通道自注意力機制。網(wǎng)絡末端的全連接層FC(fullconnection)的輸出值作為下一層sigmoid激活函數(shù)的輸入值,由sigmoid函數(shù)得到每個圖元類別為0~1的概率值,并使用二元交叉熵BCE(binarycross-entropy)作為圖元分類網(wǎng)絡的損失函數(shù)。對于圖2中輸人的一幅復雜和完整的建筑彩繪紋樣,參考文獻[25]中的紋樣版式分類方法,首先對目標圖像進行局部紋樣的劃分,得到位于不同位置的局部紋樣圖像,并分別輸入到圖元多分類網(wǎng)絡中識別出對應的圖元類型,從而完成對無關圖元的過濾,并將對應的圖元信息作為下一階段紋樣變換參數(shù)求解算法的輸入。
2.3訓練數(shù)據(jù)樣本采樣方法
針對本文采用的建筑彩繪紋樣圖像數(shù)據(jù)集,鑒于手動標注可復用圖元的勞動強度較高,本文提出了一種采樣算法,旨在自動化生成用于分類網(wǎng)絡訓練的數(shù)據(jù)集。該算法首先對采樣超參數(shù)進行初始賦值,包括樣本標簽數(shù)量取值范圍TypeList、樣本中圖元序列數(shù)量取值范圍NumList、樣本數(shù)量 N 以及矢量化圖元庫SvgLib;接著在循環(huán)程序中根據(jù)初始參數(shù)隨機生成樣本中圖元的變換參數(shù)T;然后根據(jù)圖元的圖層值大小對變換后的圖元進行離散化合成,得到樣本圖像;最后將樣本圖像和對應的樣本標簽保存為訓練樣本。
算法1圖元分類網(wǎng)絡訓練數(shù)據(jù)采樣算法輸入:矢量化圖元庫與采樣參數(shù)。
輸出:分類任務圖像訓練數(shù)據(jù)集DataSet
1 初始化采樣參數(shù)TypeList,NumList, N
2 for i=0 to N do
3 TN \~Random(TypeList);//隨機選擇樣本標簽數(shù)
4 Ids\~CatergoryIndex( TN, ;//選擇類別索引
5 Patches=SvgLib(Ids) ;//加載矢量化圖元
6 EN \~Random(NumList);//隨機選擇樣本圖元數(shù)
7 T=[τ,c,θ,s,m,z] ;//隨機化變換參數(shù)
8 ET=ApplyT(Patches,T) ;//變換得到各層圖元
9 I=Discretize(ET) ;//離散化合成得到樣本圖像
10 DataSet (I,Ids) ;//保存訓練樣本
11 end for
12輸出采樣數(shù)據(jù)集DataSet。
算法1的第1行,標簽數(shù)量取值范圍 ,Tmin+1,…,Tmax] ,針對所研究的建筑彩繪紋樣圖像中圖元類別組合出現(xiàn)的統(tǒng)計規(guī)律,實驗中取
。樣本圖元序列數(shù)量范圍NumList取值為以下平方數(shù)列表[9,16,25,36,49]。算法1第6行中 Ids=[Id1,Id2,…,Idk,…,Id?TN] ,且 0?
Idklt;52,52 是圖元庫SvgLib中圖元的總數(shù)量。第9行變換參數(shù) T 中, τ 是圖元序列對應的圖元類型索引, c 是圖元歸一化平面坐標值, θ 是圖元的旋轉角弧度值, s 是圖元在 x 軸和 y 軸上的縮放系數(shù), m 是圖元的鏡像標志符, σz~N(σ0,I) 是圖元的圖層深度值。
3紋樣變換參數(shù)求解
基于可微合成的變換參數(shù)求解方法在處理具有高旋轉對稱性、高相似度的圖元時,容易陷入局部最優(yōu)解;另外當引入對圖元縮放、鏡像對稱等性質的支持時,會使得原本顯著的局部最優(yōu)問題更加凸顯。針對以上存在的問題,本文提出了緩解局部最優(yōu)現(xiàn)象的多項改進策略以有效地改善可微變換參數(shù)求解算法在實際矢量化重建中的效果。
3.1可微變換參數(shù)擴展
基于圖元的圖像合成函數(shù)中,可對輸入的若干圖元通過一組變換參數(shù) T=[T1,T2,…,Ti,…,Tn] 得到變換后的圖元序列,圖元序列中第 i 個元素的變換參數(shù)表示為 Ti=(τi,ci ,θi,zi) 。其中 τi 是元素 χi 的圖元類型, ci 是元素 i 的坐標位置, θi 是元素 i 的角度, zi 是元素 χi 的圖層值。結合建筑彩繪紋樣圖像的特點,引入縮放參數(shù) ,將變換范圍擴展到圖元的尺寸信息??紤]到變換中存在圖元的鏡像對稱關系,需要將縮放參數(shù) si 的取值由 [0,+∞) 擴展到(-∞,+∞) 。但是增大后的縮放參數(shù)取值范圍會使得變換參數(shù)的優(yōu)化難度隨之加大,使得鏡像關系的損失曲線圖變得不夠平緩,從而更容易陷入局部最優(yōu)解,如圖5(a)所示。本文方法限定縮放系數(shù) si 在非負數(shù)域,并通過引入一個鏡像概率參數(shù) mi=σ(μi) 用于表示圖元鏡像關系的概率,其中 σ 是sigmoid函數(shù) ?,μi 是被優(yōu)化的參數(shù)。采用鏡像概率后的鏡像損失曲線如圖5(b)所示,鏡像概率的引人使得重建損失曲線的過渡更加平緩,從而不容易陷入局部最優(yōu)解。
鏡像參數(shù)的引入首先對圖元進行鏡像復制,鏡像圖元的變換參數(shù)遵循以下兩點特征:a)鏡像圖元與原圖元共享一部分變換參數(shù),包括 τi,ci,θi,si;b) 鏡像前后圖元的圖層值修改為以下形式: 其中 zi 為第 i 個圖元的絕對圖層值,
為鏡像前圖元的圖層值, zin 為鏡像后圖元的圖層值。以上設計確保了損失函數(shù)對于引入的鏡像參數(shù)也具有可微分性,并且當鏡像參數(shù)有明確的偏好時,與偏好相對應的另一個圖元的圖層值能夠通過與概率值的乘積趨近于零,從而在合成過程中實現(xiàn)其不可見性。
本文方法默認通過反轉圖元坐標系的 y 軸實現(xiàn)鏡像對稱,對于第 i 個變換后的圖元,其變換參數(shù)為 Ti=(τi,ci,θi,zi,si ,mi )。圖元序列的合成過程對引入的 s 與 ?m 參數(shù)保持了可微分性,最終的可微合成函數(shù)表示為
其中: Ji(X) 是變換后圖元序列中第 χi 個元素的光柵化圖像;vi(X) 表示圖元在鏡像參數(shù) m 下相對于背景圖層的可見性;參數(shù) X 表示畫布坐標系下的每個像素點位置,即
其中: 是圖元序列中第 i 個元素在圖元類型索引 j 上的 soft-max分量,用于將圖元類型信息可微分化; hj 表示對第 j 個圖元進行仿射變換,上標 p 和 n 分別表示對圖元和鏡像圖元進行仿射變換; Mip 與 Min 是互為鏡像關系的第 i 個元素的透明度通道值,合成過程中背景圖層值固定為數(shù)值 1 000 。
3.2 變換參數(shù)初始化
圖元的初始化變換參數(shù)對算法收斂性能影響同樣重要,好的初始化變換參數(shù)能夠提升算法收斂的效果[28]。目標紋樣圖像中的圖元變換參數(shù)是未知的,因此需要對圖元的數(shù)量與圖元的位置分布進行初始化。當圖元的初始化數(shù)量少于真實圖元數(shù)量時,容易導致算法難以收斂;圖元的初始化數(shù)量過多時容易導致局部最優(yōu)現(xiàn)象并且增大算法的計算量。實驗中根據(jù)數(shù)據(jù)樣本的復雜度,將圖元的初始化數(shù)量設置為{25,36,49,64,81五個平方數(shù)值之一。圖元的初始化分布規(guī)律對算法性能的影響主要體現(xiàn)在優(yōu)化過程中損失函數(shù)對于圖元分布相關的變換參數(shù)梯度的感知具有空間上的局部性,圖元的分布變換參數(shù)包括位置、角度、鏡像概率參數(shù),這意味著圖元的初始分布應該盡可能地覆蓋真實的圖元分布狀態(tài)。使得初始分布盡可能覆蓋真實分布狀態(tài)的原則是保證分布參數(shù)的多樣化,因此對圖元分布參數(shù)采取以下的初始化策略:
a)對于位置參數(shù),用合適規(guī)模的矩形網(wǎng)格去初始化圖元分布位置,以滿足對于真實圖元位置分布的覆蓋。在后續(xù)實驗中出現(xiàn)的不同規(guī)模圖元數(shù)量均是以 n×n 網(wǎng)格的方式進行初始化。
b)對于角度參數(shù),為了最大化圖元角度分布的多樣性,采取隨機初始化為每個位置的圖元賦予一個 0~2π 內(nèi)的弧度值。c)對于鏡像概率參數(shù),初始化時將鏡像概率參數(shù) ?m 設置為0.5,使鏡像初始狀態(tài)最大化地覆蓋真實圖元的狀態(tài)。d)剩余的參數(shù)初始值,實驗中默認設置如下: τi 取圖元類型的均勻概率分布, Λ,zi 設置為經(jīng)驗固定值 為 1/n 。
3.3基于圖元誤差信息引導的局部最優(yōu)緩解
可微合成方法的主要缺點是容易陷人不同形式的局部最優(yōu)解,如旋轉相似、鏡像相似、圖元近似效應導致的局部最優(yōu)解,在不加干預的情況下難以靠優(yōu)化跳出局部最優(yōu)解。
通過第一階段的圖元分類網(wǎng)絡過濾矢量化圖元庫中的無關圖元,從而規(guī)避了由于圖元近似性造成的局部最優(yōu)現(xiàn)象。對于旋轉局部最優(yōu)和鏡像局部最優(yōu),隨機添加和移除圖元等緩解策略難以起到有效的效果來準確地跳出局部最優(yōu)。本文方法在迭代過程中計算圖元的掩碼誤差作為重整圖元變換參數(shù)的學習率和緩解局部最優(yōu)現(xiàn)象的引導性信息,圖元序列中第 χi 個元素的掩碼誤差定義為
其中: I 是目標圖像;i是每次迭代結果的離散化合成圖像;參數(shù)XM 表示圖元透明度通道坐標值; ? 表示矩陣的按位相乘。在此掩碼誤差基礎上進行圖元面積的歸一化可以得到圖元尺寸無關的相對掩碼誤差,即
式(5)中 Mi 是圖元 Ei 對應的透明度通道,由此得到圖元的掩碼誤差向量絕對值與相對值,即
圖元的掩碼誤差MaskLoss和NormLoss能夠在迭代優(yōu)化的過程中實時反映每個圖元的誤差狀態(tài),根據(jù)MaskLoss和NormLoss的分量值分布,定期地對其中誤差最大的圖元變換參數(shù)進行調(diào)整,從而有效地緩解局部最優(yōu)情況。根據(jù)目標圖像優(yōu)化難度的不同,本文方法分別取MaskLoss和NormLoss前 k 個最大值,處理對應的陷入局部最優(yōu)的圖元參數(shù),對應的前 k 個圖元參數(shù)分別定義為 param@k 與paramN@ k 函數(shù),即
其中: 0
對應有圖元類型信息熵參考向量為 EntropyT ,圖元鏡像信息熵參考向量為EntropyM,分別取兩者前 k 大的值對應的圖元變換參數(shù),即
其中: 0
3.4損失函數(shù)與梯度重整策略
本文方法對損失函數(shù)進行了改進,采用了一種具有自適應性的梯度更新策略。為了提升圖元放置參數(shù)的梯度強度[27],在L1誤差項中添加了由圖元輪廓符號距離SDF歸一化后得到的權重圖,即
其中: SDF(X) 函數(shù)表示圖像每個像素點處的強度值,該強度值與各個像素點到圖像前景內(nèi)容輪廓的有向距離成正比。融合了有符號距離權重圖 WsDF(X) 的損失函數(shù)為
為了使算法收斂過程更穩(wěn)定,本文方法采取了自適應梯度更新策略。每次迭代根據(jù)圖元歸一化掩碼誤差向量NormLoss對每一組圖元變換參數(shù)的梯度值進行加權調(diào)整。首先對誤差向量NormLoss進行小尺寸過濾,即對 si 絕對值小于閾值0.025的圖元進行權重置0過濾,從而得到變換參數(shù)的梯度值權重 Wmask ,最后對各組變換參數(shù)梯度值進行以下重整,即
Wmask=softmax(NormLoss)
?Ti=Wmaski??Ti
其中:softmax函數(shù)根據(jù)掩碼誤差向量NormLoss的值自適應地分配合適的變換參數(shù)梯度權重,從而為誤差更大的圖元分配更大的權重,減少當學習率較大時在后期優(yōu)化的過程中可能出現(xiàn)的優(yōu)化不穩(wěn)定現(xiàn)象。
圖6是改進的圖元變換參數(shù)求解算法迭代過程的示意圖。第一行顯示了圖元位置以網(wǎng)格形式進行初始化,并且在優(yōu)化的過程中根據(jù)圖元誤差信息,準確地選擇陷入局部最優(yōu)的圖元并執(zhí)行擾亂操作,從而有效地緩解了局部最優(yōu)現(xiàn)象。第二行是迭代過程中對局部區(qū)域的放大,其中顯示了鏡像優(yōu)化策略通過自然的梯度傳播將鏡像錯位的圖元平滑地過渡到正確的鏡像狀態(tài)。
4實驗結果與分析
4.1圖元分類網(wǎng)絡結果與分析
本文方法構建的矢量圖元庫源自于實地采集的藏式建筑彩繪照片,首先在其基礎上整理出不同種類的圖元,并通過適當?shù)氖噶炕^程將圖元處理為通用的SVG矢量圖格式,從而構建了重建所需要的矢量化圖元庫。圖7是矢量化圖元庫中部分圖元的示例,每種形狀的圖元配以兩種及以上的常用配色,庫中共包含52種不同形狀和配色的圖元。
Adam,并使用了線性學習率策略。
圖元分類網(wǎng)絡的實驗中,在4種不同的網(wǎng)絡寬度和深度下各自訓練了200個epoch,圖9是不同配置的分類網(wǎng)絡在測試集上的準確率-召回率曲線。綜合考慮分類性能的平衡性,最終選擇了圖9中準確率-召回率曲線res-rs50-256上的′P=0.976585,R=0.982364) 對應的點作為第一階段,用于圖元過濾的圖元分類網(wǎng)絡。
4.2變換參數(shù)求解算法參數(shù)設置
實驗所用機器配置為Intel °ledast Xeon °ledast W-2235CPU @ 3.80GHz 3.79GHz,16GB 內(nèi)存和NVIDIAGeForceRTX2080tiGPU。本文EF-DT方法在圖元分類網(wǎng)絡訓練階段通過算法1描述的數(shù)據(jù)集采樣過程,生成了10000張訓練樣本與2000張測試樣本。在實驗中對采樣算法的超參數(shù)進行了如下設置:多標簽數(shù)量的取值設置為1~5;區(qū)域采樣圖元數(shù)量的取值為4\~16。圖8是圖元分類網(wǎng)絡訓練數(shù)據(jù)集示例。圖元分類網(wǎng)絡中加入了通道自注意力模塊SE,將VGG19網(wǎng)絡作為對比,并測試了在不同網(wǎng)絡深度和寬度下的性能。訓練過程中的其余超參數(shù)如下:學習率為0.0001,訓練輪數(shù)為200,優(yōu)化器采用
本文方法EF-DT變換參數(shù)優(yōu)化階段默認設置的超參數(shù)如下:學習率為0.001,分辨率為 256×256 像素,優(yōu)化器為 Adam, 由于損失函數(shù)對于不同變換參數(shù)的梯度對優(yōu)化的影響程度不同,所以選擇一個合適的變換參數(shù)學習率倍率對算法優(yōu)化的性能也有較大影響。實驗中將變換參數(shù)的學習率權重默認設置為比值 ?;谠卣`差信息引導的局部最優(yōu)緩解策略的擾亂周期默認設置為100,觸發(fā)擾亂的圖元歸一化掩碼誤差閾值默認設置為0.1。
4.3可微變換參數(shù)求解結果
4.3.1矢量化重建結果
本文方法對整幅建筑彩繪的局部紋樣圖像進行了保持變換參數(shù)信息的矢量化重建。圖10展示了本文方法第二階段矢量化重建的結果,其中第一列是目標紋樣圖像,第二列是對應的矢量化圖元,第三列是離散化的重建結果,第四列是重建結果誤差的L2熱力圖。從重建結果可以看出,本文方法能夠正確優(yōu)化出局部紋樣圖像中各個圖元的變換關系,包括圖元的縮放關系和鏡像關系。由于矢量圖元的引入,重建結果中避免了由縮放導致的圖元分辨率不一致等瑕疵。
表1是本文方法第二階段的實驗參數(shù)配置與重建結果的相關定量指標,其中網(wǎng)格尺寸表示初始時圖元的采樣密度,實驗樣例中變換參數(shù)的采樣密度為平方數(shù)25\~64,參與變換參數(shù)求解的圖元數(shù)量為 1~5 ,迭代次數(shù)與執(zhí)行時間反映了本文方法的算法執(zhí)行效率,在同等機器配置與同等水平重建效果下,本文算法執(zhí)行效率優(yōu)于其他兩種迭代矢量化算法Live與Diffvg,低于ImageTrace等非可微迭代算法。重建后的局部紋樣經(jīng)過版式組合后得到如圖11的完整建筑彩繪紋樣結果。
4.3.2圖元誤差信息引導策略消融實驗
本文方法設計了基于掩碼誤差與信息熵引導的局部最優(yōu)緩解策略。圖12展示了該緩解策略在實際優(yōu)化過程的工作流程。從圖12中可以看出,利用設計的引導策略在優(yōu)化過程中能夠準確地跟蹤每個圖元在四種圖元誤差指標上的狀態(tài),并通過周期性地對優(yōu)化過程中指標顯著異常的圖元執(zhí)行topK函數(shù)的擾亂操作,從而在優(yōu)化過程中逐漸跳出局部最優(yōu)解。
圖13是本文設計的局部最優(yōu)緩解策略與原始合成方法在圖元變換參數(shù)重建結果上的消融對比結果。圖13(a)是不采用圖元誤差信息引導的變換參數(shù)重建結果,所示樣例因3.3節(jié)中分析的原因陷入了明顯的局部最優(yōu)解。圖13(b)是采用了圖元誤差信息引導策略進行局部最優(yōu)緩解后的重建結果,可以看出本文的緩解策略使得局部最優(yōu)現(xiàn)象得到了較為顯著的改善。
為驗證本文方法在矢量化重建能力上的有效性,圖14縱向對比了本文方法與其他矢量化方法的重建性能。從圖14中可以看出,基于可微渲染迭代優(yōu)化的矢量化方法Live和Diffvg對復雜幾何紋樣形狀的重建結果存在較多的冗余路徑,導致其視覺效果更差;而本文方法與ImageTrace方法在紋樣視覺重建精度上效果最好,有著最低的重建均方誤差MSE(meansquarederror)和最高的結構相似度SSIM(structuralsimilarityindexmeasure)。方法DC在指定像素圖元時重建結果存在較多的推理錯誤,圖元的變換參數(shù)更容易陷入局部最優(yōu)解。方法SuperSVG第一階段訓練時在指定矢量路徑數(shù)量為256與路徑貝塞爾曲線段數(shù)為10時(默認為128條段數(shù)為4的貝塞爾曲線路徑),在訓練2000個epoch后,其收斂結果在建筑彩繪圖像上仍然難以達到較為精簡與準確的重建結果。
傳統(tǒng)方法如ImageTrace,主要采用貝塞爾曲線路徑作為圖像重建的基本單元。然而,這些方法在處理過程中往往忽視了圖像中圖元層面的變換參數(shù)信息,導致它們在執(zhí)行純視覺矢量化重建任務時,盡管能夠實現(xiàn)較高的視覺重建精度,卻未能充分捕捉圖元的獨立性和其變換參數(shù)。與現(xiàn)有技術相比,本方法在保留圖元的獨立性及其變換參數(shù)的同時,犧牲了對自由形狀曲線擬合的精確度。盡管在變換參數(shù)求解過程中可能面臨不穩(wěn)定性的挑戰(zhàn),且矢量化圖元庫的質量也對結果產(chǎn)生了顯著影響,但本文方法在均方誤差MSE和結構相似度SSIM指標方面,相較于其他對比方法仍展現(xiàn)出一定的優(yōu)勢。實驗結果表明,借助精心設計的圖元庫,本文方法能夠在保持圖元變換參數(shù)信息的同時,將視覺誤差控制在可接受的范圍內(nèi),并且在性能上超越了其他基于可微渲染迭代求解的矢量化算法。如圖14所示的局部放大圖清晰地揭示了本文方法在所有對比方法中,在保持圖元完整性和獨立性方面的優(yōu)勢更為明顯,并且成功保留了紋樣中圖元的變換參數(shù)信息。
圖14中涉及的對比矢量化方法均不能保留紋樣自身的變換參數(shù)信息,本文方法綜合考慮了矢量化重建精度與變換參數(shù)信息。表2列出了本文方法與其他對比方法在多個維度上的性能指標對比,可以看出,本文方法在矢量化重建精度、圖元獨立性和變換參數(shù)信息保持方面取得了較好的平衡。
5結束語
本文提出了一種基于矢量化圖元庫的圖元過濾與可微變換參數(shù)求解的建筑彩繪紋樣圖像的矢量化方法(EF-DT),主要解決了在建筑彩繪紋樣等具有圖元可復用性的圖像上保持圖元獨立性和圖元變換參數(shù)的矢量化問題。本文方法首先設計了一種基于矢量化圖元庫的圖元分類訓練數(shù)據(jù)采樣方法,能夠為圖元分類網(wǎng)絡訓練提供數(shù)據(jù)支持,通過分類網(wǎng)絡來過濾矢量化圖元庫中的無關圖元,從而提升后續(xù)圖元變換參數(shù)求解算法的性能。然后引入了一種改進的可微分變換參數(shù)求解方法,利用圖元掩碼誤差與多種信息熵作為引導,有效地緩解了變換參數(shù)求解過程中的局部最優(yōu)問題,提高了變換參數(shù)優(yōu)化過程的正確性,最終在建筑彩繪紋樣圖像數(shù)據(jù)上的矢量化質量、圖元獨立性和圖元變換參數(shù)信息的保留上取得了較好的平衡。
參考文獻:
[1]LiTM,Aittala M,DurandF,etal.Diffrentiable Monte Carlo ray tracing through edge sampling[J].ACMTrans on Graphics,2018, 37(6) :1-11.
[2]Li TM,Lukac M,Gharbi M,et al.Diffrentiable vector graphics rasterization for editingand learning[J].ACM Trans on Graphics, 2020,39(6) :193.
[3]Hu Teng,Yi Ran,Qian Baihong,et al. SuperSVG:superpixel-based scalable vector graphics synthesis[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2024 :24892-24901.
[4]Locatello F,Weissenborn D,UnterthinerT,etal. Object-centric learningwith slotattention[C]//Proc ofthe 34th International ConferenceonNeural Information Processing Systems.New York:ACM Press,2020:11525-11538.
[5]Monnier T,Vincent E,Ponce J,et al. Unsupervised layered image decompositioninto object prototypes[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ: IEEE Press, 2021:8620-8630.
[6]Reddy P,Guerrero P,F(xiàn)isher M,et al. Discovering pattern structure using differentiable compositing[J].ACM Trans on Graphics, 2020,39(6) :262.
[7]ReddyP,Guerrero P,Mitra NJ. Search for concepts:discovering visual concepts using direct optimization[EB/OL].(2022-10-25). https://arxiv.org/abs/2210.14808.
[8] Adobe.Adobe Illustrator:image trace[EB/OL].(2017)[2024-11- 18].http://www.adobe.com/.
[9]Cedar Lake Ventures.Vector magic[EB/OL].(2017).[2024-11- 18].http://vectormagic.com.
[10]Ma Xu,Zhou Yuqian,Xu Xingqian,et al.Towards layer-wise image vectorization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022: 16293-16302.
[11]Hirschorn O,Jevnisek A,Avidan S. Optimize amp; reduce:a top-down approach forimagevectorization[C]//Proc ofAAAI Conferenceon Artificial Intelligence.Palo Alto,CA:AAAIPress,2024:2148-2156.
[12]Hoshyari S,DominiciEA,ShefferA,et al.Perception-driven semistructured boundaryvectorization[J].ACM Trans on Graphics, 2018,37(4) :118.
[13]LiuYT,Zhang Zhifei,Guo YC,et al.DualVector:unsupervised vectorfont synthesis with dual-part representation[C]//Proc of IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2023:14193-14202.
[14]Reddy P,Gharbi M,Lukác M,et al. Im2Vec:synthesizingvector graphics without vector supervision[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2021:7338-7347.
[15]Wang Yizhi,Lian Zhouhui.DeepVecFont:synthesizing high-quality vector tonts via dual-modality learninglJ].ACM Irans on Graphics,2021,40(6) :265.
[16]WangYuqing,WangYizhi,YuLonghui,etal.DeepVecFont-v2:exploiting Transformers to synthesize vector fonts with higher quality [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2023:18320-18328.
[17]CarlierA,DaneljanM,Alahi A,et al.DeepSVG:a hierarchical generative network for vector graphics animation[EB/OL].(2020-07- 22).https://arxiv.org/abs/2007.11301.
[18]Xing Ximing,Zhou Haitao,Wang Chuang,et al. SVGDreamer: text guided SVG generation with diffusion model[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE Press,2024:4546-4555.
[19]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2016:770-778.
[20]Hu Jie,Shen Li,Sun Gang.Squeeze-and-excitation networks[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7132-7141.
[21]HanKai,WangYunhe,Chen Hanting,etal.A survey onvision trans former[J].IEEETranson Patter Analysisand Machine Intelligence,2023,45(1):87-110.
[22]Bello I,F(xiàn)edusW,Du Xianzhi,etal.Revisiting ResNets:improved training and scaling strategies[EB/OL].(2021-03-13).https://arxiv.org/abs/2103.07579.
[23]TanMingxing,LeQV.EficientNet:rethinking model scaling for convolutional neural networks[C]//Proc of the 36th International Conference on Machine Learning.2019:6105-6114.
[24]Zhou Yang,Zhu Zhen,Bai Xiang,et al.Non-stationary texture synthesis by adversarial expansion[J].ACM Trans on Graphics,2O18,37(4) : 49.
[25]龔辰晨,曹力,張騰騰,等.面向建筑彩繪紋樣的高質量貼圖重構 方法[J].圖學學報,2024,45(4):804-813.(Gong Chenchen,Cao Li,Zhang Tengteng,et al.High-quality texture reconstruction method for architectural painted patterns[J]. Journal of Graphics,2024,45 (4) :804-813.)
[26]Barnes C,Shechtman E,F(xiàn)inkelsteinA,etal.PatchMatch:a randomized correspondence algorithm for structural image editing[J].ACM Trans on Graphics,2009,28(3):24.
[27]付鵬斌,鐵惠杰,楊惠榮.紋理細節(jié)和邊緣結構保持的圖像插值算 法[J].計算機應用研究,2021,38(4):1203-1207,1211.(Fu Pengbin,Tie Huijie,Yang Huirong.Image interpolation algorithm based on texture details and edge structure maintained[J].Application Research of Computers,2021,38(4) :1203-1207,1211.)
[28]RisoM,Sforza D,Pellacini F.POP:parameter optimization of diffren tiablevector patterns[J].Computer Graphics Forum,2022,41 (4) :161-168.