亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于字體字符屬性引導(dǎo)的文本圖像編輯方法

2023-05-24 03:18:32陳靖超徐樹公丁友東

計算機(jī)應(yīng)用 2023年5期

陳靖超，徐樹公，丁友東

（1.上海大學(xué) 通信與信息工程學(xué)院，上海 200444；2.上海大學(xué) 上海電影學(xué)院，上海 200072）

0 引言

文字在人類的歷史發(fā)展中占據(jù)了十分重要的地位，作為個體溝通與文化傳承的載體，文字的出現(xiàn)給人類的工作與生活帶來了極大的影響。隨著近幾年計算機(jī)視覺與深度學(xué)習(xí)的飛速發(fā)展，文字圖像被越來越多的研究人員關(guān)注，其中主要的方向包括文本檢測［1-5］、文本識別［6-10］、字體生成［11-13］、文本編輯［14-17］等任務(wù)。本文的文本編輯任務(wù)的應(yīng)用場景包括圖像隱私化處理、海報復(fù)用和視覺場景翻譯等。傳統(tǒng)的文字圖像編輯方案需要執(zhí)行定位文字區(qū)域、擦除原文字、輸入新文字、遷移原文字風(fēng)格等步驟，耗時耗力，成本較高；而基于深度學(xué)習(xí)方法的自動化文字圖像編輯方法能夠大幅改善這一點(diǎn)，并提升編輯前后的風(fēng)格連貫性。文本編輯的目標(biāo)是無縫將新的文本內(nèi)容替換掉原圖中的舊文本，并保持風(fēng)格樣式不變。其他文本相關(guān)任務(wù)與文本編輯也都緊密相關(guān)，如：文本識別可以評估編輯生成的文字圖像的可讀性，字體識別可以評估編輯生成的文本圖像的字體屬性的遷移效果。

本文首先在Edit-100k 測試集的1 000 組文本圖像上分析了基線模型SRNet（Style Retention Network）［14］生成的編輯結(jié)果，探究該方法的特點(diǎn)與不足。分析實驗中先使用SRNet對測試集圖像進(jìn)行推理，然后將推理的編輯結(jié)果與標(biāo)簽的前景文本區(qū)域和背景紋理區(qū)域分別進(jìn)行對比。前景文本區(qū)域與背景紋理區(qū)域使用掩碼進(jìn)行分割。從表1 可以看出，SRNet 對文本區(qū)域的峰值信噪比（Peak Signal-to-Noise Ratio，PSNR）與結(jié)構(gòu)相似度（Structural SIMilarity，SSIM）［18］低于背景區(qū)域，從而拉低了整體的編輯結(jié)果，兩項指標(biāo)僅為22.91 dB 與0.79。產(chǎn)生這一現(xiàn)象的原因主要是背景區(qū)域有原始可參考的輸入，而前景區(qū)域則需要由網(wǎng)絡(luò)自主進(jìn)行編輯生成。根據(jù)此分析實驗，本文選擇文字區(qū)域生成作為主要優(yōu)化方向，通過加入字體字符屬性來引導(dǎo)優(yōu)化被編輯圖像中文字字形字體的生成。

表1 編輯結(jié)果中各區(qū)域的PSNR和SSIM結(jié)果Tab.1 PSNR and SSIM of each area of edited results

本文提出的基于文字屬性引導(dǎo)的文本編輯方法使用文字與背景分離處理的分階段模型進(jìn)行編輯生成，利用文本識別與字體識別的模型輔助文本編輯模型進(jìn)行訓(xùn)練，對特征提取過程中的文字內(nèi)容特征與字體屬性特征進(jìn)行相應(yīng)的引導(dǎo)。實驗中本文方法所編輯的圖像結(jié)果在PSNR、SSIM 與均方誤差（Mean Squared Error，MSE）指標(biāo)上都明顯優(yōu)于SRNet，同時在可視化效果的對比上也修正了一些SRNet 編輯結(jié)果的偽影瑕疵。本文還提出了一個用于文本編輯訓(xùn)練的合成數(shù)據(jù)集Edit-100k，其中訓(xùn)練集包括10 萬組成對的有監(jiān)督文本圖像數(shù)據(jù)，測試集包括1 000 組文本圖像。

1 相關(guān)工作

在基于深度學(xué)習(xí)的文本編輯方法出現(xiàn)之前，相關(guān)研究的重點(diǎn)主要聚焦于更簡單的文本圖像移除與修復(fù)。Zhang等［19］提出的EnsNet（Ensconce Network）使用了一個加入跳躍連接的生成器和局部預(yù)測的判別器的結(jié)構(gòu)，能夠自動去除自然場景圖像中的文本內(nèi)容，并將文本區(qū)域替換為合理的背景圖像。Liu 等［20］又提出了一個由粗到精的兩階段網(wǎng)絡(luò)，同時利用一個額外的分割頭預(yù)測文本區(qū)域輔助文本擦除的效果，使擦除區(qū)域與擦除效果更準(zhǔn)確。

文本編輯任務(wù)相當(dāng)于在文本擦除的基礎(chǔ)上添加新文本替換的任務(wù)，集文本替換、文本擦除、背景修復(fù)于一體。端到端可訓(xùn)練的編輯模型SRNet［14］分別用兩個編碼器提取文字的風(fēng)格與內(nèi)容特征進(jìn)行聚合，并與背景紋理融合得到最后的結(jié)果；但該方法對于復(fù)雜文本圖像的編輯會存在偽影效果或字符誤差。Yang 等［15］提出的文本替換方法SwapText 在SRNet 的框架基礎(chǔ)上添加了文本幾何變換網(wǎng)絡(luò)（Content Shape Transformation Network，CSTN）來分離前景文本替換中的幾何變換部分，并添加了自注意力模塊替代簡單的通道拼接作為特征聚合方式，提升了彎曲文本的文本編輯效果；同時該方法還在背景修復(fù)網(wǎng)絡(luò)中加入了擴(kuò)張卷積增大修復(fù)時的感受野，使背景細(xì)節(jié)在紋理上有更多保留。Roy 等［16］提出了基于字體適應(yīng)性神經(jīng)網(wǎng)絡(luò)的場景文本編輯器（Scene Text Editor using Font Adaptive Neural Network，STEFANN），分為字體適應(yīng)性神經(jīng)網(wǎng)絡(luò)（Font Adaptive Neural Network，F(xiàn)ANNet）和顏色網(wǎng)絡(luò)（Color Network，ColorNet）兩部分，分別對文字的字體幾何特征和顏色紋理特征進(jìn)行遷移；但該方法只針對前景文本使用深度學(xué)習(xí)模型進(jìn)行生成，文本擦除、修復(fù)等模塊依賴于其他算法效果。Shimoda 等［17］提出了一種將文本圖像進(jìn)行參數(shù)化，預(yù)測出文本位置、顏色、字體、字符、背景等渲染參數(shù)的方法。該方法在訓(xùn)練中通過渲染參數(shù)實現(xiàn)文本圖像的重建，并通過修改渲染參數(shù)實現(xiàn)文本圖像的編輯；該方法編輯自由度很高，但并不能完全保留原有圖像的風(fēng)格信息實現(xiàn)無縫編輯。

2 多屬性引導(dǎo)的文本編輯

本文提出的基于字體字符屬性引導(dǎo)的文本編輯方法首先利用分階段的文本編輯模型框架將整個任務(wù)分解為前景變換、背景修復(fù)和前背景融合。其中，前景變換網(wǎng)絡(luò)完成原圖前景文本內(nèi)容的位置定位、幾何字體特征和顏色紋理特征的遷移。文本編輯網(wǎng)絡(luò)的輸入（Is，It）如圖1 所示。

圖1 網(wǎng)絡(luò)的輸入圖像Fig.1 Input images of network

從圖2 中可以看到，前景變換網(wǎng)絡(luò)會通過兩個編碼器對Is和It分別進(jìn)行風(fēng)格特征和內(nèi)容特征的提取，然后將兩者在通道維度進(jìn)行合并，并通過兩個解碼器分別輸出骨架圖Osk以及遷移原圖文本風(fēng)格的新文本圖像Ofg。背景修復(fù)網(wǎng)絡(luò)完成原圖中文本內(nèi)容的自動擦除以及背景修復(fù)的任務(wù)。背景修復(fù)網(wǎng)絡(luò)的輸入只有Is，通過一個帶有跳躍連接的U-Net 生成器輸出純凈背景Obg。而最后的前背景融合網(wǎng)絡(luò)負(fù)責(zé)將前兩個子網(wǎng)絡(luò)輸出的前背景圖像通過融合網(wǎng)絡(luò)結(jié)合為最后的結(jié)果。前背景融合網(wǎng)絡(luò)還將背景修復(fù)網(wǎng)絡(luò)中的各尺度解碼器特征圖加入融合網(wǎng)絡(luò)中的解碼器，使最終的編輯結(jié)果Ofus在細(xì)節(jié)紋理上更豐富。而最后的輸出圖像也會通過字體字符分類器與相應(yīng)損失函數(shù)約束，利用字體字符屬性來引導(dǎo)生成網(wǎng)絡(luò)方向保證正確的編輯效果。

圖2 文本編輯網(wǎng)絡(luò)框架Fig.2 Text editing network architecture

2.1 前景變換網(wǎng)絡(luò)

前景變換網(wǎng)絡(luò)的主要目的是替換原始文本圖像中的文本內(nèi)容，同時保持原有的文字風(fēng)格樣式。網(wǎng)絡(luò)的輸入是原始待編輯圖像Is和新的文本內(nèi)容的圖像It。It是標(biāo)準(zhǔn)范式文本圖像，具有固定字體與背景。前景變換網(wǎng)絡(luò)總體上使用了多輸入多輸出的編碼器/解碼器結(jié)構(gòu)。為了提取出文本風(fēng)格特征和內(nèi)容特征，原始圖像Is和文本內(nèi)容圖像It都被由三層下采樣和殘差卷積塊構(gòu)成的編碼器進(jìn)行編碼。兩個編碼器共享相同的結(jié)構(gòu)，但并不共享參數(shù)，分別用來提取圖像中的文本風(fēng)格與文本內(nèi)容特征。經(jīng)過編碼后的文本風(fēng)格特征與新文本內(nèi)容特征會在通道層面進(jìn)行合并，聚合風(fēng)格與內(nèi)容特征。聚合后的特征會通過一個由三層轉(zhuǎn)置卷積作為上采樣層的解碼器進(jìn)行解碼。前景變換網(wǎng)絡(luò)的計算過程如式（1）所示：

其中：Gfg表示前景變換網(wǎng)絡(luò)；Ofg是前景變換網(wǎng)絡(luò)輸出的新文本圖像。

由于文字骨架代表了文字的具體語義信息，因此另一個解碼器輸出單通道的骨架掩膜圖Osk，使生成的新文本圖像在文字可讀性上有更好的效果。骨架損失函數(shù)Tsk使用集合相似度度量函數(shù)約束單通道骨架圖的生成，如式（2）所示：

其中：Osk和Tsk分別表示網(wǎng)絡(luò)解碼的單通道骨架圖和骨架圖標(biāo)簽；N代表骨架圖中的像素點(diǎn)個數(shù)。骨架圖還被加入前景變換網(wǎng)絡(luò)的輸出模塊中，輔助前景變換的新文本圖像Ofg生成。前景變換網(wǎng)絡(luò)的最終損失函數(shù)包括骨架引導(dǎo)損失以及像素點(diǎn)級的L1 損失，如式（3）所示：

其中：Ofg和Tfg分別代表網(wǎng)絡(luò)輸出的文本變換結(jié)果和標(biāo)簽圖像；α是骨架損失的參數(shù)，訓(xùn)練中設(shè)置為1.0。

前景變換網(wǎng)絡(luò)的輸入輸出可視化如圖3 所示，該網(wǎng)絡(luò)實現(xiàn)了對原圖中的文字風(fēng)格樣式在新文本上的遷移。

圖3 前景變換網(wǎng)絡(luò)輸出可視化Fig.3 Visualization of foreground transformation network

2.2 背景修復(fù)網(wǎng)絡(luò)

背景修復(fù)網(wǎng)絡(luò)的任務(wù)是完全擦除原圖中的文本，并對擦除的空白區(qū)域填充合適的紋理顏色，最后輸出純凈的背景圖像。空白區(qū)域填充的可視化如圖4 所示。

圖4 擦除區(qū)域填充可視化Fig.4 Filling visualization of erased region

圖4（a）的文本圖像區(qū)域像素點(diǎn)被擦除后仍舊留有空白，需要合適的紋理進(jìn)行填充。背景修復(fù)網(wǎng)絡(luò)的輸入是原始待編輯圖像Is，輸出純凈背景圖像Obg。該網(wǎng)絡(luò)采用了帶有跳躍連接的U-Net［21］結(jié)構(gòu)，有助于網(wǎng)絡(luò)保留空間下采樣過程中丟失的背景細(xì)節(jié)信息。輸入圖像由3 個下采樣卷積層進(jìn)行特征編碼。由于背景修復(fù)的本質(zhì)是借鑒其他區(qū)域顏色紋理填充空白區(qū)域，所以更大的感受野可以使網(wǎng)絡(luò)獲取更豐富的信息，生成效果更接近真實。因此編碼器后接3 個擴(kuò)張率分別為（2，4，8）的擴(kuò)張卷積［22］用于擴(kuò)大感受野，提升紋理信息的參考區(qū)域范圍。然后，擴(kuò)張卷積的輸出特征通過三層上采樣的轉(zhuǎn)置卷積模塊進(jìn)行解碼得到修復(fù)后的純凈背景輸出Obg。如果用Gbg表示背景修復(fù)網(wǎng)絡(luò)，生成過程如式（4）所示：

背景修復(fù)網(wǎng)絡(luò)還通過一個判別器進(jìn)行對抗訓(xùn)練，以得到外觀上更加真實的結(jié)果?？傮w的損失函數(shù)是由判別器的對抗損失和像素點(diǎn)級的L1 損失組成，如式（5）所示：

其中：Obg和Tbg代表網(wǎng)絡(luò)生成的純凈背景圖像和標(biāo)簽圖像；Dbg是背景修復(fù)判別器；β是像素點(diǎn)級損失權(quán)重，設(shè)置為10。

背景修復(fù)網(wǎng)絡(luò)的輸出可視化如圖5 所示，從相鄰的背景中學(xué)習(xí)到了合適的紋理顏色，并填充到文字擦除后的空白區(qū)域。

圖5 背景修復(fù)網(wǎng)絡(luò)輸出可視化Fig.5 Output visualization of background inpainting network

2.3 前背景融合網(wǎng)絡(luò)

前背景融合網(wǎng)絡(luò)的任務(wù)是融合前景變換網(wǎng)絡(luò)和背景修復(fù)網(wǎng)絡(luò)的輸出，生成最終的文本編輯結(jié)果。融合網(wǎng)絡(luò)是一個編碼器/解碼器的結(jié)構(gòu)。其他子網(wǎng)絡(luò)輸出的文本變換圖像Ofg和純凈背景圖像Obg被送進(jìn)融合網(wǎng)絡(luò)中，并輸出為文本編輯結(jié)果Ofus。該子網(wǎng)絡(luò)的編碼器與解碼器結(jié)構(gòu)與其他子網(wǎng)絡(luò)相同。不同的是，解碼器每層都會結(jié)合背景修復(fù)網(wǎng)絡(luò)中的各尺度解碼特征。因此，融合網(wǎng)絡(luò)可以補(bǔ)全編碼器階段丟失掉的背景細(xì)節(jié)信息，得到更好的生成效果。融合網(wǎng)絡(luò)的生成過程如式（6）所示：

其中：Gfus表示前背景融合網(wǎng)絡(luò)；featbg表示背景修復(fù)網(wǎng)絡(luò)的各尺度解碼特征。融合網(wǎng)絡(luò)的損失函數(shù)如式（7）所示：

其中：Ofus和Tfus分別代表文本編輯結(jié)果和標(biāo)簽圖像；Dfus是用于前背景融合網(wǎng)絡(luò)對抗訓(xùn)練的判別器；γ是像素點(diǎn)級損失的超參數(shù)，設(shè)置為10。

前背景融合網(wǎng)絡(luò)的輸出可視化如圖6 所示，該網(wǎng)絡(luò)融合前一階段子網(wǎng)絡(luò)的前背景輸出結(jié)果得到最終的編輯結(jié)果。

圖6 前背景融合網(wǎng)絡(luò)輸出可視化Fig.6 Output visualization of foreground and background fusion network

2.4 字體屬性損失

文字的字體類別屬性代表了文字的風(fēng)格樣式。在文本編輯任務(wù)中，最重要的任務(wù)之一就是原圖文字風(fēng)格樣式的遷移。本文提出了一個字體屬性的引導(dǎo)分類器，通過字體屬性引導(dǎo)生成網(wǎng)絡(luò)的特征提取，提升編輯前后文字風(fēng)格樣式的一致性。

字體分類網(wǎng)絡(luò)的特征提取是ResNet（Residual Network）［23］結(jié)構(gòu)。本文首先利用字體分類數(shù)據(jù)集以交叉熵?fù)p失對字體分類器進(jìn)行預(yù)訓(xùn)練，并凍結(jié)參數(shù)作為文本編輯網(wǎng)絡(luò)的屬性輔助引導(dǎo)。字體屬性損失Lfont如式（8）所示，包括字體分類損失Lcls、字體感知損失Lper與字體紋理損失Ltex。

字體分類損失Lcls使用內(nèi)容輸入的文本字體標(biāo)簽與分類器預(yù)測結(jié)果構(gòu)建，使用交叉熵?fù)p失進(jìn)行約束，引導(dǎo)編輯模型結(jié)果的文字字體風(fēng)格與原圖風(fēng)格接近。Lcls如式（9）所示：

其中：N代表訓(xùn)練批的大小；M為字體類別數(shù)量；yi，c指一個訓(xùn)練批中的第i張圖對于M個字體類別中的第c個類別的標(biāo)簽；pi，c指一個訓(xùn)練批中的第i張圖對于M個字體類別中的第c個類別的預(yù)測置信度概率。

本文使用字體分類器的各尺度特征構(gòu)建字體感知損失Lper，衡量生成器遷移文本字體樣式的能力。在Lper的計算中，將字體分類網(wǎng)絡(luò)每個下采樣階段的輸出激活圖作為文本特征級差異的衡量。Lper如式（10）所示：

其中：φi代表字體分類器的第i階段特征激活圖。

本文使用gram 矩陣（偏心協(xié)方差矩陣）的L1 距離來衡量特征圖的空間相關(guān)性差異，如式（11）所示：

其中：代表字體分類網(wǎng)絡(luò)的各階段特征圖計算gram 矩陣的空間相關(guān)性的結(jié)果。

2.5 字符屬性損失

文本編輯不僅需要維持編輯前后文字風(fēng)格樣式的一致性，還要確保新文本內(nèi)容生成的可讀性。字符類別屬性代表文字的語義內(nèi)容信息。本文使用預(yù)訓(xùn)練的字符識別模塊引導(dǎo)最終文本圖像的編輯過程。通過字符內(nèi)容屬性引導(dǎo)，輸出圖像可以減輕文本偽影，并修正編輯過程中的字符生成誤差。

本文采用的字符分類網(wǎng)絡(luò)基于TRBA（Tps-Resnet-Bilstm-Attention）［24］，主要網(wǎng)絡(luò)結(jié)構(gòu)包括四個部分：文本矯正模塊、特征提取模塊、序列建模模塊和字符預(yù)測模塊。其中：文本矯正模塊使用薄板樣條（Thin Plate Spline，TPS）插值，可以將非水平的文本字符進(jìn)行水平矯正，更適用于網(wǎng)絡(luò)的識別；特征提取模塊使用ResNet，能夠提取出輸入文本圖像的視覺特征；序列建模模塊則使用了雙向長短期記憶（Bidirectional Long Short-Term Memory，BiLSTM）［25］網(wǎng)絡(luò)結(jié)構(gòu)，對文本圖像前后字符進(jìn)行上下文序列特征提取；字符預(yù)測模塊使用注意力解碼模塊，對前面得到的視覺特征和序列特征進(jìn)行解碼，預(yù)測出對應(yīng)位置的字符類別。字符分類損失可用式（12）表示：

其中：N代表圖像中預(yù)設(shè)的字符最大長度；M代表字符類別的個數(shù)；yi，j和pi，j分別代表第i個字符對于第j個字符類別的標(biāo)簽與預(yù)測的類別置信度。

2.6 實現(xiàn)細(xì)節(jié)及訓(xùn)練策略

為了使圖像在生成過程中更加逼真，本文使用了基于局部區(qū)域的生成對抗網(wǎng)絡(luò)（Patch Generative Adversarial Network，Patch GAN）［26］判別器。判別器的網(wǎng)絡(luò)結(jié)構(gòu)由4 個下采樣步長為2 的卷積塊和一個步長為1 的卷積塊組成。輸入圖像大小為64×256 時，最終的輸出預(yù)測圖大小為8×32。其中每一個預(yù)測值代表原圖中一個16×16 的局部區(qū)域，用來衡量這個局部區(qū)域編輯效果真實程度。相較于一般判別器，使用基于局部區(qū)域的判別器能夠在局部區(qū)域細(xì)節(jié)上生成更真實的效果。

本文模型是分階段的文本編輯模型，分為三個子模型。因此本文方法在訓(xùn)練過程中先對前景文本變換網(wǎng)絡(luò)和背景修復(fù)網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練優(yōu)化；然后用前兩個網(wǎng)絡(luò)參數(shù)固定訓(xùn)練前背景融合網(wǎng)絡(luò)，并以字體字符分類器的屬性引導(dǎo)進(jìn)行編輯效果精煉優(yōu)化；最后，整個文本編輯網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練微調(diào)后得到最優(yōu)的結(jié)果。本文訓(xùn)練數(shù)據(jù)集Edit-100k 通過真實數(shù)據(jù)集的顏色紋理庫和常用字體進(jìn)行合成。訓(xùn)練中輸入圖像的大小為64×256，訓(xùn)練批大小為64，網(wǎng)絡(luò)訓(xùn)練的初始權(quán)重都是以零均值的正態(tài)分布進(jìn)行初始化。使用Adam 優(yōu)化器［27］，學(xué)習(xí)率設(shè)置為0.000 2，指數(shù)衰減率β1=0.9，β2=0.999。所有實驗均在PyTorch 框架上實現(xiàn)。

3 實驗與結(jié)果分析

3.1 數(shù)據(jù)集與評估指標(biāo)

合成數(shù)據(jù)集Edit-100k：由于文本編輯網(wǎng)絡(luò)在訓(xùn)練過程中需要成對的有監(jiān)督訓(xùn)練數(shù)據(jù)，而現(xiàn)實中很難獲取到相應(yīng)的成對數(shù)據(jù)，所以本文的編輯模型在訓(xùn)練過程中使用Edit-100k作為訓(xùn)練數(shù)據(jù)。Edit-100k 合成數(shù)據(jù)集的合成流程：1）從語料庫中隨機(jī)獲取一對文本內(nèi)容作為原始圖像的文本和編輯替換的目標(biāo)文本；2）隨機(jī)選擇字體、顏色紋理、背景和幾何變形參數(shù)等，合成出成對的訓(xùn)練數(shù)據(jù)。背景選擇不僅包含純色背景，還包含場景圖像。為了使合成圖像更接近真實域，本文還對訓(xùn)練圖像進(jìn)行數(shù)據(jù)增強(qiáng)，包括高斯模糊、動態(tài)模糊、重采樣等，模擬現(xiàn)實的外部場景與特殊條件。

真實數(shù)據(jù)集：ICDAR 2013［28］是一個自然場景文本數(shù)據(jù)集，包括229 張訓(xùn)練圖像和233 張測試圖像。每個圖像中的文本都有一個或多個文本框作為文本檢測區(qū)域的標(biāo)簽以及相應(yīng)框內(nèi)文本內(nèi)容的標(biāo)簽。本文在該數(shù)據(jù)集上進(jìn)行可視化效果的對比實驗。

在文本編輯任務(wù)中，本文沿用圖像生成中常用的PSNR、SSIM 和MSE 指標(biāo)作評估，計算公式分別為：

其中：x和y分是別標(biāo)簽圖像和生成的圖像；μx、μy分別是x、y的平均值；σx、σy分別是x、y的標(biāo)準(zhǔn)差，σxy是x和y的協(xié)方差；c1=(k1L)2和c2=(k2L)2是用來維持穩(wěn)定的常數(shù)，L是像素值的動態(tài)范圍，k1=0.01，k2=0.03。

更低的MSE 或者更高的PSNR 和SSIM 表示編輯模型性能更好。本文僅在Edit-100k 上評估各生成指標(biāo)，因為真實文本數(shù)據(jù)集沒有成對文本圖像數(shù)據(jù)可供計算；而在真實數(shù)據(jù)集可以通過可視化對比來評估編輯圖像的質(zhì)量。

3.2 消融實驗

消融實驗主要集中在以下幾個模塊：字體分類器、字符分類器、端到端微調(diào)訓(xùn)練策略。圖7 展示了消融實驗的可視化結(jié)果，可以看到，相較于原始的基線模型SRNet，模型在增加了字體分類器的輔助引導(dǎo)之后對于文字的風(fēng)格樣式上與原圖更加接近；而在加入了字符分類器的引導(dǎo)之后，原本字形生成不夠精確的字符都被引導(dǎo)生成為更正確的字符形狀，例如第一列中“C”、第二列中的“r”、第四列中的“m”；最終對整體網(wǎng)絡(luò)端到端微調(diào)優(yōu)化后也對編輯效果有一定提升，例如第三列中的“H”。

圖7 消融實驗的可視化結(jié)果Fig.7 Visualization results of ablation study

消融實驗的量化評估結(jié)果如表2 所示，其中：√表示加入對應(yīng)的模塊，×則表示未加入；Δ 則表示每增加一個模塊相對上一模塊的結(jié)果之差?？梢钥吹?，本文方法的PSNR、SSIM和MSE 分別為25.48 dB、0.842 和0.004 3，相較于基線模型SRNet，PSNR、SSIM 分別提升了2.57 dB、0.055，MSE 降低了0.003 1，每一個模塊的加入都提升了模型的效果。

表2 消融實驗的量化評估結(jié)果Tab.2 Quantitative evaluation results of ablation study

3.3 對比實驗

與現(xiàn)有方法進(jìn)行對比的量化評估結(jié)果如表3 所示。與本文方法采用相同模型框架的SwapText 主要是在SRNet 的框架上加入了控制文本幾何變形的CSTN 模塊以及聚合內(nèi)容與風(fēng)格特征的自注意力機(jī)制。相較于SwapText，本文方法在三個指標(biāo)上表現(xiàn)也更好，PSNR 和SSIM 分別提升了2.11 dB和0.046，MSE 下降了0.002 4。

表3 對比實驗量化評估結(jié)果Tab.3 Quantitative evaluation results of comparison experiments

3.4 場景文本圖像編輯可視化

由于本文中的編輯模型主要針對單文本圖像編輯，但真實場景圖像大多包含多個文本實例，因此場景文本圖像編輯需要先使用上游文本檢測方法對各文本實例進(jìn)行檢測，然后再選擇編輯的文本實例和新的文本內(nèi)容，并將兩者一同輸入文本編輯模型中進(jìn)行生成。本文使用的文本檢測模型是微分二值化網(wǎng)絡(luò)（Differentiable Binarization Network，DBNet）［5］，主要是因為DBNet 不僅可以達(dá)到具有競爭力的檢測性能，同時還能擁有較快的檢測速度。

在圖8 中可以看到，本文方法在ICDAR2013 數(shù)據(jù)集的真實場景文本圖像上準(zhǔn)確地完成了文本編輯操作，無縫將新的文本內(nèi)容替換掉原圖中的舊文本，并保持風(fēng)格樣式不變，甚至保留了各自場景的光照與模糊效果。

圖8 自然場景文本圖像的可視化結(jié)果Fig.8 Visualization results of text images in nature scenes

4 結(jié)語

本文提出了一種利用字體字符類別屬性引導(dǎo)的分階段文本編輯網(wǎng)絡(luò)，將復(fù)雜有挑戰(zhàn)性的文本編輯大任務(wù)分解為三個任務(wù)：前景文本變換、背景修復(fù)和前背景融合。同時，結(jié)合字體字符分類器引導(dǎo)，本文方法不僅維持了編輯前后文字風(fēng)格樣式的一致性，而且提升了新文本生成的可讀性，解決了文本偽影與文字誤差的問題。本文還針對分階段的文本編輯網(wǎng)絡(luò)設(shè)計了對應(yīng)的訓(xùn)練策略，進(jìn)一步提升了模型的編輯效果。實驗中，本文方法的評估指標(biāo)與可視化效果都優(yōu)于SRNet 和SwapText。在未來的工作中，希望解決更加復(fù)雜極端的文本圖像編輯任務(wù)，例如極端光照、模糊、立體效果的文字圖像，完成對任意文本圖像場景的編輯。此外，也將探索使用其他文本圖像屬性更全面地引導(dǎo)文本編輯任務(wù)。