亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)構(gòu)先驗(yàn)指導(dǎo)的文本圖像修復(fù)模型

        2023-12-23 10:13:48劉雨軒趙啟軍潘帆高定國普布旦增
        中國圖象圖形學(xué)報(bào) 2023年12期
        關(guān)鍵詞:特征文本結(jié)構(gòu)

        劉雨軒,趙啟軍,*,潘帆,高定國,普布旦增

        1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065;2.西藏大學(xué)信息科學(xué)技術(shù)學(xué)院,拉薩 850011;3.藏文信息技術(shù)創(chuàng)新人才培養(yǎng)示范基地,拉薩 850011;4.四川大學(xué)電子信息學(xué)院,成都 610065

        0 引言

        圖像修復(fù)是指基于圖像已知部分,重建缺失區(qū)域,獲得視覺完整且語義合理的圖像的過程。圖像修復(fù)可以應(yīng)用在照片修復(fù)(Wan等,2020)、圖像編輯(郭景濤,2021)等方面,且對(duì)于文化遺產(chǎn)數(shù)字化保護(hù)有著重要意義。近些年,由于深度學(xué)習(xí)的發(fā)展優(yōu)勢,基于深度學(xué)習(xí)的圖像修復(fù)方法(強(qiáng)振平 等,2019)受到越來越多的關(guān)注。

        最初基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的方法(Pathak 等,2016;Yan 等,2018)采用編碼器—解碼器架構(gòu)從編碼后的圖像特征恢復(fù)完整圖像,由于單一的重建損失會(huì)使圖像產(chǎn)生模糊和語義錯(cuò)誤,因而使用對(duì)抗性損失等各種損失聯(lián)合約束訓(xùn)練網(wǎng)絡(luò),從而使得生成圖像更加真實(shí),細(xì)節(jié)更加逼真;也有些方法(Yu 等,2018)認(rèn)為傳統(tǒng)CNN 的感受野有限,修復(fù)時(shí)沒有有效利用背景特征信息,提出利用注意力機(jī)制提取全局上下文信息,獲得語義合理的修復(fù)結(jié)果。另一些方法選擇先重建整體結(jié)構(gòu),例如邊緣(Nazeri 等,2019)、用戶草圖(Yu等,2019)等作為先驗(yàn)來指導(dǎo)修復(fù)過程,生成結(jié)構(gòu)連貫的結(jié)果。所有這些方法都通過學(xué)習(xí)大量圖像,例如自然場景圖像集Places(Zhou 等,2018)、ImageNet(Russakovsky 等,2015)和人臉圖像集CelebA(celebfaces attribute)(Liu等,2015)來合成逼真的語義和復(fù)雜的紋理。

        文本圖像不僅具有豐富的靜態(tài)信息,而且還具有筆劃序列信息。文本圖像修復(fù)旨在使模型更加關(guān)注文本本身,盡可能多地恢復(fù)有利于文本檢測與識(shí)別等下游任務(wù)的文本筆劃信息,上述方法并不能很好地解決文本圖像修復(fù)問題?,F(xiàn)有研究多集中在文本圖像超分辨率以及文本圖像檢測與識(shí)別,對(duì)于破損文本圖像的修復(fù)問題的研究也借鑒的是自然圖像修復(fù)的方法(段熒 等,2021;王偉華,2021)。很多古籍文本圖像從木頭、墻壁或草紙上收集,大多是文字與背景圖像的混合風(fēng)格,存在文字?jǐn)鄬樱笔У奈谋緟^(qū)域阻礙了古文獻(xiàn)的數(shù)字化保護(hù)。因此,需要對(duì)文本圖像修復(fù)進(jìn)行研究。

        針對(duì)以上問題,本文提出了基于結(jié)構(gòu)先驗(yàn)的文本圖像修復(fù)模型。首先,根據(jù)人類視覺感知系統(tǒng),骨架結(jié)構(gòu)可以描述文字筆劃方向等形狀特征,也是提取筆劃順序信息的基礎(chǔ),許多文本圖像超分辨率方法(Yu 等,2021)使用文本骨架來提高其任務(wù)性能。因此,為關(guān)注文本結(jié)構(gòu)本身且恢復(fù)整體圖像結(jié)構(gòu),模型選擇使用文本骨架和邊緣作為結(jié)構(gòu)先驗(yàn)來指導(dǎo)后續(xù)文本圖像修復(fù)。由于之前的注意力機(jī)制不足以幫助合成文本結(jié)構(gòu)的語義和靜態(tài)紋理,通過假設(shè)文本的偽動(dòng)態(tài)過程(如圖1 所示),模型提出了一種靜態(tài)到動(dòng)態(tài)的殘差模塊來捕獲文本圖像序列特征信息,增強(qiáng)文本圖像修復(fù)結(jié)果。最后,為約束網(wǎng)絡(luò)生成更加清晰的文本筆劃,模型還應(yīng)用了梯度先驗(yàn)損失(gradient prior loss)作為修復(fù)損失函數(shù)之一。

        圖1 文本偽動(dòng)態(tài)過程圖(從左至右,以藏文為例)Fig.1 Text pseudo-dynamic process(from left to right,taking Tibetan as an example)

        1 相關(guān)工作

        1.1 圖像修復(fù)中的注意力

        很多圖像修復(fù)模型采用注意力機(jī)制從未缺失的背景區(qū)域獲取上下文信息,并在缺失部分和剩余部分之間建立聯(lián)系,以輔助圖像修復(fù)。

        Yu 等人(2018)提出上下文注意模塊,利用剩余區(qū)域的特征塊作為卷積濾波器來處理矩形孔的特征塊,以從遙遠(yuǎn)的背景區(qū)域中提取有用的紋理信息,幫助模型有效地處理缺失區(qū)域。該方法中的缺失區(qū)域?yàn)橐?guī)則矩形且沒有關(guān)注缺失區(qū)域內(nèi)的特征信息的聯(lián)系,因此,Liu 等人(2019)設(shè)計(jì)了一個(gè)連貫的語義注意層,可以建立空洞缺失部分的深層特征之間的關(guān)系,并確保不規(guī)則空洞區(qū)域的語義相關(guān)性和特征連續(xù)性。此外,還引入了一致性損失來指導(dǎo)注意力層和相應(yīng)的解碼器層學(xué)習(xí)真實(shí)的特征。Wu 等人(2022)引入了一個(gè)新的空間注意層,不僅對(duì)已知區(qū)域和填充區(qū)域之間的相關(guān)性進(jìn)行建模,而且對(duì)填充區(qū)域內(nèi)的相關(guān)性進(jìn)行建模,使得修復(fù)結(jié)果的全局和局部一致性更好。但是單一尺度的注意力機(jī)制不能很好地處理多種混合場景下的圖像修復(fù)。因此,Wang 等人(2019)提出了一種多尺度上下文注意模塊,該模塊使用不同尺度的塊大小來計(jì)算注意分?jǐn)?shù),然后將它們組合起來以獲得結(jié)構(gòu)一致且細(xì)節(jié)清晰的圖像。Li等人(2020)在不同尺度的跳躍連接和編碼器—解碼器層的中間使用多尺度自注意力結(jié)構(gòu),以考慮自相似性。

        以上注意力機(jī)制都在自然圖像或人臉圖像基礎(chǔ)上發(fā)掘建立缺失區(qū)域和背景區(qū)域的聯(lián)系,或使用多尺度的結(jié)構(gòu)結(jié)合不同尺度的特征信息以提高圖像修復(fù)的性能。在文本圖像中,文字是主要信息,然而以上方法無法對(duì)文本圖像中的文本圖像序列特征信息進(jìn)行有效提取和利用。

        1.2 基于先驗(yàn)指導(dǎo)的圖像修復(fù)

        為保證修復(fù)后圖像的結(jié)構(gòu)連貫性,越來越多的方法使用額外的先驗(yàn)來提高圖像修復(fù)的性能,例如邊緣、線條、用戶草圖、低分辨率圖像、分割圖和描述性文本等。

        Nazeri 等人(2019)設(shè)計(jì)出用于圖像修復(fù)的兩階段框架,先重建破損圖像的邊緣先驗(yàn),后將邊緣圖像作為恢復(fù)圖像紋理清晰和結(jié)構(gòu)一致的指導(dǎo)。Guo 等人(2021)以耦合方式建模邊緣結(jié)構(gòu)約束的紋理合成和紋理引導(dǎo)的邊緣結(jié)構(gòu)重建,使兩者相互促進(jìn),生成更加合理的圖像。Dong 等人(2022)進(jìn)一步結(jié)合邊緣和線條圖像,使用增量Transformer 結(jié)構(gòu)和掩碼位置編碼提高大孔洞區(qū)域的圖像修復(fù)效果。Yu 等人(2019)將用戶草圖作為孔洞區(qū)域中的結(jié)構(gòu)先驗(yàn)信息,結(jié)合對(duì)抗損失,控制圖像修復(fù)任務(wù)生成真實(shí)的且用戶需要的修復(fù)結(jié)果。為了克服CNN 的缺點(diǎn),Wan等人(2021)利用Transformer對(duì)整體圖像先進(jìn)行低分辨率先驗(yàn)重建,然后使用CNN 結(jié)合低分辨率先驗(yàn)修復(fù)圖像。Liao 等人(2020)提出了一種漸近的方式生成越來越準(zhǔn)確的語義分割圖來指導(dǎo)精確修復(fù)結(jié)果的方法。由于圖像的描述性文本標(biāo)簽可以充分理解圖像語義信息,Zhang 等人(2020)將文本特征注入到修復(fù)網(wǎng)絡(luò)中確保生成圖像的局部和全局區(qū)域一致且符合語義。

        以上圖像修復(fù)采用的是比較通用的先驗(yàn)信息,在人臉和自然圖像中都可以適用,然而對(duì)于本文特定的文本圖像,這些先驗(yàn)信息不足以指導(dǎo)文本圖像中的字符的修復(fù)。

        2 本文方法

        本文提出了一種基于結(jié)構(gòu)先驗(yàn)的文本圖像修復(fù)模型,整體架構(gòu)如圖2 所示。可以發(fā)現(xiàn)骨架結(jié)構(gòu)包含靜態(tài)文本筆畫信息,邊緣結(jié)構(gòu)包含整體顏色和紋理信息,因此本文首先選擇文本骨架和邊緣為結(jié)構(gòu)先驗(yàn),設(shè)計(jì)了結(jié)構(gòu)先驗(yàn)重建網(wǎng)絡(luò)。該網(wǎng)絡(luò)應(yīng)用Transformer(Vaswani 等,2023)來捕獲整體的長期依賴關(guān)系,重建健壯且可讀的文本骨架圖像以及邊緣圖像,并作為文本圖像修復(fù)的指導(dǎo)先驗(yàn)。由于以往的圖像修復(fù)網(wǎng)絡(luò)中的注意力機(jī)制都是在自然圖像修復(fù)或者人臉圖像修復(fù)的基礎(chǔ)上提出,而文本圖像中文本本身的特征信息并沒有被發(fā)掘且應(yīng)用到修復(fù)過程中,因此本文提出一種靜態(tài)到動(dòng)態(tài)的殘差模塊(static-to-dynamic residual block,StDRB)提取先驗(yàn)中重要的序列特征并有效利用。通過假設(shè)靜態(tài)的文本為從左至右、一個(gè)部分接著一個(gè)部分書寫的偽動(dòng)態(tài)過程(如圖1 所示),設(shè)計(jì)了一個(gè)從靜態(tài)到動(dòng)態(tài)的轉(zhuǎn)換模塊來捕獲文本筆劃序列特征信息,然后將轉(zhuǎn)換模塊與殘差連接結(jié)合,并將其嵌入到文本圖像修復(fù)網(wǎng)絡(luò)中以增強(qiáng)修復(fù)性能。

        圖2 結(jié)構(gòu)先驗(yàn)指導(dǎo)的文本圖像修復(fù)模型框架Fig.2 Construction of structure prior guided text image inpainting model

        2.1 結(jié)構(gòu)先驗(yàn)重建網(wǎng)絡(luò)

        結(jié)構(gòu)先驗(yàn)重建網(wǎng)絡(luò)的輸入由指示破損區(qū)域的二進(jìn)制單通道掩膜(1 表示缺失區(qū)域)、被掩膜覆蓋的3 通道RGB 圖像、被掩膜覆蓋的單通道文本骨架圖像和被掩膜覆蓋的單通道邊緣圖像共同組成,網(wǎng)絡(luò)的輸出為單通道文本骨架修復(fù)結(jié)果和單通道邊緣圖像修復(fù)結(jié)果,如圖2所示。

        由于文本圖像豐富的細(xì)節(jié)信息以及復(fù)雜的背景紋理,CNN 模型通過卷積計(jì)算的感受野受限,無法很好捕捉圖像中文本字符之間的長距離的全局依賴關(guān)系,且由CNN 設(shè)計(jì)的注意力模塊無法很好地處理多個(gè)任務(wù),因此本文采用N層僅編碼器結(jié)構(gòu)的Transformer 模塊作為網(wǎng)絡(luò)的主要架構(gòu),Transformer的特性使得網(wǎng)絡(luò)可以利用全局的有效信息,其中的多頭自注意力機(jī)制可以產(chǎn)生具有可解釋性的模型,保證了網(wǎng)絡(luò)可以關(guān)注到多個(gè)可執(zhí)行區(qū)域,學(xué)會(huì)更好地執(zhí)行邊緣圖像重建和文本骨架圖像重建兩個(gè)任務(wù)。

        由于Transformer 計(jì)算復(fù)雜度很高,首先將輸入圖像送入編碼器進(jìn)行下采樣操作后再送入Transformer 模塊以減少計(jì)算成本,為保證網(wǎng)絡(luò)的輸入輸出尺寸統(tǒng)一,最后將結(jié)果送入解碼器進(jìn)行上采樣恢復(fù)圖像的原來大小,編碼器—解碼器具體結(jié)構(gòu)如表1所示。

        表1 結(jié)構(gòu)先驗(yàn)重建網(wǎng)絡(luò)中編碼器—解碼器結(jié)構(gòu)Table 1 Architecture of encoder-decoder in structure prior reconstruction network

        具體操作流程如下:

        1)對(duì)輸入進(jìn)行下采樣;

        2)將采樣后特征向量投影到d維特征向量并為每個(gè)空間位置添加一個(gè)額外的可學(xué)習(xí)位置嵌入;

        3)將特征向量輸入Transformer模塊。

        在第n個(gè)Transformer層中

        式中,MSA、LN和MLP分別表示多頭自注意力層(multi-head self-attention,MSA)、層歸一化(layer normalization,LN)以及多層感知機(jī)(multi-layer perception,MLP)。Transformer模塊結(jié)構(gòu)如圖3所示。

        圖3 Transformer模塊結(jié)構(gòu)Fig.3 Structure of Transformer module

        2.2 文本圖像修復(fù)網(wǎng)絡(luò)

        文本圖像修復(fù)網(wǎng)絡(luò)由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)構(gòu)成,生成網(wǎng)絡(luò)以編碼器—解碼器結(jié)構(gòu)(見表2 所示)為基礎(chǔ),其輸入是單通道文本骨架圖像、單通道邊緣圖像以及被掩膜覆蓋的3 通道RGB 圖像共同組成,輸出為3通道的RGB圖像修復(fù)結(jié)果。

        表2 生成網(wǎng)絡(luò)的編碼器—解碼器結(jié)構(gòu)Table 2 Architecture of encoder-decoder in generator network

        首先將輸入送入CNN 編碼器中得到融合的靜態(tài)文本高層語義特征,由于卷積的特性,卷積計(jì)算提取的局部感受野可以代表文本圖像的塊特征。從CNN 編碼器中提取的靜態(tài)特征圖也可以假設(shè)為是由文本相應(yīng)部分的塊按照文本動(dòng)態(tài)書寫過程從左到右、從上到下組合而成。在文本識(shí)別任務(wù)中,經(jīng)常使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)轉(zhuǎn)換圖像特征為時(shí)間序列特征,但由于RNN 結(jié)構(gòu)無法很好處理遠(yuǎn)距離依賴,Cho 等人(2014)提出門控神經(jīng)單元(gate recurrent unit,GRU),與長短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)相比,既解決了長距離依賴下RNN 梯度消散的問題,又具有比LSTM更加簡單的結(jié)構(gòu),是目前比較流行的循環(huán)神經(jīng)網(wǎng)絡(luò)。本文使用GRU 模塊將靜態(tài)特征圖轉(zhuǎn)換為動(dòng)態(tài)序列特征??紤]到單向的GRU 往往用做預(yù)測,而本文需要轉(zhuǎn)換利用完整的上下文序列特征,因此仿照文本書寫過程,分別在垂直和水平方向添加雙向GRU,從靜態(tài)的特征圖中提取文本圖像序列特征。為了加深網(wǎng)絡(luò),提取等級(jí)更高的特征信息,同時(shí)簡化網(wǎng)絡(luò)的結(jié)構(gòu),讓網(wǎng)絡(luò)結(jié)構(gòu)更加均勻化,本文將兩個(gè)并行的模塊進(jìn)行殘差連接,作為靜態(tài)到動(dòng)態(tài)殘差模塊(StDRB),該結(jié)構(gòu)的自適應(yīng)特性以及對(duì)網(wǎng)絡(luò)深度不會(huì)過于敏感的特點(diǎn),有利于網(wǎng)絡(luò)收斂。

        如圖2 所示,對(duì)于來自CNN 編碼器的靜態(tài)特征圖的操作如下:

        1)使用擴(kuò)張卷積捕獲比普通卷積更大的感受野,通過填充參數(shù)和卷積步長保證擴(kuò)張卷積后特征圖大小不變,以此保留全圖的特征信息;

        2)分別對(duì)擴(kuò)張卷積后的特征圖進(jìn)行卷積,將卷積后的特征圖分別變形為列向量和行向量后,送入對(duì)應(yīng)的GRU模塊中;

        3)GRU 模塊將兩個(gè)向量作為順序輸入,并更新隱藏層中的內(nèi)部狀態(tài)。具體為

        式中,?1和?2分別表示垂直方向和水平方向的GRU,Ht表示隱藏層,Ct和Rt表示輸入列特征向量和行特征向量,t1和t2表示按照垂直方向和水平方向的循環(huán)連接。經(jīng)過M層靜態(tài)到動(dòng)態(tài)殘差模塊后,將特征圖送入一個(gè)由Hu 等人(2018)提出的SE(squeeze-and-excitation block)模塊中,使用通道注意力機(jī)制對(duì)兩個(gè)方向的全局特征進(jìn)行加權(quán),這使網(wǎng)絡(luò)能夠自適應(yīng)地調(diào)整不同上下文的重要性,從而更有效地捕獲文本圖像中的上下文信息。最后將特征送入CNN 解碼器恢復(fù)圖像得到最終的結(jié)果。

        判別網(wǎng)絡(luò)可以判別圖像是真實(shí)的原始圖像還是修復(fù)后的圖像,相當(dāng)于是一個(gè)二分類網(wǎng)絡(luò)。對(duì)于生成網(wǎng)絡(luò)的造假圖像和真實(shí)原始圖像,首先利用多層卷積將輸入的圖像進(jìn)行壓縮,將壓縮后的特征向量進(jìn)行展開,使用sigmoid函數(shù)保證輸出值范圍在[0,1]之間,使用二分類交叉熵?fù)p失反向傳播來更新判別網(wǎng)絡(luò)的參數(shù)。判別網(wǎng)絡(luò)的結(jié)構(gòu)如表3 所示。經(jīng)過多次交替訓(xùn)練、迭代更新后,生成網(wǎng)絡(luò)輸出的修復(fù)圖像與真實(shí)原始圖像間差異越來越小,使得判別網(wǎng)絡(luò)判別錯(cuò)誤。最后測試時(shí)僅使用生成網(wǎng)絡(luò)生成修復(fù)圖像。

        表3 判別網(wǎng)絡(luò)結(jié)構(gòu)Table 3 Architecture of discriminator network

        2.3 損失函數(shù)

        為了使修復(fù)后圖像更加真實(shí)、細(xì)節(jié)更加逼真,本文聯(lián)合多個(gè)損失函數(shù)一起衡量紋理和結(jié)構(gòu)差異,提高文本圖像修復(fù)的性能。

        2.3.1 結(jié)構(gòu)先驗(yàn)重建網(wǎng)絡(luò)損失函數(shù)

        在結(jié)構(gòu)先驗(yàn)重建網(wǎng)絡(luò)訓(xùn)練過程中,由于文本骨架圖像和邊緣圖像都是二值化圖像,為了更好地分離背景與前景,本文采用二分類交叉熵?fù)p失(binary cross entropy loss,BCE loss)分別計(jì)算修復(fù)后的二值文本骨架圖像和二值邊緣圖像與其相對(duì)應(yīng)的原始圖像的差異。二分類交叉熵?fù)p失計(jì)算為

        由于文本骨架圖像的重建對(duì)于后續(xù)文本圖像的修復(fù)非常關(guān)鍵,因此要保證文本骨架的重建精度。然而文本圖像中骨架和背景標(biāo)簽分布不平衡,在交叉熵?fù)p失中,損失按照每個(gè)像素?fù)p失的平均值計(jì)算,每個(gè)像素的損失值按離散的值計(jì)算,與其相鄰的像素是否為骨架無關(guān),導(dǎo)致重建出的文本筆劃骨架容易產(chǎn)生模糊,邊界不清晰。因此,交叉熵?fù)p失只考慮了微觀意義上的損失,而不是全局考慮,不足以解決正負(fù)樣本不平衡問題。因此,本文在骨架重建時(shí)搭配骰子損失(Dice loss)一起訓(xùn)練網(wǎng)絡(luò)。Dice loss 在某個(gè)像素點(diǎn)的損失不僅和該點(diǎn)的標(biāo)簽有關(guān),而且和其他點(diǎn)的標(biāo)簽也有關(guān),且無論圖像大小如何,固定大小的正樣本區(qū)域計(jì)算的損失是一樣的,更傾向于挖掘前景即骨架區(qū)域,可以有效解決不平衡問題。Dice loss計(jì)算為

        式中,⊙表示逐像素相乘。訓(xùn)練結(jié)構(gòu)先驗(yàn)重建網(wǎng)絡(luò)的聯(lián)合損失可以表示為

        式中,?為平衡系數(shù),在模型中設(shè)為0.8。

        2.3.2 文本圖像修復(fù)網(wǎng)絡(luò)損失函數(shù)

        本文借鑒Nazeri 等人(2019)的圖像修復(fù)階段的損失函數(shù),使用了重建損失Lrec、感知損失Lprec、風(fēng)格損失Lstyle以及對(duì)抗損失Ladv聯(lián)合訓(xùn)練修復(fù)網(wǎng)絡(luò)。重建損失使用平均絕對(duì)誤差(mean absolute error,MAE)計(jì)算修復(fù)圖像Iout和原始圖像Igt像素級(jí)別的差異,計(jì)算式中用|| ?||1表示MAE 的計(jì)算,重建損失可以表示為

        感知損失利用高級(jí)語義特征衡量圖像差異,使用在ImageNet 上預(yù)訓(xùn)練過的VGG-19 網(wǎng)絡(luò)(Visual Geometry Group 19-layer network),具體為

        式中,Φi為預(yù)訓(xùn)練網(wǎng)絡(luò)的第i層激活層輸出的特征圖。在模型中,選用VGG-19 網(wǎng)絡(luò)的ReLU1_1,ReLU2_1,ReLU3_1,ReLU4_1,ReLU5_1層。

        風(fēng)格損失多用于風(fēng)格遷移任務(wù),計(jì)算圖像特征之間的相似度,在圖像修復(fù)任務(wù)中,由Liu 等人(2018)證明可以有效改善修復(fù)圖像中的棋盤格偽影。風(fēng)格損失與感知損失相似,都使用了在ImageNet上預(yù)訓(xùn)練網(wǎng)絡(luò)的激活層輸出,風(fēng)格損失計(jì)算為

        式中,GΦ是指從激活層輸出的特征圖創(chuàng)建的格雷姆矩陣運(yùn)算。

        對(duì)抗損失使用生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)串聯(lián)訓(xùn)練,將網(wǎng)絡(luò)優(yōu)化問題轉(zhuǎn)換為極小極大優(yōu)化問題,使得生成器生成更加真實(shí)逼真的圖像,對(duì)抗損失將Igt視為真圖像,Iout視為假圖像,計(jì)算為

        式中,D表示判別網(wǎng)絡(luò)。

        由于文本圖像修復(fù)主要目的是為了修復(fù)文本內(nèi)容,方便下游的檢測和識(shí)別任務(wù),而上述損失適用于在自然圖像以及人臉圖像的修復(fù)中約束圖像的紋理以及結(jié)構(gòu)的生成,但對(duì)于文字的修復(fù)并沒有特殊的約束。本文為生成更加清晰的文字,使用Sun 等人(2011)提到的梯度輪廓先驗(yàn)(gradient profile prior,GPP)作為梯度先驗(yàn)損失(gradient prior loss),聯(lián)合其他損失函數(shù)一起訓(xùn)練網(wǎng)絡(luò)。

        梯度先驗(yàn)損失計(jì)算為

        式中,δ(Iout)和δ(Igt)表示原始圖像和修復(fù)圖像的梯度場。梯度場指的是像素的RGB 值的空間梯度,在文本圖像中,由于文字和背景區(qū)域RGB 值相差很多,因此文字與背景區(qū)域邊界的梯度場很大,如圖4所示,可以使用修復(fù)圖像和原始圖像的梯度場差異約束網(wǎng)絡(luò)生成更加銳利的文本和背景的邊界,從而使得修復(fù)后的文字更加清楚。

        圖4 文本圖像梯度場示例Fig.4 Illustration of gradient field on the text image

        訓(xùn)練文本圖像修復(fù)網(wǎng)絡(luò)的聯(lián)合損失可以表示為

        式中,βrec,βperc,βstyle,βadv,βgp為平衡系數(shù),參考算法(Nazeri 等,2019)和實(shí)驗(yàn)調(diào)參結(jié)果,在模型中分別設(shè)置為1.0,0.1,250,0.1,0.1。

        3 實(shí)驗(yàn)結(jié)果分析

        實(shí)驗(yàn)在Ubuntu18.04 系統(tǒng)下,使用深度學(xué)習(xí)框架PyTorch 進(jìn)行訓(xùn)練和測試,用Python 作為開發(fā)語言,實(shí)驗(yàn)采用的CPU 為Intel 酷睿 i7-8700F,GPU 為1 塊NVIDIA GeForce GTX 1080Ti 11 GB 顯卡。訓(xùn)練時(shí),輸入圖像尺寸都調(diào)整至256 × 256 像素,且訓(xùn)練時(shí)隨機(jī)對(duì)掩膜圖像進(jìn)行水平或豎直翻轉(zhuǎn)等操作。模型分兩階段進(jìn)行訓(xùn)練,在結(jié)構(gòu)先驗(yàn)重建網(wǎng)絡(luò)訓(xùn)練過程中,選用AdamW 作為優(yōu)化器,batchsize 設(shè)置為8,初始學(xué)習(xí)率設(shè)定為0.000 3;在文本圖像修復(fù)網(wǎng)絡(luò)訓(xùn)練過程中,選用Adam 作為優(yōu)化器,batchsize 設(shè)置為8,初始學(xué)習(xí)率設(shè)定為0.000 1。模型總參數(shù)量為31.07 MB。

        3.1 數(shù)據(jù)集

        實(shí)驗(yàn)使用兩種語言的數(shù)據(jù)集,通過多種字體文件、網(wǎng)上公開的語料以及典型的英文書籍文字背景合成了英文文本圖像數(shù)據(jù)集;還通過烏金體藏文字體、藏文語料和真實(shí)法藏敦煌藏文文獻(xiàn)背景圖像合成藏文文本圖像數(shù)據(jù)集,分別生成了100 000幅圖像用于訓(xùn)練,20 000 幅用于測試,數(shù)據(jù)集示例如圖5 所示。生成圖像時(shí)隨機(jī)挑選字體文件以及語料中的單詞、字符,在背景圖像任意位置生成文本行,最后截取整個(gè)文本行,并將高度統(tǒng)一為32 像素,寬度在50~300 像素之間。掩膜圖像采用了Liu 等人(2018)提出的12 000幅公開的不規(guī)則掩膜圖像。文本骨架的原始圖像使用Simo-Serra 等人(2018)提出的線條歸一化工具生成,該工具可以在移除背景的同時(shí)保留并細(xì)化文本筆劃。邊緣的原始圖像采用Canny 邊緣檢測算法生成。

        圖5 藏文和英文數(shù)據(jù)集示例Fig.5 Examples of Tibetan and English datasets

        3.2 定性比較

        本文以4 個(gè)圖像修復(fù)模型為基準(zhǔn),與本文模型進(jìn)行對(duì)比。各模型的定性比較結(jié)果如圖6所示,前3排為藏文測試集示例,后3 排為英文測試集示例,圖6(b)為模型輸入,圖6(c)—(g)為對(duì)比模型與本文模型的修復(fù)結(jié)果。

        圖6 文本圖像修復(fù)定性效果對(duì)比Fig.6 Comparison of qualitative effects of text image inpainting((a)original images;(b)masked images;(c)Liu et al.(2018);(d)Nazeri et al.(2019);(e)Wan et al.(2020);(f)Guo et al.(2021);(g)ours)

        在兩個(gè)數(shù)據(jù)集中,Liu等人(2018)的方法在修復(fù)時(shí)未采用任何先驗(yàn)信息和注意力機(jī)制增強(qiáng)圖像修復(fù)效果,缺失區(qū)域修復(fù)紋理模糊有偽影,且圖像上被遮擋的文本修復(fù)存在明顯錯(cuò)誤。Nazeri 等人(2019)和Guo 等人(2021)提出的方法在背景區(qū)域修復(fù)效果很好,缺失面積小時(shí)效果可以,但文字與背景邊界模糊,有大面積文字缺失時(shí),在文字的修復(fù)細(xì)節(jié)上效果不夠好,文字修復(fù)有語義錯(cuò)誤。Wan 等人(2020)的方法修復(fù)痕跡明顯,修復(fù)結(jié)果缺失區(qū)域和背景區(qū)域文字銜接不一致,文字出現(xiàn)大量修復(fù)錯(cuò)誤,沒有達(dá)到文本修復(fù)的目的。

        綜合以上結(jié)果可見,本文方法可以更加精確地修復(fù)文本圖像中的文本筆劃,且在掩膜遮擋尺寸較大時(shí)效果更好。與其他模型結(jié)果對(duì)比,做到修復(fù)區(qū)域自然真實(shí),人眼視覺感受效果較好。

        3.3 定量比較

        除以上定性比較外,本文也對(duì)模型修復(fù)后的結(jié)果進(jìn)行了定量比較。本文采用峰值信噪比(peak signal-to-noise ratio,PSNR)、結(jié)構(gòu)相似度(structural similarity,SSIM)以及平均絕對(duì)誤差(mean absolute error,MAE)等圖像修復(fù)任務(wù)中常用的圖像質(zhì)量評(píng)價(jià)指標(biāo)對(duì)不同模型的修復(fù)結(jié)果進(jìn)行評(píng)價(jià)分析。

        在測試集上的實(shí)驗(yàn)結(jié)果如表4 所示。由表4 可知,無論是藏文數(shù)據(jù)集還是英文數(shù)據(jù)集,本文模型在3 種圖像質(zhì)量評(píng)價(jià)指標(biāo)上均取得了好于其他圖像修復(fù)模型的結(jié)果。

        表4 圖像質(zhì)量評(píng)價(jià)指標(biāo)上的修復(fù)效果對(duì)比Table 4 Comparison of inpainting effects on image quality assessment

        Wan等人(2020)的方法在兩個(gè)數(shù)據(jù)集上結(jié)果都很差,原因是其方法使用的先驗(yàn)是低分辨率圖像,而在低分辨率圖像中文字顯然更加難以辨認(rèn),對(duì)于指導(dǎo)后續(xù)修復(fù)也沒有很好的效果。Nazeri 等人(2019)的方法和Guo等人(2021)的方法都使用邊緣作為結(jié)構(gòu)先驗(yàn),對(duì)于文本圖像修復(fù)效果有一定作用,相比未使用任何先驗(yàn)的Liu 等人(2018)的方法在指標(biāo)上優(yōu)秀很多。

        模型在藏文數(shù)據(jù)集上的指標(biāo)比英文數(shù)據(jù)集好,原因是藏文數(shù)據(jù)集采用的字體為烏金體,在筆劃結(jié)構(gòu)上沒有使用多種字體生成的英文數(shù)據(jù)集復(fù)雜,且藏文數(shù)據(jù)集使用的背景圖像都是真實(shí)的法藏敦煌藏文文獻(xiàn)文本圖像的背景,其復(fù)雜程度沒有英文數(shù)據(jù)集使用的文檔背景圖像復(fù)雜,如圖5所示。

        以上3 種評(píng)價(jià)指標(biāo)是圖像修復(fù)質(zhì)量的通用評(píng)價(jià)指標(biāo),為比較修復(fù)后文字的準(zhǔn)確率,本文進(jìn)一步使用了由HP 實(shí)驗(yàn)室開發(fā)、Google 維護(hù)的開源OCR(optical character recognition)引擎Tesseract OCR 對(duì)修復(fù)后的藏文文本圖像進(jìn)行文字識(shí)別,使用Tesseract OCR、CRNN(convolutional recurrent neural network)(Shi 等,2017)和ASTER(attentional scene text recognizer)(Shi 等,2019)等識(shí)別模型對(duì)修復(fù)后的英文文本圖像進(jìn)行文字識(shí)別,并使用字符識(shí)別準(zhǔn)確率評(píng)價(jià)識(shí)別結(jié)果,字準(zhǔn)確率越高,表示修復(fù)效果越好。字準(zhǔn)確率(character accuracy,C.Acc)計(jì)算為

        式中,Llev表示識(shí)別出的文本字符串和真實(shí)文本字符串之間的萊溫斯坦距離(Levenshtein distance),其定義為將一個(gè)字符串變換為另一個(gè)字符串所需刪除、插入和替換操作的次數(shù)。Lgt表示真實(shí)文本的字符長度。

        將修復(fù)后的測試集圖像送入識(shí)別模型進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果如表5 所示。由表5 可知,本文模型修復(fù)后圖像的文字識(shí)別結(jié)果要好于其他修復(fù)模型,證明了本文模型可以合理地修復(fù)破損文本的結(jié)構(gòu),做到了更加關(guān)注文字本身,有利于文字識(shí)別等下游任務(wù)的執(zhí)行。

        表5 修復(fù)效果在OCR結(jié)果上對(duì)比Table 5 Comparison of inpainting effect on OCR results

        Wan等人(2020)方法修復(fù)后圖像的文字識(shí)別效果提升很小,說明該方法修復(fù)時(shí)并沒有考慮到圖像上的文本信息。Liu 等人(2018)、Nazeri 等人(2019)和Guo等人(2021)方法對(duì)圖像上文字修復(fù)有一定效果,但因?yàn)闆]有充分利用文本圖像序列特征,修復(fù)的文字語義有誤。

        3.4 消融實(shí)驗(yàn)

        1)靜態(tài)到動(dòng)態(tài)殘差模塊。為驗(yàn)證文本圖像修復(fù)網(wǎng)絡(luò)中靜態(tài)到動(dòng)態(tài)殘差模塊的有效性,本文在藏文數(shù)據(jù)集上,使用普通殘差模塊替代靜態(tài)到動(dòng)態(tài)殘差模塊,結(jié)果如表6 所示。結(jié)果表明,不使用靜態(tài)到動(dòng)態(tài)殘差模塊修復(fù)時(shí),在修復(fù)指標(biāo)和識(shí)別指標(biāo)上均有所下降,證明了靜態(tài)到動(dòng)態(tài)殘差模塊的有效性。

        表6 消融實(shí)驗(yàn)驗(yàn)證結(jié)果Table 6 The evaluation results of ablation studies

        2)Transformer 模塊。為驗(yàn)證結(jié)構(gòu)先驗(yàn)重建網(wǎng)絡(luò)中使用Transformer模塊重建邊緣和文本骨架先驗(yàn)的有效性,本文在藏文數(shù)據(jù)集上,使用卷積替換Transformer 模塊,結(jié)果如表6 所示。結(jié)果表明,不使用Transformer 模塊,文本圖像的修復(fù)效果有所下降,證明了Transformer模塊的有效性。

        3)結(jié)構(gòu)先驗(yàn)。為驗(yàn)證在文本圖像修復(fù)中使用結(jié)構(gòu)先驗(yàn)是否有效,本文在藏文數(shù)據(jù)集上進(jìn)行了僅使用邊緣先驗(yàn)指導(dǎo)、僅使用文本骨架先驗(yàn)指導(dǎo)和不使用任何結(jié)構(gòu)先驗(yàn)指導(dǎo)3種實(shí)驗(yàn),結(jié)果如表6所示。結(jié)果表明,同時(shí)使用兩種結(jié)構(gòu)先驗(yàn)的方法優(yōu)于僅使用一種結(jié)構(gòu)先驗(yàn)和不使用結(jié)構(gòu)先驗(yàn)的方法,證明了結(jié)合兩種結(jié)構(gòu)先驗(yàn)的有效性。

        4)Dice loss。為驗(yàn)證結(jié)構(gòu)先驗(yàn)重建網(wǎng)絡(luò)中Dice loss的有效性,本文在藏文數(shù)據(jù)集上僅使用BCE loss約束文本骨架圖像的重建,結(jié)果如表6 所示。結(jié)果表明,不使用Dice loss 約束文本骨架訓(xùn)練,修復(fù)后的結(jié)果在圖像質(zhì)量評(píng)價(jià)指標(biāo)和OCR 識(shí)別結(jié)果上均不如結(jié)合兩個(gè)損失的方法,證明了有Dice loss 的聯(lián)合約束使得文本骨架重建更加精確,從而使得修復(fù)結(jié)果更好。

        5)梯度先驗(yàn)損失。為驗(yàn)證梯度先驗(yàn)損失(gradient prior loss)在圖像修復(fù)階段的有效性,本文在文本修復(fù)網(wǎng)絡(luò)訓(xùn)練過程中不使用梯度先驗(yàn)損失。由表6中實(shí)驗(yàn)結(jié)果可以看出,不使用梯度先驗(yàn)損失修復(fù)后的結(jié)果在圖像質(zhì)量評(píng)價(jià)指標(biāo)和OCR 識(shí)別結(jié)果上均有下降,證明了梯度先驗(yàn)損失在文本圖像修復(fù)過程中的有效性。

        3.5 模型限制

        當(dāng)遮擋掩膜面積很大且遮擋文字部分比例較多時(shí),本文模型的修復(fù)效果不佳,如圖7 所示,掩膜遮擋住文字前半段的大半部分,背景區(qū)域?qū)θ笔^(qū)域的約束減弱,導(dǎo)致在重建文本骨架和邊緣圖像時(shí)出現(xiàn)文字筆劃部分的紋理模糊,使得后續(xù)修復(fù)網(wǎng)絡(luò)并未充分提取文本圖像序列特征,文字修復(fù)出現(xiàn)錯(cuò)誤。

        圖7 修復(fù)失敗示例Fig.7 Failure inapinting example((a)original image;(b)masked image;(c)reconstrcuted text skeleton image;(d)reconstructed edge image;(e)inpainting result)

        3.6 實(shí)際應(yīng)用

        本文使用真實(shí)的法藏敦煌藏文文獻(xiàn)中截取的文本圖像對(duì)模型的修復(fù)效果進(jìn)行了測試,使用隨機(jī)掩膜進(jìn)行遮擋,如圖8(a)所示。修復(fù)結(jié)果如圖8(b)所示,本文模型可以較好地修復(fù)真實(shí)文本圖像破損區(qū)域的背景,修復(fù)出的文字與真實(shí)的文本標(biāo)簽一致,如圖8(c)所示。

        圖8 真實(shí)敦煌藏文文本圖像修復(fù)結(jié)果示例Fig.8 Inpainting results on real text images from Tibetan documents from Dunhuang((a)masked images;(b)inpainting results;(c)text labels)

        4 結(jié)論

        本文針對(duì)現(xiàn)有自然圖像和人臉圖像修復(fù)方法在修復(fù)文本圖像時(shí)的不足,提出了一種基于結(jié)構(gòu)先驗(yàn)的文本圖像修復(fù)模型,能更好地解決文本圖像修復(fù)的問題。模型關(guān)注文本圖像的主要特征,使用Transformer 模塊重構(gòu)文本骨架和邊緣等先驗(yàn)圖像,對(duì)修復(fù)進(jìn)行指導(dǎo),設(shè)計(jì)從靜態(tài)到動(dòng)態(tài)殘差模塊提取文本圖像中的動(dòng)態(tài)序列特征,使得模型更加關(guān)注文字本身,并聯(lián)合梯度先驗(yàn)等不同損失函數(shù),有效修復(fù)破損的文字筆畫和背景。本文選擇了4 種圖像修復(fù)方法,在兩種語言的數(shù)據(jù)集上進(jìn)行比較,結(jié)果表明本文方法修復(fù)的圖像不僅在人類主觀視覺效果和客觀的圖像質(zhì)量評(píng)價(jià)上要好于其他圖像修復(fù)的方法,并且在OCR 識(shí)別器的識(shí)別結(jié)果上也要優(yōu)于其他模型,表明本文模型不僅關(guān)注了圖像紋理細(xì)節(jié)的修復(fù),而且可以有效修復(fù)具有正確語義的文字筆畫。

        本文模型在圖像破損區(qū)域較大,導(dǎo)致被遮擋的文字比例較大時(shí),修復(fù)的效果不佳,原因是由于較大的文字遮擋導(dǎo)致模型可以提取到的有效文本先驗(yàn)信息不足,重建先驗(yàn)圖像時(shí)有效區(qū)域?qū)τ谌笔^(qū)域的約束力減弱,導(dǎo)致重建的先驗(yàn)圖像的紋理出現(xiàn)模糊甚至錯(cuò)誤的情況,后續(xù)的文本特征提取模塊提取到模糊甚至錯(cuò)誤的文本序列信息,使模型理解的文本語義出現(xiàn)錯(cuò)誤,導(dǎo)致修復(fù)效果差。對(duì)于此問題,本文未來將探索如何將強(qiáng)有力的文本先驗(yàn)信息,如文本標(biāo)簽等,應(yīng)用到修復(fù)方法中。由于文本標(biāo)簽的先驗(yàn)信息不存在模糊或錯(cuò)誤的問題,因此將文本標(biāo)簽信息融入文本圖像修復(fù)的過程,將有效增強(qiáng)修復(fù)效果,修復(fù)出語義更加準(zhǔn)確的文本圖像。此外,本文還將探索如何應(yīng)用文本圖像修復(fù)方法修復(fù)更多語種的真實(shí)古籍文本圖像,提高其應(yīng)用價(jià)值。

        致 謝:此次實(shí)驗(yàn)的數(shù)據(jù)得到了西藏大學(xué)人才創(chuàng)新團(tuán)隊(duì)與實(shí)驗(yàn)室平臺(tái)建設(shè)“計(jì)算機(jī)及藏文信息技術(shù)創(chuàng)新團(tuán)隊(duì)”的支持,在此表示感謝。

        猜你喜歡
        特征文本結(jié)構(gòu)
        《形而上學(xué)》△卷的結(jié)構(gòu)和位置
        如何表達(dá)“特征”
        論結(jié)構(gòu)
        中華詩詞(2019年7期)2019-11-25 01:43:04
        在808DA上文本顯示的改善
        不忠誠的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        論《日出》的結(jié)構(gòu)
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        創(chuàng)新治理結(jié)構(gòu)促進(jìn)中小企業(yè)持續(xù)成長
        黄色毛片视频免费| 亚洲精品久久久久久久蜜桃| 99视频30精品视频在线观看| 少妇太爽了在线观看免费视频| 2022精品久久久久久中文字幕| 毛片在线视频成人亚洲| 把女人弄爽特黄a大片| 国产三级在线观看播放视频| 日本理论片一区二区三区| 亚洲精品国产福利一二区| 国产亚洲精品福利在线| 日本国产精品高清在线| 野花香社区在线视频观看播放| 精产国品一二三产区m553麻豆| 日韩中文字幕一区二区高清| 隔壁人妻欲求不满中文字幕| 国产精品永久久久久久久久久| 成人综合网亚洲伊人| 免费视频成人 国产精品网站| 尤物精品国产亚洲亚洲av麻豆| 久热re这里精品视频在线6| 亚洲国产一区二区三区亚瑟| 精品丝袜一区二区三区性色| 国产精品对白一区二区三区| 中文字幕亚洲乱码熟女在线 | 成人丝袜激情一区二区| 牲欲强的熟妇农村老妇女| 国产美女高潮流白浆在线观看 | 亚洲一区二区日韩专区| 女人被狂c躁到高潮视频| 亚洲AV秘 无码一区二区三区臀| 免费人妻精品区一区二区三| 久久婷婷国产综合精品| 日韩精品无码一区二区中文字幕| 好爽~又到高潮了毛片视频| 久久本道久久综合伊人| 九九热线有精品视频86| 国产成人精品三级在线影院| 麻豆国产精品久久天堂 | 超清纯白嫩大学生无码网站| 精品一区二区三区四区少妇|