亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于部分卷積的文字圖像不規(guī)則干擾修復(fù)算法研究*

        2021-09-23 01:21:56瞿于荃邵玉斌杜慶治
        關(guān)鍵詞:文檔卷積文字

        段 熒,龍 華,2,瞿于荃,邵玉斌,2,杜慶治,2

        (1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650504;2.昆明理工大學(xué)云南省計(jì)算機(jī)重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650504)

        1 引言

        在各行各業(yè)中為了更容易地對(duì)文件進(jìn)行儲(chǔ)存或管理,通常是將帶有文字信息的紙質(zhì)文檔通過數(shù)字化的方式掃描轉(zhuǎn)化為圖像后進(jìn)行識(shí)別,以減少人工錄入工作。目前對(duì)于規(guī)范的文檔圖像的光學(xué)字符識(shí)別OCR(Optical Character Recognition)已在各種領(lǐng)域中得到應(yīng)用,但是,在數(shù)字化的過程中,大多數(shù)文檔都無法達(dá)到理想的狀態(tài),且?guī)в幸欢ǖ母蓴_信息,例如文檔之中用于標(biāo)記重要內(nèi)容的橫線等,致使識(shí)別率下降。雖然可以通過二值化[1]等算法進(jìn)行預(yù)處理,但是對(duì)于與文字進(jìn)行粘連的干擾部分卻依舊無法進(jìn)行處理[2]。對(duì)于不能識(shí)別的拒識(shí)字也有學(xué)者利用上下文信息的相關(guān)性進(jìn)行后處理[3,4],進(jìn)一步提高了準(zhǔn)確率,當(dāng)初步識(shí)別效果較差時(shí),相關(guān)性匹配的方法并不能顯著地提升準(zhǔn)確率,并且它依賴于一個(gè)健全的候選字庫(kù)和上下文信息(即語(yǔ)言學(xué)知識(shí))。因此,如何有效地去除干擾,對(duì)于減少文檔圖像拒識(shí)字,提升識(shí)別準(zhǔn)確率具有不容忽視的作用,同時(shí)也給修復(fù)污損的文字作品提供了新思路。隨著歷史更迭發(fā)展,部分古籍文獻(xiàn)、金石碑文以及書畫作品在流傳過程中,由于各種不穩(wěn)定的保存因素,比如自然的老化、發(fā)霉受潮、動(dòng)物撕咬等,導(dǎo)致完整的漢字字跡變得模糊不清或是局部殘缺。針對(duì)文物字畫和碑刻的破損書法作品,使用傳統(tǒng)的手工方法修復(fù)不僅流程繁復(fù)[5 - 7]而且耗時(shí)較長(zhǎng),除了考究修復(fù)人員高超的復(fù)原技術(shù)和耐心之外,還要求其對(duì)歷史事實(shí)持有科學(xué)而又嚴(yán)謹(jǐn)?shù)膽B(tài)度。

        目前,文檔圖像去除干擾的工作可以分為2類:一是類似于表格或是下劃線與文字信息沒有粘連的干擾[8],此類干擾可利用線條的結(jié)構(gòu)性特征進(jìn)行去除;而另一類則是與文字信息產(chǎn)生粘連的干擾[9]。以上方法仍是針對(duì)線條類的干擾進(jìn)行修復(fù),而對(duì)于不規(guī)則圖案的干擾卻沒有合適的算法。近年來,基于深度學(xué)習(xí)網(wǎng)絡(luò)的圖像修復(fù)(Image Inpainting)發(fā)展迅速,在2016年的CVPR(Computer Vision and Pattern Recognition)會(huì)議上,Pathak等人[10]結(jié)合CNN(Convolutional Neural Networks)和GAN(Generative Adversarial Networks)網(wǎng)絡(luò)首次提出圖像修復(fù)算法。在此算法的基礎(chǔ)之上許多作者又提出了改進(jìn)算法[11,12],如:Pathak等人[10]和Yang等人[13]假設(shè)的干擾圖案是一個(gè)大小為64×64的矩形框,且位于128×128的圖像中心,但此類方法的修復(fù)只是集中于圖像中心的矩形區(qū)域,不適用于文字圖像的修復(fù)工作。而Iizuka等人[14]和Yu等人[15]則突破中心矩形框的干擾假設(shè)提出了對(duì)不規(guī)則圖案進(jìn)行修復(fù)的算法。但是,此類算法往往需要依賴復(fù)雜的后處理,例如:Iizuka等人[14]采用快速行進(jìn)算法(Fast Marching)[16]和泊松融合(Poisson Image Blending)[17]的方法對(duì)圖像進(jìn)行修復(fù)。此外,還有基于Patch的方法[18,19],通過在圖像中沒有干擾的部分搜索相關(guān)的Patch進(jìn)行圖像修復(fù),而這樣的搜索需要耗費(fèi)大量的計(jì)算成本,雖然之后研究者提出了更快的Patch搜索算法—— PatchMatch[20],但該算法主要是利用非缺失部分的圖像統(tǒng)計(jì)信息來填充缺失部分,其處理速度無法滿足實(shí)時(shí)應(yīng)用的需求,且不能進(jìn)行語(yǔ)義感知的Patch選擇。NVIDIA公司Liu等人[21]所提出的PConv(Partial Convolution)層使用傳統(tǒng)的卷積網(wǎng)絡(luò),不依賴額外的后處理,通過不斷學(xué)習(xí)缺失區(qū)域和原始照片,對(duì)不規(guī)則的干擾部分進(jìn)行修復(fù)。通過一系列的實(shí)驗(yàn)研究表明,PConv方法優(yōu)于PatchMatch[20]、GL(Globally and Locally consistent image completion)[14]和文獻(xiàn)[15]的方法,文獻(xiàn)[21]使用堆疊的部分卷積運(yùn)算和自動(dòng)掩碼更新步驟(Automatic Mask Update Step)來執(zhí)行圖像修復(fù),論證了圖像需要修補(bǔ)的部分會(huì)隨著層數(shù)的增加和更新而消失,因此該方法不受限于形狀或紋理。這種修復(fù)方法與文字圖像、碑刻或書法作品所要求的修復(fù)條件相符,即修復(fù)的紋理以及顏色是不唯一、不固定的。

        本文為解決不規(guī)則干擾文字圖像中,字符缺損導(dǎo)致識(shí)別準(zhǔn)確率下降的問題,提出了基于部分卷積的文字圖像不規(guī)則干擾修復(fù)算法,以部分卷積作為卷積方式,基于U-Net框架和自動(dòng)更新步驟,循環(huán)對(duì)缺損區(qū)域進(jìn)行逐層修復(fù)訓(xùn)練,并將此算法應(yīng)用于古代文字圖像的修復(fù)之中,以進(jìn)一步對(duì)書法、碑刻等文字作品修復(fù)進(jìn)行理論及實(shí)踐探究。

        2 PConv和U-Net

        2.1 PConv

        NVIDIA在2018年ICLR會(huì)議上公布了PConv層[21]對(duì)圖像進(jìn)行修復(fù)的成果,并將PConv層表示為式(1)所示:

        (1)

        其中,WT是卷積濾波器的權(quán)重,b為對(duì)應(yīng)的偏差。X是當(dāng)前卷積(滑動(dòng))窗口的特征值(像素值),M是相應(yīng)的二進(jìn)制掩膜(mask)圖像,⊙表示逐像素乘法,比例因子sum(1)/sum(M)應(yīng)用適當(dāng)?shù)目s放比例來調(diào)整有效(屏蔽)輸入的變化量。由式(1)可得出,輸出值僅取決于非屏蔽輸入。sum(M)表示滑動(dòng)窗口M中有效像素點(diǎn)的個(gè)數(shù)。由式(1)可知,卷積運(yùn)算的輸出值主要取決于有效像素點(diǎn)。

        自動(dòng)掩碼更新步驟如式(2)所示:

        (2)

        將輸入圖像包含至少滿足一個(gè)條件的像素點(diǎn),標(biāo)記為有效像素。在部分卷積層有足夠的連續(xù)應(yīng)用的情況下,不斷修復(fù)圖像直至將所有無效像素點(diǎn)的值修復(fù)為1,即表示圖像修復(fù)完成。

        2.2 U-Net

        U-Net網(wǎng)絡(luò)模型大多數(shù)情況下是應(yīng)用于醫(yī)學(xué)圖像分割領(lǐng)域,網(wǎng)絡(luò)形狀呈現(xiàn)為U型。降采樣的特征圖與同維度大小的上采樣特征圖通過Skip Connection將高低層次的特征進(jìn)行融合,適用于樣本量少的應(yīng)用場(chǎng)景,且運(yùn)算速度快。U-Net采用了2006年Hinton等人[22]在深度信念網(wǎng)絡(luò)DBN(Deep Belief Network)中首次提出的編碼器-解碼器思路,除語(yǔ)義分割外U-Net網(wǎng)絡(luò)結(jié)構(gòu)可用于圖像去噪,在訓(xùn)練階段將原始圖像與噪聲進(jìn)行融合后放入編碼解碼器中,目標(biāo)是將加擾圖像還原后得到原始圖像。

        在U-Net網(wǎng)絡(luò)結(jié)構(gòu)中編碼器的作用是對(duì)輸入圖像的特征進(jìn)行提取,降采樣的理論意義是增加對(duì)輸入圖像的一些小擾動(dòng)的魯棒性,比如圖像平移、旋轉(zhuǎn)等,減小過擬合的風(fēng)險(xiǎn)并降低運(yùn)算量,同時(shí)增加感受野的大小。而解碼器則是利用前面編碼的抽象特征來恢復(fù)到原始圖像尺寸的過程,最終得到去除干擾后的結(jié)果。

        3 文字圖像修復(fù)模型

        3.1 數(shù)據(jù)采集及預(yù)處理

        目前就深度學(xué)習(xí)來說,并沒有完整公開的中文文檔識(shí)別數(shù)據(jù)集或者書法作品數(shù)據(jù)集,因此如何構(gòu)建訓(xùn)練測(cè)試數(shù)據(jù)成為文字圖像修復(fù)的主要任務(wù)。本文數(shù)據(jù)集主要分為文本圖像數(shù)據(jù)集和mask數(shù)據(jù)集。

        3.1.1 文本圖像數(shù)據(jù)集

        本文所采集到的文檔圖像數(shù)據(jù)集中數(shù)據(jù),均為二值化處理后的純凈文本圖像。為使模擬生成數(shù)據(jù)盡可能地貼合實(shí)際場(chǎng)景中的文字圖像,本文按照如下標(biāo)準(zhǔn)對(duì)數(shù)據(jù)集圖像進(jìn)行采集:所有生成圖像均為白底黑字,使用宋體、楷體、黑體等若干常見字體進(jìn)行數(shù)據(jù)模擬,并隨機(jī)生成文字圖像的大小以及文字的字號(hào)。為進(jìn)一步通過上下文關(guān)聯(lián)性對(duì)識(shí)別內(nèi)容進(jìn)行校正,采集的文本圖像均為具有表意的文段,文字之間具有信息關(guān)聯(lián)性,主要包含白話文、詩(shī)詞和散文3種體裁。

        在圖像修復(fù)領(lǐng)域中,為提升不同種類圖像的修復(fù)效果常使用標(biāo)注標(biāo)簽的方式進(jìn)行訓(xùn)練,如Im- ageNet數(shù)據(jù)集中含有上千個(gè)數(shù)據(jù)類別,分類標(biāo)簽訓(xùn)練的目的是使模型更好地對(duì)不同種類的缺失部分進(jìn)行修復(fù)。鑒于此方法的有效性與可行性,本文將此思想應(yīng)用于文字修復(fù)之上。在修復(fù)實(shí)驗(yàn)過程中發(fā)現(xiàn),被修復(fù)文字的字體大小與修復(fù)后的效果有著密切關(guān)系,當(dāng)修復(fù)區(qū)域漢字大小有較為明顯的差異時(shí),修復(fù)較大漢字字形筆畫時(shí)內(nèi)部會(huì)出現(xiàn)缺失的問題,即空心現(xiàn)象,如圖1所示,進(jìn)而致使圖像修復(fù)效果不理想。

        Figure 1 Hollowing out due to font differences圖1 字體差異造成的空心現(xiàn)象

        (3)

        此時(shí),Stotal為當(dāng)前圖像的總像素值,當(dāng)Class<0.02時(shí),則將當(dāng)前圖像類別歸為D01,其余圖像全部歸為D02,不同分類標(biāo)簽的結(jié)果如圖2所示。

        Figure 2 Example of text data classification tag 圖2 文本數(shù)據(jù)分類標(biāo)簽示例

        此方法旨在緩解由于字體差異過大而導(dǎo)致的空心問題。

        本文首先采用單字切割算法對(duì)圖像中的單字進(jìn)行切分。目前,單字切分算法主要有先驗(yàn)知識(shí)法[23]、連通域法[24]和投影法[25]3種。先驗(yàn)知識(shí)法是一種利用漢字字符的標(biāo)準(zhǔn)和規(guī)律的方法,其原理是對(duì)規(guī)范文本的寬度以及間距進(jìn)行估算后對(duì)單字進(jìn)行切分,適用于處理小批量規(guī)范型漢字,但對(duì)于批量處理不同間隔和寬度的文檔圖像缺乏靈活性;連通域法則是根據(jù)圖像領(lǐng)域中的生長(zhǎng)算法設(shè)計(jì)的,該方法可以對(duì)圖像中所有的連通域進(jìn)行查找和抽取,并且能對(duì)一些小的噪聲進(jìn)行過濾,具有較強(qiáng)的抗干擾能力,但此方法在批量處理數(shù)據(jù)時(shí)需耗費(fèi)大量的計(jì)算資源;投影法是通過對(duì)文檔圖像中的有效像素點(diǎn)(與文字同色的像素點(diǎn))進(jìn)行水平和垂直方向上的疊加,利用文本行之間和單字之間有效像素值為零的特點(diǎn)對(duì)單字進(jìn)行切分,該方法思想簡(jiǎn)單且運(yùn)算量合理,對(duì)于規(guī)范的文檔圖像較為適用。由于漢字的結(jié)構(gòu)性特點(diǎn)(如左右結(jié)構(gòu)、左中右結(jié)構(gòu)),投影法容易導(dǎo)致文字的部件分離,如“行”字容易切分為 “彳”和“亍”。根據(jù)先驗(yàn)知識(shí)可知,在文檔圖像中除標(biāo)點(diǎn)符號(hào)外,字符寬度基本趨于一致且呈塊狀,故本文采用先驗(yàn)知識(shí)與投影法相結(jié)合的方法對(duì)單字進(jìn)行切分,具體步驟如下所示:

        步驟1輸入若干文本行;

        步驟2利用垂直投影法獲取當(dāng)前切分寬度的最大值,作為單字固定寬度;

        步驟3將低于固定寬度的字符部件根據(jù)閱讀順序合并為單字圖像。

        3.1.2 mask數(shù)據(jù)集

        本文使用的mask數(shù)據(jù)集為文獻(xiàn)[21]中公開的mask數(shù)據(jù)集和隨機(jī)生成的干擾圖像,并在訓(xùn)練過程之中隨機(jī)對(duì)當(dāng)前mask圖像進(jìn)行拉伸、翻轉(zhuǎn)和裁剪,以保證訓(xùn)練修復(fù)的mask圖像種類足夠充分。

        為對(duì)比不同干擾程度修復(fù)效果之間的差異性,本文使用如式(4)所示的指標(biāo)mrb將mask圖像分為10個(gè)等級(jí),干擾程度隨著等級(jí)的增加而增大。

        (4)

        其中,mrb為mask干擾比,G為滿足干擾條件的像素點(diǎn)數(shù),而H和W分別代表當(dāng)前mask的長(zhǎng)與寬。

        3.2 文字識(shí)別模型框架

        對(duì)文本圖像進(jìn)行修復(fù)的難點(diǎn)是準(zhǔn)確預(yù)測(cè)殘缺漢字的缺失信息,復(fù)原干擾點(diǎn)與文字部件粘合的部分。對(duì)于場(chǎng)景圖像的修復(fù)來說,修復(fù)時(shí)可以依據(jù)干擾圖像邊緣多樣的彩色紋理信息,對(duì)缺失內(nèi)容進(jìn)行預(yù)測(cè),而在文本圖像中干擾圖像邊緣的紋理信息卻沒有那么豐富,因而預(yù)測(cè)缺失的文字部件具有一定難度。

        本文網(wǎng)絡(luò)模型建立于U-Net架構(gòu)之上,分為編碼部分和解碼部分。輸入圖像Iin的大小為CIin×H×W,mask圖像M的大小與Iin相同,其大小為CM×H×W,其中,C為通道數(shù),H和W分別為圖像的高和寬。將Iin和M轉(zhuǎn)為列向量后的個(gè)數(shù)設(shè)為1×n,對(duì)Iin和M進(jìn)行融合,如式(5)所示:

        vGin={xi|xi=vIin[i]+vM[i],i=1,…,n}

        (5)

        其中,vIin是由Iin所轉(zhuǎn)化的列向量,vM是由M所轉(zhuǎn)化的列向量,且vIin∈Rn,vM∈Rn。Gin為Iin和M融合后的圖像,那么vGin則為Gin所轉(zhuǎn)化的列向量,此時(shí)Gin的特征通道數(shù)為CIin+CM。

        根據(jù)設(shè)定的網(wǎng)絡(luò)層數(shù)對(duì)圖像Gin進(jìn)行部分卷積,為使生成的圖像Iout與Iin的大小相等,編碼層部分負(fù)責(zé)提取Gin的特征值與信息,而解碼部分則是將當(dāng)前圖像Inow與其對(duì)應(yīng)編碼層中的特征信息Tnow在通道維度上進(jìn)行拼接,如式(6)所示,對(duì)文字圖像的風(fēng)格進(jìn)行融合與逼近。由上文所述Inow和Tnow的大小相等,設(shè)Inow和Tnow轉(zhuǎn)為列向量后的大小為1×m,那么根據(jù)式(6)將Inow和Tnow進(jìn)行融合后得到Gnow。

        vGnow=[vInow,vTnow]∈R2m

        (6)

        其中,vGnow、vInow和vTnow分別為Gnow、Inow和Tnow所轉(zhuǎn)化的列向量,且vInow∈Rm,vTnow∈Rm。

        在編碼部分和解碼部分分別使用ReLU和Leaky ReLU作為激活函數(shù),除首尾2個(gè)PConv層之外,每個(gè)PConv層和激活層之間都有批量歸一化BN(Batch Normalization)層[26]。卷積核內(nèi)核大小分別為7,5,5,3,3,3,3,3,通道大小分別為64,128,256,512,512,512,512,512,解碼器中包含8個(gè)上采樣層,解碼器中PConv層的輸出通道數(shù)分別是512,512,512,512,256,128,64,3。

        對(duì)于漢字來說長(zhǎng)寬比和內(nèi)部細(xì)節(jié)是重要特性,若圖像尺寸歸一化不當(dāng),會(huì)致使?jié)h字內(nèi)部結(jié)構(gòu)粘合在一起,這樣會(huì)加大后續(xù)識(shí)別難度。對(duì)文本圖像數(shù)據(jù)集的圖像計(jì)算后H∶W最小達(dá)到1∶3.76,依照?qǐng)D像尺寸取整原則,選取H∶W為1∶1,1∶1.5,1∶2,1∶2.5,1∶3和1∶3.5共6種情況。經(jīng)4.2節(jié)實(shí)驗(yàn)后,依據(jù)峰值信噪比PSNR(Peak Signal to Noise Ratio)[27]數(shù)值越大表示失真越小的原則,可知當(dāng)H∶W=1∶3時(shí),能夠取得最優(yōu)效果,經(jīng)計(jì)算后確定輸入圖像尺寸為512×1536,經(jīng)解碼器的8次特征提取后,特征圖尺寸縮小為2×6。根據(jù)上文所述網(wǎng)絡(luò)結(jié)構(gòu)以及輸入圖像尺寸得出圖3所示網(wǎng)絡(luò)架構(gòu)圖,其中“I”代表文本圖像,“M”代表mask圖像。

        Figure 3 Network architecture diagram圖3 網(wǎng)絡(luò)架構(gòu)圖

        3.3 評(píng)價(jià)指標(biāo)

        目前,尚未有針對(duì)于文檔圖像所設(shè)計(jì)的評(píng)價(jià)指標(biāo),考慮到文檔圖像的特殊性,本文采用圖像質(zhì)量評(píng)價(jià)指標(biāo)與識(shí)別率相結(jié)合的方式對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。使用PSNR[27]和結(jié)構(gòu)相似性SSIM[28]對(duì)修復(fù)前后的圖像進(jìn)行評(píng)測(cè),雖在后續(xù)研究中針對(duì)不同分辨率問題,多尺度結(jié)構(gòu)相似性[28]的評(píng)估效果更優(yōu),但它基于人為設(shè)定的經(jīng)驗(yàn)值,無法客觀評(píng)價(jià)圖像的復(fù)原效果。同時(shí),在有不規(guī)則干擾的文字圖像中,基于多尺度結(jié)構(gòu)相似性評(píng)估的方法的文字識(shí)別準(zhǔn)確率會(huì)大大降低,通過本文算法對(duì)文檔圖像進(jìn)行修復(fù)后,識(shí)別準(zhǔn)確率的變化可更直觀地體現(xiàn)出算法的有效性,因此本文采用修復(fù)前后的文字識(shí)別率對(duì)算法的復(fù)原效果進(jìn)行判定。

        PSNR用于計(jì)算原始圖像與修復(fù)圖像之間的信噪比,是基于誤差敏感且使用最廣泛的一種客觀評(píng)價(jià)指標(biāo)。定義一個(gè)大小為m×n的干凈圖像S和噪聲圖像K,均方誤差MSE的定義如式(7)所示:

        (7)

        而PSNR(dB)則通過MSE得到,如式(8)所示:

        (8)

        其中,MAXS為圖像S可能的最大像素值。

        SSIM是一種衡量原始圖像與修復(fù)圖像相似程度的指標(biāo),結(jié)構(gòu)相似性的基本原理是,認(rèn)為自然圖像是高度結(jié)構(gòu)化的,即相鄰像素間具有很強(qiáng)的關(guān)聯(lián)性,而這種關(guān)聯(lián)性表達(dá)了場(chǎng)景中物體的結(jié)構(gòu)性。SSIM取值為[0,1],值越大表示圖像失真越小。設(shè)x和y為原始圖像與修復(fù)圖像,那么其亮度l(x,y)、對(duì)比度c(x,y)和結(jié)構(gòu)s(x,y)之間的關(guān)系分別為:

        (9)

        (10)

        (11)

        SSIM(x,y)=[l(x,y)α·c(x,y)β·s(x,y)γ]

        (12)

        將參數(shù)σ,β,γ均設(shè)為1,可得:

        (13)

        3.4 損失函數(shù)

        在計(jì)算損失值LOSS時(shí),定義Iin為帶有干擾的文字圖像,M為初始的二進(jìn)制mask,Iout為經(jīng)過網(wǎng)絡(luò)預(yù)測(cè)后的輸出圖像,Igt為期望得到的原始文字圖像。

        首先定義逐像素LOSS(Per-pixel Loss)為:

        (14)

        (15)

        其中,NIgt表示圖像Igt之中特征大小為C×H×W,Lhole和Lvalid分別代表有效像素區(qū)域和無效像素區(qū)域的網(wǎng)絡(luò)輸出損失。

        根據(jù)文獻(xiàn)[29],將感知LOSS定義為:

        (16)

        然后,計(jì)算Icomp和Iout類型損失項(xiàng),如式(17)和式(18)所示:

        (17)

        (18)

        定義總體變化TV(Total Variation)損失為L(zhǎng)tv,如式(19)所示:

        (19)

        最后,將上述損失項(xiàng)根據(jù)文獻(xiàn)[21]進(jìn)行結(jié)合后得到Ltotal,如式(20)所示:

        Ltotal=Lvalid+6Lhole+0.05Lperceptual+

        120(Lstyleout+Lstylecomp)+0.1Ltv

        (20)

        4 實(shí)驗(yàn)與結(jié)果分析

        4.1 mask數(shù)據(jù)集

        根據(jù)式(4)所計(jì)算出的mrb值,將mask數(shù)據(jù)集分為A~J共10類,如表1所示,表中mrbmin為當(dāng)前等級(jí)的mrb值下限,mrbmax為當(dāng)前等級(jí)的mrb值上限,Train和Test欄分別代表當(dāng)前訓(xùn)練集和測(cè)試集中的圖像數(shù)。其中訓(xùn)練集共有55 219幅,測(cè)試集共有12 060幅。根據(jù)表1進(jìn)行分類后,A~J各個(gè)等級(jí)示例圖像如圖4所示,其中白色像素點(diǎn)為干擾部分。

        Table 1 Statistics table of different grade images表1 不同等級(jí)圖像統(tǒng)計(jì)表

        Figure 4 Example of interference level division圖4 干擾等級(jí)劃分示例

        4.2 選取輸入尺寸

        本文對(duì)文本數(shù)據(jù)集圖像的長(zhǎng)寬比進(jìn)行計(jì)算之后,選取1∶1,1∶1.5,1∶2,1∶2.5,1∶3和1∶3.5共6種情況,使用相同數(shù)據(jù)集進(jìn)行測(cè)試得出表2,測(cè)試結(jié)果顯示當(dāng)H∶W=1∶3時(shí)取得較優(yōu)效果,因而確定輸入圖像大小為512×1536。

        Table 2 Experimental results of different proportions of width and height表2 不同寬高比的實(shí)驗(yàn)結(jié)果

        4.3 實(shí)驗(yàn)過程

        首先對(duì)單幅圖像進(jìn)行預(yù)訓(xùn)練,將訓(xùn)練所得的權(quán)重值作為批量訓(xùn)練初始值,以加快訓(xùn)練模型的收斂速度,每輪訓(xùn)練2 000次,共訓(xùn)練10輪,此時(shí)LOSS=0.852,PSNR=21.1893 dB,預(yù)訓(xùn)練修復(fù)效果如圖5所示。

        Figure 5 Prediction results of single text image 圖5 單幅文字圖像預(yù)測(cè)結(jié)果

        在mask數(shù)據(jù)集不考慮旋轉(zhuǎn)、翻轉(zhuǎn)和裁剪的前提下,各個(gè)等級(jí)的干擾圖像與文字圖像進(jìn)行融合后,產(chǎn)生的數(shù)據(jù)量分別為:訓(xùn)練集249 600幅、驗(yàn)證集10 160幅以及測(cè)試集16 500幅。分別將10個(gè)等級(jí)的干擾文字圖像數(shù)據(jù)集各訓(xùn)練30輪,使用BN層進(jìn)行歸一化,每輪訓(xùn)練10 000次,共訓(xùn)練20輪,無BN層的情況下每輪訓(xùn)練5 000次,共訓(xùn)練10輪。最后將不同程度干擾的干擾文字圖像數(shù)據(jù)集進(jìn)行混合共訓(xùn)練55輪,其中經(jīng)過BN層規(guī)一化的數(shù)據(jù)集每輪訓(xùn)練10 000次,共訓(xùn)練40輪,無BN層情況下每輪訓(xùn)練5 000次,共訓(xùn)練15輪。為實(shí)現(xiàn)數(shù)據(jù)集的定量實(shí)驗(yàn),使用同一訓(xùn)練集對(duì)各個(gè)等級(jí)的干擾進(jìn)行訓(xùn)練。由實(shí)驗(yàn)結(jié)果可知,本文算法在A等級(jí)時(shí)分別取得訓(xùn)練集、驗(yàn)證集和測(cè)試集的最佳效果,其中PSNR值最高達(dá)到32.46 dB,SSIM值最高達(dá)到0.954,LOSS值最低達(dá)到0.015。隨著干擾程度的加深,PSNR值和SSIM值呈下降趨勢(shì),在LOSS值的約束下模型達(dá)到較好的收斂效果。對(duì)于污染程度達(dá)到F~J的干擾圖像來說,對(duì)殘損文字圖像并沒有因?yàn)榉诸愑?xùn)練而達(dá)到理想的修復(fù)效果,且評(píng)價(jià)指標(biāo)低于混合掩碼的評(píng)價(jià)指標(biāo)。結(jié)合圖6的各個(gè)等級(jí)修復(fù)效果圖,通過主觀視覺可得知本文算法可對(duì)字體的內(nèi)部細(xì)節(jié)做出預(yù)測(cè),且修復(fù)邊緣平滑自然。由于漢字圖像的特殊性,修復(fù)前后圖像在亮度、對(duì)比度和結(jié)構(gòu)上沒有明顯差異,因而不同等級(jí)之間的SSIM值對(duì)于文字圖像的區(qū)分度較小。選取各個(gè)等級(jí)訓(xùn)練中訓(xùn)練集、驗(yàn)證集和測(cè)試集上的最優(yōu)評(píng)價(jià)結(jié)果,統(tǒng)計(jì)后可得表3。前15輪各個(gè)等級(jí)圖像在訓(xùn)練集、驗(yàn)證集上的LOSS和PSNR的變化情況如圖7所示。

        各個(gè)等級(jí)圖像去干擾效果如圖6所示,其中每類圖像從上到下的排列順序?yàn)榧訑_圖像、修復(fù)圖像和原始圖像。由實(shí)驗(yàn)結(jié)果可知,本文模型能夠根據(jù)已有筆畫細(xì)節(jié)對(duì)缺失部分進(jìn)行預(yù)測(cè),并保持缺失漢字的字體形狀和筆畫走向,對(duì)于完全遮擋的漢字(如:J類),在人工也無法辨明的情況下,本文模型在盡可能去除干擾的前提下同樣也進(jìn)行了預(yù)測(cè)。

        Table 3 Comparison of experimental results at different levels表3 不同等級(jí)實(shí)驗(yàn)結(jié)果對(duì)比

        Figure 6 Decontamination effect diagram of each level image 圖6 各等級(jí)圖像去干擾效果圖

        Figure 7 Changes of LOSS and PSNR for the first 15 Epochs圖7 前15輪LOSS和PSNR變化圖

        對(duì)于文字來說,內(nèi)部細(xì)節(jié)微小的誤差會(huì)導(dǎo)致誤識(shí)字和拒識(shí)字,為驗(yàn)證本文模型對(duì)于殘缺漢字內(nèi)部細(xì)節(jié)的修復(fù)是否有效,本節(jié)通過修復(fù)前后識(shí)別率的變化對(duì)修復(fù)效果進(jìn)行評(píng)估。隨機(jī)選取測(cè)試結(jié)果不同干擾等級(jí)各100幅,共計(jì)1 000幅圖像,將加擾圖像和對(duì)應(yīng)的修復(fù)圖像放入百度OCR接口,進(jìn)一步計(jì)算識(shí)別準(zhǔn)確率的變化情況,為便于展示本文僅給出前120次識(shí)別結(jié)果,如圖8所示,在此處識(shí)別率定義為識(shí)別正確字符數(shù)與總字符數(shù)的比值。由實(shí)驗(yàn)結(jié)果可知,百度OCR對(duì)于有干擾的圖像的平均識(shí)別率約為62.29%,而本文模型對(duì)圖像修復(fù)后識(shí)別率約為90.14%,相較于未修復(fù)圖像識(shí)別率提升了約27.85%。該實(shí)驗(yàn)表明,通過本文模型所修復(fù)出的文字部件對(duì)于提升漢字識(shí)別率是有效的。

        Figure 8 Baidu OCR recognition rate changes before and after interference removal圖8 去干擾前后百度OCR識(shí)別率變化圖

        結(jié)合上述實(shí)驗(yàn)結(jié)果觀察可知,模擬漢字圖像通過前期實(shí)驗(yàn)達(dá)到了較好的修復(fù)效果。本文算法除了可以修復(fù)日常生活中被污染的印刷體文檔外,還可應(yīng)用于古籍碑刻以及書法拓片的修復(fù),該項(xiàng)任務(wù)的探究在文字修復(fù)領(lǐng)域具有一定的研究意義。以下工作是本文對(duì)古代文字圖像修復(fù)的探索。受各種因素的影響,國(guó)內(nèi)對(duì)于這類珍貴文字圖像的研究鮮為人知,針對(duì)它的數(shù)據(jù)庫(kù)更是寥寥無幾。本文聯(lián)合云南師范大學(xué)漢語(yǔ)言文學(xué)專業(yè)人員分別梳理出隸書、篆書、甲骨文、行書4種書法字帖圖像,構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集。此次實(shí)驗(yàn)旨在模擬缺少真實(shí)古代文字?jǐn)?shù)據(jù)集的情況下,盡可能還原現(xiàn)實(shí)環(huán)境中古代文字的磨損情況以及修復(fù)過程和實(shí)驗(yàn)結(jié)果。上述實(shí)驗(yàn)和結(jié)果已表明該模型對(duì)于簡(jiǎn)體漢字圖像的有效性,接下來將此模型進(jìn)一步應(yīng)用于古代文字圖像的修復(fù)之中,將4種書法字體的古代文字圖像數(shù)據(jù)集采用相同的干擾掩碼數(shù)據(jù)集進(jìn)行融合,充分模擬真實(shí)環(huán)境下的磨損和風(fēng)化情況。為增強(qiáng)模型對(duì)多風(fēng)格文字和干擾的修復(fù)能力,每類字體的干擾文字圖像數(shù)據(jù)量分別為:訓(xùn)練集10 000幅,驗(yàn)證集4 000幅,測(cè)試集6 000幅。訓(xùn)練方法與上述實(shí)驗(yàn)保持一致,對(duì)各個(gè)等級(jí)mask圖像和混合等級(jí)mask圖像進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,本文模型在修復(fù)甲骨文時(shí)取得了最優(yōu)效果,PSNR值為30.15 dB,且SSIM值為0.964,分析后可知,甲骨文相較于其他古代文字來說年代久遠(yuǎn)、種類較少、字與字之間間隔較大,本文模型對(duì)于等級(jí)較低的污染具有較好的修復(fù)效果。表4給出了各等級(jí)最優(yōu)結(jié)果。

        Figure 9 Inpainting effects on different fonts圖9 對(duì)不同字體的修復(fù)效果

        古代文字修復(fù)效果如圖9所示,其中每類從上到下排列順序?yàn)榧訑_圖像、修復(fù)圖像和原始圖像。由實(shí)驗(yàn)結(jié)果可知,對(duì)于不同種類的古代文字,本文模型可以根據(jù)不同種類的字體類型做出預(yù)測(cè),對(duì)缺失字體進(jìn)行修復(fù),結(jié)合主觀視覺觀察可知,修復(fù)的文字部件與當(dāng)前字體風(fēng)格一致。

        Table 4 Statistical results of objective evaluation indicators of archaic writing表4 古代文字客觀評(píng)價(jià)指標(biāo)的統(tǒng)計(jì)結(jié)果

        5 結(jié)束語(yǔ)

        本文基于U-Net框架和PConv運(yùn)算建立文字圖像修復(fù)模型,旨在解決由于各種不規(guī)則干擾而造成字符破損,導(dǎo)致識(shí)別準(zhǔn)確率下降的問題,同時(shí)使用古代文字字體進(jìn)行訓(xùn)練并達(dá)到了良好的效果,為修復(fù)書法、碑刻等文字作品的殘缺筆畫提供了可行方案。本文根據(jù)測(cè)試圖像的字體、形狀和筆畫走向?qū)ξ淖秩笔Р糠诌M(jìn)行預(yù)測(cè),PSNR最高達(dá)到32.46 dB,SSIM最高為0.954,LOSS最佳達(dá)到0.015。為研究對(duì)不同等級(jí)圖像的修復(fù)效果,本文將mask 分為A~J 10個(gè)等級(jí),使用同等的訓(xùn)練環(huán)境對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練,測(cè)試結(jié)果表明,各個(gè)等級(jí)之間的差值隨著等級(jí)的升高而逐漸變小,對(duì)于E、F、G、H、I、J等級(jí)來說,使用混合mask訓(xùn)練效果更佳。將各個(gè)等級(jí)的干擾圖像和對(duì)應(yīng)的修復(fù)圖像的測(cè)試結(jié)果放入百度OCR進(jìn)行測(cè)試后,修復(fù)圖像的識(shí)別率提升了27.85%。最后使用隸書、篆書、甲骨文和行書4種古代文字字體,使用本文模型進(jìn)行訓(xùn)練后,PSNR達(dá)到30.46 dB,SSIM最高為0.964,實(shí)驗(yàn)表明該模型可針對(duì)不同古代漢字字體風(fēng)格的殘缺情況,對(duì)破損圖像進(jìn)行修復(fù)并取得良好效果。

        猜你喜歡
        文檔卷積文字
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        文字的前世今生
        有人一聲不吭向你扔了個(gè)文檔
        熱愛與堅(jiān)持
        當(dāng)我在文字中投宿
        文苑(2020年12期)2020-04-13 00:55:10
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        午夜视频在线观看日本| 最近中文av字幕在线中文| 亚洲AV无码成人精品区网页| 国产大全一区二区三区| 国产一品二品精品在线| 国精产品一区一区三区有限公司杨| 亚洲人成无码网站久久99热国产| 亚洲女同系列高清在线观看 | 人妻无码Aⅴ中文系列| 久久婷婷夜色精品国产| 亚洲精品女同一区二区三区| 偷拍激情视频一区二区三区| 欧美极品少妇性运交| 99日本亚洲黄色三级高清网站| 国产精品久久av色婷婷网站 | 高清不卡av一区二区| 亚洲av永久无码一区二区三区| 无码专区久久综合久中文字幕| 久久人妻av无码中文专区| 水蜜桃男女视频在线观看网站| 制服丝袜中文字幕在线 | 白丝美女被狂躁免费视频网站| 亚洲综合一区二区三区久久| 久久久久99精品成人片| 亚洲综合av在线在线播放| 无码流畅无码福利午夜| 久久国产在线精品观看| 精品人妻伦九区久久aaa片| 精品人妻无码中文字幕在线| 日本午夜伦理享色视频| 中文人妻熟女乱又乱精品| 超薄肉色丝袜一区二区| 亚洲av噜噜狠狠蜜桃| 亚洲色图视频在线免费看| 无码人妻久久一区二区三区不卡| 呦泬泬精品导航| 中文字幕日韩精品永久在线| 国产人妻人伦精品1国产| 国产精品一区二区在线观看99| 加勒比久草免费在线观看| 无码一区二区三区|