亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文字圖像不規(guī)則干擾修復(fù)算法研究

        2021-07-08 09:06:08瞿于荃杜慶治邵玉斌
        關(guān)鍵詞:文本實(shí)驗(yàn)

        段 熒,龍 華,2,瞿于荃,杜慶治,2,邵玉斌,2

        1(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650000)2(昆明理工大學(xué) 云南省計(jì)算機(jī)重點(diǎn)實(shí)驗(yàn)室,昆明 650000)

        1 引 言

        文字是人類信息最重要的載體和最集中的表象,記載了幾千年人類的文明和歷史,對中華文明的傳承和發(fā)展起著極其關(guān)鍵的作用.當(dāng)前,文檔圖像中如果僅包含文字,尤其是印刷體文字的OCR(Optical Character Recognition,光學(xué)字符識(shí)別)已在各種領(lǐng)域中得到應(yīng)用.然而,隨著歷史更迭發(fā)展,部分碑刻作品以及書畫作品在流傳過程中,由于各種不穩(wěn)定的保存因素,導(dǎo)致作品遭受不同程度的污損,比如自然的老化、發(fā)霉受潮、污跡遍布、動(dòng)物撕咬、風(fēng)雨侵蝕、人為損壞等等,這些種種因素均會(huì)使字跡變得模糊不清或者局部殘缺.針對文物字畫和碑刻作品的破損書法作品,使用傳統(tǒng)的手工修復(fù)方法不僅流程繁復(fù)[1-3]而耗時(shí)較長,除了考究修復(fù)人員高超的復(fù)原技術(shù)和耐心之外,還要求對歷史事實(shí)持有科學(xué)而又嚴(yán)謹(jǐn)?shù)膽B(tài)度.文本圖片的干擾修復(fù)同樣也具有現(xiàn)實(shí)意義,在識(shí)別文本圖片時(shí)大多數(shù)文檔都無法達(dá)到理想狀態(tài),并且經(jīng)常包含各種干擾信息,例如當(dāng)人們在原始文檔上留下橫線等來標(biāo)記文檔中的重要內(nèi)容,或者文檔本身就存在各種橫線表示需要填寫信息或者其他提醒時(shí),文檔圖像的OCR的識(shí)別率會(huì)急劇下降.雖然可以通過二值化[4]等算法進(jìn)行預(yù)處理,但是對于與文字進(jìn)行粘連的干擾部分卻依舊無法進(jìn)行處理[5],對于不能識(shí)別的拒識(shí)字也有學(xué)者利用上下文信息的相關(guān)性進(jìn)行后處理[6,7],進(jìn)一步地提高準(zhǔn)確率,當(dāng)初步識(shí)別效果較差時(shí)該方法并不能顯著地提升準(zhǔn)確率,并且它依賴一個(gè)健全的候選字庫以及上下文信息(即語言學(xué)知識(shí))的運(yùn)用.因此如何有效地去除干擾,對于減少文檔圖片拒識(shí)字,提升識(shí)別準(zhǔn)確率具有不容忽視的作用,同時(shí)也向修復(fù)污損的文字作品提供了新的思路.

        目前,文檔圖像去除干擾的工作可以分為兩類,一是類似于表格或是下劃線與文字信息沒有粘連的干擾,如Imtiaz等人[8]利用滑動(dòng)窗口中的熵來判斷當(dāng)前區(qū)域中是否包含干擾線,以達(dá)到去除規(guī)則干擾線條的目的,對于此類干擾可利用線條的結(jié)構(gòu)性特征進(jìn)行去除.而另一類則是與文字信息產(chǎn)生粘連的干擾,如Banerjee等人[9]使用連通元檢測干擾線區(qū)域,并對與文字粘連的干擾線進(jìn)行了進(jìn)一步的處理,但此方法仍然是針對線條類的干擾.而對于不規(guī)則圖案的干擾,此類算法卻沒有很好的泛化性.近年來,基于深度學(xué)習(xí)網(wǎng)絡(luò)的圖像修復(fù)(Image Inpainting)發(fā)展迅速,在2016年的CVPR會(huì)議上,Pathak D等人[10]結(jié)合CNN和GAN網(wǎng)絡(luò)首次提出圖像修復(fù)算法.在此算法的基礎(chǔ)之上許多作者也提出了改進(jìn)算法[11,12],但此類方法的修復(fù)只是集中于圖像中心的矩形區(qū)域,如:Pathak D等人[10]和Yang等人[13]假設(shè)的干擾圖案是一個(gè)大小為64×64的矩形框,且位于128×128的圖像中心,此類方法不適用于去除文檔圖片之中的不規(guī)則干擾圖案.而Iizuka等人[14]和Yu等人[15]則突破了中心矩形框的干擾假設(shè)提出對不規(guī)則圖案進(jìn)行修復(fù),但此類算法往往需要依賴復(fù)雜的后處理,例如:Iizuka等人[14]采用快速行進(jìn)算法[16](Fast Marching)和泊松融合[17](Poisson Image Blending)的方法對圖像進(jìn)行修復(fù),而Yu等人[15]則通過后處理優(yōu)化網(wǎng)絡(luò)對原始預(yù)測結(jié)果進(jìn)行進(jìn)一步的優(yōu)化.此外,還有利用非缺失部分的圖像統(tǒng)計(jì)信息來填充缺失部分的修復(fù)算法[18,19],但這樣的搜索需要耗費(fèi)大量的計(jì)算成本,雖然之后提出了更快的Patch搜索算法—PatchMatch[20],但其處理速度仍無法滿足實(shí)時(shí)應(yīng)用的需求且不能進(jìn)行語義感知的Patch選擇.NVIDIA公司Liu等人[21]所提出的PConv(Partial Convolution,PConv)層使用傳統(tǒng)的卷積網(wǎng)絡(luò),不依賴額外的后處理,通過不斷學(xué)習(xí)缺失區(qū)域和原始照片,對不規(guī)則的干擾部分進(jìn)行修復(fù),文章通過一系列的實(shí)驗(yàn)研究表明Pconv方法優(yōu)于PatchMatch[20],GL[14],GntIpt[15]等方法,該論文使用堆疊的部分卷積運(yùn)算和自動(dòng)掩碼更新步驟(Automatic Mask Update Step)來執(zhí)行圖像修復(fù),論證了圖片需要修補(bǔ)的部分會(huì)隨著層數(shù)的增加和更新而消失,因而該方法不受限于修復(fù)任何形狀或紋理的干擾圖像修復(fù).2019年,Yu等人[22]提出使用門控卷積(GatedConv)對圖像進(jìn)行修復(fù),該方法采用了和CA模型類似的粗細(xì)兩級網(wǎng)絡(luò),粗網(wǎng)絡(luò)先對污損圖像進(jìn)行粗略修復(fù),而細(xì)網(wǎng)絡(luò)則對細(xì)部特征進(jìn)行修復(fù).經(jīng)本文實(shí)驗(yàn)研究表明,GatedConv雖然相較于Liu等人[21]的方法修復(fù)效果有一定的提升,但卻在訓(xùn)練過程中損失了大量計(jì)算資源和時(shí)長.

        針對文字圖片、碑刻或書法作品中污損紋理以及顏色是不唯一、不固定的特點(diǎn),將文獻(xiàn)[21]和文獻(xiàn)[22]應(yīng)用于不規(guī)則干擾文字圖片數(shù)據(jù)庫,分析并對比兩者的復(fù)原效果后,提出基于U-Net框架和部分卷積的文本圖片修復(fù)算法.針對常見字體建立文字圖片修復(fù)模型,用于修復(fù)因各種不規(guī)則干擾而造成的字符污損,導(dǎo)致識(shí)別準(zhǔn)確率下降的問題,并在嘗試在古代文字圖片上應(yīng)用此模型,為進(jìn)一步修復(fù)書法、碑刻等文字作品的污損文字進(jìn)行理論及實(shí)踐的研究.

        2 相關(guān)工作

        2.1 PConv

        NVIDIA在2018年ICLR會(huì)議上發(fā)表了PConv層[21]對圖像進(jìn)行修復(fù)的成果,此文章的對于圖像修復(fù)領(lǐng)域的貢獻(xiàn)如下:

        1)提出了帶有自動(dòng)掩碼更新步驟的部分卷積層;

        2)使用跳躍式連接的典型卷積U-Net架構(gòu)獲得了良好的修復(fù)效果,并以此得到最新的修復(fù)效果;

        3)該方法首次證明了修補(bǔ)不規(guī)則干擾圖案在圖像修復(fù)領(lǐng)域是行之有效的;

        4)公開了大型不規(guī)則mask數(shù)據(jù)集,可用于后續(xù)的訓(xùn)練以及評估模型.

        將PConv層表示為:

        (1)

        自動(dòng)掩碼更新步驟如式(2)所示:

        (2)

        將輸入圖像包含滿足至少一個(gè)條件的像素點(diǎn),標(biāo)記為有效像素.在部分卷積層有足夠的連續(xù)應(yīng)用的情況下,不斷修復(fù)圖像直至所有mask為1,即表示圖像修復(fù)完成.

        2.2 GatedConv

        Yu等人[22]提出使用門控卷積(GatedConv)對圖像進(jìn)行修復(fù),不同于部分卷積的硬門控掩碼更新策略,門控卷積是從數(shù)據(jù)中自動(dòng)學(xué)習(xí)軟掩碼,如下式所示:

        Gatingy,x=∑∑Wg·I

        (3)

        Gatingy,x=∑∑Wf·I

        (4)

        Oy,x=φ(Featurey,x)·σ(Gatingy,x)

        (5)

        其中σ是sigmoid函數(shù),因此輸出門值在0和1之間,φ可以是任意激活函數(shù)如ReLU、ELU和LeakyReLU.Wg和Wf是兩個(gè)不同的卷積濾波器.

        2.3 U-Net

        2006年在Hinton提出的深度信念網(wǎng)絡(luò)(DBN)[23]中首次提出編碼器-解碼器思路,而U-Net則是基于此結(jié)構(gòu)建立的.U-Net網(wǎng)絡(luò)模型大多數(shù)情況下是應(yīng)用于醫(yī)學(xué)圖像分割領(lǐng)域,網(wǎng)絡(luò)形狀呈現(xiàn)為U型故命名為U-Net.在U-Net網(wǎng)絡(luò)結(jié)構(gòu)中編碼器作用是對輸入圖像的特征進(jìn)行提取,降采樣的理論意義是增加對輸入圖像的一些小擾動(dòng)的魯棒性,比如圖像平移、旋轉(zhuǎn)等,減少過擬合的風(fēng)險(xiǎn)并降低運(yùn)算量,同時(shí)增加感受野的大小.降采樣的特征圖與同維度大小的上采樣特征圖通過跳躍連接(Skip Connection)將高低層次的特征進(jìn)行融合,即使在樣本量較少的情況下也能達(dá)到較好的效果,且運(yùn)算速度快.而解碼器則是利用前面編碼的抽象特征來恢復(fù)到原圖尺寸的過程,最終得到去除干擾后的結(jié)果.

        除語義分割外U-Net網(wǎng)絡(luò)結(jié)構(gòu)可用于原圖像去噪,在訓(xùn)練階段使原圖與噪聲進(jìn)行融合后放入編碼解碼器中,目標(biāo)則是對加擾圖片進(jìn)行還原后得到原圖.

        3 本文算法

        3.1 數(shù)據(jù)采集

        目前就深度學(xué)習(xí)來說,并沒有完整公開的中文文檔識(shí)別數(shù)據(jù)集或者書法作品數(shù)據(jù)集,因此如何構(gòu)建訓(xùn)練測試數(shù)據(jù)成為主要任務(wù).在數(shù)據(jù)集的準(zhǔn)備過程中主要分為文本圖片數(shù)據(jù)集和mask數(shù)據(jù)集.

        3.1.1 文本圖片數(shù)據(jù)集

        目前,污損文字修復(fù)主要面臨問題是:

        1.文字的載體和字體眾多,只能依靠書畫修復(fù)保護(hù)專家或者技術(shù)工人,利用其精湛的人工技術(shù)水平來達(dá)到理想的效果,修復(fù)過程耗時(shí)費(fèi)力;

        2.對于流傳作品較為稀少的名家,專業(yè)人員很難完美臨摹其風(fēng)骨,且對修復(fù)人員的要求極高;

        3.對于極其珍貴或被奉為孤本的書畫作品來說,手工修復(fù)難免會(huì)造成二次傷害.在文本圖片數(shù)據(jù)集的采集過程之中,應(yīng)盡可能地貼合實(shí)際情況,滿足如下需求:

        1)字體的多樣性.由于歷史因素、刊物出版和應(yīng)用場景等不同應(yīng)用場景,字體往往是不唯一的.考慮此原因本文選取基本的漢字字體進(jìn)行數(shù)據(jù)制作,如:宋體、楷體、黑體等若干常見字體;

        2)文字具有關(guān)聯(lián)性.文字的出現(xiàn)是為了滿足人類交流的需求,尤其是具有歷史價(jià)值和意義的碑文拓片以及書畫作品,往往不是以單字的形式存在,而是根據(jù)當(dāng)時(shí)的語言規(guī)則進(jìn)行組合且攜帶有一定的信息量,以篇章的形式進(jìn)行流傳.而現(xiàn)代數(shù)字化的文本圖片,更多的也是起到信息傳遞的作用,所以在采集文本圖片時(shí)應(yīng)選取具有關(guān)聯(lián)性的文字.本文文本圖片在文字內(nèi)容上,選取4種具有關(guān)聯(lián)性的常見體裁:白話文、詩詞、散文和譯文;

        3)字號(hào)大小和字體粗細(xì)的隨機(jī)性.由于掃描、排版等影響,文本圖片的字體大小以及粗細(xì)程度并不是統(tǒng)一的.本文在采集文本圖片數(shù)據(jù)時(shí),對字號(hào)以及生成圖片的大小不做限定.

        3.1.2 mask數(shù)據(jù)集

        本文使用的mask數(shù)據(jù)集為文獻(xiàn)[21]之中公開的mask數(shù)據(jù)集和隨機(jī)生成的干擾圖案,并在訓(xùn)練過程之中隨機(jī)對當(dāng)前mask圖片進(jìn)行拉伸,翻轉(zhuǎn)以及裁剪,以此保證訓(xùn)練修復(fù)的mask種類足夠充分.

        為測試對比不同干擾程度修復(fù)效果之間的差異性,本文通過使用式(6)的指標(biāo)mrb將mask分為10個(gè)等級,干擾程度隨著等級的增加而增大.

        (6)

        上式,將函數(shù)mrb定義為mask干擾比,G表示的是滿足干擾條件的像素點(diǎn)數(shù),而H和W分別代表當(dāng)前mask的長與寬.3.2 文字圖片修復(fù)框架

        本文通過將干擾圖片數(shù)據(jù)集放入文獻(xiàn)[21]和文獻(xiàn)[22]中進(jìn)行實(shí)驗(yàn)后分析實(shí)驗(yàn)結(jié)果,根據(jù)文字修復(fù)的特點(diǎn)提出文字圖片修復(fù)算法.本文網(wǎng)絡(luò)模型建立于U-Net架構(gòu)之上,分為編碼部分和解碼部分.輸入圖像Iin的大小為CIin×H×W,mask圖片M的大小與Iin相同,其大小為CM×H×W.將Iin和M轉(zhuǎn)為列向量后的個(gè)數(shù)設(shè)為n×1,如式(7)所示對Iin和M進(jìn)行融合:

        vGin{xi|xi=vIin[i]+vM[i],i=1,…,n}

        (7)

        其中vIin是由Iin所轉(zhuǎn)化的列向量,vM是由M所轉(zhuǎn)化的列向量,且vIin∈Rn,vM∈Rn.Gin為Iin和M融合后的圖像,那么vGin則為Gin所轉(zhuǎn)化的列向量,此時(shí)Gin的特征通道數(shù)為CIin+CM.

        根據(jù)設(shè)定的網(wǎng)絡(luò)層數(shù)對圖像Gin進(jìn)行部分卷積,為使生成圖像Iout與Iin的大小相等,編碼層部分負(fù)責(zé)提取Gin的特征值與信息,而解碼部分則是將當(dāng)前圖片Inow與其對應(yīng)編碼層中的特征信息量Tnow在通道維度上進(jìn)行拼接,如式(8)所示,對文字圖片的風(fēng)格進(jìn)行融合與逼近.由上文所述Inow和Tnow的大小相等,設(shè)Inow和Tnow轉(zhuǎn)為列向量后的大小為m×1,那么根據(jù)式(8)將Inow和Tnow進(jìn)行融合后得到Gnow.

        vGnow=[vInow,vTnow]∈R2m

        (8)

        其中,vGnow,vInow,vTnow為Gnow,Inow,Tnow所轉(zhuǎn)化的列向量,且vInow∈Rm,vTnow∈Rm.

        在編碼部分和解碼部分分別使用ReLU和Leaky ReLU作為激活函數(shù),除首尾兩個(gè)PConv層之外,每個(gè)PConv層和激活層之間使用批量歸一化(Batch Normalization,BN)層[24].卷積核內(nèi)核大小分別為7、5、5、3、3、3、3、3,通道大小分別為64、128、256、512、512、512、512、512,解碼器中包含8個(gè)上采樣層,解碼器中PConv層的輸出通道分別是512、512、512、512、256、128、64、3.

        對于漢字來說長寬比和內(nèi)部細(xì)節(jié)是重要特性,若圖像尺寸歸一化不當(dāng),會(huì)致使?jié)h字內(nèi)部結(jié)構(gòu)粘合在一起,這樣會(huì)加大后續(xù)識(shí)別難度.將圖片寬度統(tǒng)一設(shè)為512后,經(jīng)解碼部分的8次減半后最小達(dá)到2.對文本圖片數(shù)據(jù)集的圖片計(jì)算后H:W最小達(dá)到1:3.76,依照圖像尺寸取整原則,選取H:W為1:1、1:1.5、1:2、1:2.5、1:3和1:3.5這6種情況.經(jīng)4.2節(jié)實(shí)驗(yàn)后,依據(jù)峰值信噪比(Peak Signal to Noise Ratio,PSNR)[25]數(shù)值越大表示失真越小的原則,可知當(dāng)H:W=1:3時(shí),能夠取得最優(yōu)效果,經(jīng)計(jì)算后確定輸入圖片尺寸為512×1536.根據(jù)上文所述網(wǎng)絡(luò)結(jié)構(gòu)以及輸入圖片尺寸得出圖1,其中白色方框“I”代表文本圖片,“M”代表mask圖片.

        圖1 網(wǎng)絡(luò)架構(gòu)圖Fig.1 Network architecture diagram

        3.3 損失函數(shù)

        在計(jì)算損失值(LOSS)時(shí),定義Iin為帶有干擾的文字圖像,M為初始的二進(jìn)制mask,Iout為經(jīng)過網(wǎng)絡(luò)預(yù)測后的輸出圖片,Igt為期望得到的原始文字圖像.

        首先定義逐像素LOSS(Per-pixel Loss)為:

        (9)

        (10)

        其中NIgt表示Igt之中的C×H×W,式(9)和式(10)分別代表L1在干擾和非干擾部分的網(wǎng)絡(luò)輸出損失.

        為獲取更為清晰的圖像,提升生成圖像的感知效果,映入

        文獻(xiàn)[26]中的感知LOSS,將其定義為:

        (11)

        定義全變分損失(Total Variation,TV)為Ltv,如式(12)所示:

        (12)

        其中R是干擾區(qū)域的0像素的膨脹區(qū)域.

        在對文本圖片進(jìn)行修復(fù)時(shí),處理難點(diǎn)是準(zhǔn)確預(yù)測殘缺漢字的缺失信息,復(fù)原干擾點(diǎn)與文字部件粘合的部分.對于場景圖片的修復(fù)來說,修復(fù)時(shí)可以依據(jù)干擾圖案邊緣多樣的彩色紋理信息,對缺失內(nèi)容進(jìn)行預(yù)測,而在文本圖片中干擾圖案邊緣的紋理信息卻沒有那么豐富,因而在預(yù)測缺失的文字部件時(shí)與場景圖片有一定區(qū)別.在構(gòu)建損失函數(shù)時(shí),本文相較于文獻(xiàn)[21]舍棄了復(fù)雜的多超參數(shù),并結(jié)合干擾文本數(shù)據(jù)集的特點(diǎn),通過對比實(shí)驗(yàn)4.3.2將損失函數(shù)確定為:

        Ltotal=Lvalid+Lhole+0.01Lperceptual+0.1Ltv

        (13)

        4 實(shí)驗(yàn)與結(jié)果

        4.1 mask數(shù)據(jù)集

        將mask數(shù)據(jù)集根據(jù)式(6)所計(jì)算出的mrb值,將mask數(shù)據(jù)集分為A-J共10類,如表1所示,表中mrbmin為當(dāng)前等級的mrb值下限,mrbmax為當(dāng)前等級的mrb值上限,train和test欄分別代表當(dāng)前訓(xùn)練集和測試集的張數(shù).其中訓(xùn)練集共為55219張,測試集共為12060張.

        表1 不同等級張數(shù)統(tǒng)計(jì)表Table 1 Statistics table of different grades

        根據(jù)表1進(jìn)行分類后,A-J各個(gè)等級示例圖片如圖2所示,其中白色像素點(diǎn)為干擾部分.

        圖2 干擾等級劃分示例Fig.2 Example of interference level division

        4.2 選取輸入尺寸

        本文對訓(xùn)練文本數(shù)據(jù)集的長寬比進(jìn)行計(jì)算之后,選取1∶1、1∶1.5、1∶2、1∶2.5、1∶3和1∶3.5這6種情況,使用相同數(shù)據(jù)集進(jìn)行測試得出表2,根據(jù)測試結(jié)果顯示當(dāng)H:W=1:3時(shí)取得較優(yōu)效果,因而確定輸入圖片大小為512×1536.

        表2 不同寬高比的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different proportionsof width and height

        4.3 實(shí)驗(yàn)過程

        4.3.1 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)采用Ubuntu16.04.6系統(tǒng),Python3.6.7,GeForce RTX 2080Ti,NVIDIA Tesla V100 GPU和Tensorflow1.14對數(shù)據(jù)進(jìn)行訓(xùn)練,采用Adam優(yōu)化器對數(shù)據(jù)進(jìn)行優(yōu)化.

        在mask數(shù)據(jù)集不考慮旋轉(zhuǎn)、翻轉(zhuǎn)和裁剪前提下,各個(gè)等級產(chǎn)生的數(shù)據(jù)量為:訓(xùn)練集249600張、驗(yàn)證集10160張以及測試集16500張.將10個(gè)等級mask使用GeForce RTX 2080Ti各訓(xùn)練30輪,其中經(jīng)過BN層每輪訓(xùn)練10000次共計(jì)20輪,無BN層訓(xùn)練每輪訓(xùn)練5000次共訓(xùn)練10輪,無BN層學(xué)習(xí)率為0.00005.最后將不同等級干擾mask進(jìn)行混合,訓(xùn)練集約為126.3萬,驗(yàn)證集約為9.9萬,測試集約為15.3萬.

        使用NVIDIA Tesla V100訓(xùn)練55輪,其中經(jīng)過BN層每輪訓(xùn)練10000次各訓(xùn)練40輪,無BN層每輪訓(xùn)練5000次各訓(xùn)練15輪,無BN層學(xué)習(xí)率為0.00005.采用PSNR作為圖像修復(fù)質(zhì)量優(yōu)劣的評價(jià)指標(biāo),衡量重建圖像與真實(shí)圖像在像素上的差異,其值越高說明差異越小[27].

        4.3.2 算法性能對比

        為驗(yàn)證本文算法的有效性,在訓(xùn)練時(shí)采用相同數(shù)據(jù)集和參數(shù)的情況下,與文獻(xiàn)[21]和文獻(xiàn)[22]進(jìn)行對比研究,選取每次訓(xùn)練中訓(xùn)練集、驗(yàn)證集和測試集的最優(yōu)結(jié)果,實(shí)驗(yàn)結(jié)果如表3和表4所示.

        表3 不同算法PSNR值對比Table 3 Comparison of different algorithms PSNR

        表4 不同算法LOSS值對比Table 4 Comparison of different algorithms LOSS

        由實(shí)驗(yàn)結(jié)果可知,本文模型在A等級時(shí)分別取得訓(xùn)練集、驗(yàn)證集和測試集的最佳效果,其中PSNR值最高達(dá)到32.58 dB,LOSS值最低達(dá)到0.015,PSNR值和LOSS 值隨著等級的增高而逐漸變差,但從總體上來看各個(gè)等級之間的差值隨著等級的升高而逐漸變小,對于E、F、G、H、I、J等級來說,使用混合mask訓(xùn)練效果更佳.雖然在實(shí)驗(yàn)之中文獻(xiàn)[22]的修復(fù)效果優(yōu)于文獻(xiàn)[21],但文獻(xiàn)[22]的時(shí)長遠(yuǎn)遠(yuǎn)高于文獻(xiàn)[21]和本文算法.本文算法在干擾圖片數(shù)據(jù)的訓(xùn)練集、驗(yàn)證集和測試集上,PSNR值和LOSS值明顯優(yōu)于文獻(xiàn)[21]和文獻(xiàn)[22],表明本文算法結(jié)合文本圖片的特點(diǎn),通過深層特征提取和圖像融合對污損字符取得了更優(yōu)的復(fù)原效果.

        4.3.3 損失函數(shù)的影響

        為驗(yàn)證本文所提出的損失函數(shù)的效果,在相同數(shù)據(jù)集和參數(shù)設(shè)置的情況下,本文采用不同函數(shù)的組合進(jìn)行實(shí)驗(yàn)對比研究.實(shí)驗(yàn)結(jié)果如表5所示,實(shí)驗(yàn)結(jié)果表明,文獻(xiàn)[21]之中的損失函數(shù)復(fù)原效果較差,盡管Lvalid+Lhole和Lvalid+Lhole+0.01Lperceptual損失函數(shù)組合所復(fù)原的文字圖像在整體主觀視覺上與本文相差不大,但放大之后本文損失函數(shù)組合所復(fù)原的細(xì)部特征更加清晰,邊緣部分更加平滑自然.

        表5 不同損失函數(shù)組合的復(fù)原效果對比Table 5 Comparison of inpainting effects of different LOSS function combinations

        4.3.4 各個(gè)等級復(fù)原效果

        本文算法在各個(gè)等級去干擾效果如圖3所示,其中每類從上到下的排列順序?yàn)榧訑_圖片,修復(fù)圖片和原圖.由實(shí)驗(yàn)結(jié)果可知,本模型能夠根據(jù)已有筆畫細(xì)節(jié)對缺失部分進(jìn)行預(yù)測,并保持缺失漢字的字體形狀和筆畫走向,對于完全遮擋的漢字(如:J類),在人眼也無法辯明的情況下,本模型在盡可能去除干擾的前提下同樣也進(jìn)行了預(yù)測.

        圖3 各個(gè)等級去干擾效果示例圖Fig.3 Examples of the effect of various levels of interference removal

        4.3.5 識(shí)別率對比

        為研究本模型的OCR識(shí)別率的變化情況,隨機(jī)選取測試結(jié)果不同干擾等級各1000張,共計(jì)10000張圖片,將加擾圖片和對應(yīng)的修復(fù)圖片放入百度OCR接口,進(jìn)一步計(jì)算識(shí)別準(zhǔn)確率的變化情況,前200次識(shí)別結(jié)果如圖4所示,在此處識(shí)別率定義為識(shí)別正確字符數(shù)與總字符數(shù)的比值.由實(shí)驗(yàn)結(jié)果可知,百度OCR對于干擾的圖片的平均識(shí)別率約為60.05%,而本模型對圖像修復(fù)后識(shí)別率約為90.54%,相較于未修復(fù)圖片識(shí)別率提升約30.49%.實(shí)驗(yàn)結(jié)果表明文獻(xiàn)[21]、文獻(xiàn)[22]和本文算法對文字圖片修復(fù)后識(shí)別率分別提升20.34%,19.29%,30.49%,如圖5所示,本文算法對于不同等級的干擾修復(fù)展現(xiàn)了較好的魯棒性能,且對于漢字內(nèi)部細(xì)節(jié)的修復(fù)能力相較于其他算法具有顯著提升.

        圖4 去干擾前后百度OCR識(shí)別率變化圖Fig.4 Baidu OCR recognition rate changes before and after interference removal

        圖5 不同算法修復(fù)后識(shí)別率對比圖Fig.5 Comparison of recognition rate after repair of different algorithms

        4.3.6 文字拓片修復(fù)

        為解決真實(shí)場景下的古代字體干擾情況,本文使用云南師范大學(xué)文字拓片數(shù)據(jù)集,旨在研究現(xiàn)實(shí)情況中文字拓片進(jìn)行修復(fù)效果.該數(shù)據(jù)集包含不同種類,不同風(fēng)格的書法字體,由于年代的不同,不同拓片的磨損情況也不一,這也是考量本文算法魯棒性的一個(gè)關(guān)鍵任務(wù)之一.首先將獲取到的拓片進(jìn)行簡單的預(yù)處理,如:二值化、去干擾化等,然后使用本文算法對文字拓片進(jìn)行修復(fù)后的結(jié)果如圖6所示,左側(cè)為修復(fù)前文字圖片,右側(cè)為修復(fù)后的圖片.現(xiàn)實(shí)環(huán)境下的石刻石碑,大多以裂縫,縫隙以及風(fēng)雨磨損下的情況為主,經(jīng)實(shí)驗(yàn)證明本文算法對于缺損的碑文字體以及書畫作品,在去除干擾的前提下,對當(dāng)前字體的筆畫風(fēng)格進(jìn)行了預(yù)測并達(dá)到了良好的效果.

        圖6 真實(shí)數(shù)據(jù)實(shí)驗(yàn)結(jié)果Fig.6 Experimental results with real data

        5 結(jié) 論

        本文基于U-Net框架和部分卷積運(yùn)算建立文字圖片修復(fù)模型,旨在解決由于各種不規(guī)則干擾而造成字符破損,導(dǎo)致識(shí)別準(zhǔn)確率下降的問題.本文根據(jù)測試圖片的字體,形狀以及筆畫走向?qū)ξ淖秩笔Р糠诌M(jìn)行預(yù)測,PSNR最高達(dá)到32.58 dB,LOSS最佳達(dá)到0.015.本文將mask分為10個(gè)不同的等級,在各項(xiàng)損失函數(shù)的約束下,進(jìn)一步地提升網(wǎng)絡(luò)的特征提取和復(fù)原能力,重建出細(xì)節(jié)豐富、文體統(tǒng)一的文字圖像.實(shí)驗(yàn)結(jié)果表明,與其他復(fù)原方法相比,本文方法在文字圖像的修復(fù)上主觀視覺效果和圖像質(zhì)量評價(jià)結(jié)果均有明顯提升,文字識(shí)別率修復(fù)前后提升30.49%.同時(shí)使用本文方法對真實(shí)的文字拓片進(jìn)行修復(fù)實(shí)驗(yàn)并達(dá)到了良好效果,為修復(fù)書法、碑刻等文字作品的殘缺筆畫提供了可行性方案.

        猜你喜歡
        文本實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        做個(gè)怪怪長實(shí)驗(yàn)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        日本午夜福利| 女人张开腿让男人桶爽| 三年片免费观看大全有| 国产精品视频亚洲二区| 男人进去女人爽免费视频| 日韩视频第二页| 国产黄色精品高潮播放| 免费一区二区三区女优视频| 又爽又黄又无遮挡网站| 亚洲av色无码乱码在线观看| 99在线无码精品秘 人口| 国产成人亚洲精品91专区高清 | 免费看男女做羞羞的事网站| 无码国产激情在线观看| 4hu44四虎www在线影院麻豆 | 风流熟女一区二区三区| 亚洲日韩av无码一区二区三区人| 鲁一鲁一鲁一鲁一澡| 杨幂国产精品一区二区| 亚洲国产精品国自拍av| 日韩人妻一区二区三区蜜桃视频| 免费人成毛片乱码| 在线播放中文字幕一区二区三区| 国产女同va一区二区三区| 孕妇特级毛片ww无码内射| 中文字幕久无码免费久久| 久久亚洲一区二区三区四区五| 亚洲av成人片色在线观看| 亚洲五月天综合| 精品无码一区二区三区小说| 91九色播放在线观看| 色天使综合婷婷国产日韩av| 亚洲欧美欧美一区二区三区| 亚洲最大的av在线观看| 国产成人无码av一区二区在线观看 | 国产精品自拍午夜伦理福利| 色欲aⅴ亚洲情无码av| 国产成人国产在线观看入口| 肉丝高跟国产精品啪啪| 亚洲精品乱码久久久久久 | 特黄熟妇丰满人妻无码|