亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自監(jiān)督學(xué)習(xí)的單幅透射圖像恢復(fù)

        2023-01-16 07:36:40徐金東馬詠莉梁宗寶倪夢(mèng)瑩
        自動(dòng)化學(xué)報(bào) 2023年1期
        關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu)特征提取文檔

        徐金東 馬詠莉 梁宗寶 倪夢(mèng)瑩

        掃描儀、相機(jī)和攝像機(jī)等設(shè)備對(duì)紙質(zhì)內(nèi)容進(jìn)行成像時(shí),背面信息常會(huì)透射疊加到正面文字內(nèi)容中,這不僅降低了圖像內(nèi)容的可讀性,還會(huì)影響圖像的后續(xù)處理,如電子閱卷、歷史文檔數(shù)字恢復(fù)[1]和場(chǎng)景文本識(shí)別[2]等.透射圖像恢復(fù),即透射去除,是從含有背面和正面內(nèi)容的混合圖像中恢復(fù)出正面內(nèi)容的過程,可建立如式(1)所示模型.

        其中,I表示有透射的混合圖像,F表示正面圖像,α是透射混合參數(shù),T表示背面圖像,g(·) 為透射衰減函數(shù).因T、α和g(·) 均未知,從I中去除T、恢復(fù)F是一個(gè)不適定的NP (Non-deterministic polynomial)難問題.而且,背面圖像的內(nèi)容結(jié)構(gòu)和屬性常與正面圖像相似,導(dǎo)致難以在去除背面透射信息的同時(shí)恢復(fù)正面文檔圖像中的內(nèi)容和細(xì)節(jié).

        現(xiàn)有文檔圖像的恢復(fù)可以分為兩大類:基于閾值處理的方法和基于學(xué)習(xí)的方法.閾值處理法是傳統(tǒng)的文檔圖像恢復(fù)方法[3-5],通過像素閾值判分正面或背面內(nèi)容,文獻(xiàn)[6]提出了一種結(jié)合局部圖像對(duì)比度和局部圖像梯度的自適應(yīng)對(duì)比度圖,采用局部區(qū)域中檢測(cè)到的邊緣來(lái)估計(jì)局部閾值,但由于透射文檔圖像質(zhì)量參差不齊,在計(jì)算局部和全局閾值時(shí)需要大量的經(jīng)驗(yàn)參數(shù),系統(tǒng)結(jié)構(gòu)復(fù)雜、運(yùn)行效率較低.為減輕參數(shù)設(shè)計(jì)和調(diào)整的負(fù)擔(dān),基于學(xué)習(xí)的方法通過訓(xùn)練的思路來(lái)獲取圖像恢復(fù)模型,文獻(xiàn)[7]和文獻(xiàn)[8]通過引入不同的分類器直接對(duì)圖像特征進(jìn)行分類,減少參數(shù)的數(shù)量,提高了文檔二值化方法的效率.近幾年神經(jīng)網(wǎng)絡(luò)在不少應(yīng)用場(chǎng)景中取得良好性能,基于深度學(xué)習(xí)透射圖像恢復(fù)的方法[9-12]備受研究者的青睞,這類方法能夠?qū)崿F(xiàn)端到端的從透射圖像中恢復(fù)出正面內(nèi)容,但需要大量的成對(duì)數(shù)據(jù)集,且常存在過擬合現(xiàn)象.最近,生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial networks,GAN)[12]在合成圖像方面大放異彩,并且一部分科研人員將其用于圖像恢復(fù)相關(guān)處理任務(wù),文獻(xiàn)[13]利用GAN 擴(kuò)充訓(xùn)練數(shù)據(jù)集,處理圖像二值化任務(wù),文獻(xiàn)[14]使用Pix2Pix GAN 去除了光學(xué)音樂識(shí)別的五線譜,文獻(xiàn)[15]引入了一種包含兩個(gè)判別器網(wǎng)絡(luò)的雙判別器GAN 結(jié)構(gòu),以結(jié)合全局和局部信息,而Castellanos[16]提出了一種使用無(wú)監(jiān)督區(qū)域自適應(yīng)的神經(jīng)網(wǎng)絡(luò)方法將文檔圖像進(jìn)行二值化操作,與其他學(xué)習(xí)的方法相比,這些基于GAN 的模型會(huì)產(chǎn)生更好的結(jié)果,但是仍需要大量的成對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,難以泛化.

        為了解決以上問題,本文利用無(wú)需成對(duì)數(shù)據(jù)的循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)(Cycle-consistent generative adversarial networks,CycleGAN)[17],提出了一種基于自監(jiān)督學(xué)習(xí)的單幅透射圖像恢復(fù)方法(Self-supervised learning based on cycle-consistent generative adversarial networks,S-CycleGAN),主要由特征提取模塊和自學(xué)習(xí)模塊組成,特征提取模塊通過跳躍鏈接融合全局和局部特征,以增強(qiáng)去透射模型的表達(dá)能力,自學(xué)習(xí)模塊能對(duì)不同的特征映射賦予不同的權(quán)重并進(jìn)行自適應(yīng)學(xué)習(xí),進(jìn)而實(shí)現(xiàn)透射圖像的高質(zhì)量恢復(fù).

        本文的主要?jiǎng)?chuàng)新概括為:

        1) 將S-CycleGAN 應(yīng)用于文檔圖像恢復(fù),提出了一種基于自監(jiān)督學(xué)習(xí)的單幅透射圖像恢復(fù)方法,并用于單幅圖像中透射內(nèi)容去除,該方法不依賴于先驗(yàn)知識(shí),在訓(xùn)練過程中不需要成對(duì)數(shù)據(jù)集;

        2) 設(shè)計(jì)了一種新穎的去透射生成器,它結(jié)合了自學(xué)習(xí)模塊和特征提取模塊來(lái)自監(jiān)督訓(xùn)練網(wǎng)絡(luò)提取圖像特征,盡可能保留了圖像的細(xì)節(jié)內(nèi)容;

        3) 通過設(shè)計(jì)特征提取模塊、自學(xué)習(xí)模塊和跳躍鏈接,融合全局和局部特征,增加了S-CycleGAN 的深度,提高了文本內(nèi)容的表達(dá)能力,產(chǎn)生視覺上滿意的恢復(fù)效果.

        1 自監(jiān)督學(xué)習(xí)的單幅透射圖像恢復(fù)

        S-CycleGAN 是將未配對(duì)圖像的去透射問題轉(zhuǎn)化為圖像到圖像的生成問題,利用自監(jiān)督學(xué)習(xí)的循環(huán)一致性網(wǎng)絡(luò)生成無(wú)透射的圖像.S-CycleGAN 整體網(wǎng)絡(luò)架構(gòu)如圖1 所示,涉及的核心內(nèi)容包括:生成器、判別器和損失函數(shù).

        圖1 S-CycleGAN 的網(wǎng)絡(luò)結(jié)構(gòu) (Gy和 Gx 表示生成器,Dy和 Dx 表示判別器. x和 y 分別表示輸入的透射圖像和無(wú)透射圖像,Lcycle和 Lperceptual 分別表示循環(huán)一致性損失和感知損失)Fig.1 Structure of S-CycleGAN (Gy and Gx are generators while Dy and Dx are discriminators,x and y represent the input bleed-through image and non-bleed-through image respectively,Lcycle and Lperceptual represent cycle consistency loss and perceptual loss respectively)

        S-CycleGAN 由兩個(gè)分支組成:1)透射-透射分支:x→Gy(x)→Gx(Gy(x)),利用有透射圖像x生成無(wú)透射圖像Gy(x),再重構(gòu)成有透射圖像Gx(Gy(x));2) 無(wú)透射-無(wú)透射分支:y→Gx(y)→Gy(Gx(y)),利用無(wú)透射圖像y生成有透射圖像Gx(y),再重構(gòu)成無(wú)透射圖像Gy(Gx(y)).

        S-CycleGAN 的兩個(gè)分支中的每一個(gè)分支都有一個(gè)判別器,分別是Dy和Dx,這兩個(gè)分支共享兩個(gè)生成器Gy和Gx.Gy是將透射圖像生成(恢復(fù))為無(wú)透射圖像,而Gx是將透射部分添加到無(wú)透射圖像中生成有透射圖像.

        1.1 生成器網(wǎng)絡(luò)結(jié)構(gòu)

        生成器Gx采用與CycleGAN 相似的編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu),本文Gx使用了6 個(gè)殘差塊.為了實(shí)現(xiàn)自監(jiān)督學(xué)習(xí)以及增強(qiáng)特征表示,本文方法在CycleGAN 生成器Gx的基礎(chǔ)上構(gòu)建生成器Gy,在Gy網(wǎng)絡(luò)結(jié)構(gòu)中加入特征提取模塊和自學(xué)習(xí)模塊,從大規(guī)模的無(wú)標(biāo)簽數(shù)據(jù)中挖掘自身的監(jiān)督信息,從而得到更好的去透射結(jié)果.生成器Gy的作用是恢復(fù)正面的圖像內(nèi)容,在去除透射過程中保留細(xì)節(jié),網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示.

        圖2 生成器 Gy 的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The network structure of Gy

        Gy網(wǎng)絡(luò)的輸入是一幅帶有透射的圖像,首先經(jīng)過三層卷積來(lái)增強(qiáng)輸入圖像紋理細(xì)節(jié),提高正面圖像與背面圖像的對(duì)比度,然后饋送到三個(gè)具有跳躍鏈接的特征提取模塊(Feature extractor module,FEM)中,以保留低層信息并將其傳遞到深層網(wǎng)絡(luò)中,三個(gè)特征提取模塊的輸出特征通過自學(xué)習(xí)模塊(Self-learning module,SLM)以及兩層卷積融合獲得一個(gè)無(wú)透射的輸出.其中,自學(xué)習(xí)模塊的作用是獲得的自適應(yīng)權(quán)值,使得S-CycleGAN 更加關(guān)注混合內(nèi)容中較嚴(yán)重區(qū)域和正面紋理等細(xì)節(jié)信息.

        1.1.1 特征提取模塊-FEM

        FEM 的網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,包括卷積層、ReLU 層和SLM.在S-CycleGAN 的設(shè)計(jì)中,生成器Gy的目的是將帶有透射的輸入圖像生成無(wú)透射的圖像,并且不需要估計(jì)中間參數(shù),為了實(shí)現(xiàn)這個(gè)目標(biāo),生成器Gy應(yīng)該盡可能地保留正面圖像內(nèi)容和細(xì)節(jié),同時(shí)消除透射信息.因此,生成器Gy中的特征提取模塊應(yīng)充分利用透射圖像的特征信息.

        圖3 FEM 的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 The network structure of FEM

        FEM 由多個(gè)卷積、RELU和SLM 的功能層組成,以層次遞進(jìn)方式反復(fù)提取特征信息.經(jīng)過圖3所示的由淺入深的功能層后,會(huì)交換大量不必要的冗余信息,從而導(dǎo)致一些有用特征信息丟失.因此,在特征提取塊中增加了跳躍鏈接,將淺層特征與深層特征融合,使網(wǎng)絡(luò)保留更多的有效特征信息,從而更有利于恢復(fù)清晰的圖像.另外,為了平衡網(wǎng)絡(luò)性能和時(shí)間復(fù)雜度,將FEM 的所有卷積層的通道數(shù)設(shè)為64,卷積核大小設(shè)為3×3.

        1.1.2 自學(xué)習(xí)模塊-SLM

        SLM 的網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示,主要用于關(guān)注圖像的不同特征.輸入的特征圖F大小由C×H ×W變?yōu)镃×1×1,其中C表示通道數(shù),H×W表示圖像大小.通過兩個(gè)卷積層和ReLU、sigmoid 激活函數(shù)來(lái)獲取特征,與輸入的特征圖F做元素相乘操作得到Fc,在這一階段的卷積核大小為1×1,通道數(shù)分別為8和64,步長(zhǎng)為1.過程可如式(2)所示.

        圖4 SLM 的網(wǎng)絡(luò)結(jié)構(gòu) (F 表示自學(xué)習(xí)模塊的輸入,Fc 表示自學(xué)習(xí)模塊的中間輸出,Fresult 表示自學(xué)習(xí)模塊的輸出)Fig.4 The network structure of SLM (F is the input to the self-learning module. Fc is the intermediate output of the self-learning module. Fresult is the output of the selflearning module)

        其中,pool(·) 表示平均池化操作,Conv(·) 表示卷積操作,σ(·) 是sigmoid 函數(shù),δ(·) 是ReLU 函數(shù),?是元素相乘,Fc表示此階段的輸出.

        考慮到透射到正面的背面內(nèi)容 “深淺不一”,透射圖像的背面內(nèi)容常不均勻地疊加在正面圖像上,因此需要SLM 能夠捕捉特征圖Fc中的高響應(yīng)區(qū)域,使模型更加關(guān)注相應(yīng)區(qū)域并對(duì)此進(jìn)行處理.因此,特征圖Fc通過池化、卷積和Sigmoid 激活操作后,大小由C×H ×W變?yōu)?1×H ×W,通道數(shù)降為1,將會(huì)得到區(qū)域特征信息,與輸入特征圖Fc做乘法操作,獲得最終的關(guān)注不同相應(yīng)區(qū)域的權(quán)重特征圖,在這一階段的卷積核大小為3×3,通道數(shù)為1,步長(zhǎng)為1.處理過程如式(3)所示.

        其中,Fresult表示自學(xué)習(xí)模塊的最終輸出.

        為了解釋自學(xué)習(xí)模塊在網(wǎng)絡(luò)中的有效性,對(duì)特征提取模塊結(jié)構(gòu)輸出的特征權(quán)重圖進(jìn)行可視化.圖5顯示了尺寸為4×64 的特征圖,可以清楚地看到,網(wǎng)絡(luò)以不同的權(quán)重自適應(yīng)地學(xué)習(xí)不同的特征映射.

        圖5 自學(xué)習(xí)模塊權(quán)重圖Fig.5 Self-learning module weight map

        1.2 判別器網(wǎng)絡(luò)結(jié)構(gòu)

        判別器用于區(qū)分生成圖像的 “真假”,其輸入是生成器網(wǎng)絡(luò)生成的圖像.在S-CycleGAN 中,有兩個(gè)判別器,即Dy和Dx.Dy用于區(qū)分生成的無(wú)透射圖像和真實(shí)的無(wú)透射圖像,Dx用于區(qū)分生成的透射圖像和真實(shí)的透射圖像.判別器Dy和Dx采用相同的網(wǎng)絡(luò)結(jié)構(gòu),如圖6 所示.判別器的前4 組模塊用于提取特征,最后一組模塊用于確定生成圖像的“真假”.網(wǎng)絡(luò)中5 個(gè)卷積層通道數(shù)依次為64、128、256、512和1,每一層的卷積核大小為4×4、步長(zhǎng)為2.

        圖6 判別器的網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 The network structure of discriminator

        1.3 損失函數(shù)

        由于采用非成對(duì)的數(shù)據(jù)來(lái)監(jiān)督網(wǎng)絡(luò),生成的圖像無(wú)法保持圖像中的顏色和結(jié)構(gòu)信息,故引入循環(huán)一致性損失[17]來(lái)最小化透射圖像x和其重構(gòu)的透射圖像Gx(Gy(x))、無(wú)透射圖像y和其重構(gòu)的無(wú)透射圖像Gy(Gx(y)). 循環(huán)一致性損失(Lcycle)定義為式(4).

        其中,x和y表示不需要配對(duì)的透射圖像和無(wú)透射圖像,E 表示數(shù)學(xué)期望,x~Pdata(x)表示透射數(shù)據(jù)集中樣本的概率分布,y~Pdata(y)表示無(wú)透射數(shù)據(jù)集中樣本的概率分布,‖·‖1表示L1范式.

        判別器Dy的作用是最大化損失,并以此區(qū)分生成的無(wú)透射圖像和真實(shí)的無(wú)透射圖像,而生成器Gy要使損失最小化,使生成的無(wú)透射圖像接近真實(shí)的無(wú)透射圖像.因此,Dy的對(duì)抗性損失()定義為式(5).

        循環(huán)一致性損失和對(duì)抗性損失能夠約束圖像中的顏色和結(jié)構(gòu)信息,但對(duì)文檔圖像的細(xì)節(jié)信息沒有考慮.因此,本文使用感知損失[18]來(lái)使生成的圖像在語(yǔ)義細(xì)節(jié)上更接近目標(biāo)圖像,在生成器Gy和生成器Gx的約束下的感知損失(Lperceptual) 如式(7)所示.

        其中,‖·‖2表示L2范數(shù),φ表示VGG-16 網(wǎng)絡(luò)[19]的特征提取器.本文使用VGG-16 網(wǎng)絡(luò)的第2和第5 個(gè)池化層中提取的特征按照式(7) 進(jìn)行組合,VGG-16 網(wǎng)絡(luò)是由ImageNet[20]預(yù)先訓(xùn)練的模型.

        其中,ω是感知損失函數(shù)的權(quán)重系數(shù).

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)設(shè)置

        2.1.1 對(duì)比算法和數(shù)據(jù)集

        為了充分測(cè)試S-CycleGAN 的性能,實(shí)驗(yàn)采用的數(shù)據(jù)集為:DIBCO 2013[21]、DIBCO 2012[22]、DIBCO 2014[23]、DIBCO 2017[24]、DIBCO 2011[25]、DIBCO 2009[26]、H-DIBCO 2016[27]和真實(shí)的透射圖像.仿真合成圖像按照式(1)進(jìn)行混合,其中g(shù)(·) 為高斯模糊操作,濾波器大小為5×5,標(biāo)準(zhǔn)差為2,α在[0.15,0.25]間隨機(jī)選擇,以盡可能模擬實(shí)際透射情況.

        實(shí)驗(yàn)選擇了6 種具有代表性的文本圖像恢復(fù)方法:經(jīng)典的Otsu[4]算法和Ntirogiannis[5]方法,基于深度學(xué)習(xí)的SAGAN[28]、DD-GAN[15]、Castellanos[16]和Sungho[29]方法.

        2.1.2 評(píng)價(jià)指標(biāo)

        為定量評(píng)價(jià)透射圖像恢復(fù)效果,使用文檔圖像二值化國(guó)際競(jìng)賽中的評(píng)估參數(shù)[21-27]:峰值信噪比(Peak signal to noise ratio,PSNR)、F-measure(FM),pseudo-F-measure (pFM)和距離倒數(shù)失真(Distance reciprocal distortion,DRD).其中,前三個(gè)指標(biāo)值越大說(shuō)明算法準(zhǔn)確性越高,DRD 越小說(shuō)明像素恢復(fù)差錯(cuò)越少.

        1) PSNR

        3) pFM

        其中,pRecall表示生成的結(jié)果圖像相比于標(biāo)準(zhǔn)二值化圖像檢測(cè)到文字信息完整性的百分比.

        4) DRD

        其中,DRD用于測(cè)量二值圖像中的視覺失真.NUBN是標(biāo)準(zhǔn)二值化結(jié)果圖像中非均勻(并非所有黑色或白色像素) 8×8 像素塊的數(shù)量,DRDq表示在5×5像素塊鄰域內(nèi),標(biāo)準(zhǔn)二值化圖像與生成的結(jié)果圖像第q個(gè)翻轉(zhuǎn)像素之間的權(quán)重加和的差值.

        2.1.3 參數(shù)敏感性分析

        為了對(duì)比感知損失函數(shù)的權(quán)重系數(shù)ω取值不同對(duì)文檔圖像透射去除效果的影響,本節(jié)以合成透射數(shù)據(jù)集為例,結(jié)合FM和pFM評(píng)價(jià)指標(biāo),通過設(shè)置不同的權(quán)重系數(shù)ω進(jìn)行參數(shù)敏感性分析實(shí)驗(yàn).

        不同的權(quán)重系數(shù)ω對(duì)FM和pFM評(píng)價(jià)指標(biāo)的影響如圖7 所示,可見當(dāng)感知損失函數(shù)的權(quán)重系數(shù)ω越小時(shí),FM和pFM評(píng)價(jià)指標(biāo)的數(shù)值越小,當(dāng)ω在0.8 附近時(shí),FM和pFM的值達(dá)到最大,此時(shí)文檔圖像透射去除效果最好,所以本文設(shè)定ω=0.8.

        圖7 不同權(quán)重系數(shù) ω 對(duì)FM和pFM 評(píng)價(jià)指標(biāo)的影響Fig.7 Influence of different weight coefficient ω for FM and pFM

        2.2 DIBCO 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果與分析

        表1 為3 個(gè)DIBCO 系列數(shù)據(jù)集的定量評(píng)價(jià)結(jié)果(獲得的最佳結(jié)果用粗體標(biāo)出).與已有的方法相比,本文的S-CycleGAN 在4 個(gè)評(píng)價(jià)指標(biāo)中均有3項(xiàng)取得了最佳結(jié)果.

        表1 DIBCO 數(shù)據(jù)集的文檔透射圖像恢復(fù)定量評(píng)價(jià)Table 1 Quantitative evaluation of document bleedthrough image restoration of DIBCO datasets

        為了直觀展示視覺對(duì)比效果,圖8 給出了不同方法在DIBCO 2011[25]數(shù)據(jù)集中的一個(gè)樣本圖像的處理結(jié)果.如圖所示,圖8(a)中大面積背面內(nèi)容疊加到正面圖像中且右上部分透射內(nèi)容較重(強(qiáng)透射區(qū)域).因直方圖沒有明顯的雙峰特征,且圖像整體亮度偏低,Otsu[4]算法計(jì)算出的閾值較小,從而導(dǎo)致計(jì)算輸出的二值圖像引入了大量噪聲.Ntirogiannis[5]方法雖然能抑制一定的噪聲,但也丟失了部分文本內(nèi)容.基于深度學(xué)習(xí)的方法SAGAN[28]、DDGAN[15]、Castellanos[16]和Sungho[29]方法的恢復(fù)結(jié)果要優(yōu)于經(jīng)典方法,對(duì)文字的恢復(fù)較為準(zhǔn)確,但仍有較多背面內(nèi)容在恢復(fù)過程中被當(dāng)作正面的內(nèi)容,導(dǎo)致恢復(fù)結(jié)果出現(xiàn)了噪聲誤差.本文方法S-CycleGAN 給出了較好的視覺效果,更加接近真值圖像(Ground truth),可以在不需要成對(duì)數(shù)據(jù)集的情況下,無(wú)論是強(qiáng)透射區(qū)域還是弱透射區(qū)域都可以生成更為清晰的細(xì)節(jié),更好地恢復(fù)透射文檔圖像.

        圖8 各方法在DIBCO 2011 數(shù)據(jù)集內(nèi)一個(gè)樣本的恢復(fù)結(jié)果Fig.8 Experiment results of one sample in DIBCO 2011 datasets by different methods

        圖9 給出了不同方法對(duì)H-DIBCO 2016[27]數(shù)據(jù)集中的一個(gè)樣本圖像的恢復(fù)結(jié)果.Otsu[4]、DDGAN[15]和Sungho[29]的實(shí)驗(yàn)結(jié)果中存在大量噪聲信息.Ntirogiannis[5]方法可以更有效地去除陰影和類似正面文本的背面噪聲,但存在文本信息錯(cuò)分的情況.SAGAN[28]和Castellanos[16]方法恢復(fù)的實(shí)驗(yàn)結(jié)果中存在文字筆畫不連續(xù)的現(xiàn)象.S-CycleGAN 不僅能更好地去除陰影和噪聲,而且更好地保留了正面文本細(xì)節(jié).

        圖9 各方法在H-DIBCO 2016 數(shù)據(jù)集的一個(gè)樣本恢復(fù)結(jié)果Fig.9 Experiment results of one sample in H-DIBCO 2016 datasets by different methods

        2.3 合成數(shù)據(jù)集和真實(shí)圖像實(shí)驗(yàn)結(jié)果與分析

        2.3.1 合成數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

        本文方法S-CycleGAN 與其他幾種去除透射算法在合成數(shù)據(jù)集上的定量評(píng)價(jià)如表2 所示.粗體為恢復(fù)方法中最佳的指標(biāo)結(jié)果,顯然可見,S-CycleGAN 在四個(gè)客觀度量指標(biāo)上均優(yōu)于其他去除透射方法.

        表2 合成數(shù)據(jù)集的文檔透射圖像恢復(fù)定量評(píng)價(jià)Table 2 Quantitative evaluation of document bleedthrough image restoration of synthetic datasets

        合成數(shù)據(jù)集中一個(gè)樣本圖像的恢復(fù)結(jié)果對(duì)比如圖10 所示,可見經(jīng)典的Otsu[4]和Ntirogiannis[5]方法無(wú)法消除文檔的背面透射內(nèi)容,這是因?yàn)榇祟惙椒y以在正面和背面內(nèi)容區(qū)分中找到一個(gè)有效閾值,且Ntirogiannis[5]方法恢復(fù)的內(nèi)容中標(biāo)點(diǎn)符號(hào)嚴(yán)重缺失.Castellanos[16]正面的文檔內(nèi)容沒有完全恢復(fù)且造成了一定的內(nèi)容細(xì)節(jié)損失,恢復(fù)效果不理想.DD-GAN[15]和Sungho[29]方法產(chǎn)生了相對(duì)較好的視覺效果,但存在紋理細(xì)節(jié)不清晰等問題.綜合來(lái)看,S-CycleGAN 生成的結(jié)果更為自然,紋理細(xì)節(jié)也較為清晰.

        圖10 各方法在合成數(shù)據(jù)集的一個(gè)樣本恢復(fù)結(jié)果Fig.10 Experiment results of one sample on synthetic document bleed-through datasets by different methods

        2.3.2 真實(shí)透射圖像實(shí)驗(yàn)結(jié)果

        真實(shí)圖像為 “京瓷FS-1020MFP”掃描獲取的全國(guó)大學(xué)英語(yǔ)六級(jí)試卷和某初中數(shù)學(xué)試卷的數(shù)字圖像,截取其中有明顯透射的樣本進(jìn)行恢復(fù),各種對(duì)比方法的實(shí)驗(yàn)結(jié)果分別如圖11和圖12 所示.

        圖11 不同方法在全國(guó)大學(xué)英語(yǔ)六級(jí)試卷透射圖像的恢復(fù)結(jié)果Fig.11 Experiment results of CET-6 bleed-through datasets by different methods

        由視覺效果綜合比較可見,Ntirogiannis[5]和Su-ngho[29]方法的恢復(fù)結(jié)果中存在部分內(nèi)容缺失的問題,例如圖12(g)中 “-6”的 “-”丟失,恢復(fù)的圖像與原始文檔內(nèi)容不一致.Otsu[4]和DD-GAN[15]方法可以將透射內(nèi)容進(jìn)行一定程度的去除,但存在恢復(fù)正面字跡不清晰、邊緣不夠平滑的問題.Castellanos[16]和SAGAN[28]方法保留了正面文本內(nèi)容但仍存在一定的背面噪聲.與其他方法相比,本文方法S-CycleGAN 不僅能更好地去除透射內(nèi)容和噪聲,而且清晰、平滑、正確的保留了正面文本內(nèi)容.

        圖12 不同方法在某初中數(shù)學(xué)試卷透射圖像上的恢復(fù)結(jié)果Fig.12 Experiment results of test papers bleed-through datasets by different methods

        2.4 消融實(shí)驗(yàn)

        第3.2 節(jié)和第3.3 節(jié)的對(duì)比實(shí)驗(yàn)結(jié)果表明,基于S-CycleGAN 的圖像恢復(fù)方法取得了良好的性能.為了更好地理解該方法中不同組成部分的作用,測(cè)試每個(gè)組成部分在網(wǎng)絡(luò)中的重要性,進(jìn)行了有無(wú)特定成分的消融實(shí)驗(yàn),以驗(yàn)證每個(gè)模塊在S-CycleGAN 的功能.消融實(shí)驗(yàn)在合成數(shù)據(jù)集和H-DIBCO 2016[27]數(shù)據(jù)集上進(jìn)行,主要對(duì)比:CycleGAN、無(wú)SLM 的S-CycleGAN和本文方法S-CycleGAN.

        表3 給出了S-CycleGAN 及其兩種消融變體在合成數(shù)據(jù)集和H-DIBCO 2016 數(shù)據(jù)集上的客觀度量指標(biāo)計(jì)算結(jié)果.由表3 可見,加入了本文設(shè)計(jì)的功能模塊后的S-CycleGAN 的實(shí)驗(yàn)指標(biāo)得到較大提升,結(jié)果最優(yōu),且部分指標(biāo)相差較大.圖13 給出了S-CycleGAN 及其兩種消融變體在合成數(shù)據(jù)集中一個(gè)樣本圖像的恢復(fù)結(jié)果.可以看出網(wǎng)絡(luò)中加入自學(xué)習(xí)模塊能夠關(guān)注到圖像的不同區(qū)域特征,以“非均勻”的方式處理透射到正面的 “深淺不一”內(nèi)容,更好的恢復(fù)出了正面圖像內(nèi)容的紋理、邊緣等信息,不僅有效地去除了透射內(nèi)容,還能完整保留正面圖像的文字細(xì)節(jié).從表3 的客觀指標(biāo)評(píng)價(jià)和圖13的實(shí)驗(yàn)結(jié)果來(lái)看,在CycleGAN 中加入了特征提取模塊和自學(xué)習(xí)模塊對(duì)透射文檔圖像的恢復(fù)十分有效.

        圖13 不同網(wǎng)絡(luò)結(jié)構(gòu)在合成數(shù)據(jù)集上的消融實(shí)驗(yàn)Fig.13 Ablation experiments of different network structures on synthetic datasets

        表3 S-CycleGAN 模塊有效性客觀評(píng)價(jià)指標(biāo)對(duì)比Table 3 Objective evaluation indexes comparison for the modules in S-CycleGAN

        3 結(jié)論

        本文提出了一種自監(jiān)督學(xué)習(xí)的單幅透射圖像恢復(fù)網(wǎng)絡(luò)(S-CycleGAN),該網(wǎng)絡(luò)可以直接對(duì)非配對(duì)的透射文檔圖像執(zhí)行圖像恢復(fù)任務(wù),且無(wú)需混合比例、閾值等任何先驗(yàn)參數(shù).通過設(shè)計(jì)有效的生成器網(wǎng)絡(luò),針對(duì)文檔圖像中透射分布不均勻、文字印記深淺不一等問題,在網(wǎng)絡(luò)中加入自學(xué)習(xí)模塊,提高關(guān)注點(diǎn)的表示和感興趣內(nèi)容的表現(xiàn)力,以獲得更好的透射圖像恢復(fù)效果和重建細(xì)節(jié)內(nèi)容.在合成數(shù)據(jù)集、DIBCO 數(shù)據(jù)集和真實(shí)圖像上與現(xiàn)有方法進(jìn)行了實(shí)驗(yàn)對(duì)比,結(jié)果表明S-CycleGAN 在客觀度量指標(biāo)和視覺效果上均取得了較好的結(jié)果,有望集成于掃描儀、相機(jī)等實(shí)際成像設(shè)備.

        猜你喜歡
        網(wǎng)絡(luò)結(jié)構(gòu)特征提取文檔
        有人一聲不吭向你扔了個(gè)文檔
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        Bagging RCSP腦電特征提取算法
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)維對(duì)于創(chuàng)新績(jī)效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
        滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實(shí)證分析
        復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)比對(duì)算法研究進(jìn)展
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        亚洲精品98中文字幕| 丁香花在线影院观看在线播放| 一本无码人妻在中文字幕免费 | 人妻被猛烈进入中文字幕| 九九久久精品大片| 杨幂二区三区免费视频| 丝袜美腿亚洲综合一区| 欧美性高清另类videosex| 国产成人亚洲精品无码av大片| 后入到高潮免费观看| 国产精品福利自产拍在线观看| 国产精品免费久久久久软件| 成年奭片免费观看视频天天看| 亚洲无人区乱码中文字幕| 深夜一区二区三区视频在线观看 | 国产精品亚洲一区二区三区久久| 久久久久亚洲av无码a片| 久久久久久久97| 99精品久久这里只有精品| 成在线人视频免费视频| 亚洲精品国产成人久久av盗摄| 刺激一区仑乱| 狠狠躁夜夜躁人人爽天天不卡软件| 777久久| 蜜桃av福利精品小视频| 色综合久久中文字幕综合网| 亚洲精品久久久久中文字幕| 日韩好片一区二区在线看| 麻豆国产巨作AV剧情老师| 丰满熟女人妻一区二区三区| 黄色国产一区二区99| 在线成人一区二区| 99久久久无码国产精品免费砚床| 中文亚洲AV片在线观看无码| 人妻少妇精品视频专区二区三区 | 国产精品美女主播在线| 超碰色偷偷男人的天堂| a级毛片无码免费真人| 亚洲国产美女精品久久| 亚洲AV无码成人精品区H| 亚洲精品国产av成拍色拍|