亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)U-Net 的低質(zhì)量文本圖像二值化

        2022-04-18 10:56:52王紅霞何國昌李玉強(qiáng)陳德山
        計(jì)算機(jī)工程 2022年4期
        關(guān)鍵詞:低質(zhì)量二值解碼器

        王紅霞,何國昌,李玉強(qiáng),陳德山

        (1.武漢理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430063;2.武漢理工大學(xué) 智能交通系統(tǒng)研究中心,武漢 430063)

        0 概述

        低質(zhì)量文本圖像二值化是文本分析與識別領(lǐng)域的研究熱點(diǎn)。紙質(zhì)量文本在保存過程中容易受到物理?xiàng)l件的影響而出現(xiàn)墨水污漬、紙張破損、背景滲透等質(zhì)量退化,或因人為破壞而產(chǎn)生污跡,以及因拍攝不當(dāng)而導(dǎo)致光照不均等,嚴(yán)重影響了文本分析、字符識別等算法的處理效果。

        文本圖像二值化是光學(xué)字符識別(OCR)技術(shù)的關(guān)鍵步驟,其目的是將文本圖像中的文字信息從復(fù)雜圖像背景中分離出來,以便通過OCR 的后續(xù)步驟將目標(biāo)更加集中于圖像中的文字區(qū)域。對于簡單規(guī)范的文本圖像,其二值化較為容易,但是對于包含大量退化因素的低質(zhì)量文本圖像,實(shí)現(xiàn)其二值化則相對困難:一方面是低質(zhì)量文本圖像中背景噪聲與文字糅雜在一起,使得背景噪聲在二值化過程中易被誤判為文字;另一方面則因?yàn)榈唾|(zhì)量文本圖像中文字筆畫粗細(xì)不一、文字的形狀輪廓復(fù)雜,使得二值化過程中文字域與背景域難以精確區(qū)分。

        低質(zhì)量文本圖像中復(fù)雜的文字區(qū)域難以確定,且圖像中全局上下文信息和文字的形狀、輪廓等復(fù)雜深層信息難以獲取,從而導(dǎo)致文本圖像二值化效果不佳。針對該問題,本文提出一種基于改進(jìn)U-Net 的低質(zhì)量文本圖像二值化方法。在U-Net 的編碼器部分使用預(yù)訓(xùn)練的VGG16 完成圖像下采樣,保證下采樣過程提取到足夠的圖像深層特征并提升模型的收斂速度;在U-Net的瓶頸層部分融合輕量級全局上下文模塊實(shí)現(xiàn)對模型的全局上下文建模,使二值化結(jié)果保留更多的全局上下文信息;在U-Net 的解碼器部分向每個(gè)解碼塊中融合殘差跳躍連接,使U-Net 具有更強(qiáng)的特征還原能力,從而更好地恢復(fù)下采樣過程所提取的深層特征。在此基礎(chǔ)上,通過Sigmoid 函數(shù)將各像素分為前景和背景兩類以得到二值化圖像。

        1 相關(guān)工作

        文本圖像二值化方法總體可以分為傳統(tǒng)法和深度學(xué)習(xí)法兩類。傳統(tǒng)法普遍基于閾值法實(shí)現(xiàn),其中又分為全局閾值和局部閾值兩種情況。在傳統(tǒng)法類別中,全局閾值法是對輸入圖像中的所有像素點(diǎn)使用統(tǒng)一的閾值,典型代表有OTSU[1]算法、Kittler 算法、簡單統(tǒng)計(jì)法等,局部閾值法結(jié)合目標(biāo)像素周邊的灰度分布情況及其自身的灰度值共同計(jì)算局部閾值從而實(shí)現(xiàn)二值化,常見的局部閾值法包括Niblack 算法、Sauvola[2]算法、Wolf 算法等。

        單一的閾值法精度較低,現(xiàn)已經(jīng)很少被使用。目前,很多研究人員將閾值法與其他方法相結(jié)合以實(shí)現(xiàn)二值化。2015 年,MANDAL 等[3]提出基于形態(tài)學(xué)對比度增強(qiáng)的混合二值化技術(shù),該技術(shù)使用灰度形態(tài)學(xué)工具來估計(jì)圖像的背景,從而增加文本區(qū)域的對比度進(jìn)而提升二值化性能。2016年,NAJAFI等[4]針對Sauvola算法計(jì)算量大以及對噪聲敏感的問題,提出一種基于Sauvola 算法隨機(jī)實(shí)現(xiàn)的圖像二值化方法,其提升了傳統(tǒng)Sauvola 算法的運(yùn)行效率和噪聲容錯(cuò)率。2017 年,VATS 等[5]提出自動(dòng)化的文本圖像二值化算法,該算法使用2 個(gè)帶通濾波方法來去除背景噪聲,并使用貝葉斯優(yōu)化來自動(dòng)選擇超參數(shù)以獲得最佳的二值化結(jié)果。2018 年,JIA 等[6]利用結(jié)構(gòu)對稱像素(SSP)來計(jì)算局部閾值,并通過多個(gè)閾值的共同投票結(jié)果確定圖像中某一像素是否屬于前景。2019 年,BHOWMIK 等[7]在文本圖像二值化中引入博弈論的思想,使用非零和的博弈提取圖像局部信息并反饋給K-means 分類器以實(shí)現(xiàn)像素分類。2020 年,KAUR 等[8]對Sauvola 算法進(jìn)行改進(jìn),使用筆劃寬度變換自動(dòng)地在圖像像素之間動(dòng)態(tài)計(jì)算窗口大小,減少了手動(dòng)調(diào)整參數(shù)的數(shù)量,該改進(jìn)方法適用于具有可變筆畫寬度和文本大小的文本圖像二值化。

        近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,大量基于深度學(xué)習(xí)的圖像二值化方法被提出,使得二值化效果取得極大突破。2015 年,PASTOR-PELLICER 等[9]使用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練低質(zhì)量文本圖像,實(shí)現(xiàn)了對文本圖像中各像素的二分類。2016 年,VO 等[10]提出基于高斯混合馬爾可夫隨機(jī)場(GMMRF)的二值化方法,該方法可有效地對具有復(fù)雜背景的樂譜圖像進(jìn)行二值化。2017 年,BRUN 等[11]將卷積神經(jīng)網(wǎng)絡(luò)與圖像分割算法相結(jié)合,以實(shí)現(xiàn)低質(zhì)量文本圖像二值化,其將語義分割的標(biāo)簽用作源和匯估計(jì),并將概率圖用于修剪圖形切割中的邊緣,大幅提升了二值化效果。2018年,VO等[12]提出基于深度監(jiān)督網(wǎng)絡(luò)(DSN)的文本圖像二值化方法,該方法通過高層特征區(qū)分文本像素和背景噪聲,通過淺層特征處理文字邊緣細(xì)節(jié)等信息。2019 年,ZHAO 等[13]將生成式對抗網(wǎng)絡(luò)應(yīng)用于文本圖像二值化,將圖像二值化看作圖像到圖像的生成任務(wù),并引入條件生成對抗網(wǎng)絡(luò)(CGAN)來解決二值化任務(wù)中的多尺度信息組合問題,其進(jìn)一步提升了圖像二值化效果。

        上述部分基于深度學(xué)習(xí)的圖像二值化方法使用卷積神經(jīng)網(wǎng)絡(luò)完成文本圖像的逐像素分類,從而實(shí)現(xiàn)圖像二值化,其相較傳統(tǒng)閾值法具有更優(yōu)的分類精度。但傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)在圖像分割時(shí),缺乏對特征圖全局信息的考慮,使得圖像分割的結(jié)果圖缺乏全局特性。對于文本圖像二值化任務(wù),這類方法容易使文本圖像二值化結(jié)果存在文字筆畫過度不自然、文字邊緣像素分類不準(zhǔn)確等問題。2015 年,LONG 等[14]提出只包含卷積層的神經(jīng)網(wǎng)絡(luò)模型FCN,其將圖像分割問題看作像素級的分類問題。鑒于FCN 在圖像分割領(lǐng)域的優(yōu)秀表現(xiàn),研究人員開始將其用于文本圖像二值化任務(wù)。在DIBCO 2017 競賽中,TENSMEYER 等[15]提出基于FCN 的文本圖像二值化方法,該方法在比賽中取得了第四名的成績,展現(xiàn)了全卷積網(wǎng)絡(luò)模型優(yōu)越的二值化性能。2015 年,RONNEBERGER 等[16]在FCN 基礎(chǔ)上提出一種改進(jìn)的全卷積神經(jīng)網(wǎng)絡(luò)模型U-Net 并用于醫(yī)療圖像分割。U-Net采用對稱的多尺度結(jié)構(gòu)設(shè)計(jì),使其在較小數(shù)據(jù)集上也能夠取得高精度的分割效果。DIBCO 2017 競賽中的冠軍方法將U-Net網(wǎng)絡(luò)用于低質(zhì)量文本圖像二值化,其取得的成績表明該網(wǎng)絡(luò)非常適用于文本圖像二值化分割任務(wù)。

        2019 年,熊煒等[17]將背景估計(jì)與U-Net 網(wǎng)絡(luò)進(jìn)行融合并用于文本圖像二值化,通過形態(tài)學(xué)閉操作來計(jì)算背景,并利用U-Net 網(wǎng)絡(luò)對圖像進(jìn)行背景與前景的分割,最后使用全局最優(yōu)閾值法獲得二值圖。2020 年,KANG 等[18]將U-Net 網(wǎng)絡(luò)進(jìn)行級聯(lián)模塊化,并將級聯(lián)模塊化后的U-Net 用于文本圖像二值化,該方法有效解決了低質(zhì)量文本圖像數(shù)據(jù)集規(guī)模小導(dǎo)致的訓(xùn)練不充分問題,獲得了優(yōu)異的二值化結(jié)果。同年,HUANG 等[19]提出基于全局-局部U-Net 的文本圖像二值化方法,該方法將來自下采樣圖像的全局補(bǔ)丁和裁剪自源圖像的局部補(bǔ)丁作為2 個(gè)不同分支的輸入,最后合并這2 個(gè)分支的結(jié)果實(shí)現(xiàn)二進(jìn)制預(yù)測。2020 年,陳?。?0]在U-Net 上引入遷移學(xué)習(xí)方法實(shí)現(xiàn)低質(zhì)量文本圖像二值化,其在U-Net 的編碼器部分通過遷移學(xué)習(xí)方法遷移不同的模型作為編碼器以完成圖像下采樣,并加載訓(xùn)練模型的預(yù)訓(xùn)練權(quán)重進(jìn)行訓(xùn)練,解決了低質(zhì)量文本圖像數(shù)據(jù)集不足的問題并提升了模型的泛化能力。

        綜上,目前性能較好的二值化方法大多都基于U-Net 實(shí)現(xiàn),表明U-Net 網(wǎng)絡(luò)具有強(qiáng)大的二值化性能。本文對U-Net 網(wǎng)絡(luò)進(jìn)行改進(jìn),針對低質(zhì)量文本圖像中背景干擾、噪聲復(fù)雜,且受限于數(shù)據(jù)集和網(wǎng)絡(luò)規(guī)模大小使圖像全局上下文信息以及深層抽象信息難以獲取,從而導(dǎo)致文本圖像二值化效果不佳的問題,提出一種改進(jìn)的低質(zhì)量文本圖像二值化方法。

        2 本文方法

        選擇小數(shù)據(jù)集上表現(xiàn)優(yōu)越的U-Net 網(wǎng)絡(luò)作為骨干模型,從編碼器、瓶頸層和解碼器3 個(gè)部分對U-Net 進(jìn)行改進(jìn),以更好地滿足低質(zhì)量文本圖像二值化的需求。編碼器部分采用具有強(qiáng)大特征提取能力的小型網(wǎng)絡(luò)VGG16 作為特征提取器,加載VGG16 預(yù)先訓(xùn)練好的權(quán)重進(jìn)行訓(xùn)練;瓶頸層部分通過融合輕量級的全局上下文模塊實(shí)現(xiàn)對文本圖像的全局上下文建模;解碼器部分通過融合殘差跳躍連接提升特征恢復(fù)能力。將改進(jìn)的U-Net 模型用于低質(zhì)量文本圖像二值化,以期取得更精確的二值化效果。

        2.1 編碼器設(shè)計(jì)

        本文去掉VGG16 網(wǎng)絡(luò)中最后2 個(gè)全連接層,保留所有的卷積層和池化層,作為U-Net 網(wǎng)絡(luò)的編碼器,其結(jié)構(gòu)如圖1 所示。該編碼器是一個(gè)含有5 個(gè)尺度的下采樣結(jié)構(gòu),具有很好的特征提取能力。圖像的輸入大小為256×256 像素,通道數(shù)為3。圖像通過編碼器輸入,每經(jīng)過一個(gè)下采樣編碼塊(Block),圖像分辨率相應(yīng)減小,同時(shí)圖像維度增加。

        圖1 編碼器結(jié)構(gòu)Fig.1 Encoder structure

        每個(gè)尺度的編碼塊提取對應(yīng)尺度的二值化特征,得到不同表征的特征。淺層編碼塊提取高分辨率的淺層特征,如文字的邊緣、紋理等細(xì)節(jié)特征,特征數(shù)量較多;深層編碼塊提取低分辨率的深層特征,如文字的形狀、輪廓等抽象特征,這種特征抽象但較難被獲取。低質(zhì)量文本圖像經(jīng)過每個(gè)下采樣編碼塊后輸出的特征圖如圖2 所示,圖像從左往右依次為原圖、Block1~Block5 輸出的特征圖。

        圖2 編碼器不同尺度的輸出特征圖Fig.2 Output feature maps of encoder with different scales

        2.2 瓶頸層設(shè)計(jì)

        U-Net 的編碼器和解碼器之間通過瓶頸層(bootleneck)連接,瓶頸層中包含編碼過程中收集的高級語義信息,這種具有代表性的語義信息經(jīng)由瓶頸層傳播至解碼器,并最終影響解碼器還原特征圖中的深層抽象特征信息。因此,瓶頸層結(jié)構(gòu)對于圖像分割具有重要意義。

        由于低質(zhì)量文本圖像中存在大量的背景干擾噪聲,因此判斷圖像中某一像素點(diǎn)屬于文字還是背景不僅需要考慮該像素自身及其鄰域的灰度值信息,更需結(jié)合圖像的全局上下文信息作出綜合判斷。本節(jié)在U-Net 的瓶頸層中引入一個(gè)輕量級的全局上下文塊,構(gòu)建一個(gè)可有效對圖像全局上下文進(jìn)行建模的U-Net 瓶頸層,增強(qiáng)U-Net 網(wǎng)絡(luò)對長距離依賴信息的建模,從而提升U-Net 的圖像二值化性能。

        融合輕量級全局上下文塊的改進(jìn)瓶頸層結(jié)構(gòu)如圖3所示,該瓶頸層結(jié)構(gòu)可以有效地對低質(zhì)量文本圖像的全局上下文進(jìn)行建模,從而充分學(xué)習(xí)瓶頸層高級語義特征中的全局文字筆畫區(qū)域信息,更好地確定文本圖像中的文字區(qū)域,進(jìn)而提升低質(zhì)量文本圖像二值化的精度。改進(jìn)的瓶頸層結(jié)構(gòu)保留了原方案中的2 個(gè)卷積層用于提取更高層次的抽象語義特征,并在卷積層后緊跟一個(gè)輕量級全局上下文塊用于實(shí)現(xiàn)對特征圖的全局上下文建模,以捕獲圖像的長距離依賴關(guān)系。

        圖3 融合全局上下文塊的U-Net 瓶頸層結(jié)構(gòu)Fig.3 U-Net bottleneck layer structure integrating global context block

        輕量級全局上下文塊的具體結(jié)構(gòu)如圖4 所示,其基于文獻(xiàn)[21]中提出的GC block 構(gòu)建,共由3 個(gè)部分組成:1)用于上下文建模的全局注意力池,即圖4 中的Context Modeling 部分;2)用于捕獲通道依賴性的瓶頸層轉(zhuǎn)換,對應(yīng)圖4 中的Transform1 部分;3)逐個(gè)廣播元素相加的特征融合,對應(yīng)圖4 中的Transform2 部分。該輕量級全局上下文塊是對文獻(xiàn)[22]提出的NLNet 的一種改進(jìn),其中,全局注意力池結(jié)構(gòu)用于將圖像中所有位置的特征聚合起來,構(gòu)建特征圖像的全局上下文特征;特征轉(zhuǎn)換模塊的作用是捕捉各通道間相互依存的關(guān)系;特征融合模塊則用于將構(gòu)建的全局上下文特征與不同位置的特征進(jìn)行合并。全局上下文塊中的訓(xùn)練參數(shù)全部來自1×1 的卷積,并通過添加一個(gè)特征優(yōu)化系數(shù)r用于進(jìn)一步減少該模塊中的參數(shù)量,因此,它是輕量級的,并且可以在多個(gè)卷積層之間應(yīng)用,在不增加計(jì)算成本的情況下能更好地捕獲圖像的長距離依賴關(guān)系。

        圖4 全局上下文塊結(jié)構(gòu)Fig.4 Structure of global context block

        通過這種融合輕量級全局上下文塊的瓶頸層設(shè)計(jì)替換原生U-Net 中的瓶頸層結(jié)構(gòu),使得U-Net 模型在訓(xùn)練低質(zhì)量文本圖像的過程中,更多地保留圖像的全局上下文關(guān)系,從而更精確地區(qū)分文本圖像中的文字區(qū)域與背景區(qū)域。

        2.3 解碼器設(shè)計(jì)

        與編碼器對應(yīng),解碼器也由5 個(gè)尺度的解碼塊構(gòu)成,每個(gè)解碼塊均由若干卷積層和1 個(gè)上采樣層構(gòu)成。解碼器的作用是對編碼器所提取的特征進(jìn)行恢復(fù),解碼器的特征恢復(fù)能力直接決定二值化結(jié)果能否保留更多的文字細(xì)節(jié)和抽象特征,從而影響最終的二值化效果。

        本文通過在解碼塊中融合殘差跳躍連接并適當(dāng)增加解碼塊卷積層數(shù)來提升解碼器的特征恢復(fù)能力。殘差跳躍連接是ResNet 中引入的一種跳躍連接方式,該網(wǎng)絡(luò)由何凱明等[23]于2015 年提出,其模型引入了殘差塊的概念。殘差網(wǎng)絡(luò)在2015 年的ILSVRC 比賽中獲得三項(xiàng)冠軍,分別是圖像的定位、檢測與分類,性能遠(yuǎn)超其他模型。本文通過在解碼塊中引入殘差跳躍連接,以減少卷積過程中的特征丟失,提高解碼器的特征恢復(fù)能力。

        殘差塊結(jié)構(gòu)如圖5 所示,通過跳躍連接方式將淺層網(wǎng)絡(luò)的輸出直接傳輸?shù)礁顚右宰鳛楹罄m(xù)卷積輸入的一部分,從而有效減少卷積過程中的特征丟失,提高特征利用率。殘差跳躍連接的疊加方式為圖像像素值疊加,必須保證疊加的2 張圖像具有相同尺度。當(dāng)圖像維度相同時(shí)為圖5(a)所示的基本殘差結(jié)構(gòu),維度不相同時(shí)則需先通過一個(gè)一維卷積進(jìn)行維度轉(zhuǎn)換后再疊加,如圖5(b)所示。這2 種殘差結(jié)構(gòu)根據(jù)具體情況分別被添加在U-Net 的各解碼塊中,然后構(gòu)建融合殘差跳躍連接的解碼器,其結(jié)構(gòu)如圖6 所示。圖6 中解碼塊上采樣后的圖像通過U-Net的橫向跳躍連接與對應(yīng)尺度編碼塊的下采樣輸出堆疊,導(dǎo)致解碼塊中第一次卷積前后的圖像維度不一致,無法直接添加基本殘差跳躍連接,因此,本文設(shè)計(jì)成帶一維卷積的殘差跳躍連接來完成圖像疊加,如圖6 中橙色的殘差跳躍連接所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。在完成第一次卷積后,圖像維度與解碼塊卷積維度保持一致,此時(shí),在后續(xù)卷積中再添加一個(gè)基本殘差連接,如圖6 中藍(lán)色的殘差跳躍連接所示。

        圖5 殘差塊結(jié)構(gòu)Fig.5 Structure of residual block

        圖6 融合殘差跳躍連接的解碼器結(jié)構(gòu)Fig.6 Decoder structure integrating residual ship connection

        與編碼器對應(yīng),解碼器也被設(shè)計(jì)為包含5 個(gè)解碼塊的結(jié)構(gòu),每個(gè)解碼塊均按圖6 方式設(shè)置2 個(gè)殘差跳躍連接。相比于對應(yīng)尺度的編碼塊,每個(gè)解碼塊增設(shè)一個(gè)卷積層來提升特征恢復(fù)能力。同時(shí),為了防止過擬合并提升模型泛化能力,在解碼器的所有卷積之后都采用Batch Normalization 進(jìn)行規(guī)范化處理,各解碼塊最后通過Dropout 進(jìn)行強(qiáng)正則化輸出。

        融合殘差跳躍連接的解碼器相比常規(guī)解碼器具有更好的特征恢復(fù)能力,可在二值化過程中還原更多的文字特征。常規(guī)解碼器和融合殘差跳躍連接的解碼器所輸出的特征圖對比如圖7 所示,其中從左往右依次為原圖、常規(guī)解碼器輸出、融合殘差跳躍連接的解碼器輸出以及標(biāo)準(zhǔn)二值化圖像。從圖7 可以看出,本文解碼器還原的特征圖保留了更多的文字區(qū)域信息,第一張圖片右下角對比尤為明顯,且文字輪廓更清晰,背景更純凈,說明融合殘差跳躍連接的解碼器比常規(guī)解碼器具有更強(qiáng)的特征恢復(fù)能力,更好地凸顯了文本圖像二值化結(jié)果中文字的區(qū)域信息,從而改善了二值化效果。

        圖7 不同解碼器的輸出特征圖對比Fig.7 Comparison of output feature maps of different decoders

        利用改進(jìn)的編碼器、瓶頸層和解碼器構(gòu)建U-Net網(wǎng)絡(luò),設(shè)計(jì)基于改進(jìn)U-Net 的低質(zhì)量文本圖像二值化方法。低質(zhì)量文本圖像首先在遷移VGG16 的編碼器中完成圖像下采樣;然后經(jīng)過融合全局上下文塊的瓶頸層結(jié)構(gòu),完成全局上下文建模;接著從融合殘差跳躍連接的解碼器中實(shí)現(xiàn)圖像上采樣;最后通過Sigmoid 激活層輸出得到最終的二值化圖像。圖8 所示為改進(jìn)的U-Net 網(wǎng)絡(luò)結(jié)構(gòu)。

        圖8 改進(jìn)的U-Net 網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 Improved U-Net network structure

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 二值化評估指標(biāo)

        圖像二值化結(jié)果的優(yōu)劣由4 項(xiàng)重要指標(biāo)評估,分別為圖像的F 值(FM)、偽F 值(p-FM)、峰值信噪比(PSNR)和距離倒數(shù)失真度量(DRD)。

        3.1.1 圖像F 值

        圖像F 值記為FM,其值大小與文本圖像二值化優(yōu)劣正相關(guān),計(jì)算公式如下:

        其中:TP、FP和FN分別表示真實(shí)的正值、錯(cuò)誤的正值和錯(cuò)誤的負(fù)值。

        3.1.2 圖像偽F 值

        圖像偽F 值記為p-FM,其值大小與二值化結(jié)果優(yōu)劣正相關(guān),計(jì)算公式如下:

        其中:Pp-Recall定義為二值化圖像與標(biāo)準(zhǔn)圖像中字符結(jié)構(gòu)的百分比。

        3.1.3 圖像峰值信噪比

        圖像峰值信噪比記為PSNR,其反映2 張圖像的相似度,PSNR 值大小與圖像二值化結(jié)果優(yōu)劣正相關(guān),計(jì)算公式如下:

        3.1.4 圖像距離倒數(shù)失真度量

        圖像距離倒數(shù)失真度量記為DRD,其值大小與二值化效果優(yōu)劣反相關(guān),計(jì)算公式如下:

        本文用訓(xùn)練得到的模型對測試集圖像進(jìn)行二值化,然后用評價(jià)工具測出每張圖像的各項(xiàng)二值化指標(biāo),最后對所有圖像的指標(biāo)求平均得到最終結(jié)果。輸出保存的模型為訓(xùn)練過程中FM 值最佳的模型。

        3.2 結(jié)果分析

        為了驗(yàn)證本文改進(jìn)U-Net 模型對低質(zhì)量文本圖像二值化的有效性,分別在DIBCO 2016—2018 這3 個(gè)數(shù)據(jù)集上和其他優(yōu)秀方法進(jìn)行性能對比。本文模型在訓(xùn)練過程中,設(shè)置epoch 為256,batch size 為16,學(xué)習(xí)率起始為1e-4 并動(dòng)態(tài)調(diào)整。將圖像FM 值設(shè)為模型的損失函數(shù),每個(gè)epoch 訓(xùn)練完畢計(jì)算FM 值,若20 個(gè)epoch 內(nèi)FM值沒有增加,則將學(xué)習(xí)率乘以0.1。訓(xùn)練集為2009—2018 的DIBCO 數(shù)據(jù)集,在訓(xùn)練過程中,為了保證對比的公平性,當(dāng)測試某個(gè)數(shù)據(jù)集時(shí),將該年份之前的所有年份數(shù)據(jù)集作為訓(xùn)練樣本進(jìn)行訓(xùn)練,輸出權(quán)重模型,然后加載權(quán)重模型對目標(biāo)數(shù)據(jù)集進(jìn)行二值化得到二值化圖像,最后采用二值化評估工具對二值化圖像進(jìn)行指標(biāo)評估。評估結(jié)果分別與DIBCO 2016—2018 獲勝者以及其他研究人員針對這3 個(gè)數(shù)據(jù)集的經(jīng)典、最新和最優(yōu)成果進(jìn)行對比與分析,包括二值化指標(biāo)數(shù)據(jù)對比和二值化效果對比。

        3.2.1 二值化評估指標(biāo)對比分析

        將本文方法的二值化評估指標(biāo)結(jié)果與經(jīng)典方法、目前最優(yōu)方法的評估指標(biāo)結(jié)果進(jìn)行對比,對比方法包括對應(yīng)年份的DIBCO競賽冠軍方法、Otsu[1]、Sauvola[2]、文獻(xiàn)[12]方法、文獻(xiàn)[13]方法、文獻(xiàn)[17]方法、文獻(xiàn)[18]方法、文獻(xiàn)[19]方法和文獻(xiàn)[20]方法,其中,文獻(xiàn)[20]方法包括未添加預(yù)處理和添加預(yù)處理2 種情況。實(shí)驗(yàn)對比數(shù)據(jù)均來自各方法的原始文獻(xiàn)。各方法在DIBCO 2016—2018 這3 個(gè)數(shù)據(jù)集上的二值化評估指標(biāo)對比結(jié)果分別如表1~表3 所示,加粗表示最優(yōu)結(jié)果。

        表1 DIBCO 2016 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比Table 1 Comparison of experimental results on DIBCO 2016 dataset

        表2 DIBCO 2017 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比Table 2 Comparison of experimental results on DIBCO 2017 dataset

        表3 DIBCO 2018 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比Table 3 Comparison of experimental results on DIBCO 2018 dataset

        由表1可知,在DIBCO 2016數(shù)據(jù)集上,文獻(xiàn)[18]方法綜合二值化性能最優(yōu),該方法基于級聯(lián)模塊化后的UNet實(shí)現(xiàn),在FM、p-FM這2項(xiàng)指標(biāo)上取得最優(yōu)。文獻(xiàn)[13]方法擁有最佳的DRD 指標(biāo),該方法基于生成式對抗網(wǎng)絡(luò)實(shí)現(xiàn),視覺失真程度最低。本文方法擁有最佳PSNR指標(biāo)及排名第二的FM指標(biāo)和DRD指標(biāo),說明該方法的二值化結(jié)果與標(biāo)準(zhǔn)二值化結(jié)果的相似度最高,具有很低的視覺失真程度,其綜合二值化性能僅次于文獻(xiàn)[18]方法,比添加了圖像預(yù)處理的文獻(xiàn)[20]方法二值化性能更好。

        由表2 可知,在DIBCO 2017 數(shù)據(jù)集上,在所有對比方法中,本文方法的FM 和PSNR 這2 個(gè)指標(biāo)最佳,p-FM 和DRD 這2 項(xiàng)指標(biāo)只略低于添加了預(yù)處理的文獻(xiàn)[20]方法,這是由于文獻(xiàn)[20]方法的預(yù)處理方式對輸入圖像做了銳化和光照補(bǔ)償,使文字與背景區(qū)分度更高,而本文方法在沒有做預(yù)處理的情況下,F(xiàn)M 和PSNR 這2 個(gè)指標(biāo)仍高于添加預(yù)處理后的文獻(xiàn)[20]方法,綜合二值化性能與其相當(dāng),優(yōu)于其他對比方法。

        由表3 可知,在DIBCO 2018 數(shù)據(jù)集上,本文方法的二值化性能僅低于添加了預(yù)處理的文獻(xiàn)[20]方法,這仍然是由于后者的圖像預(yù)處理所帶來的性能提升。相較其他對比方法,本文方法的各項(xiàng)二值化指標(biāo)均具有較大幅度的提升。

        通過DIBCO 2016—2018 這3 個(gè)數(shù)據(jù)集的測試對比可以看出,本文方法對低質(zhì)量文本圖像具有良好的二值化性能,驗(yàn)證了改進(jìn)U-Net 模型的有效性。

        3.2.2 二值化效果圖對比分析

        為直觀地展示本文方法的二值化效果,將本文方法與其他代表性方法的二值化效果圖進(jìn)行對比。

        圖9 所示為各對比方法在DIBCO 2016—2018數(shù)據(jù)集上的部分二值化效果圖。從圖9 可以看出:DIBCO 競賽冠軍方法的二值化結(jié)果中保留了較多的背景噪聲,且將圖中某一滲透的墨水污漬誤判為文字,未實(shí)現(xiàn)良好的去噪效果;未結(jié)合圖像預(yù)處理的文獻(xiàn)[20]方法的二值化效果良好,但仍保留了較多的背景噪聲,在結(jié)合圖像預(yù)處理后其整體二值化效果得到了較明顯的提升,大部分噪聲被有效去除;本文方法很好地將低質(zhì)量文本圖像的文字和背景分離,去除了更多的背景噪聲,識別出較對比方法更精確、清晰的文字區(qū)域。

        圖9 不同方法的二值化效果對比Fig.9 Comparison of binarization effect of different methods

        本文方法所得的二值化效果圖如圖10 所示。從圖10 可以看出,本文方法所得的二值化圖像與標(biāo)準(zhǔn)二值化圖像相似度很高,文本圖像的大部分背景噪聲都被有效去除,文字的形狀和輪廓清晰。

        圖10 本文方法的二值化效果圖Fig.10 The binarization effect maps of this method

        4 結(jié)束語

        本文提出一種基于改進(jìn)U-Net 的低質(zhì)量文本圖像二值化方法。從編碼器、瓶頸層和解碼器3 個(gè)方面對傳統(tǒng)U-Net 網(wǎng)絡(luò)進(jìn)行改進(jìn)并用于低質(zhì)量文本圖像二值化,改進(jìn)的U-Net 網(wǎng)絡(luò)不僅具有更優(yōu)的特征提取能力和特征還原能力,使得圖像二值化結(jié)果中保留更豐富的文字細(xì)節(jié),同時(shí)還具有更佳的全局上下文建模能力,可在圖像二值化過程中實(shí)現(xiàn)更好的去噪效果。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法良好的圖像二值化性能。

        盡管本文方法取得了較好的文本圖像二值化效果,但仍存在一定的性能提升空間。該方法通過在U-Net 解碼器中融合殘差跳躍連接,為文本圖像二值化結(jié)果保留更多的深層特征,但圖像在下采樣過程中分辨率逐漸減小,伴隨著大量淺層特征的丟失,使得圖像二值化結(jié)果中文字的邊緣紋理等淺層特征細(xì)節(jié)表達(dá)不足。雖然U-Net 網(wǎng)絡(luò)通過橫向跳躍將相同尺度的下采樣輸出與上采樣輸入進(jìn)行堆疊,較大程度地減少了淺層特征丟失,但這部分淺層特征未被訓(xùn)練,不具有良好的泛化性。因此,如何更好地提取和利用文本圖像淺層特征以豐富二值化結(jié)果中文字的筆畫、紋理等細(xì)節(jié),將是下一步的研究方向。

        猜你喜歡
        低質(zhì)量二值解碼器
        雷人畫語
        美文(2023年5期)2023-03-26 03:15:00
        科學(xué)解碼器(一)
        混沌偽隨機(jī)二值序列的性能分析方法研究綜述
        支持CNN與LSTM的二值權(quán)重神經(jīng)網(wǎng)絡(luò)芯片
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        基于二值形態(tài)學(xué)算子的軌道圖像分割新算法
        視頻圖像文字的二值化
        低質(zhì)量的婚姻不如高質(zhì)量的單身,是真的嗎?(一)
        婦女生活(2017年5期)2017-05-16 21:04:56
        人人澡人人澡人人看添av| 中文字幕av一区二区三区诱惑| 久久精品人妻中文av| 日本少妇又色又爽又高潮| 特黄特色的大片观看免费视频| 欧美成人免费高清视频| 日本一区二区三区小视频| 国产激情一区二区三区不卡av | 强开小婷嫩苞又嫩又紧视频| 明星性猛交ⅹxxx乱大交| 青春草国产视频| 亚洲天堂一区二区精品| 国产极品少妇一区二区| 亚洲色无码国产精品网站可下载| 亚洲av无码片在线播放| 日本大片在线一区二区三区| 国产成人自拍高清在线| 中文字幕在线亚洲日韩6页| 国产精品自产拍在线观看免费| 日本中文字幕人妻精品| 国产精品成人观看视频国产奇米| 久久九九国产精品怡红院| 正在播放淫亚洲| 青青草免费观看视频免费| 色哟哟最新在线观看入口| 少妇饥渴xxhd麻豆xxhd骆驼| 色婷婷色99国产综合精品| 丝袜美腿亚洲综合第一页| 永久免费人禽av在线观看| 日本55丰满熟妇厨房伦| 亚洲精品二区在线观看| 久久婷婷综合缴情亚洲狠狠| 人人妻人人澡人人爽人人精品97| 无码不卡免费一级毛片视频| 一区二区亚洲熟女偷拍| 麻花传媒68xxx在线观看| 欧美成人精品一区二区综合| 国产V亚洲V天堂A无码| 国产日产桃色精品久久久| 激情内射日本一区二区三区 | 香蕉成人啪国产精品视频综合网 |