亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于U-Net 的歷史文檔圖像分割研究

        2020-08-19 06:18:28賈曉光伍星何中市但靜培
        現(xiàn)代計(jì)算機(jī) 2020年19期
        關(guān)鍵詞:特征歷史實(shí)驗(yàn)

        賈曉光,伍星,何中市,但靜培

        (重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶 400000)

        0 引言

        歷史文檔是學(xué)者對(duì)于古代社會(huì)、人文等方面研究必不可少的重要資料,有必要將這些文明的瑰寶以電子化的形式保存。然而無論是學(xué)者的研究還是歷史文檔的保存,均需要語義分割技術(shù)的支持,尤其是通過OCR(光學(xué)字符識(shí)別)對(duì)文本圖像提取文字,細(xì)粒度分割后的文本圖像能夠大大提升OCR 的識(shí)別效果。但是不同于傳統(tǒng)文檔圖像,歷史文檔版式復(fù)雜、頁面黃化和不同的寫作風(fēng)格等原因,使得對(duì)歷史文檔文本區(qū)域分割難度大大增加。

        歷史文檔圖像分割方法可分為傳統(tǒng)和基于深度學(xué)習(xí)的方法。傳統(tǒng)文檔圖像分割方法程序復(fù)雜,并且依賴人工提取特征,要求提取特征的人具有相關(guān)的知識(shí)背景。深度學(xué)習(xí)分割方法利用CNN 提取更豐富圖像特征,然后對(duì)像素點(diǎn)或超像素進(jìn)行分類,相比傳統(tǒng)方法能夠取得更好地分割結(jié)果,但是現(xiàn)有的深度學(xué)習(xí)網(wǎng)絡(luò)模型特征提取網(wǎng)絡(luò)結(jié)構(gòu)簡單,并且增加了較多的后處理工作,大大降低了分割效率,同時(shí)沒有考慮數(shù)據(jù)集中類別不均衡的問題。

        因此,本文提出了一個(gè)端對(duì)端的像素級(jí)別歷史文檔分割模型,貢獻(xiàn)如下:①構(gòu)建了以DenseNet[1]為骨干網(wǎng)的U-Net[2]融合更豐富的圖像特征以解決歷史文檔圖像布局復(fù)雜的問題。同時(shí)在DenseNet 骨干網(wǎng)中加入空洞卷積[3]來擴(kuò)大感受野來融入更多地上下文信息;②使用了Focal Loss[4]函數(shù)進(jìn)行輔助監(jiān)督訓(xùn)練以解決數(shù)據(jù)集類別極不均衡問題;③針對(duì)歷史文檔數(shù)據(jù)集圖像數(shù)量少的問題,本文使用數(shù)據(jù)增強(qiáng)對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)充;通過對(duì)歷史文檔圖像類別布局分析,使用over?lap-tile 策略對(duì)圖像進(jìn)行分割預(yù)處理。本文模型在歷史文檔分割數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并取得了當(dāng)前最好的分割效果。

        1 數(shù)據(jù)預(yù)處理

        通過對(duì)數(shù)據(jù)集的分析,發(fā)現(xiàn)數(shù)據(jù)集圖像數(shù)量較少且每張圖像尺寸大。所以使用數(shù)據(jù)增強(qiáng)與基于over?lap-tile 策略的圖像切割方法進(jìn)行數(shù)據(jù)預(yù)處理。

        圖像數(shù)量較少不利于網(wǎng)絡(luò)模型的監(jiān)督學(xué)習(xí),本文使用圖像增強(qiáng)的鏡像操作方法進(jìn)行數(shù)據(jù)集擴(kuò)充,得到了比原數(shù)據(jù)更豐富的圖像信息,擴(kuò)充后的訓(xùn)練集大小為150 張圖像。

        由于圖像尺寸較大以及硬件設(shè)備的限制,網(wǎng)絡(luò)無法進(jìn)行監(jiān)督訓(xùn)練,而大幅度的縮放圖像會(huì)造成大量信息的丟失,甚至?xí)膱D像信息,本文按比例將原圖切割為相同大小的圖像塊來作為網(wǎng)絡(luò)的輸入。為了更精確地分割圖像邊緣部分,本文借鑒U-Net 中的overlaptile 策略,它通過重疊平鋪策略無縫分割任意大的圖像,補(bǔ)全了要獲得圖像的上下文信息。見圖1,右側(cè)圖像即是左側(cè)圖像中橘色框內(nèi)的圖像,若要對(duì)右側(cè)圖像進(jìn)行分割,則需要將左側(cè)藍(lán)色框大小圖像放入網(wǎng)絡(luò),最后通過裁剪預(yù)測(cè)圖得到。

        圖1 通過overlap-tile策略預(yù)測(cè)右側(cè)圖像

        2 網(wǎng)絡(luò)結(jié)構(gòu)

        本文設(shè)計(jì)了如圖2 所示的U-Net 網(wǎng)絡(luò)模型。網(wǎng)絡(luò)采用DenseNet 作為骨干網(wǎng)提取特征并加入空洞卷積模塊,主要作用是通過特征圖拼接加強(qiáng)圖像特征的融合,最后使用帶有Focal Loss 的混合損失函數(shù)進(jìn)行監(jiān)督訓(xùn)練。

        圖2 網(wǎng)絡(luò)結(jié)構(gòu)圖

        2.1 基于DenseNet的U-Net網(wǎng)絡(luò)

        對(duì)于具有復(fù)雜版面布局的歷史文檔圖像,本文UNet 使用了具有特征融合性更強(qiáng)的DenseNet 骨干網(wǎng)來提取特征。它是在ResNet[5]的基礎(chǔ)上進(jìn)行改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò),由多個(gè)DenseBlock 和過渡層交叉堆疊構(gòu)成,相比較其他骨干網(wǎng),加強(qiáng)了特征的傳遞、復(fù)用和融合,還具有一定的抗過擬合的能力。本文選擇DenseNet-169,對(duì)每個(gè)Block 的輸出做上采樣操作,同時(shí)與下采樣相同尺寸的特征圖進(jìn)行拼接,構(gòu)成了新的U-Net 網(wǎng)絡(luò)結(jié)構(gòu)。通過多次低階與高階特征復(fù)用、拼接融合,能更好地提取具有復(fù)雜版面布局的歷史文檔圖像的特征。

        歷史文檔圖像分割依賴更多的上下文信息,因此需要更大的感受野,因此使用了空洞卷積核,同時(shí)Peng、Chao 等人[6]驗(yàn)證了多個(gè)小卷積核堆疊的實(shí)際感受野達(dá)不到理論感受野大小。

        本文對(duì)每個(gè)DenseBlock 的輸出做 rate=3 的 3×3空洞卷積,然后與原特征圖進(jìn)行拼接,這樣能夠融合更多的上下文信息。本文對(duì)多個(gè)DenseBlock 的輸出均進(jìn)行了空洞卷積操作,可以認(rèn)為實(shí)現(xiàn)了多個(gè)空洞卷積核的串行堆疊,更大大擴(kuò)大了感受野,能更好地提升分割效果。堆疊感受野分別為R1 和R2 的空洞卷積核,其感受野 R 見公式(1):

        2.2 損失函數(shù)的設(shè)計(jì)

        目標(biāo)檢測(cè)領(lǐng)域中通過使用Focal Loss[4]來消除類別不平衡造成的分類錯(cuò)誤。歷史文檔數(shù)據(jù)集同樣存在類別極不平衡的情況,因此本文使用Focal Loss 來輔助監(jiān)督訓(xùn)練。Focal Loss 可以看作帶有權(quán)重的交叉熵?fù)p失函數(shù),其定義見公式(2):

        其中(λ-pk)γ為交叉熵?fù)p失對(duì)應(yīng)的權(quán)重,pk 為第k類的預(yù)測(cè)概率。本文設(shè)置γ為2,λ為0.5 進(jìn)行實(shí)驗(yàn),在裝飾類別提升了較大的效果。最終的損失函數(shù)由多分類交叉損失函數(shù)和Focal Loss 函數(shù)相加得到,見公式(3):

        將網(wǎng)絡(luò)右側(cè)與左側(cè)分支的輸出相加,從標(biāo)記圖像中獲得監(jiān)督信號(hào)來計(jì)算損失,通過BP 更新網(wǎng)絡(luò)參數(shù)。

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 數(shù)據(jù)集

        DIVA-HisDB[7]是在2017 年發(fā)布的最新歷史文檔分割數(shù)據(jù),包括CB55、CS18、CS863 三種類型的中世紀(jì)手稿圖像數(shù)據(jù)集,具有復(fù)雜的布局版式、多樣的手寫樣式、黃化的頁面等具有挑戰(zhàn)性文檔分割的特點(diǎn),每種類型的數(shù)據(jù)集均含帶有標(biāo)記的20 張訓(xùn)練集、10 張測(cè)試集和10 張驗(yàn)證集。其中CB55 每張圖像尺寸為4872×6496,其余數(shù)據(jù)集尺寸為3228×4992。

        數(shù)據(jù)集中,像素點(diǎn)共分四類:背景(頁面和四周黑色背景)、正文、評(píng)論(分布在正文兩側(cè)或正文行與行之間的注釋)、裝飾(紅色的字符等),圖像使用黑色背景包圍文檔圖像。統(tǒng)計(jì)每個(gè)類別的像素?cái)?shù),得到被標(biāo)注的41.37%為評(píng)論,1.69%為裝飾,56.94%為正文。值得注意的是,裝飾類別面積只占有總頁面的1.69%,可見類別數(shù)目極不均衡。

        3.2 評(píng)價(jià)指標(biāo)

        本文使用ICDAR 官方提供的歷史文檔圖像分割評(píng)價(jià)工具[8],即 Accuracy(像素精度)、mAcc(平均像素精度)、mIou(平均交并比)、FwIou(頻率加權(quán)交并比)。Accuracy、mAcc、mIou 和 FwIou 的定義分別見公式(4)、(5)、(6)和(7)所示。

        其中k 表示類別數(shù)目,Nc表示類別總數(shù),Ti表示類別i 的像素點(diǎn)總數(shù),Nij表示標(biāo)記為類別i 預(yù)測(cè)類別為j的像素點(diǎn)數(shù)目。以上四種指標(biāo),均是數(shù)值越大分割效果越好,反之則越差。

        3.3 實(shí)驗(yàn)分析

        本文設(shè)計(jì)了4 個(gè)實(shí)驗(yàn)分別闡述了本文模型、融合空洞卷積的DenseNet、圖像切割比例和Focal Loss 對(duì)歷史文檔圖像分割的有效性。

        (1)深度學(xué)習(xí)模型間對(duì)比

        本實(shí)驗(yàn)是本文模型與其它深度學(xué)習(xí)模型的對(duì)比實(shí)驗(yàn),其分割圖如圖2 第2 列所示。表1 顯示,本文模型在三個(gè)數(shù)據(jù)集各指標(biāo)上均優(yōu)于文獻(xiàn)[9]。經(jīng)過對(duì)文獻(xiàn)[9]的分析得到,SLIC[10]超像素分割時(shí)就存在較多的錯(cuò)誤,同時(shí)CNN 也會(huì)出現(xiàn)分類錯(cuò)誤,串行的操作大大降低了分割精度,同時(shí)[9]將原圖切成較小的圖像塊作為CNN的輸入,網(wǎng)絡(luò)無法獲取更多的上下文信息,進(jìn)而導(dǎo)致超像素分類錯(cuò)誤,進(jìn)而出現(xiàn)區(qū)域性分割錯(cuò)誤。

        (2)Focal Loss 的有效性

        為消除裝飾類別占比極不平衡對(duì)分割帶來的影響,本文做了消融實(shí)驗(yàn)來驗(yàn)證Focal Loss 的有效性。通過表3 得到,針對(duì)裝飾類別占比最小的CB863(<1%),F(xiàn)ocal Loss 在mIou 提升最大,達(dá)到1.04%左右。而針對(duì)裝飾類別占比最大(<%2)的 CB55,使用 Focal Loss 后雖然平均精度有所下降,但是mIou 在提升,說明CB55分割的主要矛盾并不在類別不平衡,F(xiàn)ocal Loss 對(duì)其裝飾分割貢獻(xiàn)不大,反而影響了對(duì)于區(qū)域面積相差不大的評(píng)論和正文的分割。結(jié)合實(shí)驗(yàn),可以認(rèn)為Focal Loss對(duì)類別極不平衡的圖像分割是有效的。

        表1 不同模型的實(shí)驗(yàn)結(jié)果(百分比)

        表2 1/4 比例切割下Focal Loss 的消融實(shí)驗(yàn)結(jié)果

        表3 本文方法在不同切割比例下的實(shí)驗(yàn)結(jié)果

        (3)圖像切割比例大小的影響

        根據(jù)實(shí)驗(yàn)結(jié)果可以看到,切割比例對(duì)圖像分割效果影響較大,圖2 展示了右側(cè)1/4 切割遠(yuǎn)遠(yuǎn)好于左側(cè)1/8 切割的分割結(jié)果。本文認(rèn)為數(shù)據(jù)集中圖像類別區(qū)域有較為固定的布局,每張切割后的圖像都需要保留獨(dú)特的布局特征,而無論是1/8 還是1/15 切割原圖,切割后的圖像尺寸太小,那么圖像塊中只含較少或不含有獨(dú)特的布局特征,CNN 在訓(xùn)練時(shí)無法獲得足夠的上下文信息,不能提取出圖像塊特有的高階特征,可以間接地認(rèn)為網(wǎng)絡(luò)無法通過圖像本身的高階特征去學(xué)習(xí)其在原圖的位置信息,從而出現(xiàn)大面積的分割錯(cuò)誤。

        尤其是 CB55,通過表 3 得到 1/4 比 1/8 切割在mIou 和mAcc 兩個(gè)指標(biāo)提升了近一倍,相比較另外兩個(gè)數(shù)據(jù)集,CB55 的正文和評(píng)論在文字顏色、書寫筆跡等方面較為相似,而且較小尺寸的圖像又無法通過網(wǎng)絡(luò)學(xué)習(xí)到位置信息。另外兩個(gè)數(shù)據(jù)集也出現(xiàn)了較多的小區(qū)域分割錯(cuò)誤。根據(jù)實(shí)驗(yàn)結(jié)果證明了切割比例對(duì)最終圖像分割結(jié)果有著重要的影響。

        圖3 CB55在不同切割比例下的分割圖

        圖4 標(biāo)記可視化圖像,本文模型和1/8分割示例圖

        4 結(jié)語

        本文對(duì)于歷史文檔分割的研究是基于歷史文檔數(shù)據(jù)本身的特點(diǎn)和前人研究方法的不足之處,提出了一個(gè)基于U-Net 的端到端的像素級(jí)別的歷史文檔圖像分割網(wǎng)絡(luò),通過合理的數(shù)據(jù)處理和模型設(shè)計(jì),在DIVAHisDB 頁面分割任務(wù)上獲得了最優(yōu)的效果。后續(xù)會(huì)考慮其它造成歷史文檔圖像分割難的特點(diǎn)進(jìn)行研究和模型設(shè)計(jì)。

        猜你喜歡
        特征歷史實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        如何表達(dá)“特征”
        做個(gè)怪怪長實(shí)驗(yàn)
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        新歷史
        全體育(2016年4期)2016-11-02 18:57:28
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        歷史上的6月
        歷史上的八個(gè)月
        国产九九在线观看播放| 国内精品久久久久国产盗摄| 成人一区二区三区激情视频| 亚洲乱码无人区卡1卡2卡3| 日韩人妻ol丝袜av一二区| 免费精品一区二区三区第35| 中文字幕在线日韩| 亚洲色拍拍噜噜噜最新网站| 黑丝美女被内射在线观看| 日韩女同一区二区三区久久| 亚洲日本精品国产一区二区三区| 亚洲av永久无码天堂网| 中文字幕亚洲欧美日韩2019| 日韩一欧美内射在线观看| 国产极品喷水视频| 亚洲少妇一区二区三区老| 99精品久久精品一区| 大学生高潮无套内谢视频| 国产精品igao视频网| 欧美末成年videos在线观看| 日韩AV无码一区二区三不卡| 欧美巨大xxxx做受中文字幕| 国产91在线精品观看| 久久国产精品亚洲va麻豆| 亚洲av色香蕉一区二区三区老师| 精品国产三级在线观看| 久久久久久久妓女精品免费影院| 国产高跟丝袜在线诱惑| 熟女人妻一区二区三区| 亚洲精品无码久久久久y| 国产熟妇高潮呻吟喷水| 日韩在线观看你懂的| 精品丝袜国产在线播放| 国产一区二区三区在线观看黄| 久久精品色福利熟妇丰满人妻91| 亚洲av成人片色在线观看高潮| a国产一区二区免费入口| 亚洲熟妇大图综合色区| 国产丝袜在线福利观看| 亚洲一区二区国产激情| 欧美内射深喉中文字幕|