亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于U-Net 的歷史文檔圖像分割研究

2020-08-19 06:18:28賈曉光伍星何中市但靜培

現(xiàn)代計(jì)算機(jī) 2020年19期

賈曉光，伍星，何中市，但靜培

（重慶大學(xué)計(jì)算機(jī)學(xué)院，重慶 400000）

0 引言

歷史文檔是學(xué)者對(duì)于古代社會(huì)、人文等方面研究必不可少的重要資料，有必要將這些文明的瑰寶以電子化的形式保存。然而無論是學(xué)者的研究還是歷史文檔的保存，均需要語義分割技術(shù)的支持，尤其是通過OCR（光學(xué)字符識(shí)別）對(duì)文本圖像提取文字，細(xì)粒度分割后的文本圖像能夠大大提升OCR 的識(shí)別效果。但是不同于傳統(tǒng)文檔圖像，歷史文檔版式復(fù)雜、頁面黃化和不同的寫作風(fēng)格等原因，使得對(duì)歷史文檔文本區(qū)域分割難度大大增加。

歷史文檔圖像分割方法可分為傳統(tǒng)和基于深度學(xué)習(xí)的方法。傳統(tǒng)文檔圖像分割方法程序復(fù)雜，并且依賴人工提取特征，要求提取特征的人具有相關(guān)的知識(shí)背景。深度學(xué)習(xí)分割方法利用CNN 提取更豐富圖像特征，然后對(duì)像素點(diǎn)或超像素進(jìn)行分類，相比傳統(tǒng)方法能夠取得更好地分割結(jié)果，但是現(xiàn)有的深度學(xué)習(xí)網(wǎng)絡(luò)模型特征提取網(wǎng)絡(luò)結(jié)構(gòu)簡單，并且增加了較多的后處理工作，大大降低了分割效率，同時(shí)沒有考慮數(shù)據(jù)集中類別不均衡的問題。

因此，本文提出了一個(gè)端對(duì)端的像素級(jí)別歷史文檔分割模型，貢獻(xiàn)如下：①構(gòu)建了以DenseNet[1]為骨干網(wǎng)的U-Net[2]融合更豐富的圖像特征以解決歷史文檔圖像布局復(fù)雜的問題。同時(shí)在DenseNet 骨干網(wǎng)中加入空洞卷積[3]來擴(kuò)大感受野來融入更多地上下文信息；②使用了Focal Loss[4]函數(shù)進(jìn)行輔助監(jiān)督訓(xùn)練以解決數(shù)據(jù)集類別極不均衡問題；③針對(duì)歷史文檔數(shù)據(jù)集圖像數(shù)量少的問題，本文使用數(shù)據(jù)增強(qiáng)對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)充；通過對(duì)歷史文檔圖像類別布局分析，使用over?lap-tile 策略對(duì)圖像進(jìn)行分割預(yù)處理。本文模型在歷史文檔分割數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并取得了當(dāng)前最好的分割效果。

1 數(shù)據(jù)預(yù)處理

通過對(duì)數(shù)據(jù)集的分析，發(fā)現(xiàn)數(shù)據(jù)集圖像數(shù)量較少且每張圖像尺寸大。所以使用數(shù)據(jù)增強(qiáng)與基于over?lap-tile 策略的圖像切割方法進(jìn)行數(shù)據(jù)預(yù)處理。

圖像數(shù)量較少不利于網(wǎng)絡(luò)模型的監(jiān)督學(xué)習(xí)，本文使用圖像增強(qiáng)的鏡像操作方法進(jìn)行數(shù)據(jù)集擴(kuò)充，得到了比原數(shù)據(jù)更豐富的圖像信息，擴(kuò)充后的訓(xùn)練集大小為150 張圖像。

由于圖像尺寸較大以及硬件設(shè)備的限制，網(wǎng)絡(luò)無法進(jìn)行監(jiān)督訓(xùn)練，而大幅度的縮放圖像會(huì)造成大量信息的丟失，甚至?xí)膱D像信息，本文按比例將原圖切割為相同大小的圖像塊來作為網(wǎng)絡(luò)的輸入。為了更精確地分割圖像邊緣部分，本文借鑒U-Net 中的overlaptile 策略，它通過重疊平鋪策略無縫分割任意大的圖像，補(bǔ)全了要獲得圖像的上下文信息。見圖1，右側(cè)圖像即是左側(cè)圖像中橘色框內(nèi)的圖像，若要對(duì)右側(cè)圖像進(jìn)行分割，則需要將左側(cè)藍(lán)色框大小圖像放入網(wǎng)絡(luò)，最后通過裁剪預(yù)測(cè)圖得到。

圖1 通過overlap-tile策略預(yù)測(cè)右側(cè)圖像

2 網(wǎng)絡(luò)結(jié)構(gòu)

本文設(shè)計(jì)了如圖2 所示的U-Net 網(wǎng)絡(luò)模型。網(wǎng)絡(luò)采用DenseNet 作為骨干網(wǎng)提取特征并加入空洞卷積模塊，主要作用是通過特征圖拼接加強(qiáng)圖像特征的融合，最后使用帶有Focal Loss 的混合損失函數(shù)進(jìn)行監(jiān)督訓(xùn)練。

圖2 網(wǎng)絡(luò)結(jié)構(gòu)圖

2.1 基于DenseNet的U-Net網(wǎng)絡(luò)

對(duì)于具有復(fù)雜版面布局的歷史文檔圖像，本文UNet 使用了具有特征融合性更強(qiáng)的DenseNet 骨干網(wǎng)來提取特征。它是在ResNet[5]的基礎(chǔ)上進(jìn)行改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)，由多個(gè)DenseBlock 和過渡層交叉堆疊構(gòu)成，相比較其他骨干網(wǎng)，加強(qiáng)了特征的傳遞、復(fù)用和融合，還具有一定的抗過擬合的能力。本文選擇DenseNet-169，對(duì)每個(gè)Block 的輸出做上采樣操作，同時(shí)與下采樣相同尺寸的特征圖進(jìn)行拼接，構(gòu)成了新的U-Net 網(wǎng)絡(luò)結(jié)構(gòu)。通過多次低階與高階特征復(fù)用、拼接融合，能更好地提取具有復(fù)雜版面布局的歷史文檔圖像的特征。

歷史文檔圖像分割依賴更多的上下文信息，因此需要更大的感受野，因此使用了空洞卷積核，同時(shí)Peng、Chao 等人[6]驗(yàn)證了多個(gè)小卷積核堆疊的實(shí)際感受野達(dá)不到理論感受野大小。

本文對(duì)每個(gè)DenseBlock 的輸出做 rate=3 的 3×3空洞卷積，然后與原特征圖進(jìn)行拼接，這樣能夠融合更多的上下文信息。本文對(duì)多個(gè)DenseBlock 的輸出均進(jìn)行了空洞卷積操作，可以認(rèn)為實(shí)現(xiàn)了多個(gè)空洞卷積核的串行堆疊，更大大擴(kuò)大了感受野，能更好地提升分割效果。堆疊感受野分別為R1 和R2 的空洞卷積核，其感受野 R 見公式（1）：

2.2 損失函數(shù)的設(shè)計(jì)

目標(biāo)檢測(cè)領(lǐng)域中通過使用Focal Loss[4]來消除類別不平衡造成的分類錯(cuò)誤。歷史文檔數(shù)據(jù)集同樣存在類別極不平衡的情況，因此本文使用Focal Loss 來輔助監(jiān)督訓(xùn)練。Focal Loss 可以看作帶有權(quán)重的交叉熵?fù)p失函數(shù)，其定義見公式（2）：

其中（λ-pk）γ為交叉熵?fù)p失對(duì)應(yīng)的權(quán)重，pk 為第k類的預(yù)測(cè)概率。本文設(shè)置γ為2，λ為0.5 進(jìn)行實(shí)驗(yàn)，在裝飾類別提升了較大的效果。最終的損失函數(shù)由多分類交叉損失函數(shù)和Focal Loss 函數(shù)相加得到，見公式（3）：

將網(wǎng)絡(luò)右側(cè)與左側(cè)分支的輸出相加，從標(biāo)記圖像中獲得監(jiān)督信號(hào)來計(jì)算損失，通過BP 更新網(wǎng)絡(luò)參數(shù)。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 數(shù)據(jù)集

DIVA-HisDB[7]是在2017 年發(fā)布的最新歷史文檔分割數(shù)據(jù)，包括CB55、CS18、CS863 三種類型的中世紀(jì)手稿圖像數(shù)據(jù)集，具有復(fù)雜的布局版式、多樣的手寫樣式、黃化的頁面等具有挑戰(zhàn)性文檔分割的特點(diǎn)，每種類型的數(shù)據(jù)集均含帶有標(biāo)記的20 張訓(xùn)練集、10 張測(cè)試集和10 張驗(yàn)證集。其中CB55 每張圖像尺寸為4872×6496，其余數(shù)據(jù)集尺寸為3228×4992。

數(shù)據(jù)集中，像素點(diǎn)共分四類：背景（頁面和四周黑色背景）、正文、評(píng)論（分布在正文兩側(cè)或正文行與行之間的注釋）、裝飾（紅色的字符等），圖像使用黑色背景包圍文檔圖像。統(tǒng)計(jì)每個(gè)類別的像素?cái)?shù)，得到被標(biāo)注的41.37%為評(píng)論，1.69%為裝飾，56.94%為正文。值得注意的是，裝飾類別面積只占有總頁面的1.69%，可見類別數(shù)目極不均衡。

3.2 評(píng)價(jià)指標(biāo)

本文使用ICDAR 官方提供的歷史文檔圖像分割評(píng)價(jià)工具[8]，即 Accuracy（像素精度）、mAcc（平均像素精度）、mIou（平均交并比）、FwIou（頻率加權(quán)交并比）。Accuracy、mAcc、mIou 和 FwIou 的定義分別見公式（4）、（5）、（6）和（7）所示。

其中k 表示類別數(shù)目，Nc表示類別總數(shù)，Ti表示類別i 的像素點(diǎn)總數(shù)，Nij表示標(biāo)記為類別i 預(yù)測(cè)類別為j的像素點(diǎn)數(shù)目。以上四種指標(biāo)，均是數(shù)值越大分割效果越好，反之則越差。

3.3 實(shí)驗(yàn)分析

本文設(shè)計(jì)了4 個(gè)實(shí)驗(yàn)分別闡述了本文模型、融合空洞卷積的DenseNet、圖像切割比例和Focal Loss 對(duì)歷史文檔圖像分割的有效性。

（1）深度學(xué)習(xí)模型間對(duì)比

本實(shí)驗(yàn)是本文模型與其它深度學(xué)習(xí)模型的對(duì)比實(shí)驗(yàn)，其分割圖如圖2 第2 列所示。表1 顯示，本文模型在三個(gè)數(shù)據(jù)集各指標(biāo)上均優(yōu)于文獻(xiàn)[9]。經(jīng)過對(duì)文獻(xiàn)[9]的分析得到，SLIC[10]超像素分割時(shí)就存在較多的錯(cuò)誤，同時(shí)CNN 也會(huì)出現(xiàn)分類錯(cuò)誤，串行的操作大大降低了分割精度，同時(shí)[9]將原圖切成較小的圖像塊作為CNN的輸入，網(wǎng)絡(luò)無法獲取更多的上下文信息，進(jìn)而導(dǎo)致超像素分類錯(cuò)誤，進(jìn)而出現(xiàn)區(qū)域性分割錯(cuò)誤。

（2）Focal Loss 的有效性

為消除裝飾類別占比極不平衡對(duì)分割帶來的影響，本文做了消融實(shí)驗(yàn)來驗(yàn)證Focal Loss 的有效性。通過表3 得到，針對(duì)裝飾類別占比最小的CB863（＜1%），F(xiàn)ocal Loss 在mIou 提升最大，達(dá)到1.04%左右。而針對(duì)裝飾類別占比最大（＜%2）的 CB55，使用 Focal Loss 后雖然平均精度有所下降，但是mIou 在提升，說明CB55分割的主要矛盾并不在類別不平衡，F(xiàn)ocal Loss 對(duì)其裝飾分割貢獻(xiàn)不大，反而影響了對(duì)于區(qū)域面積相差不大的評(píng)論和正文的分割。結(jié)合實(shí)驗(yàn)，可以認(rèn)為Focal Loss對(duì)類別極不平衡的圖像分割是有效的。

表1 不同模型的實(shí)驗(yàn)結(jié)果（百分比）

表2 1/4 比例切割下Focal Loss 的消融實(shí)驗(yàn)結(jié)果

表3 本文方法在不同切割比例下的實(shí)驗(yàn)結(jié)果

（3）圖像切割比例大小的影響

根據(jù)實(shí)驗(yàn)結(jié)果可以看到，切割比例對(duì)圖像分割效果影響較大，圖2 展示了右側(cè)1/4 切割遠(yuǎn)遠(yuǎn)好于左側(cè)1/8 切割的分割結(jié)果。本文認(rèn)為數(shù)據(jù)集中圖像類別區(qū)域有較為固定的布局，每張切割后的圖像都需要保留獨(dú)特的布局特征，而無論是1/8 還是1/15 切割原圖，切割后的圖像尺寸太小，那么圖像塊中只含較少或不含有獨(dú)特的布局特征，CNN 在訓(xùn)練時(shí)無法獲得足夠的上下文信息，不能提取出圖像塊特有的高階特征，可以間接地認(rèn)為網(wǎng)絡(luò)無法通過圖像本身的高階特征去學(xué)習(xí)其在原圖的位置信息，從而出現(xiàn)大面積的分割錯(cuò)誤。

尤其是 CB55，通過表 3 得到 1/4 比 1/8 切割在mIou 和mAcc 兩個(gè)指標(biāo)提升了近一倍，相比較另外兩個(gè)數(shù)據(jù)集，CB55 的正文和評(píng)論在文字顏色、書寫筆跡等方面較為相似，而且較小尺寸的圖像又無法通過網(wǎng)絡(luò)學(xué)習(xí)到位置信息。另外兩個(gè)數(shù)據(jù)集也出現(xiàn)了較多的小區(qū)域分割錯(cuò)誤。根據(jù)實(shí)驗(yàn)結(jié)果證明了切割比例對(duì)最終圖像分割結(jié)果有著重要的影響。

圖3 CB55在不同切割比例下的分割圖

圖4 標(biāo)記可視化圖像，本文模型和1/8分割示例圖

4 結(jié)語

本文對(duì)于歷史文檔分割的研究是基于歷史文檔數(shù)據(jù)本身的特點(diǎn)和前人研究方法的不足之處，提出了一個(gè)基于U-Net 的端到端的像素級(jí)別的歷史文檔圖像分割網(wǎng)絡(luò)，通過合理的數(shù)據(jù)處理和模型設(shè)計(jì)，在DIVAHisDB 頁面分割任務(wù)上獲得了最優(yōu)的效果。后續(xù)會(huì)考慮其它造成歷史文檔圖像分割難的特點(diǎn)進(jìn)行研究和模型設(shè)計(jì)。