賈曉光,伍星,何中市,但靜培
(重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶 400000)
歷史文檔是學(xué)者對(duì)于古代社會(huì)、人文等方面研究必不可少的重要資料,有必要將這些文明的瑰寶以電子化的形式保存。然而無論是學(xué)者的研究還是歷史文檔的保存,均需要語義分割技術(shù)的支持,尤其是通過OCR(光學(xué)字符識(shí)別)對(duì)文本圖像提取文字,細(xì)粒度分割后的文本圖像能夠大大提升OCR 的識(shí)別效果。但是不同于傳統(tǒng)文檔圖像,歷史文檔版式復(fù)雜、頁面黃化和不同的寫作風(fēng)格等原因,使得對(duì)歷史文檔文本區(qū)域分割難度大大增加。
歷史文檔圖像分割方法可分為傳統(tǒng)和基于深度學(xué)習(xí)的方法。傳統(tǒng)文檔圖像分割方法程序復(fù)雜,并且依賴人工提取特征,要求提取特征的人具有相關(guān)的知識(shí)背景。深度學(xué)習(xí)分割方法利用CNN 提取更豐富圖像特征,然后對(duì)像素點(diǎn)或超像素進(jìn)行分類,相比傳統(tǒng)方法能夠取得更好地分割結(jié)果,但是現(xiàn)有的深度學(xué)習(xí)網(wǎng)絡(luò)模型特征提取網(wǎng)絡(luò)結(jié)構(gòu)簡單,并且增加了較多的后處理工作,大大降低了分割效率,同時(shí)沒有考慮數(shù)據(jù)集中類別不均衡的問題。
因此,本文提出了一個(gè)端對(duì)端的像素級(jí)別歷史文檔分割模型,貢獻(xiàn)如下:①構(gòu)建了以DenseNet[1]為骨干網(wǎng)的U-Net[2]融合更豐富的圖像特征以解決歷史文檔圖像布局復(fù)雜的問題。同時(shí)在DenseNet 骨干網(wǎng)中加入空洞卷積[3]來擴(kuò)大感受野來融入更多地上下文信息;②使用了Focal Loss[4]函數(shù)進(jìn)行輔助監(jiān)督訓(xùn)練以解決數(shù)據(jù)集類別極不均衡問題;③針對(duì)歷史文檔數(shù)據(jù)集圖像數(shù)量少的問題,本文使用數(shù)據(jù)增強(qiáng)對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)充;通過對(duì)歷史文檔圖像類別布局分析,使用over?lap-tile 策略對(duì)圖像進(jìn)行分割預(yù)處理。本文模型在歷史文檔分割數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并取得了當(dāng)前最好的分割效果。
通過對(duì)數(shù)據(jù)集的分析,發(fā)現(xiàn)數(shù)據(jù)集圖像數(shù)量較少且每張圖像尺寸大。所以使用數(shù)據(jù)增強(qiáng)與基于over?lap-tile 策略的圖像切割方法進(jìn)行數(shù)據(jù)預(yù)處理。
圖像數(shù)量較少不利于網(wǎng)絡(luò)模型的監(jiān)督學(xué)習(xí),本文使用圖像增強(qiáng)的鏡像操作方法進(jìn)行數(shù)據(jù)集擴(kuò)充,得到了比原數(shù)據(jù)更豐富的圖像信息,擴(kuò)充后的訓(xùn)練集大小為150 張圖像。
由于圖像尺寸較大以及硬件設(shè)備的限制,網(wǎng)絡(luò)無法進(jìn)行監(jiān)督訓(xùn)練,而大幅度的縮放圖像會(huì)造成大量信息的丟失,甚至?xí)膱D像信息,本文按比例將原圖切割為相同大小的圖像塊來作為網(wǎng)絡(luò)的輸入。為了更精確地分割圖像邊緣部分,本文借鑒U-Net 中的overlaptile 策略,它通過重疊平鋪策略無縫分割任意大的圖像,補(bǔ)全了要獲得圖像的上下文信息。見圖1,右側(cè)圖像即是左側(cè)圖像中橘色框內(nèi)的圖像,若要對(duì)右側(cè)圖像進(jìn)行分割,則需要將左側(cè)藍(lán)色框大小圖像放入網(wǎng)絡(luò),最后通過裁剪預(yù)測(cè)圖得到。
圖1 通過overlap-tile策略預(yù)測(cè)右側(cè)圖像
本文設(shè)計(jì)了如圖2 所示的U-Net 網(wǎng)絡(luò)模型。網(wǎng)絡(luò)采用DenseNet 作為骨干網(wǎng)提取特征并加入空洞卷積模塊,主要作用是通過特征圖拼接加強(qiáng)圖像特征的融合,最后使用帶有Focal Loss 的混合損失函數(shù)進(jìn)行監(jiān)督訓(xùn)練。
圖2 網(wǎng)絡(luò)結(jié)構(gòu)圖
對(duì)于具有復(fù)雜版面布局的歷史文檔圖像,本文UNet 使用了具有特征融合性更強(qiáng)的DenseNet 骨干網(wǎng)來提取特征。它是在ResNet[5]的基礎(chǔ)上進(jìn)行改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò),由多個(gè)DenseBlock 和過渡層交叉堆疊構(gòu)成,相比較其他骨干網(wǎng),加強(qiáng)了特征的傳遞、復(fù)用和融合,還具有一定的抗過擬合的能力。本文選擇DenseNet-169,對(duì)每個(gè)Block 的輸出做上采樣操作,同時(shí)與下采樣相同尺寸的特征圖進(jìn)行拼接,構(gòu)成了新的U-Net 網(wǎng)絡(luò)結(jié)構(gòu)。通過多次低階與高階特征復(fù)用、拼接融合,能更好地提取具有復(fù)雜版面布局的歷史文檔圖像的特征。
歷史文檔圖像分割依賴更多的上下文信息,因此需要更大的感受野,因此使用了空洞卷積核,同時(shí)Peng、Chao 等人[6]驗(yàn)證了多個(gè)小卷積核堆疊的實(shí)際感受野達(dá)不到理論感受野大小。
本文對(duì)每個(gè)DenseBlock 的輸出做 rate=3 的 3×3空洞卷積,然后與原特征圖進(jìn)行拼接,這樣能夠融合更多的上下文信息。本文對(duì)多個(gè)DenseBlock 的輸出均進(jìn)行了空洞卷積操作,可以認(rèn)為實(shí)現(xiàn)了多個(gè)空洞卷積核的串行堆疊,更大大擴(kuò)大了感受野,能更好地提升分割效果。堆疊感受野分別為R1 和R2 的空洞卷積核,其感受野 R 見公式(1):
目標(biāo)檢測(cè)領(lǐng)域中通過使用Focal Loss[4]來消除類別不平衡造成的分類錯(cuò)誤。歷史文檔數(shù)據(jù)集同樣存在類別極不平衡的情況,因此本文使用Focal Loss 來輔助監(jiān)督訓(xùn)練。Focal Loss 可以看作帶有權(quán)重的交叉熵?fù)p失函數(shù),其定義見公式(2):
其中(λ-pk)γ為交叉熵?fù)p失對(duì)應(yīng)的權(quán)重,pk 為第k類的預(yù)測(cè)概率。本文設(shè)置γ為2,λ為0.5 進(jìn)行實(shí)驗(yàn),在裝飾類別提升了較大的效果。最終的損失函數(shù)由多分類交叉損失函數(shù)和Focal Loss 函數(shù)相加得到,見公式(3):
將網(wǎng)絡(luò)右側(cè)與左側(cè)分支的輸出相加,從標(biāo)記圖像中獲得監(jiān)督信號(hào)來計(jì)算損失,通過BP 更新網(wǎng)絡(luò)參數(shù)。
DIVA-HisDB[7]是在2017 年發(fā)布的最新歷史文檔分割數(shù)據(jù),包括CB55、CS18、CS863 三種類型的中世紀(jì)手稿圖像數(shù)據(jù)集,具有復(fù)雜的布局版式、多樣的手寫樣式、黃化的頁面等具有挑戰(zhàn)性文檔分割的特點(diǎn),每種類型的數(shù)據(jù)集均含帶有標(biāo)記的20 張訓(xùn)練集、10 張測(cè)試集和10 張驗(yàn)證集。其中CB55 每張圖像尺寸為4872×6496,其余數(shù)據(jù)集尺寸為3228×4992。
數(shù)據(jù)集中,像素點(diǎn)共分四類:背景(頁面和四周黑色背景)、正文、評(píng)論(分布在正文兩側(cè)或正文行與行之間的注釋)、裝飾(紅色的字符等),圖像使用黑色背景包圍文檔圖像。統(tǒng)計(jì)每個(gè)類別的像素?cái)?shù),得到被標(biāo)注的41.37%為評(píng)論,1.69%為裝飾,56.94%為正文。值得注意的是,裝飾類別面積只占有總頁面的1.69%,可見類別數(shù)目極不均衡。
本文使用ICDAR 官方提供的歷史文檔圖像分割評(píng)價(jià)工具[8],即 Accuracy(像素精度)、mAcc(平均像素精度)、mIou(平均交并比)、FwIou(頻率加權(quán)交并比)。Accuracy、mAcc、mIou 和 FwIou 的定義分別見公式(4)、(5)、(6)和(7)所示。
其中k 表示類別數(shù)目,Nc表示類別總數(shù),Ti表示類別i 的像素點(diǎn)總數(shù),Nij表示標(biāo)記為類別i 預(yù)測(cè)類別為j的像素點(diǎn)數(shù)目。以上四種指標(biāo),均是數(shù)值越大分割效果越好,反之則越差。
本文設(shè)計(jì)了4 個(gè)實(shí)驗(yàn)分別闡述了本文模型、融合空洞卷積的DenseNet、圖像切割比例和Focal Loss 對(duì)歷史文檔圖像分割的有效性。
(1)深度學(xué)習(xí)模型間對(duì)比
本實(shí)驗(yàn)是本文模型與其它深度學(xué)習(xí)模型的對(duì)比實(shí)驗(yàn),其分割圖如圖2 第2 列所示。表1 顯示,本文模型在三個(gè)數(shù)據(jù)集各指標(biāo)上均優(yōu)于文獻(xiàn)[9]。經(jīng)過對(duì)文獻(xiàn)[9]的分析得到,SLIC[10]超像素分割時(shí)就存在較多的錯(cuò)誤,同時(shí)CNN 也會(huì)出現(xiàn)分類錯(cuò)誤,串行的操作大大降低了分割精度,同時(shí)[9]將原圖切成較小的圖像塊作為CNN的輸入,網(wǎng)絡(luò)無法獲取更多的上下文信息,進(jìn)而導(dǎo)致超像素分類錯(cuò)誤,進(jìn)而出現(xiàn)區(qū)域性分割錯(cuò)誤。
(2)Focal Loss 的有效性
為消除裝飾類別占比極不平衡對(duì)分割帶來的影響,本文做了消融實(shí)驗(yàn)來驗(yàn)證Focal Loss 的有效性。通過表3 得到,針對(duì)裝飾類別占比最小的CB863(<1%),F(xiàn)ocal Loss 在mIou 提升最大,達(dá)到1.04%左右。而針對(duì)裝飾類別占比最大(<%2)的 CB55,使用 Focal Loss 后雖然平均精度有所下降,但是mIou 在提升,說明CB55分割的主要矛盾并不在類別不平衡,F(xiàn)ocal Loss 對(duì)其裝飾分割貢獻(xiàn)不大,反而影響了對(duì)于區(qū)域面積相差不大的評(píng)論和正文的分割。結(jié)合實(shí)驗(yàn),可以認(rèn)為Focal Loss對(duì)類別極不平衡的圖像分割是有效的。
表1 不同模型的實(shí)驗(yàn)結(jié)果(百分比)
表2 1/4 比例切割下Focal Loss 的消融實(shí)驗(yàn)結(jié)果
表3 本文方法在不同切割比例下的實(shí)驗(yàn)結(jié)果
(3)圖像切割比例大小的影響
根據(jù)實(shí)驗(yàn)結(jié)果可以看到,切割比例對(duì)圖像分割效果影響較大,圖2 展示了右側(cè)1/4 切割遠(yuǎn)遠(yuǎn)好于左側(cè)1/8 切割的分割結(jié)果。本文認(rèn)為數(shù)據(jù)集中圖像類別區(qū)域有較為固定的布局,每張切割后的圖像都需要保留獨(dú)特的布局特征,而無論是1/8 還是1/15 切割原圖,切割后的圖像尺寸太小,那么圖像塊中只含較少或不含有獨(dú)特的布局特征,CNN 在訓(xùn)練時(shí)無法獲得足夠的上下文信息,不能提取出圖像塊特有的高階特征,可以間接地認(rèn)為網(wǎng)絡(luò)無法通過圖像本身的高階特征去學(xué)習(xí)其在原圖的位置信息,從而出現(xiàn)大面積的分割錯(cuò)誤。
尤其是 CB55,通過表 3 得到 1/4 比 1/8 切割在mIou 和mAcc 兩個(gè)指標(biāo)提升了近一倍,相比較另外兩個(gè)數(shù)據(jù)集,CB55 的正文和評(píng)論在文字顏色、書寫筆跡等方面較為相似,而且較小尺寸的圖像又無法通過網(wǎng)絡(luò)學(xué)習(xí)到位置信息。另外兩個(gè)數(shù)據(jù)集也出現(xiàn)了較多的小區(qū)域分割錯(cuò)誤。根據(jù)實(shí)驗(yàn)結(jié)果證明了切割比例對(duì)最終圖像分割結(jié)果有著重要的影響。
圖3 CB55在不同切割比例下的分割圖
圖4 標(biāo)記可視化圖像,本文模型和1/8分割示例圖
本文對(duì)于歷史文檔分割的研究是基于歷史文檔數(shù)據(jù)本身的特點(diǎn)和前人研究方法的不足之處,提出了一個(gè)基于U-Net 的端到端的像素級(jí)別的歷史文檔圖像分割網(wǎng)絡(luò),通過合理的數(shù)據(jù)處理和模型設(shè)計(jì),在DIVAHisDB 頁面分割任務(wù)上獲得了最優(yōu)的效果。后續(xù)會(huì)考慮其它造成歷史文檔圖像分割難的特點(diǎn)進(jìn)行研究和模型設(shè)計(jì)。