摘要:由于文檔圖像的布局復(fù)雜、目標(biāo)對(duì)象尺寸分布不均勻,現(xiàn)有的檢測(cè)算法很少考慮多模態(tài)信息和全局依賴(lài)關(guān)系,提出了基于視覺(jué)和文本的多模態(tài)文檔圖像目標(biāo)檢測(cè)方法。首先探索多模態(tài)特征的融合策略,為利用文本特征,將圖像中文本序列信息轉(zhuǎn)換為二維表征,在文本特征和視覺(jué)特征初次融合之后,將其輸入到骨干網(wǎng)絡(luò)提取多尺度特征,并在提取過(guò)程中多次融入文本特征實(shí)現(xiàn)多模態(tài)特征的深度融合;為保證小物體和大物體的檢測(cè)精度,設(shè)計(jì)了一個(gè)金字塔網(wǎng)絡(luò),該網(wǎng)絡(luò)的橫向連接將上采樣的特征圖與自下而上生成的特征圖在通道上連接,實(shí)現(xiàn)高層語(yǔ)義信息和低層特征信息的傳播。在大型公開(kāi)數(shù)據(jù)集PubLayNet上的實(shí)驗(yàn)結(jié)果表明,該方法的檢測(cè)精度為95.86%,與其他檢測(cè)方法相比有更高的準(zhǔn)確率。該方法不僅實(shí)現(xiàn)了多模態(tài)特征的深度融合,還豐富了融合的多模態(tài)特征信息,具有良好的檢測(cè)性能。
關(guān)鍵詞:多模態(tài);文檔圖像;目標(biāo)檢測(cè);深度學(xué)習(xí)
中圖分類(lèi)號(hào):TP391.41文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2023)05-043-1559-06
0引言
隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)上大量的信息以電子文檔的形式進(jìn)行傳播,文檔成為了一種重要的信息傳播載體,在人們的生活中發(fā)揮著重要的作用。文檔圖像目標(biāo)檢測(cè)在識(shí)別文檔圖像的信息中起著至關(guān)重要的作用,目標(biāo)檢測(cè)的準(zhǔn)確度對(duì)于數(shù)字化系統(tǒng)的整體成效影響很大,如光學(xué)字符識(shí)別(OCR)[1]準(zhǔn)確性及其提取信息的有用性等。
文檔圖像目標(biāo)檢測(cè)又稱(chēng)為頁(yè)面分割或布局分析,旨在將文檔圖像自動(dòng)識(shí)別為獨(dú)立結(jié)構(gòu)和邏輯單元,如文本、表格和圖形。對(duì)于不同的目標(biāo)區(qū)域有著不同的處理策略,由于文檔圖像組件的復(fù)雜性和多樣性,這項(xiàng)工作具有挑戰(zhàn)性。自動(dòng)識(shí)別文檔的整體結(jié)構(gòu)具有顯著的商業(yè)價(jià)值和學(xué)術(shù)價(jià)值,國(guó)內(nèi)外有很多研究學(xué)者提出了各種用于文檔圖像檢測(cè)或分割的方法[2~21]。
文檔圖像的目標(biāo)檢測(cè)方法可以分為傳統(tǒng)方法和深度學(xué)習(xí)方法。傳統(tǒng)方法[11~13]對(duì)于手工繪制的特征依賴(lài)程度高,相關(guān)的程序算法復(fù)雜,并且難以識(shí)別出復(fù)雜布局。與傳統(tǒng)方法相比,深度學(xué)習(xí)的方法具有更強(qiáng)的表征提取和學(xué)習(xí)能力,更適用于文檔圖像的目標(biāo)檢測(cè)任務(wù)。為將文檔圖像布局分析任務(wù)應(yīng)用于移動(dòng)端和云服務(wù)端,Oliveira等人[2]提出了一種利用卷積神經(jīng)網(wǎng)絡(luò)的快速一維文檔檢測(cè)模型,該模型具有更快的執(zhí)行時(shí)間和更緊湊的數(shù)據(jù)使用量,并顯著提高了整體性能。Li等人[3]提出了一種跨域文檔圖像目標(biāo)檢測(cè)模型,并且設(shè)計(jì)了三個(gè)特征對(duì)齊模塊用于解決區(qū)域偏移的問(wèn)題。文獻(xiàn)[4]提出了一種基于自適應(yīng)平滑算法的模型,利用K-均值聚類(lèi)分析得到合適的閾值,進(jìn)而實(shí)現(xiàn)對(duì)文檔界面的分割,最后通過(guò)識(shí)別器區(qū)分文本與非文本區(qū)域。文獻(xiàn)[5]提出了一種采用多特征融合的模型,通過(guò)融合來(lái)自不同卷積核的特征,并將其輸入串并行空間金字塔中實(shí)現(xiàn)對(duì)特征的進(jìn)一步優(yōu)化。為了精確地檢測(cè)文檔圖像中的表格,Agarwal等人[10]提出了利用雙主干的深度網(wǎng)絡(luò)模型,同時(shí)在骨干網(wǎng)絡(luò)中加入可變形卷積,并在較高的IoU閾值下獲得較高的檢測(cè)結(jié)果。以上方法雖然表現(xiàn)出了良好的性能,但是在處理文檔圖像的特征時(shí)局限于視覺(jué)特征,忽略了文檔圖像中豐富的文本特征,造成信息的浪費(fèi)。
因此,多模態(tài)的方法被應(yīng)用到文檔圖像相關(guān)的任務(wù)[16~19]中。Soto等人[16]將文檔圖像中的上下文信息融入到FasterR-CNN[22]中,以提升網(wǎng)絡(luò)檢測(cè)文檔目標(biāo)區(qū)域的性能;Yang等人[17]通過(guò)創(chuàng)建文本嵌入圖的方法利用文本特征,并將其融入端對(duì)端的多模態(tài)全卷積網(wǎng)絡(luò)中以提升文檔圖像的分割精度;Zhang等人[18]提出了一種基于雙流的多模態(tài)網(wǎng)絡(luò),融合視覺(jué)特征、文本特征和組件關(guān)系,并在文檔的布局分析中表現(xiàn)出良好的性能。2021年,國(guó)際文檔分析與識(shí)別會(huì)議(ICDAR)組織了科學(xué)文獻(xiàn)解析(SLP)比賽任務(wù)A,其中,入圍的方案絕大多數(shù)是基于多模態(tài)的方法,證明了多模態(tài)方法的有效性。相比于基于視覺(jué)的方法,多模態(tài)的方法能夠?qū)崿F(xiàn)視覺(jué)信息和文本信息的充分利用,有著很大的發(fā)展空間和應(yīng)用前景。但是現(xiàn)有的多模態(tài)方法在多模態(tài)特征融合方式未實(shí)現(xiàn)特征之間的深度融合,以及在后續(xù)的處理中沒(méi)有進(jìn)一步豐富融合的多模態(tài)特征表征信息。針對(duì)上述問(wèn)題,本文提出了基于視覺(jué)和文本的多模態(tài)文檔圖像目標(biāo)檢測(cè)方法。為實(shí)現(xiàn)不同模態(tài)特征的深度融合,本文利用卷積神經(jīng)網(wǎng)絡(luò)(如ResNet[23])將不同的模態(tài)空間映射到共享語(yǔ)義子空間,從而融合不同模態(tài)的特征,并保留豐富的特征信息;為保證小物體和大物體的檢測(cè)精度,增強(qiáng)網(wǎng)絡(luò)的多模態(tài)表征能力,設(shè)計(jì)了一個(gè)金字塔網(wǎng)絡(luò),該網(wǎng)絡(luò)將不同尺度的特征在通道上進(jìn)行連接,使低層特征信息中融入高層的語(yǔ)義信息進(jìn)行多模態(tài)信息的傳遞;為了進(jìn)一步豐富多模態(tài)融合特征的信息,特征金字塔網(wǎng)絡(luò)(FPN)[24]被引入到該網(wǎng)絡(luò)。此外,在處理文本信息的過(guò)程中,優(yōu)化了PubLayNet[25]數(shù)據(jù)集的適配,包括插入半結(jié)構(gòu)元素和擴(kuò)展groundtruth注釋?zhuān)?gòu)建出了層級(jí)關(guān)系數(shù)據(jù)集。
1本文算法
1.1網(wǎng)絡(luò)結(jié)構(gòu)
本節(jié)詳細(xì)介紹所提基于視覺(jué)和文本的多模態(tài)文檔圖像目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)以FasterR-CNN[22]為基礎(chǔ),融入了視覺(jué)特征和文本特征,旨在利用不同模態(tài)之間的補(bǔ)充信息,并將ResNet-101[23]作為骨干網(wǎng)絡(luò)用于實(shí)現(xiàn)多模態(tài)特征的深度融合和保留更多的特征表征信息。深度融合的多模態(tài)特征在經(jīng)過(guò)特征增強(qiáng)模塊后,不同尺度的特征信息得到傳遞,使得高層特征信息融入到低層特征中,特征表征得到進(jìn)一步的增強(qiáng),從而提升了網(wǎng)絡(luò)模型的檢測(cè)精度及魯棒性。
該網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,由文本特征提取模塊、特征融合模塊、特征增強(qiáng)模塊、特征金字塔網(wǎng)絡(luò)和區(qū)域生成網(wǎng)絡(luò)(RPN)五個(gè)模塊組成。其中,文本特征提取模塊主要由四個(gè)不同的卷積層和正則化層組成,是進(jìn)行文本特征提取操作的基本組件;特征融合模塊以ResNet網(wǎng)絡(luò)為主,通過(guò)其強(qiáng)大的特征表示能力實(shí)現(xiàn)多模態(tài)特征的深度融合,并保留豐富的特征信息,從而使兩者的信息得到充分利用;特征增強(qiáng)模塊主要由卷積層和上采樣層組成,外觀(guān)上與特征金字塔網(wǎng)絡(luò)相似,主要實(shí)現(xiàn)不同尺度特征的表征信息在通道上傳遞,使得低層特征也包含豐富的語(yǔ)義信息;FPN將相鄰層的特征圖變換為相同的尺寸,然后對(duì)它們執(zhí)行元素級(jí)別加法操作(對(duì)應(yīng)位置元素相加),目的是為了將高層特征中的強(qiáng)語(yǔ)義信息傳遞到低層特征中,實(shí)現(xiàn)低層次高分辨率信息和高層次強(qiáng)語(yǔ)義信息的結(jié)合,從而提升檢測(cè)性能;RPN主要由卷積層、中間層、分類(lèi)層和回歸層組成,其本質(zhì)是基于滑動(dòng)窗口和錨框機(jī)制在特征圖上對(duì)目標(biāo)區(qū)域進(jìn)行分類(lèi)和回歸,并產(chǎn)生一系列的候選區(qū)域。
1.3特征融合模塊
由于卷積神經(jīng)網(wǎng)絡(luò)具有良好的特征提取能力和學(xué)習(xí)能力,本文采用ResNet作為骨干網(wǎng)絡(luò)提取特征,并利用其將不同模態(tài)空間映射到共享語(yǔ)義子空間中,從而深度融合多模態(tài)特征。
來(lái)自不同模態(tài)的特征表征在確定不同的目標(biāo)時(shí)具有重要作用,視覺(jué)信息可以容易地識(shí)別較大的目標(biāo)區(qū)域,文本信息對(duì)于區(qū)分視覺(jué)上相似的區(qū)域具有重要意義[18]。為充分利用不同模態(tài)的補(bǔ)充信息,實(shí)現(xiàn)多模態(tài)特征的融合就顯得十分重要。目前大多數(shù)模型[17,18]在通道上疊加多模態(tài)特征,以此來(lái)實(shí)現(xiàn)不同模態(tài)信息的融合,但是不同模態(tài)特征的占比往往對(duì)模型性能起著至關(guān)重要的作用。不同于以上的融合策略,本文提出了將文本特征和視覺(jué)特征相加,然后將融合后的多模態(tài)特征輸入骨干網(wǎng)絡(luò)提取多尺度特征,并在提取的過(guò)程中多次融入文本特征,以豐富特征信息并實(shí)現(xiàn)多模態(tài)特征的深度融合。如圖2所示,首先從文檔圖像中提取視覺(jué)特征V2,然后將文本特征A2與之融合得到多模態(tài)特征C2;將C2輸入到骨干網(wǎng)絡(luò)中得到特征V3,并與文本特征A3融合得到C3,通過(guò)加入文本特征可以使特征圖保留更多的信息。依此類(lèi)推,C4與C5的產(chǎn)生與之相似。特征Ci的產(chǎn)生定義如下:
通過(guò)將文本特征融入低層和高層的特征中,使得特征圖中的信息更加豐富。卷積神經(jīng)網(wǎng)絡(luò)可以將不同的模態(tài)空間映射到共享語(yǔ)義子空間中,從而融合不同模態(tài)的特征。視覺(jué)信息包含較高層次的特征表征,文本信息包含較低層次的特征表征,通過(guò)融合兩者的補(bǔ)充信息,使得融合后的特征信息比之前單一模態(tài)的更加豐富。
1.4特征增強(qiáng)模塊
研究表明,特征金字塔結(jié)構(gòu)可以實(shí)現(xiàn)不同尺度特征信息的傳遞,進(jìn)而豐富特征信息。因此本文設(shè)計(jì)了特征增強(qiáng)模塊,外觀(guān)上與特征金字塔網(wǎng)絡(luò)相似。
如圖3所示,特征增強(qiáng)模塊的構(gòu)造包含自下而上的路徑、自上而下的路徑和橫向連接。橫向連接將上采樣的特征圖與自下而上生成的相同大小的特征圖在通道上連接,實(shí)現(xiàn)高層語(yǔ)義信息和低層特征信息的傳播,進(jìn)而增強(qiáng)特征表征。該過(guò)程從C5開(kāi)始,通過(guò)自頂向下和橫向連接策略逐步整合層次特征。F5由C5直接產(chǎn)生。F4的產(chǎn)生首先需要F5經(jīng)過(guò)1×1卷積層,使其通道維度降低到原來(lái)的一半并與C4的通道維度保持一致,之后對(duì)其進(jìn)行上采樣使之寬高變?yōu)樵瓉?lái)的兩倍。然后,將上采樣后的特征與C4在通道維度上連接,再經(jīng)過(guò)3×3的卷積層降低其通道維度,使連接后的特征圖的通道維度與C4的相同,經(jīng)過(guò)以上操作之后就得到了F4。F3和F2的產(chǎn)生過(guò)程也與之相似。Fi的生成過(guò)程被定義為
其中:concat表示通道維度連接操作;U是上采樣函數(shù);conv1和conv2表示不同的卷積層,卷積核大小分別為1×1和3×3。因此,融合后的多模態(tài)特征通過(guò)橫向連接將上采樣的特征和自上而下路徑的特征在通道上疊加而得到了豐富,使得高層的語(yǔ)義信息融入低層特征信息。通過(guò)特征增強(qiáng)模塊,一組特征表征Fi被產(chǎn)生;在得到特征Fi后,將其輸入特征金字塔網(wǎng)絡(luò)中進(jìn)行下一步的操作。
2實(shí)驗(yàn)結(jié)果與分析
2.1數(shù)據(jù)集
PubLayNet[25]是一個(gè)包含超過(guò)36萬(wàn)張文檔圖像的大型公開(kāi)數(shù)據(jù)集,其標(biāo)注信息包括邊界框標(biāo)注和多邊形分割標(biāo)注。該數(shù)據(jù)集被用于2021年國(guó)際文檔分析與識(shí)別會(huì)議科學(xué)文獻(xiàn)解析比賽任務(wù)A(ICDAR-SLP-TASKA),標(biāo)注文件遵循MSCOCO對(duì)象檢測(cè)任務(wù)的JSON格式。此數(shù)據(jù)集包含研究論文和文章的圖片以及頁(yè)面上各種元素的注釋?zhuān)浒鍌€(gè)類(lèi)別,分別是text、title、list、table和figure。數(shù)據(jù)集的類(lèi)別分布如表1所示。
2.2評(píng)價(jià)指標(biāo)及實(shí)驗(yàn)環(huán)境參數(shù)
本文實(shí)驗(yàn)使用平均精度(AP)、均值平均精度(mAP)和召回率(recall)作為文檔圖像目標(biāo)檢測(cè)任務(wù)的評(píng)價(jià)標(biāo)準(zhǔn)。AP、mAP和recall的值越高,算法的性能越好。
本文實(shí)驗(yàn)在NVIDIATITANXp服務(wù)器上搭建PyTorch框架下進(jìn)行,CUDA版本為10.2。PubLayNet[25]數(shù)據(jù)集的訓(xùn)練周期為6,初始學(xué)習(xí)率為0.001,動(dòng)量為0.9,權(quán)重衰減為0.0001,其他對(duì)比方法的相關(guān)參數(shù)配置與之相同。此外,本文方法中FPN和RPN的參數(shù)配置與原文獻(xiàn)一致。
2.3對(duì)比實(shí)驗(yàn)結(jié)果與分析
為了證明本文提出的網(wǎng)絡(luò)模型的有效性和合理性,使用上述評(píng)價(jià)標(biāo)準(zhǔn),將其與當(dāng)前主流的檢測(cè)方法進(jìn)行比較,包括目前主流的目標(biāo)檢測(cè)算法FasterR-CNN[22]、MaskR-CNN[27]和ATSS[28],也包括用于文檔圖像檢測(cè)相關(guān)的方法CDeCNet[10]、VSR[18]、DiT[29]和LayoutLMv3[30]。其中,F(xiàn)asterR-CNN[22]和MaskR-CNN[27]是基于R-CNN的兩階段檢測(cè)網(wǎng)絡(luò);ATSS[28]是一階段的檢測(cè)網(wǎng)絡(luò);CDeCNet[10]是專(zhuān)門(mén)用于文檔圖像表格檢測(cè)的網(wǎng)絡(luò);VSR[18]是融合了視覺(jué)特征、文本特征和組件關(guān)系的多模態(tài)網(wǎng)絡(luò);DiT[29]是基于Transformer的自監(jiān)督預(yù)訓(xùn)練的文檔檢測(cè)網(wǎng)絡(luò);LayoutLMv3[30]是融合視覺(jué)和文本的Transformer多模態(tài)網(wǎng)絡(luò)。VSR中使用ResNeXt-101[31]作為特征提取的骨干網(wǎng)絡(luò),為保證公平,除DiT[29]和LayoutLMv3[30]以Transformer作為骨干網(wǎng)絡(luò)外,其他方法和本文方法均使用ResNeXt-101[31]作為骨干網(wǎng)絡(luò)。此外,本文方法通過(guò)加入特征融合模塊和特征增強(qiáng)模塊分別實(shí)現(xiàn)多模態(tài)特征的深度融合和傳遞不同級(jí)別特征信息進(jìn)而豐富特征表征,從而提升網(wǎng)絡(luò)模型在文檔圖像數(shù)據(jù)集上的檢測(cè)性能。在相同的參數(shù)配置和訓(xùn)練周期的條件下,不同網(wǎng)絡(luò)模型在PubLayNet[25]數(shù)據(jù)集上的檢測(cè)結(jié)果如表2所示,其中,VSR[18]的實(shí)驗(yàn)結(jié)果為其文獻(xiàn)所示,其未提供相應(yīng)的recall數(shù)據(jù)。由表2可知,本文方法有著優(yōu)異的性能,在大多數(shù)類(lèi)別上的表現(xiàn)優(yōu)于其他檢測(cè)方法,并且mAP和recall均達(dá)到最高值95.86%和96.91%,這是由于文本信息對(duì)于提升文檔圖像的檢測(cè)精度起著重要作用。本文的多模態(tài)特征融合策略實(shí)現(xiàn)了不同模態(tài)信息之間的深度融合,以及本文設(shè)計(jì)的金字塔網(wǎng)絡(luò)使低層特征信息中融入高層的語(yǔ)義信息進(jìn)行多模態(tài)信息的傳遞,保證了小物體和大物體檢測(cè)精度。FasterR-CNN[22]、MaskR-CNN[27]和ATSS[28]在PubLayNet[25]數(shù)據(jù)集上的mAP都超過(guò)90%,同時(shí)recall也超過(guò)92%,本文方法在mAP和recall比它們高了大約3.26%和3.55%,說(shuō)明僅依賴(lài)于視覺(jué)特征對(duì)于提升文檔圖像的檢測(cè)性能是有限的。此外,在類(lèi)別list、table和figure上,本文方法是高于其他方法的,其中在table上的AP值超過(guò)用于檢測(cè)文檔表格的CDeCNet[10],比其提高了1.76%,同時(shí)也比VSR[18]高出了1.06%,這是由于本文方法加入了文本特征使得table區(qū)域保留了更加豐富的特征信息,并且利用ResNeXt[31]實(shí)現(xiàn)多模態(tài)特征的深度融合以及金字塔網(wǎng)絡(luò)實(shí)現(xiàn)高層語(yǔ)義信息在通道上傳遞到低層特征。在text和title上,VSR[18]高于本文方法,這是由于VSR[18]中不僅使用了組件關(guān)系,而且在創(chuàng)建文本嵌入圖時(shí)使用了字符級(jí)別和行級(jí)別的文本信息,不同級(jí)別的文本信息對(duì)于不同的類(lèi)別有著不同的功效[18]。本文方法在沒(méi)有融入組件關(guān)系的條件下,多數(shù)類(lèi)別的AP值和mAP超過(guò)VSR,說(shuō)明了多模態(tài)深度特征融合策略的有效性及通過(guò)金字塔網(wǎng)絡(luò)對(duì)融合多模態(tài)特征處理的合理性。DiT[29]和LayoutLMv3[30]在PubLayNet[25]數(shù)據(jù)集上的mAP分別達(dá)到94.92%和95.07%,recall分別達(dá)到96.20%和96.40%,高于FasterR-CNN[22]、MaskR-CNN[27]、ATSS[28]和CDeCNet[10],這表明基于Transformer的網(wǎng)絡(luò)在文檔圖像目標(biāo)檢測(cè)任務(wù)中有著良好的性能,本文方法與它們相比在mAP上分別提高了0.94%和0.79%,并且在絕大多數(shù)類(lèi)別上本文方法是高于它們的,這說(shuō)明多模態(tài)網(wǎng)絡(luò)與基于Transformer的文檔檢測(cè)網(wǎng)絡(luò)相比,其性能更好,實(shí)現(xiàn)了多模態(tài)特征的深度融合,并對(duì)融合后的多模態(tài)特征進(jìn)行特征表征增強(qiáng),使得特征信息更加豐富,進(jìn)而提升網(wǎng)絡(luò)的檢測(cè)性能。
本文方法96.2289.8695.7198.4699.0595.8696.91圖4給出了本文方法與其他方法在PubLayNet[25]數(shù)據(jù)集上四組檢測(cè)結(jié)果的示意圖。第一列為標(biāo)注了groundtruth(GT)的樣圖,第二列為本文方法的檢測(cè)結(jié)果,第三列為FasterR-CNN[22]的檢測(cè)結(jié)果,第四列為CDeCNet[10]的檢測(cè)結(jié)果。為了便于觀(guān)測(cè)檢測(cè)結(jié)果,在檢測(cè)框的內(nèi)部進(jìn)行了顏色填充,其中淡綠色表示text區(qū)域,粉紅色表示title區(qū)域,橘黃色表示list區(qū)域,灰色表示table區(qū)域,淡藍(lán)色表示figure區(qū)域(見(jiàn)電子版)。
從圖4(a3)(a4)中可以看出,F(xiàn)asterR-CNN[22]雖然識(shí)別出了title類(lèi)別,但同時(shí)也將其識(shí)別為text類(lèi)別,造成了誤檢;CDeCNet[10]將title類(lèi)別錯(cuò)誤識(shí)別為text類(lèi)別,并且在figure區(qū)域檢測(cè)不精確,使其檢測(cè)精度下降。相比于兩者,從圖4(a2)中可以得出,本文方法可以準(zhǔn)確識(shí)別出每個(gè)目標(biāo)區(qū)域,這是因?yàn)楸疚姆椒尤肓宋谋咎卣?,其能夠區(qū)分相似的目標(biāo)區(qū)域。此外在圖4(d3)和(d4)中,F(xiàn)asterR-CNN[22]不精確的text檢測(cè)框覆蓋了多個(gè)目標(biāo)區(qū)域,CDeCNet[10]在text和figure上的檢測(cè)框也不準(zhǔn)確,造成它們檢測(cè)精度的降低。對(duì)比圖4(b2)(b4),CDeCNet[10]在識(shí)別list時(shí)丟失一部分目標(biāo)區(qū)域,而本文方法卻能夠精準(zhǔn)地檢測(cè)出list區(qū)域,這是因?yàn)榛谝曈X(jué)的方法在提取特征時(shí)容易丟失其前方的數(shù)字或小黑點(diǎn)的特征,在加入文本特征后,這一區(qū)域的特征能夠被增強(qiáng)。在圖4(c3)(c4)中,F(xiàn)asterR-CNN[22]在figure上的檢測(cè)區(qū)域不精確,而CDeCNet[10]雖然識(shí)別出了figure,但同時(shí)也將其錯(cuò)誤地檢測(cè)為list和text;而在圖4(c2)中,本文方法能夠準(zhǔn)確地識(shí)別目標(biāo)區(qū)域,這是因?yàn)楸疚牟粌H實(shí)現(xiàn)多模態(tài)特征的融合,而且通過(guò)金字塔網(wǎng)絡(luò)實(shí)現(xiàn)高層語(yǔ)義信息在通道上傳遞到低層特征中,進(jìn)而提升目標(biāo)區(qū)域的檢測(cè)精度。
2.4消融實(shí)驗(yàn)
在PubLayNet[25]數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果如表3所示,記錄的是基線(xiàn)網(wǎng)絡(luò)FasterR-CNN[22]在加入不同模塊后的實(shí)驗(yàn)結(jié)果。網(wǎng)絡(luò)訓(xùn)練步長(zhǎng)的設(shè)定需要平衡訓(xùn)練時(shí)間和檢測(cè)精度,同時(shí),學(xué)習(xí)率的設(shè)定與優(yōu)化器以及數(shù)據(jù)和任務(wù)有關(guān),合理地設(shè)定學(xué)習(xí)率可以使模型較快地收斂至最優(yōu)點(diǎn)。因此,綜合考慮,本文將消融實(shí)驗(yàn)中模型的訓(xùn)練步長(zhǎng)設(shè)為90k,初始學(xué)習(xí)率設(shè)為0.0025。從表3的實(shí)驗(yàn)結(jié)果可以得出,不加入任何優(yōu)化策略的網(wǎng)絡(luò)性能是最低的,mAP和recall分別為89.20%和92.22%,與加了特征融合模塊和特征增強(qiáng)模塊后的網(wǎng)絡(luò)相比,分別低了大約3%和2.29%;在加入特征融合模塊之后,網(wǎng)絡(luò)模型的mAP從89.20%提高到92.03%,recall從92.22%提升到94.51%。從實(shí)驗(yàn)結(jié)果上看,list類(lèi)別的AP值比基線(xiàn)網(wǎng)絡(luò)提升了5.39%,figure類(lèi)別的AP值提高了5.93%。這證明文本信息在提高網(wǎng)絡(luò)檢測(cè)精準(zhǔn)度方面起到了重要作用,同時(shí)進(jìn)一步證明了多模態(tài)特征融合策略的有效性,通過(guò)融合不同模態(tài)特征可以充分利用不同模態(tài)之間的補(bǔ)充信息。文本特征能夠增強(qiáng)較小區(qū)域的特征,比如list前面的數(shù)字或小黑點(diǎn)在視覺(jué)特征提取的過(guò)程中容易被丟失,而在加入文本特征之后,該區(qū)域的特征信息得到了進(jìn)一步的豐富。當(dāng)在基線(xiàn)網(wǎng)絡(luò)中加入特征增強(qiáng)模塊后,該網(wǎng)絡(luò)模型的mAP和recall分別提升到了89.49%和92.73%,相比于基線(xiàn)網(wǎng)絡(luò)有較小的提升,這是由于基線(xiàn)網(wǎng)絡(luò)中只包含視覺(jué)特征,使得特征增強(qiáng)模塊無(wú)法生成更加豐富的特征表征。在基線(xiàn)網(wǎng)絡(luò)中加入特征融合模塊和特征增強(qiáng)模塊后,該網(wǎng)絡(luò)模型的mAP提高到92.22%,相比于基線(xiàn)網(wǎng)絡(luò)提高了3%左右。實(shí)驗(yàn)結(jié)果證明在融合多模態(tài)特征后,特征表征得到了進(jìn)一步的豐富,融合的多模態(tài)特征在進(jìn)入特征增強(qiáng)模塊后,通過(guò)在通道上連接不同級(jí)別的特征實(shí)現(xiàn)了不同級(jí)別特征信息的傳遞,使得低層特征包含了高層的語(yǔ)義信息。
3結(jié)束語(yǔ)
針對(duì)文檔圖像中組件的復(fù)雜多樣造成其布局分析難的問(wèn)題,本文提出了一種基于視覺(jué)和文本的多模態(tài)檢測(cè)網(wǎng)絡(luò),利用骨干網(wǎng)絡(luò)強(qiáng)大的特征提取能力和特征表示能力實(shí)現(xiàn)多模態(tài)特征的深度融合,從而充分利用不同模態(tài)之間的補(bǔ)充信息。融合后的多模態(tài)特征進(jìn)入特征增強(qiáng)模塊,使得不同級(jí)別的特征信息在通道維度上傳遞,使低層的特征信息中包含高層的語(yǔ)義信息,從而增強(qiáng)多模態(tài)特征表征。實(shí)驗(yàn)結(jié)果表明,本文方法優(yōu)于目前主流的方法,能夠進(jìn)一步豐富網(wǎng)絡(luò)中的特征表征,加入文本特征能增強(qiáng)較小區(qū)域的特征,從而提升文檔圖像目標(biāo)檢測(cè)的準(zhǔn)確性,減小誤差、縮減檢測(cè)時(shí)間。未來(lái)研究中,可以將XML文件中的層級(jí)信息融入到網(wǎng)絡(luò)以進(jìn)一步提升網(wǎng)絡(luò)的整體性能。
參考文獻(xiàn):
[1]白翔,楊明錕,石葆光,等.基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)與識(shí)別[J].中國(guó)科學(xué):信息科學(xué),2018,48(5):531-544.(BaiXiang,YangMingkun,ShiBaoguang,etal.Deeplearningforscenetextdetectionandrecognition[J].ScientiaSinica:InformationSciences,2018,48(5):531-544.)
[2]OliveiraDAB,VianaMP.FastCNN-baseddocumentlayoutanalysis[C]//ProcofIEEEInternationalConferenceonComputerVision.WashingtonDC:IEEEComputerSociety,2017:1173-1180.
[3]LiKai,WigingtonC,TensmeyerC,etal.Cross-domaindocumentobjectdetection:benchmarksuiteandmethod[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2020:12912-12921.
[4]陳園園,王維蘭,劉華明,等.基于自適應(yīng)游程平滑算法的藏文文檔圖像版面分割與描述[J].激光與光電子學(xué)進(jìn)展,2021,58(14):164-171.(ChenYuanyuan,WangWeilan,LiuHuaming,etal.LayoutsegmentationanddescriptionofTibetandocumentimagesbasedonadaptiverunlengthsmoothingalgorithm[J].Laseramp;OptoelectronicsProgress,2021,58(14):164-171.)
[5]應(yīng)自爐,趙毅鴻,宣晨,等.多特征融合的文檔圖像版面分析[J].中國(guó)圖象圖形學(xué)報(bào),2020,25(2):311-320.(YingZilu,ZhaoYihong,XuanChen,etal.Layoutanalysisofdocumentimagesbasedonmultifeaturefusion[J].JournalofImageandGraphics,2020,25(2):311-320.)
[6]姚佳.基于深度學(xué)習(xí)的復(fù)雜文檔版面分割算法研究[D].北京:北京交通大學(xué),2021.(YaoJia.Complexdocumentlayoutsegmentationbasedondeeplearning[D].Beijing:BeijingJiaotongUniversity,2021.)
[7]XuCanhui,ShiCao,BiHengyue,etal.Apageobjectdetectionme-thodbasedonmaskR-CNN[J].IEEEAccess,2021,9:143448-143457.
[8]XuYiheng,LiMinghao,CuiLei,etal.LayoutLM:pre-trainingoftextandlayoutfordocumentimageunderstanding[C]//Procofthe26thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryamp;DataMining.NewYork:ACMPress,2020:1192-1200.
[9]XuCanhui,ShiCao,ChenYinong.End-to-enddilatedconvolutionnetworkfordocumentimagesemanticsegmentation[J].JournalofCentralSouthUniversity,2021,28(6):1765-1774.
[10]AgarwalM,MondalA,JawaharCV.CDeC-Net:compositedeformablecascadenetworkfortabledetectionindocumentimages[C]//Procofthe25thInternationalConferenceonPatternRecognition.Piscataway,NJ:IEEEPress,2021:9491-9498.
[11]AminA,ShiuR.Pagesegmentationandclassificationutilizingbottom-upapproach[J].InternationalJournalofImageandGraphics,2001,1(2):345-361.
[12]HaJ,HaralickRM,PhillipsIT.RecursiveX-Ycutusingboundingboxesofconnectedcomponents[C]//Procofthe3rdInternationalConferenceonDocumentAnalysisandRecognition.WashingtonDC:IEEEComputerSociety,1995:952-955.
[13]ShilmanM,LiangP,ViolaP.Learningnongenerativegrammaticalmodelsfordocumentanalysis[C]//Procofthe10thIEEEInternationalConferenceonComputerVision.Piscataway,NJ:IEEEPress,2005,2:962-969.
[14]XuYiheng,LyuTengchao,CuiLei,etal.LayoutXLM:multimodalpre-trainingformultilingualvisually-richdocumentunderstanding[EB/OL].(2021-09-09).http://doi.org/10.48550/arxiv.2104.08836.
[15]Garncarek,PowalskiR,StanisawekT,etal.LAMBERT:layout-awarelanguagemodelingforinformationextraction[C]//Procofthe16thInternationalConferenceonDocumentAnalysisandRecognition.Cham:Springer,2021:532-547.
[16]SotoC,YooS.Visualdetectionwithcontextfordocumentlayoutana-lysis[C]//ProcofConferenceonEmpiricalMethodsinNaturalLanguageProcessingandthe9thInternationalJointConferenceonNaturalLanguageProcessing.Stroudsburg,PA:AssociationforComputationalLinguistics,2019:3464-3470.
[17]YangXiao,YumerE,AsenteP,etal.Learningtoextractsemanticstructurefromdocumentsusingmultimodalfullyconvolutionalneuralnetworks[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.WashingtonDC:IEEEComputerSociety,2017:5315-5324.
[18]ZhangPeng,LiCan,QiaoLiang,etal.VSR:aunifiedframeworkfordocumentlayoutanalysiscombiningvision,semanticsandrelations[C]//Procofthe16thInternationalConferenceonDocumentAnalysisandRecognition.Cham:Springer,2021:115-130.
[19]BarmanR,EhrmannM,ClematideS,etal.Combiningvisualandtextualfeaturesforsemanticsegmentationofhistoricalnewspapers[EB/OL].(2020-12-14).http://doi.org/10.46298/jdmdh.6107.
[20]ShiCao,XuCanhui,BiHengyue,etal.Lateralfeatureenhancementnetworkforpageobjectdetection[J].IEEETransonInstrumentationandMeasurement,2022,71:5020310.
[21]BiHengyue,XuCanhui,ShiCao,etal.SRRV:anoveldocumentobjectdetectorbasedonspatial-relatedrelation[J/OL].IEEETransonMultimedia.(2022).https://doi.org/10.1109/TMM.2022.3165717.
[22]RenShaoqing,HeKaiming,GirshickR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[J].IEEETransonPatternAnalysisandMachineIntelligence,2017,39(6):1137-1149.
[23]HeKaiming,ZhangXiangyu,RenShaoqing,etal.Deepresiduallear-ningforimagerecognition[C]//ProcofIEEEConferenceonCompu-terVisionandPatternRecognition.WashingtonDC:IEEEComputerSociety,2016:770-778.
[24]LinTY,DollárP,GirshickR,etal.Featurepyramidnetworksforobjectdetection[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.WashingtonDC:IEEEComputerSociety,2017:2117-2125.
[25]ZhongXu,TangJianbin,YepesAJ.PubLayNet:largestdataseteverfordocumentlayoutanalysis[C]//ProcofInternationalConferenceonDocumentAnalysisandRecognition.Piscataway,NJ:IEEEPress,2019:1015-1022.
[26]ReimersN,GurevychI.Sentence-BERT:sentenceembeddingsusingsiameseBERT-networks[EB/OL].(2019-08-27).http://doi.org/10.48550/arxiv.1908.10084.
[27]HeKaiming,GkioxariG,DollárP,etal.MaskR-CNN[J].IEEETransonPatternAnalysisandMachineIntelligence,2018,42(2):386-397.
[28]ZhangShifeng,ChiCheng,YaoYongqiang,etal.Bridgingthegapbetweenanchor-basedandanchor-freedetectionviaadaptivetrainingsampleselection[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2020:9759-9768.
[29]LiJunlong,XuYiheng,LyuTengchao,etal.DiT:self-supervisedpre-trainingfordocumentimagetransformer[C]//Procofthe30thACMInternationalConferenceonMultimedia.NewYork:ACMPress,2022:3530-3539.
[30]HuangYupan,LyuTengchao,CuiLei,etal.LayoutLMv3:pre-trainingfordocumentAIwithunifiedtextandimagemasking[EB/OL].(2022-07-19).http://doi.org/10.48550/arxiv.2204.08387.
[31]XieSaining,GirshickR,DollárP,etal.Aggregatedresidualtransformationsfordeepneuralnetworks[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.WashingtonDC:IEEEComputerSociety,2017:1492-1500.