亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合邊特征與注意力的表格結(jié)構(gòu)識別模型

2023-03-24 13:24:58呂學強張煜楠韓晶崔運鵬李歡

計算機應(yīng)用 2023年3期

呂學強，張煜楠，韓晶*，崔運鵬，李歡

（1.網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室（北京信息科技大學），北京 100101；2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點實驗室（中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所），北京 100081）

0 引言

表格數(shù)據(jù)因簡潔規(guī)范、便于填寫、易于閱讀等特性而在生活中應(yīng)用廣泛。隨著信息化的不斷推進，人們對于表格信息自動提取的需求越發(fā)迫切。表格作為信息的載體，不僅包含文本信息，同時也包含邏輯結(jié)構(gòu)信息。目前，已經(jīng)可以通過光學字符識別（Optical Character Recognition，OCR）技術(shù)提取表格中的文本信息，而表格結(jié)構(gòu)信息的識別仍然是表格信息提取領(lǐng)域的重點問題。

傳統(tǒng)的表格結(jié)構(gòu)識別方法利用圖像處理技術(shù)從圖像數(shù)據(jù)中獲取特征，并使用啟發(fā)式算法識別表格結(jié)構(gòu)。對含有表格的圖像進行處理，從中獲取表格框線位置和表格文本投影信息，通過這些信息能夠較好地識別規(guī)整的表格結(jié)構(gòu)［1-2］。在此基礎(chǔ)上，使用啟發(fā)式算法對特殊情況進行處理，從全局角度優(yōu)化輸出，能夠有效優(yōu)化算法的性能［3-4］?；趥鹘y(tǒng)方法的表格結(jié)構(gòu)識別在特定場景下通常能夠取得較好的效果，但這類方法往往受使用場景的限制，魯棒性較差。

近年來，隨著深度學習的快速發(fā)展，越來越多的研究開始將深度學習用于表格結(jié)構(gòu)識別領(lǐng)域?；趫D像特征的表格結(jié)構(gòu)識別以表格圖像為基礎(chǔ)，利用目標檢測、語義分割等深度學習方法對圖像中表格的行和列進行檢測分割，并通過后續(xù)算法還原表格結(jié)構(gòu)信息。Paliwal等［5］提出一種基于語義分割的表格結(jié)構(gòu)識別方法，首先通過語義分割得到表格中列的位置信息，并使用啟發(fā)式方法得到行信息，實現(xiàn)表格結(jié)構(gòu)識別。Tensmeyer等［6］提出了一種分割-合并模型，首先將表格圖像進行細致分割，然后對分割結(jié)果進行同行、列的合并，由此得到表格結(jié)構(gòu)信息。Siddiqui等［7］提出一種基于目標檢測的表格結(jié)構(gòu)識別方法，將表格的行、列視為被檢測對象，使用語義分割網(wǎng)絡(luò)進行檢測。Qiao等［8］針對單元格位置信息與空白單元格進行優(yōu)化，細化了單元格邊界信息，并通過表格結(jié)構(gòu)恢復算法解決了空白單元格的問題?；趫D像特征的表格結(jié)構(gòu)識別方法從表格圖像的行、列結(jié)構(gòu)入手，首先確認圖像中的行、列結(jié)構(gòu)，并以此為基礎(chǔ)推導出單元格之間的關(guān)系。此類方法能夠很好地獲取圖像中的全局信息，但較難處理表格結(jié)構(gòu)中存在的復雜結(jié)構(gòu)，泛化性較差。

基于文本框的表格結(jié)構(gòu)識別以表格圖像的OCR 結(jié)果為基礎(chǔ)，對文本框進行圖結(jié)構(gòu)建模，通過圖神經(jīng)網(wǎng)絡(luò)（Graph Neural Network，GNN）進行推理，還原表格結(jié)構(gòu)信息。Qasim等［9］首先將GNN 引入表格結(jié)構(gòu)識別領(lǐng)域，在對表格進行圖建模的基礎(chǔ)上，使用GNN 預(yù)測文本塊之間的同行、同列、同單元格關(guān)系，以此得到表格結(jié)構(gòu)。Li等［10］在OCR 的基礎(chǔ)上建立圖模型，然后使用圖卷積神經(jīng)網(wǎng)絡(luò)（Graph Convolutional Network，GCN）預(yù)測文本塊間的行、列位置關(guān)系?；谖谋究虻谋砀窠Y(jié)構(gòu)識別方法不依賴表格框線、圖像特征等信息，具有更強的泛化能力；但受限于圖網(wǎng)絡(luò)結(jié)構(gòu)，這類方法通常對于空間特征信息利用不夠充分，在圖網(wǎng)絡(luò)推理過程中很容易損失局部空間信息，抗干擾能力較差。

針對現(xiàn)有方法在表格結(jié)構(gòu)識別任務(wù)中存在的復雜表格結(jié)構(gòu)識別率較低、局部空間信息損失的問題，本文提出一種新的用于表格結(jié)構(gòu)識別的圖網(wǎng)絡(luò)主干網(wǎng)絡(luò)——圖邊注意力網(wǎng)絡(luò)（Graph Edge-Attention Network，GEAN），并在此基礎(chǔ)上提出融合邊特征與注意力的表格結(jié)構(gòu)識別模型（Graph Edge-Attention Network based Table Structure Recognition model，GEAN-TSR）。GEAN-TSR 使用GEAN 作為主干網(wǎng)絡(luò)對特征進行聚合、傳遞，然后引入邊特征和文本特征，并與圖網(wǎng)絡(luò)提取的特征層相融合，最后通過圖中邊的分類實現(xiàn)表格結(jié)構(gòu)預(yù)測。在公開數(shù)據(jù)集上的對比實驗與消融實驗驗證了模型的有效性。

1 相關(guān)工作

1.1 空域圖卷積神經(jīng)網(wǎng)絡(luò)

GCN 的主要發(fā)展方向分為空域圖卷積與譜域圖卷積兩條路線：譜域圖卷積神經(jīng)網(wǎng)絡(luò)從卷積定理出發(fā)，通過傅里葉變換等方法在譜空間實現(xiàn)圖卷積。而空域圖卷積神經(jīng)網(wǎng)絡(luò)則是在構(gòu)建圖模型的基礎(chǔ)上，通過節(jié)點特征的聚合與傳遞進行更新、預(yù)測的網(wǎng)絡(luò)。相較于譜域圖卷積神經(jīng)網(wǎng)絡(luò)，空域圖卷積神經(jīng)網(wǎng)絡(luò)更加靈活，能夠更好地針對特定任務(wù)建模［11］。

在空域圖卷積神經(jīng)網(wǎng)絡(luò)中，設(shè)圖G=(V，E)，其中：節(jié)點集合V={v1，v2，…，vn}表示圖中包含n個圖節(jié)點；邊集合E?V×V；節(jié)點i與j之間的邊表示為eij∈E；與節(jié)點i相鄰的節(jié)點集合記為Ni={j∈V|eij∈E}。圖神經(jīng)網(wǎng)絡(luò)每一層的輸入為當前層圖中所有節(jié)點特征的集合與圖中所有邊的集合E。更新前圖節(jié)點特征記為hi，更新后圖節(jié)點的新特征記為h′i。圖節(jié)點更新公式如式（1）所示：

其中：f()表示特征提取函數(shù)；AGG()表示聚合函數(shù)。

1.2 邊卷積

邊卷積（Edge Convolution，EdgeConv）由Wang等［12］首先提出并使用。該方法針對空域圖卷積神經(jīng)網(wǎng)絡(luò)在點云處理任務(wù)中缺乏拓撲信息而無法有效提取局部結(jié)構(gòu)信息的問題，生成描述點與它的相鄰節(jié)點的邊緣特征，以取代傳統(tǒng)圖卷積神經(jīng)網(wǎng)絡(luò)直接從嵌入中生成點特征的方法，提升網(wǎng)絡(luò)對于局部信息的學習能力，更新公式如下：

其中：θ與?為參數(shù)矩陣；采用的激活函數(shù)為ReLU（Rectified Linear Unit）。

相較于其他空域圖卷積網(wǎng)絡(luò)結(jié)構(gòu)，邊卷積能夠更好地學習節(jié)點與相鄰節(jié)點的邊緣特征，以解決局部圖復雜的問題。邊卷積更新如圖1 所示。圖1（a）中，待更新節(jié)點i及其相鄰節(jié)點j之間的邊特征eij由節(jié)點i的特征矩陣hi與節(jié)點j的特征矩陣hj經(jīng)全連接層得到。圖1（b）中，使用與待更新節(jié)點相鄰的邊特征進行圖節(jié)點的特征聚合并更新節(jié)點hi為

圖1 邊卷積更新過程示意圖Fig.1 Schematic diagram of EdgeConv update process

1.3 圖注意力模型

Veli?kovi?等［13］提出了圖注意力網(wǎng)絡(luò)（Graph Attention Network，GAT）模型，在圖節(jié)點的特征聚合過程中引入注意力機制，使每個圖節(jié)點都關(guān)注它所有的鄰居，并給出查詢表示重要程度，如圖2 所示。圖2（a）中，待更新節(jié)點與它相鄰節(jié)點之間的注意力參數(shù)aij由節(jié)點i的特征矩陣hi與節(jié)點j的特征矩陣hj組合，并通過全連接層與激活層得到。圖2（b）中，使用注意力參數(shù)為待更新節(jié)點的相鄰節(jié)點特征進行加權(quán)，然后將加權(quán)后的相鄰節(jié)點特征聚合并更新節(jié)點hi為引入注意力的模型能夠更有效地聚合圖節(jié)點特征，圖注意力更新公式如下：

圖2 GAT聚合過程圖Fig.2 GAT aggregation process diagram

其中：aT、W為參數(shù)矩陣；LeakyReLU 為帶泄露修正線性單元（Leaky Rectified Liner Unit）；Softmax 為歸一化指數(shù)函數(shù)。

此外，Brody等［14］指出GAT 模型本質(zhì)上是一種靜態(tài)注意力機制（static attention），并提出了改進的動態(tài)注意力機制（dynamic attention）。靜態(tài)注意力機制存在一定的缺陷，無法準確表達應(yīng)有的重要程度關(guān)系。設(shè)有查詢矩陣Q與值矩陣V，若對于所有的Q都存在一個固定的V，使得所有Q對于這個V為所有查詢中的最大值，則稱這種注意力為靜態(tài)注意力。在靜態(tài)注意力中，注意力計算公式中的權(quán)重矩陣aT與W實際上處于連乘關(guān)系，因此，它的作用等效于一個線性層，無法準確表達應(yīng)有的重要程度關(guān)系，使模塊沒能發(fā)揮應(yīng)有的作用。動態(tài)注意力則通過改進eij的計算方式克服這個缺陷，有效提升了模型的表達能力。它拆分兩個線性層，并分別在線性層后增加非線性激活函數(shù)，形成類似多層感知機的效果，以此提升注意力模型的效果。更新公式如下：

2 本文方法

本文在輸入特征的基礎(chǔ)上首先進行圖結(jié)構(gòu)建模，使用GEAN 提取特征，然后融合邊、文本特征與圖網(wǎng)絡(luò)輸出，最后由分類器輸出結(jié)果，整體結(jié)構(gòu)如圖3 所示，其中多層感知器（MultiLayer Perceptron，MLP）是常用的特征提取方法。

圖3 GEAN-TSR結(jié)構(gòu)Fig.3 Structure of GEAN-TSR

2.1 基于圖模型的表格結(jié)構(gòu)識別任務(wù)建模

基于圖模型的表格結(jié)構(gòu)識別任務(wù)的輸入為表格中每個單元格的特征，通過預(yù)測單元格之間水平或豎直方向的相鄰關(guān)系完成表格結(jié)構(gòu)識別任務(wù)。引入圖模型后，將表格中的每個單元格視作圖節(jié)點，單元格的相鄰關(guān)系視作圖中的邊，由此將表格結(jié)構(gòu)識別問題轉(zhuǎn)化為已知圖節(jié)點特征，預(yù)測圖中邊類別的任務(wù)。初始圖中僅存在圖節(jié)點及相關(guān)特征，并沒有邊存在，因此，首先需要根據(jù)圖節(jié)點特征對圖中的邊進行初始化。為了不損失模型精度，圖模型中的邊需要盡可能將相鄰的圖節(jié)點（單元格）相連，最簡單的辦法是對所有圖節(jié)點建立連通圖。但是，連通圖包含大量的冗余信息并且會帶來極大的計算量。為了降低模型計算量，在圖節(jié)點特征的基礎(chǔ)上，使用K近鄰（K-Nearest Neighbors，KNN）算法構(gòu)建初始圖中的邊。其中，近鄰值K的取值需要根據(jù)數(shù)據(jù)情況而定，本文選用K=20 構(gòu)建鄰域。在KNN 算法中，選用單元格中心點之間的歐氏距離度量單元格之間的距離：

隨后，在鄰域內(nèi)的圖節(jié)點與作為中心點的圖節(jié)點之間建立邊，完成圖模型的構(gòu)建。在完成建模后，以圖節(jié)點特征矩陣、邊矩陣作為圖網(wǎng)絡(luò)的輸入進行推理。設(shè)圖G中節(jié)點即表格中單元格數(shù)量為N，每個圖節(jié)點有M個特征輸入，則特征矩陣形狀為N×M。本文選取圖節(jié)點的絕對位置、相對位置等空間信息作為圖節(jié)點的初始特征。邊矩陣形狀為2×L，代表圖中共存在L條初始化的邊，邊矩陣記錄了圖中邊的兩端點。網(wǎng)絡(luò)將通過模型推理判斷K條邊的類別，設(shè)圖中節(jié)點i與j為同行相鄰關(guān)系，則label(i，j)=1；若節(jié)點i與節(jié)點j為同列相鄰關(guān)系，則label(i，j)=2；否則，節(jié)點i與節(jié)點j不構(gòu)成關(guān)聯(lián)關(guān)系，label(i，j)=0。

2.2 圖邊注意力網(wǎng)絡(luò)

現(xiàn)有基于圖卷積神經(jīng)網(wǎng)絡(luò)的表格結(jié)構(gòu)識別方法大多采用邊卷積作為主干網(wǎng)絡(luò)［9-10］。然而，不同于邊卷積應(yīng)用的點云場景，表格結(jié)構(gòu)識別任務(wù)中的圖節(jié)點蘊含信息更為豐富密集，這導致邊卷積使用的聚合方式很容易帶來局部特征信息的損失。針對表格結(jié)構(gòu)識別任務(wù)中圖節(jié)點連接密集、對局部結(jié)構(gòu)信息敏感等特點，本文提出GEAN 以完成表格結(jié)構(gòu)識別任務(wù)中的特征提取、傳遞、聚合的任務(wù)，GEAN 的推理過程如圖4 所示。圖4（a）中，將待更新節(jié)點i的特征矩陣hi、待更新節(jié)點i相鄰節(jié)點j的特征矩陣hj作為輸入，通過全連接層計算得到節(jié)點i與節(jié)點j之間的邊特征eij，然后將hj與eij組合并使用全連接層和激活層計算得到注意力權(quán)重aij。圖4（b）中，將待更新節(jié)點的相鄰節(jié)點特征hj與邊特征eij組合傳入全連接層，并使用注意力進行加權(quán)，更新節(jié)點特征hi。

圖4 GEAN推理過程Fig.4 Inference process of GEAN

GEAN 在邊卷積結(jié)構(gòu)的基礎(chǔ)上，為了更好地提取局部空間信息，引入圖注意力機制加強模型對局部空間信息的提取能力。同時，注意力查詢能夠更好地覆蓋密集連接的邊，更加充分地傳遞特征。在圖邊注意力中，本文將eij作為圖邊注意力的查詢（Query），圖節(jié)點i的特征hi作為鍵（Key），計算Ni中的每個圖節(jié)點j與圖節(jié)點i的注意力查詢關(guān)系aij，并依據(jù)注意力權(quán)重更新圖節(jié)點i的特征hi，圖邊注意力更新公式如式（11）～（13）。

其中：θ、?、W均為參數(shù)矩陣，激活函數(shù)為LeakyReLU。

GEAN 在網(wǎng)絡(luò)中的更新細節(jié)如圖5 所示。網(wǎng)絡(luò)輸入為圖中所有節(jié)點的特征矩陣x，Nnum為圖中節(jié)點數(shù)量，Cnum為多頭注意力的頭數(shù)。hi與hj寬度為節(jié)點特征數(shù)（128），Enum為圖中邊的數(shù)量。邊矩陣e中的每一行代表圖中一條邊的特征，由矩陣hi與h（j起點與終點矩陣）中對應(yīng)行經(jīng)全連接層得到。之后，由矩陣e與hi計算得到注意力矩陣a。最后，由x與e在注意力加權(quán)下更新圖節(jié)點特征矩陣x，完成一次網(wǎng)絡(luò)更新。

圖5 GEAN更新過程仿真示例Fig.5 Simulation example of GEAN update process

2.3 邊特征與文本特征融合

為了預(yù)測圖中邊的分類結(jié)果，邊特征信息必不可少。每一條邊特征都依賴于這條邊的起點與終點。本文將邊的兩端點所對應(yīng)的圖節(jié)點特征進行特征層面的拼接，然后使用Linear+ReLU 得到邊特征。通過圖卷積更新圖節(jié)點特征然后再拼接邊特征的過程會造成特征的損失，影響模型的性能。為了加強用于邊分類的特征，本文模型在生成邊特征后，引入額外的邊特征融合模塊。該模塊通過邊矩陣獲取邊的起始點位置信息，并計算每條邊的空間信息。本文模型選取了相對位置、絕對位置、相對角度等特征作為輸入，在使用線性變換與激活函數(shù)進行簡單的特征提取后，將新的邊特征矩陣與先前計算得到的特征矩陣進行concat 融合，具體過程如圖6 所示。

圖6 邊特征融合過程實例Fig.6 Example of edge feature fusion process

表格結(jié)構(gòu)識別任務(wù)中除了單元格位置信息外，還存在單元格文本信息與單元格圖像信息。Li等［10］指出單元格對應(yīng)的圖像信息并不能有效提升模型效果，而文本特征則有助于模型效果的提升。目前最常用的文本特征提取方法有門控循環(huán)單元（Gated Recurrent Unit，GRU）、長短期記憶（Long Short-Term Memory，LSTM）、BERT（Bidirectional Encoder Representations from Transformers）等，考慮到單元格中的文本特征上下文語義較弱，本文選用兼顧速度與性能的GRU 對每個單元格的文本分別進行特征提?。?/p>

其中：zt為更新門；rt為重置門；dt與dt-1分別為時間t與t-1的隱藏狀態(tài)；xt為輸入向量；σ為Sigmoid 函數(shù)。將得到的圖節(jié)點文本特征拼接成邊特征矩陣，并使用concat 操作將它與先前的特征矩陣組合；最后，在線性變換后使用Softmax 函數(shù)進行最終的網(wǎng)絡(luò)預(yù)測輸出，如圖7 所示。

圖7 特征融合過程Fig.7 Process of feature fusion

3 實驗與結(jié)果分析

3.1 數(shù)據(jù)集與評價指標

為了驗證本文的GEAN-TSR 在表格結(jié)構(gòu)識別任務(wù)上的有效性，選用表格結(jié)構(gòu)識別領(lǐng)域常用的幾個公開數(shù)據(jù)集進行性能測試，并與最新的表格結(jié)構(gòu)識別模型進行對比。這些數(shù)據(jù)集包含表格圖像、單元格文本位置標注、文本標注與單元格關(guān)系標注信息。

1）SciTSR（Scientific paper Table Structure Recognition）數(shù)據(jù)集：該數(shù)據(jù)集從LaTex 源文件中獲取了15 000 個PDF 格式的表格以及對應(yīng)的高質(zhì)量表格結(jié)構(gòu)標簽。其中，共有12 000個表格及其結(jié)構(gòu)標簽用于訓練，3 000 個用于測試。數(shù)據(jù)集中的表格平均有9 行、5 列、48 個單元格。為了對復雜表格結(jié)構(gòu)進行評估，選取了716 張含有跨行跨列信息的表格圖片構(gòu)成了SciTSR-COMP（Scientific paper Table Structure Recognition-COMPlicated）的測試集。

2）ICDAR 2013（International Conference on Document Analysis and Recognition 2013）數(shù)據(jù)集：該數(shù)據(jù)集包括從美國、歐盟政府文件中摘錄的156 張表格數(shù)據(jù)。

3）PubTabNet 數(shù)據(jù)集：該數(shù)據(jù)集包括500 777 張訓練圖像與9 115 張驗證圖像，包含大量的三行表，也含有跨行跨列單元格、空白單元格等復雜信息。

G?bel等［15］提出的表格結(jié)構(gòu)識別指標是目前最通用的表格結(jié)構(gòu)識別指標之一。該方法生成單元格與它在水平和垂直方向上最近鄰的單元格之間的鄰接關(guān)系表，而空白單元格則不與非空單元格產(chǎn)生鄰接關(guān)系，通過計算精確率（Precision）與召回率（Recall）評估方法的性能。召回率反映了所有存在的鄰接關(guān)系中被正確判別的比例，而精確率反映了檢測到的鄰接關(guān)系中判別正確的比例。評價指標如式（18）～（20）所示：

其中：cnum表示正確的鄰接關(guān)系的數(shù)量；tnum表示全部鄰接關(guān)系的數(shù)量；dnum表示檢測到的鄰接關(guān)系的數(shù)量。

圖8（a）為真實標簽，一共有31 個正確的鄰接關(guān)系；圖8（b）代表預(yù)測結(jié)果，預(yù)測出的正確鄰接關(guān)系24 個，預(yù)測出的鄰接關(guān)系29 個，錯判標簽4 個。根據(jù)圖8 給出的示例進行評價指標的計算，得到召回率、精確率、F1 值為0.774、0.857與0.813。

圖8 真實標簽與預(yù)測標簽Fig.8 True label and predicted label

3.2 實驗環(huán)境與訓練參數(shù)

本文實驗環(huán)境為：Ubuntu 16.04、Tesla P4 GPU、CUDA 10.1、python 3.7、pytorch1.7.1。訓練使用交叉熵損失函數(shù)，采用Adam 優(yōu)化器，初始學習率設(shè)為5× 10-4，采用梯度衰減學習率的方法，每30 輪學習率衰減為原來的1/5。

3.3 實驗結(jié)果

3.3.1 對比實驗

為驗證GEAN 作為主干網(wǎng)時的模型效率，在其他條件不變的情況下，將GEAN 替換為其他幾個常用的圖網(wǎng)絡(luò)模型進行對比，結(jié)果如表1 所示。其中，圖卷積網(wǎng)絡(luò)（GCN）與動態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)（Dynamic Graph Convolutional Neural Network，DGCNN）均為常用的圖網(wǎng)絡(luò)模型。結(jié)果顯示，在相同的實驗條件下，以GEAN 作為主干網(wǎng)與其他模型相比，模型大小、參數(shù)量和預(yù)測平均用時比較接近，說明了GEAN 具備良好的效果。

表1 不同主干網(wǎng)模型效率對比Tab.1 Model efficiency comparison with different backbone networks

為驗證GEAN-TSR 的有效性，與其他表格結(jié)構(gòu)識別模型進行對比，實驗結(jié)果如表2 所示。其中：Tabby［4］是基于啟發(fā)式算法的表格結(jié)構(gòu)識別模型；DeepDeSRT（Deep learning for Detection and Structure Recognition of Tables）［16］、GraphTSR（Graph neural network for Table Structure Recognizes）［17］、SEM（Split，Embed and Merge）［18］、TabStruct-Net（Table Structure Network）［19］則是基于深度學習方法的表格結(jié)構(gòu)識別模型。對比實驗表明，GEAN-TSR 在召回率與F1 指標上均有明顯提升。SciTSR-COMP 是從SciTSR 數(shù)據(jù)集中篩選出的復雜數(shù)據(jù)集，該數(shù)據(jù)集更能體現(xiàn)模型面對復雜表格結(jié)構(gòu)時的表達能力，在SciTSR-COMP 數(shù)據(jù)集上，相較于目前最優(yōu)的SEM 模型，GEAN-TSR 的召回率與F1 值分別提高了2.5 和1.4 個百分點，驗證了GEAN-TSR 在復雜結(jié)構(gòu)上的有效性。

為了驗證本文模型的泛化能力，將所有模型在SciTSR數(shù)據(jù)集上訓練，然后在ICDAR 2013 數(shù)據(jù)集進行測試。ICDAR 2013 數(shù)據(jù)集中的數(shù)據(jù)出自政府文件，與SciTSR 數(shù)據(jù)集具有較大差異性，因此該實驗的結(jié)果能夠從一定程度上反映模型的泛化能力。從表2 可以看出，與其他模型相比，GEAN-TSR 擁有更好的泛化能力，在訓練集均為SciTSR 數(shù)據(jù)集時，在ICDAR 2013 數(shù)據(jù)集上大部分指標都取得了最優(yōu)值。

表2 訓練集為SciTSR時，不同模型在不同測試集上的評價指標對比Tab.2 Comparison of evaluation indicators of different models on different test sets when training set is SciTSR

3.3.2 消融實驗

為了驗證不同模塊的有效性，設(shè)計了針對不同模塊的消融實驗。消融實驗將模型分解為特征提取主干網(wǎng)絡(luò)GEAN、文本特征融合、邊特征融合三個模塊。GEAN-TSR 在SciTSR、PubtabNet 數(shù)據(jù)集下的消融實驗結(jié)果如表3 所示。由消融實驗可知，相較于DGCNN 作為主干網(wǎng)絡(luò)，GEAN 作為主干網(wǎng)時模型在各個指標上均有一定提升，這說明融合注意力的GEAN 優(yōu)于DGCNN。在GEAN 作為主干網(wǎng)的基礎(chǔ)上，分別融合文本與位置信息模塊，融合后的網(wǎng)絡(luò)相較于基礎(chǔ)的GEAN 在三個指標上均有提升，驗證了文本特征與邊特征兩個模塊的有效性。而融合文本特征與邊特征的GEAN 在各個指標上表現(xiàn)最佳，說明文本與邊特征模塊的融合互不沖突，能夠共同作用使模型達到最佳性能。

表3 消融實驗結(jié)果Tab.3 Ablation experiment results

4 結(jié)語

基于圖網(wǎng)絡(luò)的表格結(jié)構(gòu)識別模型能夠在對表格進行圖模型建模的同時輸出表格的結(jié)構(gòu)信息。但目前用于表格結(jié)構(gòu)識別的圖網(wǎng)絡(luò)模型仍存在兩個問題：1）圖網(wǎng)絡(luò)模型面對復雜表格結(jié)構(gòu)表達能力不足；2）圖網(wǎng)絡(luò)在推理過程中會造成局部結(jié)構(gòu)信息丟失。針對上述問題，本文提出圖邊注意力網(wǎng)絡(luò)（GEAN）作為主干網(wǎng)絡(luò)提取特征，并提出一種融合邊特征與注意力的表格結(jié)構(gòu)識別模型（GEAN-TSR）。GEAN 在邊卷積圖網(wǎng)絡(luò)模型的基礎(chǔ)上引入注意力機制，有效增強了圖網(wǎng)絡(luò)在表格結(jié)構(gòu)識別任務(wù)中的表達能力。此后，引入邊特征與文本特征融合模塊，補足了圖網(wǎng)絡(luò)推理過程中損失的局部結(jié)構(gòu)信息，有效提升了模型性能。

對比實驗表明，GEAN-TSR 相較于其他模型，能夠有效提升表格結(jié)構(gòu)識別任務(wù)的效果，同時具有一定的泛化能力，在面對復雜表格結(jié)構(gòu)時，也能達到較好的效果。消融實驗驗證了GEAN 的性能以及特征融合模塊的必要性。

目前數(shù)據(jù)集的位置信息標簽局限于文本框，而不是單元格的位置信息，這樣的監(jiān)督信息很可能對模型的學習造成負面影響，因此，在未來的實驗中可以嘗試使用圖像處理或深度學習的方法增強位置信息以覆蓋整個單元格，由此提高模型在表格結(jié)構(gòu)識別任務(wù)上的性能。