亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的表格檢測(cè)識(shí)別算法綜述

        2021-04-01 06:18:40孔令軍包云超王茜雯李華康
        關(guān)鍵詞:深度學(xué)習(xí)人工智能

        孔令軍 包云超 王茜雯 李華康

        摘要:信息時(shí)代的高速發(fā)展導(dǎo)致數(shù)據(jù)的大量產(chǎn)生與頻繁傳輸,單單依靠人力很難處理這些數(shù)據(jù)。依托于人工智能的興起與發(fā)展,數(shù)據(jù)的利用變得更加高效。表格作為一種特殊的數(shù)據(jù)形式,逐漸引起了廣泛關(guān)注。概述了表格識(shí)別技術(shù)的發(fā)展,介紹了傳統(tǒng)的表格識(shí)別技術(shù)及其缺點(diǎn);介紹了基于深度學(xué)習(xí)技術(shù)的表格檢測(cè)、表格結(jié)構(gòu)識(shí)別、端對(duì)端檢測(cè)與識(shí)別以及字符識(shí)別,重點(diǎn)闡述了表格檢測(cè)與結(jié)構(gòu)識(shí)別算法;給出表格數(shù)據(jù)的數(shù)據(jù)集以及在其上的最新指標(biāo),展望了表格檢測(cè)識(shí)別技術(shù)的發(fā)展前景。

        關(guān)鍵詞:人工智能;深度學(xué)習(xí);表格檢測(cè);表格結(jié)構(gòu)識(shí)別;光學(xué)字符識(shí)別

        中圖分類號(hào):TP391.4文獻(xiàn)標(biāo)志碼:A文章編號(hào):1008-1739(2021)02-65-9

        0引言

        表格是一種特殊的信息表達(dá)方式,是人們?yōu)榱俗寯?shù)據(jù)的組織形式更加標(biāo)準(zhǔn)和結(jié)構(gòu)化而使用的一種數(shù)據(jù)類型。表格的特點(diǎn)是信息高度精煉集中[1],方便信息的檢索和比較。表格識(shí)別的目的是獲取圖像中的表格并訪問(wèn)其數(shù)據(jù),是文檔分析與識(shí)別領(lǐng)域的一個(gè)重要分支。

        日常生活中,人們對(duì)于表格數(shù)據(jù)的處理方式一般是:人工使用展示表格的工具打開(kāi)表格,然后進(jìn)行信息處理?;谌斯ぬ幚肀砀竦姆绞剑a(chǎn)生了諸多問(wèn)題:①因?yàn)楸砀駭?shù)量眾多,類型繁多復(fù)雜,人工對(duì)數(shù)據(jù)進(jìn)行更新的過(guò)程中,可能會(huì)在不同的表格中寫入相同的內(nèi)容,或者有些單元格里的內(nèi)容沒(méi)有得到更新。一旦產(chǎn)生錯(cuò)誤,使用人力查找錯(cuò)誤的時(shí)間非常有限。因此人工處理表格數(shù)據(jù)往往會(huì)造成表格內(nèi)容錯(cuò)誤、信息不一致等問(wèn)題,這種錯(cuò)誤和不一致可能會(huì)有損公司聲譽(yù),甚至帶來(lái)經(jīng)濟(jì)損失。②由于人工提取表格信息是一個(gè)繁瑣而耗時(shí)的過(guò)程,為此需要投入大量人員同時(shí)進(jìn)行這項(xiàng)工作,產(chǎn)生了額外費(fèi)用。③在一些特殊的行業(yè)如金融業(yè)和制造業(yè),表格往往是以非結(jié)構(gòu)化的數(shù)字文件如可移植文檔格式(PDF)公開(kāi)的,人工難以對(duì)這些文件進(jìn)行提取和處理。

        因此,如何高效地從文檔或圖像中找到表格區(qū)域,同時(shí)有效地提取表格中的結(jié)構(gòu)信息和數(shù)據(jù)內(nèi)容,成為了一個(gè)亟待解決的問(wèn)題。Hu等人[2]將表格識(shí)別分為2個(gè)主要任務(wù):表格檢測(cè)和結(jié)構(gòu)識(shí)別。表格檢測(cè)是指定位表格載體中的表格區(qū)域,以避免識(shí)別過(guò)程中非表格區(qū)域的干擾;表格識(shí)別是指對(duì)表格進(jìn)行結(jié)構(gòu)識(shí)別獲得其行列、層次等邏輯結(jié)構(gòu),再對(duì)單元格里的內(nèi)容進(jìn)行光學(xué)字符識(shí)別(Optical Character Recognition,OCR),最終將完整的表格信息寫入可編輯文件中。通過(guò)提取表格框架,定位表格單元格,最后利用OCR技術(shù)實(shí)現(xiàn)表格文檔內(nèi)容的識(shí)別,不僅提高了工作效率,而且極大地降低了信息錄入的錯(cuò)誤率。

        1表格檢測(cè)與識(shí)別技術(shù)的發(fā)展

        國(guó)內(nèi)的OCR技術(shù)研究開(kāi)始于19世紀(jì)70年代末[3],隨著科學(xué)技術(shù)的快速發(fā)展,OCR技術(shù)得到了長(zhǎng)足的進(jìn)步。表格檢測(cè)與識(shí)別技術(shù)的研究滯后于OCR技術(shù)的研究,得益于識(shí)別技術(shù)的進(jìn)步,該技術(shù)逐漸被研究者重視。

        早期的表格檢測(cè)與識(shí)別研究主要是基于啟發(fā)式規(guī)則的方法,即指定一組規(guī)則來(lái)進(jìn)行決策,以便識(shí)別出滿足特定條件的表格。Chandran等人[4]以水平和垂直方向?yàn)榫€索,設(shè)計(jì)了一個(gè)以樹(shù)的形式表示表格結(jié)構(gòu)的系統(tǒng)。Kieninger等人[5]提出的T-Recs系統(tǒng)使用自底向上的方法對(duì)文檔圖像進(jìn)行連通分支分析,再按照定義的規(guī)則進(jìn)行合并,得到邏輯文本塊。Zanibbi等人[6]將表格識(shí)別過(guò)程定義為觀察、轉(zhuǎn)換和推理的過(guò)程,如圖1所示。Yildiz等人[7]提出的pdf2table是一種在PDF文件中只利用文本元素在文件中的絕對(duì)位置來(lái)提取表格信息的方法。在近期的研究中,Koci等人[8]將頁(yè)面中的布局區(qū)域表示為圖的形式,使用遺傳算法從中將表格作為一個(gè)子圖識(shí)別出來(lái)。然而,基于啟發(fā)式規(guī)則的表格識(shí)別方法設(shè)計(jì)起來(lái)較為復(fù)雜,在各種場(chǎng)景的表格識(shí)別中難以獲得較高的準(zhǔn)確度,而且魯棒性相對(duì)較差。

        近年來(lái),國(guó)內(nèi)外研究者對(duì)表格識(shí)別問(wèn)題進(jìn)行了大量研究,嘗試引入Faster R-CNN[9]、YOLOv3[10]、全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[11]、圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)及可變形卷積(Deformable Convolution)[12]等深度學(xué)習(xí)方法和網(wǎng)絡(luò)。表格識(shí)別也逐漸演變成了多個(gè)子研究領(lǐng)域,包括表格檢測(cè)、表格結(jié)構(gòu)識(shí)別、端對(duì)端的表格檢測(cè)與結(jié)構(gòu)識(shí)別等。

        2基于深度學(xué)習(xí)的表格檢測(cè)

        表格是一種非結(jié)構(gòu)化的物體,因此基于深度學(xué)習(xí)的物體檢測(cè)技術(shù)可以應(yīng)用到表格檢測(cè)任務(wù)上。現(xiàn)階段,大多數(shù)研究者使用目標(biāo)檢測(cè)方法進(jìn)行表格檢測(cè)。

        目前主流目標(biāo)檢測(cè)算法大致分為以Faster R-CNN為代表的基于候選區(qū)域的算法和以YOLO為代表的基于回歸的算法兩類,前者的檢測(cè)過(guò)程可分為2步:由RPN(Region Proposal Network)生成若干個(gè)候選框,再通過(guò)后續(xù)網(wǎng)絡(luò)對(duì)候選框進(jìn)行精確回歸;后者則直接回歸目標(biāo)的類別概率和坐標(biāo)位置,這樣做會(huì)損失精度,但比前者有更快的速度。

        在表格檢測(cè)任務(wù)上,Gilani等人[13]和Sun等人[14]使用并改進(jìn)Faster R-CNN網(wǎng)絡(luò),取得了不錯(cuò)的效果。前者對(duì)在大型數(shù)據(jù)集ImageNet上訓(xùn)練好的Faster R-CNN模型進(jìn)行微調(diào)。針對(duì)表格圖像與自然圖像之間差距大的問(wèn)題,提出了一種將表格圖像變換為類似自然圖像的圖像變換算法。該變換算法將輸入圖片轉(zhuǎn)換為二值圖像,再對(duì)圖像的藍(lán)、綠、紅通道分別計(jì)算歐氏距離變換、線性距離變換和最大距離變換。進(jìn)行圖像變換的表格檢測(cè)流程如圖2所示[13],輸入圖像經(jīng)過(guò)骨干網(wǎng)提取特征,其輸出特征圖輸入用于生成含有表格區(qū)域的區(qū)域建議網(wǎng)絡(luò),最后網(wǎng)絡(luò)判斷輸入?yún)^(qū)域是否含有表格對(duì)象。經(jīng)過(guò)此方法微調(diào)后的模型不受表格結(jié)構(gòu)和布局變化的影響,并且可以對(duì)任何數(shù)據(jù)集進(jìn)行微調(diào)。

        后者引入了角點(diǎn)的概念:表格4個(gè)頂點(diǎn)周圍的部分區(qū)域稱為角點(diǎn),角點(diǎn)除位置不同外,大小形狀相同,屬于同一個(gè)表格的角點(diǎn)組成一個(gè)角組?;贔aster R-CNN網(wǎng)絡(luò),將角點(diǎn)定位結(jié)合到表格檢測(cè)中。加入角點(diǎn)定位的表格檢測(cè)流程如圖3所示[14],骨干網(wǎng)絡(luò)VGG-16[15]從文檔圖像中提取特征圖,RPN和Faster R-CNN實(shí)現(xiàn)表格檢測(cè)和角點(diǎn)定位,通過(guò)坐標(biāo)匹配的方式對(duì)角進(jìn)行分組,并通過(guò)分組和先驗(yàn)規(guī)則過(guò)濾掉不可靠的角點(diǎn)。針對(duì)大多數(shù)少線表沒(méi)有豎直線卻存在水平線的特點(diǎn),使用可靠的角點(diǎn)組對(duì)檢測(cè)出來(lái)的表格橫坐標(biāo)進(jìn)行校準(zhǔn),得到精準(zhǔn)的表格區(qū)域。但角點(diǎn)屬于小對(duì)象,擁有較高的漏檢率,而且角點(diǎn)尺寸采用固定值,不利于表格邊界的細(xì)化,可以設(shè)置自適應(yīng)的角點(diǎn)尺寸解決這一問(wèn)題。

        圖像中的目標(biāo)可以在任意位置,以任意尺寸出現(xiàn)。傳統(tǒng)的卷積網(wǎng)絡(luò)存在一個(gè)固定的感受野,不能根據(jù)目標(biāo)的幾何變化做出改變,神經(jīng)網(wǎng)絡(luò)中的池化層同樣存在這個(gè)問(wèn)題。為了解決這一問(wèn)題,Dai等人[12]提出了可變形卷積神經(jīng)網(wǎng)絡(luò)以及可變形ROI池化,3*3可變形卷積如圖4所示。可變形卷積可以根據(jù)其輸入改變感受野,當(dāng)目標(biāo)在進(jìn)行幾何變換時(shí),能作出適應(yīng)性的改變。對(duì)于二維卷積,定義為感受野區(qū)域,對(duì)于輸出特征圖y的任意位置0,傳統(tǒng)卷積的計(jì)算為:

        在文檔頁(yè)面中,表格對(duì)象擁有較高的類內(nèi)方差和較低的類間方差,很難對(duì)任意布局的表格進(jìn)行檢測(cè)。Siddiqui等人[16]在Faster R-CNN以及FPN(Feature Pyramid Networks)[17]上應(yīng)用可變形卷積技術(shù)完成表格檢測(cè)任務(wù)。分別將Faster R-CNN骨干網(wǎng)ResNet-101[18]中的res5a_branch2b, res5b_branch2b和res5c_ branch2b三層以及FPN骨干網(wǎng)ResNet-101中的res3b3_branch2b和res4b22_branch2b兩層傳統(tǒng)卷積層變?yōu)榭勺冃蔚木矸e層,并分別將ROI池化用可變形ROI池化代替。經(jīng)過(guò)變換后的網(wǎng)絡(luò)如圖5所示[16],使用在ImageNet上訓(xùn)練好的預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí)。

        與上述做法不同,Huang等人[19]使用基于回歸的目標(biāo)檢測(cè)模型YOLOv3進(jìn)行表格檢測(cè)。考慮到文檔中表格對(duì)象和自然對(duì)象之間存在巨大差異,對(duì)YOLOv3引入了一些自適應(yīng)調(diào)整,包括一種錨框優(yōu)化策略和2種后處理方法。針對(duì)錨框的優(yōu)化,使用k-means聚類來(lái)尋找更適合表格而不是自然對(duì)象的錨框,使訓(xùn)練模型更容易找到表格的確切位置。后處理方法其一是消除預(yù)測(cè)區(qū)域的空白,即擦除預(yù)測(cè)區(qū)域4個(gè)方向上的空白,該方法能提高查準(zhǔn)率和查全率。后處理方法其二是過(guò)濾有噪聲的頁(yè)面對(duì)象,即將一些被識(shí)別為假陽(yáng)性樣本的頁(yè)眉、頁(yè)腳和分隔線對(duì)象過(guò)濾掉。該方法大大提高了計(jì)算精度。

        3基于深度學(xué)習(xí)的表格結(jié)構(gòu)識(shí)別

        目前,研究者大多使用目標(biāo)檢測(cè)、圖像分割和圖神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法進(jìn)行表格結(jié)構(gòu)識(shí)別。由于表格的特殊結(jié)構(gòu),因此既可以將行列作為目標(biāo)檢測(cè)的對(duì)象,也可以將行之間和列之間的分隔符作為目標(biāo)檢測(cè)的對(duì)象。同樣,這些對(duì)象也可以用圖像分割方法進(jìn)行分割。

        為了避免基于FCN的表格結(jié)構(gòu)識(shí)別方法[20]嚴(yán)重依賴后處理的缺點(diǎn),Siddiqui等人[21]將表格結(jié)構(gòu)中的行、列識(shí)別視為目標(biāo)檢測(cè)問(wèn)題,其中文檔可被視為場(chǎng)景,行、列可被視為對(duì)象,并分別在Faster R-CNN、R-FCN[22]和FPN上使用可變形卷積技術(shù)搭建模型。加入可變形卷積的模型如圖7所示[21]。3種模型都使用在ImageNet上進(jìn)行過(guò)預(yù)訓(xùn)練的ResNet-101進(jìn)行特征提取,其中分別將Faster R-CNN、R-FCN網(wǎng)絡(luò)的頂部3層卷積層轉(zhuǎn)換為可變形卷積層,對(duì)于FPN則額外轉(zhuǎn)換了第4層,以進(jìn)一步提高提取特征的質(zhì)量。還將變換后的Faster R-CNN的ROI池化層轉(zhuǎn)換為可變形ROI池化層。

        Tensmeyer等人[23]提出了表格結(jié)構(gòu)識(shí)別的深度學(xué)習(xí)模型SPLERGE,由分割模型和合并模型2個(gè)模型組成,分割模型又分為行分割模型和列分割模型。SPLERGE模型的表格結(jié)構(gòu)識(shí)別流程如圖8所示。表格中單元格和單元格分隔符都包含大量空白區(qū)域,因此僅僅使用局部信息通常難以識(shí)別表格單元格邊界。為了解決這一問(wèn)題,分別在分割模型和合并模型中使用投影池化和網(wǎng)格池化,使局部特性在整個(gè)圖像中傳播。分割模型以裁剪好的只包含表格區(qū)域的任意×大小的圖像作為輸入,進(jìn)行多尺度特征提取,通過(guò)投影池化操作,即在特征圖上按行或列求取均值,最后以行分隔符和列分隔符的形式在整個(gè)圖像上生成表格的網(wǎng)格結(jié)構(gòu),即產(chǎn)生2個(gè)表示每行(列)像素屬于行(列)分隔符區(qū)域的概率的一維信號(hào):∈[0,1]和∈[0,1]。合并模型將分割模型的預(yù)測(cè)結(jié)果和原圖作為輸入,判斷單元格在上下左右4個(gè)方向是否需要合并。其中網(wǎng)格池化是對(duì)每個(gè)預(yù)測(cè)單元格區(qū)域取均值。

        使用FCN網(wǎng)絡(luò)進(jìn)行表格結(jié)構(gòu)識(shí)別受到感受野的限制,難以關(guān)注單元格下一個(gè)和前一個(gè)行列元素的信息,Khan等人[24]提出了使用循環(huán)卷積網(wǎng)絡(luò)進(jìn)行表格結(jié)構(gòu)識(shí)別的方法。整個(gè)識(shí)別過(guò)程分為3個(gè)部分:預(yù)處理、行列分隔符分割和后處理。預(yù)處理步驟將原始表格圖像轉(zhuǎn)換為更簡(jiǎn)單的形式以使表格的布局和結(jié)構(gòu)更明顯,具體操作包括去除非文本前景對(duì)象,自適應(yīng)二值化,三次膨脹變換和歸一化。行列分隔符分割模型以預(yù)處理結(jié)果為輸入,分別使用2個(gè)分割網(wǎng)絡(luò)實(shí)現(xiàn)表格行列分隔符分割。在網(wǎng)絡(luò)的選擇上,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),相比較于LSTM[25],使用GRU可以取得更好的效果。對(duì)于列分隔符分割模型,模型以×大小的圖像作為輸入,經(jīng)過(guò)2層雙向GRU網(wǎng)絡(luò)后輸出同樣大小的特征圖。GRU會(huì)關(guān)注當(dāng)前列的左側(cè)和右側(cè)的所有列的信息,以及當(dāng)前列中包含的正在計(jì)算的像素值的信息。特征圖經(jīng)過(guò)一個(gè)全連接層,最后通過(guò)softmax層將每一列分類為列或列分隔符。行分隔符分割模型執(zhí)行類似的操作。其中列分隔符分割模型如圖9所示[24]。后處理部分對(duì)行列分隔符分割模型生成的分割空間進(jìn)行解析,得到最終的行列預(yù)測(cè)結(jié)果。

        近年來(lái),越來(lái)越多的研究者將深度學(xué)習(xí)技術(shù)應(yīng)用到圖數(shù)據(jù)領(lǐng)域。Qasim等人[26]將表格結(jié)構(gòu)識(shí)別問(wèn)題描述為一個(gè)與圖神經(jīng)網(wǎng)絡(luò)兼容的圖問(wèn)題,利用圖神經(jīng)網(wǎng)絡(luò)解決這一問(wèn)題。將每一個(gè)單詞區(qū)域作為一個(gè)頂點(diǎn),并將真值定義為使用矩陣描述的3個(gè)圖,3個(gè)矩陣分別是:?jiǎn)卧?、行和列共享矩陣。如?個(gè)頂點(diǎn)共享一行,即2個(gè)單詞區(qū)域?qū)儆谕恍校瑒t這些頂點(diǎn)視為彼此相鄰(單元格和列也是如此)?;谏鲜龆x,將模型分為4個(gè)部分:特征提取、信息交互、隨機(jī)采樣和分類。在特征提取部分,輸入圖像經(jīng)過(guò)自設(shè)計(jì)的淺層卷積神經(jīng)網(wǎng)絡(luò)生成視覺(jué)特征。在其輸出端,經(jīng)過(guò)OCR得到的頂點(diǎn)位置通過(guò)聚集操作映射到特征圖上,將視覺(jué)特征與位置特征結(jié)合形成聚集特征。收集所有頂點(diǎn)特征后,將其輸入到信息交互部分進(jìn)行特征的交互融合,得到每個(gè)頂點(diǎn)的結(jié)構(gòu)特征。在這一部分嘗試修改了Wang等人[27]和作者之前[28]提出的圖卷積神經(jīng)網(wǎng)絡(luò),并且把應(yīng)用了常規(guī)卷積的全連接稠密網(wǎng)絡(luò)作為基線模型以進(jìn)行性能比較,其流程如圖10所示[26]。在訓(xùn)練階段,模型會(huì)在隨機(jī)采樣部分隨機(jī)對(duì)頂點(diǎn)對(duì)采樣,在分類部分使用DenseNet[29]分別對(duì)頂點(diǎn)對(duì)進(jìn)行是否同行、同列、同單元格的結(jié)構(gòu)關(guān)系分類。在測(cè)試階段,則對(duì)圖中每一個(gè)頂點(diǎn)對(duì)進(jìn)行3種分類,得到最終的測(cè)試結(jié)果。

        4端對(duì)端的表格識(shí)別

        表格識(shí)別任務(wù)往往被分為2個(gè)單獨(dú)的任務(wù)來(lái)解決,首先進(jìn)行表格檢測(cè),定位出圖像中的表格區(qū)域,再對(duì)分割出的表格進(jìn)行結(jié)構(gòu)檢測(cè),最終獲取完整的表格結(jié)構(gòu)信息。單一的模型很難解決實(shí)際問(wèn)題,端對(duì)端的表格識(shí)別系統(tǒng)同樣重要。

        為了克服傳統(tǒng)的基于啟發(fā)式規(guī)則進(jìn)行表格識(shí)別方法復(fù)雜且泛化能力低的缺點(diǎn),Schreiber等人[30]提出了一個(gè)以數(shù)據(jù)為驅(qū)動(dòng)的端到端表格識(shí)別系統(tǒng)DeepDeSRT。該系統(tǒng)由2個(gè)獨(dú)立的部分組成,分別用于表格檢測(cè)和結(jié)構(gòu)識(shí)別。在表格檢測(cè)部分,選擇Faster R-CNN模型進(jìn)行微調(diào)。在表格結(jié)構(gòu)識(shí)別任務(wù)上,使用圖像分割模型分割表格行、列和單元格目標(biāo)。調(diào)整了FCN網(wǎng)絡(luò),添加2個(gè)額外的跳過(guò)連接,合并pool2和pool1層的特性,形成了FCN2s網(wǎng)絡(luò)。

        在同時(shí)解決表格檢測(cè)和結(jié)構(gòu)識(shí)別任務(wù)上,Paliwal等人[31]提出了一種基于FCN的端對(duì)端圖像語(yǔ)義分割模型TableNet?;舅枷胧抢帽砀駲z測(cè)和表格結(jié)構(gòu)識(shí)別這2個(gè)任務(wù)之間的相互依賴關(guān)系來(lái)分割表格和列區(qū)域。在FCN的編碼器部分,使用在ImageNet上預(yù)訓(xùn)練的VGG-19模型進(jìn)行提取特征。解碼器部分將編碼器的輸出分為2個(gè)分支分別進(jìn)行上采樣,同時(shí)將下采樣過(guò)程中對(duì)應(yīng)大小的特征圖拼接到上采樣對(duì)應(yīng)層的特征圖中,最后特征圖恢復(fù)到原圖大小得到表格區(qū)域和列區(qū)域的分割圖,其模型如圖11所示[31]。通過(guò)定制規(guī)則的方法獲取表格的行結(jié)構(gòu),結(jié)合表格區(qū)域分割和列區(qū)域分割,得到完整的表格結(jié)構(gòu)信息。在實(shí)驗(yàn)中,嘗試給模型輸入空間信息和數(shù)據(jù)類型信息。具體做法是用tesseract OCR[32]進(jìn)行處理,得到圖像中的所有字塊。再通過(guò)正則表達(dá)式處理這些單詞,確定其數(shù)據(jù)類型,為每種數(shù)據(jù)類型賦予一種獨(dú)特的顏色。

        同樣使用圖像分割技術(shù),不同的是Prasad等人[33]利用實(shí)例分割技術(shù)完成表格識(shí)別任務(wù),為此提出了一個(gè)基于深度學(xué)習(xí)的端對(duì)端卷積神經(jīng)網(wǎng)絡(luò)模型CascadeTabNet,模型如圖12[33]所示。通過(guò)一次推理,此模型實(shí)現(xiàn)在像素級(jí)別上識(shí)別圖像中的每個(gè)表格實(shí)例和單元格實(shí)例。為了實(shí)現(xiàn)高精度的實(shí)例分割,選擇組合Cascade RCNN[34]和HRNet[35]作為網(wǎng)絡(luò)的主體。模型先預(yù)測(cè)輸入圖像的表格分割,并分類為有邊界表和無(wú)邊界表。如果是無(wú)邊界表,則進(jìn)入模型的下一部分進(jìn)行單元格實(shí)例分割。如果是有邊界表,則使用傳統(tǒng)方法識(shí)別單元格。為了增加訓(xùn)練數(shù)據(jù)的數(shù)量,作者使用兩種數(shù)據(jù)增強(qiáng)方法:膨脹變換和模糊變換。

        5字符識(shí)別

        經(jīng)過(guò)表格檢測(cè)與結(jié)構(gòu)識(shí)別,提取出了表格的物理結(jié)構(gòu),表格數(shù)據(jù)處理的下一步是對(duì)單元格內(nèi)的字符進(jìn)行字符識(shí)別,這一部分一般使用常規(guī)的OCR技術(shù)。字符識(shí)別模型一般分為2個(gè)主要部分:特征提取和序列轉(zhuǎn)化。特征提取大部分使用卷積神經(jīng)網(wǎng)絡(luò),如VGG,ResNet,DenseNet等。序列轉(zhuǎn)化最常用的2種方法是CTC[36]和基于注意力機(jī)制的序列到序列(Sequence-toSequence,Seq2Seq)模型。

        5.1通用字符識(shí)別

        Convolutional Recurrent Neural Network(CRNN)模型[37]是最經(jīng)典的字符識(shí)別模型,可以識(shí)別較長(zhǎng)的文本序列。其結(jié)構(gòu)是由CNN、RNN和CTC模塊級(jí)聯(lián)而成,如圖13CRNN模型[37]所示。RNN部分使用BiLSTM序列模型,與CNN部分共同完成特征提取功能。RNN部分可以學(xué)習(xí)字符的上下文信息,以提高識(shí)別的準(zhǔn)確。預(yù)測(cè)過(guò)程中,前端使用標(biāo)準(zhǔn)的CNN網(wǎng)絡(luò)提取文本圖像的特征,利用BiLSTM將特征向量進(jìn)行融合以提取字符序列的上下文特征,得到每列特征的概率分布,最后通過(guò)CTC序列轉(zhuǎn)化層進(jìn)行預(yù)測(cè)得到文本序列。

        RARE[38]是針對(duì)彎曲文本而設(shè)計(jì)的文字識(shí)別模型,能較好地識(shí)別透視和彎曲的圖像文本。由空間變形網(wǎng)絡(luò)(SpatialTransformer Network,STN)和序列識(shí)別網(wǎng)絡(luò)(Sequence Recognition Network,SRN)組成,其結(jié)構(gòu)如圖14所示[38]。圖像先經(jīng)過(guò)空間變換網(wǎng)絡(luò),再將矯正后的圖像送入字符識(shí)別網(wǎng)絡(luò)??臻g變換網(wǎng)絡(luò)包含定位網(wǎng)絡(luò)、網(wǎng)格生成器、采樣器??梢愿鶕?jù)輸入圖像特征動(dòng)態(tài)的產(chǎn)生空間變換網(wǎng)格,采樣器通過(guò)網(wǎng)格核函數(shù)從原始圖像中采樣獲得矩形文本圖像。RARE中支持一種稱為TPS(thin-plate splines)的空間變換,從而能夠比較準(zhǔn)確地識(shí)別透視變換過(guò)的文本、以及彎曲的文本。

        5.2手寫體字符識(shí)別

        有些表格單元格內(nèi)包含手寫體字符,加大了表格內(nèi)容識(shí)別的難度。針對(duì)手寫體字符識(shí)別,近年來(lái)很多研究取得了不錯(cuò)的成果。針對(duì)序列手寫字符識(shí)別問(wèn)題,比較有效的方法是應(yīng)用深度學(xué)習(xí)方法中的RNN模型,特別是LSTM和BiLSTM等模型,由于對(duì)序列數(shù)據(jù)有很好的建模能力,因此更適合于解決包含時(shí)序先后順序信息的文字行識(shí)別問(wèn)題。

        基于CRNN的模型[39]可以在手寫字符識(shí)別任務(wù)上取得很好的效果,一種基于CRNN手寫識(shí)別的網(wǎng)絡(luò)如圖15所示[39]。

        Messina等人[40]首次將MDLSTM-RNN[41]應(yīng)用到手寫漢字文本行識(shí)別,字符識(shí)別的準(zhǔn)確率為83.5%。Wu等人[44]在MDLSTM-RNN的基礎(chǔ)上做了改進(jìn),將4個(gè)方向的LSTM輸出結(jié)果從原來(lái)的相加改成拼接,形成新的網(wǎng)絡(luò)稱為SMDLSTM-RNN,如圖16所示[42],字符識(shí)別率進(jìn)一步提升。

        6表格識(shí)別數(shù)據(jù)集和性能比較

        6.1表格識(shí)別數(shù)據(jù)集

        常用的表格識(shí)別數(shù)據(jù)集如表1所示。

        Marmot:該數(shù)據(jù)集由中英文兩部分組成。中文頁(yè)面來(lái)自方正阿帕比圖書館中120多本不同學(xué)科領(lǐng)域的電子書,而英文頁(yè)面則來(lái)自Citeseer網(wǎng)站。該數(shù)據(jù)集源于PDF,存儲(chǔ)了所有文檔布局的樹(shù)形結(jié)構(gòu),其中葉是字符、圖像和路徑,根是整個(gè)頁(yè)面。內(nèi)部節(jié)點(diǎn)包括文本行、段落、表格等。

        UW3和UNLV:UW3數(shù)據(jù)集來(lái)自1 600頁(yè)傾斜校正的英文文檔,其中120頁(yè)至少包含一個(gè)標(biāo)記的表區(qū)域。UNLV數(shù)據(jù)集從2 889頁(yè)掃描的文檔圖像收集得到,其中427幅圖像包括表格。

        ICDAR 2013:該數(shù)據(jù)集共包含了150個(gè)表格,包括27個(gè)歐盟摘錄中的75個(gè)表格、40個(gè)美國(guó)政府摘錄中的75個(gè)表格,即總共包含67個(gè)PDF文檔的共238個(gè)英文頁(yè)面。

        ICDAR 2019:此數(shù)據(jù)集是用于ICDAR 2019年表格檢測(cè)和識(shí)別比賽的數(shù)據(jù)集。既包含歷史文檔表格又包含現(xiàn)代文檔表格。

        PubTabNet:該數(shù)據(jù)集包含56.8萬(wàn)張表格數(shù)據(jù)的圖像,這些圖像用表格對(duì)應(yīng)的HTML標(biāo)簽形式進(jìn)行了注釋。

        SciTSR:該數(shù)據(jù)集是一個(gè)綜合性的數(shù)據(jù)集,由15 000個(gè)PDF格式的表格圖像及標(biāo)簽文件組成。數(shù)據(jù)集分出12 000張圖像用于訓(xùn)練,3 000張用于測(cè)試。TableBank:該數(shù)據(jù)集是基于圖像的表格檢測(cè)和結(jié)構(gòu)識(shí)別數(shù)據(jù)集。收集了Word和Latex文檔中的表格圖像。提供HTML格式的表格標(biāo)注文件。

        6.2性能比較

        表格結(jié)構(gòu)識(shí)別與檢測(cè)性能(只針對(duì)F1值)比較如表2和表3所示。

        從表2和3中可以看出,ICDAR 2013數(shù)據(jù)集是表格識(shí)別最受歡迎的數(shù)據(jù)集,幾乎所有研究者都在此數(shù)據(jù)集上進(jìn)行評(píng)估。Prasad等人[33]在此數(shù)據(jù)集的表格檢測(cè)任務(wù)中取得了沒(méi)有人能超越的效果,F(xiàn)1值達(dá)到了100%。在此數(shù)據(jù)集的表格結(jié)構(gòu)識(shí)別任務(wù)上Tensmeyer等人[25]取得了最好的效果,F(xiàn)1值達(dá)到了95.26%。在ICDAR 2017表格檢測(cè)任務(wù)上Huang等人[19]取得了最好的效果,F(xiàn)1值都在97%以上。ICDAR 2019表格結(jié)構(gòu)識(shí)別任務(wù)是目前最富有挑戰(zhàn)的任務(wù)。

        7結(jié)束語(yǔ)

        Faster R-CNN,YOLO等目標(biāo)檢測(cè)算法、FCN圖像分割算法、循環(huán)神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)等網(wǎng)絡(luò)及其級(jí)聯(lián),以及可變形卷積等是表格識(shí)別領(lǐng)域最主要的應(yīng)用技術(shù)。隨著人們的關(guān)注,表格識(shí)別的方法也變得更加豐富。工業(yè)界和學(xué)術(shù)界越來(lái)越多地投入到更加復(fù)雜的端對(duì)端表格識(shí)別任務(wù)中,并提出了一系列有效解決方案。手寫字符識(shí)別是目前表格內(nèi)容識(shí)別的難點(diǎn),計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的交叉研究得到廣泛關(guān)注。隨著深度學(xué)習(xí)的發(fā)展,相信會(huì)有更多的技術(shù)應(yīng)用到表格識(shí)別任務(wù)上來(lái),從而將更好的效果反饋到生活中。

        參考文獻(xiàn)

        [1]鄭冶楓,劉長(zhǎng)松,丁曉青,等.基于有向單連通鏈的表格框線檢測(cè)算法[J].軟件學(xué)報(bào),2002(4):790-796.

        [2] HU J,KASHI R S,LOPRESTI D,et al.Evaluating the Performance of Table Processing Algorithms[J]. International Journal on Document Analysis & Recognition,2002,4(3): 140-153.

        [3]丁曉青.漢字識(shí)別研究的回顧[J].電子學(xué)報(bào),2002,30(9): 1364-1368.

        [4] CHANDRAN S,KASTURI R. Structural Recognition of Tabulated Data[C]//2nd International Conference on Document Analysis & Recognition. Tsukuba Science City:IEEE, 1993:516-519.

        [5] KIENINGER T, DENGEL A.The T-Recs Table Recognition and AnalysisSystem[J]. Lecture Notes in Computerence, 1999,1655:255-269.

        [6] ZANIBBI R,BLOSTEIN D,CORDY J R.A Survey of Table Recognition: Models, Observations, Transformations, and Inferences[J]. International Journal on Document Analysis & Recognition,2003,7(1):1-16.

        [7] YILDIZ B, KAISER K, MIKSCH S. pdf2table: A Method to Extract Table Information from PDF Files[C]// Indian International Conference on Artificial Intelligence. Pune: DBLP, 2005:1773-1785.

        [8] KOCI E,THIELE M , ROMERO O,et al. A Genetic-Based Search for Adaptive Table Recognition in Spreadsheets[C]// International Conference on Document Analysis and Recognition (ICDAR). Sydney:ICDAR, 2019:1274-1279.

        [9] REN S,HE K,GIRSHICK R,et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(6):1137-1149.

        [10] REDMON J,F(xiàn)ARHADI A.YOLOv3: An Incremental Improvement[J]. arXiv e-prints,2018:1804.02767.

        [11] SHELHAMER E,LONG J,DARRELL T. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(4): 640-651.

        [12] DAI J,QI H, XIONG Y,et al. Deformable Convolutional Networks[C]//2017 IEEE International Conference On Computer Vision.Venice:IEEE,2017:764-773.

        [13] GILANI A, QASIM S R,MALIK I,et al. Table Detection Using Deep Learning[C]// 2014 14th IAPR International Conference on Document Analysis and Recognition.Kyoto: IEEE, 2017:771-776.

        [14] SUN N,ZHU Y,HU X.Faster R-CNN Based Table Detection Combining Corner Locating[C]//2019 International Conference on Document Analysis and Recognition(ICDAR).Sydney:IEEE, 2019:1314-1319.

        [15] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

        [16] SIDDIQUI S A,Malik M I,Agne S,et al. DeCNT: Deep Deformable CNN for Table Detection[J].IEEE Access, 2018:1-1.

        [17] LIN T Y, DOLLáR, P,GIRSHICK R,et al. Feature Pyramid Networks for Object Detection[J]. IEEE Trans. Pattern Anal. Mach Intell.,2014,36(8):1532-1545.

        [18] ANON. IEEE Conference on Computer Vision And Pattern Recognition(cvpr 2020)[J].智能系統(tǒng)學(xué)報(bào),2019,14(6):1137.

        [19] HUANG Y,YAN Q,LI Y, et al.A YOLO-Based Table Detection Method[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). Sydney :IEEE ,2020:813-818.

        [20] SIDDIQUI S A,KHAN P I, DENGEL A,et al.Rethinking Semantic Segmentation for Table Structure Recognition in Documents[C]//2019 International Conference on Document Analysis and Recognition (ICDAR).Sydney :IEEE 2019: 1397-1402.

        [21] SIDDIQUI S A,F(xiàn)ATEH I A,RIZVI S T R,et al.DeepTabStR: Deep Learning Based Table Structure Recognition[C]// 2019 International Conference on Document Analysis and Recognition (ICDAR)., Sydney :IEEE, 2020: 1403-1409.

        [22] DAI J,LI Y,HE K,et al. R-FCN:Object Detection via Region-based Fully Convolutional Networks[J]. arXiv preprint arXiv:1605.06409, 2016.

        [23] TENSMEYER C,MORARIU V I,PRICE B,et al.Deep Splitting and Merging for Table Structure Decomposition[C]// 2019 International Conference on Document Analysis and Recognition (ICDAR). Sydney :IEEE, 2019:114-121.

        [24] KHAN S A,KHALID S M D,SHAHZAD M A,et al. Table Structure Extraction with Bi-Directional Gated Recurrent Unit Networks[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). Sydney: IEEE, 2019:1366-1371.

        [25] SUNDERMEYER M,RALF S,NEY H. LSTM Neural Networks for Language Modeling[C]// 13rd Annual Conference of the International Speech Communication Association. Portland, 2012:194-197.

        [26] QASIM S R,MAHMOOD H,SHAFAIT F.Rethinking Table Recognition using Graph Neural Networks[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). Sydney :IEEE, 2019:142-147.

        [27] WANG Y,SUN Y,LIU Z,et al. Dynamic Graph CNN for Learning on Point Clouds[J].ACM Transactions on Graphics,2019,38(5):1-12.

        [28] QASIM S R,KIESELER J,IIYAMA Y,et al. Learning Representations of Irregular Particle-detector Geometry With Distance-weighted Graph Networks[J]. The European Physical Journal C, 79(7), 1-11.

        [29] HUANG G,LIU Z,LAURENS V D M,et al.Densely Connected Convolutional Networks[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu :IEEE,2017:4700-4707.

        [30] SCHREIBER S,AGNE S,WOLF I,et al. DeepDeSRT: Deep Learning for Detection and Structure Recognition of Tables in Document Images[C]//2017 14th IAPR International Conference on Document Analysis and Recognition(ICDAR). Kyoto :IEEE, 2017:1162-1167.

        [31] PALIWAL S S,VISHWANATH D, Rahul R,et al.TableNet: Deep Learning Model for End-to-end Table Detection and Tabular Data Extraction from Scanned Document Images[C]// International Conference on Document Analysis and Recognition (ICDAR). Sydney :IEEE, 2019:128-133.

        [32] SMITH R.An Overview of the Tesseract OCR Engine[C]// Document Analysis and Recognition, 2007. ICDAR 2007. Ninth International Conference on Document Analysis and Recognition(ICDAR 2007). Parana:IEEE, 2007(2): 629-633.

        [33] PRASAD D,GADPAL A,KAPADNI K,et al.CascadeTabNet: An Approach for End to End Table Detection and Structure Recognition From Image-Based Documents[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops Seattle:IEEE, 2020:2439-2447.

        [34] CAI Z,VASCONCELOS N.Cascade R-CNN: Delving Into High Quality Object Detection[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City :IEEE, 2018:6154-6162.

        [35] SUN K,XIAO B,LIU D,et al.Deep High-Resolution Representation Learning for Human Pose Estimation[J]. IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach:IEEE, 2019:5686-5696.

        [36] GRAVES A.Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks[C]// International Conference on Machine Learning. New York:IEEE 2006:993-1000.

        [37] SHI B,BAI X,YAO C.An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,39(11): 2298-2304.

        [38] SHI B,Wang X, Lyu P,et al.Robust Scene Text Recognition with Automatic Rectification[C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas:IEEE, 2016:4168-4176.

        [39] NISA H,THOM J A,CIESIELSKI V,et al. A Deep Learning Approach to Handwritten Text Recognition in the Presence of Struck-out Text[C]//2019 International Conference on Image and Vision Computing New Zealand (IVCNZ). Dunedin: IEEE,2019:1-6.

        [40] MESSINA R, LOURADOUR J. Segmentation-free Handwritten Chinese TextRecognition with LSTM-RNN[C] // 2015 13th International Conference on Document Analysis and Recognition (ICDAR). Tunis :IEEE, 2015:171-175.

        [41] GRAVES A,JüRGEN S. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks[C]// International Conference on Neural Information. Vancouver:IEEE, 2009:545-552.

        [42] WU Y C,YIN F,CHEN Z,et al. Handwritten Chinese Text Recognition Using Separable Multi-Dimensional Recurrent Neural Network[C]//2017 14th IAPR International Conference on Document Analysis and Recognition(ICDAR). Kyoto :IEEE,2017(1):79-84.

        猜你喜歡
        深度學(xué)習(xí)人工智能
        我校新增“人工智能”本科專業(yè)
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        亚洲国产日韩精品一区二区三区 | 日本一区不卡高清在线观看 | 国产高潮精品一区二区三区av| 日本人妻97中文字幕| 凹凸国产熟女精品视频app| 久久久久99精品成人片试看| 天天插天天干天天操| 国产中文字幕一区二区视频| 性久久久久久| 久久亚洲中文字幕无码| 2022精品久久久久久中文字幕| 三级国产高清在线观看| 中文字幕网伦射乱中文| 丰满多毛少妇做爰视频| 亚洲一区二区三区在线观看蜜桃| 精品国产自在现线看久久| 久久精品国产亚洲av电影网 | 国产精品国产三级国产剧情| 人人爽人人爽人人片av| 污污污污污污WWW网站免费| 抖射在线免费观看视频网站| 久久黄色国产精品一区视频| 欧美精品v国产精品v日韩精品| 亚洲国产成人AV人片久久网站| 亚洲一区二区三区av天堂| 亚洲中字幕日产av片在线| 亚洲va中文字幕无码久久不卡 | 欧美精品久久久久久三级| 国产日产亚洲系列首页| 成人乱码一区二区三区av| 国产成人国产在线观看入口| 日本在线中文字幕一区| 尤物在线观看一区蜜桃| 久久亚洲精品成人av| 亚洲欧洲AV综合色无码| 女优av一区二区在线观看| 超碰cao已满18进入离开官网| 欧美在线观看一区二区| 国产av精品一区二区三区不卡| 欧美性生交活xxxxxdddd| 亚洲不卡中文字幕无码|