亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于圖像統(tǒng)計學(xué)聚類的非規(guī)則表格處理算法

2022-07-07 08:22:08呂志剛李亮亮王洪喜李曉艷

計算機集成制造系統(tǒng) 2022年6期

呂志剛，李亮亮，王洪喜，王鵬，李曉艷

(1.西安工業(yè)大學(xué) 機電工程學(xué)院，陜西西安 710021；2.西安工業(yè)大學(xué) 電子信息工程學(xué)院，陜西西安 710021)

0 引言

在軍工、航空航天等部門，早期的機械表格類檔案大多以紙質(zhì)版形式存在，不但不便于存儲、檢索、運輸，還容易受外部環(huán)境破壞和人為折損。因此，對紙質(zhì)版的機械表格類檔案進行數(shù)字化，并對其有效元素進行光學(xué)字符識別(Optical Character Recognition, OCR)的提取與管理，可以達到有效管理機械產(chǎn)品的目的。機械表格類檔案中的有效元素包括表格、字符、圖形等，由于制表技術(shù)的限制，早期紙質(zhì)版表格類檔案中包含不規(guī)則因素，表現(xiàn)為表格縱向直線不連續(xù)、表格框線錯位、表格跨頁、特殊字符、油漬污染等。目前的表格提取算法主要采用傳統(tǒng)形態(tài)學(xué)和深度學(xué)習(xí)的方法，兩種方法各有優(yōu)劣。

王緒等[1]通過投影特征和結(jié)構(gòu)特征實現(xiàn)對表格文本與非文本的分類；鄺振等[2]采用投影法提取橫縱直線坐標和構(gòu)造表格特征點來識別選票表格；段露等[3]采用水平投影對問卷表格進行行分割；XIAO等[4]采用Hough和Opencv中的形態(tài)學(xué)函數(shù)進行表格定位分割，但存在一定的局限性。文獻[1-4]的算法執(zhí)行效果取決于水平框線和垂直框線的提取質(zhì)量，需要有針對地調(diào)節(jié)閾值才能取得較好的效果，因此不能實現(xiàn)自適應(yīng)閾值且魯棒性欠佳。

白偉等[5]采用基于游程和同線直線的聚類提高對復(fù)雜表格高度的識別率，但也在一定程度上加大了算法的時間開銷；BANSAL等[6]提出基于定點模型的表格提取算法，然而算法復(fù)雜度較高，不便于實際應(yīng)用；SHI等[7]提出一種基于表格模型的單元格檢測方法，但建立表格驅(qū)動模型比較繁瑣，工作量較大，其可行性和魯棒性受到很大限制；LIANG等提出一種魯棒的表格識別系統(tǒng)，其采用改進的Sauvola魯棒二值化算法能夠更好地處理光照不均勻和成像模糊的圖像，并基于形態(tài)學(xué)檢測方法提取表格橫縱直線，雖然具有一定可行性，但是未對魯棒性進行大量復(fù)雜的表格測試，且形態(tài)學(xué)檢測方法不能自適應(yīng)處理表格，存在局限性[8]。

文獻[9-11]為基于深度學(xué)習(xí)模型的表格識別，最終得到的是表格邊界坐標，其算法執(zhí)行依賴于硬件設(shè)備的質(zhì)量及大量數(shù)據(jù)集的前期訓(xùn)練測試，雖然在很大程度上限制了應(yīng)用的普及，但是相對傳統(tǒng)的表格布局分析方法提高了檢測準確率。文獻[12-14]為基于深度學(xué)習(xí)模型的OCR，是本文數(shù)字化復(fù)現(xiàn)的基礎(chǔ)，其中卷積遞歸神經(jīng)網(wǎng)絡(luò)(Convolutional Recurrent Neural Network,CRNN)能夠獲取不同尺寸的輸入圖像，并產(chǎn)生不同字符序列長度的預(yù)測，其直接在粗粒度的標簽(如單詞)上運行，訓(xùn)練階段不需要詳細標注每個單獨的元素(如字符)[12-14]，因此選用CRNN模型作為OCR數(shù)字化復(fù)現(xiàn)框架。

1 本文相關(guān)工作

在傾斜表格校正和表格檢測過程中，針對以上算法不能自適應(yīng)處理表格、魯棒性欠佳且表格單元分割算法陳舊等問題，改進現(xiàn)有算法。首先，改進傳統(tǒng)的表格圖像傾斜校正算法；其次，給出一種基于圖像統(tǒng)計學(xué)聚類的表格定位提取算法，以處理多分辨率、不同成像質(zhì)量的表格圖像；再次，給出一種基于局部小區(qū)域內(nèi)像素占比的跨頁判別拼接算法，以保證表格單元分割圖像的完整性；最后，選擇端到端的CRNN作為OCR的網(wǎng)絡(luò)框架，針對分割出來的單元格圖像識別文字信息。綜上所述，本文的主要工作總結(jié)如下：

(1)改進傳統(tǒng)傾斜表格矯正算法。

(2)提出一種基于圖像統(tǒng)計學(xué)聚類的直線方程擬合算法，在不同分辨率和不同成像質(zhì)量的表格圖像(包括不規(guī)則表格圖像)中定位提取表格信息。

(3)提出一種基于局部小區(qū)域內(nèi)像素占比的跨頁拼接算法。

(4)提出一種基于圖像統(tǒng)計學(xué)聚類的表格交點提取算法，處理多分辨率、多成像質(zhì)量表格圖像和跨頁拼接圖像。

(5)在處理分割后的Cell(單元格)圖像時，針對性地構(gòu)建文本信息數(shù)據(jù)集，訓(xùn)練CRNN網(wǎng)絡(luò)結(jié)構(gòu)，并成功識別與復(fù)現(xiàn)文字信息。

圖1所示為本文的主算法流程，圖2所示為本文算法進行的可視化演示。

2 算法模型的建立

2.1 傾斜矯正算法的改進

本文基于Hough橫向直線檢測擬合的水平矯正方法進行改進，因為直接采用Hough橫向直線檢測會產(chǎn)生很多誤檢測直線，所以通過自定義構(gòu)造水平檢測結(jié)構(gòu)元素來自適應(yīng)提取形態(tài)學(xué)閾值的橫向直線，再用Hough重構(gòu)橫向直線，從而極大提高了橫向直線的檢測準確率及矯正準確性。

主要操作流程如下：

(1)將多分辨率的表格圖像進行灰度化處理，然后進行腐蝕膨脹，并采用大津法(OTSU)進行二值化處理。

(2)構(gòu)造水平檢測結(jié)構(gòu)元素，再對二值化圖像進行形態(tài)學(xué)處理，提取圖像中的橫向直線信息。

假設(shè)輸入圖像像素為rows×cols，構(gòu)造水平檢測元素height=1，width=cols/10，選擇MORPH_RECT進行形態(tài)學(xué)檢測，即可實現(xiàn)對橫向直線的自適應(yīng)判別。

(3)采用Hough重構(gòu)橫向直線，以避免形態(tài)學(xué)檢測時出現(xiàn)間斷直線，重構(gòu)后得到連續(xù)的橫向直線集合。

(4)Hough變換計算平均旋轉(zhuǎn)角度。將圖像從圖像空間變換到參數(shù)空間，變換公式為

ρ=xcosθ+ysinθ。

(1)

式中：直角坐標系中的變量空間(x,y)為已知量，k為直線斜率；極坐標下，以原點為起點，做直線y=kx+b的垂線，ρ為原點到該直線的距離；設(shè)(x,y)與原點之間的連線為l，θ為l與X軸正向的夾角。

變換以后，圖像空間中的一個點在參數(shù)空間為一條曲線，而圖像空間共線的各點在參數(shù)空間為交于一點的多條曲線。對所有曲線的旋轉(zhuǎn)角度進行累加并取平均值，得到步驟(5)所需的平均旋轉(zhuǎn)角度。

(5)計算二維旋轉(zhuǎn)仿射變換矩陣。

(6)基于原尺寸逆時針旋轉(zhuǎn)圖像角度。

2.2 表格定位分割

本文在掃描的A4大小文檔圖像中提取表格信息，圖3所示為本文所研究的不規(guī)則表格類型。可見，表格的橫線完整，豎線不完整，因此表格檢測，特別是表單元分割比較困難，為本文解決的難題之一。

在進行表格定位分割時，需提取表格標題1和測試時間信息，以便數(shù)字化復(fù)現(xiàn)分類存儲管理；因為研究對象——橫向直線均連續(xù)完整，并在表格檢測之前已經(jīng)進行了傾斜矯正，所以得到的圖像近似為橫平豎直且行間距相同。

定位分割操作流程如下：

(1)采用Harris進行角點檢測，預(yù)框選感興趣區(qū)域(包括本頁文檔圖像中所有表格區(qū)域和非表格區(qū)域)，并進行灰度腐蝕二值化，記錄感興趣區(qū)域縱向極值Ymax和Ymin。

(2)預(yù)提取橫向直線，并用Hough重構(gòu)直線(與傾斜矯正算法類似，不做詳細說明)，得到僅含橫向直線的二值化圖像。

(3)進行基于擬合直線方程的表格定位分割。

設(shè)輸入的本頁文檔圖像表格列數(shù)為col，第i條橫向均值坐標即直線方程為y=yi，可知本頁文檔行間距為yi+1-yi，因為本文研究的表格圖像存在標題和時間信息，行距占據(jù)一行且表格與表格之間至少有1.5倍行間距，所以設(shè)計如下表格定位分割規(guī)則：

規(guī)則1若(yi+2-yi+1)-(yi+1-yi)≥10或(yi+1-yi)-(yi+2-yi+1)≥10(i=0,1,2,3,…)，則表格之間可能存在分割直線方程。其中，yi+1為上一個表格的結(jié)束直線方程，yi+2為下一個表格的開始直線方程。

規(guī)則2若滿足規(guī)則1，且在輸出(yi+2,yi+1)開區(qū)間范圍內(nèi)不存在col條縱向直線，則確定yi=0，yi+1，yi+2為當前輸入文檔圖像頁的表格間隔分割直線方程。

規(guī)則3若基于規(guī)則2提取標題和時間信息(不包含不規(guī)則表格上下文信息)，則得到最終確定表格中的第一條直線方程為：

y=yi=0-(yi+1-yi)×1.5，i=0；

y=yi+2-(yi+1-yi)×1.5，i>0。

(2)

修正i=0，如果式(3)成立，則yi=0=Ymin，表示表格框線中包含不完整信息；否則，yi=0=yi=0-(yi+1-yi)×1.5,i=0(包含不規(guī)則表格上下文信息)。另外，

yi=0-(yi+1-yi)×1.5-Ymin∈[(yi+1-yi)×1.5,

yi=0-(yi+1-yi)×1.5]，i=0。

(3)

規(guī)則4若滿足規(guī)則3，則可以確定最后一個表格的最后一條直線方程y=yi+1(表示表格框線中未包含不完整信息)。

根據(jù)式(4)修正編號4表格的最后一條直線方程規(guī)則(包含不規(guī)則表格上下文信息)：

y=yi+1+((yi+1-yi)·thresh)∈

[(yi+1-yi)·thresh,Ymax]，i>0。

(4)

需要根據(jù)不規(guī)則表格殘缺類型確定閾值thresh，不規(guī)則表格的殘缺類型分為有內(nèi)容無頁碼殘缺、無內(nèi)容無頁碼殘缺、有內(nèi)容有頁碼殘缺、無內(nèi)容有頁碼殘缺。本文以有內(nèi)容無頁碼為例，介紹閾值thresh的求解過程。圖4所示為有內(nèi)容無頁碼的殘缺示意圖，根據(jù)屏幕像素尺寸和實際文檔像素比例求解閾值。從圖可知屏幕像素尺行間距為22 pixel，最后一條直線方程與表格底部的差值為20 pixel，因此thresh=20/22=0.909。其中，是否包含頁碼元素，并不影響最終閾值的確定，為滿足實際需求，設(shè)各種類型殘缺表格的thresh=0.909。

根據(jù)規(guī)則4確定的橫向直線方程，以y=yi=0和y=yi+1為上下邊界進行處理。圖5所示的右上角外圍虛線框內(nèi)為冗余處理后的圖像，對其進行Hough檢測處理，得到構(gòu)成橫向直線的各點坐標。設(shè)坐標最小值為xmin，最大值為xmax，為保證獲取表格縱向直線邊界，將xmin-15和xmax+15作為表格左右縱向直線的邊界。

根據(jù)本節(jié)設(shè)計的表格定位分割規(guī)則進行掃描文檔的表格定位分割，其中第一個表格和最后一個表格中包含不規(guī)則表格的上下文信息，需要進一步處理，將當前分割定位的表格信息存入集合table={tablei}(i=0,1,2,3,…)。

2.3 完整性檢測及跨頁拼接

本節(jié)主要對包含不規(guī)則表格中的殘缺表格上下文信息的表格圖像進行處理，在殘缺表格上下文信息中剔除非表格冗余信息，保留有效表格信息，并通過判斷表格的完整性決定是否進行跨頁拼接。設(shè)計跨頁拼接規(guī)則時，首先制定跨頁判定規(guī)則，然后根據(jù)該規(guī)則判定殘缺表格，具體如下：

通過上述跨頁判定規(guī)則可以明確表格是否存在跨頁現(xiàn)象，是則拼接殘缺表格的上下文信息。根據(jù)殘缺狀態(tài)矩陣制定以下跨頁拼接規(guī)則：

規(guī)則5拼接時下一頁頂表補上一頁底表(當前頁大于2且tablei=0完整)。

規(guī)則6拼接時上一頁底表與下一頁頂表寬度相同。

規(guī)則7拼接圖像數(shù)量大于等于2，在內(nèi)存允許下，可連續(xù)跨頁拼接N頁(N為正整數(shù))。

在滿足規(guī)則5～規(guī)則7的前提下，用殘缺狀態(tài)矩陣進行跨頁拼接。跨頁拼接流程如圖6所示。

本文提出一種基于局部小區(qū)域內(nèi)像素占比的跨頁拼接算法，本算法可以剔除不完整表格信息并檢測完整性，根據(jù)規(guī)則5～規(guī)則7進行跨頁拼接，圖7a所示為兩張跨頁表格，分別為上一頁底部殘缺和下一頁頂部殘缺，根據(jù)跨頁拼接算法及拼接規(guī)則進行跨頁拼接得到圖7b。

2.4 表單元分割

針對跨頁拼接完畢的表格圖像，本文提出一種基于圖像統(tǒng)計學(xué)聚類的表格交點提取算法，以分割多種分辨率的表單元。圖8所示為本文所提表單元提取算法流程圖，其中橫向直線方程擬合算法思路與2.2節(jié)介紹的表格定位分割流程類似，此處主要針對縱向直線方程擬合進行詳細說明。

根據(jù)擬合得到的縱向直線方程和橫向直線方程求得表格交點，進而對表單元進行分割。圖9所示為表單元分割的可視化演示。

本文設(shè)2.2節(jié)和2.3節(jié)處理后的表格圖像中的橫向直線方程集合為y={sheetyj}(j=0,1,2,3,…)，該方程集合可以在橫向直線方程擬合階段得到。

基于縱向投影直方圖的縱向直線方程擬合的主要步驟如下：

(1)縱向直線重構(gòu)

該部分采用構(gòu)造縱向形態(tài)學(xué)檢測結(jié)構(gòu)元素對縱向直線進行預(yù)提取，同時拼接連續(xù)跨N頁圖像，導(dǎo)致縱向直線檢測極為困難，本文基于橫向直線方程構(gòu)造垂直檢測結(jié)構(gòu)元素height=(sheetyj+1-sheetyj)/4，width=1，選擇MORPH_RECT進行直線逼近并輸出檢測。可以看出，結(jié)構(gòu)體元素的height與表格實際行高建立關(guān)聯(lián)，即實現(xiàn)了閾值的自適應(yīng)選擇。然后，對輸出圖像進行Hough重構(gòu)，得到僅含縱向直線的二值化圖像。

(2)縱向直線預(yù)處理

處理區(qū)域為[sheetyj+thresh_sheet(sheetyj+1-sheetyj),sheetyj+1-thresh_sheet(sheetyj+1-sheetyj)]，其中根據(jù)圖5 中A區(qū)域里的細虛框線確定thresh_sheet=4/22=0.182。

將所求處理區(qū)域的像素值賦值為0，對處理后的圖像進行縱向直方圖投影，得到X方向的像素區(qū)域集中分布圖及X坐標集合sheetx={sheetxi}(i=0,1,2,3,…)。

(3)對預(yù)提取的縱向坐標集合進行順序排序

對集合sheetx按sheetxi+1>sheetxi(i>0)進行排序。

(4)將同一聚類中相鄰坐標偏差較小且區(qū)間內(nèi)極差偏移量較小的一組直線作為同一類縱向直線

聚類條件為sheetxi+1-sheetxi

(5)根據(jù)輸入的表格列數(shù)和波峰提取聚類數(shù)

設(shè)當前輸入表格的列數(shù)為sheet_col，即有效聚類數(shù)為sheet_col+1。首先，提取sheetxnew集合，用集合sheetxj值代替sheetxnewi{sheetx{sheetxj}}集合中的sheetx；其次，對集合sheetxnew按sheetxnewi>sheetxnewi+1(i>0)進行排序，在集合sheetxnew中提取sheet_col+1個集合，構(gòu)成新的集合sheetxnew_ok={sheetxnew_oki{sheetx{sheetxj}}}(i=0,1,…,sheet_col,j=0,1,2,3,…)。

(6)取聚類結(jié)果的平均值，輸出縱向區(qū)間均值坐標

在集合sheetxnew_ok中，將同一組縱向直線的坐標取平均值，得到縱向直線的均值坐標sheetxsumi，并將sheetxsumi更新為集合sheetxnew_ok，最終的集合為sheetxnew_ok={sheetxsumi}(i=0,1,…,sheet_col)。

(7)根據(jù)輸出縱向均值坐標建立縱向直線方程

根據(jù)步驟(6)輸出的確定集合構(gòu)建縱向直線方程組

y=sheetxsumi,i=0,1,…,sheet_col。

(5)

2.5 文本信息識別

(1)預(yù)處理

本文方法分割的表單元，在文字左右兩邊有非文字空白區(qū)域，因為OCR及數(shù)字化復(fù)現(xiàn)會造成相應(yīng)的文本錯誤，所以通過投影法進行進一步處理。圖10所示為表格單元格邊界處理流程圖，圖10a為輸入的分割后的單元格圖像，圖10d為輸出的處理后的單元格圖像。

(2)數(shù)字化識別

數(shù)字化識別部分采用現(xiàn)有的CRNN模型識別和提取分割表單元內(nèi)容[15]，同時有針對性地構(gòu)建訓(xùn)練測試數(shù)據(jù)集。CRNN模型對文字和數(shù)字的識別效果較好，但不能很好地識別±，℃，%，≥，≤，Δ，Ψ，Ω，Φ，Υ，δ，ζ，μ，σ，ψ，ω等特殊符號，甚至?xí)敵鲥e誤符號。因此，本文研究重點在于如何使用CRNN模型數(shù)字化識別特殊符號，在原來的文字和數(shù)字等數(shù)據(jù)集的基礎(chǔ)上增加特殊符號訓(xùn)練數(shù)據(jù)集。該數(shù)據(jù)集來源于掃描圖像，通過對大量表格圖像進行掃描，分類提取帶有特殊符號的表單元數(shù)據(jù)，然后進行CRNN模型訓(xùn)練，初步提高對特殊符號的識別率。

本文采用C++調(diào)用Python文件進行數(shù)字化識別，C++與Python文件交互的關(guān)鍵代碼及設(shè)置可參考個人博客[16]。

3 實驗與分析

本文算法在Window 10操作系統(tǒng)、Intel(R)Core(TM)CPU i7-8700HQ 3.20 GHz 8 G內(nèi)存電腦平臺進行開發(fā)測試，掃描設(shè)備為Alaris E1025和EPSON Perfect v19。非深度學(xué)習(xí)部分代碼采用C++語言，集成開發(fā)環(huán)境為QT5.9.8，編譯器采用MSVC2015，計算機視覺庫選擇Opencv3.1。配置流程可參考個人博客[17]，同時調(diào)用Python 3.7.4+Tensorflow 1.13.1版本構(gòu)建的CRNN深度學(xué)習(xí)模型進行OCR識別[15]。

3.1 圖像預(yù)處理及傾斜矯正測試

本節(jié)主要測試所提改進傾斜校正算法的可行性。在相同條件下測試本文改進算法和原始算法，對比結(jié)果如表1所示。

因為本文在基于直線的傾斜表格矯正中增加了直線的預(yù)提取環(huán)節(jié)，以增加矯正準確率，所以算法的空間復(fù)雜度相對傳統(tǒng)方法更高。

3.2 表格定位分割測試

針對掃描后的多種表格圖像，在相同條件下，分別采用本文算法和傳統(tǒng)算法進行處理，定位分割結(jié)果如圖11和圖12所示。可見，在測試樣本中，本文算法可以實現(xiàn)100%定位分割，傳統(tǒng)算法只有正常表格和一部分測試樣本能夠準確實現(xiàn)定位分割。因此，本文算法的識別率明顯優(yōu)于傳統(tǒng)基于輪廓的識別算法。

對測試樣本中的6張文檔圖像，采用本文算法和傳統(tǒng)算法進行算法復(fù)雜度測試。

識別率計算公式為

recognition_rate=

(6)

如表2中的序號1～6所示，本文算法的識別率和算法復(fù)雜度均優(yōu)于傳統(tǒng)基于輪廓的識別算法，在處理圖11中第6個表格圖像時，雖然定位區(qū)表格范圍存在交叉現(xiàn)象，但是仍然能夠準確定位表格，如圖11中的虛線框所示。出現(xiàn)該情況的原因是相鄰兩個表格間距離太近，將其作為個案在表2中加粗表示。同時，對多種低分辨率的文檔圖像進行測試，如表2中的序號7～10所示。分析表中數(shù)據(jù)可知，本文算法相對傳統(tǒng)算法在空間復(fù)雜度和準確率上均有明顯提高，且適應(yīng)性和魯棒性更強。

表2 表格定位算法耗時測試

3.3 完整性檢測及跨頁拼接測試

對定位提取后的第一個表格和最后一個表格進行完整性和跨頁拼接魯棒性測試。針對最復(fù)雜的跨N頁拼接情況，采用本文提出的完整性檢測、跨頁拼接規(guī)則進行檢測和拼接。測試條件為：依次輸入N頁不完整文檔，保證第一頁頂部和最后一頁底部完整，才能完成對跨N頁表格文檔的拼接。跨頁拼接結(jié)果如圖13所示，相關(guān)量化結(jié)果如表3所示。

表3 跨頁拼接算法耗時測試

跨頁拼接部分算法時間包括N頁文檔表格定位分割時間、表格頂?shù)淄暾詸z測時間和跨N頁分割表格拼接時間?？珥摂?shù)量越多，拼接耗時及內(nèi)存占用率越高。表格完整性對后續(xù)表單元分割和OCR數(shù)字化復(fù)現(xiàn)的質(zhì)量起決定作用。

3.4 表單元分割測試

(1)算法魯棒性和自適應(yīng)性測試

圖14所示為多種復(fù)雜表格縱向直方圖統(tǒng)計過程輸出圖，圖14d為本文算法處理后X方向的像素區(qū)域集中分布圖。當前輸入的有效聚類數(shù)為5，取其波峰最高的前5+1個作為最終聚類輸出[18-19]，對比4種不同類型的復(fù)雜表格，均能有效得到輸出聚類。

圖14e為同一條件下橫向直線與縱向直線使用傳統(tǒng)算法輸出的交點，白色實線框中的一部分和白色虛線框中為誤檢測冗余輸出，可見交點檢測存在一定局限性，需要針對特殊圖像調(diào)節(jié)閾值，因此魯棒性和自適應(yīng)性均較差。

圖15所示為橫縱直線實際相交情況下，采用傳統(tǒng)算法未輸出交叉點，即使采用深度學(xué)習(xí)驅(qū)動的交點檢測模型也很難準確檢測出表格交點，其中表格內(nèi)部大量出現(xiàn)“十、古、王、玉、汪、工”等文字，當字體加粗且字體直線寬度大于表格直線寬度時，會誤將文字交叉點檢測為表格交叉點，該方法因交點檢測準確性較差且算法復(fù)雜度較高而缺乏可行性。

圖16所示為X方向上像素區(qū)域集中分布對比圖，其中：圖16a為準備進行表單元分割的輸入圖；圖16b為對圖16a進行Hough重構(gòu)處理后的輸出圖；圖16c為直接對圖16b進行縱向投影的結(jié)果，可見很難得到有效聚類；圖16d為采用本文聚類提取算法得到的縱向投影圖，白色虛線框為得到的有效聚類。結(jié)合圖14的實驗測試證明，本文算法在多種復(fù)雜表格下均能準確得到有效聚類，具有一定的自適應(yīng)性和魯棒性。

(2)表單元分割測試

以圖16a所示的復(fù)雜表格為例，通過直線方程的橫縱交叉，確定橫縱坐標來分割單元格，如表4所示。

表4 單元格橫縱坐標表

根據(jù)表4中的各交叉點坐標分割單元格，分割結(jié)果為：輸出8行5列表格，共8×5=40個單元格。如圖17所示。

(3)算法復(fù)雜度測試

本節(jié)對跨N頁表格和正常表格進行表單元分割，如表5所示。

表5 表單元分割算法復(fù)雜度測試

通過測試可知，本文提出的表單元交點聚類提取算法，在輸入當前待分割表格列數(shù)后，可實現(xiàn)100%的提取分割。同時，算法在多種分辨率的表格圖像提取分割中具有一定普適性，以及較強的自適應(yīng)和魯棒性。

3.5 字符識別情況

因為所提取表單元中的文本圖像不包含非文字區(qū)域，所以可直接輸入CRNN模型進行字符的數(shù)字化識別。本文采用CRNN模型進行構(gòu)建和訓(xùn)練可以較好地識別印刷體文字、數(shù)字、字母，采用額外增加的帶有特殊符號的樣本訓(xùn)練集進行預(yù)訓(xùn)練能夠較好地提高對特殊符號的識別。由于初步構(gòu)建的特殊符號數(shù)據(jù)集較少，目前對單獨特殊符號只構(gòu)建了20個訓(xùn)練樣本集。

3.6 定量分析

將現(xiàn)有147張紙質(zhì)版、包含有不規(guī)則表格的測試報表，在75 dpi～400 dpi等多種成像分辨率下進行掃描脫密，隨機重復(fù)抽取20張樣本，采用網(wǎng)易、薪火、騰訊、百度、金銘、翔云、漢王、ABBYY等主流公司表格OCR進行測試，表6所示為各指標的迭代均值。

表6 表格識別算法定量分析

對于在線軟件開發(fā)工具包(Software Development Kit, SDK)測試，平均一頁文檔處理速度在1 s以內(nèi)，其中ABBYY、漢王、騰訊等表格區(qū)域定位較好，但是對縱向存在間斷線的表格內(nèi)部結(jié)構(gòu)識別效果不佳，表格內(nèi)部數(shù)字化復(fù)現(xiàn)效果較差。本文算法可實現(xiàn)對不規(guī)則表格的識別與處理，包括殘缺表格定位、跨頁拼接、單元格提取及字符識別，但是空間復(fù)雜度略高于現(xiàn)有算法，主要是跨語言交互式調(diào)用時開銷較大。由于算法實現(xiàn)需要跨語言交互，在加載不同集成開發(fā)環(huán)境以及相互調(diào)用時，會造成較大的額外時間開銷，后續(xù)可以將不同編程語言實現(xiàn)的功能封裝成本地SDK，以減少額外的時間開銷。本文算法的表格識別率和文本識別率可以分別達到97.32%，92.75%，主要原因是錯位表格框線的干擾會將錯位的框線識別為“1，I，|”。

4 結(jié)束語

本文提出一種基于圖像統(tǒng)計學(xué)的聚類表格定位分割和跨頁拼接算法，用于檢測表格和提取表單元。該算法旨在解決縱向豎線不完整的表格定位、表單元分割，以及跨N頁表的拼接，若將表格的實際列數(shù)作為算法的輸入量，則可顯著提高表單元格分割成功率。介紹了如何根據(jù)表格定位分割規(guī)則對不完整殘缺表格進行定位和分割，如何根據(jù)跨頁拼接規(guī)則完整拼接跨N頁表，以及如何提取基于圖像統(tǒng)計學(xué)的聚類表格交點。在不同成像分辨率條件下，掃描現(xiàn)有147張存在非規(guī)則現(xiàn)象的機械零部件測試報表，并進行表格定位、表格拼接、表單元分割、字符識別等操作，迭代測試實驗結(jié)果表明，殘缺復(fù)雜表格的識別準確率可達97.32%。本文所提算法對不完整殘缺表格定位、表單元分割及跨N頁表拼接的測試效果良好，且具有較好的自適應(yīng)性和魯棒性，但在處理存在較大污漬或手寫字符的測試報告時效果不佳，需要借助深度學(xué)習(xí)的方法，進一步提高表格和字符的識別準確率。