亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學習的表格類型工單識別設計與實現(xiàn)

2020-08-21 09:09:32潘煒劉豐威

數(shù)字技術與應用 2020年7期

潘煒劉豐威

摘要：針對電力行業(yè)，基于OCR技術和TensorFlow深度學習框架，設計了一種表格文本的識別模型，同時支持印刷、手寫字符的識別，模型使用了OpenCV中的形態(tài)學函數(shù)，以及CTPN+CRNN算法，可實現(xiàn)電力營銷業(yè)務辦理過程中各類業(yè)務表格類工單的批量識別，實現(xiàn)海量掃描件、拍照件等圖像數(shù)據(jù)的檢索并返回營銷業(yè)務人員需要核查的信息。這種借助計算機輔助的新方式，相比人工核查，速度快，效率高，誤差低，有較好的應用價值。

關鍵詞：電力營銷業(yè)務;OCR技術;深度學習;表格文本識別模型

中圖分類號：TP391.1 文獻標識碼：A 文章編號：1007-9416（2020）07-0150-03

0 引言

互聯(lián)網(wǎng)技術的飛速發(fā)展，信息系統(tǒng)的廣泛應用，給企業(yè)帶來更全面、及時的信息，但快速準確核查信息也變得更加困難。特別是信息系統(tǒng)中上傳的各類掃描件、證照等附件，相比較傳統(tǒng)的人工查閱核查方式效率低，易錯漏的情況，采用基于深度學習的機器識別模型則可從海量附件數(shù)據(jù)中檢索并返回給用戶需要核查的信息。機器輔助的新方式，提高了工作效率，降低了錯漏率[1]。

1 研究現(xiàn)狀

1.1 背景和意義

日常生活中，我們每天都會接觸到數(shù)字表格，以電力行業(yè)為例，在辦理業(yè)擴報裝業(yè)務時，操作人員在收集了用戶提供的基本信息后，通過系統(tǒng)打印一份業(yè)務申請單，交給用戶簽字，之后掃描存檔，以為后續(xù)業(yè)務環(huán)節(jié)辦理提供材料支撐[2]。同時，為保障用電業(yè)務開展的規(guī)范性、安全性，業(yè)務辦理人員還會對掃描件進行核查，這項工作重要、繁雜且枯燥。所以，如果找到一種自動識別掃描后的表格文檔的方法，把數(shù)據(jù)的處理交給電腦來做，就能極大地節(jié)省時間，提高核查比對的工作效率，也可及時發(fā)現(xiàn)材料存在的相關問題[3]。

1.2 現(xiàn)狀及分析

表格的分析和字符識別在實際生活中有巨大的應用意義，已成為近年來圖像處理應用的研究的熱門。美國成立了一個專門研究表格字符識別的機構，即國家標準及技術研究所，我國在表格字符處理領域起步較早，處于一個較先進的水平層次，1992年，重慶大學就設計開發(fā)出Av-100型表格自動閱讀機。

表格字符識別的核心技術就是表格內字符的提取及識別[4]。目前人們對表格文檔類的自動識別系統(tǒng)的研究主要面向郵編識別、票據(jù)識別、考試成績識別等應用領域，雖然表格文檔類自動識別已經(jīng)有一定研究，但是由于表格多樣性、復雜性、加上印刷體和手寫體在表格中時常混合存在，都加大了字符識別正確率提高的難度，能夠實用的系統(tǒng)卻比較少，這一方面的理論有待完善。

2 模型設計

2.1 特征分析

以下是一張電力裝拆工作單的部分內容截圖（如表1所示），混合表單的字符內容存在以下特征：

（1）表單樣式有固定的設計，多有嵌套的表格存在。（2）表單中存在印刷的內容，也會有手寫的內容。（3）表單有掃描，也有拍照的，其受噪聲干擾較嚴重，方向也可能存在傾斜，獲取到的字符信息存在不同程度的干擾。

2.2 模型設計及開發(fā)

一般情況下，通過OCR（光學字符識別）技術進行圖形字符識別的基本流程可分為5步，如圖1所示。

第1步執(zhí)行版面分析，判斷頁面上的文本朝向;第2步預處理，做角度矯正和去噪;第3步行列切割，對每一行做行分割，再對每一行文本做列分割，切割出每個字符;第4步字符識別，該字符送入訓練好的OCR識別模型進行字符識別，得到結果;第5步后處理識別矯正，對其進行識別結果的矯正和優(yōu)化。

在初期識別時，先從表格中找到相匹配的表格模板，如找到，則直接進行字符圖像的提取，如未找到，則將表格信息加入表格模板，再提取字符圖像，分割、細化、歸一化處理，得到正規(guī)的單個字符后進行特征提取然后送入已經(jīng)訓練好的神經(jīng)網(wǎng)絡去進行識別。識別后根據(jù)識別結果提取單元格字符串的整體特征，訓練整體識別的神經(jīng)網(wǎng)絡。

依據(jù)上述過程的設計，對圖1的基本流程做優(yōu)化，得到表格的后期識別流程，如圖2所示。

根據(jù)上述流程，表格識別過程設計如下：

（1）對圖片做二值化處理，腐蝕和膨脹后得到表格線。這里利用OpenCV里面的形態(tài)學函數(shù)（cvErode、cvDilate）完整的識別出圖片中的表格。（2）由表格線獲取單元格交點坐標，按坐標把表格分割為多個單元格圖片。（3）對圖片文字做檢測定位。基于tensorflow框架，采用CTPN算法完成文本的檢測定位，并使用RNN提升文本檢測效果。（4）文本識別，輸出結果?；趐ytorch+warp-ctc框架，采用CRNN（CNN+RNN+CTC）算法完成文本識別過程，其中CNN提取像素特征，RNN提取時序特征，由于手寫字符的隨機性，可以使用CTC確定哪些像素范圍對應的字符[5]。

表格字符的識別，字符分割的處理很關鍵，為保證分割結果的準確性[6]，在分割過程中嵌入了一個BP識別神經(jīng)網(wǎng)絡計算其廣義置信度;其次，再利用統(tǒng)一的算法來反求出置信度。

根據(jù)當多層前向神經(jīng)網(wǎng)絡在使用均方誤差或庫爾貝克（Kullback）鑒別熵做代價函數(shù)時，其輸出的期望值是各個類別的后驗概率。假設Oi是Ki類對應的神經(jīng)網(wǎng)絡的輸出，則：

E{Oi}=P（Ki│x）

分類判決時可以取最大輸出對應的分類，在某種程度上Oi輸出的最大可以作為置信度，但是，卻忽略了其他的輸出值，用這種方法會產(chǎn)生誤識。所以這里利用最大值和次大值的差值比作為置信度。先把Oi的輸出值做排序，得到最大值Omax，次大值為Osec，則置信度為：

c=（Omax-Osec）/Omax

判斷置信度c的值，值越大其識別結果的可靠性越高，這里取閾值為0.95，如果大于0.95，則判斷識別結果正確，否則錯誤。

圖像識別后輸出結果存在在數(shù)據(jù)庫中，其響應參數(shù)設計如表2所示。

3 模型應用

目前該模型已應用在廣州供電局稽查業(yè)務中，對業(yè)務掃描件、拍照件進行合規(guī)性檢查，提取各種表單數(shù)據(jù)中的關鍵信息[7]（例如用電戶身份信息，用電類別、電能表計編號、型號等），并與營銷系統(tǒng)中錄入的數(shù)據(jù)做一致性比對。通過使用，機器識別相比人工識別，效率提升至少10倍以上，印刷手寫表單混合字符識別的準確率可達到75%以上。

4 結語

本文以電力行業(yè)為例，針對業(yè)務辦理人員面對海量的表單掃描件、拍照件的信息收集、核查需求，基于深度學習，研究了一種印刷手寫混合表單識別模型，經(jīng)過模型驗證和實際應用，較好的實現(xiàn)了機器輔助識別表單內容的能力。相比人工核查，速度快，效率高，誤差低，亦可推廣至其他行業(yè)，有較好的應用價值。

參考文獻

[1] 王科俊，陳卉.印刷體中文文檔識別系統(tǒng)的研究[C].北京圖像圖形學學會.圖像圖形技術研究與應用2009——第四屆圖像圖形技術與應用學術會議論文集.北京圖象圖形學學會，2009：311-316.

[2] 于伯峰.印刷體中文文檔中表格和漢字的識別研究[D].哈爾濱：哈爾濱工程大學，2011.

[3] 馬然.基于深度學習的自然場景文本識別系統(tǒng)的設計與實現(xiàn)[D].長春：吉林大學，2015.

[4] 吳畏，丁茂祥，郝紅衛(wèi).通用票據(jù)識別系統(tǒng)中的字符切分方法[J].計算機工程與設計，2004（1）：19-21.

[5] 劉曉春.基于深度學習的手寫體圖像分類識別研究[J].江西通信科技，2016（04）：35-39.

[6] 高學，金連文，尹俊勛，等.一種基于支持向量機的手寫漢字識別方法[J].電子學報，2002，30（5）：651-654.

[7] 高學，王有旺.基于CNN和隨機彈性形變的相似手寫漢字識別[J].華南理工大學學報（自然科學版），2014（1）：78-82+89.