潘煒 劉豐威
摘要:針對電力行業(yè),基于OCR技術和TensorFlow深度學習框架,設計了一種表格文本的識別模型,同時支持印刷、手寫字符的識別,模型使用了OpenCV中的形態(tài)學函數(shù),以及CTPN+CRNN算法,可實現(xiàn)電力營銷業(yè)務辦理過程中各類業(yè)務表格類工單的批量識別,實現(xiàn)海量掃描件、拍照件等圖像數(shù)據(jù)的檢索并返回營銷業(yè)務人員需要核查的信息。這種借助計算機輔助的新方式,相比人工核查,速度快,效率高,誤差低,有較好的應用價值。
關鍵詞:電力營銷業(yè)務;OCR技術;深度學習;表格文本識別模型
中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9416(2020)07-0150-03
0 引言
互聯(lián)網(wǎng)技術的飛速發(fā)展,信息系統(tǒng)的廣泛應用,給企業(yè)帶來更全面、及時的信息,但快速準確核查信息也變得更加困難。特別是信息系統(tǒng)中上傳的各類掃描件、證照等附件,相比較傳統(tǒng)的人工查閱核查方式效率低,易錯漏的情況,采用基于深度學習的機器識別模型則可從海量附件數(shù)據(jù)中檢索并返回給用戶需要核查的信息。機器輔助的新方式,提高了工作效率,降低了錯漏率[1]。
1 研究現(xiàn)狀
1.1 背景和意義
日常生活中,我們每天都會接觸到數(shù)字表格,以電力行業(yè)為例,在辦理業(yè)擴報裝業(yè)務時,操作人員在收集了用戶提供的基本信息后,通過系統(tǒng)打印一份業(yè)務申請單,交給用戶簽字,之后掃描存檔,以為后續(xù)業(yè)務環(huán)節(jié)辦理提供材料支撐[2]。同時,為保障用電業(yè)務開展的規(guī)范性、安全性,業(yè)務辦理人員還會對掃描件進行核查,這項工作重要、繁雜且枯燥。所以,如果找到一種自動識別掃描后的表格文檔的方法,把數(shù)據(jù)的處理交給電腦來做,就能極大地節(jié)省時間,提高核查比對的工作效率,也可及時發(fā)現(xiàn)材料存在的相關問題[3]。
1.2 現(xiàn)狀及分析
表格的分析和字符識別在實際生活中有巨大的應用意義,已成為近年來圖像處理應用的研究的熱門。美國成立了一個專門研究表格字符識別的機構,即國家標準及技術研究所,我國在表格字符處理領域起步較早,處于一個較先進的水平層次,1992年,重慶大學就設計開發(fā)出Av-100型表格自動閱讀機。
表格字符識別的核心技術就是表格內字符的提取及識別[4]。目前人們對表格文檔類的自動識別系統(tǒng)的研究主要面向郵編識別、票據(jù)識別、考試成績識別等應用領域,雖然表格文檔類自動識別已經(jīng)有一定研究,但是由于表格多樣性、復雜性、加上印刷體和手寫體在表格中時常混合存在,都加大了字符識別正確率提高的難度,能夠實用的系統(tǒng)卻比較少,這一方面的理論有待完善。
2 模型設計
2.1 特征分析
以下是一張電力裝拆工作單的部分內容截圖(如表1所示),混合表單的字符內容存在以下特征:
(1)表單樣式有固定的設計,多有嵌套的表格存在。(2)表單中存在印刷的內容,也會有手寫的內容。(3)表單有掃描,也有拍照的,其受噪聲干擾較嚴重,方向也可能存在傾斜,獲取到的字符信息存在不同程度的干擾。
2.2 模型設計及開發(fā)
一般情況下,通過OCR(光學字符識別)技術進行圖形字符識別的基本流程可分為5步,如圖1所示。
第1步執(zhí)行版面分析,判斷頁面上的文本朝向;第2步預處理,做角度矯正和去噪;第3步行列切割,對每一行做行分割,再對每一行文本做列分割,切割出每個字符;第4步字符識別,該字符送入訓練好的OCR識別模型進行字符識別,得到結果;第5步后處理識別矯正,對其進行識別結果的矯正和優(yōu)化。
在初期識別時,先從表格中找到相匹配的表格模板,如找到,則直接進行字符圖像的提取,如未找到,則將表格信息加入表格模板,再提取字符圖像,分割、細化、歸一化處理,得到正規(guī)的單個字符后進行特征提取然后送入已經(jīng)訓練好的神經(jīng)網(wǎng)絡去進行識別。識別后根據(jù)識別結果提取單元格字符串的整體特征,訓練整體識別的神經(jīng)網(wǎng)絡。
依據(jù)上述過程的設計,對圖1的基本流程做優(yōu)化,得到表格的后期識別流程,如圖2所示。
根據(jù)上述流程,表格識別過程設計如下:
(1)對圖片做二值化處理,腐蝕和膨脹后得到表格線。這里利用OpenCV里面的形態(tài)學函數(shù)(cvErode、cvDilate)完整的識別出圖片中的表格。(2)由表格線獲取單元格交點坐標,按坐標把表格分割為多個單元格圖片。(3)對圖片文字做檢測定位。基于tensorflow框架,采用CTPN算法完成文本的檢測定位,并使用RNN提升文本檢測效果。(4)文本識別,輸出結果?;趐ytorch+warp-ctc框架,采用CRNN(CNN+RNN+CTC)算法完成文本識別過程,其中CNN提取像素特征,RNN提取時序特征,由于手寫字符的隨機性,可以使用CTC確定哪些像素范圍對應的字符[5]。
表格字符的識別,字符分割的處理很關鍵,為保證分割結果的準確性[6],在分割過程中嵌入了一個BP識別神經(jīng)網(wǎng)絡計算其廣義置信度;其次,再利用統(tǒng)一的算法來反求出置信度。
根據(jù)當多層前向神經(jīng)網(wǎng)絡在使用均方誤差或庫爾貝克(Kullback)鑒別熵做代價函數(shù)時,其輸出的期望值是各個類別的后驗概率。假設Oi是Ki類對應的神經(jīng)網(wǎng)絡的輸出,則:
E{Oi}=P(Ki│x)
分類判決時可以取最大輸出對應的分類,在某種程度上Oi輸出的最大可以作為置信度,但是,卻忽略了其他的輸出值,用這種方法會產(chǎn)生誤識。所以這里利用最大值和次大值的差值比作為置信度。先把Oi的輸出值做排序,得到最大值Omax,次大值為Osec,則置信度為:
c=(Omax-Osec)/Omax
判斷置信度c的值,值越大其識別結果的可靠性越高,這里取閾值為0.95,如果大于0.95,則判斷識別結果正確,否則錯誤。
圖像識別后輸出結果存在在數(shù)據(jù)庫中,其響應參數(shù)設計如表2所示。
3 模型應用
目前該模型已應用在廣州供電局稽查業(yè)務中,對業(yè)務掃描件、拍照件進行合規(guī)性檢查,提取各種表單數(shù)據(jù)中的關鍵信息[7](例如用電戶身份信息,用電類別、電能表計編號、型號等),并與營銷系統(tǒng)中錄入的數(shù)據(jù)做一致性比對。通過使用,機器識別相比人工識別,效率提升至少10倍以上,印刷手寫表單混合字符識別的準確率可達到75%以上。
4 結語
本文以電力行業(yè)為例,針對業(yè)務辦理人員面對海量的表單掃描件、拍照件的信息收集、核查需求,基于深度學習,研究了一種印刷手寫混合表單識別模型,經(jīng)過模型驗證和實際應用,較好的實現(xiàn)了機器輔助識別表單內容的能力。相比人工核查,速度快,效率高,誤差低,亦可推廣至其他行業(yè),有較好的應用價值。
參考文獻
[1] 王科俊,陳卉.印刷體中文文檔識別系統(tǒng)的研究[C].北京圖像圖形學學會.圖像圖形技術研究與應用2009——第四屆圖像圖形技術與應用學術會議論文集.北京圖象圖形學學會,2009:311-316.
[2] 于伯峰.印刷體中文文檔中表格和漢字的識別研究[D].哈爾濱:哈爾濱工程大學,2011.
[3] 馬然.基于深度學習的自然場景文本識別系統(tǒng)的設計與實現(xiàn)[D].長春:吉林大學,2015.
[4] 吳畏,丁茂祥,郝紅衛(wèi).通用票據(jù)識別系統(tǒng)中的字符切分方法[J].計算機工程與設計,2004(1):19-21.
[5] 劉曉春.基于深度學習的手寫體圖像分類識別研究[J].江西通信科技,2016(04):35-39.
[6] 高學,金連文,尹俊勛,等.一種基于支持向量機的手寫漢字識別方法[J].電子學報,2002,30(5):651-654.
[7] 高學,王有旺.基于CNN和隨機彈性形變的相似手寫漢字識別[J].華南理工大學學報(自然科學版),2014(1):78-82+89.