亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Tesseract-OCR的復(fù)雜發(fā)票自適應(yīng)識(shí)別

        2021-06-28 06:59:14孫瑞彬錢夔徐偉敏路紅
        關(guān)鍵詞:字庫高斯分布引擎

        孫瑞彬 錢夔 徐偉敏 路紅

        1 南京工程學(xué)院 自動(dòng)化學(xué)院,南京,211167 2 南京學(xué)府睿捷信息科技有限公司,南京,210009

        0 引言

        隨著信息的快速發(fā)展,數(shù)字時(shí)代已然來臨.OCR (Optical Character Recognition) 技術(shù)即光學(xué)字符識(shí)別作為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要分支,通過具有拍照功能的設(shè)備獲取文檔圖片,再利用諸多算法對文檔內(nèi)容進(jìn)行分析識(shí)別.發(fā)票識(shí)別作為OCR領(lǐng)域的重要研究方向,可有效解決票據(jù)信息人工錄入時(shí)效率低、準(zhǔn)確率低的問題,提升企業(yè)的辦事效率.

        票據(jù)類OCR技術(shù)的研究吸引了眾多學(xué)者,產(chǎn)生了許多研究成果,比如:王陽等[1]基于深度學(xué)習(xí)的OCR文字識(shí)別方法,解決了銀行業(yè)對于海量圖像處理效率低下的問題;郭劍雄等[2]的英文字符算法研究,有效解決了英文字符識(shí)別不準(zhǔn)確的問題;劉淼等[3]對Android圖文同步識(shí)別系統(tǒng)的研究,改善了Tesseract-OCR引擎對模糊圖像識(shí)別效果不佳的問題.但現(xiàn)有的技術(shù)對復(fù)雜票據(jù)的版面分析并無較好的處理方法,對內(nèi)容涵蓋多種字符的文檔圖像也做不到高效的精準(zhǔn)識(shí)別[4].

        本文基于Tesseract-OCR引擎給出了一套自適應(yīng)識(shí)別方法.利用OpenCV函數(shù)庫對圖像進(jìn)行濾波[5],閾值化處理得到二值圖像,然后進(jìn)行開運(yùn)算提取發(fā)票表格以改善票據(jù)版面復(fù)雜時(shí)難以識(shí)別的問題;結(jié)合表格交點(diǎn)坐標(biāo)與自定義模板,完成表頭匹配后,再通過jTessBoxEditor有針對性地訓(xùn)練字庫,優(yōu)化圖文中涵蓋中英文、數(shù)字及各種符號(hào)的識(shí)別準(zhǔn)確率.最終實(shí)現(xiàn)對該類含復(fù)雜版面、多語言文本的發(fā)票圖像感興趣區(qū)域的自適應(yīng)識(shí)別.

        1 識(shí)別架構(gòu)

        復(fù)雜發(fā)票的OCR識(shí)別主要包括圖像預(yù)處理、表格提取、內(nèi)容匹配、字符識(shí)別4個(gè)模塊,其識(shí)別架構(gòu)如圖1所示.

        圖1 OCR總體架構(gòu)Fig.1 General architecture of OCR for invoice recognition

        1.1 表格提取

        預(yù)處理即對發(fā)票原圖進(jìn)行簡單的形態(tài)學(xué)操作.采用自適應(yīng)閾值化得到二值圖像時(shí),為了獲取最佳的二值圖像,要求出最佳閾值[6].假設(shè)兩個(gè)高斯分布[7]為

        (1)

        (2)

        其中σ1,σ2和μ1,μ2分別是兩個(gè)高斯分布的平均值和方差,且假設(shè)μ1<μ2,最佳閾值x需滿足:

        F1(x)=F2(x).

        (3)

        結(jié)合式(1)—(3),得到最佳閾值關(guān)于x的方程組:

        ax2+bx+c=0,

        (4)

        其中a,b,c為常數(shù).求解該二次方程,取決于μ1和μ2之間的解即圖像的最佳全局閾值T.由于程序開始閾值和高斯分布的參數(shù)均未知,所以運(yùn)行過程中要給定一個(gè)初始閾值去估計(jì)高斯分布的參數(shù),再利用高斯分布更新閾值,以此反復(fù)直到收斂便可求得全局最佳閾值T.

        接下來,對二值圖像進(jìn)行線段識(shí)別,以實(shí)現(xiàn)表格提取.表格由水平線和垂直線組成,因此需分別在兩個(gè)方向上對發(fā)票進(jìn)行線段提取,提取線段的形態(tài)學(xué)操作就是通過自定義的結(jié)構(gòu)元素,構(gòu)造對指定形狀敏感的形態(tài)學(xué)運(yùn)算,再通過膨脹和腐蝕操作處理敏感像素.以提取水平線為例:創(chuàng)建自定義內(nèi)核形態(tài)為豎向矩形,此時(shí)的敏感對象是垂直線段,通過開運(yùn)算腐蝕垂直方向像素,水平線即被保留.提取垂直線段時(shí),只需把內(nèi)核形態(tài)定義為橫向矩形.圖像所有線段均提取后,對輸出結(jié)果進(jìn)行“與”操作以求得交點(diǎn)坐標(biāo),發(fā)票內(nèi)容需通過坐標(biāo)對進(jìn)行匹配.再對提取出的水平線圖、垂直線圖做加法合并,即可得到完整的表格框線圖.

        1.2 內(nèi)容匹配

        發(fā)票內(nèi)容為多行多列文本,整體識(shí)別效果較差,因此對發(fā)票先分割再識(shí)別[8],把含有用信息的表格單獨(dú)切割,每個(gè)表格都是一張圖像,對于含多行文本的表格,通過算法對其進(jìn)行再分割,使得到的每張圖像都只含一列文本.提取感興趣區(qū)域的公式如下:

        r1=s1[y1:y2,x1:x2] ,

        (5)

        其中,r1是待識(shí)別區(qū)域,s1為目標(biāo)圖像,x,y分別為圖像的橫縱坐標(biāo).在交點(diǎn)坐標(biāo)已知的條件下,將內(nèi)容與表頭進(jìn)行匹配,再根據(jù)字符寬度進(jìn)行修正,使文本內(nèi)容與邊框分離.坐標(biāo)x,y并非固定數(shù)值,而是相對位置[9].

        圖2是兩行兩列的表格,已標(biāo)明橫、縱坐標(biāo).其中(x1,y1)并非具體數(shù)值如(1,2)、(2,3),x1代表第1個(gè)橫坐標(biāo),x2代表第2個(gè)橫坐標(biāo),縱坐標(biāo)也是同理.取得坐標(biāo)后將其有序排列,無論圖像的位置或大小如何改變,(x1,y1)、(x2,y2)兩點(diǎn)代表的總是圖中左上角的表格,(x2,y2)、(x3,y3)代表的總是右下角的表格.由于絕對位置會(huì)隨圖像大小、位置改變而改變,因此本文采用相對位置,實(shí)現(xiàn)表頭與內(nèi)容自適應(yīng)匹配[10].

        圖2 發(fā)票表格式樣Fig.2 Sample invoice form

        1.3 字符識(shí)別

        發(fā)票文檔由中英文、數(shù)字和特殊符號(hào)共同組成,Tesseract-OCR引擎自帶的字庫識(shí)別準(zhǔn)確率并不高,因此引入jTessBoxEditor來訓(xùn)練專門針對發(fā)票識(shí)別的字庫[11].首先,通過jTessBoxEditor將所有要訓(xùn)練的發(fā)票圖片合并成一個(gè)tif文件,命名為name.tif,文件名任意命名即可.系統(tǒng)路徑導(dǎo)入到該name.tif文件所在目錄后,訓(xùn)練步驟如表1所示.

        表1 訓(xùn)練步驟

        2 實(shí)驗(yàn)結(jié)果分析

        作為本文實(shí)驗(yàn)對象的復(fù)雜發(fā)票含大小不一的表格110余項(xiàng),部分表格內(nèi)含多列文本,本方法將每一列信息都切割為一張圖像,因此有用信息共146項(xiàng),發(fā)票原圖如圖3所示.識(shí)別前首先完成發(fā)票表格提取,提取出的表格圖像如圖4所示.

        圖3 發(fā)票原圖Fig.3 Original invoice

        圖4 表格提取圖Fig.4 Table extracted from invoice of Fig.3

        其次進(jìn)行內(nèi)容匹配,通過修正坐標(biāo),將內(nèi)容與表格邊框分隔開,使表頭與內(nèi)容精準(zhǔn)匹配.通過jTessBoxEditor軟件訓(xùn)練字庫,對生成的100多張box文件逐一修改,其中背景模糊的數(shù)字圖像,box文件會(huì)出現(xiàn)無法檢測、識(shí)別錯(cuò)誤的問題,如圖5a,使用原生的jTessBoxEditor軟件只出現(xiàn)了5個(gè)識(shí)別邊框,正確識(shí)別的數(shù)據(jù)僅2個(gè);優(yōu)化后,8個(gè)數(shù)據(jù)均被邊框檢測到且準(zhǔn)確識(shí)別.圖5b展示了訓(xùn)練漢字優(yōu)化前后的對比效果[11].

        圖5 字庫訓(xùn)練對比效果Fig.5 Comparison of character training effect on number (a) and Chinese character (b) recognition

        本方法與騰訊云OCR、百度云OCR以及原生的Tesseract-OCR引擎展開對比,對多張發(fā)票的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析,將所得結(jié)果列于表2.

        表2 實(shí)驗(yàn)結(jié)果對比

        分析表2可知,改進(jìn)后的Tesseract-OCR引擎對該類復(fù)雜發(fā)票的識(shí)別性能已有了很大提升,具體表現(xiàn)在以下方面:

        1)識(shí)別時(shí)間上,本方法識(shí)別一張1 020×770像素的發(fā)票圖像,用時(shí)約1 s,而百度云OCR用時(shí)2 s,騰訊云OCR用時(shí)4 s.

        2)識(shí)別準(zhǔn)確率方面:本方法對發(fā)票的關(guān)鍵信息即各類數(shù)字?jǐn)?shù)據(jù)的識(shí)別準(zhǔn)確率可達(dá)100%,其余兩款OCR引擎尚未做到;對于漢字和符號(hào)的識(shí)別準(zhǔn)確率,由表2可看出,相比較原生的Tesseract-OCR引擎,經(jīng)本方法優(yōu)化后的準(zhǔn)確率已有大幅提升,但由于可訓(xùn)練的漢字對象較少,因此仍存在少量的識(shí)別錯(cuò)誤.

        3)自適應(yīng)性方面,本方法對圖像采用先分割后識(shí)別,使表頭與內(nèi)容自適應(yīng)適配,從而實(shí)現(xiàn)任意區(qū)域下對特定表格進(jìn)行內(nèi)容提取,并高效精準(zhǔn)識(shí)別.而百度云OCR與騰訊云OCR都是對發(fā)票做整體識(shí)別,并不具備自適應(yīng)性.

        因此,本方法能夠?qū)Πl(fā)票的特定區(qū)域?qū)崿F(xiàn)高效精準(zhǔn)的自適應(yīng)識(shí)別,具有良好的工程可用性.

        3 結(jié)語

        本文以復(fù)雜發(fā)票為對象,針對其任意區(qū)域下的特定表格內(nèi)容提取與實(shí)時(shí)識(shí)別問題,提出了一種基于Tesseract-OCR開源引擎的識(shí)別方法.利用Python的第三方庫OpenCV對發(fā)票原圖進(jìn)行形態(tài)學(xué)處理以得到二值圖像.在此基礎(chǔ)上完成表格位置提取,并結(jié)合交點(diǎn)坐標(biāo)與自定義模板完成了表頭與內(nèi)容適配.再通過jTessBoxEditor對所有發(fā)票模板的表格內(nèi)容進(jìn)行字庫訓(xùn)練,使識(shí)別更具針對性.實(shí)驗(yàn)結(jié)果表明,本方法能夠?qū)Πl(fā)票的感興趣區(qū)域?qū)崿F(xiàn)精準(zhǔn)高效的自適應(yīng)識(shí)別.下一個(gè)研究方向?yàn)槲圹E發(fā)票實(shí)時(shí)識(shí)別,以期實(shí)現(xiàn)模糊不規(guī)則表格內(nèi)容識(shí)別.

        猜你喜歡
        字庫高斯分布引擎
        利用Box-Cox變換對移動(dòng)通信中小區(qū)級(jí)業(yè)務(wù)流量分布的研究
        No.2 喜茶聯(lián)合漢儀字庫推出微型書和書簽
        2種非對稱廣義高斯分布模型的構(gòu)造
        某型號(hào)產(chǎn)品的字庫遷移優(yōu)化設(shè)計(jì)
        電子世界(2018年7期)2018-04-26 08:51:35
        藍(lán)谷: “涉藍(lán)”新引擎
        商周刊(2017年22期)2017-11-09 05:08:31
        一種基于改進(jìn)混合高斯模型的前景檢測
        無形的引擎
        河南電力(2015年5期)2015-06-08 06:01:46
        基于Cocos2d引擎的PuzzleGame開發(fā)
        相同字庫條件下激光打印文件特征的變化規(guī)律和特點(diǎn)
        再議字庫知識(shí)產(chǎn)權(quán)保護(hù)
        射精区-区区三区| 国产熟女av一区二区三区四季| 日韩中文字幕一区二十| 男女真人后进式猛烈视频网站 | 久久亚洲欧美国产精品| 日本老熟欧美老熟妇| 国产精品久久久亚洲第一牛牛| av国产免费在线播放| 国产精品美女一区二区视频| 人妻少妇精品视频一区二区三区| 婷婷色国产精品视频一区 | 国产成人亚洲合集青青草原精品| 蜜桃传媒免费观看视频| 日本真人边吃奶边做爽电影| 免费人成视频在线观看网站| 久久久国产不卡一区二区| 亚洲精品中文字幕乱码无线| 亚洲熟妇丰满多毛xxxx| 亚洲av无码一区二区乱子伦as| 丰满人妻一区二区乱码中文电影网| 最新69国产精品视频| 欧美日韩亚洲中文字幕二区| 精品88久久久久88久久久| 国产三级伦理视频在线| 国产精品女同一区二区免费站| 亚洲成av人片在线观看ww| 国产福利小视频在线观看| 亚洲av无吗国产精品| 成年女人a级毛片免费观看| 亚洲人成网站免费播放| 日本一区二区三区专区| 国产亚洲超级97免费视频| 亚洲精品无码久久久久久| 日韩在线精品在线观看| 91熟女av一区二区在线| 亚洲av无一区二区三区久久| 国产精品久久久久久久成人午夜| 国产精品成人久久一区二区| 中文字幕一区二区三区视频| 亚洲自偷自拍熟女另类| 无遮高潮国产免费观看韩国 |