彭繼彬+陳曉榮
摘要:票據特殊字符提取識別工作量大、效率低。針對該問題,以HALCON作為機器視覺和圖像處理核心軟件,將計算機視覺檢測技術應用于票據的特定字符識別,包括閾值分割、填充縫隙與濾波、圖像分割和ORC圖像處理等圖像處理關鍵技術,實現圖像采集、預處理和檢測識別。
關鍵詞:字符提??;HALCON;機器視覺;圖像處理
中圖分類號:TP319
文獻標識碼:A
文章編號:16727800(2017)004008003
0引言
我國專利申請量居世界前列,每年都有數以百萬項專利申請。專利號是每個專利的唯一標識,數目繁多,統計工作量巨大,人工管理專利作業(yè)不僅效率低,還容易出錯。因此,設計一種自動識別專利發(fā)票上的專利申請?zhí)栂到y十分必要。本文以專利發(fā)票為實驗對象,介紹一種票據字符提取系統。 隨著計算機技術和數字圖像處理技術的飛速發(fā)展,機器視覺廣泛應用于生產生活中。視覺檢測技術作為機器視覺的重要研究領域,不僅能提高自動化程度,還能顯著提升檢測的安全性與可靠性[1]。當今幾乎所有需要人類視覺的場合都可以用機器視覺技術來代替,尤其對于需要快速、重復地從圖像中獲取精確信息的場合,機器視覺技術是實現計算機集成制造的基礎技術[23]。 HALCON是德國MVtec公司開發(fā)的具有強大圖像處理功能的軟件,包含所有標準和高級的圖像處理方法,擁有非常完善的函數庫,包括定位、匹配、識別等高級算法,能夠進行圖像獲取、模板匹配、Blob分析、邊緣提取、測量、識別等[4],具有全面的視覺處理庫和應用廣泛的機器視覺集成開發(fā)環(huán)境。HALCON通過交互編程開發(fā)應用程序,或加入新的算子來實現視覺功能,是應用效果最好的機器視覺處理軟件[2,5]。本文利用HALCON機器視覺技術設計并實現票據特定字符——專利申請?zhí)柕奶崛 ?/p>
1系統設計
基于機器視覺的專利收費票據檢測系統需要對置物臺上的專利收費票據進行采集和識別,最終提取出申請?zhí)栕址?。申請?zhí)栕址崛∠到y主要由電源光源部分、攝像機傳感器單元、圖像采集單元和圖像處理操作平臺等構成。通過調節(jié)器控制光源,攝像機傳感器和圖像采集單元由檢測元件控制。系統架構如圖1所示。
系統流程如圖2所示。 申請?zhí)栕址崛∠到y中,用CMOS數字像機進行圖像采集,圖像采集單元主要完成置物臺上整個票據圖像的獲取。圖像采集和處理是機器視覺系統的核心,攝像機獲取的圖像包含了需要的所有信息,圖像質量的好壞將直接影〖HJ*3〗響系統檢測效率和精度,是整個機器視覺系統的關鍵。光源則影響整個圖像質量,合適的光源能很好地區(qū)分目標信息和背景信息,影響輸入圖像的質量和至少30%的應用效果[6]。根據應用需求,系統光源采用LED光源。系統工作時,采用檢測觸發(fā)抓拍方式獲取圖像,攝像機由檢測元件觸發(fā)控制。檢測元件由光電觸發(fā)器與反射板組成,它是一個反射型的觸發(fā)器。當票據通過置物臺時,信號強度會變化,檢測元件據此輸出控制信號來觸發(fā)攝像機拍攝圖像[7]。拍攝的圖像傳送到采集單元,再經過像機數據接口傳輸到機器視覺圖像庫中,利用軟件中的算子功能對圖像進行相應處理、識別和輸出。機器視覺軟件為HALCON 10.0。
2圖像處理技術
采用 OCR圖像處理方法檢測專利收費票據申請?zhí)栕址?。OCR指通過圖像處理和模式識別技術對光學字符進行識別,用于閱讀和識別特定區(qū)域字符。基于模板機制,針對不同票據,定制不同的識別要素,專利票據為印刷票據,因此采用OCR圖像處理方法對票據申請?zhí)栕址M行提取,基本步驟為:獲取圖像→預處理圖像→分割圖像→OCR匹配→識別字符→輸出結果。
2.1獲取圖像
圖像獲取由攝像機傳感器、檢測元件等硬件設備和HALCON軟件算子共同完成,HALCON軟件首先調用open_framegrabber算子訪問圖像采集設備,再調用grab_image算子完成采集圖像,將采集得到的圖像加以保存,然后再調用read_image和dev_display把圖像顯示出來。票據圖像如圖3所示。
2.2預處理圖像
為使采集的圖像區(qū)域特征更加明顯,目標信息更加突出,要經過一系列預處理,主要有圖像增強、灰度值調節(jié)、濾波、填充縫隙、圖像分割等[7]。
2.2.1圖像增強與灰度值調整
調用emphasize算子,使發(fā)票上的信息顯示更為明顯。為了得到更清晰的申請?zhí)栕址?,需要將申請?zhí)栃畔恼麄€票據復雜的背景中提取出來,消除噪聲,以降低后續(xù)步驟難度。采用閾值分割,調節(jié)灰度值調用threshold算子,調節(jié)灰度值過后的圖像突出了申請?zhí)栕址畔?,見圖4。
2.2.2填充縫隙與濾波 灰度值調整后的數字圖像仍存在許多噪聲,去除這些噪聲干擾,常采用數學形態(tài)學方法進行去噪[8]。數學形態(tài)學有4個基本運算:膨脹、腐蝕、開運算和閉運算。數學形態(tài)學利用結構元素作為探針不斷移動圖像信息來了解圖像的結構特征。為使圖像數字特征更為明顯,調用fill_up_shape和dilation_circle算子填充字符內部的黑色部分;對深色部分進行處理時,調用形態(tài)學opening_circle算子以抑制雜波。為滿足申請?zhí)栕址珳蕶z測提取要求,在圖像預處理階段需將灰度值調整、填充縫隙、濾波等3種處理方式相互協調使用。
2.3申請?zhí)柖ㄎ慌c分割圖像
申請?zhí)栕址ㄎ凰惴ㄊ钦麄€字符識別的核心,從專利票據可以看到許多數字組合,但是申請?zhí)柕奈粩凳枪潭ǖ?,而且距離整個方框中心最近?;诖?,可以根據申請?zhí)柕拈L度定位申請?zhí)?,但最下排漢字會存在干擾,如圖5所示綠色部分。 通過申請?zhí)柕姆娇騼蓷l豎線定位中心,尋找距離中心較近目標,即為申請?zhí)栁恢茫妶D5。HALCON主要程序如下:MiddleColumnSum:=0 for i := 1 to NumIntermediate2 by 1 MiddleColumnSum:=(Row22[i-1]+Row21[i-1])/2+MiddleColumnSum endfor MiddleColumn:= MiddleColumnSum/NumIntermediate2 **尋找與豎線中心坐標最接近的目標,即為申請?zhí)杁evbig:=0 dev:=0 for i := 1 to NumIntermediate3 by 1 dev :=(Row22[i-1]+Row21[i-1])/2 if(dev>devbig) devbig:=dev n:=i endif endfor
確定申請?zhí)栁恢煤螅瑔为毞指钐岢錾暾執(zhí)柌糠謭D像,見圖6,再應用圖像處理技術,對申請?zhí)栕址M行分割。首先進行圖像分割,通過對原始圖像進行某種方式的分割處理,提取圖像的某些特征,最常用的方法是閾值分割[910]。經過處理后,申請?zhí)栕址赡艽嬖谝恍┪⑿〉臄嗔?,此時調用closing_circle算子以連接這些微小斷裂,減少誤識別。因為申請?zhí)栕址脚帕谐梢慌牛梢哉{用closing_rectanglel算子將申請?zhí)栕址谒椒较蚝喜⒊梢粋€整目標,調用connection算子把合并后的目標區(qū)域轉換為一個個分離的對象,采用聯合與分割方法分開字符,調用intersection算子和connection算子得到分割好的數字圖像。經過以上步驟,整個申請?zhí)栕址旧夏軌蚯逦仫@示出來,再使用sort_region算子將數字排列,調用region_to_bin算子把區(qū)域轉化成二值圖像,最后將圖像顯示出來,結果如圖7所示。
2.4OCR匹配
在HALCON軟件中進行OCR圖像處理和識別:根據申請?zhí)栕址卣?,將經過處理后的圖像與已知 “模板”進行比對,把置信度最高的值返回到class中,進行自動識別然后輸出結果。字符檢測提取 “模板”非常重要,它將決定最后匹配結果的精準度。申請?zhí)栆话闶欠浅:唵蔚臄底趾妥帜附M合,所以本系統采用HALCON自帶的OCR模板庫即可。但是如果想識別其它文字等符號,則需要使用函數庫,或者創(chuàng)建及訓練ORC分類器,即建立相應的“模板”。
2.5識別字符
采用模板匹配法識別字符。將待識別的字符逐個與建立好的模板字符匹配。識別過程就是利用模板,對要識別的對象進行圖形處理,最后通過OCR模板匹配度算子得到結果。 首先調用read_ocr_class_mlp算子讀取分類文件,讀取 HALCON 自帶的 'Industrial_0-9A-Z.omc' 模板文件。do_ocr_multi_class_mlp算子將最終處理后得到的圖像與模板逐一匹配,得到匹配結果和匹配置信度,再調用smallest_rectangle1算子提取特征,得到該圖像上的字符方位,為后面定位操作提供參考。最后選擇一個起始位置顯示識別結果,這里要用到set_tposition 和write_string 兩個算子。程序運行結果見圖8。
3結語
票據特殊字符人工提取不僅工作量大、速度慢,而且枯燥乏味,容易因疏忽導致錯誤。本文將機器視覺技術應用到專利票據申請?zhí)柼崛≈?,能準確識別出專利發(fā)票收據上的申請?zhí)枺瑢崿F了自動快速檢測提取,大幅降低了成本,提高了效率和準確度。此技術還可識別增值稅發(fā)票等不同種類票據,在財務管理等領域用途廣泛。
參考文獻:[1]趙杰文,陳振濤,鄒小波.機器視覺實現方便面破損在線檢測的研究[J].微計算機信息,2007,23(10):238240.
[2]孫懷遠,廖躍華,周夫之,等.基于HALCON的藥品包裝瓶批號檢測技術研究[J].包裝工程,2008,29(8):7173.[3]彭曉輝.基于HALCON的IC卡噴碼符號識別技術研究與實現[D].廣州:廣東工業(yè)大學,2006.
[4]肖???,葛廣英,姚坤,等.基于HALCON的噴碼字符識別技術的研究與實現[J].現代電子技術,2015,38(15):9598.
[5]郭佳寅,岳秀江,吳雙,等.基于HALCON的乳制品箱體噴碼字符識別方法研究[J].制造業(yè)自動化,2013(3):2122.
[6]楊莉,潘豐.基于機器視覺的硬盤磁體檢測系統設計[J].江南大學學報:自然科學版,2012,11(5):505-508.[7]孫懷遠,楊麗英,周夫之.基于機器視覺技術的藥品瓶包裝在線檢測系統[J].自動化與控制,2011(2):4650.[8]春霞,魏敏,唐正寧.基于數學形態(tài)學的印刷網點圖像分割方法[J].包裝工程,2007,28(6):14-15,36.
[9]李程鵬,范彥斌,胡青春.基于HALCON的PCB光學定位點的3種識別方法及比較[J].佛山科技學院:自然科學版,2010,28(2):2933.
[10]鄭南寧.計算機視覺與模式識別[M].北京:國防工業(yè)出版社,1998.(責任編輯:杜能鋼)