朱 彬,薛路強(qiáng),譚守標(biāo)
(1.國網(wǎng)安慶供電公司 安全監(jiān)察質(zhì)量部,安徽 安慶 246000;2.安徽大學(xué) 計(jì)算智能與信號處理教育部重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230039)
一種改進(jìn)的數(shù)字圖像定位識別方法研究
朱 彬1,薛路強(qiáng)2,譚守標(biāo)2
(1.國網(wǎng)安慶供電公司 安全監(jiān)察質(zhì)量部,安徽 安慶 246000;2.安徽大學(xué) 計(jì)算智能與信號處理教育部重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230039)
針對圖像視頻中數(shù)字自動(dòng)識別處理的需求,提出了一種改進(jìn)的數(shù)字區(qū)域定位及讀數(shù)識別方法。該方法使用自適應(yīng)閾值進(jìn)行圖像整體二值化,然后設(shè)計(jì)改進(jìn)的筆畫寬度變化算法(SWT)來確定儀表數(shù)字顯示的大體位置,再根據(jù)數(shù)字的顏色、寬高比以及空間排列等特征來過濾得到準(zhǔn)確位置,并使用多層次擴(kuò)展合并處理方法去除遮擋粘連影響,實(shí)現(xiàn)讀數(shù)區(qū)域的精確定位,效果理想。最后對數(shù)字區(qū)域提取多種高區(qū)分度特征,通過訓(xùn)練好的多分類模型即可準(zhǔn)確識別得到對應(yīng)數(shù)字值,實(shí)現(xiàn)圖像視頻中讀數(shù)的自動(dòng)識別。實(shí)驗(yàn)結(jié)果表明,該方法具有很高的準(zhǔn)確度及較強(qiáng)的魯棒性,能避免光照、傾斜、部分遮擋的影響,準(zhǔn)確找到讀數(shù)區(qū)域,并據(jù)此識別出其中的數(shù)字,適用于自動(dòng)巡檢、遠(yuǎn)程抄表等多種應(yīng)用。
筆畫寬度變換算法;讀數(shù)精確定位;多層次擴(kuò)展合并;讀數(shù)識別
圖像視頻自動(dòng)分析處理技術(shù)逐步成熟,將對各行各業(yè)的自動(dòng)化生產(chǎn)起到巨大作用。在針對圖像視頻的分析處理中,有大量的數(shù)字識別處理任務(wù),如各種數(shù)字式儀表的讀數(shù)識別處理[1]、指針式儀表中刻度數(shù)據(jù)的識別處理[2]、車牌號碼識別處理[3]等等[4-6]。特別是有些設(shè)備工作環(huán)境惡劣,或儀表沒有提供數(shù)據(jù)通信的接口,采用人工抄表的方式效率低下,而要實(shí)現(xiàn)自動(dòng)監(jiān)測,利用計(jì)算機(jī)視覺來自動(dòng)識別儀表讀數(shù)[7-8]是一種可行方式。由于視頻受到角度、光照、遮擋等各方面因素的影響,現(xiàn)有大部分算法的實(shí)用性仍需進(jìn)一步提高。
目前已經(jīng)存在一些基于機(jī)器視覺的儀表數(shù)字自動(dòng)識別系統(tǒng),在數(shù)字示值區(qū)域定位上也有很多學(xué)者做出了努力。唐軼峻等[1]提出運(yùn)用區(qū)域生長算法定位儀表圖像中的數(shù)字顯示區(qū)域,并取得了較好效果。苑瑋琦等[9]利用改進(jìn)曲率空間角點(diǎn)檢測液晶邊框頂點(diǎn)的方法定位示值區(qū)域。實(shí)際上儀器儀表上的顯示數(shù)字一般為八段數(shù)碼管或LCD屏,數(shù)字規(guī)整,筆畫寬度均勻,理想情況下,筆畫寬度變換算法(Stroke Width Transform,SWT)[10-11]可以取得不錯(cuò)的效果。
文中采用改進(jìn)的SWT算法,輔助于形狀、顏色、空間排列等特征進(jìn)行區(qū)域過濾,去除光照、遮擋等的影響,使找到的區(qū)域更加準(zhǔn)確。經(jīng)過傾斜校正后提取多種高區(qū)分度特征,通過訓(xùn)練好的多分類模型即可準(zhǔn)確識別得到結(jié)果??傮w流程如圖1所示。
圖1 系統(tǒng)流程
筆畫寬度變換是以邊緣圖像為基礎(chǔ)的,生成的邊緣圖像的質(zhì)量直接決定了后續(xù)筆畫寬度變換的效果。所以圖像預(yù)處理的目標(biāo)是使生成的邊緣圖像盡可能只包括數(shù)字的邊緣,并且邊緣閉合,其步驟主要包括平滑濾波和Canny[12]邊緣檢測。平滑濾波的主要作用就是平滑掉小的噪聲,避免在邊緣檢測時(shí)生成過多邊緣。
文中使用高斯濾波,對比濾波前后經(jīng)過邊緣檢測后的圖片可見,許多小的噪聲被過濾掉了,為后續(xù)處理打好了基礎(chǔ)。
筆畫寬度變換是由Boris Epshtein等[10]提出用于檢測與定位自然場景下的字符[13-14]的一種有效算法。其主要根據(jù)字符的筆畫寬度大體一致,因此通過像素的筆畫寬度信息就能定位圖像中可能的字符區(qū)域。
根據(jù)數(shù)顯式儀表數(shù)字特點(diǎn),改進(jìn)計(jì)算過程主要分三步:
(1)邊緣點(diǎn)對查找:在對原圖做邊緣檢測得到邊緣圖像之后,結(jié)合原二值圖像中的區(qū)域連通特點(diǎn),向筆畫內(nèi)部計(jì)算每個(gè)像素點(diǎn)的梯度,并沿梯度及相近方向?qū)ふ覍叺倪吘壪袼?,以找到的最近的邊緣像素與原像素點(diǎn)構(gòu)成一對有效的點(diǎn)對,如圖2所示的p和q。一方面,由此計(jì)算筆畫寬度更為準(zhǔn)確,另一方面,能解決在筆畫轉(zhuǎn)折點(diǎn)處無法獲取正確筆畫寬度的問題。
(2)筆劃寬度賦值:遍歷在有效的點(diǎn)對之間線段上的所有像素,若該像素沒有被賦予過筆畫寬度值,則賦予筆畫寬度值w,若已賦予過寬度值,則與當(dāng)前值比較,取較小的作為筆畫寬度值,即坐標(biāo)(x,y)處的像素值s(x,y)的計(jì)算方法如下:
圖2 改進(jìn)的SWT原理示意
(1)
(3)筆畫區(qū)域過濾:計(jì)算每個(gè)連通區(qū)域面積及其內(nèi)所有像素點(diǎn)記錄的筆畫寬度的平均值,計(jì)算筆畫長度,濾除超長區(qū)域。對余下區(qū)域進(jìn)行筆畫寬度限峰濾波,計(jì)算筆畫寬度均方差,設(shè)定閾值可濾除大部分非筆畫區(qū)域。
改進(jìn)SWT的處理結(jié)果如圖3所示。
圖3 改進(jìn)SWT的處理結(jié)果
經(jīng)過筆畫寬度檢測后,背景大部分被濾掉,數(shù)字區(qū)域得到保留,還需要根據(jù)數(shù)字的外形,以及顏色特點(diǎn)制定一些規(guī)則初步過濾不是數(shù)字字符的元素。該方法主要規(guī)則如下:
(1)最重要的一條就是數(shù)字字符內(nèi)部的筆劃粗細(xì)均勻,方差較小,計(jì)算元素內(nèi)部所有像素的方差,過濾掉方差太大的元素。
(2)一般數(shù)字的外接矩形不會重疊,更不會相互包含,內(nèi)部包含其他元素的一般為顯示屏邊框。所以過濾掉外接矩形內(nèi)有其他外接矩形的元素。
(3)數(shù)字外接矩形的高寬比例一般不會超過1∶5。
(4)太大或太小的元素會被當(dāng)作噪聲過濾掉。
圖4 數(shù)字區(qū)域精確定位
經(jīng)過單個(gè)字符元素規(guī)則過濾后,根據(jù)字符之間的關(guān)系進(jìn)行更加精確的定位。
(1)儀表上的顯示數(shù)字一個(gè)重要的特征就是它們橫向成行排列。
(2)它們有相近的筆畫寬度,這里一行內(nèi)的字符寬度之比必須小于2。
(3)計(jì)算每個(gè)字符的顏色均值,同一行內(nèi)的數(shù)字顏色應(yīng)該是相同的。
(4)空間上,兩個(gè)字符也應(yīng)該鄰近,這里將鄰近定義為:
(2)
其中,centera.x為centera.y分別為字符a的外接矩形中心的坐標(biāo)x,y;widtha和heighta分別為字符a外接矩形的寬和高。
在沒有遮擋的情況下使用上述定位規(guī)則效果良好。但從圖4(a)可見,由于數(shù)碼管左下角標(biāo)簽的遮擋,使得標(biāo)簽邊緣與數(shù)碼管形成了連通域,導(dǎo)致左側(cè)數(shù)字在合并字符串時(shí)會被過濾掉,因此在處理的時(shí)候,會在成串之后多層次地向數(shù)字排列的左方和右方檢測是否需要合并,及是否有漏掉的字符存在。若存在,會向左或右延伸一個(gè)字符的長度,最終得到的結(jié)果如圖4(b)所示。
多層次擴(kuò)展合并算法流程如圖5所示。
圖5 遮擋粘連多層次擴(kuò)展合并處理算法流程
從實(shí)驗(yàn)結(jié)果可見,即使背景復(fù)雜,所有的數(shù)字區(qū)域均能被正確定位,表明了算法的有效性。
部分圖像由于拍攝角度的原因,數(shù)顯區(qū)域是傾斜的,由于獲得的區(qū)域?yàn)槲淖值淖钚“鼑匦危虼丝梢愿鶕?jù)最小包圍矩形的傾斜角度對顯示數(shù)字進(jìn)行校正,校正后筆畫基本上橫平豎直。
由于不同圖像中數(shù)字顯示形式、大小、方向、光照等都不一樣,為穩(wěn)定地識別這些數(shù)字,先提取高區(qū)分度特征,再使用機(jī)器學(xué)習(xí)的方法進(jìn)行模型訓(xùn)練和識別。
(1)提取特征。
筆畫投影特征:統(tǒng)計(jì)每個(gè)字符橫向和縱向投影上的筆畫像素值并進(jìn)行歸一化處理,得到筆畫投影特征。
分塊統(tǒng)計(jì)特征:將每個(gè)字符按一定橫縱向重疊度分割成多塊,統(tǒng)計(jì)每塊內(nèi)的筆畫像素值并進(jìn)行歸一化處理,得到分塊統(tǒng)計(jì)特征。
連通區(qū)域數(shù)量特征:統(tǒng)計(jì)每個(gè)字符的連通區(qū)域,左右兩半、上下兩半的連通區(qū)域的數(shù)量。統(tǒng)計(jì)時(shí)將區(qū)域適當(dāng)擴(kuò)充,使得連通區(qū)域數(shù)量特征更加穩(wěn)定。
DenseSIFT特征:將每個(gè)字符按一定橫縱向重疊度分割成多塊,對每一塊提取SIFT特征[15],歸一化后得到DenseSIFT特征。
(2)訓(xùn)練:采集大量不同視角、不同光照條件、不同遠(yuǎn)近拍攝的樣本圖片,提取上述特征,拉直為一維向量,使用徑向基核SVM[5,16]訓(xùn)練多類模型。0~9每個(gè)數(shù)字是一類,其他文件為一類。
(3)識別:對測試圖片用同樣的方法提取特征后組合成一維向量,使用分類模型進(jìn)行分類,識別出具體數(shù)字。
識別結(jié)果如圖6所示。
圖6 識別結(jié)果
由于圖像視頻中數(shù)字種類繁多,顯示字體及顏色多變,實(shí)際工作環(huán)境光照條件也各有不同,改進(jìn)SWT算法應(yīng)用到數(shù)顯儀表識別中,由于其主要根據(jù)數(shù)字的筆劃寬度信息定位數(shù)字,并根據(jù)數(shù)顯區(qū)域多種特征規(guī)則過濾得到顯示區(qū)域,因此可以有效克服上述問題。采用多層次方法進(jìn)行數(shù)字區(qū)域擴(kuò)展能去除遮擋粘連影響。實(shí)驗(yàn)結(jié)果表明,該方法在處理多種數(shù)顯儀表上具有很高的適應(yīng)性,能準(zhǔn)確找出數(shù)字區(qū)域。隨后提取多種高區(qū)分度特征,通過訓(xùn)練好的多分類模型即可準(zhǔn)確識別得到最終數(shù)字值,實(shí)現(xiàn)圖像視頻中讀數(shù)的自動(dòng)識別。
[1] 唐軼峻,申小陽,朱雯蘭,等.基于BP神經(jīng)網(wǎng)絡(luò)的數(shù)顯儀表動(dòng)態(tài)字符識別系統(tǒng)[J].光學(xué)儀器,2005,27(6):62-66.
[2] 宋 偉,張文杰,張家齊,等.基于指針區(qū)域特征的儀表讀數(shù)識別算法[J].儀器儀表學(xué)報(bào),2014,35:50-58.
[3] 張國敏,殷建平,祝 恩.一種基于區(qū)域熵值的車牌定位方法[J].計(jì)算機(jī)工程與科學(xué),2004,26(5):31-33.
[4] 董亞南,高曉智.基于CS的Hopfield神經(jīng)網(wǎng)絡(luò)數(shù)字識別應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(7):132-136.
[5] 李 瓊,陳 利,王維虎.基于SVM的手寫體數(shù)字快速識別方法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(2):205-208.
[6] 李 開,陳禮安,曹計(jì)昌.基于灰度多值化的身份證號碼識別[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(13):191-196.
[7] Andria G,Cavone G,Fabbiano L,et al.Automatic calibration system for digital instruments without built-in communication interface[C]//19th IMEKO world congress.[s.l.]:[s.n.],2009:857-860.
[8] Alegria F C,Serra A C.Computer vision applied to the automatic calibration of measuring instruments[J].Measurement,2000,28(3):185-195.
[9] 苑瑋琦,江海燕.基于ACSS角點(diǎn)定位的液晶顯示儀表示值識別算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(7):111-116.
[10] Epshtein B,Ofek E,Wexler Y.Detecting text in natural scenes with stroke width transform[C]//Proceedings of 2010 IEEE conference on the computer vision and pattern recognition.[s.l.]:IEEE,2010:2963-2970.
[11] 袁俊淼.基于幾何約束的筆劃寬度變換(SWT)算法及其字幕文本定位應(yīng)用[D].成都:電子科技大學(xué),2015.
[12] Canny J. A computational approach to edge detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1986,8(6):679-698.
[13] Chen X,Yuille A L.Detecting and reading text in natural scenes[C]//IEEE computer society conference on computer vision and pattern recognition.[s.l.]:IEEE,2004:366-373.
[14] Zhang H G,Zhao K,Song Y Z,et al.Text extraction from natural scene image:a survey[J].Neurocomputing,2013,122:310-323.
[15] 謝博鋆,朱 杰,于 劍.基于Pivots選擇的有效圖像塊描述子[J].軟件學(xué)報(bào),2015,26(11):2930-2938.
[16] 方 向,陳思佳,賈 穎.基于概率測度支持向量機(jī)的靜態(tài)手寫數(shù)字識別方法[J].微電子學(xué)與計(jì)算機(jī),2015(4):107-110.
ResearchonanImprovedAuto-locatingandRecognitionMethodforDigitalImages
ZHU Bin1,XUE Lu-qiang2,TAN Shou-biao2
(1.Department of Safety Supervision Quality,State Grid Anqing Electric Power Supply Co.,Anqing 246000,China;2.Key Lab of Intelligent Computing & Signal Processing of Ministry of Education,Anhui University,Hefei 230039,China)
According to the requirement of the automatic recognition for digital video,an improved digits auto-locating and recognition method is presented.It adopts self-adaptive threshold for binarization of image and then an improved algorithm of Stroke Width Transform (SWT) is designed to make a coarse locating of the digits’ regions.After that,the precise positions of the digits are determined by filtering them with some useful features,such as its height-width-ratio,color and spatial arrangement,and the multi-level extension and merging is applied to eliminate the influence on shield and adhesion for the exact locating of digits region with perfection.At last,after extraction of the high discriminative features in digital regions,the digits can be accurately recognized and achieved by trained multi-classified models,which can implement the automatic recognition of digits in videos.The experimental results show that the proposed method owns high accuracy and strong robustness,without impact on light,titlt and partial shield,and locate the correct digits regions for recognition of digits.It is suitable for automatic inspection,remote meter reading and so on.
stroke width transform;digits auto-locating;multi-level extension and merging;reading recognition
TP391.41
A
1673-629X(2017)12-0067-04
10.3969/j.issn.1673-629X.2017.12.015
2017-04-09
2017-07-20 < class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間
時(shí)間:2017-08-01
國家自然科學(xué)基金資助項(xiàng)目(61201396);國家電網(wǎng)公司科技項(xiàng)目(5212D01502DB)
朱 彬(1968-),男,高工,碩士,研究方向?yàn)殡娏Π踩O(jiān)察技術(shù)。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170801.1559.080.html