亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)字結(jié)構(gòu)特征的發(fā)票號(hào)碼識(shí)別算法*

        2017-02-25 02:32:56崔文成
        數(shù)據(jù)采集與處理 2017年1期
        關(guān)鍵詞:區(qū)域

        崔文成 任 磊 劉 陽(yáng) 邵 虹

        (沈陽(yáng)工業(yè)大學(xué)信息科學(xué)與工程學(xué)院,沈陽(yáng),110870)

        基于數(shù)字結(jié)構(gòu)特征的發(fā)票號(hào)碼識(shí)別算法*

        崔文成 任 磊 劉 陽(yáng) 邵 虹

        (沈陽(yáng)工業(yè)大學(xué)信息科學(xué)與工程學(xué)院,沈陽(yáng),110870)

        由于印章覆蓋、發(fā)票折痕等干擾因素的存在,一些發(fā)票號(hào)碼區(qū)域會(huì)出現(xiàn)噪聲粘連區(qū)域,這些區(qū)域會(huì)導(dǎo)致發(fā)票號(hào)碼無(wú)法正常分割。針對(duì)這一問(wèn)題,提出了噪聲粘連區(qū)域修復(fù)算法,有效地避免了該情況對(duì)數(shù)字分割的影響。針對(duì)普通發(fā)票號(hào)碼的字體結(jié)構(gòu)和特點(diǎn),提出了基于數(shù)字結(jié)構(gòu)特征的發(fā)票號(hào)碼識(shí)別算法。首先定義數(shù)字結(jié)構(gòu)特征,包括4種填充區(qū)域、2種字符穿越數(shù)和4種鏤空區(qū)域,構(gòu)成待識(shí)別數(shù)字的10維特征向量;進(jìn)而與標(biāo)準(zhǔn)模板庫(kù)中數(shù)字進(jìn)行模板特征匹配,求得距離最小值所對(duì)應(yīng)的數(shù)字作為識(shí)別結(jié)果。將所提出的方法和基于改進(jìn)的左右輪廓特征的印刷體數(shù)字識(shí)別方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,本文所提出的識(shí)別算法擁有更高的準(zhǔn)確率和更快的識(shí)別速度,以及對(duì)噪聲有更強(qiáng)的魯棒性。

        發(fā)票號(hào)碼識(shí)別;噪聲粘連區(qū)域;數(shù)字結(jié)構(gòu)特征

        引 言

        隨著信息時(shí)代的高速發(fā)展,許多學(xué)校和公司都在施行無(wú)紙化辦公,努力提高辦公自動(dòng)化程度。在財(cái)務(wù)部門,發(fā)票報(bào)銷往往是比較基本的業(yè)務(wù),不可避免要進(jìn)行發(fā)票相關(guān)信息的錄入,以供存檔和后續(xù)審批處理。發(fā)票號(hào)碼是稅務(wù)部門給予發(fā)票的編碼,是發(fā)票的唯一標(biāo)志,使用統(tǒng)一字體進(jìn)行印刷。發(fā)票號(hào)碼一般是8位,在網(wǎng)上查詢發(fā)票真?zhèn)螘r(shí),一般要在8位發(fā)票號(hào)碼前面輸入12位發(fā)票代碼。所以,人們經(jīng)常提到的發(fā)票號(hào)碼是由8位發(fā)票代碼和12位發(fā)票號(hào)碼組成的20個(gè)數(shù)字。工作人員輸入大量發(fā)票號(hào)碼極其耗時(shí)耗力,人們?cè)絹?lái)越希望計(jì)算機(jī)能夠代替手工輸入,對(duì)字符進(jìn)行自動(dòng)識(shí)別并輸入。數(shù)字識(shí)別屬于字符識(shí)別的范疇,是計(jì)算機(jī)對(duì)自然數(shù)0~9這10個(gè)數(shù)字的識(shí)別。借力于國(guó)內(nèi)外廣大科研人員和學(xué)者的潛心鉆研,大量識(shí)別算法層出不窮,同時(shí)應(yīng)用在不同領(lǐng)域。數(shù)字識(shí)別大致可以劃分為兩類:基于全局的統(tǒng)計(jì)分析和基于結(jié)構(gòu)的特征分析。基于全局的統(tǒng)計(jì)分析大多數(shù)應(yīng)用于模板匹配、特征點(diǎn)和像素點(diǎn)密度等。比如:文獻(xiàn)[1]利用局部對(duì)比平均法從二值化圖像中提取人民幣字符;文獻(xiàn)[2]將每個(gè)數(shù)字圖像分為非重疊的分區(qū),將每個(gè)分區(qū)的平均灰度值作為識(shí)別的特征矢量,識(shí)別鈔票的序列號(hào);還有運(yùn)用反向傳播算法訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型,對(duì)煤氣表數(shù)字進(jìn)行識(shí)別[3]。但基于全局的統(tǒng)計(jì)分析的計(jì)算量相對(duì)較大,對(duì)噪聲的適應(yīng)性和對(duì)字體形狀變化的魯棒性不好?;诮Y(jié)構(gòu)的特征分析考慮數(shù)字的輪廓和字符形狀,包含圖像預(yù)處理模塊、特征提取模塊和識(shí)別模塊[4]。比如:文獻(xiàn)[5]基于字符的假想線與相交特征點(diǎn)特征,構(gòu)建識(shí)別判斷樹完成識(shí)別;文獻(xiàn)[6]提取各種手寫體數(shù)字輪廓結(jié)構(gòu)的方向信息,用于檢測(cè)像素之間的變化,并統(tǒng)計(jì)數(shù)字圖像中的橫線數(shù)來(lái)完成識(shí)別。但是基于結(jié)構(gòu)的特征分析在提取特征的過(guò)程中,沒有關(guān)注數(shù)字本身的結(jié)構(gòu)特征,導(dǎo)致特征提取過(guò)于復(fù)雜,所提取特征的緊湊型和區(qū)分性還有待增強(qiáng);同時(shí),該算法完成了不用應(yīng)用場(chǎng)景下字符的識(shí)別,識(shí)別對(duì)象的字體和圖像質(zhì)量存在著不同程度的差異性,不能直接應(yīng)用到發(fā)票號(hào)碼識(shí)別。針對(duì)上述識(shí)別算法的不足,本文深入研究了不同數(shù)字的結(jié)構(gòu)和形狀特征,提出了基于數(shù)字結(jié)構(gòu)特征的發(fā)票號(hào)碼識(shí)別算法,提取特征數(shù)量少,又能很好地區(qū)分不同數(shù)字,采用更加簡(jiǎn)單易行的方式完成特征提取過(guò)程,從而進(jìn)行發(fā)票號(hào)碼識(shí)別。

        1 圖像預(yù)處理

        圖1 普通發(fā)票圖片F(xiàn)ig.1 Ordinary invoice picture

        圖2 12位的發(fā)票代碼與8位的發(fā)票號(hào)碼圖片F(xiàn)ig.2 Images of 12 bit invoice code and 8 bit invoice number

        圖3 自適應(yīng)閾值分割后的二值化圖像Fig.3 Binary image after adaptive threshold segmentation

        本文的研究重點(diǎn)是發(fā)票號(hào)碼識(shí)別算法,因此要鎖定發(fā)票號(hào)碼區(qū)域。將如圖1所示的普通發(fā)票的號(hào)碼區(qū)域進(jìn)行定位,得到如圖2所示的號(hào)碼區(qū)域圖片,將圖2的兩行號(hào)碼圖像作為圖像預(yù)處理對(duì)象。圖像預(yù)處理的主要目的在于有效地避免噪聲和光照亮度不均的影響,提高發(fā)票號(hào)碼區(qū)域圖像的清晰度。首先對(duì)圖2號(hào)碼區(qū)域圖像進(jìn)行灰度化,采用3×3模板的自適應(yīng)中值濾波器對(duì)灰度化圖像進(jìn)行去噪處理,因?yàn)閭鹘y(tǒng)中值濾波器只能有效去除空間密度小的噪聲,而自適應(yīng)中值濾波器可以處理大概率噪聲,并平滑非沖激噪聲。然后采用形態(tài)學(xué)處理方法,選用大小為3×3的結(jié)構(gòu)元素對(duì)圖像先后進(jìn)行開運(yùn)算和閉運(yùn)算,對(duì)圖像進(jìn)行平滑去噪處理。開運(yùn)算先對(duì)圖像進(jìn)行腐蝕運(yùn)算,然后對(duì)處理結(jié)果進(jìn)行膨脹運(yùn)算,可以有效去除數(shù)字周圍的細(xì)小噪聲點(diǎn),平滑數(shù)字的邊界。閉運(yùn)算則是先膨脹后腐蝕,填充字體本身細(xì)小空洞,同時(shí)也可以平滑邊界。最后利用自適應(yīng)閾值分割技術(shù)[7]求解圖像二值化的閾值,對(duì)完成去噪處理的圖像進(jìn)行二值化,有效區(qū)分目標(biāo)和背景;由于二值化轉(zhuǎn)化后的圖像目標(biāo)為白色,背景為黑色,所以要在圖像二值化之后對(duì)圖像進(jìn)行反色處理。門限處理對(duì)圖像二值化是普遍使用的方法,找到合適的分割閾值是二值化的關(guān)鍵。自適應(yīng)閾值分割技術(shù)通過(guò)試探的手段來(lái)逐步逼近最終的門限值,具體的算法流程如下。設(shè)定隨機(jī)值T′=random(0.255),以T為閾值,令T=T′,將圖像分割成兩部分G1,G2,然后計(jì)算兩部分的平均灰度值u1,u2。令T′=(u1+u2)/2,如果T與T′之間的絕對(duì)值之差小于事先的指定值,則圖像最終灰度分割閾值定為T,否則就再令T=T′,重新分割圖像[7]。圖像二值化效果如圖3所示。

        2 數(shù)字分割

        圖4 被印章覆蓋的發(fā)票號(hào)碼圖像Fig.4 Invoice number image covered with seals

        雖然大多數(shù)發(fā)票的號(hào)碼區(qū)域圖像足夠清晰,運(yùn)用傳統(tǒng)的投影法[8]就可以順利分割出單個(gè)數(shù)字,但是仍然有一些發(fā)票,如圖4所示,其發(fā)票號(hào)碼區(qū)域被印章覆蓋或者存在折痕,降低了圖像清晰度,圖像預(yù)處理很難濾除這些噪聲,導(dǎo)致面積較大的噪聲粘連區(qū)域被分割出來(lái),在對(duì)二值化圖像進(jìn)行數(shù)字分割過(guò)程中會(huì)出現(xiàn)如圖5所示的現(xiàn)象。

        噪聲粘連區(qū)域是指存在噪聲點(diǎn)并導(dǎo)致數(shù)字粘連的區(qū)域。如何判斷是否存在噪聲粘連區(qū)域,以及如何處理這樣的區(qū)域,成為數(shù)字分割環(huán)節(jié)的難點(diǎn)。針對(duì)這一問(wèn)題,提出了噪聲粘連區(qū)域修復(fù)算法,在使用投影法分割數(shù)字之前,先對(duì)噪聲粘連區(qū)域進(jìn)行修復(fù),避免印章痕跡對(duì)數(shù)字分割帶來(lái)的影響,具體算法如下:

        (1)首先計(jì)算單個(gè)數(shù)字最小連通面積,進(jìn)行統(tǒng)計(jì)對(duì)比分析,確定最小連通面積Smin。

        (2)將Smin作為判斷圖片非數(shù)字的噪聲區(qū)域的門限值,圖像中連通面積低于Smin的區(qū)域判定為噪聲粘連區(qū)域。實(shí)驗(yàn)表明,Smin取值160時(shí),噪聲粘連區(qū)域判定最為準(zhǔn)確。

        (3)對(duì)噪聲粘連區(qū)域進(jìn)行反色處理,從而消除分割過(guò)程中的噪聲粘連區(qū)域和去噪環(huán)節(jié)無(wú)法去除的雜點(diǎn),從而進(jìn)行正常分割。

        針對(duì)如圖4所示的發(fā)票圖片,先對(duì)其進(jìn)行噪聲粘連區(qū)域修復(fù),再運(yùn)用投影法進(jìn)行分割,最后利用雙線性插值法將分割好的單個(gè)數(shù)字圖像按照20×40尺寸標(biāo)準(zhǔn)進(jìn)行大小歸一化,最終結(jié)果如圖6所示。

        圖5 噪聲粘連區(qū)域圖6 大小歸一化的數(shù)字分割結(jié)果Fig.5 Noise adhesion areaFig.6 Segmentation results of size normalized number

        3 數(shù)字識(shí)別

        首先通過(guò)對(duì)識(shí)別數(shù)字進(jìn)行結(jié)構(gòu)特征的提取,包括頂部、底部、左側(cè)和右側(cè)填充區(qū)域,水平和垂直字符穿越數(shù),左上、右上、左下和右下鏤空區(qū)域,構(gòu)成10維的特征向量;接著運(yùn)用特征匹配方法,把待識(shí)別數(shù)字通過(guò)特征提取構(gòu)成的特征向量和標(biāo)準(zhǔn)模板庫(kù)中0~9的10個(gè)特征向量分別求取兩者的歐式距離,取得10個(gè)歐氏距離的最小值,識(shí)別結(jié)果就是最小值對(duì)應(yīng)的標(biāo)準(zhǔn)模板庫(kù)中的數(shù)字。

        3.1 填充區(qū)域

        在單個(gè)數(shù)字圖像中,定義在某一固定區(qū)域內(nèi),如果字符像素占據(jù)該區(qū)域絕大部分,則稱該區(qū)域?yàn)樘畛鋮^(qū)域。按照方向?qū)μ畛鋮^(qū)域進(jìn)行分類,在水平方向上,劃定頂部填充區(qū)域和底部填充區(qū)域;在垂直方向上,劃定左側(cè)填充區(qū)域和右側(cè)填充區(qū)域。

        (1)水平方向

        (1)

        圖7 頂部填充區(qū)域和底部填充區(qū)域Fig.7 Top and bottom filling areas

        式中:w為切割完成后數(shù)字圖像的寬,也就是每一行的像素?cái)?shù)之和;hw為每一行白色像素點(diǎn)不間斷出現(xiàn)的次數(shù);HL表示每一行白色像素點(diǎn)所占的比例。當(dāng)HL∈[0.75,1]時(shí),可以確定在該行存在一條由數(shù)字像素點(diǎn)組成的橫線。

        在大小為20×40的圖片中,定義水平方向前5行像素為頂部區(qū)域,水平方向最后五行像素為底部區(qū)域。在頂部區(qū)域內(nèi),通過(guò)逐行判斷像素點(diǎn)顏色,計(jì)算每一行白色像素點(diǎn)所占比例HL。若有連續(xù)三行HL∈[0.75,1],則判定該數(shù)字具有頂部填充區(qū)域。同理,在底部區(qū)域,逐行掃描像素點(diǎn),若有連續(xù)三行HL∈[0.75,1],則判定該數(shù)字具有頂部填充區(qū)域。以數(shù)字“1”“5”為例,由圖7可知,根據(jù)上述的描述,“1”有底部填充區(qū)域,“5”有頂部填充區(qū)域。

        (2)垂直方向

        (2)

        式中:h為切割完成后數(shù)字圖像的高,也就是每一列的像素?cái)?shù)之和;vw為每一列白色像素點(diǎn)不間斷出現(xiàn)的次數(shù);VL表示每一列白色的像素點(diǎn)的所占比例。當(dāng)VL∈[0.6,1]時(shí),可以確定在該列存在一條由數(shù)字像素點(diǎn)組成的豎線。

        在大小為20×40的圖片中,定義垂直方向左邊5列像素為左側(cè)區(qū)域,右邊5列像素為右側(cè)區(qū)域。

        在左側(cè)區(qū)域內(nèi),通過(guò)逐列掃描像素點(diǎn),計(jì)算每列中白色像素點(diǎn)所占的比例VL。若存在連續(xù)3列VL∈[0.6,1],則判定該數(shù)字具有左側(cè)填充區(qū)域。同理,在右側(cè)區(qū)域,逐列掃描像素點(diǎn),若有連續(xù)3列VL∈[0.6,1],則判定該數(shù)字具有右側(cè)填充區(qū)域。如圖8所示,“0”同時(shí)具有左側(cè)填充區(qū)域和右側(cè)填充區(qū)域。

        3.2 字符穿越數(shù)

        當(dāng)每條掃描線穿越白像素區(qū)域邊界時(shí),有黑白像素的跳變或者起始位置為白色像素點(diǎn),這樣的情況判定為掃描線與字符相交。將每一條掃描線與白色區(qū)域相交的次數(shù)定義為字符穿越數(shù)。按照掃描方向劃分,字符穿越數(shù)包括水平字符穿越數(shù)和垂直字符穿越數(shù)兩種。結(jié)合發(fā)票號(hào)碼字體的特殊性,本文對(duì)穿越數(shù)的計(jì)算進(jìn)行調(diào)整,定義數(shù)字圖片下半部分的字符穿越數(shù)為水平字符穿越數(shù),數(shù)字圖片右半部分的字符穿越數(shù)為垂直字符穿越數(shù)。水平字符穿越數(shù)的計(jì)算方法是水平掃描數(shù)字圖像下半部分的所有行,若發(fā)生黑白跳變或者首個(gè)像素點(diǎn)為白,均視為與掃描線相交,并記為一個(gè)相交次數(shù)。對(duì)比所有掃描行的相交次數(shù),確定相交次數(shù)的最大值,該值則為水平字符穿越數(shù),如圖9所示。

        圖8 左側(cè)填充區(qū)域和右側(cè)填充區(qū)域圖9 水平字符穿越數(shù)Fig.8 Right and left filling areasFig.9 Number of horizontal passing through characters

        垂直字符穿越數(shù)的計(jì)算方法是垂直掃描右半部分所有列,若發(fā)生黑白跳變或者首個(gè)像素點(diǎn)為白,均視為與掃描線相交,確定所有的相交次數(shù)最大值,該值則為垂直字符穿越數(shù),如圖10所示。

        3.3 鏤空區(qū)域

        鏤空區(qū)域是指數(shù)字圖片某固定區(qū)域內(nèi)至少有兩行像素是全黑色像素。按照左上、右上、左下和右下四個(gè)方向,把單個(gè)數(shù)字圖像平均劃分成四個(gè)區(qū)域,判斷這四個(gè)固定區(qū)域是否可以稱作鏤空區(qū)域。鏤空區(qū)域的判定方法是在數(shù)字圖像等分的1/4區(qū)域內(nèi),掃描每行像素點(diǎn),若超過(guò)兩行全部為黑色像素則判定為鏤空區(qū)域。因此可以分為4個(gè)鏤空區(qū)域:左上鏤空區(qū)域、右上鏤空區(qū)域、左下鏤空區(qū)域和右下鏤空區(qū)域。圖11展示了幾個(gè)典型數(shù)字的4類鏤空區(qū)域。

        圖10 垂直字符穿越數(shù)圖11 四類鏤空區(qū)域Fig.10 Number of vertical passing through charactersFig.11 Four types of hollow areas

        3.4 特征匹配與識(shí)別

        通過(guò)對(duì)發(fā)票號(hào)碼的標(biāo)準(zhǔn)數(shù)字模板庫(kù)的數(shù)字0~9進(jìn)行結(jié)構(gòu)特征提取,匯總標(biāo)準(zhǔn)數(shù)字0~9模板的特征,如表1所示, 存在填充區(qū)域或鏤空區(qū)域用數(shù)值0表示, 否則用數(shù)值1表示。 對(duì)待識(shí)別號(hào)碼的多結(jié)構(gòu)

        表1 數(shù)字0~9的特征

        特征提取之后,為其建立1個(gè)10維特征向量,得出它與表1中標(biāo)準(zhǔn)模板庫(kù)中0~9這10個(gè)數(shù)字特征向量之間的10個(gè)歐式距離。取10個(gè)歐氏距離中的最小值,識(shí)別結(jié)果就是該最小值對(duì)應(yīng)的標(biāo)準(zhǔn)庫(kù)中的數(shù)字。

        4 實(shí)驗(yàn)結(jié)果與分析

        將發(fā)票號(hào)碼正確識(shí)別率和運(yùn)行時(shí)間,作為算法的評(píng)價(jià)標(biāo)準(zhǔn)。與基于統(tǒng)計(jì)特征的數(shù)字識(shí)別方法[9]進(jìn)行對(duì)比,該方法首先假設(shè)每個(gè)字符存在于一個(gè)矩形框里,在框里設(shè)定出3條特征線,然后統(tǒng)計(jì)通過(guò)線上像素點(diǎn)的變化次數(shù)來(lái)提取每個(gè)字符的特征值。在單個(gè)數(shù)字的二值化圖像中,分別從數(shù)字橫向2/5和2/3處以及字符縱向1/2處作掃描線,分別命名為X1,X2和Y,統(tǒng)計(jì)3條掃描線上數(shù)字變化的次數(shù),得到3個(gè)穿越次數(shù)特征,初步將數(shù)字分為8類;因?yàn)榭傆?jì)10個(gè)數(shù)字,被歸為同一類的兩個(gè)數(shù)字可以再根據(jù)第1個(gè)發(fā)生變化的像素所在列與Y的位置關(guān)系來(lái)判斷,最終識(shí)別出10個(gè)數(shù)字。

        在程序運(yùn)行設(shè)備、運(yùn)行軟件版本、識(shí)別對(duì)象、圖像預(yù)處理和數(shù)字分割環(huán)節(jié)完全一致的情況下,對(duì)比兩種識(shí)別算法的識(shí)別率和運(yùn)行時(shí)間,從而對(duì)算法做出客觀公正評(píng)價(jià)。實(shí)驗(yàn)使用計(jì)算機(jī)的基本信息如表2所示,軟件運(yùn)行環(huán)境是Matlab R2013a版本。

        表2 實(shí)驗(yàn)過(guò)程所使用計(jì)算機(jī)的基本信息

        識(shí)別對(duì)象是經(jīng)過(guò)定位后的發(fā)票號(hào)碼區(qū)域的JPG格式圖片,如圖2所示。具體包括200張12位數(shù)字的發(fā)票代碼圖片和200張8位數(shù)字的發(fā)票號(hào)碼圖片。實(shí)驗(yàn)數(shù)據(jù)對(duì)比如表3所示。根據(jù)表3的實(shí)驗(yàn)對(duì)比數(shù)據(jù),可以看出本文提出的基于數(shù)字結(jié)構(gòu)特征的發(fā)票號(hào)碼識(shí)別算法識(shí)別率更高,同時(shí)運(yùn)行時(shí)間也更短。在特征提取環(huán)節(jié),本文方法更能體現(xiàn)發(fā)票號(hào)碼的結(jié)構(gòu)特點(diǎn),區(qū)分度更大;算法的整體流程更加簡(jiǎn)單易行,執(zhí)行效率也更高。

        表3 實(shí)驗(yàn)數(shù)據(jù)對(duì)比

        5 結(jié)束語(yǔ)

        發(fā)票號(hào)碼識(shí)別過(guò)程中,數(shù)字分割和識(shí)別算法是兩個(gè)較為關(guān)鍵的環(huán)節(jié),其效果的好壞直接影響最終的識(shí)別效果。在進(jìn)行數(shù)字分割的過(guò)程中,本文針對(duì)發(fā)票號(hào)碼區(qū)域被印章覆蓋影響分割的問(wèn)題,提出了噪聲粘連區(qū)域修復(fù)方法,有效地去除了印章痕跡的影響,保證了發(fā)票號(hào)碼區(qū)域圖片可以順利分割成單個(gè)數(shù)字圖片。對(duì)于發(fā)票號(hào)碼識(shí)別算法,特征提取是最為重要的環(huán)節(jié),成功的特征提取方法要求所提取特征能體現(xiàn)數(shù)字之間的差異性,同時(shí)又能保證算法的可行性。本文提出了基于數(shù)字結(jié)構(gòu)特征的發(fā)票識(shí)別算法,提取填充區(qū)域、字符穿越數(shù)和鏤空區(qū)域這些具有較大區(qū)分性的結(jié)構(gòu)特征,不僅避免了特征冗余,而且所提取特征簡(jiǎn)單又具有代表性,更能體現(xiàn)10個(gè)數(shù)字之間的差異性。但所提出的發(fā)票識(shí)別算法利用計(jì)算歐氏距離來(lái)進(jìn)行模板特征匹配,是相對(duì)傳統(tǒng)的匹配方法。如何在不提高算法復(fù)雜性的同時(shí),使用更加適合的特征匹配方法,進(jìn)一步提高該算法的正確識(shí)別率,將是后續(xù)研究的工作重點(diǎn)。

        [1] Feng Boyuan, Ren Mingwu, Zhang Xuyao, et al. Extraction of serial numbers on bank notes [C]// 12th International Conference on Document Analysis and Recognition. Washington, DC: IEEE, 2013: 698-702.

        [2] Gai Shan, Yang Guowei, Zhang Sheng, et al. New banknote number recognition algorithm based on support vector machine[C] // 2nd IAPR Asian Conference on Pattern Recognition. Naha: IEEE, 2013: 176-180.

        [3] Li Pei, Li Chaofeng, Ju Yiwen, et al. A new method for recognizing digital numbers on coal gas meters [C] // 6th International Congress on Image and Signal Processing. Hangzhou, China: IEEE, 2013:469-473.

        [4] 王靜嬌,孫晶,周玉冰,等.基于TMS320DM642的人民幣圖像特征識(shí)別系統(tǒng)[J].?dāng)?shù)據(jù)采集與處理,2012,27(S2):206-211.

        Wang Jingjiao, Sun Jing, Zhou Yubing, et al. RMB image feature identification system based on TMS320DM642[J].Journal of Data Acquisition and Processing,2012,27(S2): 206-211.

        [5] Cao Xinyan, Ma Lin. A recongnition system of real time paper currency[C]// 2nd International Conference on Computer Science and Network Technology. Changchun: IEEE, 2012:198-201.

        [6] Lee S W, Wu H C. Effective multiple-features extraction for off-line SVM-based handwritten numeral recognition [C] // 3rd International Conference on Information Security and Intelligent Control. Yunlin, Taiwan, China: IEEE, 2012:194-197.

        [7] 陳明華.印刷體數(shù)字識(shí)別算法研究[D].武漢:華中科技大學(xué),2012:12-14.

        Chen Minghua.Study on printed numeral recognition [D]. Wuhan: Huazhong University of Science and Technology, 2012: 12-14.

        [8] Li Yueqin, Li Jinping, Han Lei, et al. A bank note number automatic identification method[C]// International Conference on Environment Science. Melbourne: IEEE, 2012:185-192.

        [9] 高振斌,趙盼,王霞,等.印刷體數(shù)字識(shí)別系統(tǒng)的FPGA 實(shí)現(xiàn)[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2015,27(2):213-218.

        Gao Zhenbin, Zhao Pan, Wang Xia, et al.Printed digit recognition system based on field programmable gate array [J]. Journal of Chongqing University of Posts and Telecommunications: Natural Science Edition, 2015, 27(2): 213-218.

        Invoice Number Recognition Algorithm Based on Numerical Structure Characteristics

        Cui Wencheng, Ren Lei, Liu Yang, Shao Hong

        (School of Information Science and Engineering, Shenyang University of Technology, Shenyang, 110870, China)

        Interference factors such as seal cover, invoice crease and so on, cause noise adhesion in number area of some invoice, which would seriously lead to the invoice number segmentation error. Aiming at this problem, a noise adhesion area repairing algorithm is proposed. At the same time, according to the font structure and characteristics of ordinary invoice number, invoice number recognition algorithm based on characteristics of digital structure is proposed. Firstly, define number structure features, including four kinds of fill area, two kinds of number of passing through the character, and four kinds of hollow area, which constitute a 10-dimensional feature vector of the number to be identified. Then, match the feature vector with the template features in the standard template library, by obtaining the Euclidean distance, and regard the corresponding number with the minimum Euclidean distances as the last recognition result. The proposed method and printed number recognition method based on the improved left and right contour features are compared. Experimental results indicate that the proposed identification algorithm has higher accuracy, faster recognition speed and stronger robustness to noise.

        invoice number recognition; noise adhesion area; numerical structure characteristics

        遼寧省自然科學(xué)基金(201202162)資助項(xiàng)目;遼寧省高等學(xué)校優(yōu)秀人才支持計(jì)劃(LJQ2013013)資助項(xiàng)目。

        2015-05-20;

        2015-06-19

        TP391

        A

        崔文成(1973-),男,講師,研究方向:智能信息處理,E-mail:576022085@qq.com。

        任磊(1990-),男,碩士研究生,研究方向: 智能信息處理。

        劉陽(yáng)(1965-),男,副教授,研究方向:視頻及圖像處理、虛擬現(xiàn)實(shí)技術(shù)。

        邵虹(1974-),女,教授,研究方向:圖像處理與模式識(shí)別、智能信息處理。

        猜你喜歡
        區(qū)域
        分割區(qū)域
        探尋區(qū)域創(chuàng)新的密碼
        科學(xué)(2020年5期)2020-11-26 08:19:22
        基于BM3D的復(fù)雜紋理區(qū)域圖像去噪
        軟件(2020年3期)2020-04-20 01:45:18
        小區(qū)域、大發(fā)展
        商周刊(2018年15期)2018-07-27 01:41:20
        論“戎”的活動(dòng)區(qū)域
        區(qū)域發(fā)展篇
        區(qū)域經(jīng)濟(jì)
        關(guān)于四色猜想
        分區(qū)域
        公司治理與技術(shù)創(chuàng)新:分區(qū)域比較
        人人妻人人澡人人爽人人精品av | 亚洲妇熟xxxx妇色黄| 四川老熟妇乱子xx性bbw| 国产欧美一区二区成人影院| 午夜视频免费观看一区二区| 国产在线av一区二区| 国产精品久久久亚洲| 嗯啊哦快使劲呻吟高潮视频| 精品国产91久久综合| 色综合中文字幕综合网| 精品无码国产一区二区三区麻豆| 幻女bbwxxxx在线视频| 国产成人无码A区在线观| 美女偷拍一区二区三区| 中文字幕亚洲乱码成熟女1区| 国产丝袜在线精品丝袜| 51精品视频一区二区三区| 日韩亚洲在线一区二区| 亚洲成av人片在www鸭子| 亚洲av国产精品色午夜洪2| 欧美三级超在线视频| 成人免费毛片立即播放| 久久久久人妻一区二区三区| 亚洲国产人在线播放首页| 深夜福利国产| 日本a级黄片免费观看| 亚洲av永久无码精品网址| 国产精品一区二区在线观看99| 一区二区三区四区日韩亚洲| 性色视频加勒比在线观看| 色老板精品视频在线观看| 亚洲午夜精品久久久久久抢| 日本成人中文字幕亚洲一区 | 91九色播放在线观看| 正在播放国产多p交换视频| 国产在线观看入口| 三级日本午夜在线观看| 日本顶级metart裸体全部| 正在播放国产对白孕妇作爱| 亚洲一区二区高清在线| 人妻久久一区二区三区蜜桃|