亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        組合結(jié)構(gòu)特征的自由手寫體數(shù)字識(shí)別算法研究

        2013-07-11 09:36:22陳軍勝
        關(guān)鍵詞:手寫體交叉點(diǎn)結(jié)構(gòu)特征

        陳軍勝

        寧夏大學(xué) 機(jī)械工程學(xué)院,銀川 750021

        組合結(jié)構(gòu)特征的自由手寫體數(shù)字識(shí)別算法研究

        陳軍勝

        寧夏大學(xué) 機(jī)械工程學(xué)院,銀川 750021

        在過去的幾十年,隨著數(shù)字化、信息化在社會(huì)生活方方面面的推廣及普及,手寫體的識(shí)別成為模式識(shí)別的研究熱點(diǎn)。數(shù)字手寫體因其在郵政編碼、統(tǒng)計(jì)報(bào)表、財(cái)務(wù)報(bào)表、銀行票據(jù)等方面的廣泛使用,它的自動(dòng)識(shí)別更是受到了人們的廣泛關(guān)注。但是很多方法只是停留在理論研究之中,實(shí)際生活中手寫體數(shù)字因個(gè)人書寫風(fēng)格的不同而存在字符變形多樣的問題,造成現(xiàn)有算法在手寫體識(shí)別中識(shí)別率底、穩(wěn)定性差、魯棒性不足等多方面的問題。研究高性能的手寫體數(shù)字識(shí)別算法仍然是一個(gè)具有相當(dāng)挑戰(zhàn)性的課題。

        手寫體數(shù)字的識(shí)別建立在特征提取及比較的基礎(chǔ)之上。按照提取字符特征的不同,現(xiàn)有的數(shù)字手寫體識(shí)別算法大體上可以分為兩類:一類是基于結(jié)構(gòu)特征的手寫體數(shù)字識(shí)別算法[1-3]。它們通過識(shí)別字符圖像內(nèi)部包含的凹陷區(qū)特征、輪廓特征結(jié)構(gòu)突變點(diǎn)特征等基元,采用模板匹配的方式實(shí)現(xiàn)手寫體數(shù)字的自動(dòng)識(shí)別。這類方法能夠直觀地描述字符的結(jié)構(gòu),但是存在著對(duì)字符形變及噪聲缺乏魯棒的問題;另外一類是基于統(tǒng)計(jì)特征的手寫體數(shù)字識(shí)別算法[4-8]。這類算法基于對(duì)大量樣本的表征、變換和學(xué)習(xí),通過估計(jì)不同樣本類別的特征空間分布訓(xùn)練相應(yīng)的分類器,并利用這些分類器對(duì)未知模式進(jìn)行分類。當(dāng)訓(xùn)練樣本選取得足夠充分時(shí),這類方法能夠具有很好的識(shí)別能力;然而,充足樣本的構(gòu)造卻成為限制這類方法發(fā)展的主要瓶頸。

        綜合分析手寫體數(shù)字識(shí)別的應(yīng)用需求及現(xiàn)有的手寫體數(shù)字識(shí)別算法,會(huì)發(fā)現(xiàn)手寫體數(shù)字識(shí)別具有以下特點(diǎn):(1)手寫體數(shù)字書寫自由,個(gè)人書寫風(fēng)格千差萬別,造成手寫體數(shù)字形式變形多樣的特點(diǎn)。這就決定了在手寫體數(shù)字識(shí)別中不存在一種簡(jiǎn)單、單一的方案能夠達(dá)到很高的識(shí)別率。(2)手寫體數(shù)字識(shí)別正確率要求高。在實(shí)際應(yīng)用中,手寫體數(shù)字往往會(huì)涉及到財(cái)會(huì)、金融等領(lǐng)域,因而,其識(shí)別準(zhǔn)確率要求更高。(3)手寫體識(shí)別困難度高,不像文字,數(shù)字之間往往沒有上下文關(guān)系,這就造成在數(shù)字識(shí)別過程中無法通過上下文間的指導(dǎo)信息輔助完成手寫體數(shù)字的自動(dòng)識(shí)別,而必須完全獨(dú)立地對(duì)各個(gè)數(shù)字進(jìn)行識(shí)別。

        針對(duì)手寫體識(shí)別的特點(diǎn)及要求,分析現(xiàn)有算法存在的問題,本文提出了一種基于組合結(jié)構(gòu)特征的手寫體數(shù)字識(shí)別算法。該算法能夠通過擴(kuò)展的字符結(jié)構(gòu)特征識(shí)別算法自動(dòng)、魯棒地提取手寫體數(shù)字中的諸多結(jié)構(gòu)特征,并綜合使用端點(diǎn)、分叉點(diǎn)、橫線等特征構(gòu)建決策樹,實(shí)現(xiàn)了手寫體數(shù)字的自動(dòng)識(shí)別。實(shí)驗(yàn)結(jié)果顯示,該方法的識(shí)別率明顯優(yōu)于其他傳統(tǒng)方法。

        1 方法概述

        本文提出的基于組合結(jié)構(gòu)特征的手寫體數(shù)字識(shí)別算法通過分析字符圖像像素間的關(guān)系自動(dòng)提取端點(diǎn)、分叉點(diǎn)等結(jié)構(gòu)特征,從而實(shí)現(xiàn)手寫體的自動(dòng)識(shí)別。在介紹整體算法之前,首先給出基本概念。

        1.1 基本概念

        定義1(端點(diǎn))在二值圖像中,端點(diǎn)就是連接點(diǎn)為1的點(diǎn),即在它的九鄰域中只有一個(gè)點(diǎn)與它相連。圖1所示的8幅圖像中位居圖像中央的點(diǎn)均為端點(diǎn)。

        圖1 端點(diǎn)的九鄰域圖

        定義2(三交叉點(diǎn))在二值圖像中,三交叉點(diǎn)起連接作用,是負(fù)責(zé)連接三條不同方向的線且連接數(shù)為3的點(diǎn)。在三交叉點(diǎn)的九鄰域內(nèi)有三個(gè)像素點(diǎn)與它相連并構(gòu)成一定角度。圖2所示的16幅圖像中位居圖像中央的點(diǎn)即為三交叉點(diǎn)。

        定義3(四交叉點(diǎn))在二值圖像中,四交叉點(diǎn)其連接作用,是負(fù)責(zé)連接四條不同方向的線且連接數(shù)為4的點(diǎn)。在四交叉點(diǎn)的九鄰域內(nèi)有四個(gè)點(diǎn)與它相連并構(gòu)成一定角度。圖3所示的兩幅圖像中位居圖像中央的點(diǎn)即為四交叉點(diǎn)。

        圖2 三交叉點(diǎn)的九鄰域圖

        圖3 四交叉點(diǎn)的九鄰域圖

        1.2 整體框架

        圖4所示為基于組合結(jié)構(gòu)特征的手寫體數(shù)字識(shí)別算法的整體框架,主要包括:

        (1)手寫體數(shù)字圖像的預(yù)處理。

        (2)手寫體數(shù)字圖像結(jié)構(gòu)特征的提取,通過本文提出的擴(kuò)展字符結(jié)構(gòu)特征識(shí)別算法魯棒、準(zhǔn)確地識(shí)別手寫體數(shù)字圖像中包含的結(jié)構(gòu)特征。

        (3)基于決策樹的手寫體數(shù)字自動(dòng)識(shí)別,通過組合本文提取的結(jié)構(gòu)特征構(gòu)造決策樹實(shí)現(xiàn)自由手寫體數(shù)字圖像的自動(dòng)識(shí)別。

        2 手寫體數(shù)字圖像的預(yù)處理

        手寫數(shù)字識(shí)別時(shí),首先將紙上的字符,經(jīng)光電掃描產(chǎn)生模擬電信號(hào),再經(jīng)模數(shù)轉(zhuǎn)換把帶灰度值的數(shù)字信號(hào)輸入計(jì)算機(jī)。紙張厚度、顏色、油墨深淺、印刷或書寫質(zhì)量都要造成字形畸變,產(chǎn)生污點(diǎn)、飛白、斷筆、交連等干擾。輸入設(shè)備的鑒別率、線形度、光學(xué)畸變也要產(chǎn)生噪聲。所以,在單個(gè)字符識(shí)別之前,要對(duì)帶有隨機(jī)噪聲的字符數(shù)字信號(hào)進(jìn)行預(yù)處理。具體地,預(yù)處理包括灰度化、二值化、平滑、細(xì)化等步驟。

        2.1 灰度化

        圖4 基于組合結(jié)構(gòu)特征的手寫體數(shù)字字符識(shí)別算法整體框架圖

        手寫體數(shù)字的顏色并不影響其對(duì)應(yīng)的字符,而彩色圖像又占有大量的空間,影響識(shí)別效率及效果。因而,在識(shí)別之前,首先要對(duì)圖像進(jìn)行灰度化處理,以過濾掉與識(shí)別信息無關(guān)的數(shù)據(jù)。研究表明:給定一個(gè)24位的BMP圖像,若其每個(gè)像素通過R(紅色)、G(綠色)、B(藍(lán)色)三個(gè)顏色分量共同表達(dá),則基于人眼對(duì)顏色敏感程度分析,可使用:

        RGB=B×0.114+G×0.587+R×0.299 (1)的灰度化公式來進(jìn)行灰度化。灰度化的效果如圖5所示。

        圖5 彩色手寫體數(shù)字位圖的灰度化

        2.2 二值化

        為進(jìn)一步減少圖像的數(shù)據(jù)量,使其更加便于圖像的識(shí)別操作,在得到數(shù)字字符的灰度化圖像后,需對(duì)灰度圖像進(jìn)行二值化操作。二值化的一般方法是確定一個(gè)灰度值,即閾值x,將灰度值小于x的像素設(shè)為白色,將灰度值大于等于x的像素設(shè)為黑色。因?yàn)槭謱戵w字符圖像的前景色和背景色為圖像中存在最多的兩種灰度顏色,因而圖像的灰度直方圖中會(huì)各形成一個(gè)波峰,將兩波峰之間的波谷作為閾值,即可有效實(shí)現(xiàn)圖像的二值化操作。為此,本文中,為保證閾值確定的合理性,利用灰度直方圖確定閾值并實(shí)現(xiàn)二值化。圖6給出了圖5所示灰度圖像的二值化結(jié)果。

        圖6 灰度圖像的二值化

        2.3 平滑處理

        為消除手寫體圖像中的噪聲,需進(jìn)一步對(duì)手寫體圖像進(jìn)行平滑去噪處理。均值濾波、中值濾波、空間與低通濾波是圖像平滑處理中較為常用的濾波方法。鑒于在一定條件下,中值濾波可以克服線性濾波器所帶來的細(xì)節(jié)模糊問題,而且對(duì)濾除脈沖干擾及圖像掃描噪聲非常有效。本文選用7×7的滑動(dòng)窗口對(duì)二值化圖像進(jìn)行中值濾波。圖7給出了利用中值濾波光滑去噪后的字符圖像。

        圖7 利用低通濾波對(duì)二值圖像進(jìn)行光滑去噪

        圖8 單行字符圖像在X、Y方向上的投影

        2.4 字符分割

        字符識(shí)別的基本對(duì)象是單個(gè)字符,在進(jìn)行字符識(shí)別之前,需對(duì)光滑去噪后的圖像進(jìn)行分割操作,以從多行或多字符圖像中獲得單個(gè)字符。本文中,將通過投影分割的方式來獲取單個(gè)字符。首先,利用水平投影法獲得單行字符圖像,此后再以單行字符圖像為輸入,利用垂直投影法獲得單個(gè)字符圖像。公式(2)(3)分別給出了水平投影及垂直投影的計(jì)算公式。

        其中,h,w分別是圖像的高度和寬度,f(i,j)為圖像第i行第j列元素的灰度值,對(duì)二值圖像為1或0。以圖7中平滑去噪后的圖像為例,圖8給出了利用公式(2)、(3)中sum(i) 和sum(j)隨i、j的變化趨勢(shì)圖。由圖可見,給定一行字符后,由于字符間獨(dú)立成塊,水平方向之間并無交集,因而,可在對(duì)單行圖像進(jìn)行垂直投影后利用投影圖像中的空白間隙對(duì)字符集合進(jìn)行分割。圖9給出了相應(yīng)的分割結(jié)果。

        圖9 基于垂直投影的圖像分割

        2.5 字符細(xì)化

        細(xì)化是減少圖像信息量并保留圖像主要特征的又一預(yù)處理操作。為有效提高字符識(shí)別的效果和質(zhì)量,將選用兩步腐蝕的方法對(duì)字符圖像進(jìn)行細(xì)化[9-10]。具體地:第一步,對(duì)字符圖形進(jìn)行預(yù)腐蝕,將所有腐蝕可去除的像素點(diǎn)標(biāo)明但不立即去除;第二步,以第一步標(biāo)注的可去除像素點(diǎn)為基礎(chǔ),選擇消除那些消除后不會(huì)破壞字符連通性的點(diǎn),并保留其他點(diǎn),以確保字符圖像的拓?fù)浣Y(jié)構(gòu)。圖10為按照本文算法細(xì)化得到的效果圖。

        圖10 字符細(xì)化

        3 手寫體數(shù)字結(jié)構(gòu)特征的提取

        至此,得到了高質(zhì)量的字符圖像,本章將考慮字符圖像的特征提取。由于手寫體字符不像印刷體字符那么規(guī)范,使用諸如模板匹配的方法需要建立大量的模板庫,效率低且識(shí)別效果差。而字符結(jié)構(gòu)的某些特征并不因?yàn)闀鴮懭说牟煌l(fā)生改變,如數(shù)字字符1無論寫成怎樣,它都會(huì)存在兩個(gè)端點(diǎn),內(nèi)部也不會(huì)有別的交叉點(diǎn);數(shù)字2無論寫成怎樣,一般都會(huì)有一個(gè)交叉點(diǎn)和兩個(gè)端點(diǎn)的。因而,可以認(rèn)為無論數(shù)字寫得如何隨意,只要不是非??鋸?,特征點(diǎn)信息都是相對(duì)穩(wěn)定的。本文將以預(yù)處理后的字符圖像為輸入提取其字符結(jié)構(gòu)特征,并依據(jù)字符結(jié)構(gòu)特征識(shí)別數(shù)字字符。

        3.1 結(jié)構(gòu)特征的提取

        不同的數(shù)字具有不同的結(jié)構(gòu)特征,如有些數(shù)字有兩個(gè)端點(diǎn),有些數(shù)字沒有端點(diǎn),有些數(shù)字有三交叉點(diǎn),有些數(shù)字有四交叉點(diǎn),而且不同數(shù)字特征點(diǎn)的位置也不一樣,所以端點(diǎn)和交叉點(diǎn)特征就可以成為判別數(shù)字的一個(gè)主要特征。本文將利用擊中擊不中變換來識(shí)別數(shù)字字符的形狀特征。具體地:在擊中擊不中變換中將結(jié)構(gòu)元素分解成兩類,一類定義為前景結(jié)構(gòu)元素E,另一類定義為背景結(jié)構(gòu)元素F,定義如下:B=(E,F(xiàn)),其中E和F的交集為空集。對(duì)圖像A進(jìn)行擊中擊不中變換的定義就是:

        由于E與F的交集為空,構(gòu)造一個(gè)新的結(jié)構(gòu)T,將E中為1的元素定義為1,將F中為1的元素定義為-1,將其他元素定義為0,就可完整地表征出擊中擊不中的結(jié)構(gòu)元素E 和F。將T定義為發(fā)現(xiàn)結(jié)構(gòu)特征的探針,下面將根據(jù)不同的待識(shí)別結(jié)構(gòu)特征設(shè)置相應(yīng)的探針T。

        (1)端點(diǎn)特征。對(duì)于有些數(shù)字,比如1、7,是存在兩個(gè)端點(diǎn)的,而0、8則是不存在端點(diǎn)的。所以端點(diǎn)特征是一個(gè)簡(jiǎn)單且重要的判別特征。為有效識(shí)別端點(diǎn)信息,以圖1給出的8種不同形態(tài)的端點(diǎn)為依據(jù),設(shè)計(jì)了8種不同的探針,如圖11所示。以這8個(gè)探針對(duì)原始圖像進(jìn)行擊中擊不中操作,很容易識(shí)別出字符圖像的端點(diǎn)信息,圖12給出了一個(gè)實(shí)驗(yàn)結(jié)果。

        圖11 識(shí)別端點(diǎn)結(jié)構(gòu)的8種探針

        圖12 數(shù)字字符中端點(diǎn)結(jié)構(gòu)的提取

        (2)三交叉點(diǎn)特征。對(duì)于有些數(shù)字,比如2、3,是存在三交叉點(diǎn)的,而0、1則不存在三交叉點(diǎn)。所以三交叉點(diǎn)特征也是一個(gè)比較重要的判別特征。為有效識(shí)別三交叉點(diǎn)信息,以圖2給出的16種不同形態(tài)的三交叉點(diǎn)為依據(jù),設(shè)計(jì)了16種不同的探針,如圖13所示。以這16個(gè)探針對(duì)原始圖像進(jìn)行擊中擊不中操作可有效識(shí)別出字符圖像中包含的三交叉點(diǎn)信息,圖14給出了一個(gè)實(shí)驗(yàn)結(jié)果。

        圖14 數(shù)字字符中三交叉點(diǎn)結(jié)構(gòu)的提取

        (3)四交叉點(diǎn)特征。對(duì)于有些數(shù)字,比如4,是存在四交叉點(diǎn)的,而2、7是不存在四交叉點(diǎn)的。四交叉點(diǎn)特征是用以識(shí)別數(shù)字字符的又一重要判別特征。為有效識(shí)別四交叉點(diǎn)信息,以圖3給出的2種不同形態(tài)的四交叉點(diǎn)為依據(jù),設(shè)計(jì)了2種不同的探針,如圖15所示。以這2個(gè)探針對(duì)原始圖像進(jìn)行擊中擊不中操作,很容易識(shí)別出字符圖像的四交叉點(diǎn)信息,圖16給出了相應(yīng)的實(shí)驗(yàn)結(jié)果。

        圖15 識(shí)別四交叉點(diǎn)結(jié)構(gòu)的2種探針

        圖16 數(shù)字字符中四交叉點(diǎn)結(jié)構(gòu)的提取

        通過擊中擊不中操作可有效地識(shí)別數(shù)字字符中包含的端點(diǎn)、三交叉點(diǎn)、四交叉點(diǎn)等結(jié)構(gòu)點(diǎn)信息。但是,僅僅依賴結(jié)構(gòu)點(diǎn)還難以完成數(shù)字字符的有效區(qū)別,如數(shù)字2,5都包含2個(gè)端點(diǎn)和1個(gè)三交叉點(diǎn),且都沒有四交叉點(diǎn)。仔細(xì)觀察會(huì)發(fā)現(xiàn),除了這些結(jié)構(gòu)點(diǎn)信息,數(shù)字字符中還包含一類結(jié)構(gòu)線信息,橫線特征就是一類非常重要的結(jié)構(gòu)線信息。如有些數(shù)字,比如2、5、7,是存在橫線的,而0、3、8這些數(shù)字是不存在橫線的;且不同數(shù)字中橫線的長短和位置也是不一樣的,如數(shù)字2的橫線在下方,而數(shù)字5和7的橫線都在數(shù)字的上方,所以橫線特征也是一個(gè)比較重要的判別特征,可和特征點(diǎn)結(jié)合共同支持字符的識(shí)別。為提取橫線特征,本文定義了如圖17所示的掩膜,通過原始圖像同掩膜圖像間的卷積標(biāo)識(shí)包含橫線特征的點(diǎn),進(jìn)而發(fā)現(xiàn)橫線特征。圖18給出了一個(gè)相應(yīng)的實(shí)驗(yàn)結(jié)果。

        圖17 識(shí)別橫線結(jié)構(gòu)的掩膜

        圖18 數(shù)字字符中橫線結(jié)構(gòu)的提取

        3.2 偽特征點(diǎn)的去除

        理想狀況下,提取以上字符特征,并據(jù)此進(jìn)行數(shù)字識(shí)別就可以了。但是,如表1所示,由于手寫體數(shù)字字符的隨意性,會(huì)出現(xiàn)很多標(biāo)準(zhǔn)寫法中不該出現(xiàn)的特征,即偽特征點(diǎn):如標(biāo)準(zhǔn)的數(shù)字8中間位置有且僅有一個(gè)四交叉點(diǎn),而這里出現(xiàn)了兩個(gè)三交叉點(diǎn);標(biāo)準(zhǔn)的數(shù)字3應(yīng)該包含兩個(gè)端點(diǎn),一個(gè)三交叉點(diǎn),而這里多出一個(gè)端點(diǎn),等等。這勢(shì)必影響以此為基礎(chǔ)的字符識(shí)別。為此基于字符結(jié)構(gòu)特征的分析,提出了一種偽特征點(diǎn)的去除算法擴(kuò)展已有的字符結(jié)構(gòu)識(shí)別算法以確保特征提取的準(zhǔn)確性、魯棒性。具體地,在一個(gè)特定的閾值范圍內(nèi),如果:

        (1)有且僅有2個(gè)端點(diǎn),如表1中的“4”,則去掉2個(gè)端點(diǎn),增加1個(gè)三交叉點(diǎn)。

        (2)有且僅有2個(gè)三交叉點(diǎn),如表1中的“8”,則去掉2個(gè)三交叉點(diǎn),增加1個(gè)四交叉點(diǎn)。

        (3)有1個(gè)端點(diǎn)、1個(gè)三交叉點(diǎn),如表1中的“3”,則去掉端點(diǎn),三交叉點(diǎn)不變。

        (4)有1個(gè)端點(diǎn)、2個(gè)三交叉點(diǎn),如表1中的“9”,則去掉端點(diǎn)和1個(gè)三交叉點(diǎn),只留1個(gè)三交叉點(diǎn)。

        (5)有2個(gè)端點(diǎn)和1個(gè)四交叉點(diǎn),如表1中的“5”,則去掉這2個(gè)端點(diǎn)及這個(gè)四交叉點(diǎn),并新增一個(gè)三交叉點(diǎn)。

        根據(jù)以上判別條件,依次判斷手寫體字符圖像中已識(shí)別特征的真?zhèn)?,有效去除手寫體字符中的偽特征點(diǎn),實(shí)現(xiàn)手寫體字符特征結(jié)構(gòu)的規(guī)范化,可以更好地克服手寫體數(shù)字的隨意性,增加算法的魯棒性。

        表1 手寫體數(shù)字字符偽特征說明1)

        4 基于決策樹的手寫體數(shù)字自動(dòng)識(shí)別

        以上面提取的各類字符結(jié)構(gòu)特征為基礎(chǔ),綜合比較它們的區(qū)別能力并構(gòu)造用以識(shí)別手寫體數(shù)字字符的決策樹,以實(shí)現(xiàn)手寫體字符的有效識(shí)別。本文中按照端點(diǎn)數(shù)為0~4的不同情況將待識(shí)別數(shù)字字符分為5類,其中:端點(diǎn)數(shù)為0的有0、8,端點(diǎn)為1的數(shù)字為6、9,端點(diǎn)為2的數(shù)字為1,2,3,5,7,端點(diǎn)為3的數(shù)字為另一種形態(tài)的5,端點(diǎn)為4的是4。進(jìn)一步,將依次利用三交叉點(diǎn)數(shù)、四交叉點(diǎn)數(shù)、橫線數(shù)及其位置細(xì)化識(shí)別結(jié)果。圖19給出了本文所構(gòu)造的決策樹。每輸入一幅手寫體數(shù)字字符,依據(jù)此決策樹,逐條判斷,便可實(shí)現(xiàn)數(shù)字字符的有效識(shí)別。

        5 系統(tǒng)實(shí)現(xiàn)

        本文以Matlab為開發(fā)平臺(tái),設(shè)計(jì)并實(shí)現(xiàn)了基于組合結(jié)構(gòu)特征的自由手寫體數(shù)字識(shí)別系統(tǒng)。系統(tǒng)包括輸入模塊和圖像識(shí)別模塊兩部分。用戶可通過輸入模塊提交手寫體數(shù)字字符,系統(tǒng)通過圖像識(shí)別模塊依次對(duì)圖像進(jìn)行預(yù)處理、結(jié)構(gòu)特征提取并依據(jù)決策樹決策判斷得到輸出結(jié)果。

        5.1 測(cè)試庫的構(gòu)造

        為驗(yàn)證算法的準(zhǔn)確性及魯棒性,選取識(shí)別率為評(píng)價(jià)參數(shù),構(gòu)建了一個(gè)包含1 000份不同輸入的測(cè)試集。這1 000份輸入圖像包括數(shù)字圖片0~9各100份,每份由10人分批次書寫,形態(tài)各異,輕重不同。表2舉例列出了其中的部分手寫體字符。

        表2 部分手寫體數(shù)字測(cè)試用例

        圖19 支持手寫體數(shù)字字符自動(dòng)識(shí)別的決策樹

        5.2 識(shí)別率測(cè)試

        以本文構(gòu)造的1 000份手寫體輸入為測(cè)試數(shù)據(jù),實(shí)現(xiàn)并應(yīng)用本文算法對(duì)0~9的10個(gè)數(shù)字進(jìn)行了測(cè)試,結(jié)果如表3所示。由表3可以看出,針對(duì)不同人書寫的不同形態(tài)的數(shù)字,該算法的整體識(shí)別率高達(dá)97.4%。而針對(duì)不同的數(shù)字,由于字符形式變化多樣性的不同,識(shí)別率略有不同。對(duì)于數(shù)字0和7,該算法的識(shí)別率已經(jīng)達(dá)到100%,其他絕大多數(shù)數(shù)字的識(shí)別率也已經(jīng)達(dá)到90%以上。這表明基于組合結(jié)構(gòu)特征的決策樹算法具有較高的識(shí)別率和較強(qiáng)的魯棒性。但是不可否認(rèn)的是,該算法仍存在一些問題,由于算法中綜合應(yīng)用的判別特征還是不夠多,造成部分?jǐn)?shù)字,如3、4、5的識(shí)別率較低,還有待于改進(jìn)和完善。

        表3 基于組合結(jié)構(gòu)特征的手寫體數(shù)字識(shí)別結(jié)果統(tǒng)計(jì) (%)

        5.3 算法比較

        為了進(jìn)一步驗(yàn)證算法的有效性,本文實(shí)現(xiàn)了基于主分量分析(Principal Component Analysis,PCA)[11]的傳統(tǒng)手寫體識(shí)別算法,并將該方法和本文提出的基于組合特征的識(shí)別方法進(jìn)行了比較。具體地,在基于PCA的自由手寫體識(shí)別實(shí)驗(yàn)中,選用美國國家郵政局?jǐn)?shù)據(jù)庫中包含的7 291個(gè)訓(xùn)練樣本為訓(xùn)練樣本集,依次計(jì)算0~9這10類字符的協(xié)方差矩陣Cx,求解其特征值,按特征值大小排序,得到這10個(gè)字符對(duì)應(yīng)特征向量的基向量;并依次選取3,6,16三個(gè)不同的特征維數(shù)d構(gòu)建其基向量數(shù)組u1~ud,依據(jù)式(5)對(duì)本文構(gòu)造的數(shù)據(jù)進(jìn)行分類判斷。則待識(shí)別樣本屬于第i類模式。

        實(shí)驗(yàn)共進(jìn)行了100輪,表4是最后的平均識(shí)別結(jié)果。由實(shí)驗(yàn)結(jié)果可見,本文提出自由手寫體數(shù)字識(shí)別算法明顯優(yōu)于傳統(tǒng)算法,這是因?yàn)椋海?)字符結(jié)構(gòu)特征相比較統(tǒng)計(jì)方法特征而言是一種更能反映數(shù)字手寫體本質(zhì)特征向量,能夠更好地捕捉自由手寫體中不變的屬性;(2)本文提出的擴(kuò)展特征結(jié)構(gòu)特征識(shí)別算法能夠魯棒地提取各類字符結(jié)構(gòu)特征,進(jìn)一步提高算法的識(shí)別率;(3)通過組合各類結(jié)構(gòu)特征,本算法能夠更好地識(shí)別0~9不同的數(shù)字字符,因而具有更高的識(shí)別率。

        表4 本文算法同PCA算法識(shí)別率比較 (%)

        6 總結(jié)與展望

        本文提出一種基于組合特征的自由手寫體數(shù)字識(shí)別算法,給出了自由手寫體數(shù)字字符圖像的預(yù)處理方法,設(shè)計(jì)并實(shí)現(xiàn)了手寫體數(shù)字字符結(jié)構(gòu)特征信息的有效識(shí)別算法,并針對(duì)性地提出了一種新的偽特征點(diǎn)去除算法擴(kuò)展本文字符結(jié)構(gòu)特征識(shí)別算法,建立了基于組合特征的決策樹識(shí)別算法,并通過實(shí)驗(yàn)驗(yàn)證了該算法的有效性。所提出的字符結(jié)構(gòu)特征構(gòu)建算法能夠準(zhǔn)確、穩(wěn)定地識(shí)別自由手寫體數(shù)字字符的結(jié)構(gòu)特征,為手寫體的識(shí)別提供底層支持;基于組合特征的決策樹自動(dòng)識(shí)別算法能夠綜合利用多種結(jié)構(gòu)信息完成自由書寫體字符的自動(dòng)識(shí)別,保證了算法的準(zhǔn)確性及魯棒性;實(shí)驗(yàn)結(jié)果表明該算法的識(shí)別率高達(dá)97.4%,明顯優(yōu)于傳統(tǒng)自由手寫體識(shí)別算法。

        為了進(jìn)一步加強(qiáng)自由手寫體數(shù)字字符的識(shí)別能力及識(shí)別效率,下一步將考慮如何擴(kuò)展并綜合應(yīng)用多種字符結(jié)構(gòu)特征,使其能夠有效地改進(jìn)部分?jǐn)?shù)字,如3,4,5等數(shù)字字符的識(shí)別率,使得手寫體數(shù)字字符的整體識(shí)別能力都有所提高。

        [1]宋曰聰,胡偉.手寫體數(shù)字識(shí)別系統(tǒng)中一種新的特征提取方案[J].計(jì)算機(jī)科學(xué),2007.

        [2]黃濤.模板匹配在圖像識(shí)別中的應(yīng)用[J].云南大學(xué)學(xué)報(bào):自然科學(xué)版,2005,27(5A):327-332.

        [3]沙騰.基于CCD圖像識(shí)別通用算法研究[D].杭州:浙江大學(xué),2008.

        [4]Li Sanping,Yue Zhenjun.Realization of handwritten numeral recognition system based on PNN with MATLAB[J].Journal of Military Communications Technology,2005,3(26):54-57.

        [5]賈厚林.基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)字識(shí)別研究與實(shí)現(xiàn)[D].南京:東南大學(xué),2006.

        [6]姜文理,王衛(wèi),孫正興.基于決策樹的快速在線手寫數(shù)字識(shí)別技術(shù)[J].計(jì)算機(jī)科學(xué),2006.

        [7]張偉,王克儉,秦臻.基于神經(jīng)網(wǎng)絡(luò)的數(shù)字識(shí)別的研究[J].微電子學(xué)與計(jì)算機(jī),2006.

        [8]Likforman-Sulem L,Sigelle M.Recognition of degraded handwritten digits using dynamic Bayesian networks[C]//Proceedings of SPIE.San Jose,CA:[s.n.],2007.

        [9]張德豐.MATLAB數(shù)字圖像處理[M].北京:機(jī)械工業(yè)出版社,2009.

        [10]馬駟良,馬洪波,董險(xiǎn)峰.數(shù)字圖像的一種快速細(xì)化方法[J].吉林大學(xué)自然科學(xué)學(xué)報(bào),2001(4):17-19.

        [11]芮挺,沈春林,丁健,等.基于主分量分析的手寫數(shù)字字符識(shí)別[J].小型微型計(jì)算機(jī)系統(tǒng),2005,26(2):289-293.

        CHEN Junsheng

        School of Mechanical Engineering,Ningxia University,Yinchuan 750021,China

        Because of its large differences in writing style,context-independency and high recognition accuracy requirement, free handwritten digital identification is still a very difficult problem.Analyzing the characteristic of handwritten digits,this paper proposes a new handwritten digital identification method based on combining structural features.Given a handwritten digit,a variety of structural features of the digit including end points,bifurcation points,horizontal lines and so on are identified automatically and robustly by a proposed extended structural features identification algorithm,and a decision tree based on those structural features is constructed to support automatic recognition of the handwritten digit.Experimental result demonstrates that the proposed method is superior to other general methods in recognition rate and robustness.

        handwritten digital identification;combining structural feature;decision trees;pattern recognition

        自由手寫體因其書寫風(fēng)格差異大、上下文無關(guān)及識(shí)別準(zhǔn)確度要求高等原因?qū)е缕渥R(shí)別難度大的問題。針對(duì)手寫體數(shù)字識(shí)別的特點(diǎn)及要求,提出一種新的基于組合結(jié)構(gòu)特征的自由手寫體數(shù)字識(shí)別算法。通過擴(kuò)展的字符結(jié)構(gòu)特征識(shí)別算法自動(dòng)、魯棒地提取手寫體數(shù)字字符端點(diǎn)、分叉點(diǎn)、橫線等多種結(jié)構(gòu)特征,并組合應(yīng)用這些結(jié)構(gòu)特征構(gòu)造決策樹完成手寫體字符的自動(dòng)識(shí)別。實(shí)驗(yàn)結(jié)果表明基于組合結(jié)構(gòu)特征的自由手寫體數(shù)字識(shí)別算法的魯棒性和識(shí)別率明顯優(yōu)于傳統(tǒng)方法。

        手寫體數(shù)字識(shí)別;組合結(jié)構(gòu)特征;決策樹;模式識(shí)別

        A

        TP391

        10.3778/j.issn.1002-8331.1109-0092

        CHEN Junsheng.Research on combining structural features based free handwritten digital identification algorithm. Computer Engineering and Applications,2013,49(5):179-184.

        陳軍勝(1969—),男,副教授,主要從事隨機(jī)分析研究。E-mail:chenjs@nxu.edu.cn

        2011-09-06

        2011-11-28

        1002-8331(2013)05-0179-06

        CNKI出版日期:2012-01-16 http://www.cnki.net/kcms/detail/11.2127.TP.20120116.0928.062.html

        猜你喜歡
        手寫體交叉點(diǎn)結(jié)構(gòu)特征
        哐當(dāng)(外一首)
        哐當(dāng)(外一首)
        基于大數(shù)據(jù)下的手寫體識(shí)別的設(shè)計(jì)與研發(fā)
        披著書法外衣的手寫體
        中國篆刻(2019年6期)2019-12-08 15:56:23
        圍棋棋盤的交叉點(diǎn)
        特殊環(huán)境下雙駝峰的肺組織結(jié)構(gòu)特征
        基于高中生命科學(xué)知識(shí)交叉點(diǎn)的教學(xué)方法研究
        2012年冬季南海西北部營養(yǎng)鹽分布及結(jié)構(gòu)特征
        區(qū)域重力異常值的交叉點(diǎn)平差實(shí)例分析
        紐結(jié)的(m,n)-變換
        亚洲免费精品一区二区| 乌克兰少妇xxxx做受6| 中文亚洲爆乳av无码专区 | 亚洲av区一区二区三区| 丰满人妻久久中文字幕| 国产精品爽黄69天堂a| 97久久精品人人妻人人| 国产美女高潮流白浆免费观看| 国产白色视频在线观看| 人妻蜜桃日产一本久道综合在线| 国产精品乱码人妻一区二区三区 | 无遮无挡爽爽免费视频| 亚洲AV无码一区二区三区性色学| 久久夜色精品国产三级| 亚洲一区二区三区在线最新| 波多野结衣不打码视频| 国产精品国产三级国产av′| 国产成人精品免费视频大全| 国产区一区二区三区性色| 久久天天躁夜夜躁狠狠| 一道久在线无码加勒比| 无码久久精品蜜桃| 久久精品中文字幕有码| 人人妻人人狠人人爽天天综合网| 日韩亚洲中字无码一区二区三区| 亚洲是图一区二区视频| 中文字幕乱码亚洲美女精品一区| 91九色人妻精品一区二区三区| 人妻在卧室被老板疯狂进入| 国产乱理伦片在线观看| AV无码专区亚洲AVL在线观看| 日本免费一区二区在线看片| 免费va国产高清大片在线| 欧美整片第一页| av男人的天堂手机免费网站 | 边添小泬边狠狠躁视频| 亚洲国产成人久久一区| 亚欧同人精品天堂| 精彩亚洲一区二区三区| 国产精品无码久久久久成人影院| 国产精品爆乳在线播放|