亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Tesseract視覺耦合支持向量機(jī)的字符識別算法

        2016-12-15 07:27:56錢偉強(qiáng)
        系統(tǒng)仿真技術(shù) 2016年3期
        關(guān)鍵詞:字符識別字符特征向量

        錢偉強(qiáng)

        (陜西交通職業(yè)技術(shù)學(xué)院,陜西 西安 710018)

        ?

        Tesseract視覺耦合支持向量機(jī)的字符識別算法

        錢偉強(qiáng)

        (陜西交通職業(yè)技術(shù)學(xué)院,陜西 西安 710018)

        為了解決當(dāng)前字符識別算法嚴(yán)重依賴固定匹配模板,使其難以識別形態(tài)多變的手寫字符的問題,本文提出了Tesseract視覺耦合支持向量機(jī)的字符識別算法。首先,通過開源視覺庫Tesseract自帶圖像預(yù)處理工具,對字符圖像進(jìn)行邊緣檢測處理,提取字符的邊緣特征;再通過訓(xùn)練工具cowboxer,快速訓(xùn)練出字符特征文件,通過識別函數(shù)與定位函數(shù),準(zhǔn)確完成字符的初步識別。然后,引入支持向量機(jī),通過訓(xùn)練字符特征向量,開發(fā)訓(xùn)練字庫,對初步識別中的遺漏目標(biāo)完成字符的補(bǔ)償識別,有效確保字符的識別正確率。實(shí)驗(yàn)結(jié)果顯示:與當(dāng)前識別算法相比,本文算法的識別精度與抗干擾性更高。

        字符識別; 支持向量機(jī); Tesseract視覺; 特征向量

        1 引 言

        字符識別廣泛應(yīng)用于各行業(yè),如工業(yè)制造、物聯(lián)網(wǎng)、智能監(jiān)控和智能教育,往往作為一個(gè)核心模塊,決定產(chǎn)品或者系統(tǒng)的競爭力[1-2]。字符識別是一個(gè)集圖像處理、機(jī)器視覺、模式識別的綜合性課題,也是實(shí)現(xiàn)人工智能化,提高人們生活質(zhì)量的重要基石之一[3]。以往國內(nèi)很多廠家推出的字符識別產(chǎn)品往往具有兩大問題:基于商業(yè)軟件開發(fā)的系統(tǒng),如VisionPro、Halcon和Matrix等,具有識別精度高和抗干擾的優(yōu)點(diǎn),但是商業(yè)軟件本身價(jià)格昂貴,且后期牽涉版權(quán)問題,導(dǎo)致產(chǎn)品推廣困難?;谧灾鏖_發(fā)的系統(tǒng),成本低且推廣容易,但是開發(fā)周期長,很難適應(yīng)快速變化的市場需求[4-5]。因此,本文提出基于開源軟件庫tesseract與自主開發(fā)相互結(jié)合的系統(tǒng)架構(gòu),既保證開發(fā)周期,有保證算法有效性。

        在算法研究方面,國內(nèi)研究人員已經(jīng)將圖像處理與模式識別技術(shù)引入到字符識別中,對其展開研究。如支馨悅[5]提出了基于基于安卓手機(jī)的液晶屏字符識別系統(tǒng),利用圖像的預(yù)處理以及霍夫變換,對圖像傾斜角進(jìn)行測量,同時(shí)矯正傾斜角度;另一方面,使用直方圖將數(shù)字字符進(jìn)行一定程度上的分割,并用網(wǎng)格法對字符的特殊值進(jìn)行提取,最后利用三層BP神經(jīng)網(wǎng)絡(luò)識別液晶屏所顯示字符。但是,其中神經(jīng)網(wǎng)絡(luò)技術(shù)依靠大量的字符樣本信息,在字符樣本不足尤其是手寫字符時(shí),往往影響了識別精度。周嘯[6]提出了鋼鐵物流鋼板字符識別系統(tǒng),對鋼鐵物流生產(chǎn)線上鋼板字符的特點(diǎn)進(jìn)行研究和分析,并對字符圖像的預(yù)處理和模板匹配算法進(jìn)行簡單介紹,提出使用模板匹配字符識別算法來識別鋼板字符,并在簡單模板匹配的基礎(chǔ)上提出一種改進(jìn)的模板匹配算法,最后達(dá)到字符識別目的。然而,這種技術(shù)依賴固定模板,在手寫字符特征多變的情況下,往往不能區(qū)分字符,導(dǎo)致識別失敗。

        對此,為了提高字符識別算法的精度,使其對手寫字符識別時(shí),仍然能夠精確識別出字符信息。本文提出了基于tesseract與支持向量機(jī)的字符識別算法。先設(shè)計(jì)基于tesseract的快速訓(xùn)練與識別算子,完成一次識別。然后基于支持向量機(jī),構(gòu)建字符特征向量與樣本特征庫。最后,編程實(shí)現(xiàn)整個(gè)系統(tǒng),測試了本文字符識別系統(tǒng)的精度與抗干擾性。

        2 本文字符識別算法

        本文算法流程見圖1。該算法首先采集字符圖像至系統(tǒng)內(nèi)存,隨后基于tesseract開源庫自帶的圖像處理類ImageHelper,對圖像進(jìn)行預(yù)處理,包括灰度化、邊緣檢測。然后提取每個(gè)字符的特征,包括面積、周長、形狀矩、重心和灰度標(biāo)準(zhǔn)差,構(gòu)建特征向量。利用tesseract開源庫的訓(xùn)練工具cowboxer,完成快速訓(xùn)練碼,包括box文件生成、字體特征文件生成、字符集特征文件生成和訓(xùn)練文件合并。利用支持向量機(jī)(簡稱SVN,Support Vector Machine)原理對特征向量,進(jìn)行樣本訓(xùn)練,以有限的樣本信息,在模型復(fù)雜性與學(xué)習(xí)能力間取最佳折衷,完成字符識別。兩種識別模式并行進(jìn)行,在不影響系統(tǒng)效率的前提下,提高識別正確率。字符圖像如圖2所示,本文識別系統(tǒng)針對字母與中文字符。

        圖1 本文機(jī)制架構(gòu)Fig.1 Mechanism framework of this paper

        2.1 基于Tesseract的快速識別算子

        Tesseract開源字符識別庫,屬于Google公司開源項(xiàng)目,可以支持五大平臺(Windows、Linux、Mac、Android和Iphone),支持多種文字(包括中文和英文)的識別,本文算法使用的版本是3.02。首先基于tesseract自帶的調(diào)整行為軟件cowboxer,對訓(xùn)練字符樣本,同時(shí)融合tesseract已經(jīng)訓(xùn)練好的字符樣本。

        具體步驟:

        (1) 基于tesseract開源庫自帶的圖像處理類ImageHelper對待識別圖像(圖2)進(jìn)行灰度化,如圖3所示,減小計(jì)算量,增加字符圖像對比度。

        圖2 待識別的字符Fig.2 Character to be recognized

        圖3 灰度濾波結(jié)果Fig.3 Gray filtering result

        (2) ImageHelper邊緣檢測圖3,得到包含字符邊緣的圖像,提取字符特征(面積、周長、形狀矩、重心和灰度標(biāo)準(zhǔn)差)如圖4所示。

        圖4 邊緣檢測結(jié)果Fig.4 Edge detection results

        (3) 再將樣本圖像格式轉(zhuǎn)換為tif格式。

        (4) 利用cowboxer生成box文件,進(jìn)行box修正,即對字符對應(yīng)的信息進(jìn)行手動(dòng)修正,即監(jiān)督學(xué)習(xí),生成的box文件與tif文件存于同一目錄。

        (5) 對逐個(gè)字符進(jìn)行(1)-(4)處理,建立字符特征文件,包含文字各種信息(加粗、斜體、字體等),最后合并訓(xùn)練文件,完成基于tesseracter訓(xùn)練。

        (6) 基于開源識別函數(shù)處理待識別圖像,如Emgu.CV.OCR.Tesseract.Charactor[]charactors = ocr.GetCharactors(),函數(shù)返回字符信息,處理結(jié)果如圖5所示,可見識別正確。

        至此完成一次識別,識別流程圖如圖6所示。

        2.2 基于支持向量機(jī)的精準(zhǔn)識別算子

        完成tesseracter識別,為了進(jìn)一步確保字符識別正確性,本文引入自主開發(fā)的支持向量機(jī)識別技術(shù)。支持向量機(jī)起源于統(tǒng)計(jì)學(xué)、VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理,在小樣本、非線性和高維模式下,具有很高的識別效率和精度[7-8]。因此,本文利用支持向量機(jī),對提取出的字符特征(面積、周長、形狀矩、重心和灰度標(biāo)準(zhǔn)差)進(jìn)行訓(xùn)練,構(gòu)建樣本庫,建立支持向量機(jī)字符識別機(jī)制。

        圖5 tesseract識別結(jié)果Fig.5 reorganization result based on tesseract

        圖6 tesseract識別流程圖Fig.6 reorganization flow chartof tesseract

        首先,建立映射模型函數(shù),將特征數(shù)據(jù)映射到分類結(jié)果:

        (1)

        式中:x為特征值,l為特征值范圍,f(x)為分類結(jié)果即字符信息,w,b為模型值,通過多組特征信息值,建立方程式,求解得w,b,得到完整的模型映射方程。

        為了增加分類識別精度,本文算法增加特征(面積、周長、形狀矩、重心和灰度標(biāo)準(zhǔn)差),構(gòu)建特征向量,將式中特征值x替換為特征向量X,求對應(yīng)的模型向量W,B,如下式所示:

        (2)

        式中:X為特征值,l為特征值范圍,f(X)為分類結(jié)果即字符信息,W,B為模型向量值。

        可見,本文算法不僅考慮低維訓(xùn)練,同時(shí)考慮高維馴良,基于支持向量機(jī)最小風(fēng)險(xiǎn)原則,兼顧低維與高維最小風(fēng)險(xiǎn),推導(dǎo)決策函數(shù)如下式所示:

        (3)

        式中:h(X,x)代表決策值,w,b為模型值,W,B為模型向量值,sgn代表標(biāo)準(zhǔn)核處理,即去除數(shù)值小數(shù)部分。

        由于支持向量機(jī)原理[9-10]充分考慮最小風(fēng)險(xiǎn)原則和高低維特征向量,計(jì)算模型向量值,故本文構(gòu)建了特征向量樣本庫和標(biāo)準(zhǔn)樣本特征庫。本文算法支持SVN數(shù)據(jù)采集UI,如圖7所示,可采集訓(xùn)練特征向量(面積、周長、形狀矩、重心和灰度標(biāo)準(zhǔn)差)。基于支持向量機(jī)訓(xùn)練字庫后,對圖2進(jìn)行識別,結(jié)果如圖8所示,可見本文算法的支持向量機(jī)字符識別準(zhǔn)確。如圖9所示為支持向量機(jī)字符識別流程圖。

        3 實(shí)驗(yàn)與討論

        為了體現(xiàn)本文算法的優(yōu)勢,將當(dāng)前字符識別性能較好的技術(shù)-文獻(xiàn)[5]、文獻(xiàn)[6]設(shè)為對照組?;赩S2012,C#語言開發(fā)實(shí)現(xiàn)算法的是被功能,部分實(shí)驗(yàn)參數(shù)設(shè)置為:邊緣灰度連接值(68)、邊緣灰度分離值(138)、模型參數(shù)W([34,18,57,28,56])、B([214,318,527,218,156])。

        圖7 SVN數(shù)據(jù)訓(xùn)練Fig.7 SVN data training

        圖8 SVN識別效果圖Fig.8 SVN recognition result

        圖9 svn識別流程圖Fig.9 Svn identification flow chart

        以圖10為識別對象,其包含多個(gè)中文字符待識別。本文采用tesseract開源庫的HelpImage圖像處理類,邊緣檢測圖10,得圖11,可見準(zhǔn)確得到字符邊緣,作為后續(xù)識別圖像。然后利用基于前面介紹的tesseract與支持向量機(jī)訓(xùn)練與識別機(jī)制,實(shí)現(xiàn)字符識別,如圖12所示,在雙重識別機(jī)制的確保下,可見本系統(tǒng)識別準(zhǔn)確。

        而利用對照組文獻(xiàn)[5]技術(shù)處理圖10時(shí),由于神經(jīng)網(wǎng)絡(luò)技術(shù)依靠大量的字符樣本信息,在字符樣本不足尤其是手寫字符時(shí),往往影響了識別精度,如圖13所示,存在字符識別錯(cuò)誤。而文獻(xiàn)[6]技術(shù)處理*時(shí),這種技術(shù)依賴固定模板,在手寫字符特征多變的情況下,往往不能區(qū)分字符,導(dǎo)致識別失敗,如圖14所示,存在字符誤識別。

        圖10 原圖Fig.10 Initial image

        圖11 tesseract邊緣檢測結(jié)果Fig.11 edge detection results based on tesseract

        圖12 本文識別結(jié)果Fig.12 Recognition results of the algorithm

        圖13 文獻(xiàn)[5]的識別結(jié)果Fig.13 Recognition results of reference[5]

        4 結(jié) 論

        為了解決手寫字符形式多變影響字符識別精度的問題,本文設(shè)計(jì)了基于tesseract開源庫與支持向量機(jī)的字符識別系統(tǒng),實(shí)現(xiàn)對手寫字符圖像的邊緣檢測、特征提取、tesseract自建庫訓(xùn)練、標(biāo)準(zhǔn)樣本庫建立、特征向量建立和分類器決策函數(shù)建立。實(shí)驗(yàn)結(jié)果表明:與當(dāng)前字符識別技術(shù)相比,在面對存在樣式多變的手寫字符識別需求下,本文方法具有更好的精度和抗干擾性,為手寫字符準(zhǔn)確識別提供了技術(shù)保障。

        圖14 文獻(xiàn)[6]的識別結(jié)果Fig.14 Recognition results of reference[6]

        [1] ZHOU Mingke,ZHANG Xuyao,YIN Fei.Discriminative quadratic feature learning for handwritten Chinese character recognition[J].Pattern Recognition,2016,49(3):7-18.

        [2] 賈文其.基于棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)的車牌字符識別[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,20(3):571-572.

        JIA Wenqi.Computer engineering and design,the license plate character recognition[J].stack noise self coding based on neural network 2016,20(3):571-572.

        [3] Hai Guo,Jingying Zhao.Research on Feature Extraction for Character Recognition of NaXi Pictograph[J].Journal of Computers,2011,6(5):947-954.

        [4] A.Al-Marakeby,F.Kimura,M.Zaki.Design of an Embedded Arabic Optical Character Recognition[J].Journal of Signal Processing Systems,2013,70(3):249-258.

        [5] 支馨悅.基于安卓手機(jī)的液晶屏數(shù)字識別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].自動(dòng)化儀表,2016,12(34):218-225.

        ZHI Xinyue.Design and implementation of digital recognition system for LCD screen based on Android mobile phone[J].automation instrument,2016,12(34):218-225.[6] 周嘯.鋼鐵物流鋼板字符識別的研究[J].工業(yè)控制計(jì)算機(jī),2015,21(21):283-287.

        ZHOU Xiao.Steel logistics steel plate character recognition research[J].industrial control computer,2015,21(21):283-287.

        [7] 丁世飛,齊丙娟,譚紅艷.支持向量機(jī)理論與算法研究綜述[J].電子科技大學(xué)學(xué)報(bào),2011,40(1):2-10.

        DING Shifei,QI Bingjuan,TAN Hongyan.Review of theory and algorithm of support vector machine[J].Journal of University of Electronic Science and technology,2011,40(1):2-10.

        [8] 萬鵬,王紅軍,徐小力.局部切空間排列和支持向量機(jī)的故障診斷模型[J].儀器儀表學(xué)報(bào),2012,33(12):2789-2795.

        WAN Peng,WANG Hongjun,XU Xiaoli.Fault diagnosis model of local tangent space alignment and support vector machine[J].Journal of instrumentation,2012,33(12):2789-2795.

        [9] 何苑,郝夢巖,譚紅葉.基于最小風(fēng)險(xiǎn)貝葉斯的垃圾博客識別算法研究[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,37(1):42-47.

        HE Yuan,HAO Mengyan,TAN Hongye.Research on spam blog recognition algorithm based on minimum risk Bayes[J].Journal of Shanxi University(NATURAL SCIENCE EDITION),2015,37(1):42-47.

        [10] Gonzalo Acua,Cristian Ramirez,Millaray Curilem.Software sensors for biomass concentration in a SSC process using artificial neural networks and support vector machine[J].Bioprocess and Biosystems Engineering,2014,37(1):27-36.

        Character Recognition Algorithm Based on Tesseract and Support Vector Machine

        QIAN Weiqiang

        (Shanxi College of Communication Technology,Xi’an 710018,China)

        In order to solve the defect of difficult recognizing the morphological changing handwritten characters induced by relying heavily on the fixed template in current character recognition algorithm,the character recognition algorithm based on Tesseract visual coupling support vector machine was proposed in this paper.First of all,the edge feature was extracted by detecting the character image edge based on open source vision library Tesseract comes with image preprocessing tool; then accurate recognition of characters was finished by identifying function and the position function based on training tool cowboxer to fast train out of character feature files.the compensation recognition of the initial recognition with the omission of the target was finished by training the character feature to development of character training based on support vector machine.Experimental results show that this algorithm had higher identification precision and anti-jamming.

        character recognition; support vector machine; tesseract vision; feature vector

        錢偉強(qiáng) 男(1971-),河北行唐人,講師,碩士,主要研究方向?yàn)槟繕?biāo)識別、圖像處理、數(shù)據(jù)庫。

        TP 391

        A

        猜你喜歡
        字符識別字符特征向量
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        尋找更強(qiáng)的字符映射管理器
        克羅內(nèi)克積的特征向量
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        消失的殖民村莊和神秘字符
        一類特殊矩陣特征向量的求法
        一種改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識別
        EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        儀表字符識別中的圖像處理算法研究
        久久国产女同一区二区| 久久天天躁狠狠躁夜夜96流白浆| 国产在线精品一区二区在线看| 国产熟女自拍视频网站| 亚洲精品偷拍自综合网| 成年女人vr免费视频| 亚洲av有码在线天堂| 国产极品视觉盛宴在线观看| 国产一区二区资源在线观看| 亚洲av成人无码一二三在线观看| 18禁无遮挡无码网站免费| 91久久国产综合精品| av一区二区三区观看| 国产精品爽爽ⅴa在线观看| 国产999精品久久久久久| 色哟哟av网站在线观看| 国产精品熟女视频一区二区三区| 精品国产这么小也不放过| 四虎成人精品无码永久在线| 少妇被粗大猛进进出出| 中文字幕丰满人妻av| 巨胸喷奶水www视频网站| 亚洲AV无码国产成人久久强迫| 国产亚洲精品一区二区在线播放| 无遮挡激情视频国产在线观看| 九九99久久精品国产 | 国产成人福利在线视频不卡| 精品久久一品二品三品| 国产老熟女网站| 亚洲第一网站免费视频| 亚洲区一区二区三区四| 99re66在线观看精品免费| 300部国产真实乱| 欧美亚洲国产丝袜在线| 国产婷婷成人久久av免费| 粗大猛烈进出高潮视频| 538任你爽精品视频国产| av一区二区三区观看| 正在播放老肥熟妇露脸| 视频一区欧美| 国产激情视频高清在线免费观看 |