亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于OCR的字符識(shí)別的研究與實(shí)現(xiàn)

        2017-10-09 21:48:08李霄霄
        科技視界 2017年14期

        李霄霄

        【摘 要】本文介紹了漢字OCR的原理、并對(duì)字符識(shí)別作了解釋與研究,提出一種基于OCR識(shí)別的文字識(shí)別方法,在對(duì)文字信息、圖像顯示以及校正過(guò)程提出了自己的算法,對(duì)文字結(jié)構(gòu)及讀寫方法進(jìn)行了分析。試驗(yàn)表明該方法具有很快的計(jì)算速率,透過(guò)試驗(yàn)可以使差錯(cuò)率控制在很低。

        【關(guān)鍵詞】OCR;文字處理;字符識(shí)別

        Research and Implementation of Character Recognition Based on OCR

        【Abstract】This paper introduces the principle of OCR in Chinese characters, and explains and studies the character recognition. It proposes a text recognition method based on OCR recognition. It puts forward its own algorithm for text information, image display and calibration process. And reading and writing methods were analyzed. Experiments show that the method has a very fast calculation rate, through the test can make the error rate is very low.

        【Key words】OCR; Word processing; Character recognition

        0 引言

        印刷體漢字識(shí)別系統(tǒng)由三部分組成:輸入設(shè)備、漢字識(shí)別模塊和計(jì)算機(jī)硬件及軟件。漢字識(shí)別是主要部分,主要步驟為預(yù)處理、提取特征、匹配特征和后處理。本文預(yù)處理包括二值化、平滑去噪和文本行字切分。通過(guò)光電掃描儀,CCD器件等工具將漢字圖像處理成二維圖像信號(hào),以圖片形式顯現(xiàn),再經(jīng)預(yù)處理,特征的提取與匹配及后處理實(shí)現(xiàn)漢字識(shí)別。

        OCR(Optitcal Character Raeder)是光學(xué)字符閱讀機(jī),是一種自動(dòng)讀入文字(手寫體或印刷體)的計(jì)算機(jī)。本文是基于OCR來(lái)做的一種字符識(shí)別的研究,極大降低了字符識(shí)別的錯(cuò)誤率,提高了準(zhǔn)確度。

        1 原理與識(shí)別方法

        漢字OCR是通過(guò)光電輸入設(shè)備使文字內(nèi)容轉(zhuǎn)化成二維點(diǎn)陣信息,再用規(guī)定的識(shí)別法將其轉(zhuǎn)換成漢字。這一套轉(zhuǎn)換工作稱作漢字識(shí)別系統(tǒng)。

        1.1 漢字識(shí)別系統(tǒng)的組成及各模塊的功能

        漢字識(shí)別系統(tǒng)包括漢字圖形輸入設(shè)備、預(yù)處理儀器、識(shí)別儀器和后處理儀器。

        漢字圖形輸入設(shè)備作用是完成文字原稿的輸入,是通過(guò)光電輸入設(shè)備,經(jīng)一定的閥值控制,將原文字轉(zhuǎn)換成為二維點(diǎn)陣圖形。

        預(yù)處理由文稿頁(yè)成分析與理解、字符的分割、歸一化和去干擾組成。通過(guò)分析與理解對(duì)原文字整版面進(jìn)行數(shù)據(jù)分割,分割成圖像塊、文字塊等,理解和標(biāo)注其屬性及連接關(guān)系,準(zhǔn)確分割文字塊,最終分割成單個(gè)漢字圖像,再通過(guò)大小及位置的歸一化,進(jìn)行算法識(shí)別。識(shí)別前還要對(duì)漢字圖像去干擾。

        后處理是有效運(yùn)用詞組和上下文聯(lián)系對(duì)識(shí)別的漢字圖像進(jìn)行糾錯(cuò)。后期處理器還要完成文稿的輸出。

        1.2 漢字識(shí)別方法

        識(shí)別器質(zhì)量越高,識(shí)別系統(tǒng)的性能越好。識(shí)別漢字主要有統(tǒng)計(jì)模式識(shí)別和結(jié)構(gòu)模式識(shí)別。統(tǒng)計(jì)模式識(shí)別:提取待識(shí)別文本的一組特征值,按照統(tǒng)計(jì)函數(shù)進(jìn)行數(shù)值分析,這是有一定準(zhǔn)則的,根據(jù)分析所得結(jié)果確定漢字。此識(shí)別對(duì)單個(gè)漢字的辨認(rèn)率高,但是對(duì)不同字體,尤其是手寫文稿的識(shí)別,效果不太好。結(jié)構(gòu)模式識(shí)別:對(duì)漢字的結(jié)構(gòu)特征及組字的特定規(guī)律進(jìn)行有效提取,然后對(duì)漢字進(jìn)行識(shí)別。結(jié)構(gòu)識(shí)別是把漢字結(jié)構(gòu)當(dāng)作精簡(jiǎn)的集合,即基元。固漢字識(shí)別是將漢字分開成多個(gè)基元的歸總。結(jié)構(gòu)模式適用與書體規(guī)整,結(jié)構(gòu)清晰的印刷體文稿漢字。中國(guó)漢字量很大,但漢字是圖片字符,含有豐富的結(jié)構(gòu)信息,所以比較統(tǒng)計(jì)模式,結(jié)構(gòu)識(shí)別使用更廣。

        1.3 手寫體漢字單字識(shí)別

        手寫體漢字單字識(shí)別主要解決手工輸入漢字的問(wèn)題。雖然手工輸入方法種類很多,但都必須學(xué)習(xí)并記憶漢字拼法(結(jié)構(gòu)碼),記憶量不確定,且容易忘記。若將手寫體識(shí)別技術(shù)運(yùn)行到實(shí)際中,輸入漢字將不成問(wèn)題,因?yàn)椴恍枰谧畛踹M(jìn)行一系列培訓(xùn)和記憶,漢字的輸入就如同平時(shí)手寫一般,簡(jiǎn)單便捷。

        2 字符特征提取系統(tǒng)圖像預(yù)處理

        在字符識(shí)別前有一項(xiàng)重要步驟:字符圖像的預(yù)處理。其主要功能是消除字符圖像中的噪聲,對(duì)字符圖像斷線、粘連現(xiàn)象進(jìn)行修正;運(yùn)用各種歸一化方法,讓變換后圖像更穩(wěn)定,以便于分辨。

        2.1 字符圖像去噪

        字符圖像的噪聲可分為兩類:白色背景下的黑點(diǎn)噪聲和黑色背景中的白色噪聲。對(duì)字符的粘連現(xiàn)象,在進(jìn)行特征提取時(shí)應(yīng)選取對(duì)內(nèi)部結(jié)構(gòu)不敏感的特征,如“外圍輪廓特征”;對(duì)字符的斷線現(xiàn)象,特征提取的時(shí)應(yīng)選取對(duì)筆劃結(jié)構(gòu)不敏感的特征,如“模版匹配”;離散的黑象素噪聲主要對(duì)英文字符歸一化后造成一定偏移,導(dǎo)致識(shí)別失敗,可在歸一化過(guò)程中予以消除。

        2.2 字符圖像歸一化

        對(duì)字符圖像提取特征前需進(jìn)行歸一化處理,有大小歸一化、位置歸一化和筆劃粗細(xì)歸一化。實(shí)際中一般只采用大小和位置歸一化。

        3 字符特征提取

        字符識(shí)別中常用特征有穿越特征、外圍特征、網(wǎng)格特征等。

        3.1 穿越特征

        穿越特征從水平和豎直兩方面計(jì)算結(jié)構(gòu)特征,先計(jì)算水平方向:將32行圖像平分為8個(gè)區(qū)域,每個(gè)區(qū)域包括四行像素。逐一計(jì)算每行中從白像素到黑像素的變化次數(shù),統(tǒng)計(jì)8個(gè)區(qū)域中各行變化次數(shù)的總和即可得到前8維特征,再根據(jù)前8維特征利用公式計(jì)算,將結(jié)果作為第9至16維特征,得到水平方向的前16維特征。在豎直方向統(tǒng)計(jì)計(jì)算得后16維特征,最終構(gòu)成32維穿越特征。endprint

        3.2 外圍特征

        外圍特征在漢字識(shí)別中常作為粗分類特征,反映字符輪廓特征。

        它的提取過(guò)程為:第一將64*64的圖像從四個(gè)方位等分成八份,從圖像四面分別向?qū)γ鎾呙?,假設(shè)從左向右逐一等分的八塊區(qū)域,每個(gè)區(qū)域包括八行像素,計(jì)算各行左邊框與最初字符筆劃遇到的部位所圈成的空白區(qū)域的面積,每個(gè)結(jié)果和該塊全部面積的比值當(dāng)作前八圍外圍特征。同上從其他方面都提取八維特征,最終得到32圍特征。

        3.3 網(wǎng)格特征

        網(wǎng)格特征是基于二值圖像,將64*64的圖像平均分成64個(gè)方塊,每塊大小為8*8,分開計(jì)算每個(gè)方塊的黑象素個(gè)數(shù),用向量作為64維的網(wǎng)格特征。

        4 特征提取系統(tǒng)分類器設(shè)計(jì)

        本文采用模板匹配法,先提取樣本的n維特征,再提取待識(shí)別字符的n維特征,對(duì)照產(chǎn)生結(jié)論。算法采用歐氏距離。即經(jīng)過(guò)計(jì)算待識(shí)別字符的特征向量與模板庫(kù)中提取的特征向量之間的歐氏距離,取模板中與計(jì)算出的歐氏距離最小的作匹配,將匹配字符輸出。

        5 實(shí)驗(yàn)結(jié)果分析

        5.1 實(shí)驗(yàn)環(huán)境

        該算法基于Matlab仿真實(shí)現(xiàn)。實(shí)驗(yàn)過(guò)程中使用字母、單詞、文檔三種,其中有宋體、仿宋等形式。在特征與分類器的交叉試驗(yàn)及特征加權(quán)系數(shù)試驗(yàn)中使用字母樣本,經(jīng)樣本整理,掃描文檔,然后運(yùn)用自動(dòng)收集單詞的程序?qū)⑽臋n中的單詞保存為BMP圖片形式得到,文件名設(shè)置為單詞內(nèi)容的數(shù)字,這有助于在系統(tǒng)性能測(cè)試中測(cè)識(shí)別率。文檔樣本是利用掃描儀掃描英文文檔所得,分辨率為300dp。

        5.2 實(shí)驗(yàn)現(xiàn)象

        matlab仿真實(shí)驗(yàn)?zāi)軌驕?zhǔn)確的讀取BMP圖片中的數(shù)字及字母信息。分析可知當(dāng)輸入手寫體或正常字體的數(shù)字或字母時(shí),該算法都能準(zhǔn)確識(shí)別出字體內(nèi)容,具有較高的精確度,且算法解讀時(shí)間短,比較快捷,適合推廣和應(yīng)用。

        6 結(jié)論

        因?yàn)楝F(xiàn)代有大量的文件和圖像讀取操作,對(duì)字符的識(shí)別主要需考慮它的計(jì)算速度和對(duì)資源的節(jié)省,盡可能使執(zhí)行更快速便捷。本文采用的方法不是對(duì)文件讀取,而是在內(nèi)存數(shù)組中進(jìn)行的;在定位數(shù)組時(shí)采取間接尋址方法,相比查找比較等方法,對(duì)計(jì)算效率有極大提高。另外在顯示圖像方面,也采取了一些策略,例如當(dāng)顯示上一屏圖像時(shí),將下一屏的圖像計(jì)算出并放到內(nèi)存中,所以顯示圖像更迅速。總而與之,本文算法能滿足基本的圖片中文檔信息的讀取并實(shí)現(xiàn)信息方式的轉(zhuǎn)換。

        【參考文獻(xiàn)】

        [1]錢揖麗,鄭家恒.漢語(yǔ)語(yǔ)料詞性標(biāo)注自動(dòng)校對(duì)方法的研究[J].中文信息學(xué)報(bào),2004,(2):30-35.[2].

        [2]駱衛(wèi)華,羅振聲,宮小瑾.中文文本自動(dòng)校對(duì)技術(shù)的研究[J].計(jì)算機(jī)研究與發(fā)展,2004,(1):244-249.

        [3]趙燁,王明磊,李新友.OCR在大數(shù)據(jù)量文檔系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用, 2000,20(增):336-338.

        [4]Alessandro Vinciarelli. A Surveyon Off- line Cursive Word Recognition[J].Pattern Recognition.2002,(35):1433-1446.

        [5]荊濤,王仲.光學(xué)字符識(shí)別技術(shù)與展望[J].計(jì)算機(jī)工程.2003, 29(2):1- 2.

        [責(zé)任編輯:張濤]endprint

        欧美日韩国产免费一区二区三区欧美日韩| 色佬精品免费在线视频| 人人鲁人人莫人人爱精品| 久久精品无码专区免费青青| 传媒在线无码| 美女被搞在线观看一区二区三区| 亚洲中文字幕人妻久久| 疯狂撞击丝袜人妻| 四虎成人精品无码永久在线| 久久深夜中文字幕高清中文| 97人妻精品一区二区三区男同| 国产成本人片无码免费2020| 91亚洲无码在线观看| 又爽又猛又大又湿的视频| 国产精品国产三级国产av中文| 国产97在线 | 亚洲| 国产系列丝袜熟女精品视频| 亚洲黑寡妇黄色一级片| 中文字幕无码乱人伦| 熟女人妻在线视频| 在线视频青青草猎艳自拍69| 中文字幕人妻互换激情| 国产无套粉嫩白浆在线| 国产女合集小岁9三部| 强d乱码中文字幕熟女1000部| 性感女教师在线免费观看| 亚洲av永久精品爱情岛论坛| 国产精品九九九久久九九| 69久久精品亚洲一区二区| 亚洲人成网站在线播放2019| 日韩乱码人妻无码中文字幕视频| 欧美zozo另类人禽交| 国产精品黑丝美腿美臀| 精品久久香蕉国产线看观看亚洲| 免费99视频| 五十路在线中文字幕在线中文字幕| 乱老年女人伦免费视频| 最新亚洲av日韩av二区| 丰满人妻无奈张开双腿av| 国产精品国产三级第一集| 嫖妓丰满肥熟妇在线精品|