亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

印刷體漢字識(shí)別處理技術(shù)綜述

2014-10-21 19:57:17柴晨陽(yáng)

計(jì)算機(jī)光盤軟件與應(yīng)用 2014年24期

摘要：中國(guó)漢字博大精深，擁有著數(shù)千年的文化背景與歷史積淀，是世界上使用人數(shù)最多的文字。漢字與其他文字不同，它具有自己的拼音化系統(tǒng)和獨(dú)立文字結(jié)構(gòu)，所以在目前以計(jì)算機(jī)信息技術(shù)化為主體的社會(huì)里，對(duì)印刷體漢字信息的處理也就成了信息化發(fā)展的關(guān)鍵。印刷體漢字識(shí)別后處理技術(shù)OCR的出現(xiàn)就解決了現(xiàn)如今海量文字信息所帶來(lái)的處理難題，它提高了印刷體文字的處理效率，也推動(dòng)了信息社會(huì)的不斷發(fā)展。

關(guān)鍵詞：漢字識(shí)別；OCR；后處理；語(yǔ)言模型；信息社會(huì)

中圖分類號(hào)：TP391.43

由于中文漢字系統(tǒng)比較復(fù)雜，涉及到幾百種漢字輸入編碼方法和語(yǔ)言模型。所以中國(guó)人在處理漢字輸入和識(shí)別方面面臨多種難題，比如音碼或字碼重碼率過(guò)高、輸入效率低、學(xué)習(xí)識(shí)別困難、形碼不好掌握等等。而對(duì)于一些沒(méi)有標(biāo)準(zhǔn)鍵盤的通信設(shè)備來(lái)說(shuō)，由于漢字信息錄入速度慢，更是影響了正常的工作效率。所以為了能夠彌補(bǔ)這些不足，漢字識(shí)別技術(shù)應(yīng)運(yùn)而生。

1 印刷體漢字的識(shí)別原理

漢字識(shí)別也是模式識(shí)別領(lǐng)域中所研究的科學(xué)。漢字識(shí)別技術(shù)包羅萬(wàn)象，它涵蓋了模式識(shí)別、圖像處理、人工智能、模糊數(shù)學(xué)、組合數(shù)學(xué)和心理學(xué)等等學(xué)科，是一門綜合性很強(qiáng)的信息處理技術(shù)。漢字識(shí)別技術(shù)簡(jiǎn)單說(shuō)就是為文字的識(shí)別、分類和讀取而存在的，傳統(tǒng)的漢字識(shí)別技術(shù)靠對(duì)漢字文字的特征識(shí)別和匹配來(lái)得以實(shí)現(xiàn)，但是由于漢字結(jié)構(gòu)復(fù)雜且組合較多，所以會(huì)存在一定的辨識(shí)困難。在大量文字需要識(shí)別輸入的情況下，還可能出現(xiàn)漏字的現(xiàn)象，而重新檢查也是很麻煩的。

目前的漢字識(shí)別技術(shù)依照漢字輸出形式的不同主要分為兩類：印刷體漢字識(shí)別與手寫(xiě)體漢字識(shí)別。其中印刷體漢字識(shí)別又可分為單體印刷體漢字識(shí)別和多體印刷體漢字識(shí)別。

印刷體漢字識(shí)別的原理就是將印刷在紙張上的漢字，利用掃描儀或者數(shù)碼相機(jī)等光學(xué)拍攝手段輸入并得到二值圖像和灰度圖像，將這些圖像通過(guò)識(shí)別模式計(jì)算方法對(duì)圖像中的漢字進(jìn)行圖像處理分析，從而提取漢字的特征，再將這些提取出來(lái)的字體特征與標(biāo)準(zhǔn)漢字進(jìn)行匹配和判定，最終識(shí)別漢字。具體來(lái)說(shuō)，印刷體漢字的識(shí)別技術(shù)主要分為三個(gè)流程。

1.1 預(yù)處理。預(yù)處理是指利用光學(xué)設(shè)備作為漢字的輸入設(shè)備。但是由于光學(xué)設(shè)備在拍照時(shí)容易受到周圍環(huán)境光的影響，所以拍攝出來(lái)的圖像可能在明暗程度和色彩上出現(xiàn)偏差，不利于接下來(lái)的漢字識(shí)別。為了解決這個(gè)困擾，在識(shí)別處理原始漢字圖像之前，應(yīng)該盡量避免周圍環(huán)境因素的干擾，這就需要對(duì)原始圖像進(jìn)行預(yù)處理。預(yù)處理的主要手段有二值化、降噪、傾斜校正、平滑、歸一化等等。以上都是能提高光學(xué)設(shè)備對(duì)原始圖像輸出質(zhì)量的有效方法。

1.2 識(shí)別。印刷體漢字的識(shí)別過(guò)程是整個(gè)技術(shù)的核心部分。它利用自己獨(dú)有的計(jì)算系統(tǒng)對(duì)原始漢字圖像進(jìn)行計(jì)算。在經(jīng)過(guò)預(yù)處理后，我們會(huì)得到原始圖像的二值圖像。識(shí)別的對(duì)象就是二值圖像，在對(duì)二值圖像進(jìn)行計(jì)算分析和漢字特征提取后再與標(biāo)準(zhǔn)漢字特征進(jìn)行匹配，印刷體漢字的識(shí)別就基本完成了。

1.3 后處理。為了進(jìn)一步提高檢出漢字的識(shí)別率和適應(yīng)性，降低系統(tǒng)失誤率。后處理技術(shù)就是對(duì)識(shí)別后的文章進(jìn)行再檢查處理。通過(guò)文章的上下文，系統(tǒng)會(huì)識(shí)別出一些識(shí)別過(guò)程中遺漏的誤識(shí)字和拒識(shí)字。最后保證高正確率。

2 后處理

2.1 后處理概述。本文主要分析的就是印刷體漢字識(shí)別流程的最后一項(xiàng)——后處理技術(shù)。簡(jiǎn)單講，后處理技術(shù)就是對(duì)識(shí)別后的漢字文本進(jìn)行進(jìn)一步的再處理，最后檢索并糾正誤識(shí)字和拒識(shí)字。后處理解決了傳統(tǒng)識(shí)別系統(tǒng)對(duì)文字進(jìn)行逐一修改識(shí)別的繁雜工序，也可以說(shuō)后處理是傳統(tǒng)識(shí)別技術(shù)的一種進(jìn)化與完善。

漢字的后處理方法主要可以分為手工處理、計(jì)算機(jī)自動(dòng)處理和交互式處理。其中手工處理較為傳統(tǒng)，它是依靠人自身對(duì)文本的再編輯工作，將文本中出現(xiàn)的誤識(shí)字進(jìn)行糾正；交互式處理稍微先進(jìn)一些，它是將識(shí)別后所形成的文本交由處理程序進(jìn)行再識(shí)別，處理程序?yàn)槲谋咎峁┮恍┖蜻x方案，通過(guò)用戶與計(jì)算機(jī)的交互過(guò)程而進(jìn)行的文字識(shí)別糾錯(cuò)工作；計(jì)算機(jī)自動(dòng)處理最為先進(jìn)，它僅通過(guò)一個(gè)設(shè)計(jì)好的自動(dòng)處理程序，就能對(duì)文本中可能出現(xiàn)的錯(cuò)誤進(jìn)行自動(dòng)的識(shí)別和糾正。

2.2 具體的后處理方法。（1）詞匹配。后處理方法從簡(jiǎn)單的詞匹配開(kāi)始，它是利用文本中上下文的匹配關(guān)系和詞的使用頻率來(lái)進(jìn)行識(shí)別糾錯(cuò)的一種方式。一旦處理程序檢索到文中的拒識(shí)字，就會(huì)為它提供一個(gè)候選字以便進(jìn)行調(diào)整糾正。后處理能夠做到這些，是因?yàn)樵谒南到y(tǒng)程序中有一個(gè)漢語(yǔ)詞條的數(shù)據(jù)庫(kù)。在這個(gè)數(shù)據(jù)庫(kù)中具有完善的詞條存儲(chǔ)和維護(hù)功能，它能夠應(yīng)對(duì)和反映文本中詞語(yǔ)文字的不同使用頻率，以最快的速度來(lái)進(jìn)行反應(yīng)從而為文本調(diào)出需要的詞條，這大大提高了漢字后處理的工作效率。（2）語(yǔ)義分析匹配。漢語(yǔ)不同于其他語(yǔ)言，它的語(yǔ)義深?yuàn)W且語(yǔ)言法則復(fù)雜。每個(gè)人對(duì)一句話可能都有不同的理解。所以為了能夠盡可能的理解文本中語(yǔ)言的內(nèi)涵，后處理有一套內(nèi)容量龐大的語(yǔ)言組合法則信息庫(kù)，它主要為文本的語(yǔ)義和句法的識(shí)別糾正給出建議，利用詞法和語(yǔ)法的分析來(lái)進(jìn)行適合的匹配工作。目前依靠語(yǔ)法及語(yǔ)義的分析來(lái)識(shí)別漢字的系統(tǒng)是相對(duì)比較智能的，它進(jìn)一步的提高了文本糾正的精度，更加人性化。（3）人工神經(jīng)元網(wǎng)絡(luò)。人工神經(jīng)元網(wǎng)絡(luò)是美國(guó)在上世紀(jì)40年代提出的一種較為智能化的漢字識(shí)別后處理技術(shù)，在80年代發(fā)明了相關(guān)語(yǔ)言模型，是一種非線性的文字識(shí)別網(wǎng)絡(luò)系統(tǒng)。人工神經(jīng)元網(wǎng)絡(luò)為漢字的識(shí)別后處理提供了兩種方案：第一種就是將識(shí)別過(guò)程和后處理過(guò)程剝離開(kāi)來(lái)，也就是雙層糾錯(cuò)。首先通過(guò)網(wǎng)絡(luò)輸入即時(shí)糾正一些初級(jí)錯(cuò)誤，再由網(wǎng)絡(luò)后處理來(lái)糾正一些前期不能確定的漢字或拒識(shí)字；相比于分開(kāi)處理，另一種方法是前期初識(shí)別與后期網(wǎng)絡(luò)識(shí)別相結(jié)合的綜合性處理，初期在發(fā)現(xiàn)待識(shí)別字時(shí)就立刻通過(guò)網(wǎng)絡(luò)進(jìn)行檢索和識(shí)別，以雙線并行的方式快速找出符合漢語(yǔ)語(yǔ)法和語(yǔ)義的相關(guān)答案，最終確定待識(shí)別的漢字。這種方法更加高效率和實(shí)用。

3 OCR

OCR（Optical Character Recognition）簡(jiǎn)單地說(shuō)，對(duì)其進(jìn)行簡(jiǎn)單定義，即為光學(xué)字符自動(dòng)識(shí)別技術(shù)。隨著我國(guó)經(jīng)濟(jì)水平的不斷進(jìn)步，我國(guó)各行各業(yè)都得到了飛速發(fā)展，傳媒行業(yè)的發(fā)展推動(dòng)了印刷識(shí)別技術(shù)的進(jìn)步。就目前而言，OCR技術(shù)被廣泛的應(yīng)用于我國(guó)傳媒印刷事業(yè)，在此之余，對(duì)于稅務(wù)票據(jù)、金融票據(jù)等等各方面也應(yīng)用到這種技術(shù)。OCR能夠最大程度的確保文字的準(zhǔn)確性，能夠使其信息傳達(dá)更加精準(zhǔn)。OCR技術(shù)中的中心環(huán)節(jié)即為N-gram語(yǔ)言模型。

3.1 N-gram語(yǔ)言模型。N-gram語(yǔ)言模型在OCR技術(shù)應(yīng)用當(dāng)中起到至關(guān)重要的作用，能夠?qū)ζ浜笃谔幚砼c計(jì)算進(jìn)行整理。N-gram語(yǔ)言模型的本身是一種語(yǔ)言文字處理，其能夠?qū)φZ(yǔ)句中的文字、詞組并且還有比較重要的語(yǔ)句進(jìn)行相應(yīng)的處理。

目前，一般的統(tǒng)計(jì)語(yǔ)言模型都會(huì)將文本語(yǔ)句中的概率分解化，將其基本單位的各項(xiàng)條件概率進(jìn)行乘法計(jì)算。

P（s）=P（w1，w2，…Wn）=P（w1|w1，w2，…wi-1）

在此公式中，n是串長(zhǎng)度，s是字符串，wi代表模型的基本單位，這些基本單位多為文本中的字和詞。

N-gram模型就是利用Markov的假設(shè)法，它為了能夠進(jìn)一步解析文本的上下文關(guān)系，認(rèn)為每一個(gè)被預(yù)測(cè)的基本單位的長(zhǎng)度為n-1。

P（wi|w1，w2，…wi-1）=P（wi|wi（n-1），wi（n-2）…wi-1）

n是模型階數(shù)。在文本處理過(guò)程中，N-gram模型是基于語(yǔ)料集而建立的，它所采用的是最大似然估計(jì)法。似然估計(jì)法會(huì)對(duì)文本中的誤識(shí)字進(jìn)行條件概率的估計(jì)。n的數(shù)值越大，則模型的精度就越高。

3.2 基于字節(jié)的語(yǔ)言模型。針對(duì)于一般性的漢字編碼，通常兩個(gè)編碼能夠組成一個(gè)漢字，但是通過(guò)對(duì)其不斷的深入研究分析發(fā)現(xiàn)，如果將語(yǔ)言模型單位一個(gè)單位編碼來(lái)進(jìn)行表示，其能夠最大程度的將語(yǔ)言模型簡(jiǎn)易化，減少其復(fù)雜程度。針對(duì)這一問(wèn)題的探究，人們將一個(gè)單位編碼作為語(yǔ)言模型的基本單位。

如果將漢字字串設(shè)定為S1。由于每?jī)蓚€(gè)字節(jié)構(gòu)成一個(gè)漢字，那么它對(duì)應(yīng)的單位編碼串就是S2。這樣就可以建立基于基本編碼的長(zhǎng)度為2和3的模型。

再根據(jù)漢字的編碼規(guī)律，去掉漢字編碼的“無(wú)效”漢字標(biāo)識(shí)位，則基于字詞的模型空間稀疏問(wèn)題就會(huì)大幅降低。

3.3 具體試驗(yàn)。本次試驗(yàn)主要是針對(duì)常用詞來(lái)進(jìn)行后期處理與統(tǒng)計(jì)評(píng)估工作。其工作的主要內(nèi)容為，將常用詞本身的漢字等置于語(yǔ)言模型中，對(duì)其進(jìn)行后期處理，進(jìn)行文本評(píng)估識(shí)別工作，確保其準(zhǔn)確性。通過(guò)對(duì)關(guān)鍵詞進(jìn)行OCR技術(shù)的系統(tǒng)識(shí)別工作之后，其后期處理的識(shí)別率得到了較大幅度的提高，具體數(shù)值為96.67%以上。

4 結(jié)束語(yǔ)

印刷體漢字識(shí)別技術(shù)是一項(xiàng)極為復(fù)雜的信息文本處理技術(shù)，特別是后處理技術(shù)難度更大。本文分析了一般性的漢字識(shí)別過(guò)程以及以O(shè)CR為背景的N-gram模型，該方法降低了數(shù)據(jù)處理的復(fù)雜程度、提高了數(shù)據(jù)處理速度，并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的良好性能。

參考文獻(xiàn)：

[1]張宏濤，龍翀，朱小燕等.印刷體漢字識(shí)別后處理方法的研究[J].中文信息學(xué)報(bào)，2009（06）.

[2]聶玖星.印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究[D].大連理工大學(xué)，2008.

[3]李元祥，劉長(zhǎng)松，丁曉青等.一種利用校對(duì)信息的漢字識(shí)別自適應(yīng)后處理方法[J].中文信息學(xué)報(bào)，2001（01）.

[4]梁瑩，肖健，李玥.多引擎印刷體漢字識(shí)別系統(tǒng)研發(fā)[A].廣西計(jì)算機(jī)學(xué)會(huì)25周年紀(jì)念會(huì)暨2011年學(xué)術(shù)年會(huì)論文集[C]，2011.

[5]萬(wàn)金娥，袁保社.基于字符歸一化雙投影互相關(guān)性匹配識(shí)別算法[J].計(jì)算機(jī)應(yīng)用，2013（03）.

[6]朱程輝，曹敏，王建平. 基于過(guò)程神經(jīng)網(wǎng)絡(luò)的漢字特征提取方法的研究[J].合肥工業(yè)大學(xué)學(xué)報(bào)（自然科學(xué)版），2013（10）.

[7]訾興建，王建平.手寫(xiě)體漢字八形態(tài)編碼識(shí)別方法的研究[J].淮北師范大學(xué)學(xué)報(bào)（自然科學(xué)版），2012（02）.

[8]金連文，徐秉錚.基于多級(jí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的手寫(xiě)體漢字識(shí)別[J].通信學(xué)報(bào)，1997（05）.

[9]王國(guó)胤，施鴻寶.漢字識(shí)別的并行神經(jīng)網(wǎng)絡(luò)方法[J].模式識(shí)別與人工智能，1996（01）.

[10]王建平，金鐵江，邵威.基于過(guò)程神經(jīng)網(wǎng)絡(luò)的手寫(xiě)體漢字識(shí)別方法研究[J].計(jì)算機(jī)應(yīng)用，2009（02）.

作者簡(jiǎn)介：柴晨陽(yáng)（1975.12-），講師，研究生，碩士學(xué)位，研究方向：智能信息處理、會(huì)計(jì)信息化。

作者單位：江西財(cái)經(jīng)大學(xué)會(huì)計(jì)學(xué)院，南昌 330013

基金項(xiàng)目：江西省教育廳青年科學(xué)基金項(xiàng)目（項(xiàng)目編號(hào)：GJJ10121）。