摘 要:中國(guó)漢字博大精深,擁有著數(shù)千年的文化背景與歷史積淀,是世界上使用人數(shù)最多的文字。漢字與其他文字不同,它具有自己的拼音化系統(tǒng)和獨(dú)立文字結(jié)構(gòu),所以在目前以計(jì)算機(jī)信息技術(shù)化為主體的社會(huì)里,對(duì)印刷體漢字信息的處理也就成了信息化發(fā)展的關(guān)鍵。印刷體漢字識(shí)別后處理技術(shù)OCR的出現(xiàn)就解決了現(xiàn)如今海量文字信息所帶來(lái)的處理難題,它提高了印刷體文字的處理效率,也推動(dòng)了信息社會(huì)的不斷發(fā)展。
關(guān)鍵詞:漢字識(shí)別;OCR;后處理;語(yǔ)言模型;信息社會(huì)
中圖分類號(hào):TP391.43
由于中文漢字系統(tǒng)比較復(fù)雜,涉及到幾百種漢字輸入編碼方法和語(yǔ)言模型。所以中國(guó)人在處理漢字輸入和識(shí)別方面面臨多種難題,比如音碼或字碼重碼率過(guò)高、輸入效率低、學(xué)習(xí)識(shí)別困難、形碼不好掌握等等。而對(duì)于一些沒(méi)有標(biāo)準(zhǔn)鍵盤的通信設(shè)備來(lái)說(shuō),由于漢字信息錄入速度慢,更是影響了正常的工作效率。所以為了能夠彌補(bǔ)這些不足,漢字識(shí)別技術(shù)應(yīng)運(yùn)而生。
1 印刷體漢字的識(shí)別原理
漢字識(shí)別也是模式識(shí)別領(lǐng)域中所研究的科學(xué)。漢字識(shí)別技術(shù)包羅萬(wàn)象,它涵蓋了模式識(shí)別、圖像處理、人工智能、模糊數(shù)學(xué)、組合數(shù)學(xué)和心理學(xué)等等學(xué)科,是一門綜合性很強(qiáng)的信息處理技術(shù)。漢字識(shí)別技術(shù)簡(jiǎn)單說(shuō)就是為文字的識(shí)別、分類和讀取而存在的,傳統(tǒng)的漢字識(shí)別技術(shù)靠對(duì)漢字文字的特征識(shí)別和匹配來(lái)得以實(shí)現(xiàn),但是由于漢字結(jié)構(gòu)復(fù)雜且組合較多,所以會(huì)存在一定的辨識(shí)困難。在大量文字需要識(shí)別輸入的情況下,還可能出現(xiàn)漏字的現(xiàn)象,而重新檢查也是很麻煩的。
目前的漢字識(shí)別技術(shù)依照漢字輸出形式的不同主要分為兩類:印刷體漢字識(shí)別與手寫(xiě)體漢字識(shí)別。其中印刷體漢字識(shí)別又可分為單體印刷體漢字識(shí)別和多體印刷體漢字識(shí)別。
印刷體漢字識(shí)別的原理就是將印刷在紙張上的漢字,利用掃描儀或者數(shù)碼相機(jī)等光學(xué)拍攝手段輸入并得到二值圖像和灰度圖像,將這些圖像通過(guò)識(shí)別模式計(jì)算方法對(duì)圖像中的漢字進(jìn)行圖像處理分析,從而提取漢字的特征,再將這些提取出來(lái)的字體特征與標(biāo)準(zhǔn)漢字進(jìn)行匹配和判定,最終識(shí)別漢字。具體來(lái)說(shuō),印刷體漢字的識(shí)別技術(shù)主要分為三個(gè)流程。
1.1 預(yù)處理。預(yù)處理是指利用光學(xué)設(shè)備作為漢字的輸入設(shè)備。但是由于光學(xué)設(shè)備在拍照時(shí)容易受到周圍環(huán)境光的影響,所以拍攝出來(lái)的圖像可能在明暗程度和色彩上出現(xiàn)偏差,不利于接下來(lái)的漢字識(shí)別。為了解決這個(gè)困擾,在識(shí)別處理原始漢字圖像之前,應(yīng)該盡量避免周圍環(huán)境因素的干擾,這就需要對(duì)原始圖像進(jìn)行預(yù)處理。預(yù)處理的主要手段有二值化、降噪、傾斜校正、平滑、歸一化等等。以上都是能提高光學(xué)設(shè)備對(duì)原始圖像輸出質(zhì)量的有效方法。
1.2 識(shí)別。印刷體漢字的識(shí)別過(guò)程是整個(gè)技術(shù)的核心部分。它利用自己獨(dú)有的計(jì)算系統(tǒng)對(duì)原始漢字圖像進(jìn)行計(jì)算。在經(jīng)過(guò)預(yù)處理后,我們會(huì)得到原始圖像的二值圖像。識(shí)別的對(duì)象就是二值圖像,在對(duì)二值圖像進(jìn)行計(jì)算分析和漢字特征提取后再與標(biāo)準(zhǔn)漢字特征進(jìn)行匹配,印刷體漢字的識(shí)別就基本完成了。
1.3 后處理。為了進(jìn)一步提高檢出漢字的識(shí)別率和適應(yīng)性,降低系統(tǒng)失誤率。后處理技術(shù)就是對(duì)識(shí)別后的文章進(jìn)行再檢查處理。通過(guò)文章的上下文,系統(tǒng)會(huì)識(shí)別出一些識(shí)別過(guò)程中遺漏的誤識(shí)字和拒識(shí)字。最后保證高正確率。
2 后處理
2.1 后處理概述。本文主要分析的就是印刷體漢字識(shí)別流程的最后一項(xiàng)——后處理技術(shù)。簡(jiǎn)單講,后處理技術(shù)就是對(duì)識(shí)別后的漢字文本進(jìn)行進(jìn)一步的再處理,最后檢索并糾正誤識(shí)字和拒識(shí)字。后處理解決了傳統(tǒng)識(shí)別系統(tǒng)對(duì)文字進(jìn)行逐一修改識(shí)別的繁雜工序,也可以說(shuō)后處理是傳統(tǒng)識(shí)別技術(shù)的一種進(jìn)化與完善。
漢字的后處理方法主要可以分為手工處理、計(jì)算機(jī)自動(dòng)處理和交互式處理。其中手工處理較為傳統(tǒng),它是依靠人自身對(duì)文本的再編輯工作,將文本中出現(xiàn)的誤識(shí)字進(jìn)行糾正;交互式處理稍微先進(jìn)一些,它是將識(shí)別后所形成的文本交由處理程序進(jìn)行再識(shí)別,處理程序?yàn)槲谋咎峁┮恍┖蜻x方案,通過(guò)用戶與計(jì)算機(jī)的交互過(guò)程而進(jìn)行的文字識(shí)別糾錯(cuò)工作;計(jì)算機(jī)自動(dòng)處理最為先進(jìn),它僅通過(guò)一個(gè)設(shè)計(jì)好的自動(dòng)處理程序,就能對(duì)文本中可能出現(xiàn)的錯(cuò)誤進(jìn)行自動(dòng)的識(shí)別和糾正。
2.2 具體的后處理方法。(1)詞匹配。后處理方法從簡(jiǎn)單的詞匹配開(kāi)始,它是利用文本中上下文的匹配關(guān)系和詞的使用頻率來(lái)進(jìn)行識(shí)別糾錯(cuò)的一種方式。一旦處理程序檢索到文中的拒識(shí)字,就會(huì)為它提供一個(gè)候選字以便進(jìn)行調(diào)整糾正。后處理能夠做到這些,是因?yàn)樵谒南到y(tǒng)程序中有一個(gè)漢語(yǔ)詞條的數(shù)據(jù)庫(kù)。在這個(gè)數(shù)據(jù)庫(kù)中具有完善的詞條存儲(chǔ)和維護(hù)功能,它能夠應(yīng)對(duì)和反映文本中詞語(yǔ)文字的不同使用頻率,以最快的速度來(lái)進(jìn)行反應(yīng)從而為文本調(diào)出需要的詞條,這大大提高了漢字后處理的工作效率。(2)語(yǔ)義分析匹配。漢語(yǔ)不同于其他語(yǔ)言,它的語(yǔ)義深?yuàn)W且語(yǔ)言法則復(fù)雜。每個(gè)人對(duì)一句話可能都有不同的理解。所以為了能夠盡可能的理解文本中語(yǔ)言的內(nèi)涵,后處理有一套內(nèi)容量龐大的語(yǔ)言組合法則信息庫(kù),它主要為文本的語(yǔ)義和句法的識(shí)別糾正給出建議,利用詞法和語(yǔ)法的分析來(lái)進(jìn)行適合的匹配工作。目前依靠語(yǔ)法及語(yǔ)義的分析來(lái)識(shí)別漢字的系統(tǒng)是相對(duì)比較智能的,它進(jìn)一步的提高了文本糾正的精度,更加人性化。(3)人工神經(jīng)元網(wǎng)絡(luò)。人工神經(jīng)元網(wǎng)絡(luò)是美國(guó)在上世紀(jì)40年代提出的一種較為智能化的漢字識(shí)別后處理技術(shù),在80年代發(fā)明了相關(guān)語(yǔ)言模型,是一種非線性的文字識(shí)別網(wǎng)絡(luò)系統(tǒng)。人工神經(jīng)元網(wǎng)絡(luò)為漢字的識(shí)別后處理提供了兩種方案:第一種就是將識(shí)別過(guò)程和后處理過(guò)程剝離開(kāi)來(lái),也就是雙層糾錯(cuò)。首先通過(guò)網(wǎng)絡(luò)輸入即時(shí)糾正一些初級(jí)錯(cuò)誤,再由網(wǎng)絡(luò)后處理來(lái)糾正一些前期不能確定的漢字或拒識(shí)字;相比于分開(kāi)處理,另一種方法是前期初識(shí)別與后期網(wǎng)絡(luò)識(shí)別相結(jié)合的綜合性處理,初期在發(fā)現(xiàn)待識(shí)別字時(shí)就立刻通過(guò)網(wǎng)絡(luò)進(jìn)行檢索和識(shí)別,以雙線并行的方式快速找出符合漢語(yǔ)語(yǔ)法和語(yǔ)義的相關(guān)答案,最終確定待識(shí)別的漢字。這種方法更加高效率和實(shí)用。
3 OCR
OCR(Optical Character Recognition)簡(jiǎn)單地說(shuō),對(duì)其進(jìn)行簡(jiǎn)單定義,即為光學(xué)字符自動(dòng)識(shí)別技術(shù)。隨著我國(guó)經(jīng)濟(jì)水平的不斷進(jìn)步,我國(guó)各行各業(yè)都得到了飛速發(fā)展,傳媒行業(yè)的發(fā)展推動(dòng)了印刷識(shí)別技術(shù)的進(jìn)步。就目前而言,OCR技術(shù)被廣泛的應(yīng)用于我國(guó)傳媒印刷事業(yè),在此之余,對(duì)于稅務(wù)票據(jù)、金融票據(jù)等等各方面也應(yīng)用到這種技術(shù)。OCR能夠最大程度的確保文字的準(zhǔn)確性,能夠使其信息傳達(dá)更加精準(zhǔn)。OCR技術(shù)中的中心環(huán)節(jié)即為N-gram語(yǔ)言模型。
3.1 N-gram語(yǔ)言模型。N-gram語(yǔ)言模型在OCR技術(shù)應(yīng)用當(dāng)中起到至關(guān)重要的作用,能夠?qū)ζ浜笃谔幚砼c計(jì)算進(jìn)行整理。N-gram語(yǔ)言模型的本身是一種語(yǔ)言文字處理,其能夠?qū)φZ(yǔ)句中的文字、詞組并且還有比較重要的語(yǔ)句進(jìn)行相應(yīng)的處理。
目前,一般的統(tǒng)計(jì)語(yǔ)言模型都會(huì)將文本語(yǔ)句中的概率分解化,將其基本單位的各項(xiàng)條件概率進(jìn)行乘法計(jì)算。
P(s)=P(w1,w2,…Wn)=P(w1|w1,w2,…wi-1)
在此公式中,n是串長(zhǎng)度,s是字符串,wi代表模型的基本單位,這些基本單位多為文本中的字和詞。
N-gram模型就是利用Markov的假設(shè)法,它為了能夠進(jìn)一步解析文本的上下文關(guān)系,認(rèn)為每一個(gè)被預(yù)測(cè)的基本單位的長(zhǎng)度為n-1。
P(wi|w1,w2,…wi-1)=P(wi|wi(n-1),wi(n-2)…wi-1)
n是模型階數(shù)。在文本處理過(guò)程中,N-gram模型是基于語(yǔ)料集而建立的,它所采用的是最大似然估計(jì)法。似然估計(jì)法會(huì)對(duì)文本中的誤識(shí)字進(jìn)行條件概率的估計(jì)。n的數(shù)值越大,則模型的精度就越高。
3.2 基于字節(jié)的語(yǔ)言模型。針對(duì)于一般性的漢字編碼,通常兩個(gè)編碼能夠組成一個(gè)漢字,但是通過(guò)對(duì)其不斷的深入研究分析發(fā)現(xiàn),如果將語(yǔ)言模型單位一個(gè)單位編碼來(lái)進(jìn)行表示,其能夠最大程度的將語(yǔ)言模型簡(jiǎn)易化,減少其復(fù)雜程度。針對(duì)這一問(wèn)題的探究,人們將一個(gè)單位編碼作為語(yǔ)言模型的基本單位。
如果將漢字字串設(shè)定為S1。由于每?jī)蓚€(gè)字節(jié)構(gòu)成一個(gè)漢字,那么它對(duì)應(yīng)的單位編碼串就是S2。這樣就可以建立基于基本編碼的長(zhǎng)度為2和3的模型。
再根據(jù)漢字的編碼規(guī)律,去掉漢字編碼的“無(wú)效”漢字標(biāo)識(shí)位,則基于字詞的模型空間稀疏問(wèn)題就會(huì)大幅降低。
3.3 具體試驗(yàn)。本次試驗(yàn)主要是針對(duì)常用詞來(lái)進(jìn)行后期處理與統(tǒng)計(jì)評(píng)估工作。其工作的主要內(nèi)容為,將常用詞本身的漢字等置于語(yǔ)言模型中,對(duì)其進(jìn)行后期處理,進(jìn)行文本評(píng)估識(shí)別工作,確保其準(zhǔn)確性。通過(guò)對(duì)關(guān)鍵詞進(jìn)行OCR技術(shù)的系統(tǒng)識(shí)別工作之后,其后期處理的識(shí)別率得到了較大幅度的提高,具體數(shù)值為96.67%以上。
4 結(jié)束語(yǔ)
印刷體漢字識(shí)別技術(shù)是一項(xiàng)極為復(fù)雜的信息文本處理技術(shù),特別是后處理技術(shù)難度更大。本文分析了一般性的漢字識(shí)別過(guò)程以及以O(shè)CR為背景的N-gram模型,該方法降低了數(shù)據(jù)處理的復(fù)雜程度、提高了數(shù)據(jù)處理速度,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的良好性能。
參考文獻(xiàn):
[1]張宏濤,龍翀,朱小燕等.印刷體漢字識(shí)別后處理方法的研究[J].中文信息學(xué)報(bào),2009(06).
[2]聶玖星.印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究[D].大連理工大學(xué),2008.
[3]李元祥,劉長(zhǎng)松,丁曉青等.一種利用校對(duì)信息的漢字識(shí)別自適應(yīng)后處理方法[J].中文信息學(xué)報(bào),2001(01).
[4]梁瑩,肖健,李玥.多引擎印刷體漢字識(shí)別系統(tǒng)研發(fā)[A].廣西計(jì)算機(jī)學(xué)會(huì)25周年紀(jì)念會(huì)暨2011年學(xué)術(shù)年會(huì)論文集[C],2011.
[5]萬(wàn)金娥,袁保社.基于字符歸一化雙投影互相關(guān)性匹配識(shí)別算法[J].計(jì)算機(jī)應(yīng)用,2013(03).
[6]朱程輝,曹敏,王建平. 基于過(guò)程神經(jīng)網(wǎng)絡(luò)的漢字特征提取方法的研究[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2013(10).
[7]訾興建,王建平.手寫(xiě)體漢字八形態(tài)編碼識(shí)別方法的研究[J].淮北師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(02).
[8]金連文,徐秉錚.基于多級(jí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的手寫(xiě)體漢字識(shí)別[J].通信學(xué)報(bào),1997(05).
[9]王國(guó)胤,施鴻寶.漢字識(shí)別的并行神經(jīng)網(wǎng)絡(luò)方法[J].模式識(shí)別與人工智能,1996(01).
[10]王建平,金鐵江,邵威.基于過(guò)程神經(jīng)網(wǎng)絡(luò)的手寫(xiě)體漢字識(shí)別方法研究[J].計(jì)算機(jī)應(yīng)用,2009(02).
作者簡(jiǎn)介:柴晨陽(yáng)(1975.12-),講師,研究生,碩士學(xué)位,研究方向:智能信息處理、會(huì)計(jì)信息化。
作者單位:江西財(cái)經(jīng)大學(xué)會(huì)計(jì)學(xué)院,南昌 330013
基金項(xiàng)目:江西省教育廳青年科學(xué)基金項(xiàng)目(項(xiàng)目編號(hào):GJJ10121)。