亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        印刷體漢字識(shí)別處理技術(shù)綜述

        2014-10-21 19:57:17柴晨陽(yáng)
        關(guān)鍵詞:信息社會(huì)后處理

        摘 要:中國(guó)漢字博大精深,擁有著數(shù)千年的文化背景與歷史積淀,是世界上使用人數(shù)最多的文字。漢字與其他文字不同,它具有自己的拼音化系統(tǒng)和獨(dú)立文字結(jié)構(gòu),所以在目前以計(jì)算機(jī)信息技術(shù)化為主體的社會(huì)里,對(duì)印刷體漢字信息的處理也就成了信息化發(fā)展的關(guān)鍵。印刷體漢字識(shí)別后處理技術(shù)OCR的出現(xiàn)就解決了現(xiàn)如今海量文字信息所帶來(lái)的處理難題,它提高了印刷體文字的處理效率,也推動(dòng)了信息社會(huì)的不斷發(fā)展。

        關(guān)鍵詞:漢字識(shí)別;OCR;后處理;語(yǔ)言模型;信息社會(huì)

        中圖分類號(hào):TP391.43

        由于中文漢字系統(tǒng)比較復(fù)雜,涉及到幾百種漢字輸入編碼方法和語(yǔ)言模型。所以中國(guó)人在處理漢字輸入和識(shí)別方面面臨多種難題,比如音碼或字碼重碼率過(guò)高、輸入效率低、學(xué)習(xí)識(shí)別困難、形碼不好掌握等等。而對(duì)于一些沒(méi)有標(biāo)準(zhǔn)鍵盤的通信設(shè)備來(lái)說(shuō),由于漢字信息錄入速度慢,更是影響了正常的工作效率。所以為了能夠彌補(bǔ)這些不足,漢字識(shí)別技術(shù)應(yīng)運(yùn)而生。

        1 印刷體漢字的識(shí)別原理

        漢字識(shí)別也是模式識(shí)別領(lǐng)域中所研究的科學(xué)。漢字識(shí)別技術(shù)包羅萬(wàn)象,它涵蓋了模式識(shí)別、圖像處理、人工智能、模糊數(shù)學(xué)、組合數(shù)學(xué)和心理學(xué)等等學(xué)科,是一門綜合性很強(qiáng)的信息處理技術(shù)。漢字識(shí)別技術(shù)簡(jiǎn)單說(shuō)就是為文字的識(shí)別、分類和讀取而存在的,傳統(tǒng)的漢字識(shí)別技術(shù)靠對(duì)漢字文字的特征識(shí)別和匹配來(lái)得以實(shí)現(xiàn),但是由于漢字結(jié)構(gòu)復(fù)雜且組合較多,所以會(huì)存在一定的辨識(shí)困難。在大量文字需要識(shí)別輸入的情況下,還可能出現(xiàn)漏字的現(xiàn)象,而重新檢查也是很麻煩的。

        目前的漢字識(shí)別技術(shù)依照漢字輸出形式的不同主要分為兩類:印刷體漢字識(shí)別與手寫(xiě)體漢字識(shí)別。其中印刷體漢字識(shí)別又可分為單體印刷體漢字識(shí)別和多體印刷體漢字識(shí)別。

        印刷體漢字識(shí)別的原理就是將印刷在紙張上的漢字,利用掃描儀或者數(shù)碼相機(jī)等光學(xué)拍攝手段輸入并得到二值圖像和灰度圖像,將這些圖像通過(guò)識(shí)別模式計(jì)算方法對(duì)圖像中的漢字進(jìn)行圖像處理分析,從而提取漢字的特征,再將這些提取出來(lái)的字體特征與標(biāo)準(zhǔn)漢字進(jìn)行匹配和判定,最終識(shí)別漢字。具體來(lái)說(shuō),印刷體漢字的識(shí)別技術(shù)主要分為三個(gè)流程。

        1.1 預(yù)處理。預(yù)處理是指利用光學(xué)設(shè)備作為漢字的輸入設(shè)備。但是由于光學(xué)設(shè)備在拍照時(shí)容易受到周圍環(huán)境光的影響,所以拍攝出來(lái)的圖像可能在明暗程度和色彩上出現(xiàn)偏差,不利于接下來(lái)的漢字識(shí)別。為了解決這個(gè)困擾,在識(shí)別處理原始漢字圖像之前,應(yīng)該盡量避免周圍環(huán)境因素的干擾,這就需要對(duì)原始圖像進(jìn)行預(yù)處理。預(yù)處理的主要手段有二值化、降噪、傾斜校正、平滑、歸一化等等。以上都是能提高光學(xué)設(shè)備對(duì)原始圖像輸出質(zhì)量的有效方法。

        1.2 識(shí)別。印刷體漢字的識(shí)別過(guò)程是整個(gè)技術(shù)的核心部分。它利用自己獨(dú)有的計(jì)算系統(tǒng)對(duì)原始漢字圖像進(jìn)行計(jì)算。在經(jīng)過(guò)預(yù)處理后,我們會(huì)得到原始圖像的二值圖像。識(shí)別的對(duì)象就是二值圖像,在對(duì)二值圖像進(jìn)行計(jì)算分析和漢字特征提取后再與標(biāo)準(zhǔn)漢字特征進(jìn)行匹配,印刷體漢字的識(shí)別就基本完成了。

        1.3 后處理。為了進(jìn)一步提高檢出漢字的識(shí)別率和適應(yīng)性,降低系統(tǒng)失誤率。后處理技術(shù)就是對(duì)識(shí)別后的文章進(jìn)行再檢查處理。通過(guò)文章的上下文,系統(tǒng)會(huì)識(shí)別出一些識(shí)別過(guò)程中遺漏的誤識(shí)字和拒識(shí)字。最后保證高正確率。

        2 后處理

        2.1 后處理概述。本文主要分析的就是印刷體漢字識(shí)別流程的最后一項(xiàng)——后處理技術(shù)。簡(jiǎn)單講,后處理技術(shù)就是對(duì)識(shí)別后的漢字文本進(jìn)行進(jìn)一步的再處理,最后檢索并糾正誤識(shí)字和拒識(shí)字。后處理解決了傳統(tǒng)識(shí)別系統(tǒng)對(duì)文字進(jìn)行逐一修改識(shí)別的繁雜工序,也可以說(shuō)后處理是傳統(tǒng)識(shí)別技術(shù)的一種進(jìn)化與完善。

        漢字的后處理方法主要可以分為手工處理、計(jì)算機(jī)自動(dòng)處理和交互式處理。其中手工處理較為傳統(tǒng),它是依靠人自身對(duì)文本的再編輯工作,將文本中出現(xiàn)的誤識(shí)字進(jìn)行糾正;交互式處理稍微先進(jìn)一些,它是將識(shí)別后所形成的文本交由處理程序進(jìn)行再識(shí)別,處理程序?yàn)槲谋咎峁┮恍┖蜻x方案,通過(guò)用戶與計(jì)算機(jī)的交互過(guò)程而進(jìn)行的文字識(shí)別糾錯(cuò)工作;計(jì)算機(jī)自動(dòng)處理最為先進(jìn),它僅通過(guò)一個(gè)設(shè)計(jì)好的自動(dòng)處理程序,就能對(duì)文本中可能出現(xiàn)的錯(cuò)誤進(jìn)行自動(dòng)的識(shí)別和糾正。

        2.2 具體的后處理方法。(1)詞匹配。后處理方法從簡(jiǎn)單的詞匹配開(kāi)始,它是利用文本中上下文的匹配關(guān)系和詞的使用頻率來(lái)進(jìn)行識(shí)別糾錯(cuò)的一種方式。一旦處理程序檢索到文中的拒識(shí)字,就會(huì)為它提供一個(gè)候選字以便進(jìn)行調(diào)整糾正。后處理能夠做到這些,是因?yàn)樵谒南到y(tǒng)程序中有一個(gè)漢語(yǔ)詞條的數(shù)據(jù)庫(kù)。在這個(gè)數(shù)據(jù)庫(kù)中具有完善的詞條存儲(chǔ)和維護(hù)功能,它能夠應(yīng)對(duì)和反映文本中詞語(yǔ)文字的不同使用頻率,以最快的速度來(lái)進(jìn)行反應(yīng)從而為文本調(diào)出需要的詞條,這大大提高了漢字后處理的工作效率。(2)語(yǔ)義分析匹配。漢語(yǔ)不同于其他語(yǔ)言,它的語(yǔ)義深?yuàn)W且語(yǔ)言法則復(fù)雜。每個(gè)人對(duì)一句話可能都有不同的理解。所以為了能夠盡可能的理解文本中語(yǔ)言的內(nèi)涵,后處理有一套內(nèi)容量龐大的語(yǔ)言組合法則信息庫(kù),它主要為文本的語(yǔ)義和句法的識(shí)別糾正給出建議,利用詞法和語(yǔ)法的分析來(lái)進(jìn)行適合的匹配工作。目前依靠語(yǔ)法及語(yǔ)義的分析來(lái)識(shí)別漢字的系統(tǒng)是相對(duì)比較智能的,它進(jìn)一步的提高了文本糾正的精度,更加人性化。(3)人工神經(jīng)元網(wǎng)絡(luò)。人工神經(jīng)元網(wǎng)絡(luò)是美國(guó)在上世紀(jì)40年代提出的一種較為智能化的漢字識(shí)別后處理技術(shù),在80年代發(fā)明了相關(guān)語(yǔ)言模型,是一種非線性的文字識(shí)別網(wǎng)絡(luò)系統(tǒng)。人工神經(jīng)元網(wǎng)絡(luò)為漢字的識(shí)別后處理提供了兩種方案:第一種就是將識(shí)別過(guò)程和后處理過(guò)程剝離開(kāi)來(lái),也就是雙層糾錯(cuò)。首先通過(guò)網(wǎng)絡(luò)輸入即時(shí)糾正一些初級(jí)錯(cuò)誤,再由網(wǎng)絡(luò)后處理來(lái)糾正一些前期不能確定的漢字或拒識(shí)字;相比于分開(kāi)處理,另一種方法是前期初識(shí)別與后期網(wǎng)絡(luò)識(shí)別相結(jié)合的綜合性處理,初期在發(fā)現(xiàn)待識(shí)別字時(shí)就立刻通過(guò)網(wǎng)絡(luò)進(jìn)行檢索和識(shí)別,以雙線并行的方式快速找出符合漢語(yǔ)語(yǔ)法和語(yǔ)義的相關(guān)答案,最終確定待識(shí)別的漢字。這種方法更加高效率和實(shí)用。

        3 OCR

        OCR(Optical Character Recognition)簡(jiǎn)單地說(shuō),對(duì)其進(jìn)行簡(jiǎn)單定義,即為光學(xué)字符自動(dòng)識(shí)別技術(shù)。隨著我國(guó)經(jīng)濟(jì)水平的不斷進(jìn)步,我國(guó)各行各業(yè)都得到了飛速發(fā)展,傳媒行業(yè)的發(fā)展推動(dòng)了印刷識(shí)別技術(shù)的進(jìn)步。就目前而言,OCR技術(shù)被廣泛的應(yīng)用于我國(guó)傳媒印刷事業(yè),在此之余,對(duì)于稅務(wù)票據(jù)、金融票據(jù)等等各方面也應(yīng)用到這種技術(shù)。OCR能夠最大程度的確保文字的準(zhǔn)確性,能夠使其信息傳達(dá)更加精準(zhǔn)。OCR技術(shù)中的中心環(huán)節(jié)即為N-gram語(yǔ)言模型。

        3.1 N-gram語(yǔ)言模型。N-gram語(yǔ)言模型在OCR技術(shù)應(yīng)用當(dāng)中起到至關(guān)重要的作用,能夠?qū)ζ浜笃谔幚砼c計(jì)算進(jìn)行整理。N-gram語(yǔ)言模型的本身是一種語(yǔ)言文字處理,其能夠?qū)φZ(yǔ)句中的文字、詞組并且還有比較重要的語(yǔ)句進(jìn)行相應(yīng)的處理。

        目前,一般的統(tǒng)計(jì)語(yǔ)言模型都會(huì)將文本語(yǔ)句中的概率分解化,將其基本單位的各項(xiàng)條件概率進(jìn)行乘法計(jì)算。

        P(s)=P(w1,w2,…Wn)=P(w1|w1,w2,…wi-1)

        在此公式中,n是串長(zhǎng)度,s是字符串,wi代表模型的基本單位,這些基本單位多為文本中的字和詞。

        N-gram模型就是利用Markov的假設(shè)法,它為了能夠進(jìn)一步解析文本的上下文關(guān)系,認(rèn)為每一個(gè)被預(yù)測(cè)的基本單位的長(zhǎng)度為n-1。

        P(wi|w1,w2,…wi-1)=P(wi|wi(n-1),wi(n-2)…wi-1)

        n是模型階數(shù)。在文本處理過(guò)程中,N-gram模型是基于語(yǔ)料集而建立的,它所采用的是最大似然估計(jì)法。似然估計(jì)法會(huì)對(duì)文本中的誤識(shí)字進(jìn)行條件概率的估計(jì)。n的數(shù)值越大,則模型的精度就越高。

        3.2 基于字節(jié)的語(yǔ)言模型。針對(duì)于一般性的漢字編碼,通常兩個(gè)編碼能夠組成一個(gè)漢字,但是通過(guò)對(duì)其不斷的深入研究分析發(fā)現(xiàn),如果將語(yǔ)言模型單位一個(gè)單位編碼來(lái)進(jìn)行表示,其能夠最大程度的將語(yǔ)言模型簡(jiǎn)易化,減少其復(fù)雜程度。針對(duì)這一問(wèn)題的探究,人們將一個(gè)單位編碼作為語(yǔ)言模型的基本單位。

        如果將漢字字串設(shè)定為S1。由于每?jī)蓚€(gè)字節(jié)構(gòu)成一個(gè)漢字,那么它對(duì)應(yīng)的單位編碼串就是S2。這樣就可以建立基于基本編碼的長(zhǎng)度為2和3的模型。

        再根據(jù)漢字的編碼規(guī)律,去掉漢字編碼的“無(wú)效”漢字標(biāo)識(shí)位,則基于字詞的模型空間稀疏問(wèn)題就會(huì)大幅降低。

        3.3 具體試驗(yàn)。本次試驗(yàn)主要是針對(duì)常用詞來(lái)進(jìn)行后期處理與統(tǒng)計(jì)評(píng)估工作。其工作的主要內(nèi)容為,將常用詞本身的漢字等置于語(yǔ)言模型中,對(duì)其進(jìn)行后期處理,進(jìn)行文本評(píng)估識(shí)別工作,確保其準(zhǔn)確性。通過(guò)對(duì)關(guān)鍵詞進(jìn)行OCR技術(shù)的系統(tǒng)識(shí)別工作之后,其后期處理的識(shí)別率得到了較大幅度的提高,具體數(shù)值為96.67%以上。

        4 結(jié)束語(yǔ)

        印刷體漢字識(shí)別技術(shù)是一項(xiàng)極為復(fù)雜的信息文本處理技術(shù),特別是后處理技術(shù)難度更大。本文分析了一般性的漢字識(shí)別過(guò)程以及以O(shè)CR為背景的N-gram模型,該方法降低了數(shù)據(jù)處理的復(fù)雜程度、提高了數(shù)據(jù)處理速度,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的良好性能。

        參考文獻(xiàn):

        [1]張宏濤,龍翀,朱小燕等.印刷體漢字識(shí)別后處理方法的研究[J].中文信息學(xué)報(bào),2009(06).

        [2]聶玖星.印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究[D].大連理工大學(xué),2008.

        [3]李元祥,劉長(zhǎng)松,丁曉青等.一種利用校對(duì)信息的漢字識(shí)別自適應(yīng)后處理方法[J].中文信息學(xué)報(bào),2001(01).

        [4]梁瑩,肖健,李玥.多引擎印刷體漢字識(shí)別系統(tǒng)研發(fā)[A].廣西計(jì)算機(jī)學(xué)會(huì)25周年紀(jì)念會(huì)暨2011年學(xué)術(shù)年會(huì)論文集[C],2011.

        [5]萬(wàn)金娥,袁保社.基于字符歸一化雙投影互相關(guān)性匹配識(shí)別算法[J].計(jì)算機(jī)應(yīng)用,2013(03).

        [6]朱程輝,曹敏,王建平. 基于過(guò)程神經(jīng)網(wǎng)絡(luò)的漢字特征提取方法的研究[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2013(10).

        [7]訾興建,王建平.手寫(xiě)體漢字八形態(tài)編碼識(shí)別方法的研究[J].淮北師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(02).

        [8]金連文,徐秉錚.基于多級(jí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的手寫(xiě)體漢字識(shí)別[J].通信學(xué)報(bào),1997(05).

        [9]王國(guó)胤,施鴻寶.漢字識(shí)別的并行神經(jīng)網(wǎng)絡(luò)方法[J].模式識(shí)別與人工智能,1996(01).

        [10]王建平,金鐵江,邵威.基于過(guò)程神經(jīng)網(wǎng)絡(luò)的手寫(xiě)體漢字識(shí)別方法研究[J].計(jì)算機(jī)應(yīng)用,2009(02).

        作者簡(jiǎn)介:柴晨陽(yáng)(1975.12-),講師,研究生,碩士學(xué)位,研究方向:智能信息處理、會(huì)計(jì)信息化。

        作者單位:江西財(cái)經(jīng)大學(xué)會(huì)計(jì)學(xué)院,南昌 330013

        基金項(xiàng)目:江西省教育廳青年科學(xué)基金項(xiàng)目(項(xiàng)目編號(hào):GJJ10121)。

        猜你喜歡
        信息社會(huì)后處理
        車身接附點(diǎn)動(dòng)剛度后處理方法對(duì)比
        果樹(shù)防凍措施及凍后處理
        乏燃料后處理的大廠夢(mèng)
        能源(2018年10期)2018-12-08 08:02:48
        年俗文化的變遷及傳承創(chuàng)新探析
        東方教育(2016年12期)2017-01-12 16:45:02
        快速閱讀法宣傳推廣研究
        考試周刊(2016年100期)2017-01-07 23:13:38
        信息時(shí)代高職院校圖書(shū)館服務(wù)體系的構(gòu)建
        淺析電子通信設(shè)備的接地技術(shù)
        淺析互聯(lián)網(wǎng)資源領(lǐng)域的經(jīng)濟(jì)管理
        關(guān)于導(dǎo)學(xué)案培養(yǎng)學(xué)生自主探究學(xué)習(xí)能力的培養(yǎng)
        新一代(2016年15期)2016-11-16 16:33:12
        乏燃料后處理困局
        能源(2016年10期)2016-02-28 11:33:30
        国精产品一区一区三区| 91精品全国免费观看青青| 亚洲一区不卡在线导航| 亚洲码专区亚洲码专区| 亚洲成av人片在线观看| 人妻少妇精品中文字幕av| 精品一区二区三区在线观看视频| 在线a人片免费观看国产| 最新国产精品国产三级国产av| 久久伊人这里都是精品| 免费国产黄网站在线观看可以下载| 亚洲 都市 校园 激情 另类| 狠狠色噜噜狠狠狠狠7777米奇| 久久亚洲欧洲无码中文| 久久91精品国产91久久麻豆 | 亚洲视频在线视频在线视频| 国产高清精品一区二区| 亚洲视频在线观看| 国产精品va在线观看无码| 国产在线不卡免费播放| 欧美一区波多野结衣第一页| 亚洲在线一区二区三区四区 | 国产男女猛烈无遮挡免费视频网址 | 久久精品国产亚洲av蜜臀| 国产亚洲精品福利在线| av中文字幕性女高清在线| 国产乱人对白| 亚洲中久无码永久在线观看软件| 国产不卡在线免费视频| 国产自产二区三区精品| 西西大胆午夜人体视频| 国产免费久久精品99re丫y| 麻豆成年人视频在线观看| 国产精品国产精品国产专区不卡 | 国产黄大片在线观看画质优化| 久久精品夜夜夜夜夜久久 | 国产午夜福利久久精品| 国产91成人精品亚洲精品| 日韩中文字幕一区二十| 九九在线中文字幕无码| 少妇被粗大的猛进69视频|