陳擎國
摘 要 隨著計算機技術(shù)以及大數(shù)據(jù)時代的到來,大眾將在越來越多的方面需要手寫體漢字識別技術(shù)產(chǎn)品。這意味著手寫體漢字識別技術(shù)的市場空間將變得更加廣闊。手寫體漢字識別技術(shù)主要分為聯(lián)機手寫體漢字識別技術(shù)與脫機手寫體漢字識別技術(shù)。其中,聯(lián)機手寫體漢字識別技術(shù)已較為成熟。文章對手寫體漢字識別技術(shù)發(fā)展歷程、基本原理、脫機手寫體漢字識別技術(shù)識別準確率較低、反應(yīng)時間長等問題,以及手寫體漢字識別技術(shù)的未來發(fā)展方向做了研究及展望。
關(guān)鍵詞 手寫漢字;漢字識別;脫機識別;光學字符識別
中圖分類號 G2 文獻標識碼 A 文章編號 1674-6708(2018)220-0001-03
隨著計算機科學技術(shù)的發(fā)展以及大數(shù)據(jù)時代的到來,傳統(tǒng)的紙質(zhì)文獻將越來越多地需要被轉(zhuǎn)化為電子文檔儲存在計算機中。例如:將紙質(zhì)的會議記錄拍攝成圖像,將其快速地轉(zhuǎn)化為能夠在計算機內(nèi)儲存與加工的電子文檔;將文獻古籍以圖片或掃描件的形式快速轉(zhuǎn)換為電子文檔進行保存等。這將勢必需要完善目前的漢字手寫體識別方面的技術(shù),并提升其識別的準確率以及減少其對較大訓練樣本及硬件運行內(nèi)存的依賴。
1 手寫體漢字識別技術(shù)的發(fā)展歷程
隨著計算機技術(shù)的發(fā)展,漢字識別技術(shù)已經(jīng)逐漸融入人們的日常生活中,并將在經(jīng)濟、教育等領(lǐng)域發(fā)揮越來越重要的作用。漢字識別技術(shù),主要基于光學字符識別技術(shù)(Optical Character Recognition),以識別對象為標準,可分為印刷體漢字識別與手寫體漢字識別技術(shù);以輸入方式為標準,可分為聯(lián)機漢字識別與脫機漢字識別。手寫體漢字識別技術(shù),源于印刷體漢字識別技術(shù),從20世紀六七十年代開始,大致可分為3個時期:理論探索期、快速發(fā)展期、深入發(fā)展期。
1.1 理論探索期(20世紀60年代—70年代)
自1946年世界上第一臺電子計算機在美國出現(xiàn)后,人們除了將計算機用于復雜計算外,還將其應(yīng)用于文檔的處理與保存。由于電子文檔擁有效率高、易于儲存、容量大等特點,一經(jīng)問世便受到科學家們的廣泛重視與研究。因為英文字母數(shù)量較少、筆畫簡單,在計算機識別中遇到的困難較小。而漢字數(shù)量大、筆畫繁雜、形近字較多,給予這一時代的科學家不小的困難。
在這一階段,主要是歐美大型計算機企業(yè)以及中國國內(nèi)一些高校、研究所進行初步的理論探索。例如:在1966年,Casey R與Nagy G首次發(fā)表關(guān)于印刷體漢字識別的文章,提出計算機識別漢字的理論基礎(chǔ)以及需要解決的技術(shù)難題。清華大學、南開大學、北京大學等高校開始進行對規(guī)則且有限的漢字識別進行研究。這個時期進行的探索,盡管較為粗淺,但其為之后印刷體及手寫體漢字識別奠定了理論基礎(chǔ)、發(fā)現(xiàn)并定位了亟待解決的問題。
1.2 快速發(fā)展期(20世紀80年代至21世紀初)
到了20世紀80年代,漢字識別技術(shù)有了一定發(fā)展。印刷體漢字識別技術(shù)逐漸發(fā)展并最終成熟。科學家們通過模仿人類視覺識別的過程,采用統(tǒng)計模式識別方法,通過逼近取值的算法來提取漢字,解決了印刷體漢字識別中漢字結(jié)構(gòu)與筆畫提取困難的難題,也為手寫體漢字識別提供了思路與方法。
在這個階段,一些實用性高、錯誤率低的印刷體漢字識別軟件問世。例如:IBM公司的OCR技術(shù)已經(jīng)趨于成熟;20世紀90年代,清華大學研發(fā)的TH-OCR產(chǎn)品率先實現(xiàn)了中英文混排識別;漢王公司的漢王OCR憑借識別率高等優(yōu)勢,在2000年達到世界領(lǐng)先水平。80年代中國發(fā)布了GB 2312-80國家標準字符庫,國外計算機公司也建立了相應(yīng)字符庫。這對漢字識別的發(fā)展起到極大的推動作用。
而在20世紀80年代,手寫體漢字識別技術(shù)才剛剛起步,僅作為印刷體漢字識別產(chǎn)品的附加功能,識別率低,實用性不強。但至21世紀初,聯(lián)機手寫體漢字識別技術(shù)由于可通過筆畫的先后順序進行識別,發(fā)展已經(jīng)較為完善,也有多種實用的聯(lián)機手寫體漢字識別產(chǎn)品面世。然而,脫機手寫體識別技術(shù)仍處于萌芽階段。
1.3 深入探索期(21世紀初至今)
在21世紀初期,印刷體漢字識別技術(shù)已經(jīng)完善的背景下,越來越多的學者將目光投向了脫機手寫體漢字識別技術(shù),并構(gòu)建出基本識別流程,針對漢字分類提出了多種方法。主要分類方法分為:統(tǒng)計模式識別與結(jié)構(gòu)模式識別。這兩種方法各有利弊,但實用性尚為欠缺。近幾年隨著人工智能的發(fā)展,人工神經(jīng)網(wǎng)絡(luò)、多分類器聚合等方法也相繼被提出。
近年來,騰訊云OCR推出手寫體漢字識別服務(wù);百度、科大訊飛等互聯(lián)網(wǎng)企業(yè)也推出了手寫體漢字識別產(chǎn)品。但是,真正有效實用的脫機手寫體漢字識別技術(shù)仍然需要科學家們繼續(xù)深入探索。
2 手寫體漢字識別基本原理
目前,計算機對手寫體漢字進行識別分為兩種類別:聯(lián)機手寫體漢字識別與脫機手寫體漢字識別。盡管聯(lián)機識別時有筆順可進行輔助參考,但兩種類別的基本原理大致相同,均分為:樣本輸入、預(yù)處理、特征提取、分類識別、末處理等五大流程(參見圖1)。
2.1 樣本輸入
樣本輸入,指的是將所需識別的漢字通過拍攝圖片、掃描等手段,轉(zhuǎn)換為計算機所能識別的圖像。在聯(lián)機手寫體漢字識別中,不僅要將相應(yīng)的圖像信息輸入電腦,也需把對應(yīng)的筆畫順序輸入電腦,以作為分類識別時的輔助參考。由于缺少相應(yīng)的筆畫順序作為輔助判斷的工具,脫機手寫體漢字識別在下列步驟中的識別速度與準確率目前均不及聯(lián)機手寫體漢字識別。
2.2 預(yù)處理
預(yù)處理,指的是計算機對輸入的圖像通過二值化、去噪等手段,降低圖片的維度,通過扭轉(zhuǎn)校正等方法,初步規(guī)范漢字圖像,繼而對圖像進行切分,切分出單一的漢字,以便于對漢字的特征提取并降低識別的錯誤率。
其中:二值化指的是,對圖片進行灰度處理,將圖片轉(zhuǎn)換為黑白色,并用坐標的方式標記各個像素點,從而簡化計算機對漢字特征提取的難度,降低出錯率。去噪指的是,對圖像中的孤立點、孤立的筆畫、污點等進行去除,以簡化識別難度,降低對CPU的使用率,降低對計算機硬件的要求。扭轉(zhuǎn)校正是指:將歪斜扭曲的筆畫變化成整齊規(guī)則的標準筆畫,或?qū)⒉煌煮w、風格的文字統(tǒng)一轉(zhuǎn)換為標準字體,從而降低分類識別的難度。
2.3 特征提取
特征提取,指的是計算機對漢字中能夠體現(xiàn)出差異的特有信息進行提取,例如:提取漢字的偏旁部首、筆畫的離散程度等。目前,特征提取方法主要分為兩種:提取結(jié)構(gòu)特征與提取統(tǒng)計模式特征。提取結(jié)構(gòu)特征是指:提取漢字結(jié)構(gòu)中的特殊結(jié)構(gòu),如:部首、框架等,并記錄提取的信息以供分類識別使用。
該方法的優(yōu)點是易識別形近字,對不同字體的識別能力較強。但是,此方法對預(yù)處理要求較高,若預(yù)處理的圖像中出現(xiàn)斷裂、連筆等影響因素,此方法的提取成功率將會下降。而提取統(tǒng)計模式特征指的是:對樣本的坐標進行數(shù)學變換,利用傅里葉變換、Gabor變換等數(shù)學方法,再結(jié)合正態(tài)分布等統(tǒng)計方法來提取漢字特征。這種方法對預(yù)處理要求較低,但識別形近字、不同字體漢字的能力較弱。
2.4 分類識別
分類識別是指:利用上一步所提取的漢字特征信息,在計算機的字符庫中進行檢索比對,檢索出相似程度最高的漢字作為輸出結(jié)果。這種檢索比對的方法被稱為分類識別方法。目前,漢字的主流分類識別方法有基于結(jié)構(gòu)的識別方法、基于統(tǒng)計模式的識別方法、神經(jīng)網(wǎng)絡(luò)識別法、貝葉斯決策法與支持向量機法等。其中神經(jīng)網(wǎng)絡(luò)識別法與支持向量機法是時下的熱點研究方向。
各種分類方法適用不同的情形,有他們各自的優(yōu)缺點,例如基于結(jié)構(gòu)的識別方法中,隱馬爾科夫模型是其中的典型,該方法成功率較高,在中小字符集的識別中成功率較高,但在識別大字符集方面識別率較低。而支持向量機法,擁有識別率較高,適應(yīng)訓練字符集較小情況等優(yōu)勢,復雜程度高,對大字符集的識別時間較長。
2.5 末處理
在分類識別給出結(jié)果后,需要計算機通過解析句式結(jié)構(gòu)來驗證對漢字識別的正確與否。此時,聯(lián)機手寫體漢字識別還可以通過筆畫順序來輔助驗證。若驗證通過,則輸出識別結(jié)果;若驗證未通過,如:出現(xiàn)識別亂碼或語意等嚴重不符時,則反饋給分類識別環(huán)節(jié)重新進行識別。末處理能夠顯著降低識別的錯誤率。目前,科學家也在試圖用增加末處理的環(huán)節(jié)等手段來提高手寫體漢字識別的準確率。
3 手寫體漢字識別技術(shù)的短板及發(fā)展趨勢
近年來,聯(lián)機手寫體漢字識別由于擁有可以運用筆畫順序來輔助識別的優(yōu)勢,發(fā)展比脫機手寫體漢字識別技術(shù)較快。目前,市場上已經(jīng)有為數(shù)眾多的聯(lián)機漢字識別產(chǎn)品供大眾使用。即使目前已有脫機手寫體漢字識別技術(shù)產(chǎn)品問世,我們也無法忽視脫機手寫體漢字識別技術(shù)中仍然存在的問題。下面將大致說明脫機手寫體漢字識別技術(shù)存在的缺陷。
3.1 識別準確率較低
脫機手寫體漢字識別技術(shù)由于只能夠通過輸入的圖像進行分析,受字體風格、連筆、缺損、污點、扭曲等因素影響較大,給予預(yù)處理及特征提取步驟不小的困難。這也導致了在一開始的兩步中極易出現(xiàn)錯誤,從而導致后面分類識別環(huán)節(jié)中的錯誤,降低了識別準確率。
3.2 反應(yīng)時間長,對計算機硬件要求高
脫機手寫體漢字識別技術(shù)由于缺乏筆畫作為輔助參考,一個漢字往往有幾個,甚至幾十個、上百個相似的漢字。因此在分類識別環(huán)節(jié)中,相應(yīng)的算法較為復雜,檢索比對的耗時較長,從而拖慢了整個流程的反應(yīng)時間。這也使得該技術(shù)對計算機硬件的要求較高,特別是對CPU的要求較高,并且增加能耗,浪費資源。
3.3 分類識別方法的適應(yīng)性較差
盡管目前某些分類識別方法在某一方面的識別準確率、反應(yīng)時間表現(xiàn)均比較出色,但或多或少都存在著不足之處。例如:隱馬爾科夫模型在中小字符集的識別中成功率較高,但在識別大字符集方面識別率較低;貝葉斯決策法識別正確率較高,但其需要的樣本量較大,計算較為復雜,同時對硬件的要求也比較高;神經(jīng)網(wǎng)絡(luò)識別法在小字符集識別方面表現(xiàn)優(yōu)異,但若將大字符集拆分成小字符集來識別,又會造成響應(yīng)時間過長等問題。
雖然脫機手寫體漢字識別技術(shù)仍需進一步完善,市場上產(chǎn)品較少,用戶反饋不佳。但脫機手寫體漢字識別技術(shù)依然存在著較大的應(yīng)用市場空間。隨著科學家們對相應(yīng)技術(shù)的進一步改進,手寫識別領(lǐng)域出現(xiàn)了許多新的發(fā)展方向。
1)利用多種方法進行漢字切分。通過運用多種方法對圖像中的漢字進行切分,能夠有效地減少后面步驟中的反應(yīng)時間與識別錯誤率,降低對計算機硬件的需求,從而提升脫機手寫體漢字識別技術(shù)的實用性。
2)將多種分類方法并行??茖W家們認為,如果將多種分類器并行使用、取長補短,將會大大提高脫機手寫體漢字識別技術(shù)的識別準確率,以達到用戶滿意的程度。
3)延長末處理流程。一些學者指出,通過延長末處理流程,如增加利用語意等語法因素在末處理步驟中進行查證,能夠進一步提升脫機手寫體漢字識別技術(shù)的識別準確率,同時也不會對計算機硬件提出更高的要求。
4 結(jié)論
文章對手寫體漢字識別技術(shù)的發(fā)展歷程、基本原理及未來發(fā)展的趨勢進行了概述與展望。能夠看出,近年來,聯(lián)機手寫體漢字識別技術(shù)已經(jīng)逐漸完善,市場上也出現(xiàn)較多的聯(lián)機手寫體漢字識別產(chǎn)品。脫機手寫體漢字識別技術(shù)從無到有?;驹硪草^為清晰。但是,脫機手寫體漢字識別技術(shù)仍不完善,存在著識別準確率較低、反應(yīng)時間長、計算復雜、對硬件要求高等缺陷,制成的產(chǎn)品詬病頗多。
在不斷研究的同時,科學家們開始嘗試運用多種方法對漢字進行切分、將多種分類方法并行、增加末處理環(huán)節(jié)流程等方法,從而使這項技術(shù)能夠真正的實用化。相信通過解決這些難題,可以將脫機手寫體漢字識別技術(shù)更好地運用于大眾的日常生活,贏得用戶的贊許。
參考文獻
[1]孫華,張航.漢字識別方法綜述[J].計算機工程,2010,36(20):194-197.
[2]何志國,曹玉東.脫機手寫體漢字識別綜述[J].計算機工程,2008,34(15):201-204.
[3]宋佳.模式識別綜述及漢字識別的原理[J].科技廣場,2007(9):133-135.
[4]丁曉青.漢字識別研究的回顧[J].電子學報,2002,30(9):1364-1368.