王元媛
鞍山市民政事務(wù)服務(wù)中心 遼寧 鞍山 114010
采用OCR技術(shù)能使檔案信息資源進(jìn)行全文的信息檢索,能使利用者在任何地方實現(xiàn)文件的檢索以及對其進(jìn)行引用和復(fù)制等操作,方便利用者對所需檔案內(nèi)容的查詢和利用,拓寬了利用檔案的范圍。
檔案數(shù)字化是檔案現(xiàn)代化管理工作發(fā)展的第二次突破,第一次突破是利用計算進(jìn)行檔案目錄檢索,建立了檔案信息目錄數(shù)據(jù)庫。第二次突破實現(xiàn)了檔案信息數(shù)字化管理,將所需要的檔案信息進(jìn)行電子化掃描,根據(jù)掃描的成果建立起包括檔案圖文信息和全文信息的數(shù)據(jù)庫,將傳統(tǒng)檔案信息管理中所利用的目錄檢索方法進(jìn)行了改變,利用人工錄入、計算機(jī)掃描和OCR技術(shù)等方法將紙質(zhì)檔案的信息通過數(shù)據(jù)庫或圖像的形式保存在計算機(jī)的儲存系統(tǒng)里,從而實現(xiàn)對檔案信息的全文查找、閱讀和檢索功能,提高了檔案工作的利用效率。
OCR技術(shù)是光學(xué)字符識別的英文縮寫,該技術(shù)的發(fā)展可分為三個階段:第一階段只能夠識別指定的字體、印刷形式下的數(shù)字、英文和小部分的符號;第二階段則可以進(jìn)行手寫體字符的識別;第三階段主要針對的是解決技術(shù)方面問題的,例如對文字質(zhì)量較差的文檔進(jìn)行識別。
我國在OCR技術(shù)上的研究盡管起步較晚,但發(fā)展速度快,應(yīng)用范圍廣,文字識別的正確率不斷提高,使全文檢索成為可能,為用戶解決了面對大篇幅的檔案目錄查找無從下手的情況。OCR技術(shù)應(yīng)用的目的是減少大量的文字錄入和打印從而提高工作效率,運用OCR技術(shù)是代替手動輸入最適宜的方法之一。
OCR技術(shù)的原理是將操作對象利用光學(xué)儀器所產(chǎn)生的影像進(jìn)行儲存,再利用計算機(jī)對其進(jìn)行進(jìn)一步的加工處理,將一些可能影響識別率的因素盡可能消除掉一些,然后對影像做出分割,將其轉(zhuǎn)化為可以進(jìn)行獨立識別的模塊,對這些影像模塊中的形態(tài)特征進(jìn)行提取并與標(biāo)準(zhǔn)數(shù)據(jù)庫中的數(shù)據(jù)相對比,最后從對比結(jié)果中來判定影像模塊所對應(yīng)的識別結(jié)果。其工藝過程包括以下六個方面:
1.信息輸入:利用各種類型的光學(xué)儀器如:掃描儀、傳真機(jī)等將需要進(jìn)行OCR處理的對象資料進(jìn)行處理,形成影像材料并轉(zhuǎn)入計算機(jī)中。
2.影像前處理:包括從一個黑白或者彩色的影像到將單個的文字影像模塊獨立出來的整個過程,還包括影像標(biāo)準(zhǔn)化、消除噪音、影像矯正等處理以及文字圖片分析、文字間單個字或字行之間的分離等文件的前處理工作。
3.提取文字特征:在OCR技術(shù)的應(yīng)用中如何抽取特征,一個是統(tǒng)計方面的特征另一個是結(jié)構(gòu)方面的特征,抽取什么樣的特征能夠直接影響到識別效果程度的高低。
4.比較識別:利用統(tǒng)計特征和結(jié)構(gòu)特征來進(jìn)行文字特征的提取,要和數(shù)據(jù)庫進(jìn)行對比的后處理工作,并根據(jù)所識別出的文字在可能與它相近的備選文字集合中找到與其字義最相近的文字或詞語進(jìn)而達(dá)到對比識別結(jié)果。
5.人工校正:就是要求工作人員尋找和改正OCR技術(shù)可能出現(xiàn)和已經(jīng)出現(xiàn)的錯誤,不僅需要擁有一個穩(wěn)定的識別和處理技術(shù),還需要具備一系列合理奏效的人工校正工作流程來保證軟件的工作效率和精準(zhǔn)性。
6.結(jié)果輸出:就是將利用OCR技術(shù)所得到的文件結(jié)果依照用戶的需求傳遞給用戶的過程。
(一)注重技術(shù)問題
信息識別領(lǐng)域的技術(shù)不再限于對識別對象單一特征進(jìn)行操作,而是結(jié)合了OCR識別軟件、圖像處理、信息自動采集等相關(guān)技術(shù),通過各類型的識別方法對多個識別對象進(jìn)行處理工作,提高了識別的準(zhǔn)確率,促使檔案數(shù)字化等相關(guān)領(lǐng)域的工作質(zhì)量的提高。一些需要通過掃描技術(shù)進(jìn)行輔助工作的OCR識別軟件很難對較繁瑣的信息以及手寫形式的信息進(jìn)行識別,所以需要通過減少可識別部分的比例來達(dá)到減少出錯率的目的,OCR軟件系統(tǒng)中最基本的功能就是對文件進(jìn)行大批量的自動識別。
(二)掃描和OCR操作應(yīng)同步進(jìn)行
有些單位將所需的檔案進(jìn)行掃描并儲存下來,等積攢到一定程度再對其進(jìn)行數(shù)字化加工。在OCR識別過程中對于一些相關(guān)對象標(biāo)準(zhǔn)的要求比較嚴(yán)格,掃描之后再進(jìn)行OCR操作一方面是會引發(fā)部分工作上的重復(fù),另一方面甚至還可能導(dǎo)致OCR操作不能順利進(jìn)行,所以各企事業(yè)單位在進(jìn)行檔案數(shù)字化的過程中一定要盡可能的保證掃描和OCR識別操作在同一時段進(jìn)行,必須慎重處理以免為日后的進(jìn)一步識別留下難題。
(三)數(shù)字化建設(shè)應(yīng)循序漸進(jìn)
檔案數(shù)字化管理工作是一個長期的、緩慢的過程。在這個過程中的前期處理、文件分類、中期操作、后期檢查、規(guī)范制定、OCR處理一直到成果的最終提供利用都是必不可少的環(huán)節(jié),在整個工作流程進(jìn)行的過程中操作難易程度逐漸加深,工作人員和領(lǐng)導(dǎo)人員的職能水平也在同步的逐漸深入。因此,進(jìn)行檔案數(shù)字化建設(shè)要循序漸進(jìn),不能操之過急。
(四)對手寫文件應(yīng)細(xì)致處理
檔案數(shù)字化應(yīng)用OCR技術(shù)對于手寫字體的文件尤其是對留存時間比較久遠(yuǎn)的歷史檔案來說其識別的能力就會很低,嚴(yán)重時還有可能出現(xiàn)亂碼的形式,影響閱讀和進(jìn)一步的利用工作。對于這種問題其解決方式一方面就是利用人工對掃描識別后的成果進(jìn)行一一校對,以便達(dá)到準(zhǔn)確檢索全文的目的,另一方面就是放棄全文檢索的功能轉(zhuǎn)變?yōu)橐揽磕夸洐z索的形式,在OCR識別效果極差的條件下,針對OCR技術(shù)操作中的一些弊端退而求其次,所以在檔案數(shù)字化中應(yīng)用OCR技術(shù)對于手寫體檔案的識別尤其是留存時間長、質(zhì)量差的檔案文件不適合識別。
OCR技術(shù)核心問題是識別率,OCR技術(shù)在識別率方面有相應(yīng)的具體國家標(biāo)準(zhǔn),如果識別率低于國家標(biāo)準(zhǔn),就務(wù)必要加大后期校對修改的工作量,所以要想盡量縮減工作中所需要的人力和物力資源,提升工作效率,減少工作所需的成本就需要使用擁有較高識別率的OCR技術(shù),因此必須做好提高OCR技術(shù)識別率的一系列工作。
(一)選擇較好的OCR軟件
當(dāng)前市面上應(yīng)用比較廣泛的OCR軟件有:清華紫光、漢王、百度OCR等。在互聯(lián)網(wǎng)上也可免費下載使用OCR軟件,通常功能少而且識別性較低,只能對圖像信息質(zhì)量好的檔案材料有比較好的識別效果。還有一類在掃描系統(tǒng)中存在的例如丹青、蒙恬等技術(shù)軟件,這類軟件也具有功能少識別率低的缺陷。因此提倡使用正規(guī)的專業(yè)性強(qiáng)的OCR軟件系統(tǒng),減少后期檢查的工作時間。
(二)設(shè)置合適的掃描參數(shù)
在利用OCR技術(shù)掃描操作之前就需要對相關(guān)的參數(shù)進(jìn)行設(shè)置,以達(dá)到提高OCR技術(shù)識別率的目的。
1.分辨率的設(shè)定
影響OCR技術(shù)識別率的重要因素就是分辨率。分辨率較低,所得到的圖像信息就不夠完善,掃描時識別率并不隨著分辨率的提升而加大。如果分辨率過于高,應(yīng)用在一些具有失真可能性的掃描設(shè)備上時就會因為文件原稿的字跡深淺不一而導(dǎo)致將本身是一體的文字拆裂開來,最終降低整體的識別度,還會使文件占據(jù)更多的內(nèi)存影響到后續(xù)的儲存和傳遞工作。掃描的分辨率建議選擇大于或等于200dpi,但是在實際操作中發(fā)現(xiàn)200dpi數(shù)值相對較小,通過多次實踐證明設(shè)置為300dpi是最適宜的數(shù)值。
2.色彩模式的選擇
在OCR識別技術(shù)中對于色彩模式的選擇一般選用黑白兩種顏色的模式在識別快慢和準(zhǔn)確程度效果好,因為在一般的文本文件中只需要利用黑、白兩種顏色,使用的顏色過于繁雜反而會影響識別的結(jié)果。對于灰度模式來說針對像一些因為原件老舊而導(dǎo)致的紙張變黃或者字跡變淡的材料來說應(yīng)用的比較廣泛,在對這類文件進(jìn)行掃描之后需要對圖像的一些方面進(jìn)行修改,在修改中就可以通過灰度模式的設(shè)置利用系統(tǒng)的功能將一定灰度值以下的部分識別為白色,而其他的部分識別為黑色,最終形成黑白分明的效果。對于一些載體是比較輕薄透明的紙張形式的文件來說,在進(jìn)行OCR識別的過程中識別率會受到一定的影響,這時可以在進(jìn)行掃描的過程中,在掃描對象的下面鋪上一張白紙利用灰度模式進(jìn)行掃描就可以在一定程度上提升掃描的質(zhì)量。
3.亮度與對比度
在亮度調(diào)節(jié)方面要保證掃描后得到的圖像中的文字筆劃纖細(xì)但是不能斷開。針對部分原文字跡比較淺而且筆劃比較細(xì)的檔案來說,可以通過適當(dāng)降低亮度來進(jìn)行調(diào)節(jié);而對于字體比較小,筆劃卻比較粗的檔案來說要提高亮度來保證識別度的數(shù)值。掃描與上述情況相反檔案要利用灰度模式進(jìn)行掃描,再利用各類修圖軟件通過提高亮度的方式盡量將底色轉(zhuǎn)變成白色,在這個過程中還可以修復(fù)一些原來存在的污點瑕疵。在對亮度進(jìn)行修改的過程中會導(dǎo)致文字的顏色也同時變淡,通過對比度方面的調(diào)節(jié)把較淡的文字變暗,使文字凸顯的更加清晰,更加劇了文字與底色的明暗對比程度,從而達(dá)到提高OCR識別率的目的。
(三)對圖像進(jìn)行糾偏去污處理
影響OCR技術(shù)的識別率的因素還有文字不規(guī)范、文字偏斜或存在污漬。首先與一張較為傾斜的圖像相比其經(jīng)過糾正后的圖像識別率要高出原圖像至少10%,其次對于存在污漬的文字來說,在識別的過程中也會產(chǎn)生不好的影響導(dǎo)致識別率的下降。最可行的辦法就是在進(jìn)行識別操作之前就對將要識別的圖像中的文字進(jìn)行糾偏和去污處理,來保證最終識別率的滿意程度。
(四)仔細(xì)進(jìn)行人工校對
現(xiàn)階段我國OCR技術(shù)仍然達(dá)不到100%的識別率,所以要通過人工校對來彌補(bǔ)這一不足。為方便校對,OCR在識別的過程中軟件自身發(fā)現(xiàn)的無法識別或其他情況通常會用突出的顏色進(jìn)行標(biāo)識,但也要注意有不準(zhǔn)確的現(xiàn)象發(fā)生。
總之,要確保OCR技術(shù)具有較高的識別率,就要選擇合適的OCR軟件,掃描參數(shù)中分辨率、色彩模式、亮度和對比度等各數(shù)值的準(zhǔn)確設(shè)定,圖像的糾偏和去污處理以及人工校對工作的嚴(yán)格把關(guān),保證檔案數(shù)字化質(zhì)量。