王 瑜
(中國電建集團(tuán)北京勘測設(shè)計(jì)研究院有限公司,北京 100024)
OCR(Optical Character Recognition,光學(xué)字符識(shí)別)是指電子設(shè)備(例如掃描儀或數(shù)相機(jī))檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程;即針對(duì)印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件,并通過識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)一步編輯加工的技術(shù)。
在信息時(shí)代的檔案管理中,OCR識(shí)別是非常實(shí)用的工具。很多老舊的檔案在形成之初受年代限制沒有一開始就形成電子文件的條件,所以只能靠后期掃描完成數(shù)字化,這樣的文件在企業(yè)中依然有著龐大的數(shù)量,而這龐大數(shù)量的未數(shù)字化的檔案給檔案管理帶來了很大的難度,急需一種可以幫助檔案管理工作人員提高效率的方式來解決問題,這個(gè)時(shí)候OCR識(shí)別自然而然的被關(guān)注。OCR技術(shù)相對(duì)于傳統(tǒng)的手工錄入方式來說,具有強(qiáng)大的優(yōu)勢,首先OCR識(shí)別的速度遠(yuǎn)快于手工錄入。根據(jù)國際通行的打字速度評(píng)級(jí)標(biāo)準(zhǔn),即使是專業(yè)人員,每分鐘也僅能輸入150-240個(gè)字,而采用OCR技術(shù),即使算上前后期的處理環(huán)節(jié)所花的時(shí)間,其速度也比手工錄入快很多。其次,OCR識(shí)別的準(zhǔn)確率也遠(yuǎn)高于手工錄入,在檔案文本提取方面優(yōu)勢卓越,為后面的檔案全文檢索功能提供了基礎(chǔ),并且可以大大節(jié)省人力資源,優(yōu)化資源配置,使檔案人員可以從繁忙的錄入工作中解脫出來,把精力分配給更加有意義的工作。
OCR識(shí)別技術(shù)分為兩個(gè)具體步驟:文字的檢測和文字的識(shí)別,兩者缺一不可,尤其是文字檢測,是識(shí)別的前提條件,若文字都找不到,那何談文字識(shí)別文本檢測不是一件簡單的任務(wù),尤其是復(fù)雜的檔案數(shù)字化下的文本檢測,非常具有挑戰(zhàn)性。檔案信息化場景下的文本檢測有如下幾個(gè)難點(diǎn):
早期的檔案的文本存在多種分布,許多檔案中包含圖片和文字,甚至多數(shù)情況下采用圖文混排的形式,老檔案紙面發(fā)黃,字跡模糊這就給OCR的掃描識(shí)別增加了難度。當(dāng)然除了檔案全文的文字識(shí)別,在檔案著錄環(huán)節(jié),OCR識(shí)別也很難提取有用信息。著錄時(shí)主要從需從檔案中提取文件題名、責(zé)任者、人名、密級(jí)、保密期限等信息,填寫到檔案系統(tǒng)的相應(yīng)位置。而這些信息因?yàn)樵缙跈n案格式不規(guī)范,或者檔案種類的不同的原因,所在的位置也不同,很難總結(jié)出一個(gè)可以一套公式用到底的規(guī)律。
建立的檔案數(shù)字化系統(tǒng)必須與本單位的存儲(chǔ)和應(yīng)用系統(tǒng)兼容,否則會(huì)造成不必要的運(yùn)行環(huán)境問題。引進(jìn)OCR軟件也一定要與OCR軟件也一定要與本單位的存儲(chǔ)和應(yīng)用系統(tǒng)兼容,便于今后的數(shù)據(jù)管理與利用,這一點(diǎn)在需求分析中應(yīng)涉及。
國家檔案局的《DA/T 77-2019 紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識(shí)別(OCR)工作規(guī)范》中對(duì)檔案的OCR識(shí)別早有規(guī)定,按照T 77規(guī)定,OCR識(shí)別時(shí)首先掃描時(shí)就需要注意,紙質(zhì)數(shù)字復(fù)制件的圖片分辨率不應(yīng)低于200dpi,特殊情況下,如字體偏小、密集、清晰度較差等,可以適當(dāng)提高分辨率。圖像應(yīng)做降噪處理,處理中應(yīng)去除掃描過程中產(chǎn)生的污點(diǎn)、污線、黑邊等影響圖像質(zhì)量的雜種,去除檔案頁面原有的紙張褪變斑點(diǎn)、水漬、污點(diǎn)。裝訂孔等影響識(shí)別的地方。其次調(diào)節(jié)檔案的亮度、對(duì)比度。部分檔案由于年代久遠(yuǎn),很多會(huì)底色發(fā)黃、字跡變淡,若要提高OCR識(shí)別率,需要改變很多參數(shù),即調(diào)節(jié)亮度和對(duì)比度,且應(yīng)先調(diào)亮度再調(diào)對(duì)比度。
要選擇好的OCR軟件,目前,市場上比較流行的OCR軟件很多,主要有百度文字、騰訊云、科大訊飛、清華紫光。漢王等品牌。各個(gè)品牌都有不同的特點(diǎn),可以就檔案系統(tǒng)接口情況選擇。其次在著錄時(shí)無法提取有效信息的問題,可以通過人工框選的方式來解決。其次訓(xùn)練OCR識(shí)別軟件的機(jī)器學(xué)習(xí)功能,減少文字識(shí)別的誤差。只有OCR軟件和人工搭配工作,才能更好地完成檔案管理。
檔案管理是一門相當(dāng)繁瑣又傳統(tǒng)的學(xué)問,他記錄著我們每個(gè)人、每個(gè)行業(yè)、甚至世界各民族的榮辱浮沉、盛衰興亡。而OCR技術(shù)的存在能讓檔案這門古老的學(xué)問煥發(fā)出光來。我相信只有深刻學(xué)習(xí)各種技術(shù),才可以使得我們管理的檔案在日后發(fā)揮更大的作用。