◆郭 軍
(鐵道警察學(xué)院 河南 450000)
基于OCR軟件性能的文本型數(shù)字圖像OCR識(shí)別準(zhǔn)確度提高策略研究
◆郭 軍
(鐵道警察學(xué)院 河南 450000)
本文以O(shè)CR軟件性能為視角,從對(duì)圖像噪聲的免疫力、對(duì)標(biāo)點(diǎn)符號(hào)的辨識(shí)、數(shù)字圖像預(yù)處理能力、能夠辨識(shí)的內(nèi)容范圍、交互界面便捷性、軟件自學(xué)習(xí)功能等7個(gè)方面對(duì)OCR識(shí)別準(zhǔn)確度的影響因素展開(kāi)分析,并提出相應(yīng)針對(duì)性的應(yīng)對(duì)策略。
OCR識(shí)別;文本型數(shù)字圖像;信息資源數(shù)字化
OCR(Optical Character Recognition,光學(xué)字符識(shí)別)這一概念最早于1929年由德國(guó)科學(xué)家Tausheck提出[1]。信息資源數(shù)字化工作的目標(biāo)對(duì)象,是大量甚至海量的紙質(zhì)載體或固體載體形態(tài)的文獻(xiàn)資源,OCR憑借自身的智能識(shí)別及批量操作性能得以在信息資源數(shù)字化工作中廣泛應(yīng)用。信息資源數(shù)字化工作中的 OCR識(shí)別,其生命周期可以劃分為數(shù)字掃描對(duì)象的獲取、數(shù)字圖像的生產(chǎn)、數(shù)字圖像的處理和OCR文本識(shí)別等四個(gè)階段[2]。OCR文本識(shí)別,是信息資源數(shù)字化 OCR識(shí)別生命周期中的最后階段,是決定識(shí)別準(zhǔn)確度的關(guān)鍵階段。本文嘗試以O(shè)CR軟件性能為視角,對(duì) OCR識(shí)別階段影響識(shí)別準(zhǔn)確度的相應(yīng)因素展開(kāi)分析并提出針對(duì)性的應(yīng)對(duì)策略。
筆者曾借助具體的 OCR識(shí)別案例對(duì)清華紫光股份有限公司的 TH-OCR MF7.5、北京漢王科技股份有限公司的HW-PDF-OCR8.0等兩款常用OCR識(shí)別軟件的性能進(jìn)行分析[3],結(jié)果表明 OCR識(shí)別階段軟件性能是影響是識(shí)別準(zhǔn)確度的關(guān)鍵因素。具體而言,文本識(shí)別階段OCR 軟件的性能優(yōu)劣主要體現(xiàn)在對(duì)形近字符的辨識(shí)、對(duì)圖像噪聲的免疫力、對(duì)標(biāo)點(diǎn)符號(hào)的辨識(shí)、數(shù)字圖像預(yù)處理能力、能夠辨識(shí)的內(nèi)容范圍、交互界面便捷性、軟件自學(xué)習(xí)功能等7個(gè)方面。
1.1 對(duì)形近字符的辨識(shí)
文本型數(shù)字圖像的 OCR識(shí)別,實(shí)際上是基于字符圖案筆畫(huà)邊緣特征的模板匹配過(guò)程[4]。形近字符(如“籍”和“藉”、“璧”和“壁”)之間在筆畫(huà)邊緣部分存在較大相似度,辨識(shí)過(guò)程中容易造成 OCR軟件的誤判。信息資源數(shù)字化實(shí)踐證明,因誤判形近字符造成的錯(cuò)誤識(shí)別在影響OCR識(shí)別準(zhǔn)確度的眾多因素中穩(wěn)居前列。
1.2 對(duì)數(shù)字圖像噪聲的“免疫力”
在對(duì)文本型數(shù)字圖像進(jìn)行 OCR識(shí)別之前,通常均已經(jīng)過(guò)了數(shù)字圖像的預(yù)處理操作,一般都對(duì)數(shù)字圖像中的噪聲進(jìn)行了降噪處理。但是,受數(shù)字圖像預(yù)處理程度、文本型數(shù)字圖像自身質(zhì)量等因素影響,在對(duì)文本型數(shù)字圖像進(jìn)行 OCR識(shí)別時(shí)數(shù)字圖像中往往仍然存在著不同程度的噪聲。因此,OCR識(shí)別軟件必須對(duì)數(shù)字圖像中的噪聲具備一定的抗干擾能力。
1.3 對(duì)標(biāo)點(diǎn)符號(hào)的辨識(shí)
文本型數(shù)字圖像中的標(biāo)點(diǎn)符號(hào)具備字符圖案體積小、所處空間位置特殊等兩個(gè)顯著特點(diǎn)。標(biāo)點(diǎn)符號(hào)字符圖案體積小,容易與其臨近的文字字符圖案混為一體,造成 OCR軟件的錯(cuò)誤辨識(shí)。標(biāo)點(diǎn)符號(hào)字符圖案所處空間位置偏僻、且成對(duì)出現(xiàn)的標(biāo)點(diǎn)符號(hào)的不同部分之間往往有文字字符圖案,容易對(duì)OCR軟件的完整、準(zhǔn)確辨識(shí)造成干擾。
1.4 數(shù)字圖像預(yù)處理能力
在對(duì)文本型數(shù)字圖像(尤其是原始印刷、排版質(zhì)量欠佳的數(shù)字圖像)進(jìn)行正式識(shí)別之前,需要借助 OCR軟件的圖像預(yù)處理功能對(duì)數(shù)字圖像進(jìn)行微調(diào),微調(diào)效果對(duì)識(shí)別準(zhǔn)確度有直接影響。OCR軟件的圖像預(yù)處理功能主要包括圖像旋轉(zhuǎn)、傾斜矯正、剪切以及亮度、對(duì)比度、飽和度、清晰度調(diào)整等。
1.5 支持辨識(shí)的內(nèi)容范圍
文本型數(shù)字圖像中的字符信息,在語(yǔ)言種類、字體類別、字號(hào)大小等方面經(jīng)常呈現(xiàn)出混合排列的現(xiàn)象,部分?jǐn)?shù)字圖像的文本內(nèi)容為手寫(xiě)體稿件,部分?jǐn)?shù)字圖像的文本內(nèi)容中在打印版字符圖案旁還存在手寫(xiě)體批注內(nèi)容。OCR軟件能夠支持辨識(shí)的內(nèi)容范圍,不僅應(yīng)包括常規(guī)印刷版面的數(shù)字圖像,還應(yīng)支持對(duì)綜合、復(fù)雜版面數(shù)字圖像的辨識(shí)。
1.6 交互界面便捷性
信息資源數(shù)字化操作過(guò)程中,OCR軟件交互界面的友好、便捷程度會(huì)對(duì)操作人員的使用舒適性和最終的識(shí)別準(zhǔn)確度造成影響。OCR軟件交互界面的便捷性主要體現(xiàn)在頁(yè)面及窗口切換、快捷鍵及工具欄設(shè)計(jì)、鍵盤(pán)操作和鼠標(biāo)操作的兼容性、數(shù)據(jù)輸入、編輯及輸出保存的便利程度等方面。
1.7 軟件自學(xué)習(xí)功能
信息資源數(shù)字化過(guò)程中,同一字符圖案的辨識(shí)會(huì)經(jīng)常反復(fù)多次出現(xiàn)。對(duì)同一字符圖案的辨識(shí),其操作具有統(tǒng)一性與穩(wěn)定性。為確保識(shí)別準(zhǔn)確度,OCR軟件應(yīng)具備一定程度的自學(xué)習(xí)功能,自動(dòng)記憶存儲(chǔ)并強(qiáng)化對(duì)部分特殊字符圖案(形近字符、易混字符、簡(jiǎn)寫(xiě)手稿等)的辨識(shí)結(jié)果,并與具體的實(shí)踐操作保持同步更新。
基于上述對(duì)OCR文本識(shí)別階段識(shí)別準(zhǔn)確度影響因素的分析,筆者認(rèn)為應(yīng)圍繞強(qiáng)化OCR軟件性能,從強(qiáng)化對(duì)形近字符的辨識(shí)、提高對(duì)數(shù)字圖像噪聲的“免疫力”、增強(qiáng)對(duì)標(biāo)點(diǎn)符號(hào)的辨識(shí)、提高數(shù)字圖像預(yù)處理能力、拓展支持辨識(shí)的內(nèi)容范圍、增強(qiáng)交互界面便捷性、強(qiáng)化用戶自學(xué)習(xí)功能等7個(gè)方面著手提高文本型數(shù)字圖像的OCR識(shí)別準(zhǔn)確度。
2.1 強(qiáng)化對(duì)形近字符的辨識(shí)
(1)豐富形近字字符特征信息庫(kù)
OCR軟件對(duì)字符圖案的辨識(shí),基于被識(shí)別字符圖案特征與OCR軟件自身字符特征信息庫(kù)的比對(duì)。OCR軟件形近字符特征信息庫(kù),是其對(duì)形近字符進(jìn)行辨識(shí)的基礎(chǔ)和前提。為提高對(duì)形近字符的識(shí)別率,OCR軟件應(yīng)將各語(yǔ)種、各字體的形近字符特征抽取存儲(chǔ)至自身字符特征信息庫(kù)中,并在具體實(shí)踐過(guò)程中將其不斷豐富、完善。
(2)優(yōu)化形近字符匹配算法
OCR識(shí)別的核心和關(guān)鍵,在于被識(shí)別字符圖案特征和 OCR軟件自身字符特征庫(kù)之間的匹配算法。形近字符匹配算法,基于KMP算法、Horspool算法、BM算法、Shift-And算法等幾種常見(jiàn)的字符串匹配算法演變而來(lái)。不同的形近字符匹配算法,其出發(fā)點(diǎn)不同、匹配識(shí)別策略不同,相應(yīng)地對(duì)不同形近字符的適應(yīng)能力也不同。信息資源數(shù)字化操作實(shí)踐過(guò)程中,應(yīng)根據(jù)被識(shí)別對(duì)象的具體情況選擇合適算法的OCR軟件。
(3)加強(qiáng)人工抽驗(yàn)與校對(duì)
任何一種形近字符匹配算法,在存在其識(shí)別強(qiáng)項(xiàng)的同時(shí)也不可避免地存在著識(shí)別盲區(qū)。因此,無(wú)論選用何種算法的 OCR軟件,信息資源數(shù)字化過(guò)程中均需要有必要的人工校正干預(yù)環(huán)節(jié)。具體實(shí)踐中,對(duì)識(shí)別結(jié)果進(jìn)行全部校正不現(xiàn)實(shí)也沒(méi)必要,可采用科學(xué)抽樣的方法抽取一定數(shù)量的識(shí)別結(jié)果進(jìn)行人工校正,以彌補(bǔ)OCR軟件對(duì)形近字符的識(shí)別誤差。
2.2 提高對(duì)數(shù)字圖像噪聲的“免疫力”
在對(duì)數(shù)字圖像進(jìn)行 OCR識(shí)別之前,如果原始數(shù)字圖像中噪點(diǎn)明顯且大量存在,需要先對(duì)其進(jìn)行降噪處理。但是,信息資源數(shù)字化實(shí)踐中對(duì)全部的原始數(shù)字圖像進(jìn)行降噪處理將會(huì)耗費(fèi)大量的人力和時(shí)間成本。即便對(duì)原始數(shù)字圖像進(jìn)行降噪處理,實(shí)踐證明無(wú)論如何調(diào)整濾波方案,均無(wú)法完全去除數(shù)字圖像中的噪點(diǎn)。同時(shí),如果對(duì)原始數(shù)字圖像進(jìn)行過(guò)度濾波處理,容易對(duì)數(shù)字圖像中的字符細(xì)節(jié)特征造成損壞,反而會(huì)干擾OCR精確識(shí)別。因此,OCR軟件自身應(yīng)具備一定程度的對(duì)數(shù)字圖像噪聲的抗干擾能力,這是信息資源數(shù)字化流程中對(duì)抗數(shù)字圖像中噪聲的最后一道防線。
2.3 增強(qiáng)對(duì)標(biāo)點(diǎn)符號(hào)的辨識(shí)
提高對(duì)文本型數(shù)字圖像中標(biāo)點(diǎn)符號(hào)的識(shí)別率,應(yīng)緊緊圍繞標(biāo)點(diǎn)符號(hào)字符圖案體積小、所處空間位置特殊這兩個(gè)特點(diǎn)進(jìn)行??梢越柚岣邔?duì)原始文獻(xiàn)資料的掃描分辨率,來(lái)克服標(biāo)點(diǎn)符號(hào)字符圖案體積小的困難,但是同時(shí)應(yīng)注意如果分辨率過(guò)高反而會(huì)影響識(shí)別速度和整體識(shí)別率[5]??梢酝ㄟ^(guò)提高OCR 軟件對(duì)數(shù)字圖像中各字符圖案的切分精確度,來(lái)克服標(biāo)點(diǎn)符號(hào)所處空間位置特殊的困難。
2.4 提高數(shù)字圖像預(yù)處理能力
在對(duì)文本型數(shù)字圖像OCR識(shí)別之前,應(yīng)對(duì)其進(jìn)行必要的預(yù)處理操作。為確保識(shí)別準(zhǔn)確度,筆者認(rèn)為 OCR軟件的數(shù)字圖像預(yù)處理性能應(yīng)主要包括以下6個(gè)方面:
(1)圖像傾斜校正
因原始文獻(xiàn)資料印刷排版質(zhì)量或物理?yè)p傷,造成文本型數(shù)字圖像中的字符偏離水平或垂直方向,影響 OCR軟件對(duì)其進(jìn)行文本定位和字符分割,進(jìn)而影響后續(xù)的識(shí)別準(zhǔn)確度。因此,OCR識(shí)別之前應(yīng)進(jìn)行數(shù)字圖像傾斜校正,OCR軟件應(yīng)具備自動(dòng)校正和人工校正兩種校正功能。實(shí)際操作中,一般是以自動(dòng)校正為主,必要情況下用人工校正作為補(bǔ)充。
(2)圖像反白
數(shù)字圖像經(jīng)二值化處理之后,數(shù)字圖像中的字符圖案呈黑色,其余背景部分呈白色。經(jīng)反白處理之后,數(shù)字圖像中的字符圖案呈白色,其余背景部分呈黑色。借助圖像反白處理,可以在黑色背景下把存在于數(shù)字圖像中的噪點(diǎn)凸顯出來(lái),便于后續(xù)的降噪處理。
(3)圖像版面分析
在版面語(yǔ)種方面,OCR軟件應(yīng)支持對(duì)常見(jiàn)語(yǔ)種(如中文、英文、法文、德文)及混合語(yǔ)種內(nèi)容版面的分析能力,應(yīng)能夠根據(jù)版面語(yǔ)種的不同采取相應(yīng)的版面分析策略。在原始文獻(xiàn)資料的出版物類型方面,OCR軟件應(yīng)支持對(duì)圖書(shū)、期刊、報(bào)紙等常見(jiàn)出版類型的版面分析能力,應(yīng)能夠根據(jù)出版類型的不同采取相應(yīng)的版面分析策略。在版面分析功能類型方面,OCR軟件應(yīng)提供自動(dòng)版面分析和手動(dòng)版面分析兩種選擇,應(yīng)支持常規(guī)情況下進(jìn)行自動(dòng)版面分析,特殊情況下輔以人工版面分析。
(4)版面屬性設(shè)置
文本型數(shù)字圖像在語(yǔ)種、字體、排版等方面的存在較大差別,尤其是部分文本型數(shù)字圖像出現(xiàn)多語(yǔ)種、多字體、多版型混合排版的情況。因此,針對(duì)有特殊排版情況的文本型數(shù)字圖像,OCR軟件在對(duì)其進(jìn)行識(shí)別之前應(yīng)進(jìn)行針對(duì)性的版面屬性設(shè)置以確保精確識(shí)別。
(5)圖像旋轉(zhuǎn)
因原始文獻(xiàn)資料印刷排版質(zhì)量或者數(shù)字掃描成像階段操作不慎,容易造成文本型數(shù)字圖像在水平或垂直方向上產(chǎn)生一定角度的傾斜。為確保對(duì)文本型數(shù)字圖像的精確識(shí)別,OCR軟件應(yīng)具備圖像旋轉(zhuǎn)功能,一般應(yīng)支持在順時(shí)針(或逆時(shí)針)方向上連續(xù)旋轉(zhuǎn)90度,并支持在順時(shí)針(或逆時(shí)針)方向上連續(xù)旋轉(zhuǎn)任意角度以供選擇。
(6)圖像剪裁
因原始文獻(xiàn)資料印刷排版質(zhì)量欠佳,或流通使用過(guò)程中產(chǎn)生污損,或在數(shù)字掃描成像階段操作不慎,容易在文本型數(shù)字圖像邊沿或文字區(qū)域形成明顯的噪點(diǎn)。借助數(shù)字圖像剪裁功能,OCR軟件可以輕松去除這部分噪點(diǎn)。
2.5 拓展支持辨識(shí)的內(nèi)容范圍
信息資源數(shù)字化實(shí)踐中,原始文獻(xiàn)資料在載體形態(tài)、語(yǔ)種、字體、字號(hào)等方面呈現(xiàn)出多樣性和復(fù)雜性的特點(diǎn)。為確保精確識(shí)別,OCR軟件在面對(duì)種類繁多、類型不一的文本型數(shù)字圖像時(shí)應(yīng)具有廣泛的適應(yīng)性。一方面,OCR軟件應(yīng)支持對(duì)常見(jiàn)語(yǔ)種、常見(jiàn)字體、常見(jiàn)字號(hào)單獨(dú)或混合排列的文本型數(shù)字圖像的識(shí)別。另一方面,OCR軟件應(yīng)支持對(duì)含有手寫(xiě)字體、毛筆字、常規(guī)文字行間及旁邊的批注、藝術(shù)簽名等內(nèi)容的文本型數(shù)字圖像的識(shí)別。
2.6 增強(qiáng)交互界面便捷性
根據(jù)具體的文本型數(shù)字圖像 OCR操作實(shí)踐,筆者認(rèn)為應(yīng)從以下5個(gè)方面著手增強(qiáng)OCR軟件的交互界面便捷性。
(1)文本型數(shù)字圖像OCR識(shí)別過(guò)程中,在版面分析、圖像旋轉(zhuǎn)等環(huán)節(jié)需要將數(shù)字圖像的局部與整體進(jìn)行對(duì)比操作。OCR軟件應(yīng)能提供局部圖像與整體圖像的對(duì)比分析界面,并能提供相應(yīng)的快捷鍵設(shè)置選項(xiàng)。
(2)OCR軟件應(yīng)能在“后編改”界面下,將被識(shí)別的文本型數(shù)字圖像的原始內(nèi)容、初次識(shí)別結(jié)果及其他備選識(shí)別結(jié)果在同一窗口下集中展現(xiàn),以供用戶對(duì)初次識(shí)別結(jié)果進(jìn)行必要的判斷、編輯與修正。
(3)信息資源數(shù)字化過(guò)程中,在對(duì)文本型數(shù)字圖像進(jìn)行批量識(shí)別操作時(shí)需要將正在識(shí)別的數(shù)字圖像、已經(jīng)識(shí)別的數(shù)字圖像和尚未識(shí)別的數(shù)字圖像之間進(jìn)行參照,OCR軟件應(yīng)能夠?qū)⒛骋粏蝹€(gè)數(shù)字圖像和整批全部數(shù)字圖像之間建立鏈接與映射。
(4)OCR軟件應(yīng)結(jié)合信息資源數(shù)字化具體實(shí)踐操作需求,提供常用功能造作的快捷鍵。同時(shí),OCR軟件應(yīng)支持對(duì)快捷鍵的隱藏、顯示、編輯、重設(shè)等操作。
(5)OCR軟件應(yīng)支持用戶對(duì)識(shí)別結(jié)果存儲(chǔ)路徑和保存格式的選擇。在存儲(chǔ)路徑方面,OCR軟件應(yīng)能夠支持對(duì)識(shí)別結(jié)果存儲(chǔ)路徑的預(yù)設(shè)與編輯操作。在保存格式方面,OCR軟件應(yīng)能夠支持txt、doc、log、conf 等常用文本格式。
2.7 強(qiáng)化用戶自學(xué)習(xí)功能
OCR軟件的用戶自學(xué)習(xí),是指在信息資源數(shù)字化過(guò)程中,用戶根據(jù)實(shí)際情況用新的字符圖案匹配選擇替換已有相應(yīng)的字符圖案匹配方案,是 OCR軟件在用戶的干預(yù)下更新字符特征匹配信息庫(kù)的過(guò)程。一方面,OCR軟件借助用戶自學(xué)習(xí)功能能夠?qū)崿F(xiàn)對(duì)字符圖案匹配方案的不斷更新與優(yōu)化;另一方面,新的字符圖案特征匹配方案也可能只是對(duì)已有匹配方案的補(bǔ)充但并不能將其完全替代。因此,在信息資源數(shù)字化操作實(shí)踐過(guò)程中,OCR軟件應(yīng)能夠支持在向用戶推送新匹配方案的同時(shí),向用戶提供是對(duì)原匹配方案進(jìn)行補(bǔ)充或是替換的選項(xiàng)。
[1]Schantz,Herbert F.The History of OCR,Optical Character Recognition[J].Recognition Technologies, 1982.
[2]臧國(guó)全.文本數(shù)字化圖像OCR識(shí)別的準(zhǔn)確度測(cè)度實(shí)驗(yàn)與提高[J].圖書(shū)情報(bào)知識(shí),2010.
[3]郭軍.兩款常用中文OCR軟件的性能比較實(shí)驗(yàn)與分析[J].情報(bào)探索,2011.
[4](日)谷口慶治.?dāng)?shù)字圖像處理—應(yīng)用篇[M].北京:科學(xué)出版社,2002.
[5]張青楊.提高OCR識(shí)別率的訣竅[N].電腦報(bào),2005.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2017年5期