亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于OCR軟件性能的文本型數(shù)字圖像OCR識(shí)別準(zhǔn)確度提高策略研究

2017-03-11 01:41:08◆郭軍

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2017年5期

關(guān)鍵詞：文本

◆郭軍

（鐵道警察學(xué)院河南 450000）

基于OCR軟件性能的文本型數(shù)字圖像OCR識(shí)別準(zhǔn)確度提高策略研究

◆郭軍

（鐵道警察學(xué)院河南 450000）

本文以O(shè)CR軟件性能為視角，從對(duì)圖像噪聲的免疫力、對(duì)標(biāo)點(diǎn)符號(hào)的辨識(shí)、數(shù)字圖像預(yù)處理能力、能夠辨識(shí)的內(nèi)容范圍、交互界面便捷性、軟件自學(xué)習(xí)功能等7個(gè)方面對(duì)OCR識(shí)別準(zhǔn)確度的影響因素展開(kāi)分析，并提出相應(yīng)針對(duì)性的應(yīng)對(duì)策略。

OCR識(shí)別；文本型數(shù)字圖像；信息資源數(shù)字化

0 引言

OCR（Optical Character Recognition，光學(xué)字符識(shí)別）這一概念最早于1929年由德國(guó)科學(xué)家Tausheck提出[1]。信息資源數(shù)字化工作的目標(biāo)對(duì)象，是大量甚至海量的紙質(zhì)載體或固體載體形態(tài)的文獻(xiàn)資源，OCR憑借自身的智能識(shí)別及批量操作性能得以在信息資源數(shù)字化工作中廣泛應(yīng)用。信息資源數(shù)字化工作中的 OCR識(shí)別，其生命周期可以劃分為數(shù)字掃描對(duì)象的獲取、數(shù)字圖像的生產(chǎn)、數(shù)字圖像的處理和OCR文本識(shí)別等四個(gè)階段[2]。OCR文本識(shí)別，是信息資源數(shù)字化 OCR識(shí)別生命周期中的最后階段，是決定識(shí)別準(zhǔn)確度的關(guān)鍵階段。本文嘗試以O(shè)CR軟件性能為視角，對(duì) OCR識(shí)別階段影響識(shí)別準(zhǔn)確度的相應(yīng)因素展開(kāi)分析并提出針對(duì)性的應(yīng)對(duì)策略。

1 OCR文本識(shí)別階段識(shí)別準(zhǔn)確度影響因素分析

筆者曾借助具體的 OCR識(shí)別案例對(duì)清華紫光股份有限公司的 TH-OCR MF7.5、北京漢王科技股份有限公司的HW-PDF-OCR8.0等兩款常用OCR識(shí)別軟件的性能進(jìn)行分析[3]，結(jié)果表明 OCR識(shí)別階段軟件性能是影響是識(shí)別準(zhǔn)確度的關(guān)鍵因素。具體而言，文本識(shí)別階段OCR 軟件的性能優(yōu)劣主要體現(xiàn)在對(duì)形近字符的辨識(shí)、對(duì)圖像噪聲的免疫力、對(duì)標(biāo)點(diǎn)符號(hào)的辨識(shí)、數(shù)字圖像預(yù)處理能力、能夠辨識(shí)的內(nèi)容范圍、交互界面便捷性、軟件自學(xué)習(xí)功能等7個(gè)方面。

1.1 對(duì)形近字符的辨識(shí)

文本型數(shù)字圖像的 OCR識(shí)別，實(shí)際上是基于字符圖案筆畫(huà)邊緣特征的模板匹配過(guò)程[4]。形近字符（如“籍”和“藉”、“璧”和“壁”）之間在筆畫(huà)邊緣部分存在較大相似度，辨識(shí)過(guò)程中容易造成 OCR軟件的誤判。信息資源數(shù)字化實(shí)踐證明，因誤判形近字符造成的錯(cuò)誤識(shí)別在影響OCR識(shí)別準(zhǔn)確度的眾多因素中穩(wěn)居前列。

1.2 對(duì)數(shù)字圖像噪聲的“免疫力”

在對(duì)文本型數(shù)字圖像進(jìn)行 OCR識(shí)別之前，通常均已經(jīng)過(guò)了數(shù)字圖像的預(yù)處理操作，一般都對(duì)數(shù)字圖像中的噪聲進(jìn)行了降噪處理。但是，受數(shù)字圖像預(yù)處理程度、文本型數(shù)字圖像自身質(zhì)量等因素影響，在對(duì)文本型數(shù)字圖像進(jìn)行 OCR識(shí)別時(shí)數(shù)字圖像中往往仍然存在著不同程度的噪聲。因此，OCR識(shí)別軟件必須對(duì)數(shù)字圖像中的噪聲具備一定的抗干擾能力。

1.3 對(duì)標(biāo)點(diǎn)符號(hào)的辨識(shí)

文本型數(shù)字圖像中的標(biāo)點(diǎn)符號(hào)具備字符圖案體積小、所處空間位置特殊等兩個(gè)顯著特點(diǎn)。標(biāo)點(diǎn)符號(hào)字符圖案體積小，容易與其臨近的文字字符圖案混為一體，造成 OCR軟件的錯(cuò)誤辨識(shí)。標(biāo)點(diǎn)符號(hào)字符圖案所處空間位置偏僻、且成對(duì)出現(xiàn)的標(biāo)點(diǎn)符號(hào)的不同部分之間往往有文字字符圖案，容易對(duì)OCR軟件的完整、準(zhǔn)確辨識(shí)造成干擾。

1.4 數(shù)字圖像預(yù)處理能力

在對(duì)文本型數(shù)字圖像（尤其是原始印刷、排版質(zhì)量欠佳的數(shù)字圖像）進(jìn)行正式識(shí)別之前，需要借助 OCR軟件的圖像預(yù)處理功能對(duì)數(shù)字圖像進(jìn)行微調(diào)，微調(diào)效果對(duì)識(shí)別準(zhǔn)確度有直接影響。OCR軟件的圖像預(yù)處理功能主要包括圖像旋轉(zhuǎn)、傾斜矯正、剪切以及亮度、對(duì)比度、飽和度、清晰度調(diào)整等。

1.5 支持辨識(shí)的內(nèi)容范圍

文本型數(shù)字圖像中的字符信息，在語(yǔ)言種類、字體類別、字號(hào)大小等方面經(jīng)常呈現(xiàn)出混合排列的現(xiàn)象，部分?jǐn)?shù)字圖像的文本內(nèi)容為手寫(xiě)體稿件，部分?jǐn)?shù)字圖像的文本內(nèi)容中在打印版字符圖案旁還存在手寫(xiě)體批注內(nèi)容。OCR軟件能夠支持辨識(shí)的內(nèi)容范圍，不僅應(yīng)包括常規(guī)印刷版面的數(shù)字圖像，還應(yīng)支持對(duì)綜合、復(fù)雜版面數(shù)字圖像的辨識(shí)。

1.6 交互界面便捷性

信息資源數(shù)字化操作過(guò)程中，OCR軟件交互界面的友好、便捷程度會(huì)對(duì)操作人員的使用舒適性和最終的識(shí)別準(zhǔn)確度造成影響。OCR軟件交互界面的便捷性主要體現(xiàn)在頁(yè)面及窗口切換、快捷鍵及工具欄設(shè)計(jì)、鍵盤(pán)操作和鼠標(biāo)操作的兼容性、數(shù)據(jù)輸入、編輯及輸出保存的便利程度等方面。

1.7 軟件自學(xué)習(xí)功能

信息資源數(shù)字化過(guò)程中，同一字符圖案的辨識(shí)會(huì)經(jīng)常反復(fù)多次出現(xiàn)。對(duì)同一字符圖案的辨識(shí)，其操作具有統(tǒng)一性與穩(wěn)定性。為確保識(shí)別準(zhǔn)確度，OCR軟件應(yīng)具備一定程度的自學(xué)習(xí)功能，自動(dòng)記憶存儲(chǔ)并強(qiáng)化對(duì)部分特殊字符圖案（形近字符、易混字符、簡(jiǎn)寫(xiě)手稿等）的辨識(shí)結(jié)果，并與具體的實(shí)踐操作保持同步更新。

2 OCR文本識(shí)別階段識(shí)別準(zhǔn)確度提高策略探析

基于上述對(duì)OCR文本識(shí)別階段識(shí)別準(zhǔn)確度影響因素的分析，筆者認(rèn)為應(yīng)圍繞強(qiáng)化OCR軟件性能，從強(qiáng)化對(duì)形近字符的辨識(shí)、提高對(duì)數(shù)字圖像噪聲的“免疫力”、增強(qiáng)對(duì)標(biāo)點(diǎn)符號(hào)的辨識(shí)、提高數(shù)字圖像預(yù)處理能力、拓展支持辨識(shí)的內(nèi)容范圍、增強(qiáng)交互界面便捷性、強(qiáng)化用戶自學(xué)習(xí)功能等7個(gè)方面著手提高文本型數(shù)字圖像的OCR識(shí)別準(zhǔn)確度。

2.1 強(qiáng)化對(duì)形近字符的辨識(shí)

（1）豐富形近字字符特征信息庫(kù)

OCR軟件對(duì)字符圖案的辨識(shí)，基于被識(shí)別字符圖案特征與OCR軟件自身字符特征信息庫(kù)的比對(duì)。OCR軟件形近字符特征信息庫(kù)，是其對(duì)形近字符進(jìn)行辨識(shí)的基礎(chǔ)和前提。為提高對(duì)形近字符的識(shí)別率，OCR軟件應(yīng)將各語(yǔ)種、各字體的形近字符特征抽取存儲(chǔ)至自身字符特征信息庫(kù)中，并在具體實(shí)踐過(guò)程中將其不斷豐富、完善。

（2）優(yōu)化形近字符匹配算法

OCR識(shí)別的核心和關(guān)鍵，在于被識(shí)別字符圖案特征和 OCR軟件自身字符特征庫(kù)之間的匹配算法。形近字符匹配算法，基于KMP算法、Horspool算法、BM算法、Shift-And算法等幾種常見(jiàn)的字符串匹配算法演變而來(lái)。不同的形近字符匹配算法，其出發(fā)點(diǎn)不同、匹配識(shí)別策略不同，相應(yīng)地對(duì)不同形近字符的適應(yīng)能力也不同。信息資源數(shù)字化操作實(shí)踐過(guò)程中，應(yīng)根據(jù)被識(shí)別對(duì)象的具體情況選擇合適算法的OCR軟件。

（3）加強(qiáng)人工抽驗(yàn)與校對(duì)

任何一種形近字符匹配算法，在存在其識(shí)別強(qiáng)項(xiàng)的同時(shí)也不可避免地存在著識(shí)別盲區(qū)。因此，無(wú)論選用何種算法的 OCR軟件，信息資源數(shù)字化過(guò)程中均需要有必要的人工校正干預(yù)環(huán)節(jié)。具體實(shí)踐中，對(duì)識(shí)別結(jié)果進(jìn)行全部校正不現(xiàn)實(shí)也沒(méi)必要，可采用科學(xué)抽樣的方法抽取一定數(shù)量的識(shí)別結(jié)果進(jìn)行人工校正，以彌補(bǔ)OCR軟件對(duì)形近字符的識(shí)別誤差。

2.2 提高對(duì)數(shù)字圖像噪聲的“免疫力”

在對(duì)數(shù)字圖像進(jìn)行 OCR識(shí)別之前，如果原始數(shù)字圖像中噪點(diǎn)明顯且大量存在，需要先對(duì)其進(jìn)行降噪處理。但是，信息資源數(shù)字化實(shí)踐中對(duì)全部的原始數(shù)字圖像進(jìn)行降噪處理將會(huì)耗費(fèi)大量的人力和時(shí)間成本。即便對(duì)原始數(shù)字圖像進(jìn)行降噪處理，實(shí)踐證明無(wú)論如何調(diào)整濾波方案，均無(wú)法完全去除數(shù)字圖像中的噪點(diǎn)。同時(shí)，如果對(duì)原始數(shù)字圖像進(jìn)行過(guò)度濾波處理，容易對(duì)數(shù)字圖像中的字符細(xì)節(jié)特征造成損壞，反而會(huì)干擾OCR精確識(shí)別。因此，OCR軟件自身應(yīng)具備一定程度的對(duì)數(shù)字圖像噪聲的抗干擾能力，這是信息資源數(shù)字化流程中對(duì)抗數(shù)字圖像中噪聲的最后一道防線。

2.3 增強(qiáng)對(duì)標(biāo)點(diǎn)符號(hào)的辨識(shí)

提高對(duì)文本型數(shù)字圖像中標(biāo)點(diǎn)符號(hào)的識(shí)別率，應(yīng)緊緊圍繞標(biāo)點(diǎn)符號(hào)字符圖案體積小、所處空間位置特殊這兩個(gè)特點(diǎn)進(jìn)行?？梢越柚岣邔?duì)原始文獻(xiàn)資料的掃描分辨率，來(lái)克服標(biāo)點(diǎn)符號(hào)字符圖案體積小的困難，但是同時(shí)應(yīng)注意如果分辨率過(guò)高反而會(huì)影響識(shí)別速度和整體識(shí)別率[5]?？梢酝ㄟ^(guò)提高OCR 軟件對(duì)數(shù)字圖像中各字符圖案的切分精確度，來(lái)克服標(biāo)點(diǎn)符號(hào)所處空間位置特殊的困難。

2.4 提高數(shù)字圖像預(yù)處理能力

在對(duì)文本型數(shù)字圖像OCR識(shí)別之前，應(yīng)對(duì)其進(jìn)行必要的預(yù)處理操作。為確保識(shí)別準(zhǔn)確度，筆者認(rèn)為 OCR軟件的數(shù)字圖像預(yù)處理性能應(yīng)主要包括以下6個(gè)方面：

（1）圖像傾斜校正

因原始文獻(xiàn)資料印刷排版質(zhì)量或物理?yè)p傷，造成文本型數(shù)字圖像中的字符偏離水平或垂直方向，影響 OCR軟件對(duì)其進(jìn)行文本定位和字符分割，進(jìn)而影響后續(xù)的識(shí)別準(zhǔn)確度。因此，OCR識(shí)別之前應(yīng)進(jìn)行數(shù)字圖像傾斜校正，OCR軟件應(yīng)具備自動(dòng)校正和人工校正兩種校正功能。實(shí)際操作中，一般是以自動(dòng)校正為主，必要情況下用人工校正作為補(bǔ)充。

（2）圖像反白

數(shù)字圖像經(jīng)二值化處理之后，數(shù)字圖像中的字符圖案呈黑色，其余背景部分呈白色。經(jīng)反白處理之后，數(shù)字圖像中的字符圖案呈白色，其余背景部分呈黑色。借助圖像反白處理，可以在黑色背景下把存在于數(shù)字圖像中的噪點(diǎn)凸顯出來(lái)，便于后續(xù)的降噪處理。

（3）圖像版面分析

在版面語(yǔ)種方面，OCR軟件應(yīng)支持對(duì)常見(jiàn)語(yǔ)種（如中文、英文、法文、德文）及混合語(yǔ)種內(nèi)容版面的分析能力，應(yīng)能夠根據(jù)版面語(yǔ)種的不同采取相應(yīng)的版面分析策略。在原始文獻(xiàn)資料的出版物類型方面，OCR軟件應(yīng)支持對(duì)圖書(shū)、期刊、報(bào)紙等常見(jiàn)出版類型的版面分析能力，應(yīng)能夠根據(jù)出版類型的不同采取相應(yīng)的版面分析策略。在版面分析功能類型方面，OCR軟件應(yīng)提供自動(dòng)版面分析和手動(dòng)版面分析兩種選擇，應(yīng)支持常規(guī)情況下進(jìn)行自動(dòng)版面分析，特殊情況下輔以人工版面分析。

（4）版面屬性設(shè)置

文本型數(shù)字圖像在語(yǔ)種、字體、排版等方面的存在較大差別，尤其是部分文本型數(shù)字圖像出現(xiàn)多語(yǔ)種、多字體、多版型混合排版的情況。因此，針對(duì)有特殊排版情況的文本型數(shù)字圖像，OCR軟件在對(duì)其進(jìn)行識(shí)別之前應(yīng)進(jìn)行針對(duì)性的版面屬性設(shè)置以確保精確識(shí)別。

（5）圖像旋轉(zhuǎn)

因原始文獻(xiàn)資料印刷排版質(zhì)量或者數(shù)字掃描成像階段操作不慎，容易造成文本型數(shù)字圖像在水平或垂直方向上產(chǎn)生一定角度的傾斜。為確保對(duì)文本型數(shù)字圖像的精確識(shí)別，OCR軟件應(yīng)具備圖像旋轉(zhuǎn)功能，一般應(yīng)支持在順時(shí)針（或逆時(shí)針）方向上連續(xù)旋轉(zhuǎn)90度，并支持在順時(shí)針（或逆時(shí)針）方向上連續(xù)旋轉(zhuǎn)任意角度以供選擇。

（6）圖像剪裁

因原始文獻(xiàn)資料印刷排版質(zhì)量欠佳，或流通使用過(guò)程中產(chǎn)生污損，或在數(shù)字掃描成像階段操作不慎，容易在文本型數(shù)字圖像邊沿或文字區(qū)域形成明顯的噪點(diǎn)。借助數(shù)字圖像剪裁功能，OCR軟件可以輕松去除這部分噪點(diǎn)。

2.5 拓展支持辨識(shí)的內(nèi)容范圍

信息資源數(shù)字化實(shí)踐中，原始文獻(xiàn)資料在載體形態(tài)、語(yǔ)種、字體、字號(hào)等方面呈現(xiàn)出多樣性和復(fù)雜性的特點(diǎn)。為確保精確識(shí)別，OCR軟件在面對(duì)種類繁多、類型不一的文本型數(shù)字圖像時(shí)應(yīng)具有廣泛的適應(yīng)性。一方面，OCR軟件應(yīng)支持對(duì)常見(jiàn)語(yǔ)種、常見(jiàn)字體、常見(jiàn)字號(hào)單獨(dú)或混合排列的文本型數(shù)字圖像的識(shí)別。另一方面，OCR軟件應(yīng)支持對(duì)含有手寫(xiě)字體、毛筆字、常規(guī)文字行間及旁邊的批注、藝術(shù)簽名等內(nèi)容的文本型數(shù)字圖像的識(shí)別。

2.6 增強(qiáng)交互界面便捷性

根據(jù)具體的文本型數(shù)字圖像 OCR操作實(shí)踐，筆者認(rèn)為應(yīng)從以下5個(gè)方面著手增強(qiáng)OCR軟件的交互界面便捷性。

（1）文本型數(shù)字圖像OCR識(shí)別過(guò)程中，在版面分析、圖像旋轉(zhuǎn)等環(huán)節(jié)需要將數(shù)字圖像的局部與整體進(jìn)行對(duì)比操作。OCR軟件應(yīng)能提供局部圖像與整體圖像的對(duì)比分析界面，并能提供相應(yīng)的快捷鍵設(shè)置選項(xiàng)。

（2）OCR軟件應(yīng)能在“后編改”界面下，將被識(shí)別的文本型數(shù)字圖像的原始內(nèi)容、初次識(shí)別結(jié)果及其他備選識(shí)別結(jié)果在同一窗口下集中展現(xiàn)，以供用戶對(duì)初次識(shí)別結(jié)果進(jìn)行必要的判斷、編輯與修正。

（3）信息資源數(shù)字化過(guò)程中，在對(duì)文本型數(shù)字圖像進(jìn)行批量識(shí)別操作時(shí)需要將正在識(shí)別的數(shù)字圖像、已經(jīng)識(shí)別的數(shù)字圖像和尚未識(shí)別的數(shù)字圖像之間進(jìn)行參照，OCR軟件應(yīng)能夠?qū)⒛骋粏蝹€(gè)數(shù)字圖像和整批全部數(shù)字圖像之間建立鏈接與映射。

（4）OCR軟件應(yīng)結(jié)合信息資源數(shù)字化具體實(shí)踐操作需求，提供常用功能造作的快捷鍵。同時(shí)，OCR軟件應(yīng)支持對(duì)快捷鍵的隱藏、顯示、編輯、重設(shè)等操作。

（5）OCR軟件應(yīng)支持用戶對(duì)識(shí)別結(jié)果存儲(chǔ)路徑和保存格式的選擇。在存儲(chǔ)路徑方面，OCR軟件應(yīng)能夠支持對(duì)識(shí)別結(jié)果存儲(chǔ)路徑的預(yù)設(shè)與編輯操作。在保存格式方面，OCR軟件應(yīng)能夠支持txt、doc、log、conf 等常用文本格式。

2.7 強(qiáng)化用戶自學(xué)習(xí)功能

OCR軟件的用戶自學(xué)習(xí)，是指在信息資源數(shù)字化過(guò)程中，用戶根據(jù)實(shí)際情況用新的字符圖案匹配選擇替換已有相應(yīng)的字符圖案匹配方案，是 OCR軟件在用戶的干預(yù)下更新字符特征匹配信息庫(kù)的過(guò)程。一方面，OCR軟件借助用戶自學(xué)習(xí)功能能夠?qū)崿F(xiàn)對(duì)字符圖案匹配方案的不斷更新與優(yōu)化；另一方面，新的字符圖案特征匹配方案也可能只是對(duì)已有匹配方案的補(bǔ)充但并不能將其完全替代。因此，在信息資源數(shù)字化操作實(shí)踐過(guò)程中，OCR軟件應(yīng)能夠支持在向用戶推送新匹配方案的同時(shí)，向用戶提供是對(duì)原匹配方案進(jìn)行補(bǔ)充或是替換的選項(xiàng)。

[1]Schantz，Herbert F．The History of OCR，Optical Character Recognition[J]．Recognition Technologies， 1982．

[2]臧國(guó)全．文本數(shù)字化圖像OCR識(shí)別的準(zhǔn)確度測(cè)度實(shí)驗(yàn)與提高[J]．圖書(shū)情報(bào)知識(shí)，2010．

[3]郭軍．兩款常用中文OCR軟件的性能比較實(shí)驗(yàn)與分析[J]．情報(bào)探索，2011．

[4]（日）谷口慶治．?dāng)?shù)字圖像處理—應(yīng)用篇[M]．北京：科學(xué)出版社，2002．

[5]張青楊．提高OCR識(shí)別率的訣竅[N]．電腦報(bào)，2005．