亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)字圖像處理的文本型數(shù)字圖像OCR識別準(zhǔn)確度提高策略研究

        2017-10-13 13:56:33◆郭

        ◆郭 軍

        ?

        基于數(shù)字圖像處理的文本型數(shù)字圖像OCR識別準(zhǔn)確度提高策略研究

        ◆郭 軍

        (鐵道警察學(xué)院圖書館 河南 450000)

        本文在介紹信息資源數(shù)字化OCR識別工作流程的基礎(chǔ)上,圍繞數(shù)字圖像編輯軟件選用和數(shù)字圖像預(yù)處理兩個方面,對數(shù)字圖像處理階段影響文本型數(shù)字圖像OCR識別準(zhǔn)確度的一系列因素展開分析,進而提出了針對性的OCR識別準(zhǔn)確度提高策略。

        OCR識別準(zhǔn)確度;文本型數(shù)字圖像;提高策略

        0 引言

        OCR(Optical Character Recognition,光學(xué)字符識別)這一概念最早于1929年由德國科學(xué)家Tausheck提出[1]。自20世紀(jì)90年代以來,以“美國記憶”(AMERICAN MEMORY)為代表的圖書館領(lǐng)域信息資源數(shù)字化項目的廣泛實施,為OCR識別技術(shù)提供了廣闊的應(yīng)用與發(fā)展平臺。從工作流程上分析,OCR識別技術(shù)在信息資源數(shù)字化工作中的應(yīng)用,可劃分為原始文獻獲取、數(shù)字圖像生成、數(shù)字圖像處理、字符特征匹配、人工處理和結(jié)果輸出等6個階段,如下圖1所示。信息資源數(shù)字化OCR識別流程的6個階段中,涉及一系列OCR識別準(zhǔn)確度的影響因素,本文就其中數(shù)字圖像處理階段OCR識別準(zhǔn)確度的影響因素展開分析,并提出相應(yīng)的提高策略。

        圖1 信息資源數(shù)字化OCR識別工作流程

        康奈爾大學(xué)圖書館將二維平面介質(zhì)型文獻資料區(qū)分為印刷型文本、手稿、半色調(diào)型信息資源、連續(xù)色調(diào)型信息資源和混合型信息資源等5種類型[2]。本文主要針對其中的印刷型文本(文本型數(shù)字圖像)OCR識別準(zhǔn)確度展開探討。

        1 數(shù)字圖像處理階段OCR識別準(zhǔn)確度影響因素

        信息資源數(shù)字化過程中,數(shù)字圖像處理階段主要負責(zé)完成強化數(shù)字圖像中的字符特征信息。圖像增強處理工作的直接目的是為了提高圖像的解譯力,把圖像中我們感興趣的特征強調(diào)出來,同時抑制不感興趣的特征[3]。數(shù)字圖像處理階段OCR識別準(zhǔn)確度的影響因素,主要體現(xiàn)在以下兩個方面:

        1.1選擇何種類型的數(shù)字圖像編輯軟件

        在數(shù)字圖像處理階段,圖像編輯軟件一般分為數(shù)字掃描儀附帶和專業(yè)商業(yè)軟件兩種類型,其各自的優(yōu)勢與劣勢主要體現(xiàn)在購置成本和圖像編輯功能兩方面的博弈上,具體如下表1所示:

        表1 圖像編輯軟件優(yōu)劣勢

        1.2數(shù)字圖像增強處理操作

        數(shù)字圖像增強處理操作的目的在于強化、突出對OCR識別有用的圖像內(nèi)容,同時弱化、抑制無益于OCR識別的部分。數(shù)字圖像增強處理操作主要包括幾何位置調(diào)整、噪聲抑制、二值化和銳化等四個方面。

        (1)幾何位置調(diào)整

        OCR軟件對文本型數(shù)字圖像的識別,其過程是首先基于數(shù)字圖像的已有版面識別出其中的文字行,然后從文字行中正確分離并識別單個文字,最后再正確地連接文字行[4]。但在信息資源數(shù)字化過程中,經(jīng)常出現(xiàn)原始印刷文獻排版欠佳或印刷質(zhì)量不過關(guān)等問題,由這些原始印刷文獻生成的數(shù)字圖像勢必會影響OCR軟件的精確識別。另外,在對數(shù)字圖像進行數(shù)字掃描操作過程中,因操作失誤或機器誤差也會影響數(shù)字圖像中的字符在水平或垂直方向上的排列。

        (2)噪聲控制

        圖像噪聲可以理解為妨礙人的視覺感知,或妨礙系統(tǒng)傳感器對所接收圖像源信息進行理解或分析的各種因素,也可以理解成真實信號與理想信號之間存在的偏差[5]。

        噪聲普遍存在于數(shù)字圖像中,噪聲是最常見同時也是最主要的OCR識別準(zhǔn)確度影響因素。抑制噪聲的過程稱為“濾波”,數(shù)字圖像“濾波”效果的優(yōu)略取決于對噪聲類型的分析和“濾波”方法的選擇。

        (3)二值化

        數(shù)字圖像的二值化處理,是指將數(shù)字圖像中各像素點的灰度級數(shù)按照一定的標(biāo)準(zhǔn)處理為或黑色或白色。OCR識別過程中,文本型數(shù)字圖像經(jīng)二值化處理后能夠強化凸顯其中的字符特征信息,以支持OCR軟件辨識。數(shù)字圖像二值化處理的效果取決于二值化閾值的確定,數(shù)字圖像中各不同灰度級數(shù)部分均根據(jù)與該閾值比對的結(jié)果轉(zhuǎn)化為黑或者白。

        (4)銳化

        數(shù)字圖像的銳化處理,是指同時增強突出圖像中的模糊細節(jié)部分和各字符的輪廓及邊界部分。OCR軟件對數(shù)字圖像的識別,是依據(jù)圖像中各字符圖案的邊界特征而展開,銳化處理的效果直接影響著后續(xù)的OCR識別準(zhǔn)確度。

        2 數(shù)字圖像處理階段OCR識別準(zhǔn)確度提高策略

        2.1選用專業(yè)公司開發(fā)的正版編輯軟件

        為提高OCR識別準(zhǔn)確度進而確保信息資源數(shù)字化產(chǎn)品質(zhì)量,支付一定的數(shù)字圖像處理軟件購置費用是十分必要的。在條件允許的情況下應(yīng)選用Photoshop、CorelDRAW、illustrator等正版商業(yè)數(shù)字圖像處理軟件。在遴選數(shù)字圖像編輯軟件的過程中,應(yīng)注重從如下6個方面對其性能進行測定和評價。

        (1)易操作性。數(shù)字圖像編輯軟件的易操作性主要體現(xiàn)在操作界面的友好性上,操作菜單及欄目設(shè)置應(yīng)簡潔明了,緊密結(jié)合用戶使用習(xí)慣,盡量減輕用戶在操作使用過程中的智力負擔(dān)和視力負擔(dān)。

        (2)文件格式兼容性。數(shù)字圖像編輯軟件,應(yīng)能夠支持識別常用文件格式的數(shù)字圖像,同時還應(yīng)能夠支持輸出常用文件格式的文本文件。

        (3)批量處理功能。信息資源數(shù)字化工作中,OCR識別的對象不是單個文件,而是大量多種類型的文件。數(shù)字圖像編輯軟件,應(yīng)能夠具備對批量文件的編輯處理功能。

        (4)圖像修正和優(yōu)化功能。文本型數(shù)字圖像OCR識別過程中,數(shù)字圖像的修正操作主要有調(diào)整圖像尺寸、剪切圖像大小、旋轉(zhuǎn)圖像空間位置等;數(shù)字圖像的優(yōu)化操作主要有調(diào)整圖像亮度(包括自動調(diào)整和手動調(diào)整)、調(diào)整圖像對比度(包括自動調(diào)整和手動調(diào)整)、特效濾鏡、色彩平衡、調(diào)整圖像曝光度等。

        (5)多種窗口功能。數(shù)字圖像處理過程中,需要多個窗口同時呈現(xiàn)等窗口處理功能。

        (6)多種視圖功能。數(shù)字圖像處理過程中,不同類型、不同形式的數(shù)字圖像需要多種視圖功能以供選擇或組合。

        2.2注重數(shù)字圖像增強處理的過程控制

        2.2.1自動和人工相結(jié)合,合理調(diào)整幾何位置

        OCR識別過程中,平移和旋轉(zhuǎn)是兩種最主要的數(shù)字圖像幾何位置調(diào)整操作。一般情況下,數(shù)字圖像編輯處理軟件和OCR識別軟件均具備對數(shù)字圖像進行預(yù)處理操作的功能,自動調(diào)整、人工調(diào)整、自動調(diào)整和人工調(diào)整相結(jié)合是最常見的三種數(shù)字圖像預(yù)處理方式。

        實際操作過程中,如果僅依靠數(shù)字圖像編輯軟件的自動調(diào)整功能,因軟件所采用的算法對不同數(shù)字圖像的適應(yīng)能力不同,常導(dǎo)致部分數(shù)字圖像的幾何位置調(diào)整效果欠佳;如果僅依靠人工調(diào)整,大批量的數(shù)字圖像預(yù)處理又會耗費大量的時間。鑒于此,筆者認為,數(shù)字圖像的幾何位置調(diào)整過程中,在進行人工調(diào)整之前,應(yīng)首先借助數(shù)字圖像編輯處理軟件自動調(diào)整功能。

        2.2.2根據(jù)噪聲類型,選用針對有效的濾波方法

        噪聲分布整體上呈現(xiàn)出一定的規(guī)律性,噪聲點的位置和噪聲點的幅值是區(qū)分噪聲類型的兩個主要屬性。噪聲點位置分布特征和噪聲點幅值變化趨勢,是區(qū)分噪聲類型的兩個主要依據(jù)。據(jù)此,可將數(shù)字圖像中的噪聲劃分為椒鹽噪聲和高斯噪聲兩種類型。椒鹽噪聲的典型特征是噪聲點的位置分布呈現(xiàn)出隨機、不規(guī)則趨勢,但各噪聲點的幅值卻基本處于同一區(qū)間;高斯噪聲的典型特征是噪聲點位置分布均勻有規(guī)律,但各噪聲點的幅值變化整體呈現(xiàn)出雜亂、無規(guī)律。為有效抑制數(shù)字圖像中的噪聲,文本型數(shù)字圖像OCR識別過程中應(yīng)根據(jù)噪聲的類型及其具體特點來選擇合適的濾波方法。

        (1)均值濾波

        均值濾波致力于將位于數(shù)字圖像各區(qū)域中心位置處的像素的灰度值,統(tǒng)一賦予該區(qū)域中的全部像素。均值濾波方法在具體操作過程中,通過一個大小為m(m為奇數(shù))的正方形滑格遍歷整個數(shù)字圖像,遍歷過程中將窗格中心位置處的灰度值統(tǒng)一處理為窗格上所有其余像素灰度值的平均值。從最終濾波效果上來看,均值濾波對高斯噪聲的抑制明顯優(yōu)于椒鹽噪聲。因椒鹽噪聲各噪聲點的位置分布不規(guī)則且各噪聲點灰度值區(qū)間基本一致,均值濾波在對椒鹽噪聲進行處理時雖能夠降低各噪聲點的像素灰度值,但同時也增加了各噪聲點在數(shù)字圖像中的相對面積。

        (2)中值濾波

        中值濾波的基本出發(fā)點是,將數(shù)字圖像中各區(qū)域像素值的中間值作為位于該區(qū)域中心位置處的像素的灰度值。中值濾波在具體實施過程中,通過一個大小為m(m為奇數(shù))的正方形滑格遍歷整個數(shù)字圖像,遍歷過程中將窗格區(qū)域各像素的灰度值按照從大到小的順序排序進而計算出它們的中間值,并把該值確定為位于窗格區(qū)域中心位置處的像素的灰度值。

        從最終濾波效果上來看,中值濾波方法更適合于抑制數(shù)字圖像中的椒鹽噪聲。原因在于高斯噪聲各噪聲點的像素灰度值整體上均勻分布在數(shù)字圖像中,進而其灰度值被中值濾波確定為各區(qū)域中值的幾率較大而無法受到有效抑制。

        (3)邊界保持類平滑濾波

        OCR識別軟件對數(shù)字圖像的辨識,是基于數(shù)字圖像中不同字符及相同字符的不同部分之間所存在的像素灰度值變化特征。數(shù)字圖像增強處理過程中,如果對其中字符圖案的邊界特征造成損壞,勢必將會影響OCR軟件的識別準(zhǔn)確度。無論是均值濾波還是中值濾波,在祛除數(shù)字圖像噪聲的同時都無可避免地消弱了數(shù)字圖像本身的清晰度,其中各字符的邊沿輪廓及細節(jié)特征最容易受到影響。鑒于此,在數(shù)字圖像濾波處理過程中應(yīng)盡量完整地保留字符圖案的邊界特征,實際操作中常通過邊界保持類平滑濾波。邊界保持類平滑濾波主要包括如下三種類型:

        第一種:灰度最小方差均值濾波

        該方法借助合適大小的滑格遍歷整個數(shù)字圖像,在滑格游動過程中檢測每一個小區(qū)域內(nèi)的像素灰度值變化情況。如果在某一小區(qū)域內(nèi),數(shù)字圖像的像素灰度值基本位于同一數(shù)值區(qū)間范圍內(nèi),表明該區(qū)域適合采用均值濾波去噪;如果在某一小區(qū)域內(nèi),數(shù)字圖像的像素灰度值波動較大,表明該區(qū)域可能存在字符邊界,不適合采用均值濾波去噪。

        實際操作過程中,主要根據(jù)數(shù)字圖像某小區(qū)域全部像素的灰度值方差大小,來判斷在該區(qū)域內(nèi)是否存在字符邊界。像素灰度值方差越大,表明該區(qū)域的像素灰度值處于不同區(qū)間的幾率越大;像素灰度值方差越小,則表明該區(qū)域的像素灰度值處于同一區(qū)間的幾率越大。

        第二種:N近鄰平滑(均值、中值)濾波

        該方法在處理過程中,在數(shù)字圖像上待處理像素的相鄰區(qū)域內(nèi),找出N個與其灰度值最接近的像素,然后計算出這N個像素灰度值的均值或中值,并將其賦予待處理像素。

        第三種:對稱近鄰均值濾波

        該方法借助(2m+1)×(2m+1)(m為正整數(shù))的滑格遍歷整個數(shù)字圖像,在滑格游動過程中的每個小區(qū)域內(nèi)以待處理像素為中心定位2m(m+1)組對稱點,然后分別從每組對稱點中選出1個與待處理像素灰度值最接近的像素,進而將2m(m+1)個對稱鄰近像素灰度值的均值賦予待處理像素。

        2.2.3選用合適的閾值方案,合理確定二值化閾值

        二值化是文本型數(shù)字圖像OCR識別之前的常用操作,部分OCR軟件甚至只支持對經(jīng)二值化處理的數(shù)字圖像進行識別。數(shù)字圖像二值化處理的關(guān)鍵在于合理確定二值化閾值,實際操作中常用的二值化處理方法主要有以下兩種類型。

        (1)全局閾值二值化

        全局閾值二值化將全部數(shù)字圖像作為整體,為其設(shè)定唯一的像素灰度閾值。數(shù)字圖像中的各像素,灰度值大于該閾值的被統(tǒng)一處理為白色,灰度值小于該閾值的被統(tǒng)一處理為黑色。全局閾值二值化,適合應(yīng)用于本身質(zhì)量較好、圖像背景元素單一的數(shù)字圖像,其最突出的優(yōu)點是方便省時。

        (2)局部閾值二值化

        局部閾值二值化,采取化整為零的策略,借助合適大小的滑格遍歷整個數(shù)字圖像,在滑格游動過程根據(jù)每一個小區(qū)域的像素灰度值來確定各自的二值化閾值。由于為數(shù)字圖像分區(qū)域設(shè)定了更加精準(zhǔn)的二值化閾值,局部閾值二值化更加適合于對本身質(zhì)量較差、背景元素比較復(fù)雜的數(shù)字圖像進行二值化處理。局部閾值二值化由于采用了具有針對性的動態(tài)閾值確定方法,可以避免因唯一閾值二值化而對圖像邊界部分的細節(jié)信息造成較大損傷[6]。

        但是,局部閾值二值化因算法相對復(fù)雜,文本型數(shù)字圖像OCR識別過程中也相對更加耗時。為有效協(xié)調(diào)二值化處理效果和所耗費時間之間的矛盾,研究人員指出可嘗試綜合利用多種方法來進行數(shù)字圖像二值化操作。為此,就需要建立一個盡量齊全的數(shù)字圖像樣本特征數(shù)據(jù)庫,并在實際應(yīng)用過程中使其得到不斷的豐富和完善[7]。

        2.2.4適度銳化處理數(shù)字圖像

        在平面二維坐標(biāo)圖上,如果以橫坐標(biāo)標(biāo)識數(shù)字圖像各像素點的灰度值,縱坐標(biāo)標(biāo)識相應(yīng)灰度值的像素點在數(shù)字圖像中出現(xiàn)的次數(shù),則可生成數(shù)字圖像灰度值的二維曲線圖。從像素灰度值的二維曲線圖來看,任何數(shù)字圖像都是由低頻信號和高頻信號組成的,其中低頻部分決定圖像各組成部分的反差效果,高頻部分則決定圖像的細節(jié)[8]。數(shù)字圖像的銳化,實際上是強化突出圖像中高頻部分的過程。

        實際操作中,常規(guī)銳化方法均是單純致力于強化數(shù)字圖像像素灰度值二維曲線圖中的高頻部分。但是,各噪聲點散布于整個數(shù)字圖像,其中的高頻部分同樣有噪聲存在。常規(guī)銳化方法將無可避免地導(dǎo)致在增強高頻部分字符特征信息的同時,圖像中的噪聲也受到強化。因此,必須對數(shù)字圖像的銳化策略加以改良,以實現(xiàn)既能增強圖像的邊界特征又不會因此而增強已有的噪聲。筆者認為,可先通過邊界檢測算法,以像素灰度閾值的形式標(biāo)識出數(shù)字圖像中的字符邊界特征,進而辨識出哪些區(qū)域是真正的字符邊界,哪些區(qū)域應(yīng)被確定為噪聲,最后保留噪聲部分僅對邊界部分的像素進行銳化。

        在對數(shù)字圖像銳化處理時必須注意,對于原始數(shù)字圖像而言銳化是一種不可逆操作。操作過程中,無論選擇哪種銳化方法均應(yīng)把握合適的銳化分寸,避免因過度銳化而對數(shù)字圖像造成不可修復(fù)的損壞?;诖耍趯?shù)字圖像進行銳化操作之前必須對其進行備份。

        [1]Schantz,Herbert F.The History of OCR,Optical Character Recognition[J].Recognition Technologies,1982.

        [2]Cornell University Library.Document Types,2017. http://www.library.cornell.edu/preservation/tutorial/conversion/conversion-01.html.

        [3]王斐,王杰生,胡德永.三個商用遙感數(shù)字圖像編輯軟件比較[J].遙感技術(shù)與應(yīng)用,1998.

        [4](日)谷口慶治編,朱虹等譯.數(shù)字圖像處理——應(yīng)用篇[M].北京:科學(xué)出版社,2002.

        [5]朱虹.數(shù)字圖像處理基礎(chǔ)[M].北京:科學(xué)出版社,2005.

        [6]朱軍民,黃磊,劉昌平.圖像二值化方法比較[J].第八屆全國漢字識別學(xué)術(shù)會議論文集,2002.

        [7]王強,馬利莊.圖像二值化時圖像特征的保留[J].計算機輔助設(shè)計與圖形學(xué)報,2000.

        [8]姚海根.數(shù)字圖像的清晰度增強技術(shù)(上)[J].印刷雜志,1998.

        三个黑人插一个女的视频| 国产免费破外女真实出血视频| 乱子伦av无码中文字幕| 国产女主播在线免费观看| 国产麻豆久久av入口| 中文字幕乱码亚洲精品一区| 性夜夜春夜夜爽aa片a| 69搡老女人老妇女老熟妇| 久久久亚洲免费视频网| 国产精品亚洲lv粉色| 亚洲av国产av综合av| 国产美女三级视频网站| 91精品久久久老熟女91精品| yw尤物av无码国产在线观看| 国产一区免费观看| 亚洲一区精品一区在线观看| 国产乱码一区二区三区精品| 国产麻传媒精品国产av| 久久精品国产91久久性色tv| 日韩av一区二区在线观看| 一本色道无码不卡在线观看| 少妇装睡让我滑了进去| 亚洲av人妖一区二区三区| 黄片国产一区二区三区| 五月天国产成人av免费观看| 丰满多毛少妇做爰视频| 人妻丰满少妇一二三区| 国产精品黑丝高跟在线粉嫩| 亚洲日韩成人av无码网站| 黑人巨大精品欧美在线观看| av免费在线播放观看| 国产特黄级aaaaa片免| 久久国产成人精品国产成人亚洲| 亚洲成片在线看一区二区| 自拍偷拍 视频一区二区| a级特黄的片子| 人妻av一区二区三区av免费| 精品久久人妻av中文字幕| 爱性久久久久久久久| 国产人成无码视频在线| 久久精品视频日本免费|