摘要:文章在對信息資源數(shù)字化工作中的OCR識別原理進行闡述的基礎(chǔ)上,分析了OCR識別在信息資源數(shù)字化工作中的作用。隨后,文章將信息資源數(shù)字化工作中OCR識別的生命周期劃分為數(shù)字掃描對象的獲取、數(shù)字圖像的生產(chǎn)、數(shù)字圖像的處理、OCR文本識別和識別結(jié)果優(yōu)化等五個階段,并依次對各個階段的主要任務(wù)及主要特點展開了介紹。
關(guān)鍵詞:信息資源數(shù)字化 OCR識別 生命周期
中圖分類號:G250.7 文獻標識碼:A 文章編號:1007-9416(2014)08-0217-02
信息資源數(shù)字化,是指把原先用紙張形式存貯的文獻信息轉(zhuǎn)化為用計算機存貯設(shè)備中的電、磁、光電信號存貯的信息,并實現(xiàn)對形式轉(zhuǎn)換后的信息的計算機管理、網(wǎng)絡(luò)傳輸和數(shù)字化存取[1]。具體實施過程中,通常采用數(shù)字掃描或數(shù)字拍照這兩種方式來實現(xiàn)信息資源載體形式的轉(zhuǎn)換,進而生成諸如PDF、CAJ等格式的數(shù)字圖像。信息資源數(shù)字化工作的最終目的,是為了向用戶提供全面、快捷的數(shù)字化產(chǎn)品和服務(wù)[2]。基于此,將信息資源數(shù)字化工作的初級產(chǎn)品——數(shù)字圖像,進一步轉(zhuǎn)化為易于編輯、深加工的諸如TXT、WORD等格式的文本信息就顯得尤為重要。目前,在這一領(lǐng)域應(yīng)用最廣泛的技術(shù)手段當推OCR(Optical Character Recognition,光學(xué)字符識別)。
1 信息資源數(shù)字化工作中的OCR識別原理
OCR這一概念最早于1929年由德國科學(xué)家Tausheck提出[3]。隨后,美國科學(xué)家Handel對利用光學(xué)技術(shù)識別文字的工作模型展開了描述,但因當時計算機技術(shù)尚未問世,這一模型一直停留在概念階段。計算機技術(shù)和掃描技術(shù)的相繼出現(xiàn),為OCR識別進入實際應(yīng)用領(lǐng)域提供了必要條件,計算機設(shè)備和掃描設(shè)備應(yīng)能的迅猛提升與價格的不斷下降,促使OCR識別的性能逐步完善,應(yīng)用領(lǐng)域迅速擴展。信息資源數(shù)字化工作中的OCR識別,其原理簡單來說就是利用光學(xué)技術(shù)對文字和字符信息進行掃描識別,并將其轉(zhuǎn)化為計算機內(nèi)碼,進而按照要求輸出相應(yīng)格式的文檔信息。
2 OCR識別在信息資源數(shù)字化工作中的作用
信息資源數(shù)字化工作的最終目的,是為向用戶提供方便、快捷的文獻信息資源和服務(wù)。在信息資源數(shù)字化工作過程中,OCR識別承擔著將信息資源數(shù)字化產(chǎn)品按照用戶利用需求進一步優(yōu)化的任務(wù)。OCR識別實際上是一種字符轉(zhuǎn)換的過程,OCR識別工作的產(chǎn)品--文本文檔,一方面需要滿足用戶對信息資源數(shù)字化產(chǎn)品方便獲取、便于利用的需求,同時還必須忠于文獻信息資源的原始內(nèi)容?;诖?,OCR識別是確保信息資源數(shù)字化產(chǎn)品質(zhì)量的重要因素,同時也是為信息資源數(shù)字化工作提供用戶保障的重要環(huán)節(jié)。
3 信息資源數(shù)字化工作中OCR識別的生命周期
根據(jù)信息資源數(shù)字化中OCR識別流程圖,結(jié)合已有學(xué)者的研究內(nèi)容[4],筆者認為可以將信息資源數(shù)字化OCR識別工作的生命周期劃分為數(shù)字掃描對象的獲取、數(shù)字圖像的生產(chǎn)、數(shù)字圖像的處理、OCR文本識別和識別結(jié)果優(yōu)化等五個階段。
3.1 數(shù)字掃描對象的獲取階段
從目前國內(nèi)外所開展的大型信息資源數(shù)字化項目情況來看,該階段一般通過兩種途徑來獲取數(shù)字掃描對象。一種途徑是選擇原始文獻進行數(shù)字掃描或數(shù)碼拍照,另一種途徑是先通過縮微技術(shù)制作原始文獻的縮微膠片,然后對縮微膠片進行數(shù)字掃描或數(shù)碼拍照。
當選擇直接對原始文獻進行數(shù)字掃描或數(shù)碼拍照時,應(yīng)注意盡量避免拆分裝訂成冊的原始文獻,尤其應(yīng)當避免在操作過程中對部分珍稀文獻造成損傷。如果有若干可供選擇的原始文獻實體,應(yīng)選擇紙張平整、壓裝平滑、潔凈無污損的原始文獻進行數(shù)字掃描或數(shù)碼拍照。當選擇對原始文獻的縮微膠片進行數(shù)字掃描或數(shù)碼拍照時,首先應(yīng)采用以聚酯為片基、含有銀明膠涂層的膠片,避免采用相對容易老化的醋酸片基類縮微膠片。在縮微膠片沖洗過程中,應(yīng)將顯影液中的濃縮儲存液(阿克發(fā)藥液G231c)與清水的體積配比為1:3,同時將顯影液的溫度控制在35℃左右,以防止縮微膠片出現(xiàn)灰霧、污染和影像不清晰等現(xiàn)象;應(yīng)將殘留于縮微膠片表面的定影劑含量控制在1.4μg/cm2以下,以防止縮微膠片硫化變黃;應(yīng)對縮微膠片進行充分水洗,以避免殘留在膠片乳劑層中的硫代硫酸鹽與空氣中的二氧化碳和水發(fā)生化學(xué)反應(yīng)所生成的硫化物與影像中的銀發(fā)生反應(yīng),造成亞硫酸被氧化,最終導(dǎo)致使影像變黃或褪色消失[5];應(yīng)對縮微膠片進行合理干燥,避免因烘干溫度過高導(dǎo)致縮微膠片卷曲、發(fā)脆、甚至折裂,或因烘干溫度過低導(dǎo)致縮微膠片乳劑層粘連、滋生霉菌。
3.2 數(shù)字圖像的生產(chǎn)階段
該階段通過對原始文獻或原始文獻的縮微膠片進行數(shù)字掃描或數(shù)碼拍照,進而生成信息資源數(shù)字化工作的初級產(chǎn)品—數(shù)字圖像。信息資源數(shù)字化工作過程中,數(shù)碼相機一般用于對三維立體文獻載體進行成像,因此在具體應(yīng)用中該階段一般采用數(shù)字掃描來形成原始文獻的數(shù)字圖像。
為保證數(shù)字圖像的質(zhì)量,該階段應(yīng)選擇合適的數(shù)字掃描儀并采用正確的使用方法。在數(shù)字掃描儀的選擇方面,應(yīng)在相同條件下選擇配有光電耦合器(CCD,Charged Coupled Device)的掃描儀;數(shù)字掃描儀能夠提供的最低光學(xué)分辨率不應(yīng)低于300dpi,最高光學(xué)分辨率應(yīng)能夠達到600dpi;當掃描對象是印刷型文本時,應(yīng)首選平臺式數(shù)字掃描儀,當掃描對象是縮微膠片時,應(yīng)選用縮微膠片數(shù)字掃描儀或滾筒式數(shù)字掃描儀。在數(shù)字掃描儀的使用方面,應(yīng)根據(jù)被掃描對象的具體情況設(shè)置合適的掃描模式、掃描分辨率、掃描閾值、亮度/對比度及掃描文件的保存格式;正式使用前應(yīng)充分預(yù)熱,并開啟去除網(wǎng)紋功能;使用過程中應(yīng)保持鏡頭組件的牢固性,正確擺放被掃描對象,并時刻保持清潔的工作環(huán)境。
3.3 數(shù)字圖像的處理階段
該階段的任務(wù)是對數(shù)字圖像進行一系列針對性的增強處理,以滿足OCR識別軟件精準識別的目的。圖像增強處理工作的直接目的是為了提高圖像的解譯力,把圖像中我們感興趣的特征強調(diào)出來,同時抑制不感興趣的特征[6]。具體實施過程中,應(yīng)注意選擇合適的數(shù)字圖像處理軟件并采用正確的數(shù)字圖像增強處理操作。endprint
在數(shù)字圖像處理軟件的選擇方面,應(yīng)在軟件的價格與性能之間做出妥善選擇。經(jīng)常出現(xiàn)的情況是,數(shù)字掃描儀自身附帶的圖像處理軟件價格低廉(在購買掃描儀時由廠家免費贈送),但圖像處理功能有限;商業(yè)數(shù)字圖像處理軟件功能較為完善,但其市場價格昂貴。筆者認為,為確保數(shù)字圖像增強處理質(zhì)量進而為后續(xù)的OCR精確識別提供基礎(chǔ),應(yīng)選用性能完善的商業(yè)數(shù)字圖像處理軟件。
在數(shù)字圖像增強處理操作過程中,應(yīng)注意合理調(diào)整數(shù)字圖像的幾何位置,以使數(shù)字圖像中的字符圖案恢復(fù)到水平與垂直方向上,為OCR軟件正確辨識字符提供基礎(chǔ);應(yīng)設(shè)置合適的閾值對數(shù)字圖像進行二值化處理,以增強數(shù)字圖像的黑白對比效果,使其細節(jié)特征得以凸顯;應(yīng)在盡可能保留數(shù)字圖像細節(jié)特征的基礎(chǔ)上,有效抑制數(shù)字圖像中的噪聲;應(yīng)對數(shù)字圖像進行合理銳化,以增強字符圖案輪廓邊緣部分的清晰度,便于工作人員及OCR識別軟件辨識。
3.4 OCR文本識別階段
該階段使用OCR軟件對經(jīng)過處理的數(shù)字圖像進行識別,在信息資源數(shù)字化工作OCR識別生命周期中,OCR文本識別階段處于中心位置。具體實施過程中,應(yīng)注意選用合適的OCR軟件。以精確識別數(shù)字圖像、為信息資源數(shù)字化工作提供高質(zhì)量產(chǎn)品為衡量,筆者認為該階段應(yīng)從對形近字符的識別能力、對數(shù)字圖像“噪聲”的適應(yīng)能力、對數(shù)字圖像中標點符號的識別能力、對數(shù)字圖像的預(yù)處理能力、支持識別的項目類型、用戶界面友好型等六個方面入手來選用合適的OCR識別軟件。
3.5 識別結(jié)果優(yōu)化階段
信息資源數(shù)字化工作中,經(jīng)OCR軟件識別的文本材料并非整項工作的最終產(chǎn)品。實際操作過程中,經(jīng)OCR軟件識別的文本材料中常常存在亂碼字符、文本排列格式混亂等現(xiàn)象,這與用戶的使用需求尚存在差距。鑒于此,以原始文獻信息資源內(nèi)容作參照,對經(jīng)OCR軟件識別的文本材料進行人工校正處理就顯得十分必要。在此基礎(chǔ)上,以用戶使用需求為考量,為經(jīng)人工校正的文本材料選用合適的格式進行輸出、保存,是信息資源數(shù)字化OCR識別工作過程的最后一個環(huán)節(jié)。
參考文獻:
[1]陳光祚、雷燕.中外信息資源數(shù)字化比較研究[J].情報科學(xué),2001(08).
[2]郭軍.信息資源數(shù)字化文本型數(shù)字圖像OCR識別準確度影響因素及提高策略研究.鄭州大學(xué)碩士畢業(yè)論文,2011(04).
[3]Schantz,Herbert F.The History of OCR,Optical Character Recognition[J].Recognition Technologies,1982,(2):78-81.
[4]臧國全.文本數(shù)字化圖像OCR識別的準確度測度實驗與提高[J].圖書情報知識,2010(03):62-67.
[5]徐杰.淺談縮微膠片沖洗[J].縮微技術(shù),2001(04):30-31.
[6]王斐,王杰生,胡德永.三個商用遙感數(shù)字圖像處理軟件比較[J].遙感技術(shù)與應(yīng)用,1998(06):49-56.endprint