張佳琦
摘 要 傳統(tǒng)的人事檔案管理模式是以檔案保管和使用為重點(diǎn),在人事檔案的使用中,檔案的查閱借閱是通過人工手動查找檔案信息,操作非常煩瑣,這樣降低了檔案管理員的工作效率?,F(xiàn)今,信息技術(shù)的發(fā)展飛速,給人事檔案管理工作帶來了極大的方便。本文主要通過介紹文字識別技術(shù)在人事檔案管理中的應(yīng)用,希望有利于推動人事檔案管理工作信息化的進(jìn)程。
關(guān)鍵詞 人事檔案管理;文字識別技術(shù);信息化
1文字識別技術(shù)發(fā)展
在實(shí)際的生產(chǎn)和生活中,需要人工處理大量的文字和報(bào)表等內(nèi)容。為了減輕人工勞作,提高人工工作效率,德國科學(xué)家Tausheck于1929年首先提出OCR技術(shù)的概念,之后經(jīng)過大量研究,OCR的意思變成了通過光學(xué)技術(shù)對具有字母、數(shù)字、文字等圖像進(jìn)行掃描并識別,轉(zhuǎn)化成為計(jì)算機(jī)可識別的符號。20世紀(jì)50年代,人們開始探討研究比較簡單文字的識別技術(shù),并研制出光學(xué)字符識別器。20世紀(jì)60年代初,開始出現(xiàn)第一代OCR產(chǎn)品,20世紀(jì)60年代后期,隨著文字識別技術(shù)準(zhǔn)確率不斷提升,多種字體和手寫體文字識別器開始上市。
中國于20世紀(jì)70年代才開始對數(shù)字、字母、漢字等文字識別技術(shù)進(jìn)行研究。1986年,國家863計(jì)劃信息領(lǐng)域課題組織了清華大學(xué)、沈陽自動化所、北京信息工程學(xué)院三個(gè)單位,開始研發(fā)適用于國文的OCR系統(tǒng)。1989年,清華大學(xué)研究出了中文OCR軟件——清華文通TH-OCR1.0版,這是中國首個(gè)中文OCR系統(tǒng)軟件[1]。
目前,印刷體漢字字符的識別率達(dá)到了98%以上,印刷質(zhì)量相對較差的字符識別率達(dá)95%以上,手寫漢字字符的識別率達(dá)70%以上。
2文字識別技術(shù)路線
(1)圖像預(yù)處理。①彩色圖像灰度化。檔案材料通過掃描機(jī)的掃描,一般情況下都是彩色圖像。為了更好地識別圖像中的文字,需將原彩色的圖像通過系統(tǒng)轉(zhuǎn)換成為灰度圖像。②圖像二值化。圖像二值化,是一種把識別出來的灰度圖像信號轉(zhuǎn)化成為只用二值來表達(dá)數(shù)字信號的過程。通過二值化處理的圖片每個(gè)像素非黑即白,使所需用像素為1,背景像素為0,圖像的對比度和區(qū)分效果更為理想。③圖像噪聲處理。由于客觀原因,圖像中會存在各種各樣的噪聲,為了系統(tǒng)能更好地識別出有用信息,需要通過圖像平滑處理的技術(shù),消除圖像中的噪聲。
(2)文本區(qū)域定位。①基于連通區(qū)域的方法。由于所識別圖像中的文本內(nèi)容在局部區(qū)域有顏色和亮度相似并且與背景區(qū)域相差較大,使用基于連通區(qū)域的方法,首先要確定連通區(qū)域,再利用區(qū)域規(guī)則和幾何約束進(jìn)行區(qū)分,濾除非文本的連通分量,最后合并子區(qū)域,獲得文本區(qū)域定位的結(jié)果。②基于邊緣檢測的方法。在對圖像中的文本區(qū)域定位時(shí),基于邊緣檢測的算法是一種常用的算法。由于文本區(qū)域與背景區(qū)域的對比度較強(qiáng),通過邊緣檢測算子得到圖像的邊緣信息,再用形態(tài)學(xué)處理或平滑濾波等方法將邊界處合并,再用多個(gè)啟發(fā)性規(guī)則濾除非文本區(qū)域。③基于紋理特征的方法。由于文字是由筆畫組成的,文本區(qū)域在顏色、結(jié)構(gòu)、排列等方面都具有獨(dú)有的特性,所以文本區(qū)域可以當(dāng)作一種特殊的紋理。
(3)文字切分。文字的切分是文字識別中很重要的一個(gè)環(huán)節(jié)。其原理是將一段語句逐個(gè)切分為單字,只有準(zhǔn)確地將語句中的文字切分為單字,后面的特征提取與文字識別才能更好地進(jìn)行?,F(xiàn)階段,主要的文字切分方法有經(jīng)典切分法、基于識別的切分法、連通區(qū)域切分法、整體切分法和灰度圖像切分法等。切分后的文字可能會出現(xiàn)大小不一的情況,所以在進(jìn)行文字特征提取之前先要進(jìn)行歸一化處理。通過歸一化處理,不僅要將大小不同的字符圖像以相同的比例進(jìn)行縮放,而且要保持文字拓?fù)洳话l(fā)生變化,這樣才能更好地突顯出文字所要提取出來的特征。
(4)文字特征提取及識別。圖像在經(jīng)過預(yù)處理、文本區(qū)域定位、文字切分及歸一化后,需要文字進(jìn)行特征提取和字符的識別工作,可以直接調(diào)取接口即可[2]。
3文字識別技術(shù)在人事檔案管理中的優(yōu)點(diǎn)
通過計(jì)算機(jī)對人事檔案進(jìn)行管理,并對相關(guān)信息資源進(jìn)行分類及分析加工,不僅可以提高工作效率,還可以降低一些管理成本。①節(jié)約檔案查閱工作的時(shí)間。在傳統(tǒng)的人事檔案管理工作中,檔案材料一直以紙質(zhì)材料進(jìn)行保管,在使用檔案信息的過程中,需要管理人員采用手工翻查尋找,工作量十分大,而且效率非常低,浪費(fèi)大量的時(shí)間以及人力。所以,在這樣的情況下,可以通過文字識別技術(shù)解決這一困難。當(dāng)我們需要在檔案中查找某人的信息時(shí),只需要輸入姓名或其他基本信息,就可以快速找到其所有資料。②搜索準(zhǔn)確率大幅上升。人事檔案材料種類復(fù)雜、數(shù)量龐大,傳統(tǒng)檔案管理模式下對紙質(zhì)檔案的查找十分復(fù)雜,由檔案管理人員手動逐一著錄檔案信息勢必會發(fā)生錯(cuò)誤。現(xiàn)階段文字識別技術(shù)相對成熟,在原始檔案質(zhì)量好的情況下,準(zhǔn)確率可以達(dá)到95%以上。③提高人事檔案管理工作效率。將紙質(zhì)人事檔案信息通過機(jī)器掃描后轉(zhuǎn)化為電子形式,更加方便整理、保存和使用,不僅提高了檔案的安全性,還減少了翻查檔案所需的時(shí)間,使檔案工作流程更加緊湊合理。④保護(hù)紙質(zhì)檔案原件。將紙質(zhì)人事檔案通過掃描儲存在計(jì)算機(jī)中,可以減少對紙質(zhì)材料的使用頻次,保護(hù)紙質(zhì)檔案材料不受到人為破壞。
4文字識別技術(shù)在人事檔案管理中的實(shí)用性
(1)用于圖像處理。在對檔案材料掃描的過程中,對圖像自動進(jìn)行去污、糾偏、去黑邊、提亮的處理,不僅提高了掃描圖像的質(zhì)量,還為后續(xù)的OCR識別提供有利條件。
(2)OCR識別。OCR識別技術(shù)可以省去大量的時(shí)間和人力進(jìn)行檔案的查閱工作,現(xiàn)在,OCR識別技術(shù)已經(jīng)非常成熟,市面上所宣傳主流的OCR技術(shù)識別率基本都在95%以上。
(3)信息自動提取。在自動提取檔案信息的過程中需要首先要對文件的版面進(jìn)行分析,檔案中需要提取的信息的位置相對來說比較固定。提取檔案中的信息,可以針對文檔的特點(diǎn)建立模板庫,隨著模板庫的增加提取的信息也會更加準(zhǔn)確。
參考文獻(xiàn)
[1] 付磊.復(fù)雜背景下彩色圖像中的文字識別[D].長春:吉林大學(xué), 2011.
[2] 劉亞亞.圖像中文本區(qū)域定位的研究[D].無錫:江南大學(xué),2015.