亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

試述文字識別技術(shù)在人事檔案管理中的應(yīng)用

2020-09-04 08:58:24張佳琦

科學(xué)與信息化 2020年21期

張佳琦

摘要傳統(tǒng)的人事檔案管理模式是以檔案保管和使用為重點(diǎn)，在人事檔案的使用中，檔案的查閱借閱是通過人工手動查找檔案信息，操作非常煩瑣，這樣降低了檔案管理員的工作效率?，F(xiàn)今，信息技術(shù)的發(fā)展飛速，給人事檔案管理工作帶來了極大的方便。本文主要通過介紹文字識別技術(shù)在人事檔案管理中的應(yīng)用，希望有利于推動人事檔案管理工作信息化的進(jìn)程。

關(guān)鍵詞人事檔案管理;文字識別技術(shù);信息化

1文字識別技術(shù)發(fā)展

在實(shí)際的生產(chǎn)和生活中，需要人工處理大量的文字和報(bào)表等內(nèi)容。為了減輕人工勞作，提高人工工作效率，德國科學(xué)家Tausheck于1929年首先提出OCR技術(shù)的概念，之后經(jīng)過大量研究，OCR的意思變成了通過光學(xué)技術(shù)對具有字母、數(shù)字、文字等圖像進(jìn)行掃描并識別，轉(zhuǎn)化成為計(jì)算機(jī)可識別的符號。20世紀(jì)50年代，人們開始探討研究比較簡單文字的識別技術(shù)，并研制出光學(xué)字符識別器。20世紀(jì)60年代初，開始出現(xiàn)第一代OCR產(chǎn)品，20世紀(jì)60年代后期，隨著文字識別技術(shù)準(zhǔn)確率不斷提升，多種字體和手寫體文字識別器開始上市。

中國于20世紀(jì)70年代才開始對數(shù)字、字母、漢字等文字識別技術(shù)進(jìn)行研究。1986年，國家863計(jì)劃信息領(lǐng)域課題組織了清華大學(xué)、沈陽自動化所、北京信息工程學(xué)院三個(gè)單位，開始研發(fā)適用于國文的OCR系統(tǒng)。1989年，清華大學(xué)研究出了中文OCR軟件——清華文通TH-OCR1.0版，這是中國首個(gè)中文OCR系統(tǒng)軟件[1]。

目前，印刷體漢字字符的識別率達(dá)到了98%以上，印刷質(zhì)量相對較差的字符識別率達(dá)95%以上，手寫漢字字符的識別率達(dá)70%以上。

2文字識別技術(shù)路線

（1）圖像預(yù)處理。①彩色圖像灰度化。檔案材料通過掃描機(jī)的掃描，一般情況下都是彩色圖像。為了更好地識別圖像中的文字，需將原彩色的圖像通過系統(tǒng)轉(zhuǎn)換成為灰度圖像。②圖像二值化。圖像二值化，是一種把識別出來的灰度圖像信號轉(zhuǎn)化成為只用二值來表達(dá)數(shù)字信號的過程。通過二值化處理的圖片每個(gè)像素非黑即白，使所需用像素為1，背景像素為0，圖像的對比度和區(qū)分效果更為理想。③圖像噪聲處理。由于客觀原因，圖像中會存在各種各樣的噪聲，為了系統(tǒng)能更好地識別出有用信息，需要通過圖像平滑處理的技術(shù)，消除圖像中的噪聲。

（2）文本區(qū)域定位。①基于連通區(qū)域的方法。由于所識別圖像中的文本內(nèi)容在局部區(qū)域有顏色和亮度相似并且與背景區(qū)域相差較大，使用基于連通區(qū)域的方法，首先要確定連通區(qū)域，再利用區(qū)域規(guī)則和幾何約束進(jìn)行區(qū)分，濾除非文本的連通分量，最后合并子區(qū)域，獲得文本區(qū)域定位的結(jié)果。②基于邊緣檢測的方法。在對圖像中的文本區(qū)域定位時(shí)，基于邊緣檢測的算法是一種常用的算法。由于文本區(qū)域與背景區(qū)域的對比度較強(qiáng)，通過邊緣檢測算子得到圖像的邊緣信息，再用形態(tài)學(xué)處理或平滑濾波等方法將邊界處合并，再用多個(gè)啟發(fā)性規(guī)則濾除非文本區(qū)域。③基于紋理特征的方法。由于文字是由筆畫組成的，文本區(qū)域在顏色、結(jié)構(gòu)、排列等方面都具有獨(dú)有的特性，所以文本區(qū)域可以當(dāng)作一種特殊的紋理。

（3）文字切分。文字的切分是文字識別中很重要的一個(gè)環(huán)節(jié)。其原理是將一段語句逐個(gè)切分為單字，只有準(zhǔn)確地將語句中的文字切分為單字，后面的特征提取與文字識別才能更好地進(jìn)行?，F(xiàn)階段，主要的文字切分方法有經(jīng)典切分法、基于識別的切分法、連通區(qū)域切分法、整體切分法和灰度圖像切分法等。切分后的文字可能會出現(xiàn)大小不一的情況，所以在進(jìn)行文字特征提取之前先要進(jìn)行歸一化處理。通過歸一化處理，不僅要將大小不同的字符圖像以相同的比例進(jìn)行縮放，而且要保持文字拓?fù)洳话l(fā)生變化，這樣才能更好地突顯出文字所要提取出來的特征。

（4）文字特征提取及識別。圖像在經(jīng)過預(yù)處理、文本區(qū)域定位、文字切分及歸一化后，需要文字進(jìn)行特征提取和字符的識別工作，可以直接調(diào)取接口即可[2]。

3文字識別技術(shù)在人事檔案管理中的優(yōu)點(diǎn)

通過計(jì)算機(jī)對人事檔案進(jìn)行管理，并對相關(guān)信息資源進(jìn)行分類及分析加工，不僅可以提高工作效率，還可以降低一些管理成本。①節(jié)約檔案查閱工作的時(shí)間。在傳統(tǒng)的人事檔案管理工作中，檔案材料一直以紙質(zhì)材料進(jìn)行保管，在使用檔案信息的過程中，需要管理人員采用手工翻查尋找，工作量十分大，而且效率非常低，浪費(fèi)大量的時(shí)間以及人力。所以，在這樣的情況下，可以通過文字識別技術(shù)解決這一困難。當(dāng)我們需要在檔案中查找某人的信息時(shí)，只需要輸入姓名或其他基本信息，就可以快速找到其所有資料。②搜索準(zhǔn)確率大幅上升。人事檔案材料種類復(fù)雜、數(shù)量龐大，傳統(tǒng)檔案管理模式下對紙質(zhì)檔案的查找十分復(fù)雜，由檔案管理人員手動逐一著錄檔案信息勢必會發(fā)生錯(cuò)誤。現(xiàn)階段文字識別技術(shù)相對成熟，在原始檔案質(zhì)量好的情況下，準(zhǔn)確率可以達(dá)到95%以上。③提高人事檔案管理工作效率。將紙質(zhì)人事檔案信息通過機(jī)器掃描后轉(zhuǎn)化為電子形式，更加方便整理、保存和使用，不僅提高了檔案的安全性，還減少了翻查檔案所需的時(shí)間，使檔案工作流程更加緊湊合理。④保護(hù)紙質(zhì)檔案原件。將紙質(zhì)人事檔案通過掃描儲存在計(jì)算機(jī)中，可以減少對紙質(zhì)材料的使用頻次，保護(hù)紙質(zhì)檔案材料不受到人為破壞。

4文字識別技術(shù)在人事檔案管理中的實(shí)用性

（1）用于圖像處理。在對檔案材料掃描的過程中，對圖像自動進(jìn)行去污、糾偏、去黑邊、提亮的處理，不僅提高了掃描圖像的質(zhì)量，還為后續(xù)的OCR識別提供有利條件。

（2）OCR識別。OCR識別技術(shù)可以省去大量的時(shí)間和人力進(jìn)行檔案的查閱工作，現(xiàn)在，OCR識別技術(shù)已經(jīng)非常成熟，市面上所宣傳主流的OCR技術(shù)識別率基本都在95%以上。

（3）信息自動提取。在自動提取檔案信息的過程中需要首先要對文件的版面進(jìn)行分析，檔案中需要提取的信息的位置相對來說比較固定。提取檔案中的信息，可以針對文檔的特點(diǎn)建立模板庫，隨著模板庫的增加提取的信息也會更加準(zhǔn)確。

參考文獻(xiàn)

[1] 付磊.復(fù)雜背景下彩色圖像中的文字識別[D].長春：吉林大學(xué)， 2011.

[2] 劉亞亞.圖像中文本區(qū)域定位的研究[D].無錫：江南大學(xué)，2015.