亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        對(duì)OCR識(shí)別技術(shù)在檔案管理應(yīng)用的一點(diǎn)思考

        2021-04-14 19:30:08
        卷宗 2021年4期
        關(guān)鍵詞:字符識(shí)別文字檔案管理

        王 瑜

        (中國電建集團(tuán)北京勘測設(shè)計(jì)研究院有限公司,北京 100024)

        OCR(Optical Character Recognition,光學(xué)字符識(shí)別)是指電子設(shè)備(例如掃描儀或數(shù)相機(jī))檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程;即針對(duì)印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件,并通過識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)一步編輯加工的技術(shù)。

        在信息時(shí)代的檔案管理中,OCR識(shí)別是非常實(shí)用的工具。很多老舊的檔案在形成之初受年代限制沒有一開始就形成電子文件的條件,所以只能靠后期掃描完成數(shù)字化,這樣的文件在企業(yè)中依然有著龐大的數(shù)量,而這龐大數(shù)量的未數(shù)字化的檔案給檔案管理帶來了很大的難度,急需一種可以幫助檔案管理工作人員提高效率的方式來解決問題,這個(gè)時(shí)候OCR識(shí)別自然而然的被關(guān)注。OCR技術(shù)相對(duì)于傳統(tǒng)的手工錄入方式來說,具有強(qiáng)大的優(yōu)勢,首先OCR識(shí)別的速度遠(yuǎn)快于手工錄入。根據(jù)國際通行的打字速度評(píng)級(jí)標(biāo)準(zhǔn),即使是專業(yè)人員,每分鐘也僅能輸入150-240個(gè)字,而采用OCR技術(shù),即使算上前后期的處理環(huán)節(jié)所花的時(shí)間,其速度也比手工錄入快很多。其次,OCR識(shí)別的準(zhǔn)確率也遠(yuǎn)高于手工錄入,在檔案文本提取方面優(yōu)勢卓越,為后面的檔案全文檢索功能提供了基礎(chǔ),并且可以大大節(jié)省人力資源,優(yōu)化資源配置,使檔案人員可以從繁忙的錄入工作中解脫出來,把精力分配給更加有意義的工作。

        1 OCR識(shí)別在檔案管理的工作過程中的幾個(gè)難點(diǎn)

        OCR識(shí)別技術(shù)分為兩個(gè)具體步驟:文字的檢測和文字的識(shí)別,兩者缺一不可,尤其是文字檢測,是識(shí)別的前提條件,若文字都找不到,那何談文字識(shí)別文本檢測不是一件簡單的任務(wù),尤其是復(fù)雜的檔案數(shù)字化下的文本檢測,非常具有挑戰(zhàn)性。檔案信息化場景下的文本檢測有如下幾個(gè)難點(diǎn):

        1.1 文本存在多種分布,難以提取有效信息

        早期的檔案的文本存在多種分布,許多檔案中包含圖片和文字,甚至多數(shù)情況下采用圖文混排的形式,老檔案紙面發(fā)黃,字跡模糊這就給OCR的掃描識(shí)別增加了難度。當(dāng)然除了檔案全文的文字識(shí)別,在檔案著錄環(huán)節(jié),OCR識(shí)別也很難提取有用信息。著錄時(shí)主要從需從檔案中提取文件題名、責(zé)任者、人名、密級(jí)、保密期限等信息,填寫到檔案系統(tǒng)的相應(yīng)位置。而這些信息因?yàn)樵缙跈n案格式不規(guī)范,或者檔案種類的不同的原因,所在的位置也不同,很難總結(jié)出一個(gè)可以一套公式用到底的規(guī)律。

        1.2 系統(tǒng)兼容問題

        建立的檔案數(shù)字化系統(tǒng)必須與本單位的存儲(chǔ)和應(yīng)用系統(tǒng)兼容,否則會(huì)造成不必要的運(yùn)行環(huán)境問題。引進(jìn)OCR軟件也一定要與OCR軟件也一定要與本單位的存儲(chǔ)和應(yīng)用系統(tǒng)兼容,便于今后的數(shù)據(jù)管理與利用,這一點(diǎn)在需求分析中應(yīng)涉及。

        2 OCR識(shí)別技術(shù)應(yīng)用在檔案管理中的幾點(diǎn)思考

        2.1 輔助提高OCR識(shí)別的環(huán)境

        國家檔案局的《DA/T 77-2019 紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識(shí)別(OCR)工作規(guī)范》中對(duì)檔案的OCR識(shí)別早有規(guī)定,按照T 77規(guī)定,OCR識(shí)別時(shí)首先掃描時(shí)就需要注意,紙質(zhì)數(shù)字復(fù)制件的圖片分辨率不應(yīng)低于200dpi,特殊情況下,如字體偏小、密集、清晰度較差等,可以適當(dāng)提高分辨率。圖像應(yīng)做降噪處理,處理中應(yīng)去除掃描過程中產(chǎn)生的污點(diǎn)、污線、黑邊等影響圖像質(zhì)量的雜種,去除檔案頁面原有的紙張褪變斑點(diǎn)、水漬、污點(diǎn)。裝訂孔等影響識(shí)別的地方。其次調(diào)節(jié)檔案的亮度、對(duì)比度。部分檔案由于年代久遠(yuǎn),很多會(huì)底色發(fā)黃、字跡變淡,若要提高OCR識(shí)別率,需要改變很多參數(shù),即調(diào)節(jié)亮度和對(duì)比度,且應(yīng)先調(diào)亮度再調(diào)對(duì)比度。

        2.2 選擇合適的OCR軟件

        要選擇好的OCR軟件,目前,市場上比較流行的OCR軟件很多,主要有百度文字、騰訊云、科大訊飛、清華紫光。漢王等品牌。各個(gè)品牌都有不同的特點(diǎn),可以就檔案系統(tǒng)接口情況選擇。其次在著錄時(shí)無法提取有效信息的問題,可以通過人工框選的方式來解決。其次訓(xùn)練OCR識(shí)別軟件的機(jī)器學(xué)習(xí)功能,減少文字識(shí)別的誤差。只有OCR軟件和人工搭配工作,才能更好地完成檔案管理。

        3 結(jié)語

        檔案管理是一門相當(dāng)繁瑣又傳統(tǒng)的學(xué)問,他記錄著我們每個(gè)人、每個(gè)行業(yè)、甚至世界各民族的榮辱浮沉、盛衰興亡。而OCR技術(shù)的存在能讓檔案這門古老的學(xué)問煥發(fā)出光來。我相信只有深刻學(xué)習(xí)各種技術(shù),才可以使得我們管理的檔案在日后發(fā)揮更大的作用。

        猜你喜歡
        字符識(shí)別文字檔案管理
        文字的前世今生
        熱愛與堅(jiān)持
        當(dāng)我在文字中投宿
        文苑(2020年12期)2020-04-13 00:55:10
        檔案管理中的電子檔案管理
        檔案管理與企業(yè)內(nèi)部控制關(guān)系的思考
        一種改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識(shí)別
        儀表字符識(shí)別中的圖像處理算法研究
        基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識(shí)別
        健康檔案管理的“云”前景
        機(jī)加工件點(diǎn)陣字符識(shí)別研究
        河南科技(2014年3期)2014-02-27 14:05:36
        高清国产美女av一区二区| 欧美精品videosex极品| 男受被做哭激烈娇喘gv视频| 动漫在线无码一区| 国产精品三级国产精品高| 日韩有码中文字幕在线观看| 久久视频在线| 欧美喷潮系列在线观看| 亚洲精品国产主播一区二区| 亚洲精品一区二区高清| 影音先锋中文字幕无码资源站 | 国产亚洲精品品视频在线 | 国产亚洲精品综合在线网址| 亚洲精彩av大片在线观看| 亚洲色精品三区二区一区| 吃奶摸下的激烈视频| 精品一区二区三区在线视频观看| 国产一区三区二区视频在线观看 | 国产人妻黑人一区二区三区| 欧美综合自拍亚洲综合百度| 亚洲一区二区国产一区| 亚洲中文字幕成人无码| 1769国产精品短视频| 日本人妖一区二区三区| 国产精品久久久福利| 国产99久久久久久免费看| 99综合精品久久| 国产精品久久久黄色片| 内射人妻视频国内| 亚洲精品中文字幕无乱码麻豆| 国产精品国产三级在线专区| 亚洲 小说区 图片区 都市| 国产99久久久久久免费看| 欧美手机在线视频| 国产三级精品和三级男人| 日射精情感性色视频| 99久久人妻无码精品系列蜜桃 | h视频在线免费观看视频| 大地资源中文第3页| 91伊人久久| 日本一区二区偷拍视频|