亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        檔案數(shù)字化過程中OCR 技術(shù)的運(yùn)用

        2022-07-14 01:36:16王效鵬
        魅力中國 2022年3期
        關(guān)鍵詞:識別率檢索文字

        王效鵬

        (山東省菏澤市牡丹區(qū)人力資源和社會保障局,山東 菏澤 274000)

        在信息時(shí)代背景下,檔案數(shù)字化成為當(dāng)前檔案管理工作的一個重點(diǎn)內(nèi)容,但是從當(dāng)前發(fā)展實(shí)際情況來看,掃描所產(chǎn)生的電子檔案是以圖像形式存在的文件,而不是真正意義上的文本文件信息。也就是說,依托計(jì)算機(jī)系統(tǒng)僅僅鞥能夠查看到檔案信息的外在形體,沒有在真正意義上識別出檔案信息的內(nèi)在文字信息,用戶雖然使用計(jì)算機(jī)系統(tǒng)看到了檔案信息原本的面貌,但是卻沒有根據(jù)實(shí)際情況合理利用這些信息,最終對電子檔案利用工作造成了很大的不變。為了能夠根據(jù)用戶的需要為其提供有針對的檔案管理服務(wù),獲得文本形態(tài)的電子檔案,實(shí)現(xiàn)檔案管理的數(shù)字化、科學(xué)化發(fā)展,相關(guān)人員提出了OCR 技術(shù)在檔案數(shù)字化管理中的應(yīng)用主張,旨在能夠在該技術(shù)的支持下提升檔案管理的科學(xué)性、有效性。

        一、OCR 技術(shù)的應(yīng)用內(nèi)涵和發(fā)展歷程

        OCR 技術(shù)是光學(xué)字符識別技術(shù),在具體實(shí)施操作的時(shí)候會通過光學(xué)輸入的方式來將文字信息轉(zhuǎn)變?yōu)橐环N圖像信息,而后在文字識別技術(shù)的作用下會將相關(guān)圖像信息轉(zhuǎn)變?yōu)槟軌虮挥?jì)算機(jī)識別和應(yīng)用的信息形式。從當(dāng)前發(fā)展實(shí)際情況來看,OCR 技術(shù)成為檔案管理領(lǐng)域的重要技術(shù)形式,在該技術(shù)的支持下能夠?qū)崿F(xiàn)全文字識別模式下的檔案掃描管理,在這個過程中會促進(jìn)我國檔案數(shù)字化管理發(fā)展,實(shí)現(xiàn)我國檔案管理工作的數(shù)字化發(fā)展,為相關(guān)人員查詢和利用檔案信息提供必要的技術(shù)支持。OCR 技術(shù)的應(yīng)用流程如下:影像輸入、影像前處理、文字特征抽取、比對識別、人工識別和人工校正。在經(jīng)過一系列識別分析之后會將最終的識別結(jié)果顯示出來,而后保存。

        OCR 的概念是由德國科學(xué)家Tausheck 在1929年提出來,后來美國科學(xué)家Handel 也提出了利用計(jì)算機(jī)掃描等技術(shù)對文字進(jìn)行識別的想法。在社會科技的發(fā)展支持下,OCR 技術(shù)已經(jīng)從原來的字符識別率低于50%到現(xiàn)在針對印刷體字符識別正確率達(dá)到了99%以上,并可以識別宋體、黑體、楷體等多種字體的簡、繁體;也能夠?qū)Σ煌淖煮w排列方式識別;一些技術(shù)的識別速度很快,一分鐘到兩分鐘能夠完成1000 字符的識別。站在技術(shù)應(yīng)用角度分析這項(xiàng)技術(shù)形式,其可以被完全應(yīng)用到檔案數(shù)字化管理中,在檔案信息識別中顯示出較高的識別率和較快的識別速度。

        二、檔案數(shù)字化過程中OCR 技術(shù)的使用流程

        檔案數(shù)字化過程中OCR 技術(shù)的使用主要遵循這樣的操作流程:影像數(shù)據(jù)信息的輸入管理、影像前處理、文字特征的提取、綜合比對識別、人工校正、輸出和保存。從實(shí)際應(yīng)用角度來看,檔案數(shù)字化過程中OCR技術(shù)的使用會縮短手工操作的時(shí)間,有一些圖像信息的識別僅僅需要零點(diǎn)幾秒即可,且在圖像處理的過程中會優(yōu)化前期處理和后期校對比較。且和傳統(tǒng)意義上的文字識別相比,所獲得的圖像信息更為精準(zhǔn)。檔案數(shù)字化過程中OCR 技術(shù)的使用僅僅使用簡單的人工操作即可,工作效率高,在處理檔案的過程中會在最大限度上節(jié)省人力資源的消耗,能夠幫助勞動者從繁瑣的勞動中解脫和釋放出來,在最大限度上實(shí)現(xiàn)資源的合理優(yōu)化配置。

        三、檔案數(shù)字化過程中OCR 技術(shù)的運(yùn)用優(yōu)勢分析

        第一,提升檔案數(shù)據(jù)信息的輸入速度。檔案數(shù)字化過程中OCR 技術(shù)的運(yùn)用會在使用檔案資料信息之前對檔案資料信息的內(nèi)容進(jìn)行識別整理,由此會使得檔案信息的錄入方式實(shí)現(xiàn)質(zhì)的突破。第二,提升檔案數(shù)據(jù)信息的錄入質(zhì)量。在OCR 技術(shù)支持下的檔案處理雖然仍然無法保障檔案信息識別處理的精準(zhǔn)度,但是在檔案信息質(zhì)量服務(wù)方面會有效提升檔案信息的質(zhì)量。第三,OCR 技術(shù)在使用的時(shí)候只需要單人操作即可,和一般情況下的檔案管理相比,OCR 技術(shù)支持下的檔案管理會簡化檔案操作,在保障檔案信息有效使用的同時(shí)會減少人力資源在檔案管理中的消耗。

        四、OCR 技術(shù)在檔案數(shù)字化發(fā)展中的具體應(yīng)用

        (一)創(chuàng)新著錄標(biāo)引方式

        檔案目錄數(shù)據(jù)庫打造的一個重要基礎(chǔ)是檔案數(shù)字化工作,當(dāng)前,在技術(shù)的支持下我國社會范圍內(nèi)的很多檔案館都打造出了完善的目錄庫。但是有很多檔案庫采取的是手工操作方式,檔案處理繁瑣、效率低下。

        OCR 技術(shù)在檔案管理中的使用會為人們提供一種新的著錄方式,在這種著錄方式的支持下會實(shí)現(xiàn)計(jì)算機(jī)系統(tǒng)錄入管理。檔案管理工作人員會直接從OCR 之后的全文中尋找到著錄項(xiàng),包含題目名稱、文號、責(zé)任者等,在查找到這些信息之后會將信息復(fù)制粘貼到目錄庫對應(yīng)的字段中,從而實(shí)現(xiàn)對檔案信息內(nèi)容的自動化檢索。OCR 技術(shù)的使用為檔案目錄的創(chuàng)建和錄入管理提供了一種全新的方式,工作人員能夠從OCR 中尋找著錄項(xiàng)目,而后將基本的復(fù)制粘貼操作放入到目錄庫中對應(yīng)的段落即可完成操作。但是從實(shí)際應(yīng)用操作角度來看,受OCR 技術(shù)本身使用局限的影響,基于該技術(shù)的檔案管理缺乏實(shí)踐操作的可行性,在未來,需要相關(guān)人員因地制宜地采取恰當(dāng)?shù)拇胧﹣斫鉀Q檔案管理的實(shí)踐操作可行性,逐漸完善OCR 技術(shù)形式。

        (二)實(shí)現(xiàn)真正的全文檢索

        檔案信息資料中的全文檢索包含兩個類型,一個是對檔案目錄庫信息的檢索,在找到關(guān)聯(lián)條目后會打開對應(yīng)的檔案全文。這種檢索方式是當(dāng)前檔案館常用的檔案檢索方式。另外一種檢索方式是全文檢索,即對檔案全文庫逐字逐句的檢索,幫助用戶從龐雜的數(shù)據(jù)庫中獲取自己所需要的檔案信息資源。第二種檢索方式離不開OCR 技術(shù)的支持,在具體實(shí)施操作的時(shí)候通過掃描圖像中的文字會將其轉(zhuǎn)變?yōu)閷?yīng)的文本格式。

        (三)支持雙層PDF 技術(shù)

        雙層PDF 技術(shù)形式是指每一個PDF 文件的每一頁都會包含兩層內(nèi)容,上層是掃描所獲得的原始圖像,下層是OCR 技術(shù)支持下的文字識別結(jié)果。PDF雙層技術(shù)形式被人們廣泛應(yīng)用在數(shù)字圖書館領(lǐng)域,如在CNKI 數(shù)據(jù)虧中檢索到的PDF 格式的電子文獻(xiàn)就使用了雙層PDF 技術(shù)。從實(shí)際實(shí)施操作上來看,OCR 技術(shù)中的雙層PDF 技術(shù)既能夠保證檔案的原真性,而且還能夠根據(jù)用戶的需求來選擇、復(fù)制和搜搜文字信息。

        (四)拓展檔案用戶的利用面

        在以往的檔案信息利用管理中,用戶是一般依托檔案憑證價(jià)值來獲取和利用信息。比如政府部門行使自己的職能作用去查閱某份文件信息、居民使用身份證來查詢房產(chǎn)信息、結(jié)婚證發(fā)放、學(xué)籍卡管理等。這些檔案信息在使用的時(shí)候?qū)n案本身的原真性有著較高的要求,在很多情況下檔案信息的使用是需要得到紙質(zhì)文檔支持的。

        在人們對檔案資料的深度挖掘下,檔案資料信息的作用也開始更加多元,檔案除了具備憑證價(jià)值,還會和圖書、情報(bào)等一樣具備一定的情報(bào)價(jià)值、參考價(jià)值,如何充分利用和挖掘檔案資料中潛在的價(jià)值信息成為相關(guān)人員需要思考和解決的問題。比如在利用檔案資料信息開展學(xué)術(shù)研究的時(shí)候,用戶要注重密切觀察檔案的知識屬性、信息屬性,如果檔案是通過手動方式保存的,就會出現(xiàn)操作不變的問題。借助OCR 技術(shù)能夠?qū)⒓堎|(zhì)檔案資料信息轉(zhuǎn)變?yōu)橐环N數(shù)字化的形式,借助OCR 識別會實(shí)現(xiàn)對檔案信息的全網(wǎng)絡(luò)檢索、網(wǎng)絡(luò)傳輸,進(jìn)而誒用戶異地檢索和引用數(shù)據(jù)信息提供重要支持,提高檔案資源信息的綜合利用率。

        五、提升檔案數(shù)字化過程中OCR 技術(shù)識別率的基本辦法分析

        識別率高低直接關(guān)系到檔案數(shù)字化過程中OCR 技術(shù)的應(yīng)用成效。從實(shí)際應(yīng)用操作的角度來看,OCR 技術(shù)如果具備較高的識別率不僅能夠精準(zhǔn)的掃描信息,提升檔案信息的錄入速度,而且還會降低檔案資料信息的后期處理工作量。如果OCR 技術(shù)的識別率較低,為了能夠提升識別率,就需要在檔案信息后期處理中消耗較多的人力、物力和財(cái)力來校對檔案信息。在檔案數(shù)字化發(fā)展中,通過提升OCR 技術(shù)的識別率會降低檔案數(shù)字化建設(shè)中的成本消耗。

        (一)科學(xué)設(shè)定掃描參數(shù)

        第一,分辨率。分辨率是影響檔案數(shù)字化過程中OCR 技術(shù)識別率的重要因素,圖像識別依靠掃描實(shí)現(xiàn),因此,只有獲得足夠的圖像信息才能夠提升檔案數(shù)字化過程中OCR 技術(shù)識別率。但是需要注意的是,圖像分辨率和檔案數(shù)字化過程中OCR 技術(shù)識別率不一定是正比的關(guān)系,圖像分辨率較高也會引發(fā)圖像掃描失真現(xiàn)象,最終不僅無法提升檔案數(shù)字化過程中OCR的識別率,而且還會因?yàn)閳D像文件占據(jù)較大空間而影文件的存儲、傳輸。第二,合理選擇色彩模式。黑色、白色圖像掃描不管是在掃描速度,還是在掃描正確率上都會遠(yuǎn)遠(yuǎn)超過其他顏色下的圖像掃描。為此,在沒有特殊要求的情況下,會選擇使用白色和黑色來完成圖像掃描,如果沒有黑色和白色的圖像,也可以選擇使用灰色的圖像完成掃描。第三,亮度和對比度的選擇。在數(shù)字化檔案發(fā)展之前,我國檔案存儲形式為紙質(zhì)存儲。但是在實(shí)際存儲管理中,由于一些檔案資料信息的存儲年份久遠(yuǎn),紙質(zhì)檔案的底色會泛黃,字跡也會變得模糊。盡管是使用黑色、白色、灰色的掃描圖像也無法滿足實(shí)際對檔案的要求。因此,為了能夠提升檔案數(shù)字化過程中OCR 技術(shù)的使用識別率,需要相關(guān)人員結(jié)合實(shí)際情況來調(diào)整掃描參數(shù),調(diào)節(jié)圖像的亮度對比度。在掃描完成之后,如果圖像漢字字跡不清晰,操作人員也可以采取一些措施適當(dāng)?shù)亟档推淞炼?,在降低亮度之后開展二次掃描;如果在掃描后發(fā)現(xiàn)字體比較小、筆劃粗糙,可以采取措施提升其亮度;在調(diào)節(jié)亮度的時(shí)候如果文字出現(xiàn)了變淡的情況,還需要采取措施增加圖像的對比度,在這個過程中加重原本圖像文字的顏色,最終提升檔案數(shù)字化過程中OCR技術(shù)識別率。

        (二)優(yōu)化圖像處理工作

        在數(shù)字化檔案中會有很多文字是以美工體或者藝術(shù)體的形式出現(xiàn),這種非常規(guī)表現(xiàn)形式上的文字形式會降低檔案數(shù)字化過程中OCR 技術(shù)的識別率。另外,如果圖像中的文字出現(xiàn)了污垢,也很容易使得OCR 技術(shù)軟件在識別的過程中出現(xiàn)判斷失誤的問題。因此,為了能夠規(guī)避以上問題的出現(xiàn),在開展OCR 技術(shù)識別操作之前,相關(guān)人員需要采取積極的措施來糾正圖像中的字體,去除圖像上的污點(diǎn),通過這樣的方式能夠有效提升OCR 技術(shù)支持下的圖像分辨率。另外需要注意的是,圖像去污也是檔案掃描操作管理中的重要工作內(nèi)容,在圖像掃描過程中不能夠忽視。

        (三)做好人工校對管理工作

        在檔案數(shù)字化管理的過程中,計(jì)算機(jī)系統(tǒng)也容易出現(xiàn)一些固有的問題,且在同一個地方一個問題有時(shí)候會反復(fù)出現(xiàn),最終導(dǎo)致檔案管理工作無法按照既定的程序完成操作,檔案操作管理缺乏靈活。為此,在檔案數(shù)字化管理的過程中還需要適當(dāng)?shù)呐浜鲜褂萌斯ぷR別校對,通過人工識別校對來有效提升OCR 技術(shù)的識別率。

        從實(shí)際應(yīng)用操作角度上來看,在OCR 技術(shù)軟件被識別之后,系統(tǒng)會將識別的結(jié)果通過不同的兩行展現(xiàn)出來,一行是圖像,另外一行是識別后的結(jié)果。OCR 技術(shù)軟件對于自身潛在的識別問題會通過不同的顏色來表示出來,目的是為用戶發(fā)現(xiàn)和解決錯誤提供支持。但是在具體操作中我們會發(fā)現(xiàn)有一些錯誤問題無法使用變色的方式處于展示和處理,而一些出現(xiàn)變色的圖像、數(shù)字也不一定是錯誤的。由此要求工作人員在開展人工校對分析的時(shí)候要對以上問題進(jìn)行深入的分析檢查,不能夠完全按照提示來開展檢驗(yàn)。

        結(jié)束語

        綜上所述,在現(xiàn)代信息技術(shù)和科學(xué)技術(shù)的深入發(fā)展下,檔案在人類社會生活中的作用日益凸顯?;跈n案數(shù)量、類型的增多,人們對檔案處理提出了更高的要求。傳統(tǒng)的案卷級和文件級目錄檢索技術(shù)已經(jīng)無法適應(yīng)當(dāng)前網(wǎng)絡(luò)時(shí)代的搜索要求,檔案全文數(shù)字化是檔案管理的一種必然。比較當(dāng)前的各類檔案數(shù)字化技術(shù),使用OCR 技術(shù)能夠有效提升檔案處理速率和效率,因而,在未來,需要相關(guān)人員進(jìn)一步強(qiáng)化對OCR 處理技術(shù)的重視和應(yīng)用,從而更好地推進(jìn)我國檔案數(shù)字化發(fā)展。

        猜你喜歡
        識別率檢索文字
        文字的前世今生
        熱愛與堅(jiān)持
        當(dāng)我在文字中投宿
        文苑(2020年12期)2020-04-13 00:55:10
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
        2019年第4-6期便捷檢索目錄
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
        提升高速公路MTC二次抓拍車牌識別率方案研究
        高速公路機(jī)電日常維護(hù)中車牌識別率分析系統(tǒng)的應(yīng)用
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        國際標(biāo)準(zhǔn)檢索
        久久精品第九区免费观看| 亚洲欧洲日产国码无码av野外| 综合人妻久久一区二区精品| 国产流白浆视频在线观看| 久久久久久亚洲av成人无码国产| 久久综合给合久久狠狠狠97色69 | av在线播放免费网站| 不卡av电影在线| 97超级碰碰人妻中文字幕| 亚欧免费无码AⅤ在线观看 | 在线亚洲AV成人无码一区小说| 精品亚洲av一区二区| 国产在线第一区二区三区| 无码少妇a片一区二区三区| 99精品欧美一区二区三区美图| 国产成人亚洲综合二区| 欧洲乱码伦视频免费| 在线亚洲人成电影网站色www | 2022国内精品免费福利视频| 国产影片免费一级内射| 中文字幕一区二区三区97| 日本第一影院一区二区| 欧美人伦禁忌dvd放荡欲情| 久久久男人天堂| 久久精品一区二区三区不卡牛牛| 日韩精品熟妇一区二区三区| 亚洲色欲色欲综合网站| 成 人 网 站 在线 看 免费| 国产精女同一区二区三区久| 人妻在卧室被老板疯狂进入| 久久精品亚洲乱码伦伦中文| 人妻av一区二区三区高| 国产一品二品精品在线| 国产在线精品一区在线观看| 国产欧美另类精品久久久| 人妻被公上司喝醉在线中文字幕| 免费欧洲毛片a级视频老妇女 | 偷拍视频十八岁一区二区三区 | 精品乱色一区二区中文字幕| 最新欧美精品一区二区三区| 国产亚洲日韩在线一区二区三区|