亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談OCR識(shí)別技術(shù)在科技檔案管理中的運(yùn)用

        2021-08-06 07:13:02
        卷宗 2021年21期
        關(guān)鍵詞:二值像素閾值

        王 瑜

        (中國(guó)電建集團(tuán)北京勘測(cè)設(shè)計(jì)研究院有限公司,北京 100024)

        OCR文字識(shí)別技術(shù)的英文全稱是Optical Character Recognition,譯為光學(xué)字符識(shí)別。OCR文字識(shí)別是視覺(jué)感知中一個(gè)重要的技術(shù),目的是從圖片中提取文字信息。它是利用光學(xué)技術(shù)和計(jì)算機(jī)技術(shù)把印在或?qū)懺诩埳系奈淖肿x取出來(lái),并轉(zhuǎn)換成一種計(jì)算機(jī)能夠接受、人也可以理解的格式。文字識(shí)別是計(jì)算機(jī)視覺(jué)研究領(lǐng)域的分支之一,這個(gè)課題已經(jīng)在很多行業(yè)得到應(yīng)用。OCR識(shí)別技術(shù)主要可應(yīng)用的場(chǎng)景有:教育場(chǎng)景文字識(shí)別、卡證文字識(shí)別、財(cái)務(wù)票據(jù)文字識(shí)別、醫(yī)療票據(jù)文字識(shí)別和汽車場(chǎng)景文字識(shí)別。

        1 OCR技術(shù)的流程

        OCR文字識(shí)別從本質(zhì)上可以歸類為序列化標(biāo)注問(wèn)題,主要目標(biāo)是尋找文本串圖形到文本串內(nèi)容的映射。在工作流程上,《DA/T77-2019紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識(shí)別(OCR)工作規(guī)范》已有所規(guī)定,主要流程是:

        1.1 圖像輸入

        首先對(duì)圖像的分辨率、傾斜度、清晰度、失真度等方面進(jìn)行評(píng)估,并進(jìn)行適當(dāng)?shù)恼{(diào)整。然后把不同的格式和壓縮方式的圖像進(jìn)行解碼。

        1.2 圖像預(yù)處理

        主要包括二值化、去噪、傾斜矯正等。

        1)二值化:圖像錄入設(shè)備采集到圖像,一般都是彩色圖像。二值化就是將具有灰度級(jí)的彩色圖像轉(zhuǎn)換為黑白圖像,設(shè)定任意的閾值,并與各像素值進(jìn)行比較,當(dāng)大于閾值時(shí)轉(zhuǎn)換為黑,小于閾值轉(zhuǎn)換為白。

        2)去噪:主要方法是均值濾波器、自適應(yīng)維納濾波器、中值濾波器、形態(tài)學(xué)噪聲濾除器、小波去噪。

        3)傾斜矯正:對(duì)圖像識(shí)別前先對(duì)相關(guān)的內(nèi)容進(jìn)行校正。

        1.3 對(duì)比識(shí)別

        1)版式分析:對(duì)圖片中文字進(jìn)行分段落、分行的過(guò)程,稱之為版面分析。

        2)檔案特征分析:通過(guò)分析歸檔章、公文要素分析、表格分析、印章分析等方面對(duì)檔案進(jìn)行分析。

        1.4 識(shí)別和匹配

        以特征提取數(shù)據(jù)庫(kù)對(duì)比為主。文字的位移、筆畫的粗細(xì)、斷筆、粘連、旋轉(zhuǎn)等因素極大地增加了特征提取的難度。

        1.5 成果整理輸出

        1)成果整理:按照紙質(zhì)檔案數(shù)字復(fù)制件的版式對(duì)OCR成果的版式、公文要素、文字符號(hào)等內(nèi)容進(jìn)行理解與重建。

        2)成果輸出:將檔案OCR成果同時(shí)保存為純文本形式和雙層版式文件形式。

        2 OCR技術(shù)在科技檔案管理中運(yùn)用的幾種場(chǎng)景

        OCR識(shí)別在檔案場(chǎng)景的應(yīng)用,主要針對(duì)兩方面:著錄項(xiàng)數(shù)據(jù)抓取方面和全文OCR識(shí)別。在檔案文件元數(shù)據(jù)抓取的方面的OCR識(shí)別技術(shù)的應(yīng)用可以參考卡證文字識(shí)別,即把OCR技術(shù)和檔案系統(tǒng)集成,讓OCR識(shí)別出的文字直接被收錄到相應(yīng)的部位。這一點(diǎn)科技檔案出版格式的高度標(biāo)準(zhǔn)化給OCR識(shí)別帶來(lái)了方便。因?yàn)槲淖肿R(shí)別的主要目標(biāo)是對(duì)定位好的文字區(qū)域進(jìn)行識(shí)別,主要解決的是將一串文字圖片轉(zhuǎn)錄為對(duì)應(yīng)的字符的問(wèn)題。以圖紙圖簽中用于填寫著錄項(xiàng)目數(shù)據(jù)抓取為例,如圖1所示。在圖紙的圖簽中,我們可以把圖簽按照原有框格把每一個(gè)框格都切割成多個(gè)框格,對(duì)應(yīng)框格內(nèi)獲得圖紙名稱、圖號(hào)、設(shè)計(jì)人、制圖人、校核人、審核人等信息。那么在檔案著錄時(shí)就可以靠定位和對(duì)信息的分析,尋找圖簽上我們需要的信息,然后導(dǎo)入檔案系統(tǒng)中相應(yīng)的著錄項(xiàng)里。

        OCR技術(shù)在科技檔案管理中另一個(gè)非常重要的運(yùn)用場(chǎng)景就是全文識(shí)別了。全文識(shí)別給檔案的利用提供了便利。就我們自己?jiǎn)挝粊?lái)說(shuō),曾經(jīng)在有人需要利用檔案的時(shí)候,只能對(duì)著錄項(xiàng)中著錄的內(nèi)容進(jìn)行檢索,這就需要提供相對(duì)準(zhǔn)確的圖號(hào)或關(guān)鍵詞等信息,如果相應(yīng)關(guān)鍵詞關(guān)聯(lián)的檔案太多,就需要人工篩選。而且沒(méi)有全文檢索,也很難再借閱前知道文件內(nèi)是否有自己需要的內(nèi)容,不解決這些問(wèn)題,檔案部門沒(méi)辦法提供良好的檔案利用服務(wù)。

        3 OCR識(shí)別技術(shù)在科技檔案管理的過(guò)程中遇到的問(wèn)題

        3.1 早期檔案不清楚

        最近形成的科技檔案紙張干凈、印刷清楚,給OCR識(shí)別技術(shù)提供了良好的環(huán)境。但是早期的檔案就存在紙張泛黃、印刷模糊等問(wèn)題。甚至很多檔案在最初形成的時(shí)候所處環(huán)境就極度惡略,比如一些檔案,是在工地上直接形成的,工地上條件不好,檔案也有明顯被水浸泡過(guò)的情況,或者沾上了其他的污漬,甚至皺皺巴巴的情況。這就給OCR識(shí)別帶來(lái)了困難。

        3.2 文字難以識(shí)別

        在科技檔案中存在很多數(shù)學(xué)公式。另外有的科技檔案是手寫的,雖然文字清晰,但是并不是常規(guī)的印刷體。另外檔案中文字的排版也有各種各樣的種類,還有表格和圖片也給OCR識(shí)別技術(shù)帶來(lái)了挑戰(zhàn)。

        4 解決辦法

        4.1 早期檔案不清楚的問(wèn)題的解決

        1)圖片預(yù)處理:對(duì)于模糊不清的檔案,在數(shù)字化掃描過(guò)程中,首先應(yīng)該嚴(yán)格按照《DA/T31-2017紙質(zhì)檔案數(shù)字化規(guī)范》執(zhí)行,如為了最大限度保留檔案原件信息,便于多種方式的利用,需要采用彩色模式進(jìn)行掃描,如果頁(yè)面為黑白兩色,也可以采用黑白二值或灰度模式掃描,掃描分辨率應(yīng)不小于200dpi。褶皺不平影響掃描質(zhì)量的紙質(zhì)檔案應(yīng)先進(jìn)行壓平等相應(yīng)技術(shù)處理。對(duì)于掃描后仍然模糊的檔案就需要應(yīng)用計(jì)算機(jī)圖片處理的技術(shù)來(lái)處理了。比如圖片太黃可以調(diào)節(jié)亮度,模糊可以調(diào)高對(duì)比度,或者曲線來(lái)找到能使圖片變得最清晰的方法。如果需要局部調(diào)節(jié)則是 用選框工具對(duì)想要修改的局部進(jìn)行框選,再進(jìn)行上述調(diào)節(jié)。如果局部邊緣是不規(guī)則形狀的話,則需要用鋼筆工具建立選區(qū)進(jìn)行修復(fù)。對(duì)于局部污漬的處理我認(rèn)為可以高低頻的方式進(jìn)行修復(fù)。但是這些方法處理圖片太過(guò)耗費(fèi)精力,在操作時(shí)可以只對(duì)非常模糊的檔案進(jìn)行此類操作。

        2)選擇適應(yīng)的二值化方法:常見(jiàn)的圖像二值化方法很多目前二值化的方法主要分為全局閾值方法、局部閾值方法和基于深度學(xué)習(xí)的方法。全局閾值方法常見(jiàn)的有固定閾值方法和Otsu方法,其原理都是通過(guò)人工設(shè)定的公式直接找出一個(gè)合適的統(tǒng)一閾值對(duì)圖像進(jìn)行二值化。局部閾值方法主要有自適應(yīng)閾值算法、Niblack算法等。是根據(jù)像素的臨域塊的像素分布來(lái)確定該像素位置上的二值化閾值。這樣做的好處在于每個(gè)像素位置處的二值化閾值不是固定不變的,而是由其周圍領(lǐng)域的分布來(lái)決定的?;谏疃葘W(xué)習(xí)的二值化方法主要有全卷積的二值化方法,在圖像分類和圖像檢測(cè)等方面取得了巨大的成就和廣泛的應(yīng)用,傳統(tǒng)的基于CNN的分割方法的做法通常是:為了對(duì)一個(gè)像素分類,使用該像素周圍的一個(gè)圖像塊作為CNN的輸入用于訓(xùn)練和預(yù)測(cè)。

        3)選擇適應(yīng)的降噪方法:圖像噪聲是指存在于圖像數(shù)據(jù)中不必要的或多余的干擾信息,產(chǎn)生于圖像的采集、量化或傳輸過(guò)程,對(duì)圖像的后處理、分析均會(huì)產(chǎn)生極大的影響,因此一種好的去噪方法在去除噪聲的同時(shí),還需要保持圖像的邊界和細(xì)節(jié)。早期的去噪方法多為空間濾波,隨著度學(xué)習(xí)的不斷發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的方法不斷涌現(xiàn)。去噪方法很多可以通過(guò)實(shí)際需要進(jìn)行選擇。

        4.2 文字難以識(shí)別的問(wèn)題的解決

        文字識(shí)別時(shí)首先要做到把圖像增強(qiáng),常用的圖像增強(qiáng)方法有PCA抖動(dòng)、顏色增強(qiáng)。隨機(jī)尺度變換、隨機(jī)剪裁、平移變換等。另外還可以利用深度學(xué)習(xí)的方法對(duì)圖像中的文字進(jìn)行處理。深度學(xué)習(xí)方法是合成自然場(chǎng)景文本的方法,非常適合于文字識(shí)別。在自然場(chǎng)景中,除了手寫字,大部分文本都市由計(jì)算機(jī)生成的,只有物理渲染和成像過(guò)程不受計(jì)算機(jī)算法控制。合成的圖像樣本可以由圖像前景層、圖像背景層、邊緣、陰影組合而成。主要可分為如下六步:

        1)字體渲染:隨機(jī)選取字體,將文本沿著水平文本線或隨機(jī)曲線呈現(xiàn)到圖像前景層中。

        2)描邊、加陰影、著色:選擇字體,將文本沿水平文本線或隨機(jī)曲線呈現(xiàn)到圖像前景層。

        3)基礎(chǔ)著色:三個(gè)圖像層中的每一層都填充從自然圖像簇中采集的不同均勻色。

        4)仿射投影扭曲:對(duì)前景和便捷圖像層進(jìn)行隨機(jī)的全息投影變換,模擬3D環(huán)境。

        5)自然數(shù)據(jù)混合:每個(gè)圖層均從ICDAR203和SVT訓(xùn)練數(shù)據(jù)集隨機(jī)采樣的圖像進(jìn)行混合?;旌戏绞脚c混合程度隨機(jī)決定。該操作會(huì)產(chǎn)生折中的紋理和組合范圍。三個(gè)圖像通道也以隨機(jī)方式混合在一起,提供單個(gè)輸出圖像通道。

        6)加噪聲:應(yīng)用高斯噪聲、模糊和JPEG壓縮等方法為圖像加噪聲。

        5 結(jié)語(yǔ)

        2020年4 月,工信部印發(fā)《關(guān)于工業(yè)大數(shù)據(jù)發(fā)展的指導(dǎo)意見(jiàn)》,同年5月中宣部改辦下發(fā)了《關(guān)于做好國(guó)家文化大數(shù)據(jù)體系建設(shè)工作的通知》足可見(jiàn)國(guó)家大力發(fā)展信息化產(chǎn)業(yè)的決心。近年來(lái)數(shù)字檔案館的建設(shè)、各項(xiàng)規(guī)章制度的發(fā)布,都像是在督促我們不斷學(xué)習(xí)不斷進(jìn)步,只有這樣才能跟上我們所熱愛(ài)的檔案事業(yè)進(jìn)步的腳步,一起成長(zhǎng)。

        猜你喜歡
        二值像素閾值
        趙運(yùn)哲作品
        藝術(shù)家(2023年8期)2023-11-02 02:05:28
        像素前線之“幻影”2000
        混沌偽隨機(jī)二值序列的性能分析方法研究綜述
        支持CNN與LSTM的二值權(quán)重神經(jīng)網(wǎng)絡(luò)芯片
        小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用
        “像素”仙人掌
        基于自適應(yīng)閾值和連通域的隧道裂縫提取
        基于二值形態(tài)學(xué)算子的軌道圖像分割新算法
        視頻圖像文字的二值化
        比值遙感蝕變信息提取及閾值確定(插圖)
        河北遙感(2017年2期)2017-08-07 14:49:00
        男人添女人下部高潮全视频| 亚洲av综合日韩精品久久| 久久精品久99精品免费| 内射人妻无套中出无码| 亚洲中文字幕在线观看| 少妇太爽了在线观看| 免费无码AⅤ片在线观看| 91羞射短视频在线观看| 亚洲av午夜一区二区三| 亚洲加勒比久久88色综合| 成人做爰高潮尖叫声免费观看| 日本a在线天堂| 久久精品国产亚洲av日韩精品| 成人偷拍自拍视频在线观看| 久久久久久久综合综合狠狠| 久久99精品久久久久久hb无码 | 少妇性bbb搡bbb爽爽爽| 久久久久久久久久久国产| 亚洲天天综合色制服丝袜在线| 色欲av自慰一区二区三区| 精品亚洲午夜久久久久| 国内自拍视频在线观看h| 国产精品白浆一区二区免费看| 性按摩xxxx在线观看| 亚洲成a人片在线观看无码| 免费视频成人 国产精品网站| 国产一区二区三区成人av| 久久久久99精品成人片欧美| 国产亚洲精品久久777777| 国产一级在线现免费观看| 玖玖资源网站最新网站| 国产亚洲一区二区三区| 人人妻人人澡人人爽欧美精品| 国产精品原创巨作av无遮| 精品女同av一区二区三区| 一区二区三区视频在线观看| 三年片大全在线观看免费观看大全| 国产98在线 | 免费| 亚洲国产精品午夜一区| 久久天堂精品一区二区三区四区 | 亚洲第一区无码专区|