亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的文檔圖像形變矯正

2018-10-20 17:43:17申澤軒

數(shù)碼設(shè)計 2018年12期

申澤軒

摘要：OCR已經(jīng)被廣泛應(yīng)用，其識別準(zhǔn)確率影響著最終審核效果的好壞，而來自掃描儀、手機(jī)的文檔圖像多存在卷曲、折疊。本文旨在利用深度學(xué)習(xí)算法對文檔圖像形變進(jìn)行矯正，從而提高OCR識別效果。

關(guān)鍵詞：深度學(xué)習(xí);U - net模型;OCR

中圖分類號：G434

文獻(xiàn)標(biāo)識碼：A

文章編號：1672 - 9129（2018）12 - 0086 - 02

1 應(yīng)用前景

近年來，人工智能在許多任務(wù)中的表現(xiàn)已經(jīng)超過了人類。如果能將AI引入辦公場景，實(shí)現(xiàn)智能辦公，將大大提高辦公效率。要讓機(jī)器代替人去做文本審核，首先需要讓機(jī)器看到人所能看到的（ OCR），而后才是理解人所能看到的（ NLP）。作為后面一切算法的源頭，OCR算法在其中起著至關(guān)重要的角色。除卻算法本身，圖像質(zhì)量乃是影響OCR識別準(zhǔn)確率的最大因素。一般從三方面來衡量圖像的質(zhì)量：傾斜、清晰度、扭曲。本文目的在于如何通過算法使得扭曲的文檔圖像變得平整，從而改善扭曲文檔圖像的OCR識別準(zhǔn)確率，

1.1 傳統(tǒng)方法。當(dāng)前針對扭曲文檔圖像的矯正算法主要有以下三類：基于硬件的矯正通常使用特制硬件掃描紙張的三維形狀信息。如采用結(jié)構(gòu)光源來對文檔進(jìn)行掃描從而獲取文檔的三維信息，然后根據(jù)深度信息對文檔圖像進(jìn)行矯正。基于3D模型重建的矯正從造成文檔扭曲的原因出發(fā)，包含文檔及其擺放角度、光源方向、圖像獲取設(shè)備特征等因素。對文檔進(jìn)行3D建模，利用已有的數(shù)學(xué)知識對扭曲進(jìn)行矯正。

傳統(tǒng)方法多是針對特定場景進(jìn)行建模，而一旦跳出當(dāng)前場景，模型就無法起作用。

1.2 深度學(xué)習(xí)方法。深度學(xué)習(xí)算法用語義分割相關(guān)的模型對扭曲文檔圖像進(jìn)行建模，將像素級的分類問題轉(zhuǎn)化為像素級的回歸問題，實(shí)現(xiàn)扭曲文檔圖像的矯正，模型具有一定的泛化能力，可針對復(fù)雜場景下的扭曲或折疊圖像進(jìn)行矯正。深度學(xué)習(xí)的優(yōu)勢在于如若有足夠豐富和質(zhì)量高的訓(xùn)練樣本集，其深層網(wǎng)絡(luò)結(jié)構(gòu)令其具有一定的泛化能力，可針對多種扭曲實(shí)現(xiàn)矯正，跳出傳統(tǒng)方法的場景限制。

2基于U - net模型的文檔圖像形變矯正

U - net模型是一種用于生物醫(yī)學(xué)圖像分割的卷積網(wǎng)絡(luò)，其網(wǎng)絡(luò)架構(gòu)形如字母“U”，因此被稱為U - net，可以將此類神經(jīng)網(wǎng)絡(luò)理解為一個En-coder - Decoder結(jié)構(gòu)，其中Encoder是收縮路徑，主要是由卷積層和池化層組成，主要目的在于實(shí)現(xiàn)特征的提取或者說捕捉語義，而Decoder是擴(kuò)展路徑，主要通過轉(zhuǎn)置卷積和跳躍連接實(shí)現(xiàn)，其主要目的是為了實(shí)現(xiàn)上采樣，由于Pooling操作進(jìn)行了下采樣導(dǎo)致圖像維度減小，而轉(zhuǎn)置卷積可以讓±fature map的維度變大，從而恢復(fù)到原圖的大小，從而實(shí)現(xiàn)像素級回歸。但是這樣得到的結(jié)果是很粗糙的，所以一般還通過跳躍連接將淺層的特征concat到upsampling之后的feature map中以實(shí)現(xiàn)精準(zhǔn)定位。

為了實(shí)現(xiàn)對模型的優(yōu)化，還可以考慮以下方案，改變模型的結(jié)構(gòu)：從U- net變成Stacked U - net，以提高分辨率。修改損失函數(shù)：使得模型在優(yōu)化過程中讓原本相鄰的像素點(diǎn)之間的距離與預(yù)測結(jié)果差別不要太大，以改善文字扭曲變形的現(xiàn)象。對預(yù)測結(jié)果進(jìn)行后處理，以改善噪點(diǎn)現(xiàn)象。

3 模型評價

本文旨在對扭曲圖像進(jìn)行矯正，基于圖像分割領(lǐng)域的U - net模型，將扭曲文檔圖像矯正問題轉(zhuǎn)化為像素級別的回歸問題，針對模型結(jié)果中出現(xiàn)的文檔扭曲錯行以及預(yù)測結(jié)果分辨率不足等問題，提出了進(jìn)一步優(yōu)化的需求，目前雖然能夠在簡單場景下得到不錯的效果，但仍存在不足，具體可描述為以下幾點(diǎn)：

數(shù)據(jù)集：目前的數(shù)據(jù)集是參考圖形學(xué)的相關(guān)知識自行構(gòu)造而成，導(dǎo)致神經(jīng)網(wǎng)絡(luò)能學(xué)到的知識有限，一旦遇到場景中的復(fù)雜問題，神經(jīng)網(wǎng)絡(luò)的性能將受到限制。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)：目前的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Dilated U - net相對于Stackfed U - net，雖然更輕型且訓(xùn)練速度更快，但最終若要實(shí)現(xiàn)網(wǎng)絡(luò)模型在移動端的部署，其響應(yīng)速度仍然存在優(yōu)化之處。

4 未來展望

本文只是深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的一個簡單應(yīng)用，其在計算機(jī)視覺、自然語言處理、數(shù)據(jù)挖掘、游戲、復(fù)合應(yīng)用等領(lǐng)域還有著更為廣泛的應(yīng)用。OCR技術(shù)的廣泛應(yīng)用彌補(bǔ)了人工掃描的繁瑣，更加便捷、快速、準(zhǔn)確。未來對計算機(jī)視覺相關(guān)算法的優(yōu)化勢不可擋，必定要學(xué)會優(yōu)化算法解決自己專業(yè)領(lǐng)域的特殊問題。

參考文獻(xiàn)：

[1] Ma K， Shu Z，Bai X， et al.DocUNet： Document Image Unwarpingvia A StackedU - Net[C]//Proceedings of the IEEE Conference on ComputerVision and PatternRecognition. 2018： 4700 -4709.

[2] Ronneberger0， Fischer P，BroxT.U- net： Convolutional networksforbiomedical imagesegmentation[ C]//International Conference on Medicalimage computing andcomputer - assisted intervention. Springer， Cham， 2015：234 - 241.

[3] Yu F.KoltunV. Multi - scale context aggregation by dilated convo-lutions[J].arXiv preprintarXiv：1511. 07122， 2015.