亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習的印刷體文檔字符識別的研究

        2020-12-23 04:33:21徐長英賴偉財陳英
        現(xiàn)代電子技術(shù) 2020年23期
        關(guān)鍵詞:印刷體字符識別字符

        徐長英 賴偉財 陳英

        摘 ?要: 針對傳統(tǒng)基于模板匹配光學識別效果存在不理想的狀態(tài),提出改進的深度學習模型的印刷體文檔字符識別算法。首先,生成包括一級字庫、部分二級字庫、英文大小寫字母和標點符號的圖片數(shù)據(jù)集,其數(shù)量大約為500萬張;然后,在Lenet?5網(wǎng)絡(luò)模型的基礎(chǔ)上進行改進和重新構(gòu)造,提出一種增強型的深度學習模型Lenet?5Pro,該模型可提高印刷體文檔的識別率;最后,對比實驗結(jié)果表明,該模型可以更加有效地提高印刷體字符識別的準確率,其字符識別準確率達到98%以上。

        關(guān)鍵詞: 印刷體字符識別; 深度學習; 圖片數(shù)據(jù)集; Lenet?5Pro; 字符增強; 仿真分析

        中圖分類號: TN911.73?34; TP391 ? ? ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)23?0072?04

        Abstract: In view of the unsatisfactory effect of the traditional optical recognition based on template matching, a printed document character recognition algorithm based on improved deep learning model is proposed. A picture dataset including the first?level font library, part of the secondary font library, English upper and lower case letters, and punctuation marks is generated, in which about 5 million pieces of pictures are collected. An enhanced deep learning model Lenet?5Pro, by which the recognition rate of printed documents can be improved, is proposed based on the improvement and reconstruction of Lenet?5 network model. The comparative experimental results show that the accuracy of character recognition can be improved by the proposed model, and its character recognition accuracy is over 98%.

        Keywords: printed document character recognition; deep learning; image dataset; Lenet?5Pro; character enhancement; simulation analysis

        0 ?引 ?言

        印刷體文檔字符識別是光學字符識別(Optical Character Recognition,OCR)技術(shù)的重要組成部分,印刷體文檔的識別基本用途是把圖片輸入計算機,計算機輸出識別字符,實現(xiàn)人與計算機信息的交互。文獻[1]利用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建了印刷體漢字識別模型,使用集成了傳統(tǒng)OCR識別技術(shù)的MODI(Microsoft Office Document Imaging)進行身份證漢字識別。文獻[2]提出了一種基于深度信念網(wǎng)絡(luò)融合模型對手寫漢字識別的方法,簡單的漢字使用基于SVM(Support Vector Machine)的二次判別函數(shù)分類器識別,使用深度信念網(wǎng)絡(luò)模型處理較為復雜的漢字圖像。文獻[3]使用基于神經(jīng)網(wǎng)絡(luò)反饋的方法對所提取的文本行基于像素點進行判斷而進行二值化,結(jié)合垂直投影方法對字符切分,提高OCR識別率。文獻[4]提出了一種無分割的端到端神經(jīng)模型,用于離線光學字符識別,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和長期短期記憶(Long Short Term Memory,LSTM)復發(fā)網(wǎng)絡(luò),使用CNN進行特征提取,并使用堆疊的雙向 LSTM進行序列建模。文獻[5]提出了一種基于前饋人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)的OCR算法,使用神經(jīng)網(wǎng)絡(luò)訓練的對象特征數(shù)據(jù)集改進基于OCR的車牌識別技術(shù)。文獻[6]提出了STN?OCR,以半監(jiān)督方式從自然圖像中檢測和識別文本,STN?OCR是一個集成并共同學習的空間變換器網(wǎng)絡(luò),可以學習檢測圖像中的文本區(qū)域,以及識別文本區(qū)域并識別其文本內(nèi)容的文本識別網(wǎng)絡(luò)。文獻[7]提出一種CRNN模型,采用深度卷積神經(jīng)網(wǎng)絡(luò),并行密集層和基于分量連接的檢測流水線,采用連接時間分類,結(jié)合OCR技術(shù),通過賦值操作和計算公式識別更復雜的圖像。文獻[8]通過圖像處理從所需圖像中提取字符區(qū)域,并使用深度學習作為學習數(shù)據(jù)來提高韓文OCR的準確性。文獻[9]提出了一種新的OCR加速方法和避免文本欠擬合的方法,建立了一個基于轉(zhuǎn)換傳遞學習的模型,以實現(xiàn)從文本到圖像的域適應,將字符順序關(guān)系從文本轉(zhuǎn)移到OCR。文獻[10]提出了深度卷積網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò)的組合,并結(jié)合投票機制,在運行時間相近時穩(wěn)定提高了OCR的準確度。

        綜上所述,各種深度學習的框架和網(wǎng)絡(luò)模型的提出和建立為圖像識別和字符識別提供了一種更高效的方法,但是太復雜的網(wǎng)絡(luò)時間復雜度高,針對該情況,本文提出一種改進型的深度學習模型,該模型屬于輕量級,能夠在滿足提高識別準確率的基礎(chǔ)上降低時間復雜度。

        1 ?基礎(chǔ)理論

        1.1 ?卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)

        卷積神經(jīng)網(wǎng)絡(luò)一般由卷積層、池化層和全連接層構(gòu)成,其中還有可能包含激勵函數(shù)層、正則化層。卷積層的主要作用是提取特征。相比于全連接層,卷積神經(jīng)網(wǎng)絡(luò)訓練的參數(shù)將減少許多,降低了網(wǎng)絡(luò)訓練的難度,這個特征簡稱為局部特征。卷積層參數(shù)多少和圖片的尺寸無關(guān),它只與卷積核大小、深度以及當前輸入圖片的深度有關(guān)。池化層可以有效地減少矩陣的大小,從而減少最后全連接層中的參數(shù)。在卷積神經(jīng)網(wǎng)絡(luò)中池化層不是必須的,在有些特殊的卷積神經(jīng)網(wǎng)絡(luò)中,可以用卷積層代替池化層。Dropout是為了解決過擬合,它的主要思想在訓練時以一定的概率切除輸入神經(jīng)元和輸出神經(jīng)元之間的關(guān)聯(lián),保留剩下神經(jīng)元之間的關(guān)聯(lián),輸入和輸出保持不變,使用Dropout減少了神經(jīng)元之間的關(guān)聯(lián),降低了權(quán)重連接,使網(wǎng)絡(luò)模型更具健壯性。

        1.2 ?Lenet?5

        Lenet?5網(wǎng)絡(luò)相對簡單,只有7層,前5層卷積層和池化層交替,3層卷積層,2層池化層,最后2層是全連接層,卷積層使用的過濾器大小為5×5,步長為1,池化層使用的過濾器大小為2×2,使用最大池化進行池化操作,總的參數(shù)個數(shù)為61 706,步長為2。Lenet?5網(wǎng)絡(luò)模型如圖1所示。

        2 ?改進的Lenet?5

        本文在Lenet?5的基礎(chǔ)上進行改進(簡稱為Lenet?5Pro),使用3×3的卷積核,卷積核個數(shù)逐層遞增,且網(wǎng)絡(luò)層數(shù)增至11層,其中第6層為池化層,第7和第8層為卷積層,第9層為池化層,最后兩層為全連接層,并且在網(wǎng)絡(luò)中加入了BN算法以加速訓練。Lenet?5Pro網(wǎng)絡(luò)模型如圖2所示。

        在搭建網(wǎng)絡(luò)模型過程中,模型訓練使用的損失函數(shù)是交叉熵損失函數(shù),優(yōu)化算法是BN算法和Adam算法。本文搭建的Lenet?5模型的設(shè)置如下:輸入圖片的分辨率為100×100,全連接層使用ReLu激活函數(shù),正則化層使用Dropout函數(shù)來防止過擬合,訓練時的Dropout比率為0.8,驗證時Dropout比率為1.0,使用BN算法和Adam算法加速訓練,Batch_size設(shè)置為128,訓練的次數(shù)為12 000步,每100步進行一次交叉驗證,每2 000步保存一次模型。Lenet?5Pro模型的設(shè)置與Lenet?5基本相同,但是訓練的次數(shù)增至16 000步。

        3 ?生成帶標注的印刷體字符圖像庫

        國家標準漢字庫定義了3 755個一級字庫漢字,3 008個二級字庫漢字。由于二級字庫中較少被日常使用,所以本文采用的數(shù)據(jù)集包括一級字庫3 755個漢字、二級字庫1 125個漢字、52個英文大小寫字母和38個標點符號,總共4 970類字符。

        3.1 ?生成字符

        生成字符的具體過程如下:

        1) 對本文所采用的4 970類字符進行標注,建立好每類生成字符和標注文件的關(guān)聯(lián)性,生成標注文件。

        2) 確定需要生成字符的字體種類。本文總共采用了黑體、楷體、仿宋體、mingliu體、思源黑體bold、思源黑體black、思源黑體light、思源黑體thin、思源黑體regular模式,總計9種字體。

        3) 利用Python中的PIL庫生成字體圖片。

        3.2 ?增強字符

        為了增大數(shù)據(jù)集,本文在原圖片的基礎(chǔ)上,采用數(shù)據(jù)增強的方式增大數(shù)據(jù)集,數(shù)據(jù)增強的主要方式包括傾斜、添加椒鹽噪聲點、膨脹和腐蝕等操作。

        傾斜的增強方式是以圖片中心為旋轉(zhuǎn)中心,首先進行順逆時針旋轉(zhuǎn)30°。本文中,旋轉(zhuǎn)的步長為1°,即旋轉(zhuǎn)的幅度由0°~30°以1°遞增,由0°~-30°遞減,然后從旋轉(zhuǎn)后的圖片以圖片中心切割出原圖片尺寸大小。通過數(shù)據(jù)增強,每個字符的數(shù)據(jù)集從9張圖片增加到1 098張,擴大了122倍。其中,圖片旋轉(zhuǎn)擴大了61倍的數(shù)據(jù)集,添加噪聲是隨機的,膨脹和腐蝕是在添加噪聲點的基礎(chǔ)上進行二選一的操作。以漢字“啊”為例,增強后的圖像如圖3所示。

        經(jīng)過上述增強操作后,總共生成的圖片總量為5 457 060張,字符樣本集統(tǒng)計如表1所示。

        4 ?實驗結(jié)果及分析

        4.1 ?實驗準備說明

        本文實驗在深度學習框架TensorFlow上運行,實驗設(shè)備為32 GB內(nèi)存的英特爾酷睿i9?7900x CPU和11 GB內(nèi)存的英偉達1080Ti GPU。

        實驗中,所采用的數(shù)據(jù)集是自采集的字符圖片數(shù)據(jù)集,采集的過程如前文所述,其中,數(shù)據(jù)集中約80%的數(shù)據(jù)作為訓練集數(shù)據(jù),剩下的20%作為驗證集數(shù)據(jù)。另外,本文還使用了基于OpenCV程序裁剪的測試圖片集。本文所使用程序全部由Python語言編寫,主要包括5個模塊:數(shù)據(jù)傳輸模塊、網(wǎng)絡(luò)搭建模塊、模型訓練模塊、模型驗證模塊和測試模塊。數(shù)據(jù)傳輸模塊主要將數(shù)據(jù)從硬盤讀寫到內(nèi)存進行訓練;網(wǎng)絡(luò)搭建模塊主要搭建卷積神經(jīng)網(wǎng)絡(luò);模型訓練模塊主要用于模型的訓練與生成;模型驗證模塊使用測試集進行驗證;測試模塊用于測試識別印刷體文檔圖片內(nèi)容。

        訓練時采用GPU加速,每100步進行交叉驗證,模型訓練完成后,進行一次完整的驗證,驗證時分別計算Top1,Top5和總體識別準確率。

        4.2 ?印刷體文檔的識別結(jié)果對比

        分別使用3個模型進行測試,其中準確率=正確個數(shù)/測試個數(shù),總字符指的是所有字符均被正確識別的結(jié)果,時間表示平均每個字符被識別的平均時間。驗證模型的識別準確率統(tǒng)計后如表2所示。

        為了進一步評估Lenet?5Pro算法的性能,使用印刷體文檔圖片切割出來的完整單字圖片進行測試,圖片數(shù)量為2 000張,即2 000個字符,其中包括了一二級中文字符、大小寫英文字符和標點字符,故直接使用包含了C1+C2+C3+C4的模型進行測試,對比結(jié)果如表3所示。

        從表3中可以看出,Lenet?5Pro的識別效果比其他兩個模型的效果要好。綜合表2和表3的結(jié)果可以看出,Lenet?5Pro模型無論在驗證集還是測試集的準確率都比其他兩個模型高,尤其是在測試集上的準確率比其他兩個模型均要高,主要原因是這些模型在識別切割太碎的漢字時,識別率下降,從而導致識別率整體偏低。同時,VGG?16模型無論從卷積層的層數(shù)以及參數(shù)個數(shù)和訓練難度上都比Lenet?5Pro模型要高,理論上VGG?16模型測試集準確率應該要比Lenet?5Pro要高,但實際效果有一定的差距,整體來說,Lenet?5Pro的識別效果達到了預期水平。

        5 ?結(jié) ?語

        本文從印刷體字符識別技術(shù)入手,提出了改進的Lenet?5Pro模型對字符進行識別,所做的工作包括:生成大量用于訓練的印刷體漢字等字符的圖片集以滿足本文所改進的深度學習模型,同時,數(shù)據(jù)集可以擴展到其他文字和其他語言,擴展性強。對經(jīng)典的深度學習網(wǎng)絡(luò)進行了一定的改進,實驗結(jié)果表明本文網(wǎng)絡(luò)模型的有效性和準確性。但由于改進后的網(wǎng)絡(luò)相對簡單,針對較相似的字符識別容易發(fā)生錯誤,今后將嘗試采用不同的網(wǎng)絡(luò)來訓練,以達到更好的魯棒性。

        參考文獻

        [1] 劉冬民.基于深度學習的印刷體漢字識別[D].廣州:廣州大學,2018.

        [2] 孫巍巍.基于深度學習的手寫漢字識別技術(shù)研究[D].哈爾濱:哈爾濱理工大學,2017.

        [3] 汪一文.深度卷積神經(jīng)網(wǎng)絡(luò)在OCR問題中的應用研究[D].成都:電子科技大學,2018.

        [4] RAWLS S, CAO H, KUMAR S, et al. Combining convolutional neural networks and LSTMs for segmentation?free OCR [C]// 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). Kyoto, Japan: IEEE, 2017: 155?160.

        [5] KAKANI B V, GANDHI D, JANI S. Improved OCR based automatic vehicle number plate recognition using features trained neural network [C]// 2017 8th International Conference on Computing, Communication and Networking Technologies (ICCCNT). Delhi, India: IEEE, 2017: 1?6.

        [6] BARTZ C, YANG H J, MEINEL C. STN?OCR: a single neural network for text detection and text recognition [EB/OL]. [2017?07?27]. https://deeplearn.org/arxiv/11984/stn?ocr.

        [7] JIANG Y X, DONG H W, EI SADDIK A. Baidu Meizu deep learning competition: arithmetic operation recognition using end?to?end learning OCR technologies [J]. IEEE access, 2018, 6: 60128?60136.

        [8] KANG G H, KO J H, KWON Y J, et al. A study on improvement of Korean OCR accuracy using deep learning [C]// Proceedings of the Korean Institute of Information and Communication Sciences Conference?The Korea Institute of Information and Communication Engineering. [S.l.: s.n.], 2018: 693?695.

        [9] HE Yang, YUAN Jingling, LI Lin. Enhancing RNN based OCR by transductive transfer learning from text to images [C]// Thirty?second AAAI Conference on Artificial Intelligence. New Orleans, Louisiana, USA: AAAI Press, 2018: 8083?8084.

        [10] WICK C, REUL C, PUPPE F. Improving OCR accuracy on early printed books using deep convolutional networks [EB/OL]. [2018?02?27]. https://www.researchgate.net/publication/323444203.

        猜你喜歡
        印刷體字符識別字符
        尋找更強的字符映射管理器
        西夏文楷書和草書手寫體探微
        淺談小學英語字母手寫體與印刷體的教學
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:50
        消失的殖民村莊和神秘字符
        一種改進深度學習網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識別
        儀表字符識別中的圖像處理算法研究
        高考的時候,把字寫得像印刷體有用嗎
        基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識別
        国产精品一区二区三区不卡| 2021久久精品国产99国产精品| 国产手机在线αⅴ片无码观看| 久久精品国产精品亚洲婷婷| 国产亚洲av一线观看| 女人18片毛片60分钟| 亚洲午夜精品久久久久久人妖| 国产无套视频在线观看香蕉| av免费在线观看网站大全| 色狠狠一区二区三区中文| 久久午夜夜伦鲁鲁片免费无码| 国产欧美久久久另类精品| 中文字幕精品乱码一区| 婷婷亚洲岛国热超碰中文字幕| 东北妇女肥胖bbwbbwbbw| 国产精品偷伦免费观看的| 青青草视频在线免费视频| 久久中文字幕日韩精品| 成人性生交大片免费看i| 丝袜人妻一区二区三区| 人妻少妇被猛烈进入中文字幕| 国产熟女精品一区二区三区| 中文字幕人妻互换激情| 日韩av无码久久一区二区| 人人妻人人澡av天堂香蕉| 国产精品亚洲综合色区丝瓜| 成人自拍小视频在线看| 极品少妇一区二区三区四区| 欧美在线成人午夜网站| 精品一区二区三区老熟女少妇| 人妻丝袜中文无码av影音先锋专区| 国产精自产拍久久久久久蜜| 蜜芽尤物原创AV在线播放| 91精品久久久中文字幕| 野花社区视频在线观看| jlzzjlzz全部女高潮| 亚洲av天堂一区二区| 波多野结衣爽到高潮大喷| 伊人99re| 人妻少妇中文字幕av| 国产精品186在线观看在线播放|