亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識蒸餾的緬甸語光學字符識別方法

        2022-02-18 06:44:44毛存禮謝旭陽余正濤高盛祥王振晗劉福浩
        數(shù)據(jù)采集與處理 2022年1期
        關(guān)鍵詞:字符特征文本

        毛存禮,謝旭陽,余正濤,高盛祥,王振晗,劉福浩

        (1.昆明理工大學信息工程與自動化學院,昆明 650500;2.昆明理工大學云南省人工智能重點實驗室,昆明 650500)

        引 言

        緬甸語文字有Zawgyi?One、Myanmar Three等多種字體編碼,為避免網(wǎng)絡(luò)中緬語文本內(nèi)容顯示亂碼的問題,大多數(shù)緬語文本內(nèi)容都是以圖片形式呈現(xiàn)。這對于開展面向緬甸語的自然語言處理、機器翻譯和信息檢索等研究帶來較大的困難。雖然結(jié)合深度學習的方法在中英文圖像文本識別任務(wù)中已經(jīng)取得了非??捎^的效果,但由于緬甸語字符的特殊性,目前還沒有關(guān)于緬甸語光學字符識別(Optical character recognition,OCR)研究方面的相關(guān)成果,因此開展緬甸語OCR研究具有非常重要的理論和實際應(yīng)用價值。

        光學字符識別通常用于識別圖像中的自然語言。對于文本字符識別的早期工作,例如Ander?son[1]主要將圖像轉(zhuǎn)換為結(jié)構(gòu)化語言或標記,這些結(jié)構(gòu)化語言或標記定義了文本本身及其現(xiàn)有語義。之后,在英語[2?3]、漢語[4?6]、德語[7]、阿拉伯語[8]、馬拉雅拉姆語[9]和印地語[10]等OCR技術(shù)達到高識別率的相關(guān)報導陸續(xù)出現(xiàn)。利用卷積神經(jīng)網(wǎng)絡(luò)模型進行文本圖像識別的相關(guān)工作有很多,例如文獻[11]首次嘗試對單個字符進行檢測,然后利用深度卷積神經(jīng)網(wǎng)絡(luò)模型對這些檢測到的特征進行識別,并用標記后的圖像進行訓練,但是該方法需要預先訓練魯棒的字符檢測器,這樣增加了文本圖像識別任務(wù)的計算復雜度。而且緬甸語中的一個感受野內(nèi)通常會出現(xiàn)由多個字符嵌套組合的復雜字符,很難切分成單個字符,因此該方法不適用于緬甸語圖像文本識別任務(wù)。同時深度卷積神經(jīng)網(wǎng)絡(luò)[12?13]只能處理固定的輸入和輸出維度,但是緬甸語序列的長度變化相當大,例如,漢語“現(xiàn)在”的緬甸語翻譯為“”是由2個字符組成,而漢語“第二”的緬甸語翻譯為“”是由11個字符組成,所以基于深度卷積神經(jīng)網(wǎng)絡(luò)的工作還不能直接用于基于緬甸語圖像的序列識別任務(wù)。利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Re?current neural network,RNN)模型做圖像文本識別任務(wù)也有一些相關(guān)的工作,然而在RNN處理序列之前,必須先將輸入圖像轉(zhuǎn)換成圖像特征序列。例如,Graves等[14]從手寫文本中提取了一系列圖像或幾何特征,而Su等[15]將字符圖像轉(zhuǎn)換為一系列方向梯度直方圖(Histogram of oriented gradient,HOG)特征。因此,目前基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法很難直接用于緬甸語光學字符識別。

        緬甸語與中文或者英文不同,在一個感受野內(nèi)英文字母或中文字由單個Unicode編碼組成,然而緬甸語在1個感受野內(nèi)可能由2個或者3個Unicode編碼組成。例如,在圖1(a)中,緬甸語“”在感受野中由3個字符“”(/u107f),“”(/u1015)和“”(/u102e)組成,但是在圖1(b)中,感受野中的英語“n”由一個字符“n”(/u006e)組成。緬甸語OCR任務(wù)不僅受到圖像中的背景噪聲、光照和圖片質(zhì)量等因素影響,還更難解決緬甸語多個字符嵌套組合的復雜字符的識別問題。在這種情況下,導致緬甸語OCR任務(wù)難度更大。目前比較主流的方法是Shi等[16]提出的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Convolutional recurrent neural network,CRNN)方法和Luo等[17?18]提出的Attention方法,它能端到端地有效解決英文序列識別問題,在英文識別方面達到了一定的效果。但是這些方法只能解決一個感受野內(nèi)一個字符的識別問題,當處理緬甸文多個字符嵌套組合的復雜字符時識別準確率降低。因此本文提出了基于知識蒸餾的緬甸語OCR方法,構(gòu)建教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)進行集成學習的網(wǎng)絡(luò)框架,通過教師網(wǎng)絡(luò)來指導學生網(wǎng)絡(luò),將來自教師的不同緬甸語組合字符和單字符特征知識提取到學生網(wǎng)絡(luò)中,使學生網(wǎng)絡(luò)能夠?qū)W習到緬甸語組合字符的識別優(yōu)點,從而解決復雜的緬甸文多字符組合詞難以識別和提取的問題。

        圖1 1個感受野內(nèi)不同語言的字符結(jié)構(gòu)Fig.1 Structure of characters in different languages in a receptive field

        1 緬甸圖像數(shù)據(jù)特征分析與預處理

        緬甸語不同于一般的語言,具有非常復雜的字符空間組合結(jié)構(gòu),在計算機提取圖像上的語言特征時非常困難。所以本文分析了緬甸語語言特征,利用基于知識蒸餾的緬甸語OCR方法,將教師網(wǎng)絡(luò)提取到的單字符和多個字符嵌套組合的復雜字符特征對學生網(wǎng)絡(luò)對應(yīng)相同的位置字符信息進行特征增強,從而提高整句話的識別準確率。由于目前沒有公開的緬甸圖像文本識別數(shù)據(jù),所以本文構(gòu)造了緬甸語OCR模型訓練測試的數(shù)據(jù)集。

        1.1 特征分析

        緬甸語音節(jié)字符構(gòu)成結(jié)構(gòu)與其他語言存在較大差異,具有基礎(chǔ)字符、基礎(chǔ)前字符、基礎(chǔ)后字符、基礎(chǔ)上字符和基礎(chǔ)下字符,每個音節(jié)邊界以基本輔音開頭。緬甸語有33個輔音,輔音與元音結(jié)合,有時包含中音節(jié),從而構(gòu)成完整的緬甸語音節(jié)。此外,它在音節(jié)和單詞之間沒有分隔符,只有根據(jù)緬甸語的字符規(guī)則編碼順序,才能獲得正確的緬甸語句子。這樣就會引起相應(yīng)的問題,當計算機提取圖像特征時,1個感受野中可能包含多個字符,這增加了緬甸語OCR識別復雜度,而這種復雜字符在緬甸句子對中占大多數(shù)。

        1.2 數(shù)據(jù)預處理

        本文通過網(wǎng)站(www.nmdc.edu.mm)收集了120萬個緬甸語句子。例如:“”“”。然后,利用緬甸語片段切分工具將緬甸語音節(jié)和句子切成長序列緬甸語段文本數(shù)據(jù)。例如,漢語語義“論壇參會者”對應(yīng)的緬語是“”,分段后的緬語表示為“”“”和“”。根據(jù)緬甸語的語言特點,對分段后的緬甸語文本數(shù)據(jù)進行人工分割成單字符和多個字符嵌套組合的復雜字符的緬甸語,并且保留其位置信息。

        利用文本生成圖像工具,將文本數(shù)據(jù)隨機生成分辨率為10像素×5像素~500像素×300像素的含有背景噪音與不含有背景噪音的緬甸語圖像,從而構(gòu)造出訓練任務(wù)所需的Zawgyi?One字體緬甸語圖像,將其作為訓練集、測試集和評估集數(shù)據(jù)。

        若干個緬甸語音節(jié)構(gòu)成一句緬甸語句子,一個緬甸語音節(jié)的Unicode編碼可以分為5部分[19]:<輔音><元音><聲調(diào)><韻母>和<中音>。這5個部分中只有輔音總是存在,在任何給定的音節(jié)中,一個或多個其他部分可能是空的。在實際中,元音可以顯示在輔音之前,但是元音字符編碼在輔音字符編碼之后,例如“”,但是它的編碼為(/u1000)(緬甸字母“”)(/u1031)(緬甸元音符號“”),所以需要對音節(jié)重新排序以進行歸類,因為最后1個音節(jié)的優(yōu)先級高于元音。因此,按照緬甸語Unicode編碼算法順序:<輔音><聲調(diào)><元音><韻母>和<中音>對緬甸語圖像進行規(guī)則性標注。

        2 基于知識蒸餾的緬甸語OCR模型

        本文提出模型架構(gòu)如圖2所示。圖中的網(wǎng)絡(luò)架構(gòu)由教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)兩部分組成,其中KD Loss表示知識蒸餾損失,其余的變量說明請見下文。利用單字符和嵌套組合字符的訓練集來訓練教師網(wǎng)絡(luò)解決單個感受野內(nèi)嵌套組合字符識別問題,利用長序列字符圖像數(shù)據(jù)集來訓練學生網(wǎng)絡(luò)解決長序列字符識別問題。在訓練過程中,學生網(wǎng)絡(luò)與教師集成的子網(wǎng)絡(luò)進行耦合,根據(jù)教師集成產(chǎn)生的組合字符特征和真實性標簽對學生模型的參數(shù)進行優(yōu)化,以此增強學生網(wǎng)絡(luò)對緬甸語組合字符特征的提取,解決了緬甸語組合字符進入網(wǎng)絡(luò)后容易被計算機誤判,導致識別準確率低的問題。以下各節(jié)將詳細地介紹學生網(wǎng)絡(luò)、教師網(wǎng)絡(luò)以及集成知識蒸餾的網(wǎng)絡(luò)訓練。

        圖2 緬甸語OCR模型網(wǎng)絡(luò)框架圖Fig.2 Network framework diagram of Burmese OCR model

        2.1 學生網(wǎng)絡(luò)

        2.1.1 緬甸語圖像特征向量序列的提取與標注

        本文采用了深度卷積神經(jīng)網(wǎng)絡(luò)模型中的卷積層、最大池化層和刪除全連接層來構(gòu)造適應(yīng)緬甸語圖像數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò),所有的權(quán)重共享連接。同時在基于VGG?VeryDeep[20]架構(gòu)的基礎(chǔ)上構(gòu)建了適應(yīng)緬甸語OCR任務(wù)需求的深度卷積神經(jīng)網(wǎng)絡(luò)模型組件,在第3個和第4個最大池化層中采用1×2大小的矩形池化窗口,用以產(chǎn)生寬度較大的特征圖,從而產(chǎn)生比較長的緬甸語的特征序列。本文設(shè)置輸入的緬甸圖像生成30幀的特征序列,特征序列的每個特征向量在特征圖上從左到右逐列生成,使所有特征圖的第x列映射到第x個特征向量上,從而保證圖像上的信息全部轉(zhuǎn)移到特征向量上。

        本文選擇雙向長短期記憶網(wǎng)絡(luò)(Bi?directional long short?term memory,BiLSTM)來處理深度卷積神經(jīng)網(wǎng)絡(luò)中獲得的特征向量序列,從而獲得特征的每個列的概率分布,即預測從前一層卷積提取的特征序列X=x1,…,xT中每個幀xt的標簽分布yt。使用長短期記憶網(wǎng)絡(luò)(Long short?term memory,LSTM)用于解決傳統(tǒng)的RNN單元梯度消失的問題。LSTM由輸入、輸出和遺忘門組成。存儲單元的作用是存儲過去的上下文,同時輸入和輸出門允許單元較長時間地保存到輸入緬甸語圖像中的上下文信息,并且單元里保存到的信息又可以被遺忘門刪除。在提取的緬甸語圖像特征序列中,不同方向的上下文信息具有互補作用,遇到一些模糊的字符在觀察其上下文時更容易區(qū)分。例如:當遇到相似字符“”時,不會識別成“”或者“”,這樣可以使識別精度更加準確。因為LSTM通常是定向的,訓練時只利用到過去的上下文信息,所以本文方法選用了BiLSTM,將向前向后的2個LSTM組合成1個BiLSTM,并且可以疊加多次,進而提升實驗效果。同時BiLSTM能夠從頭到尾對任意長度的序列進行操作,這樣就可以處理字符較多的緬甸語句子。

        訓練循環(huán)神經(jīng)網(wǎng)絡(luò)期間,當循環(huán)神經(jīng)網(wǎng)絡(luò)接收到特征序列中的幀xt時,使用非線性函數(shù)來更新yt,非線性函數(shù)同時接收當前輸入xt和過去狀態(tài)yt-1作為RNN的輸入,即:yt=g(xt,yt-1)。在BiLSTM的底部,產(chǎn)生具有偏差的序列將會連接成映射,將緬甸語圖像的特征映射轉(zhuǎn)換為特征序列,然后再反轉(zhuǎn)并反饋到卷積層;也就是說,輸出結(jié)果將會被送回到輸入,之后在下一個時刻和下一個輸入同時使用,這樣就形成了卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)之間聯(lián)系橋梁。

        2.1.2 轉(zhuǎn)錄

        轉(zhuǎn)錄是將RNN所做的每幀預測轉(zhuǎn)換成標簽序列的過程。對于RNN得到的每幀預測的標簽分布,本文依托Graves等[21]提出的聯(lián)接時間分類(Connectionist temporal classification,CTC)計算出所有的標簽序列概率。

        定義符號“-”作為空白符加入到緬甸語字符集合中,從而用“-”填充RNN得到的每幀預測的標簽分布中沒有字符的位置。另外還定義了f變換,用以刪除空白字符集合變換成真實輸出。f變換的作用為:把連續(xù)的相同字符刪減為1個字符并刪去空白符,但是如果相同字符間有“-”符號的則把“-”符號刪除,然后保留相同的字符。

        例子中π∈Q′T,Q′=Q∪{-},這里Q包含了訓練中的所有緬甸語標注好的正確標簽。計算出所有的標簽序列概率后,在輸入y=y1,...,yT的情況下,輸出為q的標簽序列概率為

        式中:T為序列長度;輸入y為T×n的后驗概率矩陣,n為緬甸文字符數(shù)為時刻t時有標簽πt的概率,使用文獻[21]中描述的前向后向算法可以計算存在指數(shù)級數(shù)量的求和項的方程p(π|y)。

        如果詞典較大時,對整個詞典進行搜索非常費時,所以選用了基于最近鄰候選目標的方式來選取最大的標簽序列概率所對應(yīng)的標簽序列作為圖像中每一幀的緬甸語最終的預測結(jié)果,即

        式中:Mδ(q′)為最近鄰候選目標(可以使用BK樹數(shù)據(jù)結(jié)構(gòu)[22]快速有效地找到);δ為最大編輯距離;q′為在沒有詞典的情況下輸入為y轉(zhuǎn)錄的序列。

        2.2 教師網(wǎng)絡(luò)

        本文的教師網(wǎng)絡(luò)模塊由多個CNN+RNN+CTC模型組成。教師子網(wǎng)使用與學生網(wǎng)絡(luò)位置信息對應(yīng)的緬甸語單字符和組合字符圖像作為網(wǎng)絡(luò)輸入,以便在最后的卷積層產(chǎn)生不同的特征表示。教師網(wǎng)絡(luò)最后產(chǎn)生與目標類有關(guān)的輸入數(shù)據(jù)的概率分布,如圖2中B部分所示。

        由于緬甸語單字符和組合字符是有一定規(guī)則數(shù)量限制的,因此教師網(wǎng)絡(luò)選用基于詞典的轉(zhuǎn)錄方式更加準確便捷,詞典是一組標簽序列,當預測緬甸語圖像識別結(jié)果時將會受到拼寫檢查字典的約束。在基于詞典的情況下,選取最大的標簽序列概率所對應(yīng)的標簽序列作為最終的預測結(jié)果,即

        式中D為詞典。

        2.3 集成知識蒸餾的網(wǎng)絡(luò)訓練

        采用知識蒸餾方法將教師學習到的對齊片段的單字符和組合字符特征對學生模型的參數(shù)進行優(yōu)化指導,使學生網(wǎng)絡(luò)能夠強化學習到緬甸語組合字符的識別,從而提高整體緬甸語句子識別的準確率。將圖像和標簽(x′,y′)∈(X′,Y′)組成訓練的數(shù)據(jù)集,其中每個樣本屬于K個類(Y′=1,2,…,K),教師網(wǎng)絡(luò)輸入的單字符或者組合字符圖像位置與學生網(wǎng)絡(luò)所輸入的單字符或者組合字符圖像具有相同的位置信息。為了學習映射fs(x):X′→Y′,本文通過fs(x′,θ*)訓練學生網(wǎng)絡(luò)的參數(shù),其中θ*是通過最小化訓練目標函數(shù)Ltrain獲得的學習參數(shù),表達式為

        本文的訓練函數(shù)是3個損失項的加權(quán)組合。教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)的損失值分別用LCET和LCES表示,真實標簽用y′表示,知識蒸餾損失值用LKD表示,知識蒸餾損失值與教師集成子網(wǎng)絡(luò)的輸出和學生模型的輸出相匹配,即

        式中PT=ft(x)和PS=fs(x)分別表示教師網(wǎng)絡(luò)和學生模型中圖像對應(yīng)緬甸語單字符和組合字符字符所在相同感受野內(nèi)輸出yt等時刻所對應(yīng)的映射函數(shù)概率,通過計算損失值來優(yōu)化學生模型的權(quán)重與參數(shù),從而實現(xiàn)教師網(wǎng)絡(luò)對學生網(wǎng)絡(luò)的圖像特征增強。α∈[0,0.5,1]、β∈[0,0.5,1]和γ∈[0,0.5,1]是平衡單個損失項的超參數(shù)。從數(shù)學上講,交叉熵損失值可以寫成

        式中:η為指示函數(shù);為教師網(wǎng)絡(luò)對應(yīng)單字符或者組合字符的輸出概率;為學生網(wǎng)絡(luò)與教師網(wǎng)絡(luò)輸出yt等對應(yīng)位置時刻單字符或者組合字符SoftMax輸出概率;LKD由散度損失值LKL和均方誤差損失值LMSE組成,即有

        式中W是一個溫度超參數(shù),它控制教師子網(wǎng)絡(luò)輸出的軟化。W值越大,目標類上的概率分布越軟。LKL公式為

        3 實驗過程與分析

        在緬甸語場景文本識別任務(wù)上,對所提出的基于知識蒸餾的緬甸語圖像文本識別方法的有效性進行了評估。本文在構(gòu)造的緬甸語圖像數(shù)據(jù)集上進行了實驗。

        3.1 數(shù)據(jù)集

        實驗涉及以下6個可用的緬甸語圖像數(shù)據(jù)集,所采用的實驗數(shù)據(jù)來自網(wǎng)絡(luò)采集的緬甸語文本數(shù)據(jù)隨機生成分辨率為10像素×5像素~500像素×300像素的圖像數(shù)據(jù)集。選用了80萬張含有噪聲的緬甸語場景文本圖像作為評估數(shù)據(jù)集和80萬張含有噪聲的緬甸語場景文本圖像作為測試數(shù)據(jù)集,數(shù)據(jù)集內(nèi)的圖像為“.jpg”格式,對應(yīng)的數(shù)據(jù)標簽為緬甸語圖像內(nèi)對應(yīng)的文本信息,如表1所示。神經(jīng)網(wǎng)絡(luò)訓練前將數(shù)據(jù)保存為tfrecord格式以提升數(shù)據(jù)讀取速率。訓練數(shù)據(jù)集內(nèi)包含以下6種緬甸語圖像數(shù)據(jù)集。

        表1 數(shù)據(jù)集格式及對應(yīng)標簽示例Table 1 Example of data set format and correspond?ing label

        數(shù)據(jù)集1該數(shù)據(jù)集包含600萬張無背景噪聲的長序列的訓練緬甸語圖像數(shù)據(jù)集,例如“”“”“”。

        數(shù)據(jù)集2該數(shù)據(jù)集圖像為與數(shù)據(jù)集1中每張圖像的位置特征信息一一對應(yīng)的短序列的單字符緬甸語訓練數(shù)據(jù)集。例如:數(shù)據(jù)集1中“”第6個字符“”對應(yīng)的圖像為“”;“”中第7個字符“”對應(yīng)的圖像為“”,將“”“”等圖像作為數(shù)據(jù)集2。

        數(shù)據(jù)集3該數(shù)據(jù)集圖像為與數(shù)據(jù)集1中每張圖像的位置特征信息一一對應(yīng)的短序列的組合字符緬甸語訓練數(shù)據(jù)集。例如:數(shù)據(jù)集1中“”第1個和第2個字符的組合字符“”對應(yīng)的圖像為“”;“”中第8個、第9個與第10個的字符的組合字符“”對應(yīng)的圖像為“”,將“”“”等圖像作為數(shù)據(jù)集3。

        數(shù)據(jù)集4該數(shù)據(jù)集包含600萬張具有背景噪聲的長序列訓練緬甸語圖像數(shù)據(jù)集。例如“”“”和“”。

        數(shù)據(jù)集5該數(shù)據(jù)集圖像為與數(shù)據(jù)集4中每張圖像的位置特征信息一一對應(yīng)的單字符緬甸語訓練數(shù)據(jù)集。例如:數(shù)據(jù)集4中“”第8個字符“”對應(yīng)的圖像為“”;“”第1個字符“”對應(yīng)的圖像“”,將“”“”等圖像作為數(shù)據(jù)集5。

        數(shù)據(jù)集6該數(shù)據(jù)集圖像為與數(shù)據(jù)集4中每張圖像的位置特征信息一一對應(yīng)的短序列組合字符緬甸語訓練數(shù)據(jù)集,例如:數(shù)據(jù)集4中“”第2個、第3個與第4個字符的組合字符“”對應(yīng)的圖像為“”,第6個與第7個字符的組合字符“”對應(yīng)的圖像為“”,將“”“”等圖像作為數(shù)據(jù)集6。

        3.2 實驗結(jié)果及分析

        本文的實驗基于Tensorflow框架實現(xiàn),服務(wù)器配置配置為Intel(R)Xeon(R)Gold 6132 CPU@2.60 GHz,NVIDIA Corporation GP100GL GPU。

        實驗中嚴格按照標準評價指標單字符(Per char,PC)和全序列(Full sequence,F(xiàn)S)精確率的公式為

        式中:PC、CS和SN分別代表每個字符的準確率、正確的字符總數(shù)和所有字符的總數(shù);FS、SL和LN分別代表全序列精確率、正確的序列數(shù)和序列總數(shù)。

        在確保其他變量都一致的情況下,對比模型參數(shù)均基于原給出的超參數(shù)設(shè)置。在沒有噪音的緬甸語圖像情況下進行了實驗1與實驗2。

        實驗1首先選用數(shù)據(jù)集1作為學生網(wǎng)絡(luò)的訓練數(shù)據(jù),數(shù)據(jù)集3作為教師網(wǎng)絡(luò)的訓練數(shù)據(jù)進行了實驗,對比實驗的訓練集為數(shù)據(jù)集1和數(shù)據(jù)集3的總和,識別結(jié)果如表2所示。

        從表2實驗結(jié)果可以看出:采用“CNN+BLSTM+CTC”方法的單字符的準確率、全序列精確率分別為87.2%和85.1%,采用“CNN+BLSTM+Attention”方法單字符的準確率、全序列精確率分別為88.1%和82.3%,本文方法在單字符的準確率、全序列精確率最好效果達到了91.5%和88.5%。實驗中將教師網(wǎng)絡(luò)學習到對齊片段的緬甸語組合字符特征對學生網(wǎng)絡(luò)進行優(yōu)化,從而對學生網(wǎng)絡(luò)具有緬甸語組合字符的位置信息進行了特征增強,使多個字符嵌套組合的復雜字符識別準確率提高。對比實驗中雖然在處理識別單字符方面比較擅長,但是在識別緬甸語組合字符時會產(chǎn)生誤判或者輸出字符順序錯亂等結(jié)果,所以導致識別準確率低于本文的值。

        表2 訓練集為數(shù)據(jù)集1和3時的識別結(jié)果Table 2 Recognition results with the training set of datasets 1 and 3 %

        實驗2選用數(shù)據(jù)集1作為學生網(wǎng)絡(luò),數(shù)據(jù)集2數(shù)據(jù)集3作為教師網(wǎng)絡(luò)的訓練數(shù)據(jù)進行了實驗,對比實驗的訓練集為數(shù)據(jù)集1、2、3的總和,識別結(jié)果如表3所示。

        從表3可見,增加了數(shù)據(jù)集2后,與表2相比模型識別結(jié)果均有所提升,本文方法在單字符的準確率、全序列精確率分別提升了3%和1.6%。因為數(shù)據(jù)集2包含了位置特征的短序列的單字符緬甸語,實現(xiàn)學生網(wǎng)絡(luò)中單個感受野對應(yīng)的局部字符圖像特征與教師網(wǎng)絡(luò)單字符圖像特征的對齊,以此增強長序列字符圖像中單字符特征的獲取,從而提高了模型的準確性。

        表3 訓練集為數(shù)據(jù)集1、2和3時的識別結(jié)果Table 3 Recognition results with training set of da?tasets 1,2 and 3 %

        以上訓練數(shù)據(jù)集是在不含有背景噪音的情況下進行模型訓練,在處理實際生活中具有背景噪音的緬甸語圖像時識別效果就會較差,為此本文在訓練數(shù)據(jù)使用具有背景圖像的情況下進行了實驗3,以此來提高模型在應(yīng)對不同場景下的緬甸語圖像識別。

        實驗3將數(shù)據(jù)集4作為學生網(wǎng)絡(luò)的訓練數(shù)據(jù),數(shù)據(jù)集5、6作為教師網(wǎng)絡(luò)的訓練數(shù)據(jù),在該情況下選用數(shù)據(jù)集4+5,數(shù)據(jù)集4+6和數(shù)據(jù)集4+5+6分別進行了1組實驗。對比實驗的訓練集為所對應(yīng)數(shù)據(jù)集的總和,識別結(jié)果如表4所示。

        表4 具有背景噪聲的情況下每個字符準確率和全序列準確率的實驗結(jié)果Table 4 Experimental results of accuracy of per character and accuracy of full sequence with background noise %

        從表4中可以觀察到,在訓練集使用具有背景噪聲圖像比使用無背景噪聲圖像時識別精度更準確。在該情況下,本文實驗在采用數(shù)據(jù)集4+5+6時,即在同時考慮單字符和組合字符特征以及添加背景噪聲因素后,模型達到了最好的效果。

        實驗訓練數(shù)據(jù)集的大小也有可能影響模型識別圖像的準確度,所以通過更改實驗數(shù)據(jù)集的大小來比較測試結(jié)果,該數(shù)據(jù)集大小為學生網(wǎng)絡(luò)訓練集大小,教師網(wǎng)絡(luò)訓練集數(shù)量不計入其中,即與學生網(wǎng)絡(luò)輸入圖像每張圖像所對應(yīng)的對齊片段特征的緬甸語單字符或者組合字符圖像,但是教師網(wǎng)絡(luò)訓練集依然參與教師網(wǎng)絡(luò)訓練。單字符和全序列句子識別準確率結(jié)果如圖3,4所示。

        圖3 不同數(shù)據(jù)集大小的單字符準確率Fig.3 Accuracy of per character for different sizes of datasets

        圖4 不同數(shù)據(jù)集大小的全序列句子準確率Fig.4 Accuracy of full sequence sentences with dif?ferent sizes of datasets

        通過實驗結(jié)果可以得出結(jié)論,使用深度學習方法時訓練模型數(shù)據(jù)集的大小會影響實驗效果,并且通過實驗比較分析結(jié)果可以看出,當訓練數(shù)據(jù)集到600萬張圖片時,隨著訓練數(shù)據(jù)的提升,準確值提升不再明顯,所以可以取600萬訓練數(shù)據(jù)來訓練最優(yōu)模型。

        4 結(jié)束語

        針對緬甸語圖像中1個感受野內(nèi)多個字符嵌套組合的復雜字符難以提取識別的問題,提出了一種基于知識蒸餾的緬甸語OCR方法,根據(jù)緬甸語文字特點,構(gòu)建了適應(yīng)緬甸語OCR任務(wù)需求的網(wǎng)絡(luò)框架。首次將基于知識蒸餾的思想運用到緬甸語圖像文本識別研究,構(gòu)建了學生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)對長序列中局部特征的增強,實現(xiàn)局部特征對齊,從而解決緬甸語嵌套組合字符識別的問題。本文構(gòu)建了訓練網(wǎng)絡(luò)模型所需的數(shù)據(jù)集,并在該數(shù)據(jù)集的基礎(chǔ)上進行了實驗,在沒有背景噪聲圖像與具有背景噪聲圖像作為訓練數(shù)據(jù)的情況下,本文模型的性能分別優(yōu)于基線2.9%和2.7%。在以后的工作中,本文將融合語言模型以優(yōu)化結(jié)果,從而進一步提高識別的準確性。

        猜你喜歡
        字符特征文本
        尋找更強的字符映射管理器
        如何表達“特征”
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:50
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        消失的殖民村莊和神秘字符
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        精品久久一品二品三品| 色综合88| 热re99久久精品国产66热6| 日产国产精品亚洲高清| 国产猛男猛女超爽免费视频| 国产精品美女久久久久| 亚洲欧洲久久久精品| 亚洲一区二区三区资源| 日本妇人成熟免费2020| 欧美成人午夜精品久久久| 久久精品免费无码区| 国产毛片精品一区二区色| 成人av片在线观看免费| 国产精品成人国产乱| 亚洲地区一区二区三区| 亚洲精品一区二区三区四区| 国产一区二区精品久久岳| 波多野结衣一区二区三区高清| 最新日韩av在线不卡| 亚洲精品美女中文字幕久久| 日本在线 | 中文| 少妇邻居内射在线| 欧美在线Aⅴ性色| 国产激情视频在线观看大全| 国产成人精品久久综合| 人妻丰满多毛熟妇免费区| 国产大全一区二区三区| 日本饥渴人妻欲求不满| 成人片黄网站色大片免费观看cn | 少妇高潮喷水久久久影院| 日韩极品视频在线观看| 虎白女粉嫩粉嫩的18在线观看| 久激情内射婷内射蜜桃人妖| 午夜精品一区二区三区无码不卡 | 国产丝袜美腿中文字幕| 亚洲人成无码区在线观看| 亚洲乱码视频在线观看| 在线日韩中文字幕乱码视频| 伊人久久综合无码成人网| 亚洲∧v久久久无码精品| 一级无码啪啪|