亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的維吾爾文掃描體識別

        2021-03-27 01:18:44吾守爾斯拉木許苗苗熊黎劍王明輝
        關(guān)鍵詞:維吾爾文卷積神經(jīng)網(wǎng)絡(luò)

        湯 敬,吾守爾·斯拉木,許苗苗,熊黎劍,王明輝

        (1.新疆大學(xué)軟件學(xué)院,新疆 烏魯木齊 830091;2.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)

        0 引言

        中國作為一個多民族的國家,維吾爾文是目前中國使用比較多的少數(shù)民族語言之一,尤其是新疆作為維吾爾族的主要聚居地,人們平時的交流、學(xué)習(xí)等方面都會頻繁地使用維吾爾文,并且有關(guān)維吾爾文的文獻(xiàn)資料也相當(dāng)多,而現(xiàn)有技術(shù)在中文的圖像文字識別中已經(jīng)廣泛應(yīng)用,相比之下維吾爾文圖像文字識別的研究相對落后了很多,因此研究維吾爾文的圖像文字識別有著重要的意義.

        文獻(xiàn)[1-4]針對維吾爾文圖像識別是采用對單詞文字進(jìn)行先切分,然后再來識別的思想,分析如何切分更好才能使識別結(jié)果更優(yōu).其中有關(guān)將單詞不進(jìn)行切分,整體直接識別的研究相對來說還是較少.由于維吾爾文文字自身的特點,其是粘連型的文字,所以在進(jìn)行切分的時候具有很大的難度,是過往切分研究中的難點之一.

        隨著深度學(xué)習(xí)在視覺研究領(lǐng)域所展現(xiàn)出的強大性能,其在英文和中文的圖像文字識別中也表現(xiàn)非凡,從眾多科研人員展示的實驗研究結(jié)果中也可以看出深度學(xué)習(xí)優(yōu)于傳統(tǒng)方法.所以在維吾爾文圖像文字識別中使用深度學(xué)習(xí)的方法來整體識別文字就可以避免切分.已有的關(guān)于維吾爾文的研究中,賈建忠[5]在研究維吾爾文文字識別時采用的神經(jīng)網(wǎng)絡(luò)研究是對單個字符的識別,在單字符的識別上有著不錯的效果.

        本文建立了維吾爾文圖像識別的數(shù)據(jù)集,提出了TRBGA模型.

        1 深度學(xué)習(xí)

        1.1 深度學(xué)習(xí)概念

        深度學(xué)習(xí)(deep leaning,DL)來源于人工神經(jīng)網(wǎng)絡(luò),其概念是由G.E.Hinton等[6]在2006年提出,從此開啟了深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的浪潮.深度學(xué)習(xí)是目前最成功的表示學(xué)習(xí)方法,它把表示學(xué)習(xí)的任務(wù)分成幾個小的目標(biāo),可以先從原始的數(shù)據(jù)中學(xué)習(xí)低級表示,之后從低級表示學(xué)習(xí)到高級表示.這樣,機器就更容易自主地將這些小目標(biāo)學(xué)好,從而完成最終學(xué)習(xí)任務(wù),并且省去了人工選取過程[7].目前深度學(xué)習(xí)在算法、模型、硬件設(shè)施與開發(fā)社區(qū)都取得了重要的突破[8],解決了之前神經(jīng)網(wǎng)絡(luò)難于優(yōu)化、應(yīng)用有限等問題.目前深度學(xué)習(xí)在計算機視覺領(lǐng)域大放異彩,其中卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、深度殘差網(wǎng)絡(luò)、密集卷積網(wǎng)絡(luò)等常被使用.

        1.2 深度學(xué)習(xí)模型介紹

        1.2.1 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)的英文全稱是“Convolutional Neural Network”.而神經(jīng)網(wǎng)絡(luò)的靈感來自于生物神經(jīng)網(wǎng)絡(luò)的功能和結(jié)構(gòu),并以此提出一種計算模型.CNN可以從端到端的通過傳統(tǒng)的方法訓(xùn)練并學(xué)習(xí)圖像的特征[9].CNN網(wǎng)絡(luò)最早可以追溯到1989年[10].近些年它在圖像分類的問題上獲得了成功.目前,CNN在圖像識別領(lǐng)域也有著廣泛的應(yīng)用.CNN作為一種人工神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)特征主要由輸入層、卷積層、池化層、全連接層組成,其中卷積層主要是提取特征,池化層下采樣,全連接層用來做分類.其結(jié)構(gòu)如圖1所示.得益于現(xiàn)在GPU所提供的強大算力支撐以及網(wǎng)絡(luò)中加入激活函數(shù)RuLu,原來難于處理的大量數(shù)據(jù),現(xiàn)在處理起來變得容易很多,計算時間大幅減少、收斂速度也更快.

        圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        1.2.2 循環(huán)(遞歸)神經(jīng)網(wǎng)絡(luò)

        循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)[11]中神經(jīng)元的輸出可以在下一個時間戳直接作用到自身,這樣可以在普通的CNN或全連接網(wǎng)絡(luò)里解決,由于每層神經(jīng)元的信號只能向上一層傳播導(dǎo)致樣本的處理在各個時刻是獨立的,以及全連接的DNN會因為時間序列上的變化而無法對其進(jìn)行建模等問題.RNN被設(shè)計出來的目的是用來處理序列相關(guān)的數(shù)據(jù),其核心思想就是將當(dāng)前時刻的輸入與上一個時刻的輸入一起作用于當(dāng)前時刻輸入的計算,這樣隱藏層之間的節(jié)點就變得有連接了,而傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)每層之間的節(jié)點是無連接的.與CNN網(wǎng)絡(luò)通過空間上參數(shù)共享從而減少參數(shù)的思想不同,RNN的參數(shù)共享體現(xiàn)在時間序列上.目前RNN在語言建模、語音識別[12]、機器翻譯[13]、生成圖像描述、視頻標(biāo)記等領(lǐng)域都有很好的應(yīng)用.RNN結(jié)構(gòu)示意圖如圖2所示.

        1.2.3 殘差網(wǎng)絡(luò)

        理論上講,神經(jīng)網(wǎng)絡(luò)層數(shù)越多能提取到的特征信息就越豐富,也就越具有語義信息.在計算機視覺領(lǐng)域,兼有分辨率信息和語義信息的網(wǎng)絡(luò)才能獲得更好的性能,單靠淺層網(wǎng)絡(luò)提取的分辨率信息獲取的效果會降低.采用堆積神經(jīng)網(wǎng)絡(luò)層數(shù)來提取特征應(yīng)該會有好的性能,但實際情況卻與之相反,深層的網(wǎng)絡(luò)結(jié)構(gòu)不僅會出現(xiàn)性能退化,而且?guī)砹颂荻认Щ虮ǖ膯栴},通過初始化數(shù)據(jù)和正則化等傳統(tǒng)方法解決了梯度的問題.

        圖2 RNN結(jié)構(gòu)

        文獻(xiàn)[14]提出來的殘差網(wǎng)絡(luò)(ResNet)在提升性能的同時也很好地解決了加深神經(jīng)網(wǎng)絡(luò)層數(shù)帶來的缺陷.ResNet的核心思想是引入了身份近路連接(IdentityShortcut Connention),也就是淺層特征和深層特征的一個簡單相加,將一個跳躍(skip connection)添加到標(biāo)準(zhǔn)前饋卷積網(wǎng)絡(luò)來繞過一些中間層,實際效果相當(dāng)好,在保持原有網(wǎng)絡(luò)性能的同時,通過加深網(wǎng)絡(luò)層數(shù)來提高網(wǎng)絡(luò)性能.目前殘差網(wǎng)絡(luò)已經(jīng)在計算機視覺[15]等領(lǐng)域得到了廣泛的使用.其結(jié)構(gòu)如圖3所示.

        圖3 殘差網(wǎng)絡(luò)結(jié)構(gòu)

        1.2.4 密集卷積網(wǎng)絡(luò)

        加深的網(wǎng)絡(luò)可以帶來豐富的表達(dá),從AlexNet和VGG等可以看出研究人員在深度問題上一直在研究.但更深的網(wǎng)絡(luò)又不可避免帶來梯度消失問題,隨后ResNet、Highway Networks、Stochastic depth[16-18]等網(wǎng)絡(luò)都是針對該問題提出的,盡管這些網(wǎng)絡(luò)結(jié)構(gòu)不同,但是它們的核心點是相似的,都是構(gòu)建一個從早期層到后期層的短路徑.

        G.Huang等[19]提出的密集卷積網(wǎng)絡(luò)(DenseNet)借鑒了ResNet的設(shè)計理念,并在此基礎(chǔ)上推陳出新.為了保證網(wǎng)絡(luò)之間各層能有最大的信息流動來進(jìn)行更加有效地訓(xùn)練,DenseNet采用了一種更為密集的連接方法,通過前向傳播將各層和其他層密集地連接起來.在普通卷積神經(jīng)網(wǎng)絡(luò)里,網(wǎng)絡(luò)有多少層就有多少連接,其模式是一對一的,在DesnseNet網(wǎng)絡(luò)中就不一樣了,各層會和所有的其他層進(jìn)行連接,L層的DenseNet網(wǎng)絡(luò)將有L(L+1)/2個連接,對于每層來說,在它前面的各層的特征都將作為它的輸入,同時它的特征也將會和它前面的層一起作為其后各層的輸入.DenseNet網(wǎng)絡(luò)結(jié)構(gòu)有效地緩解了梯度上的問題,網(wǎng)絡(luò)層間特征的傳播得以加強,支持特征重用,同時也在很大程度上減少了參數(shù)量,其結(jié)構(gòu)如圖4所示.

        圖4 密集卷積網(wǎng)絡(luò)結(jié)構(gòu)

        2 基于深度學(xué)習(xí)的圖像文字識別模型

        維吾爾語的圖像文字的識別過程主要步驟是先對輸入進(jìn)來的圖像進(jìn)行特征提取,在經(jīng)過循環(huán)層來學(xué)習(xí)上下文的語義信息,最后通過CTC或者Attention生成最終的標(biāo)簽.如圖5所示.

        圖5 識別模型結(jié)構(gòu)示意圖

        2.1 CRNN模型

        CRNN(Convolutional Recurrent Neural Network)[20]是一種端到端的模型,該網(wǎng)絡(luò)結(jié)合了DCNN和RNN 2個模型,可以用來對長度不固定的圖像進(jìn)行序列識別.在該模型出來之前傳統(tǒng)的識別方式都是先切分,然后再來識別的,用來識別的算法不僅煩瑣而且可讀性也很差,同時存在著許多的問題無法解決,比如粘連型的文字.CNN在提取圖像表征特征上表現(xiàn)優(yōu)異,RNN在處理序列相關(guān)的問題上具有優(yōu)勢,這樣將兩者結(jié)合起來的神經(jīng)網(wǎng)絡(luò)在需要對有時序的數(shù)據(jù)建模上表現(xiàn)驚人,因此不僅在音頻、自然語言等領(lǐng)域得到了廣泛應(yīng)用,在文本序列識別研究的領(lǐng)域也帶來了本質(zhì)革新.

        CRNN模型由3部分網(wǎng)絡(luò)結(jié)構(gòu)組成,分別是卷積層、循環(huán)層以及轉(zhuǎn)錄層(CTC)[21].

        卷積層部分通過普通神經(jīng)網(wǎng)絡(luò)中的卷積層和最大池化層來提取輸入進(jìn)來的圖像的序列信息,經(jīng)過該層后的圖像將被統(tǒng)一到相同的高度,也就是在空間上對圖片進(jìn)行了保序和壓縮處理,相當(dāng)于在水平方向上,圖像被切成了若干片,然后從這些切片中提取出相對應(yīng)的特征向量作為下一步循環(huán)層的輸入.雖然卷積學(xué)習(xí)到的是每一列上的特征,但是這些特征與輸入圖像的一塊區(qū)域是相對應(yīng)的,也就是卷積網(wǎng)絡(luò)的感受野之間是重疊的,這樣就有了上下文有關(guān)的信息,為后面的RNN學(xué)習(xí)上下文特性提供了可能.

        循環(huán)層部分使用一個雙向雙層的LSTM結(jié)構(gòu),LSTM是RNN的變形,其在學(xué)習(xí)序列有關(guān)的上下文信息上表現(xiàn)出色,因此圖像識別時加入LSTM使得模型變得更穩(wěn)定和有效.在網(wǎng)絡(luò)訓(xùn)練中,RNN可以將誤差值再反向傳給卷積層,這樣,卷積層和循環(huán)層就可以一起訓(xùn)練.另外RNN可以訓(xùn)練并學(xué)習(xí)長度不定的序列.

        CTC層的工作是將RNN層每一幀的預(yù)測轉(zhuǎn)成序列標(biāo)簽,在模擬動態(tài)規(guī)劃的過程找出最高概率的序列標(biāo)簽.CTC中加入了空白類,通過一定的映射法則去除重復(fù)的序列,得到最終目標(biāo).其示意圖如圖6所示.

        圖6 CTC轉(zhuǎn)錄示意圖

        本文中測試運行了CRNN網(wǎng)絡(luò),其在維吾爾語識別中也有著不錯的表現(xiàn).

        2.2 基于轉(zhuǎn)換層(TPS)的深度學(xué)習(xí)模型

        TPS的主要功能是將輸入進(jìn)來的圖形X轉(zhuǎn)換成歸一化的圖形X′.傳統(tǒng)的池化方式(Max Pooling/Average Pooling)所帶來卷積網(wǎng)絡(luò)的位移不變性和旋轉(zhuǎn)不變性只是局部的和固定的,而且池化并不擅長處理其他形式的仿射變換.TPS是一種基于樣條的數(shù)據(jù)插值和平滑技術(shù),是空間變換網(wǎng)絡(luò)(STN)[22]的一種變體形式,而TPS非常強大的一點是它可以近似所有和生物有關(guān)的變形.因此,使用TPS可以在圖像上找到多個基準(zhǔn)點,然后基于這些基準(zhǔn)點進(jìn)行TPS轉(zhuǎn)換成我們所期望的矩形,從而減輕網(wǎng)絡(luò)的學(xué)習(xí)負(fù)擔(dān).

        根據(jù)實驗的需要選擇適合實驗的網(wǎng)絡(luò),本文選擇了用ResNet來提取特征,并做了層數(shù)上的調(diào)整,采用了33層的ResNet提升網(wǎng)絡(luò)的識別性能.

        本文的序列層采用了和CRNN模型一樣的BiLSTM,另外稍微做了調(diào)整,將第一層的LSTM換成了GRU層,GRU也是RNN的變體形式.

        預(yù)測模型部分的主要任務(wù)是將輸入H預(yù)測出一個字符的序列Y(Y=y,y,…).

        本文的預(yù)測選擇是基于Attention的模型,從文獻(xiàn)[23]所做的大量對比實驗可以看出,在提升識別的性能上面Attention的模型要優(yōu)于基于CTC[24]的模型,所以在實驗中直接選用了Attention的模型作為該階段的預(yù)測模型[25],通過Attention來自動捕獲輸入進(jìn)來的序列的信息流,并以此來預(yù)測出字符的輸出序列.

        在該Attention中用了一層基于LSTM的注意力機制的解碼器.在第t步時,LSTM解碼器將預(yù)測一個輸出

        yt=Softmax(WoSt+bo).

        (1)

        其中:Wo和bo是訓(xùn)練參數(shù),St是LSTM解碼器隱藏層在t時刻的狀態(tài).其中

        St=LSTM(yt-1,ct,St-1).

        (2)

        式中ct是權(quán)重H(H=h1,…)的和,h來自于前面的網(wǎng)絡(luò).其中

        (3)

        式中的αti是attention的權(quán)重,計算公式為

        (4)

        eti的計算公式為

        eti=vTtanh(Wst-1+Vhi+b).

        (5)

        式中v,W,V和b都是網(wǎng)絡(luò)訓(xùn)練中的參數(shù),該LSTM隱藏層使用的維數(shù)設(shè)置為256.

        2.3 目標(biāo)函數(shù)

        實驗訓(xùn)練中,訓(xùn)練數(shù)據(jù)集用TD= {Xi,Yi}來表示,其中Xi表示用來訓(xùn)練的圖像,Yi表示訓(xùn)練的圖像對應(yīng)的單詞標(biāo)簽.公式為

        (6)

        該目標(biāo)函數(shù)通過圖像及其對應(yīng)標(biāo)注的單詞標(biāo)簽來計算成本,從而進(jìn)行端到端的模型訓(xùn)練.

        3 實驗過程及結(jié)果

        為了保證實驗各項環(huán)境的一致性,本文所有的結(jié)果都是在相同的訓(xùn)練數(shù)據(jù)集、驗證數(shù)據(jù)集、測試數(shù)據(jù)集以及計算性能上完成的.

        本文是在CPU Intel Xeon 1.70 GHz、12 GB的GPU內(nèi)存、Ubuntu18.04系統(tǒng)下搭建Pytorh的環(huán)境下進(jìn)行的.實驗環(huán)境以及配置參數(shù)如表1所示.

        表1 實驗環(huán)境配置參數(shù)

        3.1 數(shù)據(jù)集

        針對目前用于維吾爾文訓(xùn)練的數(shù)據(jù)集不足,難以達(dá)到深度學(xué)習(xí)訓(xùn)練的數(shù)據(jù)量.首先是收集整理維吾爾文圖像文字的相關(guān)數(shù)據(jù),為此從兩方面進(jìn)行了數(shù)據(jù)集的收集工作.

        (1) 真實樣本的采集.在新疆的天山網(wǎng)站上收集了大概50份的維吾爾語的新聞,然后通過腳本去除重復(fù)的單詞以及符號寫入word文檔,一共采集了9 379個維吾爾文單詞.然后通過打印機打印出來后用掃描儀掃入電腦,通過工具以單詞為單位裁剪出可用于訓(xùn)練的圖像.其中訓(xùn)練集7 397張、驗證集991張、測試集991張.如圖7所示.

        圖7 真實掃描體數(shù)據(jù)

        (2) 合成數(shù)據(jù)集.盡管訓(xùn)練集采用真實數(shù)據(jù)集對實驗的提升有著極大的幫助,但考慮到真實數(shù)據(jù)集的制作需要耗費大量的時間和人力,所以采用真實樣本加合成樣本的方案有其必要性,根維吾爾文由32個字母組成,有的字母的變體形式多達(dá)4種,所以形式一共有128種.本文中一個字符的多個變形仍視為該字符本身.因為和代表同一個字母,計算機沒有做區(qū)分,所以顯示的是33個字符.之后通過腳本以掃描體圖片為背景,在上面合成隨機的維吾爾文字符生成了10萬張的圖片,并請維吾爾族的同學(xué)做了后續(xù)的檢查后,將合成數(shù)據(jù)集與真實樣本的訓(xùn)練集一起作為本實驗的訓(xùn)練集,一共是107 395張圖像.合成數(shù)據(jù)如圖8所示.

        圖8 合成數(shù)據(jù)示意圖

        3.2 實驗結(jié)果對比分析

        在該數(shù)據(jù)集上分別使用CRNN模型、RBA(ResNet+BiLSTM+attn)、CLOVA-AI v2(TPS+ResNet(29)+BiLSTM+attn)以及TRBGA(TPS+ResNet(33)+BiLSTM+GRU+attn)模型做了對比實驗,實驗結(jié)果如表2所示.

        表2 實驗結(jié)果

        從表2中可以看出神經(jīng)網(wǎng)絡(luò)在維吾爾文圖像文字識別中有著優(yōu)異的表現(xiàn),其中我們提出的模型TRBGA準(zhǔn)確率達(dá)到了99.395%,是目前幾個模型中最優(yōu)的算法.

        4 結(jié)論

        本文對維吾爾文圖像文字識別進(jìn)行了深入的研究,收集制作維吾爾圖像識別數(shù)據(jù)集和改進(jìn)維吾爾圖像文字識別的算法.其中構(gòu)建的維吾爾文圖像文字?jǐn)?shù)據(jù)集對后續(xù)的維吾爾文識別研究有積極的促進(jìn)意義,提出的TRBGA模型與主流的網(wǎng)絡(luò)做了對比實驗,實驗結(jié)果顯示所提出的識別準(zhǔn)確率達(dá)到了99.395%,優(yōu)于傳統(tǒng)模型算法.

        猜你喜歡
        維吾爾文卷積神經(jīng)網(wǎng)絡(luò)
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        西部少數(shù)民族語言對阿拉伯文獻(xiàn)的譯介及其特點
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        維吾爾文研究與Android維文閱讀器的實現(xiàn)?
        察合臺維吾爾文古籍的主要特點
        亚洲aⅴ无码成人网站国产app| 久久99人妖视频国产| 久久久99精品免费视频| 久久久精品人妻无码专区不卡 | 日韩极品免费在线观看| 亚洲自拍偷拍色图综合| 丰满岳乱妇一区二区三区| 丰满少妇人妻无码专区| 国产福利一区二区三区视频在线看| 国产主播性色av福利精品一区| 香蕉免费一区二区三区| 男女超爽视频免费播放| 日本少妇爽的大叫高潮了| 久久精品国产亚洲av影院毛片| 国产精品亚洲а∨无码播放不卡| 精品高潮呻吟99av无码视频| 久久久亚洲精品免费视频| 日本国产精品久久一线| 男人进去女人爽免费视频| 国产一级大片免费看| 免费观看在线一区二区| 亚洲夫妻性生活免费视频| 男女啪啪永久免费观看网站| 久草热这里只有精品在线| 免费观看日本一区二区三区| 99久久精品国产一区二区| 国产一区二区波多野结衣| 亚洲一区二区三区偷拍自拍 | 含紧一点h边做边走动免费视频| 亚洲精品自产拍在线观看| 久久精品韩国日本国产| 国产免费人成视频网站在线18| 欧美最大胆的西西人体44| 久久无码一一区| 成人国产av精品麻豆网址| 亚洲综合av永久无码精品一区二区 | 亚洲无精品一区二区在线观看| 色爱无码av综合区| 久久青青草原亚洲AV无码麻豆| 偷偷夜夜精品一区二区三区蜜桃| 男人和女人做爽爽视频|