亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡(luò)的自然背景字符識(shí)別

        2018-01-03 01:55:03彭志文
        關(guān)鍵詞:字符預(yù)處理準(zhǔn)確率

        郁 松 彭志文

        (中南大學(xué)軟件學(xué)院 湖南 長(zhǎng)沙 410075)

        基于卷積神經(jīng)網(wǎng)絡(luò)的自然背景字符識(shí)別

        郁 松 彭志文

        (中南大學(xué)軟件學(xué)院 湖南 長(zhǎng)沙 410075)

        隨著計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,自然背景中字符的識(shí)別在圖片檢索、視頻檢索、無(wú)人車(chē)識(shí)別周?chē)鷪?chǎng)景信息等領(lǐng)域都扮演了不可或缺的角色。相對(duì)于手寫(xiě)字符、打印字符的識(shí)別,自然背景字符的識(shí)別有著光照強(qiáng)度變化大、背景紋理復(fù)雜、字體樣式和顏色多變等特點(diǎn),這都給識(shí)別帶來(lái)了巨大的挑戰(zhàn)。主要是基于LeNet-5的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)了一種適合于識(shí)別自然背景字符的卷積神經(jīng)網(wǎng)絡(luò),由于在這一領(lǐng)域以往的研究工作的基準(zhǔn)數(shù)據(jù)集是較小的數(shù)據(jù)集(Chars74K-15),為了便于比較,實(shí)驗(yàn)也是基于同樣的數(shù)據(jù)集。但因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)是在巨大數(shù)據(jù)量的驅(qū)動(dòng)下才會(huì)有良好的效果,因此還提出了一種預(yù)處理方式和fine-tune相結(jié)合用于解決自然背景字符圖片數(shù)據(jù)量較小的問(wèn)題。

        自然背景字符識(shí)別 卷積神經(jīng)網(wǎng)絡(luò) 圖像分類(lèi)

        0 引 言

        在計(jì)算機(jī)視覺(jué)領(lǐng)域,許多問(wèn)題都得到了良好的解決,比如人臉檢測(cè)和手寫(xiě)字符的識(shí)別。盡管目前存在很多有用的方法和應(yīng)用來(lái)解決文本的識(shí)別,例如已經(jīng)運(yùn)用于商業(yè)的產(chǎn)品OCR[1]在掃描文本的識(shí)別中取得了巨大的成功。由于字體、光照、背景、視角等較為復(fù)雜的外部因素的影響,自然背景文本的識(shí)別依然存在著很多挑戰(zhàn)和待解決的問(wèn)題。這一研究?jī)?nèi)容主要包括文本的檢測(cè)和定位、字符的分割和字符的識(shí)別。本文的主要研究工作是對(duì)于字符的識(shí)別。

        目前對(duì)于解決這一問(wèn)題的方法主要分為2大類(lèi)[2]:基于區(qū)域聚合的方法和目標(biāo)識(shí)別的方法。基于區(qū)域聚合的方法[1,3]主要應(yīng)用了二值化和圖像分割,所以這些方法運(yùn)行較快,但是在低分辨率或者存在噪聲的情況下并不適用。而基于目標(biāo)識(shí)別的方法[15]是將自然背景下字符的識(shí)別當(dāng)做一般的圖像分類(lèi)任務(wù)來(lái)進(jìn)行處理,一般步驟就是從圖片中提取特征來(lái)訓(xùn)練分類(lèi)器,并完成分類(lèi)任務(wù),這需要大量的經(jīng)驗(yàn)知識(shí)和設(shè)計(jì)恰當(dāng)?shù)奶卣?。第二種方法的使用較為普遍。

        很多字符特征的提取方法被證明在用于提高字符識(shí)別準(zhǔn)確率上具有良好的效果。這些方法主要可以分為基于先驗(yàn)知識(shí)人工設(shè)計(jì)的特征和基于深度學(xué)習(xí)自動(dòng)提取的特征。方向梯度直方圖(HOG)特征在物體檢測(cè)中是很有效的,并且也被廣泛使用,因此也被[4-5]用來(lái)表示自然場(chǎng)景中字符的特征。一些方法認(rèn)為可以通過(guò)考慮圖像的空間與結(jié)構(gòu)信息來(lái)提高HOG特征的效果,Epshtein[6]提出了用鄰近區(qū)域的梯度方向分布代替單一的梯度方向。Yi等[5]基于HOG提出了全局采樣的GHOG,能夠?qū)ψ址Y(jié)構(gòu)進(jìn)行更好的建模。Shi等[7]提出了基于局部區(qū)域的樹(shù)狀特征,這個(gè)特征原本是用來(lái)進(jìn)行人臉檢測(cè),文獻(xiàn)[7]的方法中用來(lái)表示字符特征。Lee等[2]認(rèn)為如果將輸入圖像分割成相等大小的區(qū)域,并且在每一個(gè)子區(qū)域提取方向梯度信息,但并不是每一個(gè)子區(qū)域都包含有效信息,因此提出了一種方法:首先提取隨機(jī)區(qū)域內(nèi)的10種不同特征,隨后使用SVM進(jìn)行訓(xùn)練,得到這10種特征對(duì)于字符識(shí)別的影響權(quán)重,然后取權(quán)重最大的前K個(gè)特征作為字符的特征。

        以往的研究大多是基于人工設(shè)計(jì)的特征,設(shè)計(jì)這些特征需要良好的先驗(yàn)知識(shí),而且不一定適用于所有的自然背景的情況。因此本文針對(duì)以上問(wèn)題基于LeNet-5[10]進(jìn)行了改進(jìn),該CNN模型可以有效提取自然背景下字符的特征。主要的改進(jìn)方面是增加了卷積層和卷積核的數(shù)量,這是因?yàn)長(zhǎng)eNet-5只是識(shí)別手寫(xiě)數(shù)字,而自然背景的字符識(shí)別需要識(shí)別62個(gè)種類(lèi),因此需要學(xué)習(xí)更多的特征。并且將sigmoid激活函數(shù)改為了ReLu(Rectified Linear Units),這樣減少了訓(xùn)練的收斂時(shí)間[11]。還在某些層增加了dropout[11],這是為了保證特征的稀疏性。輸入圖片增加了感興趣區(qū)域提取和二值化等預(yù)處理過(guò)程,使該卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以適應(yīng)訓(xùn)練數(shù)據(jù)較小的情況,并且通過(guò)實(shí)驗(yàn)結(jié)果說(shuō)明了數(shù)據(jù)擴(kuò)充的可行性。然后在數(shù)據(jù)擴(kuò)充的方法之上訓(xùn)練出最終的CNN模型用于自然背景字符的分類(lèi)。

        1 CNN總體框架和所采用的方法

        本節(jié)主要是說(shuō)明了數(shù)據(jù)集和經(jīng)過(guò)實(shí)驗(yàn)得出的最佳的CNN整體結(jié)構(gòu),還描述了提出的2種數(shù)據(jù)處理的方法:基于直方圖和grabcut的數(shù)據(jù)預(yù)處理和數(shù)據(jù)擴(kuò)充。預(yù)處理是為了應(yīng)對(duì)數(shù)據(jù)量較小的情況并且驗(yàn)證數(shù)據(jù)擴(kuò)充的可行性。數(shù)據(jù)擴(kuò)充是為了提升最終訓(xùn)練所得到模型的識(shí)別準(zhǔn)確率,也為數(shù)據(jù)量較小的情況下提供了一定的解決思路。

        1.1 數(shù)據(jù)集說(shuō)明

        本文研究?jī)?nèi)容所使用的數(shù)據(jù)集是Chars74K[12],該數(shù)據(jù)集包括64類(lèi)字符,其中包括英文字母(A-Z,a-z)和阿拉伯?dāng)?shù)字(0~9),總共74 000張左右。但是自然背景下的字符只有12 503張,其中4 798張圖片較為模糊,其余的圖片是手寫(xiě)字符(3 410張)和根據(jù)電腦的字體合成的字符(62 992張),圖1從這3類(lèi)數(shù)據(jù)中各選了9張作為示意。

        圖1 從左往右依次是自然背景字符、手寫(xiě)字符、電腦合成字符

        在自然背景圖片這一子數(shù)據(jù)集中,每一類(lèi)字符的分布并不是均勻的,以往基于這個(gè)數(shù)據(jù)集的研究工作[5,8-9]都傾向于使用Chars74K-15,即每一類(lèi)有15個(gè)訓(xùn)練樣本和15個(gè)測(cè)試樣本,總共1 860張圖片。為了方便比較實(shí)驗(yàn)結(jié)果,本文的實(shí)驗(yàn)內(nèi)容也同樣是基于Chars74K-15。

        若是直接基于930張訓(xùn)練圖片來(lái)訓(xùn)練本文所設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò),則效果不理想,在測(cè)試集上只有44%的準(zhǔn)確率。這是因?yàn)楹突谑止ぴO(shè)計(jì)的特征不同,CNN是通過(guò)大量的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)特征的,而較少數(shù)據(jù)量時(shí)不容易達(dá)到好的效果,但是在具有大量數(shù)據(jù)的條件之下,CNN相對(duì)于手工設(shè)計(jì)的特征可以提取到更為準(zhǔn)確的特征而到達(dá)更好的分類(lèi)效果。一些方法,比如文獻(xiàn)[8]用了12 000張自然背景字符圖片做為訓(xùn)練集,文獻(xiàn)[13]用了2 200 000張帶標(biāo)簽的訓(xùn)練數(shù)據(jù)集。然而得到如此規(guī)模的數(shù)據(jù)集是比較困難的。因此本文提出了一種數(shù)據(jù)預(yù)處理的方式對(duì)Chars74K-15進(jìn)行預(yù)處理,然后再基于現(xiàn)有的合成字符圖片數(shù)據(jù)集進(jìn)行CNN的預(yù)訓(xùn)練,最后再對(duì)預(yù)處理之后的Chars74K-15進(jìn)行fine-tune訓(xùn)練,這樣可以使識(shí)別率達(dá)到比較良好的效果。

        1.2 預(yù)處理過(guò)程

        預(yù)處理的目的主要是排除背景、光照等干擾因素,使預(yù)處理之后的圖片特征和合成的字符圖片較為類(lèi)似。首先使用GrabCut算法[14]提取自然背景字符圖片的前景,也就是字符本身,這是CNN的分類(lèi)依據(jù)。由于對(duì)字符進(jìn)行分類(lèi),只需要關(guān)注圖像的紋理與邊緣特征,所以忽略色彩特征,將三通道的彩色圖像變成單通道的灰度圖像,這也同樣減少了無(wú)關(guān)特征的干擾。接著可以計(jì)算灰度圖像的直方圖,根據(jù)圖1中自然背景字符圖片的特點(diǎn)可以得知,其中字符的像素是占整幅圖片大部分,由此可以在直方圖中找到某個(gè)像素范圍,經(jīng)過(guò)多次實(shí)驗(yàn)本文將范圍設(shè)為24。若在這個(gè)范圍內(nèi)的像素所占的比例是最大的,則最有可能是屬于字符的像素。最后將這個(gè)范圍內(nèi)的像素設(shè)置為0,范圍外的像素設(shè)置為255,進(jìn)行腐蝕操作后即可得到與合成字符圖片特征較為類(lèi)似的預(yù)處理后的自然背景字符圖片。整個(gè)過(guò)程如圖2所示。有些情況下字符所屬的像素不一定就是直方圖中最“廣闊”的山脈,背景像素有時(shí)候也可能占據(jù)圖片的大部分。這時(shí)候需要根據(jù)計(jì)算公式來(lái)決定該范圍內(nèi)的像素是否屬于圖片中的字符:

        1A(P)

        (1)

        式中:A=[pi-a,pi+a],p是待選像素范圍的中值,pi是灰度圖像邊界像素的均值,a是根據(jù)實(shí)驗(yàn)得出的經(jīng)驗(yàn)值,本文中設(shè)置為12。若指示函數(shù)的值等于1,則說(shuō)明待選的像素范圍很可能是屬于背景,則需要繼續(xù)查找另外的像素范圍。若等于0,待選像素范圍是正確的可能性較大。圖2的第3行和第4行分別表示了不使用指示函數(shù)和使用指示函數(shù)的區(qū)別。

        圖2 從左到右依次是原圖、提取前景后的灰度圖、二值化圖像、灰度圖像的直方圖

        1.3 CNN的結(jié)構(gòu)

        圖3描述了本文中的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):CNN總共有10層,其中卷積層6層,全連接層1層,采樣層2層,還有最后一層是softmax層。前8層都會(huì)產(chǎn)生相應(yīng)的特征映射圖。通常來(lái)說(shuō),隨著卷積層數(shù)的增加,分類(lèi)的準(zhǔn)確率會(huì)相應(yīng)提高,但是也會(huì)帶來(lái)相應(yīng)問(wèn)題,比如訓(xùn)練時(shí)間和需要訓(xùn)練的參數(shù)的增長(zhǎng)。如果保持?jǐn)?shù)據(jù)量不變,盲目地增加卷積層層數(shù),這會(huì)導(dǎo)致模型過(guò)于復(fù)雜,反而還會(huì)帶來(lái)過(guò)擬合的問(wèn)題。為了確定最佳的卷積層層數(shù),本文保持CNN其他參數(shù)和結(jié)構(gòu)不變,分別在具有不同卷積層層數(shù)(分別是3、4、5、6、7層)的模型上進(jìn)行了訓(xùn)練,當(dāng)層數(shù)為6、7時(shí)測(cè)試錯(cuò)誤率最低,詳細(xì)的實(shí)驗(yàn)結(jié)果在第3節(jié)給出。

        如圖3所示,除了采樣層與上層之間的連接參數(shù)不需要在訓(xùn)練中學(xué)習(xí),其他層與上層之間的連接參數(shù)都需要學(xué)習(xí),所以總共有8層參數(shù)需要學(xué)習(xí)。最后的全連接層會(huì)輸出一個(gè)500維的向量,softmax層將這一向量作為輸入,然后計(jì)算測(cè)試圖片分別屬于這62個(gè)類(lèi)的概率分布,softmax使用交叉熵?fù)p失函數(shù)(cross-entropy)來(lái)計(jì)算每一次預(yù)測(cè)的loss值大小。常用的loss值計(jì)算的函數(shù)還有hinge loss,但是hinge loss計(jì)算的值是無(wú)標(biāo)定的,很難對(duì)所有類(lèi)進(jìn)行判定。而通過(guò)cross-entropy所得的值可以對(duì)所有類(lèi)都進(jìn)行判定,它會(huì)給出對(duì)每一個(gè)類(lèi)的預(yù)測(cè)概率。采樣層的主要作用是降維,在本文中,采樣層將上一層每一個(gè)2×2區(qū)域內(nèi)的最大值作為采樣值。CNN中的采樣算法有最大采樣和均值采樣,實(shí)驗(yàn)顯示采用最大采樣錯(cuò)誤率可以降低1.2%左右。Dropout[11]會(huì)出現(xiàn)在全連接層的后面,它的主要作用是防止過(guò)擬合,dropout有一定的概率抑制它的上一層的神經(jīng)元的激活。在本文的實(shí)驗(yàn)中,加了dropout錯(cuò)誤率降低了8%左右。文獻(xiàn)[11]使用了局部響應(yīng)歸一化層(LRN),因?yàn)楸疚膶?duì)輸入的圖片數(shù)據(jù)進(jìn)行了歸一化處理,所以并沒(méi)有使用LRN層,實(shí)驗(yàn)證明使用了LRN層之后,錯(cuò)誤率提高了2%左右。

        在圖3中,第1個(gè)卷積層由20個(gè)特征圖組成,每一個(gè)特征圖的大小為28×28,每個(gè)神經(jīng)元的局部感受野大小為3×3×1。第2個(gè)卷積層由20個(gè)特征圖組成,每一個(gè)特征圖的大小為28×28,神經(jīng)元局部感受野的大小為3×3×20。第3個(gè)卷積層由50個(gè)特征圖組成,每一個(gè)特征圖的大小為14×14,神經(jīng)元局部感受野的大小為3×3×20。第4~6個(gè)卷積層有由50個(gè)特征圖組成,每一個(gè)特征圖的大小為14×14,神經(jīng)元局部感受野的大小都為3×3×50。全連接層有500個(gè)神經(jīng)元。對(duì)于所有的卷積層來(lái)說(shuō),同一個(gè)特征圖中的神經(jīng)元與上一層的連接參數(shù)都是相同的,稱(chēng)為“權(quán)值共享”,而不同特征圖的神經(jīng)元與上一層的連接參數(shù)是不同的,這樣是為了可以提取不同的特征。

        本文基于LeNet-5的改進(jìn)除了增加卷積層、減少局部感受野與增加卷積核(與上一層進(jìn)行卷積操作形成特征圖)之外,還增加了填充像素,目的是為了在不斷的卷積過(guò)程中,保證特征圖的空間大小不改變。因?yàn)?,?shí)驗(yàn)發(fā)現(xiàn)當(dāng)卷積層從6層增加到7層的時(shí)候正確率反而降低了2%左右。原因如圖4所示,在第6層時(shí),特征圖已經(jīng)變成4×4,第7層的局部感受野是3×3,會(huì)造成特征的丟失,LeNet-5的卷積層數(shù)目只有2層,因而無(wú)填充像素并不會(huì)影響。

        2 CNN的訓(xùn)練過(guò)程

        在LeNet-5中輸入圖片的大小為28×28,本文在此基礎(chǔ)上還實(shí)驗(yàn)了25×25、32×32、50×50這3種尺寸作為輸入圖片的大小。發(fā)現(xiàn)32×32、50×50使準(zhǔn)確率分別降低了1.6%和4.6%,25×25和28×28幾乎沒(méi)有差別。所以實(shí)驗(yàn)還是采用和LeNet-5一樣的輸入圖片尺寸。為了防止過(guò)擬合,有些方法會(huì)將輸入圖片隨機(jī)裁剪成多塊。這一步預(yù)處理在本次實(shí)驗(yàn)中并不適用,因?yàn)樵谀承┓诸?lèi)任務(wù)中的目標(biāo)物體不一定就在圖片正中的位置,裁剪有利于保證位移不變性。而實(shí)驗(yàn)中所用的數(shù)據(jù)集字符都在中心位置,所以只采用了鏡像操作來(lái)擴(kuò)大數(shù)據(jù)量,若是使用了裁剪,錯(cuò)誤率會(huì)提高3.6%左右。鑒于HOG和SIFT被普遍使用在目標(biāo)檢測(cè)和目標(biāo)識(shí)別領(lǐng)域,這兩種特征可以很好地描述圖像信息。因此本文也提取了Chars74K中的自然背景圖片的HOG特征圖和SIFT特征圖(如圖5所示)分別作為CNN模型的訓(xùn)練集,并且將訓(xùn)練結(jié)果和自然背景圖片作為訓(xùn)練集的結(jié)果相比較,比較結(jié)果分別為63.4%、31.8%、66.6%。其中,采用SIFT訓(xùn)練的識(shí)別率最低,采用原圖訓(xùn)練的識(shí)別率最高。由此可見(jiàn),CNN模型并不適合采用對(duì)原圖進(jìn)行特征提取后的圖片作為訓(xùn)練集。

        圖5 從左至右依次是原圖、HOG特征圖、SIFT特征圖

        表1所示實(shí)驗(yàn)過(guò)程中訓(xùn)練了不同層數(shù)的CNN結(jié)構(gòu):model1只有3層卷積層,model2到model5依次增加1層卷積層。在第一層最大采樣層(MAX_POOL)之前的所有卷積層有20個(gè)卷積核,之后的所有卷積層有50個(gè)卷積核。

        表1 CNN結(jié)構(gòu)簡(jiǎn)單示意

        (2)

        Wt+1=Wt+Vt+1

        (3)

        CNN中激活函數(shù)的選擇對(duì)于收斂速度和訓(xùn)練效果也是一個(gè)很重要的影響因素,本文在model4上實(shí)驗(yàn)了ReLu和sigmoid兩種激活函數(shù),如圖6所示。可知,在500次迭代的訓(xùn)練過(guò)程中,無(wú)論是測(cè)試準(zhǔn)確率的提高還是訓(xùn)練loss值的收斂速度,使用ReLu激活函數(shù)的效果都要優(yōu)于sigmoid激活函數(shù),因此本文在實(shí)驗(yàn)中是將ReLu作為激活函數(shù)。因?yàn)樗鄬?duì)于sigmoid來(lái)說(shuō)有單側(cè)抑制、稀疏激活性、避免過(guò)大的計(jì)算開(kāi)銷(xiāo)等優(yōu)點(diǎn)。

        圖6 左邊為使用ReLu函數(shù)的效果,右邊為使用sigmoid函數(shù)的效果

        表1中的每一個(gè)CNN結(jié)構(gòu)都會(huì)基于3組不同的數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,數(shù)據(jù)集分別是Chars74K中所有的自然背景圖片、Chars74K-15和預(yù)處理后的Chars74K-15。還會(huì)在后兩組數(shù)據(jù)集上采用fine-tune的方式進(jìn)行訓(xùn)練,fine-tune是基于Chars74K中的電腦合成字符。接著會(huì)在實(shí)驗(yàn)最優(yōu)的CNN結(jié)構(gòu)中改變最后一層的卷積核個(gè)數(shù)進(jìn)行訓(xùn)練和測(cè)試。最后會(huì)將合成字符圖片進(jìn)行如2.3節(jié)所述的擴(kuò)充處理,將得到62 992張圖片作為訓(xùn)練集進(jìn)行字符分類(lèi)訓(xùn)練。通過(guò)以上過(guò)程主要是想說(shuō)明如下4點(diǎn):

        (1) 數(shù)據(jù)量的大小對(duì)CNN訓(xùn)練效果的影響。

        (2) 基于本文提出的預(yù)處理方式,對(duì)于針對(duì)小數(shù)據(jù)集Chars74K-15訓(xùn)練效果的提高。

        (3) 在數(shù)據(jù)量較少的情況下,fine-tune對(duì)于提高準(zhǔn)確率有較大的作用。其中fine-tune是指基于另外已有的數(shù)據(jù)集訓(xùn)練出一個(gè)模型(初始化CNN中的參數(shù)),在此預(yù)模型上針對(duì)需要完成分類(lèi)任務(wù)的數(shù)據(jù)集再進(jìn)行訓(xùn)練(微調(diào)CNN中的參數(shù))。

        (4) 在Chars74K-15數(shù)據(jù)集上,卷積層層數(shù)以及卷積核個(gè)數(shù)對(duì)分類(lèi)效果的影響。

        3 實(shí)驗(yàn)結(jié)果分析

        首先要驗(yàn)證數(shù)據(jù)量的大小對(duì)于CNN的影響,實(shí)驗(yàn)將在表1所示的5個(gè)CNN模型上分別對(duì)Chars74K的自然背景圖片(11 883張訓(xùn)練圖片,620張測(cè)試圖片)和Chars74K-15進(jìn)行訓(xùn)練,其中Chars74K-15是從每個(gè)類(lèi)中選出訓(xùn)練集和測(cè)試集各15張圖片,實(shí)驗(yàn)結(jié)果如圖7所示。在所有的模型中基于Chars74K訓(xùn)練的準(zhǔn)確率都要優(yōu)于基于Chars74K-15訓(xùn)練的準(zhǔn)確率,并且隨著卷積層層數(shù)的增加淺色長(zhǎng)條會(huì)緩慢增長(zhǎng)(從model1的62.3%到model4的66.6%),但是在model5會(huì)下降1.8%左右。深色長(zhǎng)條則一直呈現(xiàn)波動(dòng)的趨勢(shì),在model5的時(shí)候,訓(xùn)練時(shí)候的loss是0.000 2,而測(cè)試的loss是4.93,這說(shuō)明在基于Chars74K-15訓(xùn)練時(shí)可能發(fā)生了過(guò)擬合。所以基于適當(dāng)?shù)腃NN結(jié)構(gòu),數(shù)據(jù)量的增加會(huì)提高分類(lèi)的準(zhǔn)確率,但是層數(shù)過(guò)多會(huì)導(dǎo)致模型需訓(xùn)練的參數(shù)增加,模型復(fù)雜度提高,從而也可能引起過(guò)擬合的現(xiàn)象。

        圖7 Chars74K、Chars74K-15在不同模型上的實(shí)驗(yàn)結(jié)果

        接著在所有的CNN模型上實(shí)驗(yàn)了在第2.1節(jié)中提出來(lái)的預(yù)處理對(duì)于Chars74K-15的影響,實(shí)驗(yàn)結(jié)果如圖8所示。

        圖8 預(yù)處理對(duì)于Chars74K-15的影響

        由圖8可知預(yù)處理對(duì)于準(zhǔn)確率的提高有比較明顯的作用,平均提高了12%左右。這是因?yàn)榻?jīng)過(guò)預(yù)處理后的圖像排除了背景,光照強(qiáng)弱等無(wú)關(guān)因素的影響,CNN更容易從中提取到與分類(lèi)更加相關(guān)的特征。雖然一定程度上提高了準(zhǔn)確率,但實(shí)驗(yàn)過(guò)程中準(zhǔn)確率最高為58.7%(model5),還是低于在Chars74K上訓(xùn)練的效果。為了在不增加自然背景字符圖片數(shù)據(jù)量的前提下進(jìn)一步提高準(zhǔn)確率,可以利用合成的字符圖片進(jìn)行預(yù)訓(xùn)練,然后基于訓(xùn)練好的模型再在預(yù)處理之后的Chars74K-15上進(jìn)行fine-tune訓(xùn)練,和直接基于Chars74K訓(xùn)練效果的比較如圖9所示,總體上準(zhǔn)確率并沒(méi)有大的區(qū)別。如果Chars74K-15只進(jìn)行了fine-tune訓(xùn)練而沒(méi)有經(jīng)過(guò)預(yù)處理,效果雖然比圖7(直接訓(xùn)練)平均有8%的提高,但沒(méi)有預(yù)處理之后再進(jìn)行fine-tune訓(xùn)練的準(zhǔn)確率高。

        圖9 Chars74K直接訓(xùn)練、預(yù)處理后Chars74K-15的fine-tune訓(xùn)練和未預(yù)處理的Chars74K-15的fine-tune訓(xùn)練

        所以預(yù)處理和fine-tune對(duì)于Chars74K-15數(shù)據(jù)集的分類(lèi)準(zhǔn)確率的提高起到了一定的作用,fine-tune的方式可以有效緩解CNN的結(jié)構(gòu)比較深的時(shí)候難以訓(xùn)練的問(wèn)題,而且還有一個(gè)優(yōu)于采用直接訓(xùn)練方式的地方,如圖10所示。和圖6左邊進(jìn)行對(duì)比采用fine-tune的方式在收斂速度上優(yōu)于直接訓(xùn)練。

        圖10 直接基于Chars74K-15訓(xùn)練

        結(jié)合準(zhǔn)確率和計(jì)算效率考慮,實(shí)驗(yàn)選用model4作為最終的CNN結(jié)構(gòu),并測(cè)試卷積核數(shù)目的改變對(duì)于fine-tune訓(xùn)練預(yù)處理后的Chars74K-15影響,實(shí)驗(yàn)結(jié)果如表2所示。實(shí)驗(yàn)結(jié)果顯示的規(guī)律和前面的比較一致,在一定的范圍內(nèi),增加卷積層或者卷積核的個(gè)數(shù)準(zhǔn)確率也會(huì)相應(yīng)的提高,但是一旦達(dá)到某個(gè)臨界值,增加卷積層或卷積核個(gè)數(shù)便不再有幫助。

        表2 不同卷積核數(shù)目的準(zhǔn)確率

        表3是本文的方法和其它方法的比較,其中文獻(xiàn)[8]中提出的方法比較好,因?yàn)樵摲椒ㄊ褂昧祟~外的自然背景字符圖片數(shù)據(jù)集,通過(guò)預(yù)訓(xùn)練的模型再進(jìn)行了fine-tune所以有目前最好的效果。

        表3 不同的方法在Chars74K-15上的比較

        通過(guò)CNN可以進(jìn)行比較準(zhǔn)確的分類(lèi),是因?yàn)榭梢酝ㄟ^(guò)不斷的卷積、采樣操作來(lái)提取圖片的特征和降維,并且通過(guò)隨機(jī)梯度下降的方式篩選出本質(zhì)的特征,過(guò)程如圖11所示。其中中間的圖選取的是第一層卷積層中的16個(gè)特征映射圖,右邊選取的是最后的采樣層中的49個(gè)特征映射圖,CNN從底層到頂層提取到的特征是從具體到抽象,稠密到稀疏的過(guò)程,這樣有利于提高分類(lèi)的準(zhǔn)確性。

        圖11 字符“m”在model4中的特征映射圖

        訓(xùn)練迭代過(guò)程中的示意圖,如圖12所示。右邊的圖縱坐標(biāo)代表分類(lèi)標(biāo)簽,橫坐標(biāo)代表訓(xùn)練的迭代次數(shù),像素值越高代表屬于哪個(gè)類(lèi)的可能性越大。在字母“w”這個(gè)例子中,在訓(xùn)練迭代的過(guò)程中,CNN在32(表示“w”)和58(表示“W”)兩個(gè)類(lèi)別間跳動(dòng)。而對(duì)于特征比較明顯的字符,比如“m”,就會(huì)一直穩(wěn)定在48這一正確的分類(lèi)上。圖11中顯示的是經(jīng)過(guò)預(yù)處理之后的字符圖片。

        圖12 訓(xùn)練迭代時(shí)預(yù)測(cè)概率的變化

        4 結(jié) 語(yǔ)

        本文主要研究了訓(xùn)練樣本數(shù)據(jù)量大小、卷積層層數(shù)、卷積核個(gè)數(shù)以及訓(xùn)練方法對(duì)于Chars74K-15分類(lèi)效果的影響。雖然在大數(shù)據(jù)背景下可以對(duì)CNN分類(lèi)效果的提高起到較大的作用,但帶標(biāo)簽的數(shù)據(jù)的獲取比較困難,所以本文提出了一種預(yù)處理的方式和一個(gè)CNN結(jié)構(gòu)模型,并進(jìn)行實(shí)驗(yàn)做出驗(yàn)證,在不需要更多自然背景圖片的情況下,也可以取得比較良好的效果。但是基于預(yù)處理的方式也有一定的局限性,當(dāng)字符分割比較規(guī)整、字符主體和背景的對(duì)比度較高時(shí),后續(xù)的CNN訓(xùn)練才會(huì)有比較良好提高作用。并且像數(shù)字“0”和字母“O”,數(shù)字“1”和字母“l(fā)”,還有一些字母的大小寫(xiě),本身區(qū)別就不大,分類(lèi)效果自然不會(huì)很好。解決這個(gè)問(wèn)題可以結(jié)合整個(gè)字符串的上下文環(huán)境來(lái)進(jìn)行考慮。

        [1] Neumann L,Matas J.Real-time scene text localization and recognition[C]//Computer Vision and Pattern Recognition.IEEE,2012:3538-3545.

        [2] Lee C Y,Bhardwaj A,Di W,et al.Region-Based Discriminative Feature Pooling for Scene Text Recognition[C]//Computer Vision and Pattern Recognition.IEEE,2014:4050-4057.

        [3] Kita K,Wakahara T.Binarization of Color Characters in Scene Images Using k-means Clustering and Support Vector Machines[C]//International Conference on Pattern Recognition,ICPR 2010,Istanbul,Turkey,23-26 August.DBLP,2010:3183-3186.

        [4] Zhang D,Wang D H,Wang H.Scene text recognition using sparse coding based features[C]//IEEE International Conference on Image Processing.IEEE,2014:1066-1070.

        [5] Yi C,Yang X,Tian Y.Feature Representations for Scene Text Character Recognition:A Comparative Study[C]//International Conference on Document Analysis and Recognition.IEEE Computer Society,2013:907-911.

        [6] Epshtein B,Ofek E,Wexler Y.Detecting text in natural scenes with stroke width transform[C]//IEEE Conference on Computer Vision & Pattern Recognition,2010:2963-2970.

        [7] Shi C,Wang C,Xiao B,et al.Scene Text Recognition Using Part-Based Tree-Structured Character Detection[C]//Computer Vision and Pattern Recognition.IEEE,2013:2961-2968.

        [8] Zhang Y.Scene text recognition with deeper convolutional neural networks[C]//2015 IEEE International Conference on Image Processing (ICIP),2015:2384-2388.

        [9] Chen C,Wang D H,Wang H.Scene character recognition using PCANet[C]//International Conference on Internet Multimedia Computing and Service.ACM,2015:1-4.

        [10] Lécun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

        [11] Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems,2012:1097-1105.

        [12] Campos T E D,Babu B R,Varma M.Character Recognition in Natural Images[C]//Visapp 2009-Proceedings of the Fourth International Conference on Computer Vision Theory and Applications,Lisboa,Portugal,February,2009:273-280.

        [13] Bissacco A,Cummins M,Netzer Y,et al.PhotoOCR:Reading Text in Uncontrolled Conditions[C]//IEEE International Conference on Computer Vision.IEEE,2013:785-792.

        [14] Rother C,Kolmogorov V,Blake A.“GrabCut”:interactive foreground extraction using iterated graph cuts[J].Acm Transactions on Graphics,2004,23(3):309-314.

        [15] Dan C,Meier U,Schmidhuber J.Multi-column deep neural networks for image classification[C]//IEEE Conference on Computer Vision & Pattern Recognition,2012:3642-3649.

        NATURALBACKGROUNDCHARACTERRECOGNITIONBASEDONCONVOLUTIONALNEURALNETWORK

        Yu Song Peng Zhiwen

        (SchoolofSoftware,CentralSouthUniversity,Changsha410075,Hunan,China)

        With the development of the computer vision technology, the recognition of characters in natural background plays an indispensable role in the fields of picture retrieval, video retrieval and unmanned vehicle recognition. Compared to the recognition of handwritten characters and printed characters, the natural scene characters have many different features. For example, the variation of light intensity, complex background texture, the variation of font’s style and color. All these features bring a huge challenge to the recognition. The paper raised a CNN which can recognize natural scene characters effectively. Most of the past research is based on Chars74K-15 which does not contain many images. In order to compare with the past, we used the same data set. Because of the large amount of data on training the CNN, we raised a preprocessing method with fine-tune to solve the problem of lacking data.

        Recognition of scene characters Convolutional neural network Image classification

        2017-02-11。郁松,副教授,主研領(lǐng)域:圖像處理,數(shù)據(jù)挖掘。彭志文,碩士。

        TP391.4

        A

        10.3969/j.issn.1000-386x.2017.12.044

        猜你喜歡
        字符預(yù)處理準(zhǔn)確率
        尋找更強(qiáng)的字符映射管理器
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        消失的殖民村莊和神秘字符
        高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
        淺談PLC在預(yù)處理生產(chǎn)線(xiàn)自動(dòng)化改造中的應(yīng)用
        久久久日韩精品一区二区三区| 久久精品免费视频亚洲| 美女极度色诱视频国产免费 | 亚洲 欧美 国产 日韩 精品| 久久久久久久久久免免费精品| 亚洲人妻御姐中文字幕| 日本添下边视频全过程| 男同gay毛片免费可播放| 91久久国产精品视频| 国产自拍精品视频免费观看| 好大好爽我要高潮在线观看| 久久国内精品自在自线图片 | 欧美人做人爱a全程免费| 无码中文字幕色专区| 久久免费网站91色网站| 亚洲毛片在线观看免费| 亚洲热妇无码av在线播放| 93精91精品国产综合久久香蕉| 精品理论一区二区三区| 亚洲国产精品成人av在线不卡 | 无码精品一区二区免费AV| 亚洲人妻av在线播放| 亚洲av免费手机在线观看| 久久综合九色综合欧美狠狠| 日韩成人无码v清免费| 日产一区二区三区的精品| 亚洲成av人在线观看网址| 久久人人爽人人爽人人av东京热| AV中文字幕在线视| 国产在线一区二区av| 欧美乱妇高清无乱码在线观看| 不卡高清av手机在线观看| 国产av黄色一区二区| 成人无码一区二区三区| 欧美疯狂性xxxxxbbbbb| 又色又爽又黄的视频网站| 久久精品国产亚洲av成人文字| 亚洲人成电影在线播放| 亚洲午夜成人片| 一区二区三区亚洲免费| 日本丰满熟妇videossex一|