亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        探究深度學(xué)習(xí)在脫機(jī)彝文字符識別中的應(yīng)用

        2018-05-18 07:58:25吉娃阿英
        現(xiàn)代計(jì)算機(jī) 2018年10期
        關(guān)鍵詞:印刷體彝文字符識別

        吉娃阿英

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

        0 引言

        字符識別因?yàn)槠漭^高的實(shí)際應(yīng)用價(jià)值,一直是模式識別領(lǐng)域的一個(gè)研究熱點(diǎn)。隨著計(jì)算機(jī)和相關(guān)學(xué)科的發(fā)展,文字識別的研究工作已經(jīng)取得了較大的成功,一些文字識別的產(chǎn)品相繼產(chǎn)生,并投入使用當(dāng)中。特別是針對漢字和英文的光學(xué)字符識別產(chǎn)品已經(jīng)比較成熟[1],在實(shí)際的應(yīng)用中表現(xiàn)良好。然而,對于一些少數(shù)民族語言文字的研究卻還剛剛起步甚至是空白。彝語是一門使用人數(shù)超過百萬的少數(shù)民族語言,而對于彝文字識別的研究還處在起步階段,還沒有統(tǒng)一或者成型的彝文字識別方法和工具出現(xiàn)[2]。

        目前雖然有少數(shù)的相關(guān)研究者對彝文字符識別做了初步的探索和研究,但是大都使用的是一些傳統(tǒng)的人工設(shè)計(jì)規(guī)則來提取特征,再用模板匹配或者是分類的方法。這些傳統(tǒng)的研究方法雖然在一定的條件和特定的數(shù)據(jù)集上可以獲得比較良好的實(shí)驗(yàn)結(jié)果,但是存在著不足和缺陷[3]。例如,手工構(gòu)造規(guī)則并提取特征對特定的數(shù)據(jù)集有效,但是在不同數(shù)據(jù)集或者實(shí)際應(yīng)用中它會出現(xiàn)泛化能力不足的現(xiàn)象。另外,不同的特征選擇算法和特征選擇,對識別的效果影響較大以及特征選擇困難,容易受數(shù)據(jù)集影響,算法對數(shù)據(jù)的噪聲敏感,從而對前期原始數(shù)據(jù)的預(yù)處理要求就很高[4]。鑒于此,本文探究了深度學(xué)習(xí)在彝文字符識別上的應(yīng)用,深度學(xué)習(xí)方法因能夠自主從數(shù)據(jù)中學(xué)習(xí)和提取特征,能夠大大彌補(bǔ)上述傳統(tǒng)方法的缺點(diǎn)。經(jīng)過實(shí)驗(yàn)驗(yàn)證,深度學(xué)習(xí)算法在彝文字符識別中具有良好的表現(xiàn)。

        1 相關(guān)研究

        彝文字符識別是一個(gè)新起步的研究課題,目前為止相關(guān)的研究還比較少。王嘉梅等人使用基于圖像分割,手工構(gòu)造規(guī)則和特征字典匹配的方法研究了彝文字識別的應(yīng)用,并設(shè)計(jì)相關(guān)實(shí)驗(yàn)來進(jìn)行仿真[4]。朱宗曉等人采用1024維周邊方向貢獻(xiàn)度作為彝文字符的統(tǒng)計(jì)特征,使用基于K-L變化的特征壓縮算法和三級字典快速匹配算法,來實(shí)現(xiàn)脫機(jī)印刷體彝文的識別[5]。朱龍華等人應(yīng)用彈性網(wǎng)格特征,方向線素特征,投影特征和筆畫密度特征以及結(jié)合彝文字型的結(jié)構(gòu)特征進(jìn)行特征提取,最后通過多分類器集成的方法來輸出識別結(jié)果[6]。賈曉棟初次提出了深度學(xué)習(xí)方法在脫機(jī)手寫彝文字上的研究工作,并使用卷積神經(jīng)網(wǎng)絡(luò)在自建的包含100個(gè)類的手寫體彝文字?jǐn)?shù)據(jù)集上訓(xùn)練和測試,在此100個(gè)類別的手寫體彝文數(shù)據(jù)集上獲得不錯(cuò)的效果[3]。本文在更大的脫機(jī)印刷體彝文字符數(shù)據(jù)集上探索和驗(yàn)證了深度學(xué)習(xí)在彝文印刷體文字識別上的應(yīng)用,實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)在彝文脫機(jī)印刷體識別上是有效可行的。

        2 實(shí)驗(yàn)設(shè)計(jì)

        2.1 數(shù)據(jù)準(zhǔn)備

        圖1

        本文收集了大量的脫機(jī)印刷體彝文字圖片和掃描件樣本,然后將彝文字圖片數(shù)據(jù)經(jīng)過文字切分,二值化和歸一化處理。最后形成包含全部1165個(gè)標(biāo)準(zhǔn)彝文字符,每個(gè)字符對應(yīng)20個(gè)不同圖片,樣本大小為23300張32×32小圖片的彝文印刷體字符集。示例樣本如圖2:

        圖2

        本實(shí)驗(yàn)設(shè)計(jì)的彝文字識別方法屬于機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)方法,需要讓神經(jīng)網(wǎng)絡(luò)模型從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)不同類別文字的模式,因此需要對彝文字符進(jìn)行數(shù)據(jù)標(biāo)注。本文采用Unicode彝文系統(tǒng)[7]的編碼順序來對彝文字進(jìn)行標(biāo)注,類別標(biāo)號從0開始。Unicode彝文系統(tǒng)中彝文字符的編碼范圍為0xA000-0xA4c6,而0xA000編碼對應(yīng)的是字,所以該字的類別標(biāo)號是0,同樣地字的類別標(biāo)號為10,依此類推。實(shí)驗(yàn)時(shí)從數(shù)據(jù)集中隨機(jī)20000份樣本作為訓(xùn)練集,剩余的3300份作為測試集。

        2.2 實(shí)驗(yàn)實(shí)施

        采用的網(wǎng)絡(luò)模型如圖3,包括多個(gè)卷積層和下采樣層,原始圖像數(shù)據(jù)輸入模型,經(jīng)過卷積層的處理產(chǎn)生多個(gè)輸出(特征圖),特征圖再經(jīng)過采樣層max-pooling采樣處理,最后特征圖作為全連接層的輸入來產(chǎn)生對應(yīng)的輸出。在此網(wǎng)絡(luò)模型當(dāng)中,卷積層經(jīng)過學(xué)習(xí)輸出多個(gè)特征圖,這是一個(gè)特征學(xué)習(xí)的過程,跟傳統(tǒng)算法的特征選擇相似,但是卷積層能夠通過多個(gè)卷積核對輸入圖像產(chǎn)生多個(gè)對應(yīng)的特征圖,相比傳統(tǒng)人工設(shè)計(jì)和選擇特征相比,能學(xué)習(xí)到更多更細(xì)微的特征,能夠適應(yīng)圖像的旋轉(zhuǎn)位移等變化[8]。下采樣層類似傳統(tǒng)方法中的特征降維處理,這樣能降低網(wǎng)絡(luò)模型參數(shù)的復(fù)雜度,提高模型的泛化能力。最后的全連接層類似傳統(tǒng)方法中的分類器,把卷積網(wǎng)絡(luò)學(xué)習(xí)到的高層特征作為模式輸入,學(xué)習(xí)輸出對應(yīng)的分類預(yù)測結(jié)果。

        圖3

        圖4

        圖5

        圖4和圖5訓(xùn)練和驗(yàn)證誤差曲線,橫軸表示模型訓(xùn)練過程中的迭代次數(shù),縱軸是對應(yīng)準(zhǔn)確率和誤差。由圖可以看到,隨著訓(xùn)練迭代次數(shù)的增加準(zhǔn)確率逐漸提高,誤差逐漸減小,當(dāng)模型迭代次數(shù)到達(dá)400左右的時(shí)候,準(zhǔn)確率和誤差趨于穩(wěn)定。在驗(yàn)證過程中,情況與訓(xùn)練過程類似。雖然隨著訓(xùn)練迭代次數(shù)的增加,模型預(yù)測的準(zhǔn)確率也會相應(yīng)地提高,但這可能會產(chǎn)生過擬合現(xiàn)象,為此,在本實(shí)驗(yàn)中,迭代次數(shù)選擇350次,這樣能在一定程度上提高模型的泛化能力。

        3 實(shí)驗(yàn)結(jié)果與分析

        由于彝文字符識別的研究尚不成熟,標(biāo)準(zhǔn)統(tǒng)一的數(shù)據(jù)集沒有形成,目前為止很難做到相同條件下的實(shí)驗(yàn)結(jié)果對比,本文從數(shù)據(jù)集、識別率,以及特征提取方法等角度來對不同方法的比較。如表1。

        表1

        從實(shí)驗(yàn)結(jié)果中可以看到,基于特征字典匹配,基于組合特征多分類器集成和本文深度學(xué)習(xí)的方法在識別率上都表現(xiàn)出較好的性能。但是,由于深度學(xué)習(xí)的方法對前期數(shù)據(jù)預(yù)處理的要求比上文兩種方法低,也不需要人工構(gòu)造和提取特征,而是通過數(shù)據(jù)學(xué)習(xí)獲取相關(guān)特征。因此基于神經(jīng)網(wǎng)絡(luò)的方法不僅能提高識別的效率,其在不同數(shù)據(jù)集上的泛化能力也明顯優(yōu)于前者。

        4 結(jié)語

        彝文字符識別是一個(gè)具有現(xiàn)實(shí)意義的研究工作,然而目前尚處在摸索探究的階段,大多數(shù)研究方法都還在沿用傳統(tǒng)的手工設(shè)計(jì)規(guī)則和特征提取的方法。鑒于深度學(xué)習(xí)方法現(xiàn)在圖像處理領(lǐng)域取得的巨大成就[8],本文探索了深度學(xué)習(xí)方法在彝文字符識別中的應(yīng)用,實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)方法在彝文字符識別方面的應(yīng)用是可行的,并且相比一些傳統(tǒng)的方法,其具有一定的優(yōu)勢。

        參考文獻(xiàn):

        [1]孫華,張航.漢字識別方法綜述[J].計(jì)算機(jī)工程,2010,36(20):194-197.

        [2]朱宗曉,吳顯禮.脫機(jī)印刷體彝族文字識別系統(tǒng)的原理與實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(2):85-88.

        [3]賈曉棟.基于深度學(xué)習(xí)的手寫體彝文識別技術(shù)應(yīng)用研究.北京:中央民族大學(xué),2017.

        [4]王嘉梅,文永華,李燕青.基于圖圖像分割的古彝文字識別系統(tǒng)研究[J].云南民族大學(xué)學(xué)報(bào):自然科學(xué)版,2008,17(1):76–79

        [5]朱宗曉,吳顯禮.脫機(jī)印刷體彝族文字識別系統(tǒng)的原理與實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(2):85-88.

        [6]朱龍華,王嘉梅.基于組合特征的多分類器集成的脫機(jī)手寫體彝文字識別[J].云南民族大學(xué);自然科學(xué)版,2010,19(5):329-333.

        [7]沙馬拉毅.計(jì)算機(jī)彝文信息處理[J].涼山大學(xué)學(xué)報(bào),2001,3:4-7.

        [8]Alex Krizhevsky,Ilya Sutskever,Geoffrey E.Hinton.ImageNet Classification with Deep Learning Convolutional Neural Networks.International Conference on Neural Information Processing Systems,2012,60(2):1097-1105.

        猜你喜歡
        印刷體彝文字符識別
        彝文經(jīng)籍《祭龍經(jīng)·祭彩虹經(jīng)》中的敬畏自然觀研究
        西夏文楷書和草書手寫體探微
        淺談小學(xué)英語字母手寫體與印刷體的教學(xué)
        貴州彝文信息技術(shù)研究概述
        中國信息化(2017年8期)2017-11-30 04:02:25
        一種改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識別
        儀表字符識別中的圖像處理算法研究
        高考的時(shí)候,把字寫得像印刷體有用嗎
        基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識別
        黔西彝文文獻(xiàn)中的孝道故事
        漂亮的印刷體
        亚洲avav天堂av在线网毛片| 日韩国产自拍视频在线观看| 精品露脸熟女区一粉嫩av| 人妻仑乱a级毛片免费看| 色先锋资源久久综合5566| 99福利影院| 久久一区二区av毛片国产| 国产日韩精品欧美一区喷水| 国产无遮挡a片又黄又爽| 亚洲精品国产综合久久一线| 国产蜜桃传媒在线观看| 全黄性性激高免费视频| 国产午夜福利精品久久2021| 东京热无码人妻中文字幕| 久久老熟女一区二区三区福利| 特黄熟妇丰满人妻无码| 波多野结衣aⅴ在线| 久久熟女乱一区二区三区四区| 亚洲熟女少妇精品综合| 麻豆影视视频高清在线观看| 99久久综合精品五月天| 亚洲国产av午夜福利精品一区| 婷婷精品国产亚洲av麻豆不片| 无遮挡又黄又刺激又爽的视频| 熟女人妻丰满熟妇啪啪| 国产av剧情精品麻豆| 欧美69久成人做爰视频| 爱a久久片| 日韩精品中文字幕免费人妻| 美女露出自己的性感大胸一尤内衣| 国产女主播喷水视频在线观看 | 狠狠躁夜夜躁人人爽天天不卡| 国产精品一区二区韩国av| 欧美精品亚洲精品日韩专区 | 亚洲综合在不卡在线国产另类| 亚洲国产一区二区三区在线观看| 老熟女毛茸茸浓毛| 国产黑色丝袜在线观看网站91| 亚洲乱码一区二区三区在线观看| 国产精品jizz视频| 亚洲性爱区免费视频一区|