亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BP網(wǎng)絡(luò)的木刻藏文經(jīng)書(shū)文字識(shí)別研究*

        2012-07-25 03:19:00趙棟材
        微處理機(jī) 2012年5期
        關(guān)鍵詞:經(jīng)書(shū)經(jīng)文藏文

        趙棟材

        (西藏大學(xué)藏文信息技術(shù)研究中心,拉薩850000)

        1 引言

        藏文自公元7世紀(jì)創(chuàng)制以來(lái),迄今已有一千三百多年的歷史,目前仍是記錄書(shū)寫(xiě)藏語(yǔ)的文字系統(tǒng)。無(wú)論作為傳承藏民族傳統(tǒng)文化的主要工具,還是作為我國(guó)藏族地區(qū)傳播現(xiàn)代科技知識(shí)的主要工具,有其獨(dú)特的人類(lèi)文化價(jià)值,在藏族地區(qū)所發(fā)揮的巨大作用是不可估量的。千年來(lái)記載了各類(lèi)歷史記載、佛教經(jīng)典編譯,以及各種民間神話傳說(shuō)等。浩如煙海的藏文文獻(xiàn)內(nèi)容廣泛,是我國(guó)除漢文之外,歷史最悠久、文獻(xiàn)最豐富的語(yǔ)言文化遺產(chǎn)。正是由于這樣的原因,歷史文化遺產(chǎn)的數(shù)字化,迫在眉睫。通過(guò)手工錄入去保留這些文化遺產(chǎn)幾乎是不可能的,而文字識(shí)別技術(shù)正是最好的選擇。

        大量的藏文經(jīng)典主要以裝幀的形式,一般文獻(xiàn)呈現(xiàn)長(zhǎng)條體,橫向是書(shū)的寬度,縱向是書(shū)的高度,書(shū)頁(yè)以活頁(yè)方式構(gòu)成,如圖1所示。誦經(jīng)閱讀時(shí),縱向往上翻起。

        木刻藏文經(jīng)書(shū)是雕刻的文字,在不同模板上樣式相同,書(shū)寫(xiě)規(guī)則與標(biāo)準(zhǔn)藏文字完全相同,書(shū)寫(xiě)方向是從左向右,采用縱向疊加的輔音加上元音進(jìn)行組合。但是木刻藏文經(jīng)書(shū)大多為人工篆刻,人為因素干擾嚴(yán)重(見(jiàn)圖2),再通過(guò)特殊的藏紙印刷,加上油墨的干擾,導(dǎo)致木刻藏文經(jīng)書(shū)文中出現(xiàn)字符間粘連、斷裂、遮擋現(xiàn)象,為識(shí)別帶來(lái)極大的困難。

        由于木刻藏文經(jīng)書(shū)的特殊性,僅依靠字符切分、特征提取等方法已不能滿足對(duì)木刻藏文經(jīng)書(shū)的識(shí)別需要。通過(guò)研究發(fā)現(xiàn),增加基于BP網(wǎng)絡(luò)的訓(xùn)練方法,有助于提高木刻藏文經(jīng)書(shū)的文字識(shí)別正確率。

        圖1 木刻經(jīng)文樣式

        圖2 干擾嚴(yán)重的經(jīng)文字

        2 BP網(wǎng)絡(luò)算法描述

        2.1 木刻經(jīng)文文字識(shí)別的系統(tǒng)流程

        木刻經(jīng)文文字識(shí)別的整體設(shè)計(jì)流程為如圖3所示。

        圖3 木刻藏文經(jīng)書(shū)文字識(shí)別流程

        整體識(shí)別中主要算法有二值化、去除噪音、切分、歸一化、特征提取、人工神經(jīng)網(wǎng)絡(luò)算法。特征提取與人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練相同,區(qū)別在于:

        (1)當(dāng)識(shí)別結(jié)果與用戶實(shí)際選擇的結(jié)果不同時(shí),調(diào)用人工神經(jīng)網(wǎng)絡(luò)算法,進(jìn)行訓(xùn)練,收斂結(jié)果,然后修正保存的數(shù)據(jù),以實(shí)現(xiàn)下步識(shí)別再遇到這個(gè)經(jīng)文單元時(shí),能夠正確識(shí)別,提高識(shí)別率。

        (2)識(shí)別處理采用一種加權(quán)誤差均衡距離,定義兩個(gè)特征矢量X,Y的距離函數(shù)為:

        σ是方差,ε為10,α為8。序列中距離f最小的結(jié)果為最后識(shí)別出的結(jié)果字符。

        2.2 BP網(wǎng)絡(luò)訓(xùn)練

        木刻經(jīng)文樣式、種類(lèi)繁多,在進(jìn)行特征提取過(guò)程中會(huì)對(duì)同一個(gè)字在不同印版的經(jīng)書(shū)中提取不同的樣本,這樣每個(gè)經(jīng)文字就對(duì)應(yīng)了不同的經(jīng)文樣本,如圖4所示兩個(gè)一樣的經(jīng)文字,但其樣式不同。

        圖4 2個(gè)木刻藏文樣本字

        在采用彈性網(wǎng)格特征提取后,每個(gè)樣本形成了308維的特征數(shù)據(jù),共計(jì)308×2=616維數(shù)據(jù),如果全部保存并參與運(yùn)算,則會(huì)導(dǎo)致整體識(shí)別的運(yùn)算效率大大降低,也不能真正應(yīng)用到實(shí)際識(shí)別過(guò)程中。這樣就需要一套訓(xùn)練算法對(duì)這些數(shù)據(jù)進(jìn)行訓(xùn)練,整合所有樣本,獲取多種樣本共性的數(shù)據(jù),更好的提高系統(tǒng)的魯棒性。本項(xiàng)目通過(guò)研究各種參考資料,最后確定采用基于人工神經(jīng)網(wǎng)絡(luò)的改進(jìn)的BP算法對(duì)整個(gè)樣本進(jìn)行訓(xùn)練,以便得出魯棒性更強(qiáng)的、服務(wù)于識(shí)別的矢量數(shù)據(jù)。

        人工神經(jīng)網(wǎng)絡(luò)具有良好的容錯(cuò)能力和自我學(xué)習(xí)能力,較傳統(tǒng)識(shí)別技術(shù)有一定的優(yōu)勢(shì),對(duì)于干擾復(fù)雜、識(shí)別難度大的經(jīng)文識(shí)別系統(tǒng),其應(yīng)用會(huì)有效提高識(shí)別率和識(shí)別效率。

        BP算法是神經(jīng)網(wǎng)絡(luò)技術(shù)中的典型算法,即向前計(jì)算-誤差反向傳播算法,采用廣義的δ學(xué)習(xí)規(guī)則,是一種有導(dǎo)師的學(xué)習(xí)算法。其工作過(guò)程分兩個(gè)階段:

        第一階段正向傳播階段,將樣本導(dǎo)入輸入層,計(jì)算權(quán)重,然后將信息傳到隱含層(可以多層)繼續(xù)計(jì)算輸出值和期望值,最后傳入輸出層。

        第二階段反向傳播階段,將網(wǎng)絡(luò)的實(shí)際輸出與期望輸出相比較,如果誤差不滿足要求,將誤差向后傳播,即從輸出層到輸入層逐層求其誤差(實(shí)際上是等效誤差),然后相應(yīng)地修改權(quán)值。

        其算法的執(zhí)行如下:

        設(shè) X1,X2,...,Xn是神經(jīng)元的輸入,θi是 Xi的閥值,Wij是Xi的權(quán)系數(shù);Yi是Xi的輸出,f是激發(fā)函數(shù),e是誤差函數(shù);

        (1)輸入一個(gè)樣本集,并進(jìn)行編碼,同時(shí)給定理想的輸出信號(hào)Ti;

        (2)設(shè)定權(quán)系數(shù)Wij,對(duì)各層的權(quán)系數(shù)置一個(gè)較小的非零隨機(jī)數(shù);

        (3)計(jì)算各層的輸出;

        對(duì)于任意節(jié)點(diǎn)j,輸出計(jì)算步驟為:

        其中Uj是加權(quán)后的輸入與節(jié)點(diǎn)閾值的總和;θj是節(jié)點(diǎn)j的閾值;網(wǎng)絡(luò)中節(jié)點(diǎn)非線性的傳輸關(guān)系采用Sigmoid函數(shù)。

        (4)求各層的學(xué)習(xí)誤差:

        (5)誤差反向傳播,修正權(quán)值和閾值,從輸出節(jié)點(diǎn)開(kāi)始逐步向前遞推,直到第一層,基于梯度下降法得:

        至此樣本計(jì)算完成。BP算法雖然可以很精確地實(shí)現(xiàn)函數(shù)的逼近和模式的分類(lèi),但是從本質(zhì)上講,BP算法仍然是一種梯度算法,不可避免地存在一定問(wèn)題,改變精度要求 ,將影響B(tài)P算法的計(jì)算次數(shù),降低運(yùn)算效率,不同樣本有的收斂快,有的運(yùn)算量大,不同學(xué)習(xí)速率也會(huì)影響運(yùn)算效率等,因此在處理過(guò)程中需要對(duì)算法進(jìn)行改進(jìn)。

        2.2.1 隱層單元數(shù)的選擇

        隱層單元數(shù)目k是應(yīng)用BP算法的關(guān)鍵因素之一,k過(guò)小不能很好的收斂,過(guò)大則降低運(yùn)算效率,也會(huì)產(chǎn)生多余特征,減低容錯(cuò)率。經(jīng)過(guò)試驗(yàn)測(cè)試,BP算法隱層設(shè)定為兩個(gè)隱層,隱層單元數(shù)采用兩種數(shù)據(jù)處理,先取較大的k訓(xùn)練,然后取較小k,比對(duì)后去掉不起作用的隱層單元,具體表達(dá)式為:

        2.2.2 平滑更新權(quán)值

        系統(tǒng)經(jīng)過(guò)訓(xùn)練之后,得到新的經(jīng)文單元數(shù)據(jù),數(shù)據(jù)格式為:

        保存所有單元數(shù)據(jù),用于為識(shí)別系統(tǒng)提供數(shù)據(jù)基礎(chǔ)。

        經(jīng)文字的神經(jīng)網(wǎng)絡(luò)訓(xùn)練效果如圖5,其下方數(shù)據(jù)圖6為其對(duì)應(yīng)藏經(jīng)文字的特征提取數(shù)據(jù)中的288維網(wǎng)格數(shù)據(jù)。圖7為提取后與原數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練后更新的288維網(wǎng)格數(shù)據(jù)。

        3 實(shí)驗(yàn)結(jié)果

        木刻藏文經(jīng)書(shū)文字識(shí)別界面如圖8所示。實(shí)驗(yàn)共收集經(jīng)書(shū)單個(gè)單元樣本1643個(gè),訓(xùn)練1643,通過(guò)批量樣本測(cè)試程序測(cè)試,正常干擾情況下識(shí)別率為92.45%,嚴(yán)重干擾情況下識(shí)別率71.23%。

        4 結(jié)束語(yǔ)

        在字符切分、特征提取等文字識(shí)別方法基礎(chǔ)上,提出基于BP網(wǎng)絡(luò)訓(xùn)練方法的木刻藏文經(jīng)書(shū)文字識(shí)別解決方案,基本實(shí)現(xiàn)了普通干擾情況下木刻經(jīng)文識(shí)別率90%以上。當(dāng)然,木刻經(jīng)文由于干擾嚴(yán)重、印版斷裂、字符粘連等情況導(dǎo)致識(shí)別難度特別大,現(xiàn)有的國(guó)際國(guó)內(nèi)相關(guān)產(chǎn)品和資料都沒(méi)有很好的方法予以解決,需要進(jìn)一步的研究和試驗(yàn),以更好的提高木刻藏文經(jīng)書(shū)的文字識(shí)別率。

        [1] 范立南,韓曉微.圖像處理與模式識(shí)別[M].北京:科學(xué)出版社,2007.

        [2] 吳佑壽,丁曉青.漢字識(shí)別-原理方法與實(shí)現(xiàn)[M].北京:高等教育出版社,1993.

        [3] 李弼程,邵美珍,黃潔.模式識(shí)別原理與應(yīng)用[M].西安:西安電子科技大學(xué)出版社,2008.

        [4] 王勇,鄭輝,胡德文.圖像和視頻中的文字獲取技術(shù)[J].中國(guó)圖像圖形學(xué)報(bào),2004,9(5):532-538.

        [5] 馮宇平,戴明.一種基于角點(diǎn)特征的圖像拼接融合算法[J].微電子與計(jì)算機(jī),2009,26(7):21-28.

        [6] 普次仁.多種印刷字體藏文字符的特征提取方法研究[J].西藏大學(xué)學(xué)報(bào),2008,23(1):25-28.

        [7] 王維蘭.藏文基本字符識(shí)別算法研究[J].西北民族學(xué)院學(xué)報(bào),1999,20(3):20-23.

        [8] 王浩軍,趙南元,鄧鋼鐵.藏文識(shí)別的預(yù)處理[J].計(jì)算機(jī)工程,2001,27(9):93-96.

        [9] 王維蘭,丁曉青,祁坤鈺.藏文識(shí)別中相似字丁的區(qū)分研究[J].中文信息學(xué)報(bào),2002,16(4):60-65.

        [10] 李永忠,王玉雷,劉真真.藏文印刷體字符識(shí)別技術(shù)研究[J].南京大學(xué)學(xué)報(bào),2012,48(1):55-62.

        [11] Ngodrup,ZHAO Dong cai.Research on wooden blocked Tibetan character segmentation based on drop penetration algorithm[C].CCPR 2010 Proceedings.IEEE Computer Society.2010:84-88.

        [12] Ngodrup,ZHAO Dong cai,Putsren,Daluosanglangjie,LIU Fang,Bianbawangdui.Study on printed Tibetan character recognition[C].AICI 2010 Proceedings.IEEE Computer Society.2010:280-285.

        猜你喜歡
        經(jīng)書(shū)經(jīng)文藏文
        經(jīng)文
        寶藏(2021年11期)2021-12-01 22:47:26
        蓋經(jīng)文:一個(gè)基層人大代表的日常故事
        金橋(2020年11期)2020-12-14 07:52:54
        西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
        布達(dá)拉(2020年3期)2020-04-13 10:00:07
        《天演論》初版時(shí)間再探——以新近發(fā)現(xiàn)的“味經(jīng)書(shū)屋本”為中心
        天一閣文叢(2019年0期)2019-11-25 01:32:12
        《圣經(jīng)》經(jīng)文中國(guó)化
        喜訊
        黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
        西夏學(xué)(2019年1期)2019-02-10 06:22:34
        黑城本《彌勒上生經(jīng)講經(jīng)文》為詞曲作品說(shuō)
        單寶塔詩(shī)
        藏文音節(jié)字的頻次統(tǒng)計(jì)
        白白色日韩免费在线观看| 永久免费视频网站在线| 网红尤物泛滥白浆正在播放| 日韩亚洲在线观看视频| 亚洲av高清不卡免费在线| 日韩精品一区二区三区人妻在线| 国产区女主播在线观看| 免费人成小说在线观看网站| 午夜福利理论片高清在线观看| 成年午夜无码av片在线观看| 国产一区二区三区爆白浆| 中文少妇一区二区三区| 18禁成人免费av大片一区| 亚州无吗一区二区三区| 国内少妇毛片视频| 国产精品中文久久久久久久| 人妻聚色窝窝人体www一区| 色偷偷av男人的天堂| 欧美性受xxxx黑人xyx性爽| 国产颜射视频在线播放| 精品老熟女一区二区三区在线| 一边摸一边抽搐一进一出视频| 少妇高潮无套内谢麻豆传| 久久人人妻人人做人人爽| 久久青草国产免费观看| 热综合一本伊人久久精品| 国产一级一级内射视频| 久久国产精品99精品国产| 国产suv精品一区二人妻| 亚洲欧美精品伊人久久| 中国老太老肥熟女视频| 一本大道久久a久久综合精品| 性欧美长视频免费观看不卡| 青草视频在线播放| 国产欧美日韩专区毛茸茸| 亚洲一区二区三在线播放| 精品国产精品久久一区免费| 久久精品国产亚洲av麻豆瑜伽| 在线亚洲高清揄拍自拍一品区| 欧美疯狂做受xxxx高潮小说| 亚洲无码图|