亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        圖像背景下的滿文文字提取

        2014-02-08 05:43:12朱滿瓊崔艷秋叢碧輝
        大連民族大學(xué)學(xué)報 2014年1期
        關(guān)鍵詞:生長

        朱滿瓊,李 敏,許 爽,崔艷秋,叢碧輝

        (1.北方民族大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,寧夏銀川 750021;2.大連民族學(xué)院a.理學(xué)院,b.信息與通信工程學(xué)院c.計算機科學(xué)與工程學(xué)院,遼寧大連 116605)

        滿族作為曾經(jīng)的統(tǒng)治階級,大量涉及政治、文 化、經(jīng)濟、軍事、外交、天文等各個方面的資料都是用滿文記載的,具有很高的史料價值。如果滿語消失,那么這些史料也失去了它的價值。而現(xiàn)在全國會說滿語的人很少,精通滿語的人更是少之又少,因此,研究滿文識別系統(tǒng)對保護清代文化遺產(chǎn)來說顯得尤為重要。同時,對其他阿爾泰系語言的掃描識別,尤其對蒙古文和錫伯文的識別研究也有很大的貢獻。而滿文文字的提取又是滿文識別系統(tǒng)的關(guān)鍵步驟,因此做好滿文文字的提取工作顯得尤為重要。

        隨著計算機技術(shù)、多媒體技術(shù)和通信技術(shù)的飛速發(fā)展,以圖像、音頻和視頻為主的多媒體信息正在迅速成為信息交流與服務(wù)的主流。而圖像中的文字也反映了該圖像的部分重要內(nèi)容[1]。要正確的識別圖像中的文字,關(guān)鍵就是要準確的提取出圖像中的文字。而對滿文文字進行正確的提取是提高滿文文字的識別率一個重要環(huán)節(jié),本文主要研究采用筆畫生長法進行圖像背景下的滿文文字的提取方法。

        1 滿文文字筆畫提取系統(tǒng)結(jié)構(gòu)

        圖1給出了圖像背景下滿文文字提取框圖。

        圖1 滿文文字筆畫提取框架圖

        由圖1可知,輸入圖像后,通過對像素點的灰度值分析進行行列劃分提取滿文單字。將提取到的滿文單字二值化,然后進行包括去噪、細化、剪枝等預(yù)處理操作,最后對預(yù)處理后的單字進行筆畫提取。

        2 圖像背景下滿文文字的提取

        首先讀取滿文文字圖像,如圖2(a)。由于圖像是彩色圖像,首先要進行灰度轉(zhuǎn)化,將彩色圖像轉(zhuǎn)換為灰度圖像,為了更好的進行分割,本文采用的辦法是將圖像增強[2],拉伸對比度,然后通過迭代法求出閾值,將圖像進行行列分割,提取出單個滿文文字,為下一步的預(yù)處理做準備。

        2.1 預(yù)處理

        預(yù)處理是整個系統(tǒng)中重要的一環(huán),它把原始圖像轉(zhuǎn)換成識別器能夠接受的形式,消除一些與類別無關(guān)的因素,從而更有利于筆畫的提取。對比度拉伸后的單字圖像如圖2(b)。從圖像中可以看出這個滿文單字有陰影,因此首先應(yīng)該將陰影去掉。本文的做法是先找到每一行中第一個像素值不為0的像素點和最后一個像素值不為0的像素點,然后將第一個不為0的像素點和最后一個不為0的像素點之間的像素值放在一個新的矩陣中,如圖2(c)。然后將圖像灰度值的算術(shù)平均值作為新的閾值,將灰度值大于閾值的像素值置為255,將灰度值小于閾值的像素值置為0,最后將圖像二值化,如圖2(d)。

        接下來只需要對滿文單字進行預(yù)處理,將字周圍的噪聲去掉即可。預(yù)處理主要完成去噪、細化和剪枝的工作。具體過程如下:

        (1)去噪。由于滿文文字在主軸左側(cè)的細節(jié)特征較多,右側(cè)細節(jié)特征較少,本文采用形態(tài)學(xué)圖像處理濾去噪聲[3-4]。首先設(shè)定一個結(jié)構(gòu)元素,通過實驗發(fā)現(xiàn)用1×2的矩形結(jié)構(gòu)元素的效果最好。用該結(jié)構(gòu)元素腐蝕滿文單字,然后對腐蝕過的圖像進行閉運算,但是從圖像看沒有達到理想的效果,因此針對不理想的地方再進行腐蝕處理,根據(jù)需要可以設(shè)定新的結(jié)構(gòu)元素。經(jīng)過形態(tài)學(xué)濾波處理將噪聲去掉,如圖3(a)。

        (2)骨骼化。經(jīng)過噪聲處理之后需要將滿文單字細化[5]。由于細化會將文字細化成環(huán)形,改變了原有的形狀,因此本文采用骨骼化的方法,骨骼化后仍保留原始對象形狀的重要信息,如圖3(b)。

        (3)修剪。由于骨骼化通常會產(chǎn)生無關(guān)的“毛刺”或寄生成分,修剪就可以去掉這些“毛刺”,在這里進行一次修剪即可,如圖3(c)。

        盡管滿文也是由字母組成,但它不像英文單詞的字母之間界限的很清晰,滿文文字的字母與字母之間沒有空隙,而且不同的字母在不同的位置有不同的寫法,這就使得滿文筆畫的劃分十分的困難。

        對此,本文采用基于筆畫基元的劃分方法,通過分析發(fā)現(xiàn),滿文大多為豎寫體,字體結(jié)構(gòu)為左右結(jié)構(gòu),因此每個滿文文字都有一條主軸作為主干,所有的筆畫都以主軸為中心向外擴展。在主軸左側(cè)并與主軸相連的筆畫稱為左連接筆畫,不相連的稱主左游離筆畫;在主軸右側(cè)并與主軸相連的筆畫稱為右連接筆畫,不相連的稱為右游離筆畫。這樣,筆畫就被分為四類,分別是左連接筆畫、右連接筆畫、左游離筆畫和右游離筆畫[6]。

        2.2 提取主軸

        預(yù)處理完成后,對提取到的文字進行行列掃描,找到有效像素點最多的一列作為主軸,如圖3(d),中間最長的一列就是主軸。為了減少由于書寫原因或者圖像采集過程中導(dǎo)致的主軸位移,本文對主軸向左向右進行水平擴展,擴展寬度為提取文字寬度的十分之一。

        2.3 筆畫分類

        文字細化后像素點可以分為以下類別:

        (1)臨界點。已經(jīng)找到了主軸的邊界,在邊界上逐行掃描找到像素值不為零的點,然后將其儲存起來就得到了臨界點。根據(jù)相交邊界的不同又分為左臨界點和右臨界點。

        (2)內(nèi)部點。對預(yù)處理后的單字逐行掃描,若該點的像素值為1并且其八鄰域像素值的和為2,那么將該點存儲起來,直到掃描完成為止,即Bx=2且Rx=1。根據(jù)邊界所劃分的區(qū)域,把內(nèi)部點分為邊界外的內(nèi)部點和邊界內(nèi)的內(nèi)部點。

        其中i,j為當前像素值所在位置,img為預(yù)處理后的圖像,Bx表示當前像素值的八鄰域像素和,Rx為當前像素值。

        (3)交叉點。如果掃描到有效像素點并且該點的8鄰域的有效像素值的和大于2,即Bx>2且Rx=1,那么該點即為交叉點。

        (4)終止點。如果掃描到有效像素點并且該點的8鄰域的有效像素值的和為1,即Bx=1且Rx=1,那么該點即為終止點。

        2.4 筆畫生長

        在滿文文字的像素點被分類后,采用筆畫生長法進行文字筆畫提?。?]。在運用筆畫生長法的時候要注意種子像素、生長準則和生長停止準則的確定。具體步驟如下:

        (1)首先生成一個與原圖像同樣大小的零矩陣,并在其中生成主軸,然后對其進行反色處理。先將左臨界點中第一個邊界點作為種子點進行生長。

        (2)根據(jù)左臨界點周圍像素值的大小設(shè)定一個閾值,由于圖像已經(jīng)被二值化處理,因此本文設(shè)定的閾值為0。將符合區(qū)域生長條件的點的初始個數(shù)設(shè)為1,對與臨界點鄰接的左邊的有效像素點進行跟蹤,如果跟蹤得到的像素點的像素值與該臨界點的像素值的差小于設(shè)定的閾值,那么將該跟蹤點列為有效點,以新得到的像素點為種子繼續(xù)生長;若大于該閾值,則生長停止。

        (3)跟蹤結(jié)束后,將得到的所有有效像素點進行集合就得到了由生長構(gòu)成的筆畫。

        (4)然后依次掃描左邊界上的其它臨界點就得到了相應(yīng)的連接筆畫。同樣的方法對右臨界點掃描。由左臨界點生長得到的筆畫為左連接筆畫,由右臨界點生長得到的筆畫稱為右連接筆畫。如果不同臨界點在邊界外有重合的像素,那么合并這兩個臨界點生長的筆畫集合。

        這樣,脫機手寫滿文文字的筆畫就被提取了出來,提取過程如圖4(a)—(i)。

        圖4 滿文文字筆畫生長提取過程

        2.5 實驗

        為了驗證筆畫生長法在文字提取上的效果,本文對含有手寫體滿文的圖像進行文字提取。圖像中一共有500個不含游離筆畫的手寫體滿文,經(jīng)過預(yù)處理后采用筆畫生長法進行文字提取,可以將這500個滿文都提取出來,提取率達到100%,如圖5中,(a)為手寫體原圖像,(b)為手寫體滿文主軸定位,(c)為經(jīng)過筆畫生長提取到的文字,可以看出準確率較高;用筆畫生長法對一幅含有300個印刷體滿文文字的圖像進行文字提取,同樣提取率達到100%。如圖6,(a)為印刷體原圖像,(b)為定位主軸定位,(c)為經(jīng)筆畫生長提取的文字。從實驗結(jié)果可以看出筆畫生長法對于滿文文字的提取是有效的。

        圖5 手寫體滿文提取

        圖6 印刷體滿文提取

        3 結(jié)語

        本文采用筆畫生長法對手寫體滿文、印刷體滿文和彩色圖像背景下的滿文文字進行提取,采用數(shù)字圖像處理的方法對圖像進行預(yù)處理,通過膨脹和腐蝕達到去噪的效果,對去噪后的圖像進行細化和剪枝。然后提取文字的主軸,在主軸上找到筆畫生長的種子點即臨界點,最后根據(jù)筆畫生長法提取筆畫,從而達到文字提取的目的。實驗證明該方法能夠準確的將彩色圖像中的滿文文字提取出來,是一個很好的文字提取方法,從而為滿文文字的識別打好基礎(chǔ)。

        [1]聞京,張凌,袁華.一種復(fù)雜背景圖像中文字區(qū)域提取算法[J].中山大學(xué)學(xué)報:自然科學(xué)版,2008,47(Z1):5-10.

        [2]王志瑞,閆彩良.圖像特征提取方法綜述[J].吉首大學(xué)學(xué)報:自然科學(xué)版,2011(05):43-47.

        [3]武瑛.形態(tài)學(xué)圖像處理中的應(yīng)用[J].計算機與現(xiàn)代化,2013(5):90-94.

        [4]GONZALEZ R C,WOODS R E,EDDINS S L.數(shù)字圖像處理[M].阮秋琦,譯.北京:電子工業(yè)出版社,2005.

        [5]王嘉梅,文永華,李燕青,等.基于圖像分割的古彝文字識別系統(tǒng)研究[J].云南民族大學(xué)學(xué)報:自然科學(xué)版,2008(01):76-79.

        [6]張廣淵,李晶皎,王愛俠.脫機手寫滿文筆畫基元的提取與識別[J].計算機工程,2007(22):200-202.

        [7]陳方昕.基于區(qū)域生長法的圖像分割技術(shù)[J].科技信息:科學(xué)教研,2008(15):58 -59.

        (責任編輯 劉敏)

        猜你喜歡
        生長
        野蠻生長
        碗蓮生長記
        小讀者(2021年2期)2021-03-29 05:03:48
        生長的樹
        自由生長的家
        美是不斷生長的
        快速生長劑
        共享出行不再“野蠻生長”
        生長在哪里的啟示
        華人時刊(2019年13期)2019-11-17 14:59:54
        野蠻生長
        NBA特刊(2018年21期)2018-11-24 02:48:04
        生長
        文苑(2018年22期)2018-11-19 02:54:14
        丰满爆乳在线播放| 免费看片的网站国产亚洲| 日韩av毛片在线观看 | 无码区a∨视频体验区30秒| 国产成人精品成人a在线观看| 亚洲是图一区二区视频| 国产精品三级在线不卡| 精品无码人妻夜人多侵犯18| 丰满多毛的大隂户视频| 天天干夜夜躁| 亚洲一区二区日韩精品| 18国产精品白浆在线观看免费 | 亚洲av无码专区首页| 久久国产亚洲精品超碰热| 男女啪啪免费视频网址| 久久精品国产成人午夜福利| 激情偷乱人成视频在线观看| 国产在线视频国产永久视频| 91精品蜜桃熟女一区二区| 搡女人真爽免费视频大全| 免费xxx在线观看| 欧美在线成人免费国产| 一区二区三区日韩蜜桃| 扒开腿狂躁女人爽出白浆| 波多野结衣免费一区视频| 亚洲高清一区二区三区在线观看| 不卡一区二区三区国产| 国产成人精品a视频| 精品国产福利一区二区在线| 精品亚洲视频免费观看网站| 国产精品国产三级第一集| 自拍偷自拍亚洲精品情侣| 日韩亚洲国产av自拍| 亚洲精品中文字幕不卡| 精品无码av一区二区三区| 99国产超薄丝袜足j在线观看| 日韩色久悠悠婷婷综合| 亚洲日韩成人无码| 日日碰狠狠躁久久躁96avv| 国产激情一区二区三区在线蜜臀| 国产自拍成人免费视频|