亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于連體段的維吾爾文單詞特征提取方法?

        2015-11-02 06:57:20蘇佩佩哈力木拉提買買提艾爾肯賽甫丁王劍
        關(guān)鍵詞:特征向量輪廓特征提取

        蘇佩佩,哈力木拉提買買提,艾爾肯賽甫丁,王劍

        (新疆大學(xué) 信息科學(xué)與工程學(xué)院;多語種信息技術(shù)重點實驗室,新疆烏魯木齊 830046)

        0 引言

        維吾爾文字符識別在預(yù)處理后,首先要進行字符切分,把單個的字母切分出來,再對單個的字母進行特征提取,這樣需要考慮字符的切分準(zhǔn)確率,同時要考慮切分過程中出現(xiàn)的粘連和錯切的情況,這些都是很繁瑣的工作.為避免這些問題,本文選擇了放棄字符切分的部分,對整個單詞直接進行特征提取.

        文字字符識別一般要求特征維度小,并且盡量保證不同字符的特征差別大.特征維度小能減少很多繁瑣的工作,同時提高識別的準(zhǔn)確率和速度.但是現(xiàn)實中字符識別往往是維度小、特征差別小且識別準(zhǔn)確率低.為了提高識別率,傳統(tǒng)方法選擇高維度,但是這樣降低了識別速度,加大了計算量.所以目前急需一種實現(xiàn)小維度高識別率的方法.

        本文研究對維吾爾文整個單詞識別的方法,即減少了字符識別這一過程,同時也省去字符切分和單個字符識別后再整合成單詞識別的工作.這個過程大大減少了特征提取和識別的計算量,同時要求也更高.它要求所提取的特征能很好的識別整個單詞,通過單詞特征的唯一性來達到識別的目的.這里我們采取的是輪廓特征作為主要特征,每個單詞都有其對應(yīng)的基線[3]域,并且單詞都是由幾個連體段構(gòu)成,連體段又由幾個字符組成.根據(jù)基線域,我們把輪廓特征分成三部分,基線上的輪廓特征、基線中的輪廓特征和基線下的輪廓特征.基線上的輪廓特征和基線下的輪廓特征描述的是單詞輪廓的外輪廓,即點輪廓.基線中的輪廓特征描述的是內(nèi)輪廓,也就是孔輪廓,此方法能很好的解決低維度、識別效果差的缺陷.

        維吾爾文單詞由一些連體段組成,而連體段則由單個的字符組成,所以要對單詞進行特征提取,首先要對連體段進行提取,本文講述了連體段的劃分、輪廓特征提取,以及需要涉及到的一些圖像處理技術(shù).

        1 連體段以及單詞的劃分和輪廓的獲取

        圖1 連體段的矩形圖

        從圖中看出,一個單詞由幾個連體段組成,并且每個連體段之間有一定的間距,每個單詞之間也有一定間距,可以根據(jù)間距的大小來區(qū)分單詞和連體段.通過水平投影和垂直投影得到連體段的四個坐標(biāo)點,畫出其對應(yīng)的矩形就可以得到如圖所示的矩形,將連體段劃分出來.

        1.1 圖像水平投影和垂直投影

        水平投影就是把圖像投影到X軸上所組成的的圖像,我們對要進行投影的圖像,根據(jù)先行后列的方式掃描,如果發(fā)現(xiàn)該點為黑點,則把該點投影到該行的最左邊,依次累加.而原來的像素點就不存在了,或者變成白點像素,直至掃描完所有的圖像,則水平投影就完成了,它最終的圖像是二值化圖像.在對圖像進行水平投影之前,先要對文檔圖形進行文本行的提取.

        對整幅圖像進行水平投影后,發(fā)現(xiàn)每個文本行的水平投影圖都是有間距的.我們可以根據(jù)這些間距來判斷文本行的高度值,確定它的起始點和高度值.由于文本行的寬度和整幅圖像的寬度是一致的,這樣就得到了本文行的四個坐標(biāo)點,然后我們對圖像進行感興趣區(qū)域的劃分,就能把文本行提取出來,如圖2所示.

        圖2 一個帶基線的文本行

        從圖中可以看出,對于每個文本行來說,可以求出其基線,然后求出傾斜角,為圖像的預(yù)處理做鋪墊.每個文本行都有自己的水平投影圖和垂直投影圖,通過對文本行的投影得到對應(yīng)的連體段和單詞.同樣,對文本行進行垂直投影,也發(fā)現(xiàn)每個單詞、每個連體段都有間距,根據(jù)間距得到連體段的水平寬度、水平起始點和寬度,然后結(jié)合文本行的高度,對連體段進行掃描,進行水平投影,就可以得到連體段的高度起始點和高度值,根據(jù)這四個坐標(biāo)點就能得到連體段的區(qū)域.對文本行進行水平投影如圖3所示.

        從圖中可以看出,文本行的水平投影圖上下之間有一定的間距,根據(jù)這個間距可以劃分開文本行,唯一不足的地方就是,對其水平投影是需要對其圖像進行掃描,掃描針對每個像素點,不可避免的加大了計算量.

        圖3 文本行水平投影圖

        垂直投影就是把圖像投影到Y(jié)軸上所組成的的圖像.我們對要進行投影的圖像,根據(jù)先列后行的方式掃描,如果發(fā)現(xiàn)該點為黑點,則把該點投影到該列的最下邊,依次累加.原來的像素點就不存在了,或者變成白點像素,直至掃描完所有的圖像,則垂直投影就完成了,它最終的圖像也是二值化圖像.同樣的,在對圖像進行垂直投影之前,先要對文檔圖形進行本文行的提取,文本行圖像進行垂直投影后,發(fā)現(xiàn)本文行的垂直投影圖都是有間距的,我們可以根據(jù)這些間距來判斷文本行連體段的水平值、起始點和寬度值,如圖4所示.

        圖4 本行的垂直投影圖

        從圖中可以看出,文本行中的連體段在垂直投影后會有一定的間距.可以根據(jù)這個間距得到連體段水平位置的起點和終點,對文本行進行垂直投影,發(fā)現(xiàn)間距有大有小,其中間距大的是單詞間的間距,間距小的是連體段間的間距.有一個臨界值,大于等于這個臨界值就是單詞間的距離,小于的自然就是連體段間的距離.我們在對單詞進行特征提取之前,也要根據(jù)這些特點進行單詞間的劃分.

        1.2 單詞劃分

        對于單詞的劃分,也是用水平投影和垂直投影分別得到單詞的高度起始點、高度值、水平起始點和寬度值,然后根據(jù)這四個值來進行單詞的劃分.事實上連體段之間的間距小于單詞之間的間距,在掃描本文行的時候判斷字符之間的間距是否大于這個單詞之間的最小值,如果大于則是單詞的區(qū)分,如果小于就是連體段的區(qū)分.在單詞的統(tǒng)計中要記錄下它有多少個連體段組成,把每個連體段的特征要區(qū)分開,那么幾個連體段也就成了單詞的特征,把所有特征組合成一個特征向量,這個向量就是這個單詞的主特征向量.如圖5所示,顯示了單詞劃分的圖示,利用矩陣記錄單詞的四個坐標(biāo)點,以此來定位單詞的位置,同時記錄所有單詞編號,把具有相同特征的單詞編號放到一起,便于實驗結(jié)果統(tǒng)計.

        圖5 部分單詞劃分圖

        這些特征相同的編號表示的單詞可能是同一個單詞,也可能是不同的單詞.這里也會出現(xiàn)在連體段劃分過程中出現(xiàn)的劃分區(qū)間過大、劃分空白、劃分重復(fù)等情況.如圖6所示,展示了單詞錯分的示意圖.

        1.3 輪廓的提取

        圖6 部分單詞錯分圖

        輪廓[1]就是一系列的點,這些點代表圖像的邊界點,形成了一條曲線.根據(jù)不同的方法這些曲線的形成也會不一樣,但都是存儲圖像的輪廓信息.輪廓有外輪廓和內(nèi)輪廓之分,外輪廓就是外面邊界的曲線,內(nèi)輪廓就是圖像里面邊界的曲線,俗稱孔,有孔的地方就會有內(nèi)輪廓.在識別過程中,要先把感興趣的區(qū)域目標(biāo)提出來,然后通過顏色紋理提取目標(biāo)的前景圖,在根據(jù)前景圖進一步把目標(biāo)輪廓提出來,這就是目標(biāo)輪廓的提取.對于連體段來說圖像區(qū)域存在孔,就是內(nèi)邊界,形成的輪廓就是內(nèi)輪廓,如圖7所示.而外面的點或者其它形狀圖像都只有外輪廓.區(qū)域的邊界提取和外輪廓的跟蹤是為提取圖像的邊界特征做鋪墊.

        圖7 單詞的輪廓示意圖

        輪廓跟蹤是對某一像素點根據(jù)某一跟蹤原則確定下個像素點的過程.二值圖像的輪廓跟蹤大致步驟如下:

        1)定義數(shù)組director[]用于存儲相鄰像素間的方位,數(shù)組可以取值:右,右上,上,左上,左,左下,下,右下;定義邊界點存儲數(shù)組edge[].

        2)先行后列順序掃描字符圖像塊,找到第一個值為0的點,它是最右上方的邊界點,記為a.

        3)以a為起始點,檢查a的director[k]方向的下一個像素點的值,k=0,1,2,3,4,5,6,7.檢查8個方向的像素值,如果有一個為255,則它是邊界點,如果有多個255,則有多個邊界點,并將該點存入邊界數(shù)組edge[k]內(nèi),同時記錄序號k按director[k]數(shù)組值的方向第一個從0到255的順序,則director[k]方向的像素點將作為下一個搜尋的點.

        4)如果搜索到點返回到a點,則結(jié)束該過程.

        2 連體段特征提取

        2.1 特征概述

        鑒于維吾爾文的字符有很多的特征,例如輪廓、Freeman鏈碼[9]、Hu矩、面積、周長等等,相應(yīng)的就有特征向量用于存儲這些特征.也有主特征和輔助特征,重點在于主特征的分析上,不同的特征對于不同的字符有不同的效果.有時候為了識別出字符的唯一性,不得不啟用很多的特征,但是這樣增加了計算量,也影響了速度.為此對于整個單詞的識別我們要盡量少選一些特征,對連體段的特征進行分析整理,找出便于識別的最佳的特征組合.不同的特征之間的組合特征會有很多的差異,找出合適的組合就能有意想不到的效果,但是這個工作需要很多的嘗試和測試.本文采用了連體段的輪廓作為主要的特征,再輔以其它的特征,對單詞進行識別.

        特征一般分為物理、結(jié)構(gòu)、數(shù)學(xué)三種,也可以分為局部特征、全局特征和結(jié)構(gòu)特征.不同特征適合不同的地方.對于連體段特征一般要求:具有較高的區(qū)分能力、高穩(wěn)定性、高效率、高速度、計算量少等等.同時特征向量盡可能少,特征越多,計算量越復(fù)雜,往往在實際的應(yīng)用差強人意,為此應(yīng)該結(jié)合實際需求和程序可行性,找出高效的特征.

        2.2 連體段特征提取

        前面介紹連體段的劃分,同時通過基線的直線擬合,求出該連體段的基線域,再找出該連體段的輪廓.基線中的孔記為內(nèi)輪廓,基線域上的點或者其它形式的部分稱為基線上的外輪廓,基線域下的點或者其它形式的部分稱為基線下的外輪廓.對于每個連體段來說,都有自己的內(nèi)輪廓和基線域上外輪廓以及基線域下外輪廓.對連體段中輪廓進行分析,包括基線域上的外輪廓個數(shù)、基線域中的內(nèi)輪廓個數(shù)以及基線域下的外輪廓個數(shù).本文利用字符串Sa1a2a3來保存連體段的輪廓特征,前面S表示一個連體段,后面的三個數(shù)字a1a2a3分別為:a1代表基線域上外輪廓數(shù),a2代表內(nèi)輪廓數(shù),a3代表基線域下外輪廓數(shù).圖8所示連體段的輪廓特征為S235,基線域上外輪廓數(shù)a1為2,內(nèi)輪廓數(shù)a2為3,基線域下外輪廓數(shù)a3為5.

        圖8 連體段的輪廓特征為S235

        2.3 特征組合

        連體段的特征已經(jīng)統(tǒng)計出來.單詞的特征包含了每個組成它的連體段的特征、連體段的順序及連體段的個數(shù).如果有相同特征的不同單詞,需要繼續(xù)添加輔助特征加以區(qū)分,這屬于二次識別的范疇.對于輔助特征,沒有具體的范疇,對于短特征向量的不同單詞來說,面積、長度、波峰等等都有可能區(qū)分開來,對于長特征向量不同單詞來說,面積、長度等就起不到作用,所以輔助特征我們要根據(jù)具體的情況具體分析.圖9展現(xiàn)了該單詞的連體段和單詞的切分圖.

        圖9 單詞和連體段對比圖

        它的主輪廓特征可以表示為S213S000S110S101.利用字符串來表示,一個變量就能表示很多輪廓特征,減少了特征向量的維度,同時也提高了識別的精度.該單詞由四個連體段組成(維吾爾文讀取的時候是從右到左,這和英文單詞的讀取方式剛好相反),四個連體段就應(yīng)該用四個S字符串表示,每一個S代表一個連體段.從圖中可以看出單詞第一個連體段S213有兩個基線上的外輪廓、一個基線中的內(nèi)輪廓和三個基線下的外輪廓;第二個連體段S000有零個基線上的外輪廓、零個基線中的內(nèi)輪廓和零個基線下的外輪廓;第三個連體段S110有一個基線上的外輪廓、一個基線中的內(nèi)輪廓和零個基線下的外輪廓;第四個連體段S101有一個基線上的外輪廓、零個基線中的內(nèi)輪廓和一個基線下的外輪廓,由此就組成了單詞的主輪廓特征字符串S213S000S110S101.根據(jù)這個字符串特征向量要是不能唯一識別單詞,就需要另外的額外輔助特征加以識別.這里展示部分單詞特征如圖10,前面的數(shù)字代表單詞的序號,根據(jù)序號就直接可以定位單詞,大大節(jié)省了空間和時間.

        該圖展示了一篇文章部分單詞的輪廓特征.對其所有特征字符串進行排序就可以得到相同特征的單詞是否是同一個單詞,可以確定單詞的唯一性,也就確定了識別該單詞的準(zhǔn)確率.

        圖10 部分單詞輪廓特征統(tǒng)計

        在統(tǒng)計完主輪廓特征后,開始識別,對其所有字符串進行排序,把字符串相同的放在一起,同時通過查詢序號判斷是否為同一單詞,如果是同一單詞,說明該特征能唯一識別該單詞(當(dāng)然需要多篇文章的證實,僅僅憑一兩篇文章是沒有說服力的);如果不是同一個單詞的話,需要借助另外的輔助特征來進行二次識別.如圖11所示,展示了同一特征對應(yīng)相同的單詞和同一特征對應(yīng)不同的單詞的情況.在一篇文章中141S210S000S000S000、151S210S000S000S000、171S210S000S000S000三個單詞特征相同,單詞也是同一個單詞,識別就是成功的;80S100、107S100兩個單詞特征相同,但是單詞不是同一個單詞,識別失敗,需要借助輔助特征進行二次識別,如圖11所示.

        圖11 相同特征對應(yīng)的單詞對比

        3 實驗結(jié)果及分析

        一篇文章由單詞和特殊字符組成,這里不考慮特殊字符,在識別的過程中先把它們排除掉,然后對文章進行統(tǒng)計.一般同一特征對應(yīng)不管是同一單詞還是不同單詞,它們的比例在20%-30%之間,在這些單詞中再選出同一特征對應(yīng)的不同單詞,這些單詞的識別僅僅靠主輪廓的識別是不夠的,要重新選取輔助特征進行二次識別,直到都能唯一的對應(yīng).同時在全篇文章中找出提取輪廓特征錯誤的單詞,通過手工的進行更正.這樣的單詞特別少,產(chǎn)生的原因很多,沒必要重新提取,重新提取也會影響其它單詞的特征提取.對于這少部分盡量簡單處理,不要影響大局.

        對于識別不唯一的需要借助新的輔助特征的單詞,進行二次識別,然后把這些特征向量和對應(yīng)的單詞放入匹配庫中.每識別一篇文章,在得出唯一的特征向量以后,就把不同特征的單詞和特征向量再次放入匹配庫中.如果在匹配庫中遇到相同特征的對應(yīng)不同的單詞,和在文章一樣,繼續(xù)借助輔助特征識別這些單詞,直至唯一對應(yīng)單詞.隨著匹配庫的不斷擴大,以后單詞識別會越來越快,準(zhǔn)確率也會越來越高.

        表1 十幅文檔圖像單詞識別率

        我們對二十篇文章做了基本的統(tǒng)計,得出了大部分日常生活中用到的單詞的特征向量,在表1中列出了十篇文章的統(tǒng)計情況,每篇文章的識別率、錯誤率基本差不多,沒有太大的差別.由此我們得出一個平均的單詞識別率.以后想提高單詞識別率,可以在此基礎(chǔ)上進行改善.這個過程需要一個很大的硬盤存儲空間.對于本系統(tǒng)來說,最大的難點就是如何有效的找出輔助特征,因為不同于單個字符有很多特征,通過歸一化以后,很多特征都可以區(qū)分開字符,單詞沒辦法歸一化,并且針對整個單詞的特征少之又少,所以輔助特征的選取是個難點.同時匹配庫的管理也是一個難點,因為在識別一篇文章后,需要和整個匹配庫進行對比,這在效率上就大打折扣,并且在遇到同一特征對應(yīng)不同的單詞時,也需要輔助特征的選取,隨著匹配庫的擴大,速度的處理會越來越慢,但是識別率會越來越高.

        4 結(jié)論

        本文提出了一種以連體段為基本單位的單詞整體特征提取的方法,采取了低維度的輪廓特征作為主特征,對連體段的輪廓特征用字符串形式進行存儲,整合之后成為單詞的輪廓特征,用以在識別過程中作為主要的識別特征,對于不能進行識別的單詞借助輔助特征進行二次識別.經(jīng)過實驗測試,本系統(tǒng)識別率約為90%.本研究為以后維吾爾文單詞識別研究特供了一個新的思路,可以在此基礎(chǔ)上進行改善,進一步提高提取特征的唯一性和單詞的識別率.

        猜你喜歡
        特征向量輪廓特征提取
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        OPENCV輪廓識別研究與實踐
        基于實時輪廓誤差估算的數(shù)控系統(tǒng)輪廓控制
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        一類特殊矩陣特征向量的求法
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
        Bagging RCSP腦電特征提取算法
        在線學(xué)習(xí)機制下的Snake輪廓跟蹤
        計算機工程(2015年4期)2015-07-05 08:27:39
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        久久乐国产精品亚洲综合| 日韩五十路| 男人j进女人p免费视频| 蜜桃视频在线免费观看一区二区| 亚洲中文字幕精品视频| 国产片精品av在线观看夜色| 男女18禁啪啪无遮挡| 成人综合亚洲欧美一区h| 日本二区三区在线免费| 亚洲日韩精品无码av海量| 精品亚洲欧美无人区乱码| 色系免费一区二区三区| 偷拍视频十八岁一区二区三区 | 一道本久久综合久久鬼色| 又大又粗又爽18禁免费看| 国产鲁鲁视频在线播放| 日本大胆人体亚裔一区二区| 亚洲综合av大全色婷婷| 欧美精品videossex少妇| 男人j进女人p免费视频| 青青草久久久亚洲一区| 亚洲国产中文字幕一区| 亚洲热线99精品视频| 日韩区在线| 国产精品久久婷婷六月| 国产免费又色又爽粗视频| 人妻丰满熟妇av无码区免| 精品综合久久久久久99| 一区二区三区四区亚洲免费| 国产伦精品一区二区三区妓女| 国自产偷精品不卡在线| 日韩人妻av不卡一区二区三区| 日本中文一区二区在线观看| 午夜三级a三级三点| 9999毛片免费看| 一本久道视频无线视频试看| 精品高朝久久久久9999| 人妻 日韩精品 中文字幕| 超级碰碰人妻中文字幕| 久久99热只有频精品8国语| 熟女无套内射线观56|