亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        印刷體維文切分算法的改進(jìn)——基于像素積分投影法和連通域搜索法

        2014-04-21 12:24:50李亞男陳興文
        關(guān)鍵詞:單詞文本方法

        李亞男,陳興文,張 丹

        (大連民族學(xué)院,計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧大連116605)

        相對(duì)已經(jīng)達(dá)到國(guó)際較先進(jìn)水平的印刷體漢字、英文識(shí)別技術(shù),印刷體維文文字識(shí)別技術(shù)還處于初步階段[1]。印刷體維文識(shí)別技術(shù)中,維文的準(zhǔn)確切分起著至關(guān)重要的作用,好的切分效果可以大大提高最終的識(shí)別率。像素積分投影法是目前常用的維文切分方法[2-3],但在進(jìn)行單詞切分時(shí),該方法不能很好的處理單詞切分時(shí)相鄰連體段在水平方向的覆蓋情況,在進(jìn)行字母切分時(shí),該方法存在過(guò)切分和漏切分現(xiàn)象。針對(duì)上述情況,提出將像素積分投影法與連通域搜索法相結(jié)合的方法對(duì)維文進(jìn)行行切分和單詞切分,以減少單詞的誤切分,并對(duì)字母切分部分的像素積分投影法進(jìn)行改進(jìn),僅對(duì)位于基線上方的部分進(jìn)行垂直投影,提高了字母切分的正確率。

        1 印刷體維文切分流程及算法分析

        維吾爾文的構(gòu)成特點(diǎn)和書寫特點(diǎn)都比較特殊,如維吾爾文字母之間前后粘連形成連體段,相鄰連體段在水平方向會(huì)有覆蓋的情況,字形的寬高不統(tǒng)一,詞匯中字母之間沒(méi)有明顯的界限等,如圖1。使得維文單詞切分與字母切分成為維文識(shí)別技術(shù)中的難點(diǎn)[4-5]。

        圖1 維文字符

        印刷體維文切分過(guò)程:首先對(duì)維文文本進(jìn)行行切分,然后對(duì)得到的每一行進(jìn)行單詞切分,最后對(duì)每個(gè)單詞進(jìn)行字母切分。行切分相對(duì)簡(jiǎn)單易行,單詞切分和字母切分則有一定的難度。

        對(duì)印刷體維文切分,目前最常用的切分方法是像素積分投影法,該方法可以很好的對(duì)維文文本行進(jìn)行有效切分。但是像素積分投影法進(jìn)行單詞切分時(shí)不能處理相鄰連體段在水平方向覆蓋的情況,容易出現(xiàn)漏切分的現(xiàn)象,進(jìn)行字母切分時(shí)也存在一定的問(wèn)題:Amin把列投影值小于平均列投影值的位置作為候選字母連接部分,然后相鄰?fù)队胺逯档木嚯x以及大小關(guān)系去除部分不合理候選切分位置,但是這種方法需要預(yù)知字符的寬度;哈力木拉提取兩個(gè)峰值中間小于平均投影的位置作為字符的切分點(diǎn),該方法存在過(guò)切分或漏切分的情況,并且受到字符附加部分的影響。

        2 印刷體維文切分方法設(shè)計(jì)

        2.1 行切分方法實(shí)現(xiàn)

        對(duì)印刷體維文文字圖像進(jìn)行預(yù)處理之后得到的是一個(gè)整體的二值化圖片文檔,對(duì)文字部分和空白間隙部分進(jìn)行像素積分投影[3-5],空白間隙部分投影理論值為0(可能有噪聲的存在,實(shí)際上不一定為0),而文字行的水平積分投影不為0。因此可以逐行掃描每個(gè)像素點(diǎn),求出各行的水平積分投影,將整篇文檔的每一行切分開(kāi)。一幅文本圖象定義

        式中 i:行數(shù),i=1,2,…,m;j:列數(shù),j=1,2,…,n。

        各行水平積分投影公式為

        一行文本的范圍通過(guò)計(jì)算圖象的水平投影確定。對(duì)經(jīng)過(guò)預(yù)處理后尚未切分的文本按照從下往上的順序進(jìn)行逐行像素搜索[3]:若第i行滿足(H(i)>q)∩(H(i+1)>q)∩..∩(H(i+m-1)>q),則將像素行i作為文本行的下界;若第i行滿足(H(i)<r)∩(H(i+1)<r)∩…∩(H(i+n-1)<r),則將像素行i作為文本行的上界。參數(shù)p、q、m、n、r均為根據(jù)預(yù)處理去噪效果和實(shí)驗(yàn)情況得到的常數(shù),其中 n=3,m=5,r=2,p=2,q=2,此數(shù)據(jù)作為參考,具體數(shù)據(jù)需根據(jù)實(shí)驗(yàn)情況而定。像素積分投影法簡(jiǎn)單易行,可以很好的對(duì)維文文本行進(jìn)行有效切分。

        2.2 單詞切分方法實(shí)現(xiàn)

        像素積分投影法進(jìn)行單詞切分時(shí)不能處理相鄰連體段在水平方向覆蓋的情況,容易出現(xiàn)漏切分的現(xiàn)象。對(duì)字符研究發(fā)現(xiàn),字符的根本特性在于其連通性[1,6],盡管維文單詞會(huì)出現(xiàn)相鄰連體段在水平方向覆蓋、傾斜、以及變形等情況,如圖2。但是每個(gè)單詞的連通性是不會(huì)改變的,因此可采用連通域搜索法來(lái)實(shí)現(xiàn)單詞切分。該方法可以充分利用字符的連通特性,較好地解決相鄰連體段在水平方向覆蓋的問(wèn)題,提高維文單詞切分的正確率。

        圖2 水平方向有重疊的單詞

        利用遞歸式區(qū)域生長(zhǎng)算法確定各連通域,找出連通域后,做出各個(gè)連通域的外接矩形[1]。由于32個(gè)維文字母中有20個(gè)字母包含附加筆畫,附加筆畫部分與字母主體部分上、下不粘連,因此一個(gè)維文字母可能包含多個(gè)連通域,所以還需要對(duì)連通域進(jìn)行合并,規(guī)則為:搜索每個(gè)連通域A最近的連通域B,如果B在A的上方或者下方,則視A和B是同一個(gè)字母的主體部分和附加部分,否則將B單獨(dú)看作一個(gè)字母。

        運(yùn)用垂直投影法得到的單詞切分結(jié)果如圖3,運(yùn)用連通域搜索法得到的單詞切分結(jié)果如圖4。當(dāng)單詞上下重疊時(shí)(箭頭處),垂直投影法并不能將其很好的切分開(kāi),而連通域搜索法則可以。

        圖3 垂直投影法單詞切分結(jié)果

        圖4 連通域搜索法單詞切分結(jié)果

        2.3 字母切分方法改進(jìn)

        文獻(xiàn)[5]對(duì)字母進(jìn)行切分時(shí),首先對(duì)輸入的單詞進(jìn)行垂直積分投影,取有空隙的位置進(jìn)行切分,得到獨(dú)立的字母和連體段,如圖5,然后找到一段投影值為0的連續(xù)空白位置(該位置兩邊的投影值大于0),取其中間位置作為候選切分點(diǎn),最終實(shí)現(xiàn)字母切分。

        圖5 單詞中的連體段

        該方法需要預(yù)知字符寬度,容易出現(xiàn)漏切和過(guò)切的現(xiàn)象,并不普適。因此對(duì)這一部分進(jìn)行改進(jìn),算法如下:

        (1)對(duì)輸入的單詞進(jìn)行垂直積分投影,投影后取有空隙的位置進(jìn)行切分。垂直積分投影公式為

        (2)確定基線區(qū)域高度及位置。提取文字行中的所有豎直黑像素游程后統(tǒng)計(jì)不同長(zhǎng)度游程的數(shù)目,具有最多數(shù)目游程的游程長(zhǎng)度就是基線的高度Hb,H是文字行的高度,P是文字行的水平投影結(jié)果,E1和E2分別表示基線的上邊界和下邊界。在文字行無(wú)傾斜的情況下,行的基線位置可以根據(jù)式(4)得到,即文字行的基線就是高度為Hb,最大水平投影值最大的帶狀區(qū)域。

        (3)提取出位于基線上方的維文部分,即提取出位于基線上邊界E1與文本行上邊界H1之間的字符部分,如圖6。對(duì)基線上方部分進(jìn)行垂直投影,找到一段投影值為0的連續(xù)空白位置,該位置兩邊的投影值大于0,取空白位置的中間位置作為候選切分點(diǎn),如圖7。

        圖6 提取連體段位于基線上方部分

        圖7 對(duì)基線上方部分進(jìn)行垂直投影

        (4)閾值判定法去除誤切分。閾值T的定義為[4]:連體段的行高度H與連續(xù)空白間隙的寬度W做比的均值取整作為T,當(dāng)T過(guò)大時(shí),所切分的位置就比較高,可能造成誤切分,當(dāng)T過(guò)小時(shí),使連體字母不能被切開(kāi)。閾值T根據(jù)實(shí)際實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)得出,本文取T=16進(jìn)行判定。

        采用未改進(jìn)的投影法字母切分結(jié)果如圖8,黑色箭頭處存在漏切分現(xiàn)象,采用改進(jìn)后的投影法字母切分結(jié)果如圖9。對(duì)比可見(jiàn),改進(jìn)后的方法對(duì)去除字母誤切分有很好的效果,提高了字母切分的正確率。

        圖8 未改進(jìn)的投影法字母切分結(jié)果

        圖9 改進(jìn)后的投影法字母切分結(jié)果

        3 系統(tǒng)環(huán)境與識(shí)別結(jié)果

        設(shè)計(jì)的印刷體維文識(shí)別系統(tǒng)是在Windows 7平臺(tái)下,以VC 6.0和Matlab 2012為開(kāi)發(fā)環(huán)境。

        打開(kāi)的原始印刷體維文文本圖片如圖10。

        圖10 原始印刷體維文文本圖片

        原始維文文本圖片的最終識(shí)別結(jié)果如圖11。由結(jié)果可見(jiàn),采用改進(jìn)的維文切分方法,可以達(dá)到較好的識(shí)別效果。

        4 結(jié)語(yǔ)

        討論了如何對(duì)掃描輸入的二值化維文文本圖象進(jìn)行行切分、單詞切分、字母切分。通過(guò)分析研究不同字符切分方法的優(yōu)缺點(diǎn),結(jié)合維文自身的書寫特點(diǎn)與結(jié)構(gòu)特點(diǎn),提出采用像素積分投影法和連通域搜索法相結(jié)合對(duì)印刷體維文進(jìn)行行切分和單詞切分,該方法較好的解決了像素積分投影法不能處理相鄰連體段在水平方向覆蓋的問(wèn)題。在字母切分部分,改進(jìn)了文獻(xiàn)[5]中字母切分部分的投影法,改進(jìn)后的方法不需要預(yù)知字符寬度,基本不存在漏切分現(xiàn)象,提高了字母切分的正確率。提出的維文切分方法能夠較好地應(yīng)用在印刷體維文識(shí)別系統(tǒng)中的切分部分。

        圖11 最終識(shí)別結(jié)果

        [1]尹芳,王衛(wèi)兵,陳德運(yùn).印刷體英文文檔識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].哈爾濱理工大學(xué)學(xué)報(bào),2008,13(6):9-12.

        [2]萬(wàn)金娥,袁保社,李曉,等.一種改進(jìn)的印刷體維吾爾文投影切分方法[J].計(jì)算機(jī)工程,2013,39(4):263-266.

        [3]董國(guó)君.印刷體俄文文字識(shí)別研究[D].烏魯木齊:新疆大學(xué),2009.

        [4]袁保社,吾守爾·斯拉木.一種手寫維吾爾文字母識(shí)別算法[J].計(jì)算機(jī)工程,2010,36(2):186-188.

        [5]李曉,袁保社,陳卿,等.基于像素積分投影的印刷體維文字母切分方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(4):41-44.

        [6]靳簡(jiǎn)明,丁曉青,彭良瑞,等.印刷維吾爾文本切割[J].中文信息學(xué)報(bào),2005,18(5):76-83.

        猜你喜歡
        單詞文本方法
        單詞連一連
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        看圖填單詞
        看完這些單詞的翻譯,整個(gè)人都不好了
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        欧美性生交大片免费看app麻豆| 亚洲国产成人久久综合三区| 国产av一区二区三区狼人香蕉| 无码AV大香线蕉伊人久久| 蜜桃成熟时在线观看免费视频| 久久九九有精品国产尤物| 亚洲va国产va天堂va久久| 青青草手机在线观看视频在线观看| 18禁国产美女白浆在线| 久久久久无码精品亚洲日韩| 午夜理论片yy6080私人影院| 韩国日本一区二区在线| 蜜桃视频中文在线观看| 欧美成人a在线网站| 国产成人无码av一区二区| 日产精品毛片av一区二区三区| 国产午夜久久久婷婷| 中文字幕一区二区三区日韩精品| 国产精品亚洲第一区二区三区 | 欧美日韩一线| 亚洲欧美日韩在线一区| 男人的天堂无码动漫av| 最新露脸自拍视频在线观看| 在线视频自拍视频激情| 日本熟妇中文字幕三级| 国产高级黄区18勿进一区二区| 无码不卡av东京热毛片| 欧美老熟妇乱子| 一区二区三区四区草逼福利视频 | 亚洲日本人妻中文字幕| 最新国产精品亚洲二区| 天天干成人网| 欧美黑人性暴力猛交喷水黑人巨大 | 亚洲av中文无码字幕色三| 无码va在线观看| 强开小婷嫩苞又嫩又紧视频| 男女射精视频在线观看网站| 日本熟妇免费一区二区三区| 九九99久久精品在免费线97| 国产精品亚洲专区无码web| 两个人看的www高清视频中文|