亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        脫機(jī)手寫(xiě)維吾爾文單詞的過(guò)拆分方法

        2018-07-12 10:42:54瑪伊萊·艾力瑪依拉·依布拉音地里木拉提·吐?tīng)栠d艾斯卡爾·艾木都拉
        電腦知識(shí)與技術(shù) 2018年12期
        關(guān)鍵詞:維吾爾文投影

        瑪伊萊·艾力 瑪依拉·依布拉音 地里木拉提·吐?tīng)栠d 艾斯卡爾·艾木都拉

        摘要:脫機(jī)手寫(xiě)體維吾爾文切分是脫機(jī)手寫(xiě)體維吾爾文識(shí)別的基礎(chǔ),切分準(zhǔn)確率直接影響識(shí)別的正確率,該問(wèn)題的研究對(duì)提高識(shí)別的系統(tǒng)性能具有重要的意義。提出了一種脫機(jī)手寫(xiě)維吾爾文單過(guò)切分方法。該方法的基本過(guò)程是通過(guò)確定單詞的主筆劃找到單詞的基線,再根據(jù)基線以上的部分過(guò)拆分單詞,對(duì)該方案進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該文切分方案具有有效性和可行性。

        關(guān)鍵詞: 脫機(jī)手寫(xiě);維吾爾文;過(guò)切分;投影;基線檢測(cè)

        中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)12-0271-03

        Abstract:Off-line handwriting Uyghur word segmentation is the basis of offl-ine Uyghur handwriting recognition. The segmentation accuracy directly affects the accuracy of recognition. The research on this issue is of great significance to improve the recognition system performance. An off-line handwritten Uyghur single-pass segmentation method is proposed. The basic process of this method is to find the baseline of the word by determining the main stroke of the word, then to split the word according to the part above the baseline, and the experiment is carried out. The experimental results show that the proposed scheme is effective and feasible.

        Key words:Off-line handwriting; Uyghur; over segmentation; projection; Baseline detection;

        1 引言

        維吾爾文的歷史悠久,在中國(guó)的西北地區(qū),廣泛地被維吾爾族使用。基于維吾爾文的文字處理系統(tǒng)與輸入方法的研究,在我國(guó)研究較少,同時(shí)起步也比較晚,現(xiàn)存的研究文獻(xiàn)中,研究最多的就是鍵盤編碼輸入方式[1],關(guān)于識(shí)別方面的研究相對(duì)較少。關(guān)于維吾爾文字的識(shí)別技術(shù),尤其是印刷體字符的研究,研究比較成熟的代表是清華大學(xué)與新疆大學(xué)[2-4]。與其他語(yǔ)言文字相比,維吾爾文在書(shū)寫(xiě)規(guī)則,字母結(jié)構(gòu)、書(shū)寫(xiě)習(xí)慣等方面更為復(fù)雜,難度較大,尤其是手寫(xiě)體識(shí)別,由于硬件因素的影響,對(duì)于脫機(jī)手寫(xiě)單詞識(shí)別更少?;诖?,本文主要的研究對(duì)象是脫機(jī)手寫(xiě)維吾爾文字符切分技術(shù)的。單詞的識(shí)別主要分為兩種,一種是基于分割的方法,第一種是整體性識(shí)別的方法。如果是通過(guò)分析字母的形狀特征對(duì)字母進(jìn)行識(shí)別,然后再對(duì)整個(gè)單詞進(jìn)行識(shí)別,則說(shuō)明采用的是基于分割的方法;如果是通過(guò)單詞的整體數(shù)字特征入手,再采用整體的模式對(duì)單詞進(jìn)行識(shí)別,則說(shuō)明采用的是整體性識(shí)別方法。在維吾爾文中,如果是采用整體性識(shí)別的方法對(duì)其識(shí)別,是行不通的,因?yàn)檫@種語(yǔ)言的單詞數(shù)量特別龐大,因此只能采用基于分割的方法。在單詞圖像中,單詞中的字符切分是相對(duì)比較重要的一步,它是字符切分、單詞識(shí)別等技術(shù)的基礎(chǔ)。要進(jìn)行正確地識(shí)別就要進(jìn)行正確的區(qū)分,如果切分不當(dāng)就容易造成識(shí)別錯(cuò)誤,對(duì)于這種問(wèn)題是不能忽視的。在維吾爾文的脫機(jī)手寫(xiě)中,兩個(gè)因素給單詞切分帶來(lái)了較大的困難,第一個(gè)因素是手寫(xiě)的隨意性,第二個(gè)因素是單詞圖像中字符的唯一性。

        維吾爾文字書(shū)寫(xiě)時(shí)字母連續(xù)流暢,自右向左書(shū)寫(xiě)。維吾爾文與漢文有較大的不同,維吾爾文的一個(gè)詞是由一個(gè)或多個(gè)字母組成的。根據(jù)維吾爾文的書(shū)寫(xiě)規(guī)則,,這些字母可能前后相連形成一個(gè)或幾個(gè)連體字母段或稱連體段。不管是維吾爾文的手寫(xiě)體,還是維吾爾文的印刷體,在連體字母段中,所有的字母都是沿著一條水平線相連的,這條水平線叫基線。一個(gè)單詞包含一個(gè)或多個(gè)連體段。每個(gè)連體段也是由一組字母,或一個(gè)字母組成。

        2 預(yù)處理

        以采集到的單詞圖像為基本對(duì)象,對(duì)其進(jìn)行相應(yīng)的處理,這種處理就叫預(yù)處理。預(yù)處理的目的有兩個(gè),一個(gè)是減少噪聲的影響,另一個(gè)是減少外界干擾,預(yù)處理的主要作用是對(duì)手寫(xiě)單詞存在的變形進(jìn)行矯正。預(yù)處理在所有的步驟中是不能缺少的關(guān)鍵性步驟,它是字符分割的基礎(chǔ)與前提。主要內(nèi)容包括圖像二值化,傾斜矯正等。

        2.1 二值化

        在本方案中,實(shí)驗(yàn)的樣本圖像采用的是黑白圖像,白色的是背景,黑色的是字體。如果從數(shù)字圖像的像素值上對(duì)其分析,圖中像素的灰度值從0到255均有分布,在圖像上都有細(xì)微的表現(xiàn),灰度差異較小的是字符像素點(diǎn)與背景像素點(diǎn),在單詞中,骨架部分呈現(xiàn)的是黑色,邊緣部分呈現(xiàn)的是灰色。本文投影切分算法的實(shí)現(xiàn)就是要利用顏色差異,所以分割之前需要對(duì)圖像進(jìn)行二值化處理。充分結(jié)合最大類間方差法[5]可以找到圖片的一個(gè)合適的閾值。對(duì)這個(gè)閾值加以利用,就可以更容易(與人為設(shè)定相比)地把一張灰度圖像轉(zhuǎn)換為二值圖像。最大類間方差法(otsu)的公式推導(dǎo):記[T]為前景與背景的分割閾值,前景點(diǎn)數(shù)占圖像比例用[w0]表示,平均灰度用[u0]表示;背景點(diǎn)數(shù)占圖像比例用w1表示,平均灰度用u1表示。則圖像的總平均灰度,可以采用公式(1)對(duì)其表示;前景和背景圖象的方差,則可以采用公式(2)對(duì)其表示:

        在上述公式中,當(dāng)方差最大時(shí),就可以將其認(rèn)定為此時(shí)前景與背景差異最大,換句話說(shuō),就是此時(shí)的灰度是最佳閾值。

        2.2 傾斜矯正

        對(duì)于文字,在手寫(xiě)的過(guò)程中,出現(xiàn)一定程度的傾斜是很正常的。但文字的傾斜卻會(huì)對(duì)方向特征、投影直方圖等文字特征的正確抽取造成一定程度的影響,倘若傾斜程度過(guò)大,還會(huì)導(dǎo)致字符上下交錯(cuò),這必然會(huì)加大字符分割與識(shí)別的難度。由此可見(jiàn),在對(duì)手寫(xiě)文字進(jìn)行預(yù)處理的時(shí)候,務(wù)必對(duì)其進(jìn)行傾斜校正操作[6-8]。[Hough]變換是一種特別有效的檢測(cè)直線的算法,它以直角坐標(biāo)系中的目標(biāo)點(diǎn)位基本對(duì)象,再將這些點(diǎn)映射到極坐標(biāo)系中進(jìn)行累積,即先使直角坐標(biāo)系平面上任一直線上的所有點(diǎn)均累積到極坐標(biāo)系的同一點(diǎn)集中去,然后通過(guò)尋找極坐標(biāo)系中點(diǎn)集的峰值來(lái)發(fā)現(xiàn)較長(zhǎng)的直線特征。對(duì)每一個(gè)像素點(diǎn)都進(jìn)行Hough變換,找出傾斜角度對(duì)此矯正單詞的傾斜角。

        3 單詞的過(guò)拆分

        本節(jié)介紹維吾爾文手寫(xiě)單詞拆分,單詞拆分指的是把單詞所包含的字母拆分出來(lái)。本文用的是基于字符的拆分方法,流程圖如圖1所示:

        從某種程度上來(lái)說(shuō),利用垂直投影算法確定文字的切分點(diǎn),會(huì)依賴于手寫(xiě)文本的規(guī)范性,尤其是書(shū)寫(xiě)的隨意性、多樣性等特點(diǎn)。由此可見(jiàn),對(duì)于垂直投影確定的切分點(diǎn),印刷體文字就會(huì)比手寫(xiě)文字更加準(zhǔn)確一些。正因?yàn)榭紤]到這樣的因素,故而在本文中,沒(méi)有直接對(duì)單詞圖像進(jìn)行垂直投影,而是提出了基于單詞基線的一種過(guò)拆分的方法,通過(guò)提取單詞基線以上的部分,對(duì)提取后的分段,進(jìn)行單詞拆分。

        單詞的過(guò)切分算法如下:

        (1) 對(duì)預(yù)處理后的手寫(xiě)維吾爾文單詞圖像求基線具體公式如(3)所示:其中I(i,j)為單詞圖像中第i行、第j列的像素值,n為單詞圖像總列數(shù)。

        得到水平投影的值后,再把sum中的最大值所在的像素行算出來(lái),并將其確定為基線位置。

        (2)從手寫(xiě)單詞的基線部分開(kāi)始往下置白,就是說(shuō)單詞基線下的碎片部分變成背景,提取單詞基線以上的部分。

        (3)對(duì)手寫(xiě)單詞基線以上的部分進(jìn)行垂直投影。垂直投影也稱為列投影,那是因?yàn)樵诖怪蓖队坝?jì)算的是每列中,像素值為0的像素點(diǎn)的總數(shù)。垂直投影的算法是,按列來(lái)統(tǒng)計(jì)圖像中像素值為0的像素點(diǎn)的個(gè)數(shù)。單詞圖像的垂直投影如(4)所示:

        4 實(shí)驗(yàn)結(jié)果及分析

        本實(shí)驗(yàn)平臺(tái)采用頻率大小為[3.6GHz],內(nèi)存大小為[4G],實(shí)驗(yàn)運(yùn)行環(huán)境為專用數(shù)學(xué)軟件[MATLABR214a]。實(shí)驗(yàn)對(duì)象為不同的人按照平常的習(xí)慣不受任何限制的方式書(shū)寫(xiě)的單詞圖像。實(shí)驗(yàn)結(jié)果如下圖所示:

        由以上實(shí)驗(yàn)結(jié)果可以看出,用本文中提出的方法可以有效地把維吾爾文手寫(xiě)單詞圖像分割成字母。在整個(gè)算法過(guò)程中,當(dāng)遇到(?????????????)等字母是出現(xiàn)錯(cuò)誤切分的情況。

        5結(jié)論

        本文以脫機(jī)手寫(xiě)單詞為研究對(duì)象,利用維吾爾文單詞的結(jié)構(gòu)特征有效地將單詞切分成字母,同時(shí)還給出了階段性的算法描述和實(shí)驗(yàn)結(jié)論。未來(lái)工作對(duì)于出現(xiàn)錯(cuò)切分的情況再次做深入的研究。

        參考文獻(xiàn):

        [1] 萬(wàn)芳. 聯(lián)機(jī)手寫(xiě)維吾爾文字識(shí)別技術(shù)的研究與實(shí)現(xiàn)[D].新疆大學(xué),2007.

        [2] 吳燕,袁保社. 聯(lián)機(jī)手寫(xiě)維文字符切分算法研究[J]. 微計(jì)算機(jī)信息,2010,26(12):184-185+178.

        [3] 陳卿,袁保社,李曉,任宏宇,張建華. 基于模板匹配的印刷維吾爾文字符識(shí)別研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(04):119-122.

        [4] 曹志宏. 維吾爾文字聯(lián)機(jī)手寫(xiě)體識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D].新疆大學(xué),2007.

        [5] 擺雪剛. 脫機(jī)手寫(xiě)維吾爾文本行傾斜校正技術(shù)研究[D].新疆大學(xué),2015

        [6] 許亞美. 手寫(xiě)維吾爾文字識(shí)別若干關(guān)鍵技術(shù)研究[D].西安電子科技大學(xué),2014.

        [7] Zhu B, Shivram A, Govindaraju V, et al. Online Handwritten Cursive Word Recognition by Combining Segmentation-Free and Segmentation-Based Methods[C]// International Conference on Frontiers in Handwriting Recognition. IEEE, 2016:161-165

        [8] Nakkach H, Hichri S, Haboubi S, et al. A Segmentation-Free Approach to Strokes Extraction from Online Isolated Arabic Handwritten Character[C]// International Conference on Advanced Technologies for Signal& Image Processing Atsip. 2016.

        [9] 曹衛(wèi). 脫機(jī)手寫(xiě)體漢字切分算法研究[D]. 中南民族大學(xué), 2012.

        [10] 楊俠. 手寫(xiě)體漢字分割的研究與應(yīng)用[D]. 山東師范大學(xué), 2012.

        猜你喜歡
        維吾爾文投影
        全息? 全息投影? 傻傻分不清楚
        軍事文摘(2022年8期)2022-05-25 13:29:10
        解變分不等式的一種二次投影算法
        基于最大相關(guān)熵的簇稀疏仿射投影算法
        初探《習(xí)近平談治國(guó)理政》維吾爾語(yǔ)譯本的翻譯特點(diǎn)
        找投影
        找投影
        西部少數(shù)民族語(yǔ)言對(duì)阿拉伯文獻(xiàn)的譯介及其特點(diǎn)
        5.3 視圖與投影
        基于Rapid Miner的維吾爾文文本預(yù)處理及分類實(shí)驗(yàn)設(shè)計(jì)
        維吾爾文研究與Android維文閱讀器的實(shí)現(xiàn)?
        亚洲一区 日韩精品 中文字幕| 国产精品亚洲午夜不卡| 亚洲AV成人无码天堂| 天堂网av在线免费看| 亚洲欧洲成人a∨在线观看| 97精品人妻一区二区三区香蕉| 亚洲阿v天堂2018在线观看| 免费人成黄页在线观看国产| 2021亚洲国产精品无码| 国产精品嫩草影院av| 加勒比黑人在线| 国产一区二区三区在线观看黄| 日韩av无码中文字幕| 中文字幕亚洲情99在线| 亚洲精品国产老熟女久久| 偷偷夜夜精品一区二区三区蜜桃| 无码国内精品人妻少妇蜜桃视频| 日韩少妇激情一区二区| 亚洲成a人网站在线看| 亚洲成人av一区免费看| 狠狠噜狠狠狠狠丁香五月 | 久久97久久97精品免视看| 天堂√最新版中文在线天堂| 日本激情视频一区在线观看| 国产自拍偷拍视频免费在线观看 | 911精品国产91久久久久| 加勒比熟女精品一区二区av| 成人av在线久色播放| 精品少妇人妻av无码久久| 久久精品一品道久久精品9 | 性色欲情网站| 成人在线激情网| 青青青视频手机在线观看| 国产精品天天看天天狠| 色欲av亚洲一区无码少妇| 久久亚洲精品成人综合| 亚洲av毛片在线免费看| 久久99精品九九九久久婷婷| 国产精品丝袜在线不卡| 按摩少妇高潮在线一区| 亚洲日韩激情无码一区|