亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聚類+連體段判別的維吾爾文檔圖像單詞切分

        2020-07-17 08:19:58徐學(xué)斌吾爾尼沙買買提阿力木江艾沙朱亞俐庫(kù)爾班吾布力
        關(guān)鍵詞:維吾爾文印刷體標(biāo)點(diǎn)符號(hào)

        徐學(xué)斌,吾爾尼沙·買買提,阿力木江·艾沙,朱亞俐,庫(kù)爾班·吾布力

        1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046

        2.新疆大學(xué) 圖書館,烏魯木齊 830046

        3.新疆大學(xué) 教師工作部,烏魯木齊 830046

        1 引言

        文檔圖像檢索作為信息檢索的重要分支,一直是研究的熱點(diǎn)。對(duì)于中文和英文等語(yǔ)言而言,字符都是獨(dú)立書寫,不存在字符與字符黏連書寫的情況,此類印刷體文檔圖像檢索一般是通過OCR(Optical Character Recognition)轉(zhuǎn)化后進(jìn)行檢索,準(zhǔn)確率高,檢索速度快。對(duì)于我國(guó)新疆地區(qū)的少數(shù)民族語(yǔ)言維吾爾語(yǔ)而言,其字母既可以獨(dú)立書寫,也可以有多個(gè)字母通過不同的順序組合相連書寫,因此對(duì)印刷體維吾爾文檔圖像進(jìn)行字母切分與識(shí)別時(shí)準(zhǔn)確率不高,用OCR技術(shù)對(duì)維吾爾文檔圖像進(jìn)行檢索的研究相對(duì)滯后。近年來有學(xué)者提出針對(duì)維吾爾文檔圖像的關(guān)鍵詞檢索,首先對(duì)文檔圖像進(jìn)行單詞切分,然后對(duì)輸入單詞圖像在切分好的單詞圖像庫(kù)中進(jìn)行特征匹配,返回單詞圖像庫(kù)中匹配成功的圖像所屬的文檔圖像。由于只需對(duì)文檔圖像中的單詞進(jìn)行切分和特征匹配,無需精確識(shí)別所有字母,因此系統(tǒng)復(fù)雜度大大降低,同時(shí)檢索效率較高。

        文檔圖像的關(guān)鍵詞檢索系統(tǒng)首先要對(duì)文檔圖像進(jìn)行準(zhǔn)確的單詞切分,切分效果直接影響檢索結(jié)果。目前針對(duì)印刷體維吾爾文檔圖像的切分研究大多集中在字母切分方向,單詞切分方向的文獻(xiàn)較少。針對(duì)印刷體維吾爾文檔圖像的單詞切分,文獻(xiàn)[1]對(duì)投影得到的連體段進(jìn)行聚類分析,通過計(jì)算連體段的重疊率來合并屬于同一單詞的連體段,平均單詞切分準(zhǔn)確率達(dá)到了97%。文獻(xiàn)[2]針對(duì)手寫體維吾爾文檔圖像的單詞切分采用FCM(FuzzyC-means)融合K-means的聚類算法對(duì)文字區(qū)域之間的空白間距進(jìn)行聚類,把距離分成單詞內(nèi)距離和單詞間距離,從而得到單詞的切分點(diǎn)信息,平均切分正確率為80.68%。以上文獻(xiàn)在統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果時(shí)均忽略了“<< >>”“( )”“[]”等特殊標(biāo)點(diǎn)符號(hào)漏切分的影響,未對(duì)文本行末尾被拆分書寫的單詞進(jìn)行合并處理,而且切分準(zhǔn)確率有待提高。針對(duì)以上問題對(duì)關(guān)鍵詞檢索結(jié)果的影響,本文采用K-means算法[3]對(duì)印刷體文本行圖像投影后連體段之間的空白間隙進(jìn)行聚類分析,得出最佳間距判別閾值,同時(shí)對(duì)與空白間隙相鄰的連體段進(jìn)行篩選和識(shí)別,結(jié)合二者信息得到最佳切分點(diǎn)的位置信息和需要進(jìn)行單詞合并的單詞位置信息,實(shí)現(xiàn)對(duì)印刷體維吾爾文檔圖像準(zhǔn)確的單詞切分。

        2 維吾爾文單詞切分規(guī)則概述

        2.1 單詞劃分

        詞是維吾爾語(yǔ)中能獨(dú)立運(yùn)用的最小語(yǔ)言單位 ,詞與詞之間有明顯的間隙分隔開,不存在像漢語(yǔ)中單詞切分時(shí)的分詞問題。因此詞與詞之間的間距是維吾爾語(yǔ)文檔圖像中確定單詞切分點(diǎn)時(shí)最重要的依據(jù),多數(shù)關(guān)于單詞切分的文獻(xiàn)都是以單詞與單詞之間的間距為基礎(chǔ)。本文通過對(duì)文本行中所有連體段之間的間距進(jìn)行聚類分析來設(shè)置間隙判別閾值,區(qū)分單詞間的間距和單詞內(nèi)部的間距,連體段之間的間距大于設(shè)定閾值則說明此相鄰連體段屬于不同的單詞。

        2.2 標(biāo)點(diǎn)符號(hào)的影響

        維吾爾語(yǔ)中,一般而言標(biāo)點(diǎn)符號(hào)與單詞之間的間距小于詞與詞之間的間距,但明顯大于單詞內(nèi)部各連體段之間的間距,比如“.”“?”“!”“:”“?”等標(biāo)點(diǎn)符號(hào)。因此,設(shè)置合適的間距判別閾值,即可獲得此類標(biāo)點(diǎn)符號(hào)與單詞之間的切分點(diǎn)坐標(biāo)。然而對(duì)于“<< >>”“( )”“[]”等標(biāo)點(diǎn)符號(hào),通常是左半部分與單詞的間距略大于單詞內(nèi)連體段的間距,而右半部分與單詞的間距和單詞內(nèi)連體段的間距相同,因此無法根據(jù)這類標(biāo)點(diǎn)符號(hào)與單詞的間距來確定單詞的切分點(diǎn)位置。文獻(xiàn)[1]中將此類標(biāo)點(diǎn)符號(hào)看作與其間距最小的單詞的一部分來進(jìn)行切分,不符合后續(xù)關(guān)鍵詞檢索系統(tǒng)的需要,本文中將所有的標(biāo)點(diǎn)符號(hào)看作一個(gè)獨(dú)立的切分單元進(jìn)行切分。

        2.3 合并拆分書寫的單詞

        由于維吾爾語(yǔ)中不同單詞的長(zhǎng)度一般不同,某些長(zhǎng)度較長(zhǎng)的單詞位于行末時(shí),由于書寫位置不夠往往被拆分成兩個(gè)部分進(jìn)行書寫,一部分位于第一行的行末位置,并在末尾用符號(hào)“-”進(jìn)行標(biāo)示,另一部分位于下一行的開始位置。在印刷體維吾爾文檔中這種寫法大量存在,被拆分的部分沒有詞意,屬于無意義切分。本文中對(duì)所有按這種書寫方式書寫的單詞在切分時(shí)進(jìn)行合并處理,生成完整的單詞圖像。

        2.4 本文方法系統(tǒng)框圖

        與基于形態(tài)學(xué)操作的切分方法相比,對(duì)文檔圖像直接進(jìn)行投影[4]的切分方法計(jì)算量較大,但是直接投影法[5]能夠獲得單詞圖像最底層的紋理特征,可操作性強(qiáng),能夠使切分更加準(zhǔn)確。因此,本文選擇在對(duì)文本圖像直接進(jìn)行投影的基礎(chǔ)上,對(duì)投影所得的數(shù)據(jù)進(jìn)行綜合分析與判斷,從而找到單詞圖像的精確切分點(diǎn)。本文方法的系統(tǒng)流程圖如圖1所示。

        3 預(yù)處理

        3.1 文檔圖像收集

        文檔圖像的來源為新疆大學(xué)出版社出版發(fā)行的書籍《馬列主義經(jīng)典著作選編》的維吾爾語(yǔ)版本,為模擬不同的辦公環(huán)境,用不同型號(hào)的打印機(jī)將紙質(zhì)書籍掃描為文檔圖像,尺寸為716×1 011。由于長(zhǎng)期翻閱導(dǎo)致文檔發(fā)黃,加上掃描的環(huán)境不同以及紙質(zhì)文檔是雙面打印的影響,收集的文檔圖像帶有各種各樣的噪聲,如傾斜、椒鹽噪聲等,一些圖像甚至帶有較明顯的重影,如圖2所示。

        3.2 圖像去噪

        圖1 單詞切分系統(tǒng)流程圖

        圖2 原始文檔

        為最大限度保留文檔圖像上文字的筆畫信息,去除其他干擾信息,首先需要對(duì)所收集的文檔圖像進(jìn)行去噪處理。圖像上的噪聲基本是在紙質(zhì)文檔印刷后引入的,如翻閱、掃描等過程,與圖像上的文字信息無關(guān)。維納濾波[6]當(dāng)噪聲與信號(hào)無關(guān)時(shí)有很好的的效果,因此本文通過維納濾波來去除圖像上的噪聲。

        3.3 圖像增強(qiáng)

        為了能夠使圖像中文字的筆畫信息更加清晰,突出文字像素和背景像素之間的差別,同時(shí)減小不同圖像之間的亮度和對(duì)比度差別,本文選取線性灰度增強(qiáng)的方式對(duì)原始圖像進(jìn)行增強(qiáng)處理。設(shè)原始圖像 f(x,y)在變換前的灰度范圍是[a,b],增強(qiáng)后F(x,y)灰度范圍為[c,d],則線性灰度增強(qiáng)函數(shù)的表達(dá)式為:

        其中saturate_cast表示將增強(qiáng)后的像素值歸一化至0~255范圍內(nèi),通過調(diào)整a、b、c、d的值使增強(qiáng)后的圖像中像素的灰度差異性變大,易于設(shè)置閾值來區(qū)分文字像素與背景像素。

        3.4 傾斜校正

        所收集的部分文檔圖像在掃描過程中引入了不同程度的傾斜,而利用水平和垂直投影對(duì)維吾爾文檔圖像進(jìn)行連體段切分時(shí)要求圖像的傾斜角不能大于0.5°,因此需要對(duì)所收集的文檔圖像進(jìn)行傾斜校正。本文通過對(duì)常用的霍夫直線傾斜角檢測(cè)方法[7]進(jìn)行優(yōu)化,來實(shí)現(xiàn)文檔圖像的傾斜校正。由于部分圖像的文本傾斜角小于1°,計(jì)算傾斜角時(shí)誤差較大,因此本文首先統(tǒng)一對(duì)所有收集的文檔圖像逆時(shí)針旋轉(zhuǎn)2.5°,然后進(jìn)行霍夫直線檢測(cè),根據(jù)檢出的直線上兩個(gè)點(diǎn)的坐標(biāo)求得該直線的傾斜角。最后刪除數(shù)值明顯過大的傾斜角,對(duì)剩余的傾斜角求均值,將求得的均值作為該文檔圖像的傾斜角,利用此傾斜角順時(shí)針旋轉(zhuǎn)文檔圖像,從而實(shí)現(xiàn)傾斜校正,降低檢測(cè)誤差造成的影響。

        3.5 圖像的灰度化與二值化

        圖像的灰度化采用常用的加權(quán)平均法,設(shè)原圖像為f(x,y),灰度化后的圖像為g(x,y),則表達(dá)式如下:

        g(x,y)=0.299R(x,y)+0.578G(x,y)+0.114B(x,y)(2)其中,R(x,y)、G(x,y)、B(x,y)分別為原圖像的三個(gè)顏色通道的像素值。圖像的二值化采用最大類間方差法[8],即按圖像的灰度特性,將圖像分成文字信息和背景圖像兩部分,尋找使背景和文字像素之間的類間方差最大時(shí)的閾值,作為圖像二值化的全局閾值,文檔圖像經(jīng)過預(yù)處理后的效果如圖3所示。

        圖3 預(yù)處理效果圖

        4 單詞切分

        4.1 文本行切分

        設(shè) p(x,y)為圖像上任意一點(diǎn)的像素值,將經(jīng)過預(yù)處理后的文檔圖像的每一行的像素值進(jìn)行累加,P(y)為每一行的像素累加值,P(Y)為所有行像素累加值的最大值,表達(dá)式如下所示:

        其中,m為圖片寬度,n為圖片高度,j為圖片上任意行坐標(biāo),i取0到m-1之間的所有整數(shù)。設(shè)區(qū)分空白行與文字行的閾值為K,用每一行的行像素累加值與K比較大小,大于K則判定該行中沒有文字信息,為背景行,反之則判定該行中存在文字信息。由于經(jīng)過預(yù)處理后的文檔圖圖像仍然存在殘留噪聲點(diǎn)的干擾,因此根據(jù)經(jīng)驗(yàn)設(shè)閾值為所有行像素累加值的最大值減去200,來

        降低殘存噪聲點(diǎn)的干擾。根據(jù)閾值K獲取任意文本行在垂直方向的切分點(diǎn)坐標(biāo)的表達(dá)式如下:

        P(yi-1)>K?P(yi)>K?P(yi+1)K?P(yj+1)>K (6)其中,i與 j為圖像的行坐標(biāo),且滿足 j-i>10,則該文本行在垂直方向的開始行坐標(biāo)為i,結(jié)束行坐標(biāo)為 j,根據(jù)i與 j的坐標(biāo)即可將此文本行在圖像中切分出來,切分效果圖如圖4所示。

        4.2 連體段切分

        連體段[9]是對(duì)文本行進(jìn)行垂直投影時(shí)彼此相連,沒有空白間隙的單元,獨(dú)立的字母、幾個(gè)字母相連以及標(biāo)點(diǎn)符號(hào)等都視為一個(gè)連體段,連體段是最小的切分單元。與文本行切分原理一樣,設(shè) p(x,y)為文本行圖像上任意點(diǎn)的像素值,P(x)為文本行圖像上任意一列的像素累加值,P(X)為所有列的像素累加值的最大值,設(shè)區(qū)分文本行圖像中空白列與文字列的閾值為H,表達(dá)式如下:

        其中,l為已讀取文本行圖像的高度,i為圖像上任意列的坐標(biāo),j取0與l-1之間的整數(shù)。同理閾值H取值為P(X)-100,若圖像上列像素累加值大于H則視為空白列,反之則為帶文字信息列,依據(jù)此規(guī)則計(jì)算連體段的切分位置坐標(biāo)的表達(dá)式如下:

        其中,i、j為文本行圖像上任意行坐標(biāo),且i-j>3,i與j分別為連體段初始位置和末端位置的行坐標(biāo),根據(jù)位置坐標(biāo)即可將連體段切分出來,效果圖如圖5所示。

        4.3 合并連體段

        4.3.1 自適應(yīng)閾值計(jì)算

        利用維吾爾語(yǔ)單詞內(nèi)部連體段之間的間距和單詞之間的間距的差別,設(shè)置合適的閾值來區(qū)分各連體段,若相鄰兩連體段之間的間距大于閾值,則其屬于不同的單詞,在此間隙處進(jìn)行切分處理。若相鄰兩連體段之間的間距小于閾值,且經(jīng)過分析間距兩側(cè)的連體段都不是標(biāo)點(diǎn)符號(hào),則對(duì)此間隙兩側(cè)的連體段進(jìn)行合并處理,若此間隙兩側(cè)連體段經(jīng)過分析存在標(biāo)點(diǎn)符號(hào),則在此間隙處進(jìn)行切分處理。設(shè)判別閾值為M,為了適應(yīng)不同字體、字號(hào)與格式的文檔圖像,用K-means算法對(duì)任意文本行中的所有連體段之間的間距進(jìn)行聚類分析,計(jì)算出適合此文本行的判別閾值。任意文本行圖像上連體段之間的間距分為兩類,第一類為單詞之間的間距以及標(biāo)點(diǎn)符號(hào)與單詞之間的間距,第二類為單詞內(nèi)部連體段之間的間距。計(jì)算閾值M的表達(dá)式如下:

        其中,A與B分別為兩類間距的聚類中心,在求聚類中心時(shí)根據(jù)經(jīng)驗(yàn)去除了數(shù)值過大的間距值,來消除頁(yè)邊距空白處殘留的噪聲點(diǎn)對(duì)聚類結(jié)果的影響。

        4.3.2 標(biāo)點(diǎn)符號(hào)處理

        對(duì)于“.”“?”“!”“:”“?”等標(biāo)點(diǎn)符號(hào)[10-11],其與單詞之間的間距一般大于M,根據(jù)此類標(biāo)點(diǎn)符號(hào)與單詞之間的間距大小即可將其正確切分?!?< >>”“( )”“[]”等標(biāo)點(diǎn)符號(hào)因其與單詞之間的間距與單詞內(nèi)部連體段之間的間距相似,無法根據(jù)閾值M判斷切分點(diǎn),對(duì)于這類標(biāo)點(diǎn)符號(hào)通過對(duì)其提取特征來進(jìn)行區(qū)分。由于標(biāo)點(diǎn)符號(hào)的寬度一般都小于2M,因此在對(duì)文本行中的連體段進(jìn)行切分時(shí),針對(duì)寬度小于2M且與相鄰連體段之間的間距小于M的連體段,首先提取其輪廓的高度、寬度,以及距文本行上下邊界的距離等特征。若以上特征值滿足表達(dá)式(12)或表達(dá)式(13),說明該連體段可能為要尋找的標(biāo)點(diǎn)符號(hào),但仍需對(duì)其做進(jìn)一步判斷,表達(dá)式如下:

        圖4 文本行投影圖

        圖5 連體段投影圖

        其中a、b、c、d分別為連體段的寬度、高度,以及與上下邊界的間距值,表達(dá)式(12)為判斷符號(hào)“()”與“[]”的條件,表達(dá)式(13)為判斷符號(hào)“<< >>”的條件。用間距判別閾值M作為判別基礎(chǔ)是因?yàn)镸本身包含了文本行中文字的字體與字號(hào)等信息,將其作為對(duì)連體段的簡(jiǎn)單輪廓特征進(jìn)行判別與篩選的基礎(chǔ),能夠減小字體字號(hào)等變化帶來的影響。隨著文字的字體變化,標(biāo)點(diǎn)符號(hào)的輪廓大小在整個(gè)文本行中所占的比例也會(huì)變化,因此在根據(jù)連體段的輪廓特征對(duì)其進(jìn)行判別和篩選時(shí),在篩選范圍值中加入了一定的緩沖量,以此來消除字體等變化對(duì)篩選結(jié)果的影響。

        根據(jù)連體段的簡(jiǎn)單輪廓特征可以將其與多數(shù)連體段區(qū)分開來,但無法區(qū)分與其有相似輪廓特征的符號(hào),比如符號(hào)“”“”“”“”的輪廓大小與符號(hào)“( )”“[]”相似,符號(hào)“”“”輪廓大小與“<< >>”相似,因此需進(jìn)一步提取特征來判斷。對(duì)于“()”“[]”等符號(hào)而言,其特點(diǎn)是寬度較窄且高度較高,同時(shí)構(gòu)成符號(hào)的黑像素彼此相連,沒有被背景像素隔開的黑像素。對(duì)于與其大小相似的符號(hào)而言,構(gòu)成這類符號(hào)的黑像素都被背景像素分割成了幾部分。因此,在篩選與“()”等標(biāo)點(diǎn)符號(hào)相似的連體段時(shí),首先將連體段圖像放大四倍,然后進(jìn)行水平投影,根據(jù)放大后的連體段的高度信息以及放大后的圖像在水平投影中得到的連體段數(shù)目信息即可將與其相似的標(biāo)點(diǎn)符號(hào)區(qū)分開來。構(gòu)成符號(hào)“<< >>”的黑像素的特點(diǎn)是被背景像素分隔成兩部分,而與其輪廓大小相似的符號(hào)的黑像素彼此相連,沒有被背景像素分開,因此根據(jù)這一特點(diǎn)可將與其相似的符號(hào)進(jìn)行區(qū)分。由于符號(hào)“<< >>”無法根據(jù)投影來獲取連體段的數(shù)目,因此用凸包檢測(cè)[12]的方法來獲得連體段的數(shù)目。對(duì)連體段做進(jìn)一步特征提取的示意圖如圖6所示。

        圖6 特殊標(biāo)點(diǎn)判別示意圖

        圖6 中e為對(duì)符號(hào)“()”“[]”及與其輪廓大小相似的圖像按原圖高度的四倍和寬度的兩倍放大后進(jìn)行水平方向投影,得到的連體段數(shù)目;f為放大后符號(hào)的高度,根據(jù)實(shí)驗(yàn)下限取值為閾值M的9倍時(shí),滿足切分要求;g為將符號(hào)“<< >>”及與其輪廓大小相似的圖像放大3倍后檢測(cè)到的凸包的數(shù)目,這里凸包檢測(cè)的方式設(shè)為只檢測(cè)最外圍輪廓[13],包含在外圍輪廓內(nèi)的內(nèi)圍輪廓被忽略,并且在檢測(cè)時(shí)略去了輪廓范圍太小的凸包,來消除筆畫邊緣噪聲點(diǎn)對(duì)檢測(cè)結(jié)果的影響。符號(hào)“()”“[]”以及符號(hào)“<< >>”的判別條件分別如式(14)和式(15)所示:

        4.3.3 合并拆分書寫單詞

        維吾爾語(yǔ)中當(dāng)單詞寬度大于文本行的剩余位置能夠容納的寬度時(shí),單詞被拆分成兩個(gè)部分書寫[14],并在行末用連接符“-”進(jìn)行標(biāo)注。當(dāng)檢測(cè)到文本行的最后一個(gè)連體段為符號(hào)“-”時(shí),說明此文本行末尾有單詞被拆分書寫。連接符“-”的寬度會(huì)隨著字體的變化而變化,但其高度一般與單詞的筆畫寬度相同。檢測(cè)連接符“-”的過程如下,首先將位于文本行末尾且寬度滿足表達(dá)式(16)的連體段篩選出來,寬度判別表達(dá)式如下所示:

        其中,a為位于文本行末尾連體段的寬度,將篩選出的連體段圖像按兩倍高度和四倍寬度的比例放大,檢測(cè)放大后連體段的高度和寬度。圖像放大的目的是增大連接符“-”與其他連體段的輪廓大小的差值范圍,減小噪聲和圖像質(zhì)量退化對(duì)檢測(cè)結(jié)果的影響。設(shè)放大后連體段的高度為h,寬度為l,若h和l滿足式(17)時(shí):

        則說明此文本行末尾有單詞被拆分,記錄此連體段右側(cè)被拆分單詞以及下一行第一個(gè)單詞的位置信息,表達(dá)式(16)與(17)為對(duì)不同字號(hào)的文本進(jìn)行實(shí)驗(yàn)時(shí)根據(jù)實(shí)驗(yàn)數(shù)據(jù)得出的取值范圍。

        根據(jù)記錄的被拆分部分單詞圖像合成完整單詞時(shí),首先分別對(duì)兩部分圖像進(jìn)行水平投影,分別找出每一行行像素累加值的最小值所在的行坐標(biāo)。該行坐標(biāo)即為單詞的基線所在行的坐標(biāo),合并被拆分的兩部分單詞圖像時(shí)按基線在同一條水平線的規(guī)則將被拆分圖像在垂直方向上對(duì)齊。當(dāng)單詞拆分點(diǎn)位于單詞內(nèi)兩相鄰連體段之間的空白處時(shí),采用有間距合并的方式,即將基線對(duì)齊后的兩部分單詞圖像中相鄰連體段之間留出空白間距,間距值等于文本行中單詞內(nèi)部間距的聚類中心B。若拆分點(diǎn)在連體段上,進(jìn)行合并時(shí)將基線對(duì)齊后的兩部分單詞圖像上拆分點(diǎn)處相鄰的連體段緊密相連,單詞合并示意圖如圖7所示。

        圖7 拆分單詞合并規(guī)則示意圖

        為判斷拆分點(diǎn)位置,分別檢測(cè)拆分點(diǎn)兩側(cè)連體段的邊緣高度。設(shè)拆分點(diǎn)兩側(cè)連體段的邊緣高度分別為g1、g2,若g1與g2滿足判別式(18),則說明拆分點(diǎn)位于連體段上,應(yīng)采用無間距合并,反之則說明拆分點(diǎn)位于單詞內(nèi)連體段之間的間隙處,采用有間距合并。判別式(18)如下所示:在檢測(cè)邊緣高度時(shí),檢測(cè)寬度設(shè)為兩個(gè)像素,并且去除了連體段上的附加符號(hào)比如“¨”“∴”等,來減小檢測(cè)誤差。高度判別閾值設(shè)為M-2是因?yàn)椴鸱贮c(diǎn)位于連體段上時(shí),其邊緣高度即為單詞的基線高度,根據(jù)實(shí)驗(yàn)基線高度總是小于M-2的。當(dāng)拆分點(diǎn)位于單詞內(nèi)連體段之間的間隙時(shí),其邊緣高度一般遠(yuǎn)大于M-2。

        4.4 切分效果圖

        這里只截取了一張完整文檔圖像的一部分,從圖中可以看出一些比較難切分的標(biāo)點(diǎn)符號(hào)都被準(zhǔn)確地切分了出來,滿足后續(xù)基于關(guān)鍵詞檢索系統(tǒng)對(duì)單詞切分的需要,切分效果圖如圖8所示。

        5 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證本文所提出的方法針對(duì)印刷體維吾爾文檔圖像的單詞切分效果,從收集的文檔圖像數(shù)據(jù)庫(kù)中選取包含不同字號(hào)、行間距,以及清晰度的100張文檔圖像進(jìn)行實(shí)驗(yàn)。特殊標(biāo)點(diǎn)符號(hào)如“<< >>”“( )”“[]”往往是單詞錯(cuò)誤切分的主要來源,因此首先從已有的100張文檔圖像中選取5張?zhí)厥鈽?biāo)點(diǎn)符號(hào)數(shù)目較多的文檔圖像進(jìn)行切分實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。

        從表1可知在選取的5張文檔圖像中“<< >>”“()”“[]”三類標(biāo)點(diǎn)符號(hào)共有80個(gè),全部都切分正確,證明本文方法對(duì)此類與單詞間間隙較小的標(biāo)點(diǎn)符號(hào)的切分有很好的效果,同時(shí)保持較高的單詞切分準(zhǔn)確率。為驗(yàn)證本文方法對(duì)合并被拆分單詞的有效性,從已有的100張文檔圖像中選取5張被拆分單詞數(shù)目較多的文檔圖像進(jìn)行單詞切分實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。

        表1 包含較多特殊標(biāo)點(diǎn)符號(hào)的維吾爾文印刷體文檔圖像單詞切分實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)

        表2 包含較多被拆分單詞的維吾爾文印刷體文檔圖像單詞切分實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)

        從表2可知在選取的5張文檔圖像中共有57個(gè)單詞被以拆分的形式書寫,經(jīng)過本文方法處理后有54個(gè)單詞被正確合并,合并準(zhǔn)確率達(dá)到94.73%,證明本文方法對(duì)被拆分單詞的合并有很好的效果。為觀察本文方法對(duì)不同數(shù)量的印刷體維吾爾文文檔圖像進(jìn)行單詞切分時(shí)錯(cuò)誤切分率的變化范圍,隨機(jī)從已有的100張文檔圖像中分別選取數(shù)量分別為5、10、15、25、50張的文檔圖像進(jìn)行單詞切分實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。

        表3 隨機(jī)選取不同數(shù)量的維吾爾文印刷體文檔圖像單詞切分實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)

        圖8 印刷體維吾爾文檔圖像單詞切分效果圖

        表3通過隨機(jī)選取不同數(shù)量的文檔圖像進(jìn)行實(shí)驗(yàn),降低了偶然性對(duì)統(tǒng)計(jì)切分結(jié)果時(shí)的影響。在本實(shí)驗(yàn)中將標(biāo)點(diǎn)符號(hào)看作獨(dú)立的切分單元,并且將被拆分書寫的單詞在切分時(shí)進(jìn)行了合并。從表3可以看出,單詞切分的準(zhǔn)確率依據(jù)文檔圖像及其數(shù)量的不同會(huì)有小范圍波動(dòng),但是切分準(zhǔn)確率都在99%以上,證明本文方法對(duì)印刷體維吾爾文檔圖像單詞切分有很好的的效果。

        為對(duì)比本文方法與已有方法的相比的差異性,從已有數(shù)據(jù)庫(kù)中隨機(jī)選取了10幅印刷體維吾爾文檔圖像,與直接投影法[15]以及形態(tài)學(xué)梯度算法[16]進(jìn)行了對(duì)比實(shí)驗(yàn)。由于對(duì)比文獻(xiàn)中的方法未考慮單詞拆分影響,因此在統(tǒng)計(jì)切分結(jié)果時(shí)忽略單詞拆分的影響,對(duì)比實(shí)驗(yàn)結(jié)果如表4~6所示。

        表4 固定閾值+直接使用水平和垂直投影算法的印刷體維吾爾文檔圖像單詞切分實(shí)驗(yàn)結(jié)果

        表5 使用形態(tài)學(xué)梯度算法的印刷體維吾爾文檔圖像單詞切分實(shí)驗(yàn)結(jié)果

        從表中數(shù)據(jù)可知,在選取的10幅印刷體維吾爾文圖像中共有2 257個(gè)單詞,基于全局閾值的直接投影法的平均切分錯(cuò)誤率為5%,共切錯(cuò)112個(gè),基于形態(tài)學(xué)梯度算法平均切分錯(cuò)誤率為2.6%,共切錯(cuò)62個(gè)單詞,切分效果優(yōu)于直接投影法,平均切分錯(cuò)誤率降低了2.4個(gè)百分點(diǎn)。本文提出的間距聚類融合連體段判斷的方法平均錯(cuò)誤率為0.9%,共切錯(cuò)21個(gè)單詞,平均切分錯(cuò)誤率比直接投影法降低了4.1個(gè)百分點(diǎn),比形態(tài)學(xué)梯度算法降低了1.7個(gè)百分點(diǎn)。分析可知直接投影法只利用了單詞間的空白間距信息來確定切分點(diǎn),并且使用全局閾值來對(duì)多幅圖像進(jìn)行切分,對(duì)版面格式的適應(yīng)性差,故切分錯(cuò)誤率較高。形態(tài)學(xué)梯度算法通過膨脹和腐蝕[17]操作,使用膨脹后的單詞圖像減去腐蝕后的單詞圖像,從而得到整個(gè)單詞的邊緣輪廓信息。該方法能夠適應(yīng)不同版面格式的變化,因此效果優(yōu)于直接投影法,但兩種方法本質(zhì)都只利用了連體段之間的空白間距信息,因此對(duì)一些無法根據(jù)間距信息切出的特殊符號(hào)無效。本文提出的基于間距聚類和連體段判斷的維吾爾文圖像單詞切分方法通過間距聚類,計(jì)算動(dòng)態(tài)閾值來適應(yīng)不同版面格式的變化,同時(shí)結(jié)合連體段的輪廓信息能夠去除無法用間距信息去除的特殊標(biāo)點(diǎn)符號(hào),因此切分準(zhǔn)確率較高。但由于本文是在投影法的基礎(chǔ)上進(jìn)行,對(duì)文檔圖像的質(zhì)量較高,因此圖像預(yù)處理算法仍然需要改進(jìn)。三種切分方法切分效果對(duì)比圖如圖9所示。

        表6 間距聚類+連體段判別的印刷體維吾爾文檔圖像單詞切分實(shí)驗(yàn)結(jié)果

        圖9 三種方法錯(cuò)誤切分單詞數(shù)目對(duì)比圖

        6 結(jié)束語(yǔ)

        為了后續(xù)開發(fā)基于關(guān)鍵詞的印刷體維吾爾文檔圖像檢索系統(tǒng),首先需要對(duì)文檔圖像進(jìn)行準(zhǔn)確的切分。現(xiàn)有的切分方法中基于膨脹腐蝕的形態(tài)學(xué)操作方法與基于連體段聚類的投影切分方法都存在著標(biāo)點(diǎn)符號(hào)漏切分,被拆分書寫單詞未合并等問題。本文通過投影法獲取文本行中連體段的位置、大小、基本形狀等信息,然后對(duì)連體段之間的間隙進(jìn)行K-means聚類分析獲取自適應(yīng)間隙判別閾值,結(jié)合二者信息來獲得單詞的精確切分點(diǎn),同時(shí)合并被拆分書寫的單詞。投影法對(duì)文檔圖像的對(duì)比度、清晰度等要求較高,圖像質(zhì)量差是影響本文切分效果的主要因素。不同的質(zhì)量、文本格式的文檔數(shù)據(jù)庫(kù)會(huì)影響本文方法對(duì)單詞切分的準(zhǔn)確率,因此如何提高本文對(duì)噪聲干擾嚴(yán)重、模糊以及不同文本格式的圖像的切分效果,進(jìn)一步提高本文對(duì)不同質(zhì)量與種類的文檔圖像的魯棒性,將是下一步的研究重點(diǎn)。

        猜你喜歡
        維吾爾文印刷體標(biāo)點(diǎn)符號(hào)
        西夏文楷書和草書手寫體探微
        我們班的“標(biāo)點(diǎn)符號(hào)”
        小讀者(2020年4期)2020-06-16 03:34:06
        淺談小學(xué)英語(yǔ)字母手寫體與印刷體的教學(xué)
        西部少數(shù)民族語(yǔ)言對(duì)阿拉伯文獻(xiàn)的譯介及其特點(diǎn)
        標(biāo)點(diǎn)符號(hào)爭(zhēng)吵記
        標(biāo)點(diǎn)符號(hào)的爭(zhēng)論
        高考的時(shí)候,把字寫得像印刷體有用嗎
        新人教版《逍遙游》中幾處標(biāo)點(diǎn)符號(hào)誤用例說
        維吾爾文研究與Android維文閱讀器的實(shí)現(xiàn)?
        察合臺(tái)維吾爾文古籍的主要特點(diǎn)
        中文字幕无码专区一VA亚洲V专| 极品少妇hdxx麻豆hdxx| 精品午夜一区二区三区| 精品人妻伦九区久久AAA片69| 99无码熟妇丰满人妻啪啪| av在线播放中文专区| 天堂av无码大芭蕉伊人av孕妇黑人| 无码夜色一区二区三区| 高清偷自拍亚洲精品三区| 亚洲av男人的天堂一区| 一本色道久久88综合亚洲精品| 无码免费人妻超级碰碰碰碰| 日躁夜躁狠狠躁2001| 中文字幕在线观看| 国产精品视频白浆免费视频| 一区二区三区中文字幕有码| 国产精品三级在线观看| 无码毛片视频一区二区本码| 熟妇人妻无乱码中文字幕真矢织江| 日本亚洲视频免费在线看| 久久国产精品男人的天堂av| 91av视频在线| 18禁美女裸身无遮挡免费网站| 女人色熟女乱| 久久久久久久久无码精品亚洲日韩| 伊人久久大香线蕉av色婷婷| 精品系列无码一区二区三区| 国产日韩欧美网站| 亚洲依依成人亚洲社区| 成人性生交大片免费看96| 色偷偷色噜噜狠狠网站30根| 羞羞色院99精品全部免| 国产性感主播一区二区| 在线你懂| 中文不卡视频| 欧美三级不卡视频| 久久精品国产亚洲av高清漫画| 日本最大色倩网站www| 色综合久久久无码中文字幕| 久久久免费看少妇高潮| 久久99精品久久只有精品|