亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于SVM 的藏文古籍版面分割

2021-11-03 11:49:52任方針王秀友時(shí)如夢(mèng)王勝波劉華明

阜陽(yáng)師范大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年2期

關(guān)鍵詞：特征文本

任方針，王秀友，朱弋，時(shí)如夢(mèng)，王勝波，劉華明

（阜陽(yáng)師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院，安徽阜陽(yáng) 236037）

藏文古籍作為承載藏族文化的載體，對(duì)于藏族文化的傳承至關(guān)重要，因此對(duì)藏文古籍保護(hù)的研究較有意義，當(dāng)前古籍?dāng)?shù)字化保護(hù)已經(jīng)成為了主要的古籍保護(hù)方式。古籍?dāng)?shù)字化通常包括古籍拍照或掃描、古籍圖像版面分割、古籍圖像版面描述、古籍圖像內(nèi)容識(shí)別等步驟，古籍版面分割作為古籍?dāng)?shù)字化中的重要步驟，對(duì)古籍版面分割的研究是很有必要的。

版面分割是古籍?dāng)?shù)字化中關(guān)鍵的一步，是后續(xù)操作的基礎(chǔ)，在版面分割方面也有不少研究。在過(guò)去的幾十年中，國(guó)內(nèi)外的研究者針對(duì)印刷或手寫(xiě)的古籍文獻(xiàn)提出了許多不同的版面分析方法。張利等[1]利用游程平滑算法（Run length Smearing Algorithm,RLSA，RLSA）對(duì)英文文檔進(jìn)行版面分割。于明等[2]改進(jìn)了傳統(tǒng)基于連通域的版面分析方法，對(duì)文本圖像進(jìn)行單個(gè)字體的區(qū)域擴(kuò)充，使后續(xù)的連通間距統(tǒng)計(jì)更為準(zhǔn)確和方便，再通過(guò)連通間距的統(tǒng)計(jì)對(duì)圖像進(jìn)行模糊整合，進(jìn)行文本圖像的連通區(qū)域分割，效果更好。Chen 等[3-5]提出了基于顏色和紋理特征的歷史手寫(xiě)文檔圖像頁(yè)面分割方法、基于卷積自編碼的歷史文檔圖像頁(yè)面分割方法、基于無(wú)監(jiān)督特征學(xué)習(xí)超像素分類的歷史文檔圖像頁(yè)面分割方法，在歷史文檔頁(yè)面分割上取得了不錯(cuò)的效果，降低了復(fù)雜度且提升了分析效果。逯瑜嬌等[6]針對(duì)復(fù)雜版面分割問(wèn)題，將相位一致性統(tǒng)計(jì)特征和改進(jìn)灰度共生矩陣的紋理特征相結(jié)合，得到一種新的組合特征向量。將該組合特征向量作為訓(xùn)練樣本，最終得到基于支持向量機(jī)的復(fù)雜圖像分割算法，該方法在版面分割任務(wù)中表現(xiàn)出了較好的召回率與準(zhǔn)確率，能有效區(qū)分復(fù)雜圖像中的各類不同區(qū)域，但對(duì)于圖形區(qū)域的分割準(zhǔn)確度有所降低。魏傳義[7]提出一種分列投影的版面分割算法。該方法繼承了投影法本身計(jì)算速度快的特點(diǎn),同時(shí)還可以避免圖像弧度對(duì)版面分割的影響。在藏文古籍版面分割方面的研究相對(duì)其他文檔的少一些，Liu 等[8]提出一種基于邊界信息的藏文歷史文獻(xiàn)的版面分析方法，該方法在藏文古籍版面分析方面取得了較好的結(jié)果。張西群等[9-10]介紹了一種基于卷積降噪自編碼器的藏文歷史古籍版面分析方法。該方法能夠?qū)Σ匚臍v史文獻(xiàn)的不同版面元素進(jìn)行有效的分離，但其結(jié)果比較依賴聚類結(jié)果。

但當(dāng)前的處理思路沒(méi)有充分考慮到古籍各區(qū)域的特征，也沒(méi)有從多個(gè)特征層次上考慮圖像內(nèi)容的差異。本文從灰度、紋理、顏色3 個(gè)方面對(duì)古籍圖像進(jìn)行特征分析，采用基于統(tǒng)計(jì)的方法提取古籍圖像灰度、紋理、顏色18 維的特征向量作為分類特征。通過(guò)對(duì)圖像分塊后提取特征向量作為樣本訓(xùn)練SVM，再對(duì)待分割圖片分塊后對(duì)圖像塊進(jìn)行分類預(yù)測(cè)，得出粗略的版面分割結(jié)果，再結(jié)合投影法獲得更精確的版面分割結(jié)果，為藏文古籍版面分割提供了一種可行的思路，由于本文工作是為后續(xù)對(duì)藏文文本的切分、提取等工作做準(zhǔn)備，因此主要關(guān)注藏文區(qū)域的分割。

1 古籍圖像特征分析與提取

從藏文古籍圖片上可以看出，其主要包含圖像區(qū)、文本區(qū)、背景區(qū)等區(qū)域，且不同區(qū)域具有不同的特征，從顏色特征上分析，圖像區(qū)的顏色信息比較豐富，文本區(qū)的顏色信息比較單調(diào)，通常只有兩種顏色，而背景區(qū)的顏色則通常只有一種；從紋理特征上分析，圖像區(qū)的紋理具有多種紋理，層次比較豐富，文本區(qū)則具有文字的紋理特征，具有較多水平及垂直紋理，而背景區(qū)的紋理則較單一，不具有多種紋理；從灰度特征上分析，圖像區(qū)的灰度層次較豐富，對(duì)比度也較大，文本區(qū)和背景區(qū)灰度層次較少，對(duì)比度也較小。通過(guò)對(duì)古籍圖像特征的分析，決定使用灰度特征、紋理特征、顏色特征作為圖像的特征來(lái)表達(dá)各區(qū)域的信息特征。

1.1 灰度特征提取

對(duì)古籍圖像灰度特征分析，將灰度平均值、灰度方差、灰度熵、灰度能量、灰度對(duì)比度組成5 維向量來(lái)表達(dá)每一圖塊的灰度特征。

圖像的灰度均值是各個(gè)像素點(diǎn)的灰度值的平均值，可以在一定程度上反映圖像的灰度特征，將其作為灰度特征之一。

灰度方差表示圖像中各個(gè)像素的灰度值與整個(gè)圖像平均灰度值的離散程度。記iˉ為灰度均值，H(i)為灰度圖中灰度值為i的像素個(gè)數(shù)，L為灰度圖的灰度級(jí)數(shù)，灰度方差δ2為

圖像熵表示圖像中平均信息量的多少，灰度熵Hz為

灰度能量反映了圖像中灰度值的大小，灰度能量Hp為

灰度對(duì)比度說(shuō)明圖像中最大灰度與最小灰度的差值，f(a,b)為（a,b）位置像素的灰度值，灰度對(duì)比度contrast 為

運(yùn)用以上灰度均值等5 個(gè)值來(lái)表達(dá)每塊圖像的灰度特征。

1.2 紋理特征提取

基于灰度共生矩陣（gray-level co-occurrence matrix，GLCM）提取紋理特征的方法是一種典型的統(tǒng)計(jì)分析方法，GLCM 紋理提取方法具有較強(qiáng)的適應(yīng)能力和穩(wěn)健性，近年來(lái)已越來(lái)越多地用于圖像的檢測(cè)和分類。本文提取基于GLCM 的對(duì)比度、熵、二階矩、逆方差4 維向量來(lái)表達(dá)圖像的紋理特征。

對(duì)比度反映了圖像的清晰度和紋理溝紋深淺的程度。紋理的溝紋深，其對(duì)比度大，效果清晰；反之，對(duì)比度小，則溝紋淺，效果模糊[11]。紋理對(duì)比度Con 為

式中：m，n表示灰度值，P（m,n）表示距離與角度選定后灰度值m與n同時(shí)出現(xiàn)的頻度。

二階距反映了圖像灰度分布均勻程度和紋理粗細(xì)程度。二階矩Asm 為

當(dāng)Asm 大時(shí)，紋理粗，能量大；反之，Asm 小時(shí)，紋理細(xì)，能量小[12]。熵表示圖像中紋理的非均勻程度或復(fù)雜程度。若紋理復(fù)雜，熵值大；反之，若圖像中灰度均勻，共生矩陣中元素大小差異大，熵值小，熵Ent 為

逆方差反映圖像紋理的同質(zhì)性，度量圖像紋理局部變化的多少。如果灰度共生矩陣對(duì)角元素有較大值，Idm 就會(huì)取較大的值[13]。因此連續(xù)灰度的圖像會(huì)有較大Idm 值。逆方差I(lǐng)dm 為運(yùn)用以上基于GLCM 的二階矩等4 個(gè)值組成的4 維特征向量來(lái)描述每塊圖像紋理特征。

1.3 顏色特征

顏色特征是一種全局特征，述了圖像或圖像區(qū)域所對(duì)應(yīng)的事物的表面性質(zhì)。采用顏色矩來(lái)表達(dá)圖塊的顏色特征。顏色分布信息主要集中在低階矩中，因此僅采用顏色的一階矩、二階矩和三階矩就足以表達(dá)圖像的顏色分布[14]。

第x（x=1,2,3）通道上一階顏色矩Ex、二階顏色矩δx和三階顏色矩Sx分別反映圖像的整體明暗程度、圖像顏色的分布范圍和圖像顏色分布的對(duì)稱性。其計(jì)算公式為

式中：Pxy表示第y個(gè)像素第x通道上的顏色值。

通過(guò)3 個(gè)顏色通道上的前三階顏色矩組成的9 維特征向量來(lái)表達(dá)圖像的顏色特征。

2 基于SVM 的版面分割

本文提出的版面分割方法流程圖如圖1。首先對(duì)圖像濾波，濾波后將圖像分為150×150 像素的圖像塊，再提取這些圖像塊的特征并標(biāo)注，70%的樣本用于訓(xùn)練，剩余30%用于測(cè)試。使用SVM可以得到版面粗略分割結(jié)果，再用投影法處理后得到精確的版面分割結(jié)果。

圖1 基于SVM 版面分割流程圖

2.1 基于SVM 的粗略版面分割

基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的支持向量機(jī)(support vector machine,SVM)理論能夠適用于小樣本集學(xué)習(xí)的情況,具有很強(qiáng)的泛化能力,不過(guò)分依賴樣本的數(shù)量和質(zhì)量。基于SVM 的粗略版面分割步驟如下：

ⅰ將所有圖像進(jìn)行均值濾波并將所有圖像分成150×150 像素大小的圖像塊；

ⅱ對(duì)每個(gè)圖塊提取灰度特征、紋理特征、顏色特征共計(jì)18 維的特征構(gòu)成特征向量并進(jìn)行歸一化，歸一化采用離差標(biāo)準(zhǔn)化方式；

ⅲ人工標(biāo)注每個(gè)圖像塊，1 標(biāo)記為文本區(qū)，0標(biāo)記為非文本區(qū)；

ⅳ使用訓(xùn)練集訓(xùn)練SVM，并進(jìn)行參數(shù)調(diào)整；

ⅴ將待版面分割圖像分割為與訓(xùn)練集同樣大小的圖塊，提取特征向量并歸一化；

ⅵ使用訓(xùn)練好的SVM 對(duì)待版面分割圖像所提取的特征向量進(jìn)行分類；

ⅶ根據(jù)分類后的圖塊得到粗略的文本區(qū)坐標(biāo)，得到大致版面分割結(jié)果。

本文以分類結(jié)果作為版面分割的依據(jù)，將分類為文本區(qū)的第一個(gè)圖像塊左上角坐標(biāo)作為起始坐標(biāo)，分類為文本區(qū)的最后一個(gè)圖像塊右下角坐標(biāo)作為終點(diǎn)坐標(biāo)，從而獲得整個(gè)文本區(qū)的粗略坐標(biāo)并框出來(lái)。因此非常依賴分類結(jié)果，并且若第一幅或最后一幅圖像塊分類錯(cuò)誤將導(dǎo)致最終文本區(qū)坐標(biāo)誤差較大。為解決由于個(gè)別圖像塊分類錯(cuò)誤導(dǎo)致分割結(jié)果較差的問(wèn)題，結(jié)合圖片分塊后其文本區(qū)圖像塊連續(xù)的的特點(diǎn)，參考圖塊分類結(jié)果附近的兩幅圖塊分類結(jié)果，只有連續(xù)3 個(gè)圖像塊分類為文本區(qū)才認(rèn)定為文本區(qū)。這樣基本解決了由于個(gè)別圖像塊分類錯(cuò)誤導(dǎo)致最終版面分割結(jié)果誤差較大的問(wèn)題，從而獲得文本區(qū)的粗略坐標(biāo)，版面粗略分割結(jié)果如圖2。

圖2 粗略版面分割結(jié)果圖

2.2 基于投影法的精確版面分割結(jié)果獲取

由于獲得粗略版面分割結(jié)果既有文本區(qū)又有非文本區(qū)的圖塊通常分類為非文本區(qū)，因此粗略文本區(qū)坐標(biāo)通常小于實(shí)際文本區(qū)坐標(biāo)，為使版面分割結(jié)果更加精確，利用投影法結(jié)合古籍圖片特點(diǎn)來(lái)獲得更精確文本區(qū)坐標(biāo)，該類型古籍文本區(qū)邊框較明顯，合理二值化[15]。后邊框位置一般均為黑像素，因此邊框位置投影后的投影值通常都是最大的。根據(jù)這個(gè)特點(diǎn)結(jié)合上文得到的粗略文本區(qū)坐標(biāo)，在一定范圍內(nèi)投影便可獲得精確文本區(qū)坐標(biāo)，其流程圖如圖3。具體如下：

圖3 基于投影法的精確版面分割結(jié)果獲取流程圖

ⅰ將古籍圖像灰度化，得到灰度圖；

ⅱ將灰度圖二值化，得到二值化圖；

ⅲ對(duì)粗略文本區(qū)坐標(biāo)左邊框坐標(biāo)到該坐標(biāo)左側(cè)兩幅圖塊即300 像素的位置進(jìn)行垂直投影，將投影值最大的坐標(biāo)作為文本區(qū)精確左坐標(biāo)；

ⅳ對(duì)粗略文本區(qū)坐標(biāo)上邊框坐標(biāo)到該坐標(biāo)上方一幅幅圖塊即150 像素的位置進(jìn)行水平投影，將投影值最大的坐標(biāo)作為文本區(qū)精確上坐標(biāo)；

ⅴ對(duì)粗略文本區(qū)坐標(biāo)右邊框坐標(biāo)到該坐標(biāo)右側(cè)兩幅圖塊即300 像素的位置進(jìn)行垂直投影，將投影值最大的坐標(biāo)作為文本區(qū)精確右坐標(biāo)；

ⅵ對(duì)粗略文本區(qū)坐標(biāo)下邊框坐標(biāo)到該坐標(biāo)下方一幅幅圖塊即150 像素的位置進(jìn)行水平投影，將投影值最大的坐標(biāo)作為文本區(qū)精確下坐標(biāo)；

ⅶ以上述四個(gè)坐標(biāo)作為文本區(qū)精確坐標(biāo)對(duì)古籍圖像進(jìn)行版面分割，得到精確版面分割結(jié)果。

由于圖像區(qū)也存在邊框，若投影范圍過(guò)大，投影值最大的位置將會(huì)是圖像區(qū)邊框位置。因此左右投影范圍在兩幅圖像塊大小較好，上下范圍在一幅圖像塊大小較好。

本文采用SVM[16,17]對(duì)圖像塊分類得到粗略版面分割結(jié)果，再結(jié)合投影法得到古籍精確版面分割結(jié)果，分割效果較好，精確版面分割結(jié)果如圖4。

圖4 版面精確分割圖

3 實(shí)驗(yàn)結(jié)果與分析

本文對(duì)不同核函數(shù)在訓(xùn)練集和測(cè)試集上的正確率及召回率進(jìn)行測(cè)試。經(jīng)測(cè)試，高斯核函數(shù)具有最高的正確率及召回率，因此本文采用高斯核函數(shù)。

本文對(duì)34 幅古籍藏文圖片進(jìn)行了測(cè)試，34 幅圖片切分后共有13 283 幅圖像塊，分類錯(cuò)誤數(shù)為140 幅，圖像塊的分類正確率為99.79%。使用本文方法對(duì)這34 幅圖片進(jìn)行版面分割，準(zhǔn)確分割出文本區(qū)的共28 幅，因此分割準(zhǔn)確率為82.35%。以上正確率均為圖塊識(shí)別正確數(shù)目與圖片切分?jǐn)?shù)目比值，該結(jié)果仍然可以通過(guò)調(diào)整樣本集來(lái)改善正確率。

采用投影法[18,19]對(duì)版面分割結(jié)果進(jìn)行改善后，一些圖像塊分類錯(cuò)誤也不影響版面分割結(jié)果，魯棒性更強(qiáng)。

采用了分段投影法[20]進(jìn)行版面分割的方式對(duì)同樣的34 幅做了測(cè)試，由于該方法解決中文文檔圖像的版面分割問(wèn)題，而中文文檔與本文古籍圖像特點(diǎn)不同，因此對(duì)其作了一些改動(dòng)來(lái)使其更適用于藏文古籍圖像的版面分割。該方法對(duì)圖像本身特點(diǎn)依賴較強(qiáng)，且閾值選取直接影響到整個(gè)分割結(jié)果，且不同的圖像閾值也不同。以人工框出文本區(qū)面積與算法框出文本區(qū)面積比值作為分割率，兩種方法分割率比較結(jié)果如表1 所示?？梢钥闯霰疚奶岢龅姆椒▽?duì)該類別古籍版面分割效果比多段投影法好。

表1 不同方法實(shí)驗(yàn)結(jié)果

4 小結(jié)

本文提出了一種基于SVM 分類的版面分割方法，首先將圖像濾波，然后切分為圖像塊，對(duì)這些圖像塊提取特征后訓(xùn)練SVM，然后用SVM 對(duì)待分割圖像中的圖像塊進(jìn)行分類，根據(jù)分類結(jié)果得到粗略版面分割結(jié)果，在粗略版面分割結(jié)果的基礎(chǔ)上結(jié)合投影法獲得精確版面分割結(jié)果。對(duì)該類型的古籍圖像塊分類正確率較高。