任方針,王秀友,朱 弋,時(shí)如夢(mèng),王勝波,劉華明
(阜陽(yáng)師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,安徽 阜陽(yáng) 236037)
藏文古籍作為承載藏族文化的載體,對(duì)于藏族文化的傳承至關(guān)重要,因此對(duì)藏文古籍保護(hù)的研究較有意義,當(dāng)前古籍?dāng)?shù)字化保護(hù)已經(jīng)成為了主要的古籍保護(hù)方式。古籍?dāng)?shù)字化通常包括古籍拍照或掃描、古籍圖像版面分割、古籍圖像版面描述、古籍圖像內(nèi)容識(shí)別等步驟,古籍版面分割作為古籍?dāng)?shù)字化中的重要步驟,對(duì)古籍版面分割的研究是很有必要的。
版面分割是古籍?dāng)?shù)字化中關(guān)鍵的一步,是后續(xù)操作的基礎(chǔ),在版面分割方面也有不少研究。在過(guò)去的幾十年中,國(guó)內(nèi)外的研究者針對(duì)印刷或手寫(xiě)的古籍文獻(xiàn)提出了許多不同的版面分析方法。張利等[1]利用游程平滑算法(Run length Smearing Algorithm,RLSA,RLSA)對(duì)英文文檔進(jìn)行版面分割。于明等[2]改進(jìn)了傳統(tǒng)基于連通域的版面分析方法,對(duì)文本圖像進(jìn)行單個(gè)字體的區(qū)域擴(kuò)充,使后續(xù)的連通間距統(tǒng)計(jì)更為準(zhǔn)確和方便,再通過(guò)連通間距的統(tǒng)計(jì)對(duì)圖像進(jìn)行模糊整合,進(jìn)行文本圖像的連通區(qū)域分割,效果更好。Chen 等[3-5]提出了基于顏色和紋理特征的歷史手寫(xiě)文檔圖像頁(yè)面分割方法、基于卷積自編碼的歷史文檔圖像頁(yè)面分割方法、基于無(wú)監(jiān)督特征學(xué)習(xí)超像素分類的歷史文檔圖像頁(yè)面分割方法,在歷史文檔頁(yè)面分割上取得了不錯(cuò)的效果,降低了復(fù)雜度且提升了分析效果。逯瑜嬌等[6]針對(duì)復(fù)雜版面分割問(wèn)題,將相位一致性統(tǒng)計(jì)特征和改進(jìn)灰度共生矩陣的紋理特征相結(jié)合,得到一種新的組合特征向量。將該組合特征向量作為訓(xùn)練樣本,最終得到基于支持向量機(jī)的復(fù)雜圖像分割算法,該方法在版面分割任務(wù)中表現(xiàn)出了較好的召回率與準(zhǔn)確率,能有效區(qū)分復(fù)雜圖像中的各類不同區(qū)域,但對(duì)于圖形區(qū)域的分割準(zhǔn)確度有所降低。魏傳義[7]提出一種分列投影的版面分割算法。該方法繼承了投影法本身計(jì)算速度快的特點(diǎn),同時(shí)還可以避免圖像弧度對(duì)版面分割的影響。在藏文古籍版面分割方面的研究相對(duì)其他文檔的少一些,Liu 等[8]提出一種基于邊界信息的藏文歷史文獻(xiàn)的版面分析方法,該方法在藏文古籍版面分析方面取得了較好的結(jié)果。張西群等[9-10]介紹了一種基于卷積降噪自編碼器的藏文歷史古籍版面分析方法。該方法能夠?qū)Σ匚臍v史文獻(xiàn)的不同版面元素進(jìn)行有效的分離,但其結(jié)果比較依賴聚類結(jié)果。
但當(dāng)前的處理思路沒(méi)有充分考慮到古籍各區(qū)域的特征,也沒(méi)有從多個(gè)特征層次上考慮圖像內(nèi)容的差異。本文從灰度、紋理、顏色3 個(gè)方面對(duì)古籍圖像進(jìn)行特征分析,采用基于統(tǒng)計(jì)的方法提取古籍圖像灰度、紋理、顏色18 維的特征向量作為分類特征。通過(guò)對(duì)圖像分塊后提取特征向量作為樣本訓(xùn)練SVM,再對(duì)待分割圖片分塊后對(duì)圖像塊進(jìn)行分類預(yù)測(cè),得出粗略的版面分割結(jié)果,再結(jié)合投影法獲得更精確的版面分割結(jié)果,為藏文古籍版面分割提供了一種可行的思路,由于本文工作是為后續(xù)對(duì)藏文文本的切分、提取等工作做準(zhǔn)備,因此主要關(guān)注藏文區(qū)域的分割。
從藏文古籍圖片上可以看出,其主要包含圖像區(qū)、文本區(qū)、背景區(qū)等區(qū)域,且不同區(qū)域具有不同的特征,從顏色特征上分析,圖像區(qū)的顏色信息比較豐富,文本區(qū)的顏色信息比較單調(diào),通常只有兩種顏色,而背景區(qū)的顏色則通常只有一種;從紋理特征上分析,圖像區(qū)的紋理具有多種紋理,層次比較豐富,文本區(qū)則具有文字的紋理特征,具有較多水平及垂直紋理,而背景區(qū)的紋理則較單一,不具有多種紋理;從灰度特征上分析,圖像區(qū)的灰度層次較豐富,對(duì)比度也較大,文本區(qū)和背景區(qū)灰度層次較少,對(duì)比度也較小。通過(guò)對(duì)古籍圖像特征的分析,決定使用灰度特征、紋理特征、顏色特征作為圖像的特征來(lái)表達(dá)各區(qū)域的信息特征。
對(duì)古籍圖像灰度特征分析,將灰度平均值、灰度方差、灰度熵、灰度能量、灰度對(duì)比度組成5 維向量來(lái)表達(dá)每一圖塊的灰度特征。
圖像的灰度均值是各個(gè)像素點(diǎn)的灰度值的平均值,可以在一定程度上反映圖像的灰度特征,將其作為灰度特征之一。
灰度方差表示圖像中各個(gè)像素的灰度值與整個(gè)圖像平均灰度值的離散程度。記iˉ為灰度均值,H(i)為灰度圖中灰度值為i的像素個(gè)數(shù),L為灰度圖的灰度級(jí)數(shù),灰度方差δ2為
圖像熵表示圖像中平均信息量的多少,灰度熵Hz為
灰度能量反映了圖像中灰度值的大小,灰度能量Hp為
灰度對(duì)比度說(shuō)明圖像中最大灰度與最小灰度的差值,f(a,b)為(a,b)位置像素的灰度值,灰度對(duì)比度contrast 為
運(yùn)用以上灰度均值等5 個(gè)值來(lái)表達(dá)每塊圖像的灰度特征。
基于灰度共生矩陣(gray-level co-occurrence matrix,GLCM)提取紋理特征的方法是一種典型的統(tǒng)計(jì)分析方法,GLCM 紋理提取方法具有較強(qiáng)的適應(yīng)能力和穩(wěn)健性,近年來(lái)已越來(lái)越多地用于圖像的檢測(cè)和分類。本文提取基于GLCM 的對(duì)比度、熵、二階矩、逆方差4 維向量來(lái)表達(dá)圖像的紋理特征。
對(duì)比度反映了圖像的清晰度和紋理溝紋深淺的程度。紋理的溝紋深,其對(duì)比度大,效果清晰;反之,對(duì)比度小,則溝紋淺,效果模糊[11]。紋理對(duì)比度Con 為
式中:m,n表示灰度值,P(m,n)表示距離與角度選定后灰度值m與n同時(shí)出現(xiàn)的頻度。
二階距反映了圖像灰度分布均勻程度和紋理粗細(xì)程度。二階矩Asm 為
當(dāng)Asm 大時(shí),紋理粗,能量大;反之,Asm 小時(shí),紋理細(xì),能量小[12]。熵表示圖像中紋理的非均勻程度或復(fù)雜程度。若紋理復(fù)雜,熵值大;反之,若圖像中灰度均勻,共生矩陣中元素大小差異大,熵值小,熵Ent 為
逆方差反映圖像紋理的同質(zhì)性,度量圖像紋理局部變化的多少。如果灰度共生矩陣對(duì)角元素有較大值,Idm 就會(huì)取較大的值[13]。因此連續(xù)灰度的圖像會(huì)有較大Idm 值。逆方差I(lǐng)dm 為運(yùn)用以上基于GLCM 的二階矩等4 個(gè)值組成的4 維特征向量來(lái)描述每塊圖像紋理特征。
顏色特征是一種全局特征,述了圖像或圖像區(qū)域所對(duì)應(yīng)的事物的表面性質(zhì)。采用顏色矩來(lái)表達(dá)圖塊的顏色特征。顏色分布信息主要集中在低階矩中,因此僅采用顏色的一階矩、二階矩和三階矩就足以表達(dá)圖像的顏色分布[14]。
第x(x=1,2,3)通道上一階顏色矩Ex、二階顏色矩δx和三階顏色矩Sx分別反映圖像的整體明暗程度、圖像顏色的分布范圍和圖像顏色分布的對(duì)稱性。其計(jì)算公式為
式中:Pxy表示第y個(gè)像素第x通道上的顏色值。
通過(guò)3 個(gè)顏色通道上的前三階顏色矩組成的9 維特征向量來(lái)表達(dá)圖像的顏色特征。
本文提出的版面分割方法流程圖如圖1。首先對(duì)圖像濾波,濾波后將圖像分為150×150 像素的圖像塊,再提取這些圖像塊的特征并標(biāo)注,70%的樣本用于訓(xùn)練,剩余30%用于測(cè)試。使用SVM可以得到版面粗略分割結(jié)果,再用投影法處理后得到精確的版面分割結(jié)果。
圖1 基于SVM 版面分割流程圖
基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的支持向量機(jī)(support vector machine,SVM)理論能夠適用于小樣本集學(xué)習(xí)的情況,具有很強(qiáng)的泛化能力,不過(guò)分依賴樣本的數(shù)量和質(zhì)量。基于SVM 的粗略版面分割步驟如下:
ⅰ將所有圖像進(jìn)行均值濾波并將所有圖像分成150×150 像素大小的圖像塊;
ⅱ對(duì)每個(gè)圖塊提取灰度特征、紋理特征、顏色特征共計(jì)18 維的特征構(gòu)成特征向量并進(jìn)行歸一化,歸一化采用離差標(biāo)準(zhǔn)化方式;
ⅲ人工標(biāo)注每個(gè)圖像塊,1 標(biāo)記為文本區(qū),0標(biāo)記為非文本區(qū);
ⅳ使用訓(xùn)練集訓(xùn)練SVM,并進(jìn)行參數(shù)調(diào)整;
ⅴ將待版面分割圖像分割為與訓(xùn)練集同樣大小的圖塊,提取特征向量并歸一化;
ⅵ使用訓(xùn)練好的SVM 對(duì)待版面分割圖像所提取的特征向量進(jìn)行分類;
ⅶ根據(jù)分類后的圖塊得到粗略的文本區(qū)坐標(biāo),得到大致版面分割結(jié)果。
本文以分類結(jié)果作為版面分割的依據(jù),將分類為文本區(qū)的第一個(gè)圖像塊左上角坐標(biāo)作為起始坐標(biāo),分類為文本區(qū)的最后一個(gè)圖像塊右下角坐標(biāo)作為終點(diǎn)坐標(biāo),從而獲得整個(gè)文本區(qū)的粗略坐標(biāo)并框出來(lái)。因此非常依賴分類結(jié)果,并且若第一幅或最后一幅圖像塊分類錯(cuò)誤將導(dǎo)致最終文本區(qū)坐標(biāo)誤差較大。為解決由于個(gè)別圖像塊分類錯(cuò)誤導(dǎo)致分割結(jié)果較差的問(wèn)題,結(jié)合圖片分塊后其文本區(qū)圖像塊連續(xù)的的特點(diǎn),參考圖塊分類結(jié)果附近的兩幅圖塊分類結(jié)果,只有連續(xù)3 個(gè)圖像塊分類為文本區(qū)才認(rèn)定為文本區(qū)。這樣基本解決了由于個(gè)別圖像塊分類錯(cuò)誤導(dǎo)致最終版面分割結(jié)果誤差較大的問(wèn)題,從而獲得文本區(qū)的粗略坐標(biāo),版面粗略分割結(jié)果如圖2。
圖2 粗略版面分割結(jié)果圖
由于獲得粗略版面分割結(jié)果既有文本區(qū)又有非文本區(qū)的圖塊通常分類為非文本區(qū),因此粗略文本區(qū)坐標(biāo)通常小于實(shí)際文本區(qū)坐標(biāo),為使版面分割結(jié)果更加精確,利用投影法結(jié)合古籍圖片特點(diǎn)來(lái)獲得更精確文本區(qū)坐標(biāo),該類型古籍文本區(qū)邊框較明顯,合理二值化[15]。后邊框位置一般均為黑像素,因此邊框位置投影后的投影值通常都是最大的。根據(jù)這個(gè)特點(diǎn)結(jié)合上文得到的粗略文本區(qū)坐標(biāo),在一定范圍內(nèi)投影便可獲得精確文本區(qū)坐標(biāo),其流程圖如圖3。具體如下:
圖3 基于投影法的精確版面分割結(jié)果獲取流程圖
ⅰ將古籍圖像灰度化,得到灰度圖;
ⅱ將灰度圖二值化,得到二值化圖;
ⅲ對(duì)粗略文本區(qū)坐標(biāo)左邊框坐標(biāo)到該坐標(biāo)左側(cè)兩幅圖塊即300 像素的位置進(jìn)行垂直投影,將投影值最大的坐標(biāo)作為文本區(qū)精確左坐標(biāo);
ⅳ對(duì)粗略文本區(qū)坐標(biāo)上邊框坐標(biāo)到該坐標(biāo)上方一幅幅圖塊即150 像素的位置進(jìn)行水平投影,將投影值最大的坐標(biāo)作為文本區(qū)精確上坐標(biāo);
ⅴ對(duì)粗略文本區(qū)坐標(biāo)右邊框坐標(biāo)到該坐標(biāo)右側(cè)兩幅圖塊即300 像素的位置進(jìn)行垂直投影,將投影值最大的坐標(biāo)作為文本區(qū)精確右坐標(biāo);
ⅵ對(duì)粗略文本區(qū)坐標(biāo)下邊框坐標(biāo)到該坐標(biāo)下方一幅幅圖塊即150 像素的位置進(jìn)行水平投影,將投影值最大的坐標(biāo)作為文本區(qū)精確下坐標(biāo);
ⅶ以上述四個(gè)坐標(biāo)作為文本區(qū)精確坐標(biāo)對(duì)古籍圖像進(jìn)行版面分割,得到精確版面分割結(jié)果。
由于圖像區(qū)也存在邊框,若投影范圍過(guò)大,投影值最大的位置將會(huì)是圖像區(qū)邊框位置。因此左右投影范圍在兩幅圖像塊大小較好,上下范圍在一幅圖像塊大小較好。
本文采用SVM[16,17]對(duì)圖像塊分類得到粗略版面分割結(jié)果,再結(jié)合投影法得到古籍精確版面分割結(jié)果,分割效果較好,精確版面分割結(jié)果如圖4。
圖4 版面精確分割圖
本文對(duì)不同核函數(shù)在訓(xùn)練集和測(cè)試集上的正確率及召回率進(jìn)行測(cè)試。經(jīng)測(cè)試,高斯核函數(shù)具有最高的正確率及召回率,因此本文采用高斯核函數(shù)。
本文對(duì)34 幅古籍藏文圖片進(jìn)行了測(cè)試,34 幅圖片切分后共有13 283 幅圖像塊,分類錯(cuò)誤數(shù)為140 幅,圖像塊的分類正確率為99.79%。使用本文方法對(duì)這34 幅圖片進(jìn)行版面分割,準(zhǔn)確分割出文本區(qū)的共28 幅,因此分割準(zhǔn)確率為82.35%。以上正確率均為圖塊識(shí)別正確數(shù)目與圖片切分?jǐn)?shù)目比值,該結(jié)果仍然可以通過(guò)調(diào)整樣本集來(lái)改善正確率。
采用投影法[18,19]對(duì)版面分割結(jié)果進(jìn)行改善后,一些圖像塊分類錯(cuò)誤也不影響版面分割結(jié)果,魯棒性更強(qiáng)。
采用了分段投影法[20]進(jìn)行版面分割的方式對(duì)同樣的34 幅做了測(cè)試,由于該方法解決中文文檔圖像的版面分割問(wèn)題,而中文文檔與本文古籍圖像特點(diǎn)不同,因此對(duì)其作了一些改動(dòng)來(lái)使其更適用于藏文古籍圖像的版面分割。該方法對(duì)圖像本身特點(diǎn)依賴較強(qiáng),且閾值選取直接影響到整個(gè)分割結(jié)果,且不同的圖像閾值也不同。以人工框出文本區(qū)面積與算法框出文本區(qū)面積比值作為分割率,兩種方法分割率比較結(jié)果如表1 所示??梢钥闯霰疚奶岢龅姆椒▽?duì)該類別古籍版面分割效果比多段投影法好。
表1 不同方法實(shí)驗(yàn)結(jié)果
本文提出了一種基于SVM 分類的版面分割方法,首先將圖像濾波,然后切分為圖像塊,對(duì)這些圖像塊提取特征后訓(xùn)練SVM,然后用SVM 對(duì)待分割圖像中的圖像塊進(jìn)行分類,根據(jù)分類結(jié)果得到粗略版面分割結(jié)果,在粗略版面分割結(jié)果的基礎(chǔ)上結(jié)合投影法獲得精確版面分割結(jié)果。對(duì)該類型的古籍圖像塊分類正確率較高。
阜陽(yáng)師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年2期