王莉麗++陳曄++劉玲
摘要:本文提出了一種新的基于投影輪廓分析的版面有效分類;隨后詳細(xì)介紹了該方法的實(shí)現(xiàn)技術(shù)流程,給出了該方法進(jìn)行版面分析所依據(jù)7個(gè)特征的含義及作用。實(shí)驗(yàn)結(jié)果表明:提出的新方法,能夠?qū)?fù)雜版面文本圖像進(jìn)行有效的版面分割及區(qū)域類型分類,并能夠準(zhǔn)確的識(shí)別如頁眉這樣的特殊區(qū)域,版面分析結(jié)果準(zhǔn)確。
關(guān)鍵詞:文本圖像處理;版面分割;投影法
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)03-0164-02
目前,信息采集的多樣化,已嚴(yán)重威脅到了信息存儲(chǔ)的安全性。僅用一部手機(jī),就可獲取與泄露重要的信息。對(duì)文本數(shù)據(jù)信息安全性的擔(dān)憂,促使了紙質(zhì)文本圖像信息隱藏與提取方法的提出。這類方法的核心在于將安全標(biāo)識(shí)信息,以特有的方式嵌入到文本圖像的文本區(qū)域中,這樣,如果發(fā)生信息泄露或者要找尋到泄露源,就可以通過分析文本區(qū)域中包含的安全標(biāo)識(shí)信息,反向追蹤,查出泄漏源,或者通過安全標(biāo)識(shí)信息,回收被泄露出去的信息。對(duì)于簡(jiǎn)單的、只包含文本信息的文本圖像,目前的處理技術(shù)已比較成熟,能夠比較準(zhǔn)確的將版面信息進(jìn)行有效的分析,但是對(duì)于包含文本、圖形和圖像區(qū)域的復(fù)雜版面文本圖像,當(dāng)前的處理技術(shù)尚不成熟,需要進(jìn)一步提高。本文聚焦于復(fù)雜文本圖像分割方法研究。
版面分割的方法,大體上可以分為兩大類:層次式和非層次式的。層次式分割算法,主要有自頂向下和自底向上兩種算法。非層次式算法則主要是利用復(fù)雜的圖形圖像處理技術(shù),根據(jù)其圖像特征,對(duì)文本圖像進(jìn)行版面分割[1-4]。層次式方法中,游程平滑RLS(Run-length Smoothing)算法和投影輪廓切分PPC(Projection Profile Cut)算法是兩種有代表性且應(yīng)用較廣泛的算法。而基于紋理分析的版面分析算法,則是將版面分析和版面區(qū)域類型識(shí)別結(jié)合實(shí)現(xiàn)的一種算法。但上述方法時(shí)間消耗較大,為此本文提出了一種簡(jiǎn)單有效的分割方法。
1 提出的分類算法
首先,讀入待分類文本圖像,并對(duì)其格式轉(zhuǎn)換,確保圖像數(shù)據(jù)完整性,以防止丟失圖像數(shù)據(jù);然后進(jìn)行有效區(qū)域提取,剔除四周的空白無效區(qū)域,得到有效信息區(qū)。在此基礎(chǔ)上,對(duì)有效信息區(qū)進(jìn)行二維坐標(biāo)下的行投影,確定并統(tǒng)計(jì)、提取特征值,再根據(jù)統(tǒng)計(jì)得來的特征值,進(jìn)行孤立行分析,并依據(jù)判定的孤立行,對(duì)文本圖像進(jìn)行區(qū)域的粗分割,得到版面分析的粗分割結(jié)果。在上述過程中,可根據(jù)投影結(jié)果以及統(tǒng)計(jì)的特征值,完成對(duì)純文本區(qū)域、純圖像區(qū)域的分割工作。需要指出的是,本文著眼于復(fù)雜文本圖像,為此還須對(duì)區(qū)域粗分割得到的各個(gè)子區(qū)域,進(jìn)行二維坐標(biāo)下的列投影,再根據(jù)投影結(jié)果,判定子區(qū)域中是否存在分欄版面。完成以上步驟后,原本復(fù)雜的文本圖像版面就被分割為了多個(gè)簡(jiǎn)單版面的文本圖像區(qū),在此基礎(chǔ)上,再進(jìn)行行、列投影,根據(jù)所得特征值分析與分類,區(qū)分出文本區(qū)、圖像區(qū)和圖形圖表區(qū)域,完成分割任務(wù)。具體流程見圖1。
本文采用特征7個(gè)特征統(tǒng)計(jì)分析文本圖像,各特征分別為:(1)行高,記錄投影行高度的值。本文對(duì)行進(jìn)行投影,依據(jù)投影結(jié)果,計(jì)算二值化投影平均值發(fā)生改變的臨界點(diǎn)值,在臨界點(diǎn)值作運(yùn)算,獲得行高值。 我們對(duì)各行高度值進(jìn)行平均運(yùn)算,在分別與各行高度作對(duì)比,進(jìn)而初步確定異常區(qū)域;(2)行間距,行與行之間的間隔距離。此間距,由投影結(jié)果而得的下標(biāo)值計(jì)算求得。在文本圖像中,行間距發(fā)生明顯變化的部分,往往為段落或者區(qū)域塊之間的分割標(biāo)識(shí),此處計(jì)算行間距,作為段落區(qū)分和區(qū)域塊區(qū)分的一個(gè)標(biāo)識(shí);(3)縮進(jìn)率,文本與頁面邊界之間的距離。依據(jù)每一行的列投影結(jié)果,計(jì)算邊界至文本的距離占左右邊界之間距離的比率,求得縮進(jìn)率。在文本圖像中,標(biāo)題不同于其它文本行,往往存在較大縮進(jìn),或左縮進(jìn),或右縮進(jìn),或左右都有,為此可結(jié)合行高,完成對(duì)標(biāo)題的判定。此外,段落中往往有首行縮進(jìn),段尾也常因字符無法填滿文本行而存在縮進(jìn),因此也可根據(jù)縮進(jìn)率,判定段落區(qū)域;(4)行外接矩形填充率,在縮進(jìn)的行區(qū)域塊中,有效信息區(qū)域占整個(gè)區(qū)域塊的比率。依據(jù)每一行的列投影結(jié)果值計(jì)算填充率。主要用來判斷一些特殊的文本行,如頁眉的判斷;(5)最大跳變位置,對(duì)文本行進(jìn)行列投影時(shí),坐標(biāo)軸所示下標(biāo)發(fā)生最大變化的區(qū)域位置。根據(jù)該特征,如果連續(xù)多行在相同位置都發(fā)生最大跳變,且跳變區(qū)內(nèi)像素點(diǎn)平均值為1,則可以判定在該位置處存在分欄,此外,還可以根據(jù)最大跳變,判定是否存在異常區(qū)域;(6)行內(nèi)信號(hào)跳變周期(頻率),對(duì)文本行進(jìn)行列投影后,坐標(biāo)軸上投影下標(biāo)值發(fā)生周期性變化的周期或者頻率。根據(jù)此特征,可用來判定是否存在異常區(qū)域;(7)對(duì)齊方式,該特征用來衡量文本圖像中內(nèi)容距離左右邊界的距離,具體有居中,左對(duì)齊和右對(duì)齊三種方式,可用來輔助計(jì)算縮進(jìn)率,進(jìn)而分割區(qū)域塊。分割結(jié)果舉例見圖2。
2 結(jié)語
文本圖像版面分析是對(duì)文本圖像處理的關(guān)鍵環(huán)節(jié)。針對(duì)上述問題,本文以文本圖像二維坐標(biāo)下行列投影結(jié)果為基礎(chǔ),提取并分析相關(guān)特征,提出了一種新的基于投影輪廓分析的版面有效分類方法。該方法通過對(duì)特征的綜合運(yùn)算與分析完成復(fù)雜版面文本圖像的分析工作。驗(yàn)證了方法的有效性及準(zhǔn)確性。
參考文獻(xiàn)
[1]Kise K, Sato A, Iwata M. Segmentation of page images using the area Voronoi diagram[J]. Computer Vision Image Understanding,1998,70(3): 370-382.(8-4).
[2]楊洋,平西建.復(fù)雜版面的文本圖像圖文分割算法[J].微計(jì)算機(jī)信息,2006,22(5):66-225.
[3]劉仁金,高遠(yuǎn)飆,郝祥根.文本圖像頁面分割算法研究[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2010,40(5):500-504.
[4]Fletcher L A, Kasturi R A. A robust algorithm for text string separation from mixed text/graphic images[J]. IEEE Trans On Pattern Recognition and Machine Intelligence, 1998,10(6): 910~918.(9-5).