亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于版面結構距離的文檔圖像檢索算法

        2010-05-11 11:57:50王希常
        關鍵詞:頁面文本方法

        趙 慧 ,王希常 ,劉 江

        (1.山東師范大學 信息科學與工程學院,山東 濟南 250014;2.山東山大鷗瑪軟件有限公司數(shù)據(jù)研究中心,山東 濟南 250100)

        文檔圖像一般意為含有文字信息的圖像,目前大多數(shù)信息是以數(shù)字化形式存在的,并以文檔的形式組織起來存放在數(shù)據(jù)庫中。在這樣的數(shù)據(jù)庫中查找有關資料其技術是關鍵。常見的文檔圖像檢索方法是基于內(nèi)容的文檔圖像檢索(CBIR)。它是利用圖像本身的信息,通常以圖像特征(顏色、紋理、形狀、結構布局和語義特征等)的相似性為檢索依據(jù),根據(jù)每幅圖像都有的可比較特征進行檢索。

        雖然目前OCR技術已經(jīng)能夠提供很高的打印體字符識別正確率,但是往往需要人工交互來提高字符識別的正確性。這對一個大規(guī)模的文檔圖像數(shù)據(jù)庫來說,其代價是相當大的。手寫體字符的識別本身相當困難,而語言相關性也是這類算法的一個明顯的缺點。因為不同的語言文字要求依靠不同的OCR系統(tǒng)去處理混合多種語言的文檔圖像,這將影響檢索系統(tǒng)的使用范圍。

        BEUSEKOM J V.等人提出了一種基于版面分析的文檔圖像檢索的距離度量方法,將文本區(qū)域分為不同的矩形塊,然后找到塊的中心點,利用角點的曼哈頓距離來計算塊之間的距離,再利用三種不同的方法進行匹配[1];WONG K Y.使用游程平滑算法進行版面信息提取的方法[2];BREUEL T M.提出了使用 Whitespace算法來提取版面信息[3]。

        本文提出了一種在文檔圖像數(shù)據(jù)庫中使用版面特征進行檢索的方法,具體定義了文檔頁面中均具有的行的版面特征。該方法直接作用于圖像數(shù)據(jù),具有抗傾斜和抗縮放的好處。

        具體步驟是先將文檔圖像進行梯度和最大梯度差MGD(Maximum Gradient Different)計 算[4],然 后 使 用 MGD值作為一個窗口對文本區(qū)域進行融合,提取出行塊并用行線的形式標示出來,計算出相對坐標,再計算兩版面之間的距離進行匹配。

        1 相關工作

        1.1 文本行標記

        將得到的文檔圖像進行預處理,具體的處理方法是:

        使用文本行標記算法實現(xiàn)文字區(qū)域的行定位。本文使用[-1,0,1]對圖像進行處理計算其梯度,然后計算其MGD。MGD計算方法如下:在一個大小為n的窗口內(nèi),用它的最大梯度差來進行填充,以達到文本融合的目的。因為英文和中文的字符寬度不同,根據(jù)具體的情況選擇n,大于字符間距即可。將計算出來的梯度求它的最大值和最小值,然后相減,即為最大梯度差。將得到的MGD圖像使用最大類間方差方法[5](OTSU)求出閾值得到二值圖像[2]。圖1為使用上述方法對行塊進行標記的圖像。

        圖1 使用上述方法對行塊進行標記的圖

        1.2 消除階躍跳變

        對于手寫體或者英文的文檔,會出現(xiàn)字符高低不一、筆畫不連續(xù)等情況。線特征產(chǎn)生的斷點可采用形態(tài)學方法、凸凹點處理和噪聲處理三種基本策略提高直線的連續(xù)性,然后采用階梯插補算法來消除階躍跳變,算法的復雜度相對較低。

        在像素級上進行處理是:當出現(xiàn)行階躍跳變的情況時,使用如圖2的模板來對其進行填充。因為文檔圖像的行塊在4個方向上都有可能出現(xiàn)這種階躍,所以采用一個 3×3的模板,以位置 5為中心點,如圖3所示,4種情況都包含其中:1和4為非文本像素,對4進行填充;3和6為非文本像素,對6進行填充;4和7為非文本像素,對4進行填充;6和9為非文本像素,對6進行填充。如果填充之后依然有符合結構的像素,則繼續(xù)填充,即把需要填充的區(qū)域都填充完整。填充前后的圖像如圖4所示。

        圖2 3×3 模板

        1.3 行線標記

        圖3 階躍跳變的四種可能情況

        通過對得到的二值圖像的行跳變的填補,文本行的變化相對比較平滑,這有利于行線的標記。本方法取每個文本行的下邊緣來作為行線。因為背景區(qū)域為黑色,文字區(qū)域為白色,所以對文檔圖像進行掃描,從黑色區(qū)域進入白色區(qū)域時所遇到的第一個像素進行標記,這樣就把每一行的行線標記出來了,所得到的行線是單像素的。這種方法的優(yōu)點是可以抗傾斜。

        圖4 填充前后的圖像

        圖5(a)為對圖1中的圖像中的行用直線的方式標記出來。為了驗證提取出的行線與原圖是否一致,將它與原圖(如圖 5(b)所示)進行了匹配,可以看出,所得結果是比較滿意的。

        圖5 對圖1的圖像行用直線標記出

        2 匹配算法

        本文所采用的方法是將行線抽象為空間中的一個點,點的灰度值定義為行線的長度。全局匹配模式考慮版面的加權平均,用于全局位置進行匹配,這個過程相當于文本區(qū)定位過程。局部匹配模式是定義兩個行在位置、尺寸上的變化情況,通過位置優(yōu)先(版面)得到匹配模式,進而對匹配誤差能量進行計算。

        匹配方法轉化為兩組點之間的匹配定義問題,點模式簡化了問題的復雜性,只包含了版面結構信息、長度信息和尺寸信息。

        (1)點模式匹配

        假如一個頁面上總共有m行,從第一行開始,因為行線為單像素,所以每一行的起始坐標為(xi,yi),其中i=0,…,m-1,將每行的長度定義為 zi,i=0,…,m-1。 總共有m個點,這m個點的中心點的位置坐標為(x0,y0)。在計算中心點的位置坐標時,將它的每行的長度作為權重考慮在內(nèi),即:

        中心點加權匹配方式不能完全解決問題,圖像在兩個尺度上的縮放對這種方式影響極大。使用歸一化的尺寸可部分解決這個問題,但歸一化后仍需計算中心點的位置,通過中心點進行坐標轉換,使用坐標轉換后的新的點模式對差異性進行度量。

        每 一 行 起 始 坐 標 的 相 對 坐 標 是 (xi′,yi′),xi′=xi-x0,yi′=yi-y0。圖6為將行線抽象為空間中的點的圖像,其中亮度代表該行的長度,位置為起點坐標。

        圖6 將行線抽象為空間中的點的圖像

        (2)距離匹配模式計算

        將兩個頁面的中心點對齊,從第一個頁面的第一行開始,與另一個頁面每行進行比較。假如另一個頁面的相對坐標是(uj′,vj′),j=0,…,n-1,每行長度為 wj。計算兩個待比較頁面的坐標及長度的差 Δxi、Δyi、Δzi, 其中:Δxi=xi′-uj′,Δyi=yi′-vj′,Δzi=zi-wj。 則定義差異 能量為:

        dEnerge(i)=Δxi+Δyi+Δzi

        將第一個頁面的第一行與第二個頁面的每一行進行比較,得到n個差異能量,求這n個差異能量的最小值min(dEnerge(i))。第一個頁面共有m行,將得到m個值,對其求和:

        不匹配的情況經(jīng)常發(fā)生,例如一個圖像中含有4個點模式,另一個圖像中含有10個點模式,內(nèi)部點模式之間具有結構相關性,結構上的相關性定義為點模式位置掩模距離,該距離用來度量點模式全局匹配能力。如果一個點模式為另一個點模式的子模式,則該方法實現(xiàn)子圖檢索功能,模式距離最小時,產(chǎn)生最佳匹配。最佳匹配時,產(chǎn)生更為細致的行線檢索能力。使用掩模方法是為了產(chǎn)生更好的查準率。

        3 實驗結果與分析

        應用上述方法進行了實驗,數(shù)據(jù)為手寫體英文,數(shù)據(jù)采集分辨率為100 dpi,256級灰度圖像,數(shù)據(jù)量為100幅文檔圖像。對不同的圖像分別比較它們的相似度。圖 7(b)、(c)、(d)是與圖 7(a)的相似度分別為 40.422 9、45.760 7和 43.407 8的圖像。 圖 8(b)、(c)、(d)是與圖 8(a)原圖像版面結構相似的幾種圖像類型。圖 9(b)、(c)、(d)是與圖9(a)原圖像版面結構具有差異的幾種圖像類型。

        本文使用對100幅文檔圖像兩兩進行版面結構的匹配,共有4 950種結果。實驗結果表明,兩種不同版面的能量差異最大的在340左右,如圖10所示。橫坐標顯示的是100幅圖像兩兩匹配出現(xiàn)的情況的數(shù)目,可以取到的最大坐標為4 950,縱坐標為各匹配情況對應的能量差異,最大值350。從圖中可以看出能量差異主要集中在 50~200之間。

        圖7 不同圖像的比較

        圖8 與原圖像(a)版面結構相似的圖像類型

        圖9 與原圖像(a)版面結構具有差異的圖像類型

        各個能量點的頻數(shù)的直方圖如圖11所示,圖中橫坐標為能量差異數(shù)據(jù),最大為340左右,提取到350??v坐標為取到各個能量的情況的數(shù)目的累加。從圖11可以更直觀地觀察到能量差異在50~200之間的數(shù)目最多。

        實驗結果表明:(1)文檔圖像的版面結構具有相對的穩(wěn)定性。(2)點匹配模式計算了最小距離,可有效表示圖像的文本行基本信息。(3)距離匹配較為簡單,使用了三個維度的一維距離,有較好的區(qū)分性。對距離計算統(tǒng)計表明,具有正態(tài)分布特性。(4)點匹配模式需進一步進行研究,算法的復雜度需進一步降低,以進行實時圖像處理。

        圖10 能量分布圖

        圖11 直立圖頻數(shù)

        本文針對文檔圖像的檢索方法進行了研究,提出一種文檔圖像檢索的新方法。分析了文檔圖像版面特性,使用分割方法確定文本行,將文本行進行標記,找出頁面的中心點坐標,中心點坐標將文本行的長度作為權重考慮在內(nèi),得到相對坐標。根據(jù)相對坐標和文本行長度得到一個差異能量,根據(jù)差異能量來進行匹配。并對該方法進行了實驗和結果分析。本方法的優(yōu)點是,當文檔的行出現(xiàn)傾斜和縮放時,不影響匹配的進行。但需要進一步降低所用的點匹配模式時間復雜度,以進行實時圖像處理。

        [1]BEUSEKOM J V, KEYSERS D, SHAFAIT F, et al.Distance measures for layout-based document image retrieval[C].In:2nd IEEE International Conference on Document Image Analysis for Libraries, yon, France, (2006): 232-242.

        [2]WONG K Y,CASEY R G,WAHL F M.Document analysis system[J]. IBM Journal of Research and Development,1982, 26(6): 647-656.

        [3]BREUEL T M.Two geometric algorithms for layout analysis[C].In DAS ’02: Proceedingsofthe 5th International Workshop on Document Analysis Systems V,Springer-Verlag, London, UK, 2002: 188-199.

        [4]JAE H K, TAE T P, YANG H C, et al.Photo-text segmentation in complex color document[C].The 5th Japan-Korean Joint Symposium on Imaging Materials and Technologies, Kyoto, Japan, Nov.2004: 44-47.

        [5]OTSU N.A threshold selection method from gray-level histograms[J].IEEE Trans.Systems, Man and Cybernetics,1979, 9(1):62-66.

        猜你喜歡
        頁面文本方法
        大狗熊在睡覺
        刷新生活的頁面
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        亚洲精品97久久中文字幕无码| 亚洲精品岛国av一区二区| 综合图区亚洲另类偷窥| www插插插无码视频网站| 欧美性福利| 亚洲av精品一区二区三| 亚洲国产中文字幕无线乱码| 久久无码专区国产精品| 伊人久久网国产伊人| 久草视频华人在线观看| 蜜桃视频在线观看网址| 末成年女a∨片一区二区| 三上悠亚免费一区二区在线| 亚洲成av在线免费不卡| 国产精品一区二区黑丝| 亚洲另类欧美综合久久图片区| 四虎精品影视| 中文字幕被公侵犯的丰满人妻| 久久国产精品一区二区三区| 久久亚洲色www成人欧美| 国产AⅤ无码久久丝袜美腿| 国产伦一区二区三区久久| 成年av动漫网站18禁| 国产精品麻豆成人av电影艾秋 | 激情五月天在线观看视频| 四川丰满妇女毛片四川话| 亚洲欲色欲香天天综合网| 国产一区二区毛片视频| 日本a级片免费网站观看| 婷婷久久久亚洲欧洲日产国码av| 国产精品情侣露脸av在线播放| 日本女优久久精品观看| 无码人妻一区二区三区免费视频| 馬与人黃色毛片一部| 亚洲精品国产一区av| 亚洲一区二区二区视频| 日韩电影一区二区三区| 日本一区二区三区中文字幕视频| 激情文学婷婷六月开心久久| 国产绳艺sm调教室论坛| 人妻无码在线免费|