張瑞倩
(武漢大學遙感信息工程學院,湖北武漢 430079)
基于文字行特征匹配的規(guī)則平面碎片復原技術
張瑞倩
(武漢大學遙感信息工程學院,湖北武漢 430079)
規(guī)則平面碎片的復原在司法物證復原、歷史文獻修復以及軍事情報獲取等領域都有著重要的應用。本文基于2013年“高教社杯”全國大學生數(shù)學建模競賽B題第二問數(shù)據(jù),采用文字行間距、高度等的行特征信息和碎片邊緣灰度連續(xù)性分析的綜合評價的方法,從每張碎片行特征和兩兩碎片間的邊緣匹配度大小兩方面綜合進行分析,最終求出了所有碎片拼接的最優(yōu)解,為規(guī)則平面二維碎片復原技術提供了新的思路與方法。
行特征信息碎片復原匹配度二維拼接
規(guī)則平面破碎文件的拼接在司法物證復原、歷史文獻修復以及軍事情報獲取等領域都有著重要的應用。近年來,不少文章提出了基于形狀特征的碎片拼接技術,通過圖像分割、邊界檢測與提取等,將碎片輪廓進行提取,并搜索碎片之間輪廓的相似性,自動檢測出相似性高的輪廓進行匹配[1]。但是對于碎紙機等破碎形成的規(guī)則平面碎片,碎片與碎片之間存在形狀一致性,并不能夠通過輪廓匹配來完成自動拼接復原過程。
針對這種規(guī)則平面碎片,羅智中[2]等提出基于文字行特征的拼接方法。這種半自動拼接法很好地完善了紙片拼接復原方法,但由于其提出的方法需要首先對碎紙片進行二值化處理,導致文字周圍的灰度信息丟失,可能存在信息減少拼接不準確的問題。
基于現(xiàn)有碎片拼接技術存在的問題,本文提出一種基于行特征匹配和碎片邊緣灰度信息的綜合評價的規(guī)則平面碎片復原技術。其在不進行圖像二值化的基礎上基于文字行特征先進行碎紙粗匹配,然后再基于碎片邊緣文字灰度信息進行精匹配的過程。
碎片圖片是灰度圖像,可以將其每一張圖片轉(zhuǎn)化成一個灰度矩陣。比較兩兩碎片圖片之間像素灰度的連續(xù)性,連續(xù)性越強匹配概率越高。對于2013年“高教社杯”全國大學生數(shù)學建模競賽B題第二問數(shù)據(jù),碎紙機既縱切又橫切,每一張碎紙片較小而碎紙片數(shù)量較大,考察漢字行間距和高度的幾何特征信息[2]發(fā)現(xiàn),可以通過比較兩兩碎紙片黑色像素點所在行的差異性,判斷兩兩碎紙片屬于同一行的可能性。
為了得到兩張紙片屬于同一行的可能性大小,本文作如下處理:對于某一張碎紙片,將其有文字處按行全部填充黑色,如圖1所示。
設 d1( m,n)表示第 m張紙片與第n張紙片的行匹配值。則其可計算如下
圖1 碎紙片所屬行的判斷
此式中各點的灰度值均為涂黑以后的灰度值大小,計算出的 d1越小表示兩紙片在同一行的可能性越大。
在計算過碎紙片間屬于同一行的可能性計算后,需要對兩碎紙片鄰接列的連續(xù)性進行計算。在有文字處,即灰度值較小處,其相鄰處的灰度值也較小,因此設 d2( m,n)為這一度量值的大小,表達如下:
此式中各點的灰度值均為原碎紙片上像素點的灰度值,計算出的 d2越小表示兩紙片的連續(xù)性越強。
本文以綜合距離來度量兩張碎紙片的匹配度,綜合距離是綜合考慮了兩張碎紙片屬于同一行的可能性及兩張紙片鄰接處的連續(xù)性之后得到的距離。步驟如下:
對 d1和 d2進行數(shù)量級統(tǒng)一處理:
設 d( m, n)為第 m張紙片到第n張紙片的綜合距離,則:
比較兩兩碎紙片之間綜合距離的大小,綜合距離越小的兩張紙片拼接起來的可能性越大。
針對數(shù)據(jù),本文采用先復原11個行碎片,然后復原整張紙片來完成。為使結(jié)果更加準確,在一定的人工干預基礎上,利用Matlab軟件[3]進行編程,以綜合距離 d從小到大進行搜索,得到正確的復原順序,最后得到完整復原圖像,其局部如下:
圖2 碎片復原結(jié)果圖(局部)
實驗得到的復原后圖像準確完整,從內(nèi)容、結(jié)構上都保持了很好的連續(xù)性,效果明顯。同時算法計算速度快,能夠滿足規(guī)則平面碎片自動拼接復原的要求。
本文提出的基于文字行特征匹配的規(guī)則平面碎片復原技術,能夠較好地通過文字內(nèi)容的拼接,對規(guī)則平面碎片進行自動復原,具有速度快準確率高的特點,是一種實用有效的圖像復原技術。
[1]賈海燕,朱良家,周宗潭,等.一種碎紙自動拼接中的形狀匹配方法[J].計算機仿真,2007,23(11):180-183.
[2]羅智中.基于文字特征的文檔碎紙片半自動拼接[J].Computer Engineering and Applications,2012,48(5).
[3]MATLAB基礎與應用教程.北京:人民郵電出版社.2009.
張瑞倩(1993.6—),女,籍貫:河南省洛陽市,研究方向:攝影測量與遙感、圖像處理與模式識別。