陳湘 程路
摘 要:檔案是珍貴的歷史資料,具有很高的再利用價(jià)值。針對(duì)檔案資料在長(zhǎng)期的保存和使用過(guò)程中容易沾染污漬,使檔案在數(shù)字化過(guò)程中不能準(zhǔn)確和清晰的實(shí)現(xiàn)檔案搜索、查詢和利用等問(wèn)題,本文提出一種自動(dòng)檢測(cè)檔案中污漬的算法。算法首先將檔案的正面彩色圖像和正面紅外圖像作灰度化處理;其次,采用最大類間方差法對(duì)兩種檔案圖像進(jìn)行二值化處理,隨后對(duì)兩種圖像進(jìn)行按位與運(yùn)算,檢測(cè)出可能的污漬區(qū)域;再次,對(duì)圖像進(jìn)行腐蝕運(yùn)算,消除背景中的噪聲;最后,采用連通域標(biāo)記算法精確檢測(cè)出污漬區(qū)域。經(jīng)過(guò)實(shí)際檔案圖像測(cè)試,相比于現(xiàn)有方法,本文采用的方法能夠快速準(zhǔn)確的檢測(cè)出檔案中的污漬部分,對(duì)于檔案間的信息共享和信息交換具有重要的現(xiàn)實(shí)意義。
關(guān)鍵詞:檔案;數(shù)字化;污漬檢測(cè);圖像處理
1 引言
檔案是珍貴的歷史資料,《中華人民共和國(guó)公共圖書(shū)館法》第四十一條規(guī)定:“政府設(shè)立的公共圖書(shū)館應(yīng)當(dāng)加強(qiáng)館內(nèi)古籍的保護(hù),根據(jù)自身?xiàng)l件采用數(shù)字化、影印或者縮微技術(shù)等推進(jìn)古籍的整理、出版和研究利用,并通過(guò)巡回展覽、公益性講座、善本再造、創(chuàng)意產(chǎn)品開(kāi)發(fā)等方式,加強(qiáng)古籍宣傳,傳承發(fā)展中華優(yōu)秀傳統(tǒng)文化”[1]。檔案數(shù)字化的主要目的是保護(hù)原件,讓掃描件代替原件使用,避免原件在頻繁的使用中遭受毀損[2],同時(shí)使檔案可通過(guò)計(jì)算機(jī)進(jìn)行檢索、查詢、分享和下載,提高檔案的利用率。
但由于檔案資料一般為紙質(zhì)文物,大多存放時(shí)間長(zhǎng)且材質(zhì)脆弱,在長(zhǎng)期的保存和使用過(guò)程中會(huì)發(fā)生各種病害,其中污漬就是紙質(zhì)檔案的一種病害,它一般是由灰塵、泥漬、墨漬、油漬等導(dǎo)致[3],使檔案在數(shù)字化過(guò)程中出現(xiàn)影像的污點(diǎn)和污漬噪聲,造成檔案圖像視覺(jué)質(zhì)量下降,給后續(xù)圖像處理工作,如檔案中文字分割、文字定位、文字識(shí)別、文字利用和檔案圖像檢索功能等工作帶來(lái)很大困難,不能準(zhǔn)確的傳達(dá)檔案信息,不能實(shí)現(xiàn)檔案搜索、查詢和利用的價(jià)值,所以需要通過(guò)計(jì)算機(jī)圖像處理技術(shù),增強(qiáng)影像的可讀性,修復(fù)檔案圖像。去污處理是館藏資源數(shù)字化建設(shè)中一個(gè)非常重要的過(guò)程[4],去污處理的第一步是污漬檢測(cè)。目前,通過(guò)圖像處理技術(shù)對(duì)掃描的檔案圖像進(jìn)行污漬檢測(cè)的方法很少,一般集中在對(duì)檔案雜點(diǎn)的檢測(cè)上。王海杰[5]采用基于分塊快速去除雜點(diǎn)和基于鄰域去除字里行間雜點(diǎn)的算法消除檔案影像中的雜點(diǎn);王琛[6]采用基于中值濾波的自適應(yīng)算法消除檔案影像中的噪音;尹翔[7]采用中值濾波和均值濾波方法去除與檔案圖像中無(wú)關(guān)的痕跡,并利用直方圖增強(qiáng)方法提高檔案圖像質(zhì)量;荊永菊[8]采用圖像二值化和圖像增強(qiáng)等方法消除圖像中無(wú)關(guān)的信息。這些方法無(wú)法檢測(cè)出面積稍大的污漬,且存在算法計(jì)算量大、效率低、破壞數(shù)字化后的檔案圖像質(zhì)量等問(wèn)題。本文提出一種自動(dòng)檢測(cè)檔案中污漬的算法,算法首先將正面彩色圖像和正面紅外圖像轉(zhuǎn)為灰度圖像;其次,采用最大類間方差法(OTSU)對(duì)兩種檔案圖像進(jìn)行二值化處理,隨后對(duì)兩種圖像進(jìn)行按位與運(yùn)算,檢測(cè)出可能的污漬區(qū)域;再次,對(duì)圖像進(jìn)行腐蝕運(yùn)算,消除背景中的噪聲;最后,采用連通域標(biāo)記算法精確檢測(cè)出污漬區(qū)域。
2 檔案圖像污漬檢測(cè)算法
檔案資料在長(zhǎng)期的保存和使用過(guò)程中容易沾染污漬,直接數(shù)字化后的檔案圖像視覺(jué)質(zhì)量下降,給后續(xù)的圖像處理工作帶來(lái)困難,計(jì)算機(jī)圖像處理技術(shù)可增強(qiáng)圖像的可讀性,為自動(dòng)化的去污處理提供依據(jù)。檔案圖像的污漬部分在正面彩色和正面紅外圖像中都顯示為一團(tuán)連續(xù)的部分,污漬檢測(cè)算法中關(guān)鍵部分是圖像的二值化處理和污漬區(qū)域的檢測(cè)和定位。
本文采用最大類間方差法(OTSU)尋找灰度化正面彩色圖像和正面紅外圖像的各自最優(yōu)二值分割閾值。OTSU是一種自適應(yīng)的閾值確定方法,它按圖像的灰度特性將圖像分成目標(biāo)、背景,目標(biāo)和背景間的類間方差越大,則構(gòu)成圖像兩部分差別越大,當(dāng)目標(biāo)錯(cuò)分為背景或背景錯(cuò)分為目標(biāo)時(shí)都會(huì)導(dǎo)致兩部分差別變小,因此,使類間方差最大的分割意味著錯(cuò)分概率最小[9]。對(duì)于圖像I(x,y),前景(即目標(biāo))和背景的分割閾值記作T,前景像素點(diǎn)數(shù)占圖像的比記ω0,其平均灰度為μ0;背景像素點(diǎn)數(shù)占圖像的比記ω1,其平均灰度為μ1,圖像總平均灰度為μ,類間方差為g。假設(shè)圖像背景較暗,大小為M×N,圖像中像素灰度值小于T的像素個(gè)數(shù)為N0,像素灰度大于T的像素個(gè)數(shù)為N1,則有:
式(5)代入 (6),得到g=ω0×ω1×(μ0-μ1)2,采用遍歷方法得到使類間方差最大的閾值T,即為所求。
連通域標(biāo)記算法主要是用來(lái)檢測(cè)和定位污漬區(qū)域,便于根據(jù)連通區(qū)域的特征,確定可能的污漬區(qū)域,為后續(xù)污漬的精確定位提供依據(jù)。其基本思想是:首先,得到連通區(qū)域的輪廓,其具體過(guò)程為:(1)逐行掃描,把一行中連續(xù)白色像素組成的一個(gè)序列稱為一個(gè)團(tuán),并記下其起點(diǎn)、終點(diǎn)和所在行;(2)標(biāo)記連通區(qū)域,對(duì)于除了第一行外的所有行里的團(tuán),如果它與前一行中的所有團(tuán)沒(méi)有重合區(qū)域,則給它一個(gè)新的標(biāo)號(hào);如果它僅與上一行中一個(gè)團(tuán)有重合區(qū)域,則將上一行的那個(gè)團(tuán)的標(biāo)號(hào)賦給它;如果它與上一行的兩個(gè)以上的團(tuán)有重疊區(qū)域,則給當(dāng)前團(tuán)賦一個(gè)相連團(tuán)的最小標(biāo)號(hào),并將上一行的這幾個(gè)團(tuán)的標(biāo)記寫(xiě)入等價(jià)對(duì),說(shuō)明它們屬于一類;(3)對(duì)等價(jià)標(biāo)記進(jìn)行合并,將等價(jià)對(duì)轉(zhuǎn)換為等價(jià)序列,每一個(gè)序列需要給一相同的標(biāo)號(hào),因?yàn)樗鼈兌际堑葍r(jià)的;從1開(kāi)始,給每個(gè)等價(jià)序列一個(gè)標(biāo)號(hào);(4)遍歷開(kāi)始團(tuán)的標(biāo)記,查找等價(jià)序列,給予它們新的標(biāo)記;(5)將每個(gè)團(tuán)的標(biāo)號(hào)填入標(biāo)記圖像中;(6)讀等價(jià)標(biāo)記進(jìn)行重新標(biāo)記,得到連通區(qū)域的4個(gè)頂點(diǎn)坐標(biāo)和面積。其次,確定各連通區(qū)域的一個(gè)外接矩形,即找到外接矩形四個(gè)頂點(diǎn)坐標(biāo),并根據(jù)其左上角X軸坐標(biāo)由小到大排序,得到的就是連通的區(qū)域,即可能的污漬區(qū)域。最后,保存所有殘缺區(qū)域信息,返回連通區(qū)域數(shù)目。
檔案數(shù)字化過(guò)程中的污漬檢測(cè)算法過(guò)程如下:
第一步,將檔案的正面彩色圖像和正面紅外圖像作灰度化處理。
第二步,圖像二值化處理。檔案圖像二值化處理目的是把原始灰度圖像的灰度值置為0或255,使處理變得簡(jiǎn)單,便于對(duì)圖像做進(jìn)一步處理,而且數(shù)據(jù)量小,有利于壓縮、存儲(chǔ)和傳輸。本文采用最大類間方差法(OTSU)尋找灰度化的正面彩色圖像和正面紅外圖像的各自最優(yōu)二值分割閾值otsu1、otsu。并對(duì)閾值做一定限定,本文將二值化的分割閾值限定在[180,200]之間。接下來(lái),遍歷整個(gè)灰度化后的正面彩色圖像,如果圖像中灰度值在[T1 ,otsu1]間(T1取100),將像素點(diǎn)的值置為255(即白色),否則置為0(即黑色),得到圖像A,此時(shí)就篩選出正面彩色圖像中可能的污漬區(qū)域;遍歷整個(gè)灰度化后的正面紅外圖像,如果圖像中灰度值在[T2 ,otsu]間(T2取100),將像素點(diǎn)的值置為255,否則置為0,得到圖像B,此時(shí)就篩選出正面紅外圖像中可能的污漬區(qū)域;隨后,將圖像A和圖像B相與得到圖像C,得到的圖像C就是進(jìn)一步確定的可能污漬區(qū)域,即如果正面彩色圖像某處和正面紅外圖像某處同時(shí)為污漬,則可能是污漬區(qū)域,否則不是污漬。
第三步,對(duì)圖像C進(jìn)行兩次腐蝕運(yùn)算,得到圖像D。由于圖像C是由圖像A和圖像B相與得到,此時(shí)背景中會(huì)產(chǎn)生很多額外的細(xì)小噪聲,需消除背景中的噪聲,故對(duì)圖像C進(jìn)行腐蝕運(yùn)算,消除背景中的噪聲。
第四步,由于對(duì)圖像C做了兩次腐蝕運(yùn)算,此時(shí)雖然消除了背景中的噪聲,但前景中細(xì)微處可能產(chǎn)生新的間斷,需根據(jù)污漬區(qū)域的面積大小,對(duì)污漬區(qū)域做更進(jìn)一步的篩選。首先對(duì)圖像D運(yùn)用連通域標(biāo)記算法得到各連通區(qū)域,即可能的污漬區(qū)域,再根據(jù)設(shè)定的閾值T(取100)去除小面積區(qū)域,得到圖像E。遍歷圖像E中所有連通區(qū)域(可能的污漬區(qū)域),如果某連通區(qū)域的面積大于設(shè)定的最大值,同時(shí)該連通區(qū)域外接矩形的高度和寬度均大于某值,也就是占空比要滿足一定的條件,要為一團(tuán)(取40),則將該區(qū)域就是精確檢測(cè)和定位到的污漬區(qū)域。
3 結(jié)語(yǔ)
本文對(duì)檔案數(shù)字化過(guò)程中污漬的檢測(cè)方法做了討論,主要針對(duì)檔案資料的正面彩色圖像和正面紅外圖像的掃描圖像進(jìn)行圖像處理,精確的檢測(cè)和定位出檔案中存在的污漬,給后續(xù)的圖像處理工作,如檔案中文字分割、文字定位、文字識(shí)別、文字利用和檔案圖像檢索功能等提供便利,準(zhǔn)確傳達(dá)檔案信息,實(shí)現(xiàn)檔案搜索、查詢和利用的價(jià)值。經(jīng)過(guò)實(shí)際檔案圖像測(cè)試,相比于現(xiàn)有方法,該文采用的方法能夠快速精確的檢測(cè)出檔案中的污漬,對(duì)于檔案之間的信息共享和信息交換具有重要現(xiàn)實(shí)意義,并能促進(jìn)檔案數(shù)字化的進(jìn)一步發(fā)展。
參考文獻(xiàn)
[1]《中華人民共和國(guó)公共圖書(shū)館法》[J].圖書(shū)館,2019(01):112.
[2]王婉萍.檔案數(shù)字化圖像處理之我見(jiàn)[J].檔案管理,2013(05):88.
[3]楊有,尚晉,楊華芬,余平.檔案圖像處理模型研究[J].重慶文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2010,29(05):29-32.
[4]甘嵐.紙質(zhì)檔案規(guī)范化保護(hù)修復(fù)研究[J].檔案管理,2015(01):59-60.
[5]王海杰.文檔影像圖像處理中的糾偏與降噪研究[D].浙江大學(xué),2008.
[6]王琛.掃描檔案的圖像處理技術(shù)[D].天津大學(xué),2016.
[7]尹翔.現(xiàn)代檔案管理如何發(fā)揮圖像處理的最大功效[J].蘭臺(tái)世界,2012(29):21-22.
[8]荊永菊.圖像預(yù)處理技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2012,22(20):56-57+65.
[9]LEMY F,HADJIGEORGIOU J.Discontinuity trace map construction using photographs of rock exposures[J].International Journal of Rock Mechanics and Mining Sciences,2003,40( 6):903-917.
作者簡(jiǎn)介
陳湘(1988-),女,漢,湖北大悟,碩士,助理館員,研究方向:圖像處理,科學(xué)數(shù)據(jù)管理,數(shù)據(jù)分析。
程路(1989-),男,漢,湖北荊州,碩士,助理館員,研究方向:數(shù)據(jù)分析,圖書(shū)館建設(shè)。