馮 炎
(西藏大學信息科學技術(shù)學院 西藏 拉薩 850000)
古籍具有重要的學術(shù)價值和文化價值,古籍數(shù)字化修復是解決古籍保護與文化傳播的重要途徑,二值化是數(shù)字化修復的關(guān)鍵預處理步驟,同時二值化算法也是學者們研究的熱點問題。受自然環(huán)境和人為因素的破壞,多數(shù)古籍具有不同程度的頁面污漬、褪化和油墨印跡等復雜背景,給古籍二值化帶來極大的挑戰(zhàn)。
為提高圖像二值化算法性能,學者們提出了大量的算法,最關(guān)鍵的問題是閾值計算,二值化算法可以分為全局閾值法和局部閾值法。經(jīng)典的全局閾值算法是Otsu算法[1],經(jīng)典的局部閾值算法是Niblack算法[2]和Sauvola算法[3],局部閾值方法相對于全局閾值方法來說二值化準確度較高。Otsu算法使用聚類的思想,提出了一個最優(yōu)化閾值計算方法,選擇一個閾值使得兩個類內(nèi)的方差盡可能小,類間的方差盡可能大,該算法適用于直方圖具有明顯雙峰模型的圖像,缺點是在低對比度和光照不均的條件下效果不好。Niblack算法根據(jù)局部均值和局部標準差為每個像素計算閾值,該算法能很好地將對比度低的字符分割出來并保持文字細節(jié),該算法對局部窗口大小的選擇敏感,窗口太大會丟失文字局部細節(jié),窗口太小會有殘留噪聲。Sauvola是Niblack算法的改進版本,以局部均值為基準再根據(jù)標準差做些微調(diào),從而過濾掉背景中一些干擾的紋理噪聲,算法缺點是在對比度較低的情況下效果仍然不好。
Lu等[4]提出了基于背景估計和筆劃寬度估計的二值化方法,算法首先通過迭代多項式平滑算法來估計古籍文檔圖像背景,然后用所估計背景去補償因不同退化類型造成的古籍文檔退化情況,對補償后的文檔圖像計算L1范數(shù)圖像梯度來獲得文本筆劃邊緣,最后在局部相鄰窗口內(nèi)計算補償后的像素均值和筆劃邊緣個數(shù)來對文檔圖像進行二值化處理。接著,Su等[5]提出了一種改進算法,該算法使用局部圖像對比度和局部圖像梯度來組成自適應圖像對比度算法,然后用自適應圖像對比度算法和Canny邊緣檢測算法來計算文字筆劃邊緣,從而較準確地計算出文本筆劃邊緣并估計出文本筆劃寬度。最后采用Niblack二值化算法結(jié)合所估計的文本筆劃寬度來估計局部閾值并從古籍文檔圖像中分離文本。Howe[6]提出了一個基于拉普拉斯圖像的全局能量函數(shù)最優(yōu)化方法,該方法采用一系列的訓練圖像用于最優(yōu)化算法,在DIBCO 2013[7]會議所提交的23個算法中該算法獲得了第二名,該算法的缺點是對退化嚴重的圖像效果不理想。
雖然學者們提出了眾多的算法,然而這些方法都不能很好地解決在低對比度和重污漬等復雜背景下的古籍圖像二值化問題。
本文針對古籍圖像所存在的復雜背景,提出一種二值化算法,算法流程如圖1所示,分為三個步驟:(1) 文本筆劃像素識別,根據(jù)歸一化局部最大值最小值來構(gòu)造局部對比度圖像,同時對古籍圖像進行相位保持降噪,將局部對比度圖像與降噪圖像相結(jié)合來識別文本筆劃像素;(2) 古籍背景估計,通過局部窗口內(nèi)所檢測的文本筆劃像素估計局部閾值來計算古籍背景修復模板,用圖像修復算法和形態(tài)學閉操作估計古籍背景;(3) 古籍圖像增強及最終二值化,用所估計背景來增強圖像文本對比度,并用Howe算法對增強后的古籍圖像二值化求得最終結(jié)果。算法過程如圖2所示,示例圖片選自DIBCO2018數(shù)據(jù)集。
圖1 本文算法流程
圖2 本文算法過程展示
前期研究中發(fā)現(xiàn)兩個問題,第一是文獻[5]算法通過局部對比度和局部梯度來檢測文本筆劃邊緣,但無法處理細弱筆劃和低對比度區(qū)域的文本筆劃;第二是Kovesi[8]的相位保持降噪算法結(jié)果會保留細弱筆劃區(qū)域和低對比度區(qū)域的文本筆劃,然而受古籍退化的影響,該方法容易將文本筆劃邊緣丟失。為了更準確地識別文本筆劃像素,本文結(jié)合文獻[5]算法和Kovesi相位保持降噪算法的優(yōu)缺點,將局部對比度圖像與降噪圖像相結(jié)合設計一種文本筆劃像素識別算法。
首先,根據(jù)文獻[5]算法,本文設計了基于最大值最小值的局部對比度改進算法,改進后的局部對比度圖像C計算如下:
(1)
然后,算法采用Kovesi[8]提出的相位保持降噪算法對古籍圖像進行降噪并歸一化處理,計算方法如下:
D=normalization(kovesi(I))
(2)
式中:I為古籍圖像;nomalization為歸一化函數(shù);kovesi為相位保持降噪算法。采用Otsu算法對歸一化后的降噪圖像D二值化,二值化后的結(jié)果表示為Db。
最后,將局部對比度圖像二值化結(jié)果Cb與相位保持降噪圖像二值化結(jié)果Db相結(jié)合來識別文本筆劃像素T,方法如下:
T(i,j)=Cb(i,j)×Db(i,j)
(3)
本文采用背景修復算法來消除修復模板中確定的文本信息從而獲得古籍背景,要求背景修復模板中的文本信息盡可能準確并且不包含背景信息。然而,前面所識別的文本筆劃中殘留背景噪點太多,因此,本文采用局部閾值算法從原始古籍圖像中提取文本信息來計算背景修復模板M,局部閾值的計算是根據(jù)局部窗口內(nèi)所檢測的文本筆劃像素T估計局部閾值,背景修復模板M計算方法如下:
(4)
式中:I(i,j)為古籍圖像像素;Emean(i,j)和Estd(i,j)分別是局部窗口內(nèi)所檢測文本筆劃像素T(i,j)的局部均值和局部標準方差;窗口大小為2×Ewith,Ewith為古籍文檔筆劃寬度。
跟前面的文本筆劃像素T相比,背景修復模板M估計的文本信息更準確,但引入了其他背景噪聲,需要進一步消除這些噪聲,方法如下:
Mdenoise(i,j)=1-(1-M(i,j)×(1-T(i,j)))
(5)
另外,背景修復模板中會出現(xiàn)斷裂筆劃并且文字中有空洞,還需要用圖像腐蝕操作對Mdenoise處理從而獲得較為準確的文本區(qū)域,腐蝕后的背景修復模板表示為Merode,腐蝕操作采用半徑為Ewith的菱形結(jié)構(gòu)元素,Ewith為古籍文檔筆劃寬度。
接下來采用Ntirogiannis等[9]的背景修復算法對原始古籍圖像I操作來估計古籍背景BG,修復模板為前面計算得到的Merode。最后通過形態(tài)學閉操作進行背景平滑消除背景中存在的較弱或斷裂筆劃的文本信息,從而獲得更準確的古籍背景BGsmooth,閉運算操作時采用的結(jié)構(gòu)元素半徑為2×Ewith。
為了獲得更準確的二值化結(jié)果,本文用所估計古籍背景BGsmooth來增強古籍圖像的文本對比度,接著用Howe[6]的binarizeImageAlg3算法對增強后的二值化處理獲得最終結(jié)果。
其次,教師行為的集體化問題。現(xiàn)代教學中教師的含義變得廣泛了,不僅包含了傳統(tǒng)意義的教師,也包含了教學設計員等。在執(zhí)行某一課程時,不是某一位教師可以完成的,必須是多名教師發(fā)展各自的特長,共同完成課程任務。教師與教師的合作必然導致教師行為的集體化。課程的編制將是集體勞動的結(jié)晶。此時,學生面對的不再是一位教師,而是一個專家組,要求教師的教學行為更進一步協(xié)調(diào)。
本文的實驗測試數(shù)據(jù)采用了DIBCO2016[10]、DIBCO2017[11]和DIBCO2018[12]提供的古籍圖像數(shù)據(jù)集。其中:DIBCO2016數(shù)據(jù)集包含10個手寫體古籍圖像;DIBCO2017數(shù)據(jù)集有10個印刷體和10個手寫體古籍圖像;DIBCO 2018數(shù)據(jù)集包含10個手寫體古籍圖像。這些古籍圖像是具有不同退化類型的低質(zhì)量圖像,并有相應的基準圖像,使用這些數(shù)據(jù)集可以有效地檢驗本文算法是否有效。
實驗采用了5種圖像客觀評價指標對本文算法進行評估,具體是F值(Fmeasure)、峰值信噪比(Peak Signal to Noise Ratio, PSNR)、精確度(Precision)、距離倒數(shù)失真度量(Distance Reciprocal Distortion, DRD)和錯誤分類處罰指標(Misclassification Penalty Metric, MPM)。Fmeasure值是一種兼顧準確率和召回率的圖像二值化度量方法,F(xiàn)measure值越大說明二值化結(jié)果越接近于基準圖像。 PSNR是基于對應像素點間的誤差質(zhì)量評價, PSNR越大說明圖像二值化效果越好。Precision是二值化結(jié)果的正確率,指的是二值化結(jié)果中文本像素個數(shù)占的比例,指標值越大說明算法精確度越高。DRD是圖像失真度量方法,DRD值越小說明圖像失真越小。MPM懲罰分類錯誤的像素,MPM得分越小表示分類錯誤越少。
本文實驗選取了Howe[6]、Niblack[2]、Sauvola[3]、Bernsen[13]、Otsu[1]、Mesquita[14]等6個有代表性的二值化算法與本文算法進行比較。算法中Kovesi[8]保持相位降噪算法參數(shù)為:k=1,nscale=5,mult=2,norient=3,softness=1。本文二值化算法是在圖像增強的基礎上進行二值化,未采用Howe提供的參數(shù),而是根據(jù)實驗值設置為:thilist=[0.3 0.6]。
為直觀地展示本文算法與其他二值化算法的優(yōu)缺點,顯示本文算法的優(yōu)越性,從DIBCO2017和DIBCO2018選取了2幅有代表性的測試圖像,圖3給出了本文算法與其他算法的對比結(jié)果。
圖3 不同二值化算法結(jié)果對比
圖3 (a)的原始圖像左邊是纖細筆劃圖像,右邊是墨跡浸潤圖像,可以看出,文獻[1]算法對于對比度較高的區(qū)域二值化效果較好,但無法處理頁面線條、有污漬的低對比度區(qū)域以及細弱筆劃文本;文獻[3]算法、文獻[2]算法和文獻[13]算法殘留噪聲太多,更容易將較深的背景污漬和浸潤墨跡錯判為文本;文獻[14]算法和文獻[6]算法雖然能抑制噪聲,但對于頁面線條、有墨跡浸潤的低對比度區(qū)域的處理結(jié)果不理想;本文提出的二值化算法能夠很好地解決復雜背景噪聲的干擾問題,能有效地處理頁面線條和有浸潤墨跡的低對比度區(qū)域,總的來說,本文算法結(jié)果比較滿意。
表1給出了各二值化算法在DIBCO2016數(shù)據(jù)集中10個圖像的二值化結(jié)果平均值對比。Fmeasure和PSNR以及 Precision的值是越大越好,而DRD和MPM值是越小越好。如表1所示,本文算法的平均PSNR值、平均Fmeasure值、平均Precision值、平均DRD值和平均DRD值都是最優(yōu)。與次優(yōu)的文獻[14]算法相比較,本文算法的Fmeasure、PSNR和 Precision分別提高了1.0%、1.4%和1.5%,DRD降低了18.1%,尤其是MPM值降低了46.2%。
表1 各二值化算法在DIBCO2016的評估結(jié)果(平均值)
表2給出了不同二值化算法在DIBCO 2017數(shù)據(jù)集中20個圖像的二值化結(jié)果平均值對比。如表2所示,本文的算法性能指標都排第一,文獻[6]次之,文獻[14]排第三,文獻[3]性能最差。跟文獻[6]算法比較,本文算法的平均Fmeasure、PSNR和 Precision分別提高了1.0 %、2.5%和1.8%,DRD和MPM值分別降低了13.1%和25.0%。
表2 各二值化算法在DIBCO2017的評估結(jié)果(平均值)
續(xù)表2
表3給出了各二值化算法在DIBCO2018數(shù)據(jù)集中10個圖像的二值化結(jié)果平均值對比。可以看出,本文算法各項指標值最優(yōu),文獻[6]次之,文獻[14]排第三,文獻[3]性能最差。跟文獻[6]比較,本文算法的平均Fmeasure、PSNR和 Precision分別提高了6.3%、12.3%和7.2%,而DRD和MPM分別降低了49.3%、53.9%。DIBCO2018數(shù)據(jù)集更能體現(xiàn)本文算法的優(yōu)越性能。
表3 各二值化算法在DIBCO2018的評估結(jié)果(平均值)
從表1、表2和表3的實驗數(shù)據(jù)可以看出,本文算法的5種性能指標值都要好于其他二值化算法,說明本文算法結(jié)果與對應的基準圖像相似度最高、失真度最小,整體性能優(yōu)于文獻[1-3,6,13-14]的算法,充分說明了本文算法的魯棒性,表明本文算法可以處理多種退化類型的古籍圖像。
本文針對古籍圖像所存在的復雜背景,提出一種基于局部對比度和相位保持降噪的古籍圖像二值化算法。算法首先根據(jù)歸一化局部最大值最小值來構(gòu)造局部對比度圖像,同時對古籍圖像進行相位保持降噪,將局部對比度圖像與降噪圖像相結(jié)合來識別文本筆劃像素;然后通過局部窗口內(nèi)所檢測的文本筆劃像素估計局部閾值來計算古籍背景修復模板,用圖像修復算法和形態(tài)學閉操作估計古籍背景;最后用古籍背景增強古籍圖像并計算最終二值化結(jié)果。本文算法能夠解決復雜背景噪聲的干擾問題,從而很好地抑制背景噪聲,更有效地處理頁面線條和有浸潤墨跡的低對比度區(qū)域,達到精確分離古籍前景文本和背景的目的。