陳善雄 韓旭 林小渝 劉云 王明貴
(1.西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶400715;2.貴州工程應(yīng)用技術(shù)學(xué)院彝學(xué)研究院,貴州畢節(jié)551700)
彝族是中國(guó)第六大少數(shù)民族,在長(zhǎng)期的發(fā)展中逐漸形成了本民族的文化傳統(tǒng)。彝文是彝族人民相互交流思想感情的一種語(yǔ)言文字符號(hào),而彝文古籍是用古彝文書寫的關(guān)于彝族歷史、宗教、醫(yī)學(xué)、哲學(xué)、農(nóng)耕、天文等各個(gè)方面的文獻(xiàn)資料。彝文文獻(xiàn)載體主要有巖書、布書、皮書、紙書、瓦書、木犢、竹簡(jiǎn)、骨刻、木刻、金石銘刻、印章等,但由于歷史久遠(yuǎn)都存在不同程度的損毀,整理和保護(hù)這些古籍文獻(xiàn)是傳承和發(fā)揚(yáng)彝族文化的重要手段。但目前大量的彝文古籍研究還只停留在掃描、拷貝以及人工翻譯的階段。隨著這些古籍的不斷消失,給古彝文的數(shù)字化保護(hù)提出了迫切需求。彝文識(shí)別的研究能夠使一部分彝文古籍重新煥發(fā)生機(jī),為彝文的研究者和感興趣的學(xué)者提供快速閱讀彝文文獻(xiàn)的途徑,并促進(jìn)對(duì)彝文的保護(hù)和傳承,因此對(duì)彝文識(shí)別的研究十分必要。而對(duì)彝文古籍進(jìn)行識(shí)別的前提是對(duì)復(fù)雜版面結(jié)構(gòu)的彝文古籍中的字符進(jìn)行精準(zhǔn)的檢測(cè),只有準(zhǔn)確定位這些古老字符在載體中的位置,才能進(jìn)一步完成識(shí)別。
目前,對(duì)于復(fù)雜場(chǎng)景下的中英文字符檢測(cè)已經(jīng)有了較多的研究,大多數(shù)采用基于深度學(xué)習(xí)的方法對(duì)古籍或場(chǎng)景文字進(jìn)行檢測(cè)和識(shí)別。然而,這些方法對(duì)具有復(fù)雜噪聲的彝文古籍圖片并不完全適用。首先,基于深度學(xué)習(xí)的方法需要依賴大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,在中國(guó)只有極少數(shù)的人認(rèn)識(shí)古彝文,針對(duì)古彝文字符的標(biāo)注工作十分困難。其次,與手寫體漢字的檢測(cè)相比,從復(fù)雜噪聲背景下的彝文古籍中對(duì)古彝文文本進(jìn)行檢測(cè)將面臨圖像模糊、污染嚴(yán)重、書寫格式凌亂等諸多問(wèn)題,同時(shí)還存在很多字符粘連的情況。因此,需要采用一個(gè)更加有效的方法對(duì)彝文古籍字符進(jìn)行檢測(cè)。
近幾年,也有很多關(guān)于少數(shù)民族語(yǔ)言文字檢測(cè)和識(shí)別的研究,但大多僅停留在研究規(guī)范的印刷體字符的分割與識(shí)別層面,這主要是由于手寫體相較印刷體而言,書寫風(fēng)格較為隨意,而且采樣和標(biāo)注工作耗時(shí)費(fèi)力,再加上一些古籍圖片由于破損和嚴(yán)重的噪聲,給采樣工作帶來(lái)了很大的困難。在之前的研究中,提出了一些針對(duì)少數(shù)民族文字的檢測(cè)方法。Jia等[1]通過(guò)直接對(duì)彝文字庫(kù)中的字符進(jìn)行切分來(lái)完成初期的采樣工作,這種方法較為簡(jiǎn)單且快速,但是得到的都是較為規(guī)范的印刷體字符,后期識(shí)別的難度相比手寫體字符來(lái)說(shuō)也較為容易。Su等[2]對(duì)蒙文古籍首先用OTSU算法進(jìn)行二值化處理,然后用圖像的垂直投影信息對(duì)圖像進(jìn)行文本列定位,最后用連通分量分析法得到單個(gè)的蒙文字符。但是該研究涉及到的蒙文古籍版面排列較為整齊,圖像的污染及噪聲也較少。哈力木拉提等[3]用投影法對(duì)維文掃描圖片進(jìn)行行列切分和基線檢測(cè)后,再設(shè)定平均值閾值對(duì)粘連的維文字符進(jìn)行二次分割,該方法對(duì)書面整潔且書寫規(guī)范的維文字符進(jìn)行了較為準(zhǔn)確的分割。靳簡(jiǎn)明等[4]綜合水平投影和連通分量的方法實(shí)現(xiàn)維文文本的文字行切分和單字切分,并利用規(guī)則合并過(guò)切割字符,使維文字符切割的準(zhǔn)確率達(dá)到99%以上。Shi等[5]用基于連通分量的方法對(duì)書寫在骨片上的甲骨文進(jìn)行了檢測(cè)和分割。此外,也有一些針對(duì)漢字和拉丁文字的手寫體文檔中文本檢測(cè)的研究,Li等[6]通過(guò)基于條件隨機(jī)場(chǎng)的多層感知器和卷積神經(jīng)網(wǎng)絡(luò)模型,對(duì)手寫體漢字文檔中的文本區(qū)域和非文本區(qū)域進(jìn)行分類,取得了較理想的分類效果。Xu等[7]采用一種多任務(wù)的全卷積神經(jīng)網(wǎng)絡(luò)對(duì)拉丁文手稿文檔進(jìn)行了有效的文本行檢測(cè)和基線檢測(cè)。由此可見(jiàn),以上研究都是把字符分割作為文字?jǐn)?shù)字化的前提,因此,如何在復(fù)雜噪聲背景下準(zhǔn)確地定位和提取古彝文字符是古彝文識(shí)別和彝文古籍?dāng)?shù)字化等工作的基礎(chǔ)。本文提出了一種在復(fù)雜噪聲背景下的彝文古籍中彝文字符的定位和分割方法。該方法首先對(duì)圖像進(jìn)行預(yù)處理,將前景和背景像素進(jìn)行分離。在此過(guò)程中,關(guān)鍵是對(duì)古籍圖像噪聲的處理。由于古籍的破損和污染,圖像中有大量的噪聲,因此對(duì)多張彝文古籍圖片進(jìn)行處理并對(duì)比了多種預(yù)處理方法;在經(jīng)過(guò)圖像的預(yù)處理之后,就得到了噪聲較少的二值圖像,然后用基于啟發(fā)式規(guī)則的方法去除一些非文本區(qū)域;最后,用 MSER(最大極值穩(wěn)定區(qū)域)和 CNN(卷積神經(jīng)網(wǎng)絡(luò))的方法對(duì)古彝文單個(gè)字符進(jìn)行檢測(cè)。
彝文古籍大都?xì)v史悠久,受到各種環(huán)境的影響,存在泛黃、褶皺、污跡等情況,圖像濾波可以在保留圖像特征細(xì)節(jié)的情況下對(duì)目標(biāo)圖像的噪聲進(jìn)行抑制,為后續(xù)的二值化處理奠定基礎(chǔ),同時(shí)也是古籍文獻(xiàn)重新煥發(fā)活力的重要措施,有利于古籍文獻(xiàn)的保存、傳播。通過(guò)對(duì)大量彝文古籍圖片進(jìn)行去噪測(cè)試并分析,綜合去噪能力與效率,最終采用非局部均值濾波對(duì)原始圖像進(jìn)行處理,然后采用一種改進(jìn)的局部自適應(yīng)閾值二值化的方法對(duì)上一步處理的圖像進(jìn)行二值化。
1.1.1 非局部均值濾波
非局部均值濾波[8]考慮到了圖像的自相似性,它將相似像素定義為具有相同鄰域模式的像素,利用像素周圍固定大小的窗口內(nèi)的信息表示該像素的特征,比利用單個(gè)像素本身的信息得到的相似性信息更加可靠。
給定一張?jiān)肼晥D像u(u={u(i )i為圖像內(nèi)任意像素點(diǎn)}),對(duì)于像素i,經(jīng)過(guò)非局部均值濾波以后的像素值為L(zhǎng)(i),它的值是由圖像中每個(gè)像素值加權(quán)平均而求得:
權(quán)重集合 {w(i,j)}j中的每一個(gè)權(quán)重的值取決于像素i和像素j的相似性,并滿足條件0≤w(i,j)≤1且w(i,j)=1。
像素i和像素j的相似性由灰度向量v(Ni)和v(Nj)的相似性來(lái)衡量,這里的Nk指的是以像素k為中心的固定大小的方形鄰域,此相似性通過(guò)高斯加權(quán)的歐幾里德距離來(lái)計(jì)算,即‖v(Ni)-v(Nj)‖。其中下標(biāo) “2”表示向量的第2范式,即歐幾里德距離;a>0,是高斯核的標(biāo)準(zhǔn)差。在圖像中添加高斯白噪聲可以對(duì)鄰域之間的紋理相似性進(jìn)行有效的比較,在本算法中,添加高斯白噪聲之后含噪鄰域間的歐幾里德距離滿足公式 (2):
式中:u(·)和v(·)分別指原始圖像的灰度向量和加噪圖像的灰度向量;σ2為白噪聲方差;E(·)表示數(shù)學(xué)期望。在此公式中,歐幾里德距離的期望值表示了像素之間的相似程度,因此,在加噪圖像中,和像素i相似性最大的像素也是原始圖像中和像素i相似性最大的像素。那么,權(quán)重系數(shù)可定義為
其中,Z(i)是一個(gè)標(biāo)準(zhǔn)化系數(shù),
這里的參數(shù)h控制著指數(shù)函數(shù)的衰減。在非局部均值濾波的實(shí)際應(yīng)用中,可以將相似性鄰域窗口限定在一個(gè)比它更大的搜索窗口中。在所有實(shí)驗(yàn)中,將搜索窗口設(shè)定為21像素×21像素,將相似性鄰域窗口設(shè)定為7像素×7像素,因?yàn)?像素×7像素的相似性窗口既可以消除一定的噪聲,也可以較好地保留圖像中的細(xì)節(jié)。經(jīng)過(guò)實(shí)驗(yàn)分析發(fā)現(xiàn),將參數(shù)h取為12×σ能夠得到較好的去噪效果。圖1(a)和圖1(b)分別展示了古籍原始掃描圖像和經(jīng)過(guò)非局部均值濾波處理以后的圖像。
圖1 古籍圖像處理前后效果Fig.1 Image effect of ancient books before and after processing
為了采用最優(yōu)的去噪算法,將一些傳統(tǒng)的去噪算法如中值濾波、高斯濾波、最小值濾波、最大值濾波同非局部均值濾波的去噪性能進(jìn)行了對(duì)比。本文采用峰值信噪比 (PSNR)作為衡量的標(biāo)準(zhǔn),PSNR基于平均平方和均方誤差 (MSE)計(jì)算去噪后的圖像和真實(shí)圖像的重構(gòu)偏差,對(duì)噪聲敏感。因?yàn)橹灰獔D像中的某個(gè)像素值發(fā)生了變化,不管是朝著哪個(gè)方向變化,也不管這種改變是否能夠被主觀觀察到,都會(huì)改變PSNR。PSNR的取值范圍不固定,最大值與圖像分辨率有關(guān),其值越高表示去除的噪聲越多。
PSNR的具體計(jì)算方式如下:
式中:l為色彩深度,表示一個(gè)像素點(diǎn)占用的2機(jī)制位數(shù),常取l=8;u(x,y)為原始圖像在(x,y)處所對(duì)應(yīng)的灰度值;^u(x,y)為重建圖像在(x,y)處所對(duì)應(yīng)灰度值;C和D分別為圖像的寬度值和高度值。
將中值濾波、高斯濾波、最小值濾波、最大值濾波以及本文所用的非局部均值濾波對(duì)多張古籍圖像進(jìn)行去噪處理,最終選取了52張具有代表性的古籍圖片,測(cè)試了它們通過(guò)不同去噪算法處理后的平均PSNR值,以此來(lái)判斷去噪性能的優(yōu)劣。通過(guò)對(duì)比分析發(fā)現(xiàn),經(jīng)非局部均值濾波處理后的古籍圖片和其他傳統(tǒng)去噪方法的相比,取得了最高的PSNR值,能夠最大限度去除古籍圖像中的噪聲,為后續(xù)的二值化處理提供最有利的條件。
1.1.2 局部自適應(yīng)閾值二值化
為了進(jìn)一步消除圖像中的污跡,凸顯文本區(qū)域的輪廓,需要對(duì)上一步經(jīng)非局部均值濾波處理后的圖像進(jìn)行二值化處理。本文提出一種改進(jìn)的局部自適應(yīng)二值化算法對(duì)圖像進(jìn)行二值化處理。由于古籍保存時(shí)間較久,受到光照不均和嚴(yán)重污染等因素的影響,使得傳統(tǒng)的全局閾值二值化方法無(wú)法較好地對(duì)古籍圖像進(jìn)行二值化分割,因此要用局部自適應(yīng)閾值二值化的方法對(duì)灰度圖像進(jìn)行二值化分割。本文在傳統(tǒng)的局部自適應(yīng)閾值Bernsen算法[9]的基礎(chǔ)上加入了高斯平滑濾波。引入高斯濾波的原因是真實(shí)圖像在空間內(nèi)的像素是緩慢變化的,因此臨近點(diǎn)的像素變化不是很明顯,但是任意兩個(gè)點(diǎn)之間可能會(huì)有很大的像素差值。換言之,在空間上噪點(diǎn)之間沒(méi)有很大的關(guān)聯(lián)。正是由于這個(gè)原因,高斯濾波可以在保留中心像素信息的條件下減少噪聲,為后續(xù)的文本分割操作濾除噪聲。
設(shè)x、y分別為圖像的水平坐標(biāo)和垂直坐標(biāo),u(x,y)表示圖像在坐標(biāo)(x,y)處的灰度值,N(x,y)表示以坐標(biāo)(x,y)為中心,大小為(2f+1)×(2f+1)的方形鄰域,其中f是一個(gè)大于0的正整數(shù),它可以使得方形鄰域的邊長(zhǎng)為一個(gè)奇數(shù)?!(x,y)表示在(x,y)處經(jīng)高斯濾波后的像素灰度值,η為平滑尺度,ˉx和ˉy為鄰域窗口內(nèi)的位置參數(shù),b(x,y)表示在(x,y)處二值化處理以后的灰度值,改進(jìn)算法的具體描述如下。
輸入:圖像灰度值 u(x,y)(0≤u(x,y)≤255);
輸出:二值化處理以后的灰度值 b(x,y)(b(x,y)=0∨b(x,y)=255)。
步驟1 計(jì)算(x,y)處的閾值T1(x,y):
步驟2 計(jì)算(x,y)處在(2f+1)×(2f+1)窗口內(nèi)經(jīng)高斯濾波后的像素灰度值ˉu(x,y):
步驟3 計(jì)算濾波后的閾值T2(x,y):
步驟4 設(shè)α∈(0,1),計(jì)算(x,y)處二值化處理以后的灰度值:
參數(shù)α為閾值 T1(x,y)和 T2(x,y)的權(quán)重控制系數(shù),當(dāng)α的值為0時(shí),算法為傳統(tǒng)的Bernsen二值化算法,當(dāng)0<α≤1時(shí),算法為改進(jìn)以后的算法。f的取值影響著算法的運(yùn)行速度與偽影的產(chǎn)生規(guī)模,f的取值越大,算法的運(yùn)行時(shí)間越長(zhǎng),產(chǎn)生的偽影越少;反之亦然。參數(shù)ˉx和ˉy控制著運(yùn)算窗口的大小,它是影響B(tài)ernsen算法運(yùn)行時(shí)間的重要參數(shù),假定ˉx為水平方向的長(zhǎng)度,ˉy為垂直方向的長(zhǎng)度。如果ˉx,ˉy≠0,那么算法是基于網(wǎng)格式掃描;如果ˉx=0∨ˉy=0,那么算法是基于線掃描。盡管網(wǎng)格式掃描可以降低二值圖像的噪聲,但是這樣會(huì)產(chǎn)生更多的偽影,同時(shí)消耗更多的運(yùn)行時(shí)間。由于線掃描僅僅需要從一個(gè)方向?qū)D像進(jìn)行掃描,盡管會(huì)產(chǎn)生少量的噪聲,但是會(huì)消除掉大部分由于不均勻光照而產(chǎn)生的陰影,能夠更好地保留圖像中的細(xì)節(jié)以及字符的特征,二值化處理效果較網(wǎng)格式掃描更好。本文提出的改進(jìn)算法就是在對(duì)灰度圖像進(jìn)行線掃描的同時(shí)進(jìn)行高斯平滑濾波。
在傳統(tǒng)的Bernsen線掃描二值化算法中,參數(shù)ˉx和ˉy總有一個(gè)為0,因此相當(dāng)于只有一個(gè)參數(shù),這個(gè)參數(shù)正是方形鄰域大小的控制參數(shù)f。f的值一般取決于圖像中目標(biāo)信息所占像素的大小,經(jīng)過(guò)對(duì)古籍圖像的實(shí)驗(yàn)分析,f的取值在圖像中字符的筆畫最小寬度和最大寬度之間時(shí)二值化處理效果較好。假定圖像中的目標(biāo)區(qū)域?yàn)閳D像中的文本區(qū)域,將f取不同的值后,會(huì)產(chǎn)生不同的二值化效果。如圖2所示,當(dāng)f=1時(shí),圖像會(huì)產(chǎn)生大量的偽影,當(dāng)f=25時(shí),會(huì)產(chǎn)生大量的噪聲,使得丟失掉部分文本區(qū)域的信息。在本例中,圖像中的目標(biāo)信息為古籍中的字符,其最小的筆畫寬度為6,最大的筆畫寬度為13,因此,f的值取10較合適,這樣既不會(huì)丟失文本區(qū)域的關(guān)鍵特征,也不會(huì)消耗更多的算法運(yùn)行時(shí)間。因此,在處理其他古籍圖像時(shí),可以先通過(guò)基于筆畫寬度變換的方法 (SWT)[10]提取古籍中文字的平均筆畫寬度來(lái)設(shè)置本算法中f的值。
圖2 傳統(tǒng)Bernsen算法中f取不同值時(shí)的二值化效果對(duì)比Fig.2 Comparison of binarization when f takes different values in traditional Bernsen algorithm
參數(shù)α的取值決定了圖像中噪聲平滑和目標(biāo)信息保留之間的平衡關(guān)系,調(diào)整α的值既可以使圖像能夠較好適應(yīng)光照不均的情況,同時(shí)也能去除圖像中的噪聲。α的取值越大,濾波的效果越明顯,但同時(shí)會(huì)使圖像中的目標(biāo)信息也被過(guò)濾;反之亦然。圖3展示了在本例圖片中當(dāng)f=10時(shí),α取不同的值對(duì)二值化效果的影響??梢钥闯觯?dāng)α的值取0.3時(shí),不僅可以較好地保留圖像中文本區(qū)域的特征,又能去除圖像中的噪聲。
圖3 改進(jìn)Bernsen算法中f=10條件下α取不同值時(shí)的二值化效果對(duì)比Fig.3 Comparison of binarization when α takes different values in improved Bernsen algorithm for f=10
為了在處理其他古籍圖像時(shí)能夠自適應(yīng)地調(diào)整α的值,本算法通過(guò)計(jì)算圖像中面積較小的連通區(qū)域的數(shù)量來(lái)實(shí)現(xiàn)α參數(shù)的自適應(yīng)調(diào)整。由圖3可以看出,當(dāng)α的值過(guò)大或過(guò)小時(shí),圖像中都會(huì)出現(xiàn)較多黑色的小噪點(diǎn),而當(dāng)α的值為最佳值時(shí),黑色小噪點(diǎn)的數(shù)量最少。文中把特征滿足式 (10)的連通區(qū)域認(rèn)定為噪點(diǎn)并計(jì)算其數(shù)量。其中S表示連通區(qū)域的面積,即在該連通區(qū)域內(nèi)黑色像素點(diǎn)的個(gè)數(shù)。
圖4展示了在本例圖片中滿足條件的噪點(diǎn)的數(shù)量和α取值的變化關(guān)系,可以看出,當(dāng)α取值最佳時(shí),噪點(diǎn)的數(shù)量最少,因此可以通過(guò)這種方式自適應(yīng)調(diào)整參數(shù)α的值。
圖4 α的取值與噪點(diǎn)數(shù)量的變化關(guān)系Fig.4 Relationship between the value of α and the number of noise points
經(jīng)過(guò)實(shí)驗(yàn)分析可以看出,傳統(tǒng)的Bernsen二值化算法對(duì)光照不均的古籍圖像的二值化效果并不理想,但是文中改進(jìn)的二值化算法能夠較好地適應(yīng)圖像中光照不均的情況。
由前文分析可知,經(jīng)過(guò)預(yù)處理之后,圖像中仍然有很多非文本區(qū)域 (彝文古籍中的分割線、標(biāo)點(diǎn)符號(hào)、圖畫裝飾等),因此,要想進(jìn)一步對(duì)彝文字符進(jìn)行定位和分割,還需針對(duì)這些非文本區(qū)域進(jìn)行過(guò)濾。在文獻(xiàn) [11]中,研究者用基于啟發(fā)式規(guī)則的方法對(duì)復(fù)雜背景下的圖像 (門牌、指示牌、廣告標(biāo)等)中的非文本區(qū)域進(jìn)行去除,取得了較理想的檢測(cè)準(zhǔn)確率和召回率,本文通過(guò)一些啟發(fā)式規(guī)則對(duì)復(fù)雜噪聲背景下的彝文古籍掃描圖像中的非文本區(qū)域進(jìn)行了有效的提取和消除,具體如下。
為了分析文本區(qū)域和非文本區(qū)域的連通區(qū)域特征,從32張具有代表性的古籍圖像中選擇了672個(gè)單字符文本區(qū)域和258個(gè)非文本區(qū)域,對(duì)它們的連通區(qū)域特征進(jìn)行分析。本文主要從連通區(qū)域最小外接矩形的高度、寬度和縱橫比的特征對(duì)非文本區(qū)域進(jìn)行去除,分析結(jié)果如圖5所示。
圖5 連通區(qū)域特征Fig.5 Characteristics of connected components
對(duì)于古籍圖片當(dāng)中的分割線或圖片來(lái)說(shuō),它們的長(zhǎng)度或?qū)挾韧剂苏麄€(gè)圖片長(zhǎng)度或?qū)挾鹊暮艽蟊戎?,本文將連通區(qū)域長(zhǎng)度或?qū)挾却笥谡麖垐D片長(zhǎng)度或?qū)挾任宸种坏膮^(qū)域規(guī)定為非文本區(qū)域,同時(shí),由圖5可以看出,大多數(shù)非文本區(qū)域的連通區(qū)域最小外接矩形的縱橫比小于0.1,因此將滿足以下特征的連通區(qū)域也認(rèn)定為非文本區(qū)域:
式中,C、D分別表示連通區(qū)域最小外接矩形的寬度和高度。
測(cè)試結(jié)果表明,用該方法可以去除大多數(shù)古籍圖片中的非文本區(qū)域,如圖6所示,可以看到用本文的方法對(duì)非文本區(qū)域的去除具有較好的效果。
經(jīng)過(guò)前幾步的處理,有效地去除了古籍圖像中的大部分噪聲,實(shí)現(xiàn)了非文本區(qū)域的去除。接下來(lái)要對(duì)候選的文本區(qū)域進(jìn)行單字符檢測(cè)。本文提出一種基于MSER[12]和CNN結(jié)合的方法對(duì)古籍圖像中的單個(gè)字符進(jìn)行檢測(cè),具體的實(shí)現(xiàn)步驟如下。
圖6 非文本區(qū)域去除效果Fig.6 Effect of separating text area from non-text area
步驟1 采用基于MSER的方法對(duì)文本區(qū)域進(jìn)行檢測(cè),MSER算法的具體實(shí)現(xiàn)過(guò)程如下:
(1)灰度區(qū)間 [0,255]內(nèi)的256個(gè)不同閾值對(duì)灰度圖像進(jìn)行二值化;令Qt表示二值化閾值t對(duì)應(yīng)的二值圖像中的某一連通區(qū)域,當(dāng)二值化閾值由t變成t+Δ和t-Δ(Δ為變化值)時(shí),連通區(qū)域 Qt相應(yīng)變成了 Qt+Δ和 Qt-Δ。
(2)計(jì)算閾值為t時(shí)的面積比q(t)= Qt+ΔQt-Δ/Qt,當(dāng)Qt的面積隨二值化閾值t的變化而發(fā)生較小變化,即qt為局部極小值時(shí),Qt為最大穩(wěn)定極值區(qū)域。其中Qt表示連通區(qū)域Qt的面積。 Qt+Δ-Qt-Δ表示Qt+Δ減去Qt-Δ后的剩余區(qū)域面積。
在進(jìn)行MSER檢測(cè)的過(guò)程中有些大的矩形框會(huì)包含小的矩形框,因此要對(duì)這些區(qū)域進(jìn)行合并,將小的矩形框去除。設(shè)連通區(qū)域1的參數(shù)為β1、1、δ1、ε1,連通區(qū)域 2 的參數(shù)為 β2、2、δ2、ε2,其中,和β分別表示連通區(qū)域最小外接矩形在y軸方向上的最小值和最大值,δ和ε分別表示連通區(qū)域最小外接矩形在x軸方向上的最小值和最大值,那么連通區(qū)域1包含連通區(qū)域2可以根據(jù)式 (12)進(jìn)行判定:
通過(guò)以上步驟,對(duì)文本區(qū)域進(jìn)行了初步的篩選,但是由圖7可以看出,檢測(cè)結(jié)果中仍然包含著一部分非文本區(qū)域。這些區(qū)域和文本區(qū)域有著相似的幾何特征,因此還需要進(jìn)一步將這些非文本區(qū)域排除。
圖7 單字符初步檢測(cè)結(jié)果Fig.7 Preliminary detection result of single character
步驟2 為了能夠進(jìn)一步區(qū)分文本區(qū)域和非文本區(qū)域,本文參考AlexNet[13]網(wǎng)絡(luò)設(shè)計(jì)了一個(gè)CNN的二元分類器,其結(jié)構(gòu)如圖8所示,一共有兩個(gè)卷積層、兩個(gè)池化層,最后的全連接層是一個(gè)針對(duì)文本和非文本的二元分類器。首先輸入一張32像素×32像素的彩色圖像,然后再用16個(gè)3像素×3像素的卷積核提取輸入圖像的特征,進(jìn)而得到一個(gè)32像素×32像素×16像素的卷積層,后用2像素×2像素最大池化的方法降低卷積層的數(shù)據(jù)維度,得到一個(gè)16像素×16像素×16像素的池化層,再用32個(gè)5像素×5像素的卷積核進(jìn)一步提取更高層的特征,最后通過(guò)2像素×2像素最大池化的方法得到8像素×8像素×32像素的輸出。將這些輸出特征全部連接在一個(gè)全連接層,根據(jù)特征向量進(jìn)行權(quán)重計(jì)算,輸出屬于兩個(gè)類別的概率,進(jìn)而判斷輸入的圖像是否為文本區(qū)域。Adam作為優(yōu)化算法,學(xué)習(xí)率設(shè)定為0.001,學(xué)習(xí)率下降乘數(shù)因子設(shè)定為0.1,損失函數(shù)選擇交叉熵?fù)p失函數(shù)[14]。訓(xùn)練樣本通過(guò)從原始圖像上裁剪獲得,其中正樣本為文本區(qū)域裁剪圖像,負(fù)樣本為非文本區(qū)域裁剪圖像。本研究選取了124張彝文古籍圖像,用來(lái)構(gòu)建裁剪圖像數(shù)據(jù)集,如圖9(a)和9(b)所示,正樣本為8 471個(gè)文本區(qū)域裁剪圖像,負(fù)樣本為8359個(gè)非文本區(qū)域裁剪圖像。導(dǎo)入數(shù)據(jù)時(shí),首先打亂順序,以8∶2的比例進(jìn)行隨機(jī)劃分,分別作為訓(xùn)練集和測(cè)試集,然后對(duì)輸入圖像采用均值分別為0.471、0.452、0.412,方差分別為0.282、0.267、0.231的參數(shù)對(duì)導(dǎo)入圖像進(jìn)行標(biāo)準(zhǔn)化變換。
圖8 CNN網(wǎng)絡(luò)結(jié)構(gòu) (單位:像素)Fig.8 Network structure of CNN(Unit:pixel)
圖9 部分訓(xùn)練樣本Fig.9 Partial training sample
裁剪樣本的大小和CNN預(yù)測(cè)的平均準(zhǔn)確率變化情況如圖10所示,實(shí)驗(yàn)結(jié)果表明,在訓(xùn)練第20到30輪次的時(shí)候預(yù)測(cè)的平均準(zhǔn)確率趨于穩(wěn)定,通過(guò)比較24像素 ×16像素、24像素 ×24像素、32像素×24像素、32像素×32像素、48像素×32像素幾種不同大小的裁剪樣本,本文最終選擇將32像素×32像素大小的裁剪樣本作為訓(xùn)練數(shù)據(jù),同時(shí)將本文檢測(cè)算法得到的候選區(qū)域統(tǒng)一調(diào)整為32像素×32像素大小的圖像進(jìn)行分類。
圖10 裁剪圖像大小與CNN預(yù)測(cè)平均準(zhǔn)確率變化情況Fig.10 Change of cropped image size and average accuracy of CNN prediction
圖11為通過(guò)CNN分類以后得到的文本區(qū)域,由此可見(jiàn),本文方法能夠?qū)偶形谋緟^(qū)域和非文本區(qū)域進(jìn)行準(zhǔn)確的分類。
圖11 最終檢測(cè)效果Fig.11 Final detection result
本文測(cè)試的古籍掃描圖片均由貴州省畢節(jié)市貴州工程應(yīng)用技術(shù)學(xué)院彝學(xué)研究院提供,實(shí)驗(yàn)從3052張掃描圖片中選取了最具古彝文書寫風(fēng)格的53張背景復(fù)雜、噪聲較大、最具代表性的圖片,然后采用ICDAR2005年魯棒閱讀測(cè)評(píng)[15]定義的準(zhǔn)確率和召回率來(lái)評(píng)測(cè)文本區(qū)域檢測(cè)的性能。本文實(shí)驗(yàn)環(huán)境:Windows操作系統(tǒng) (Windows10企業(yè)版)、Intel(R)Core(TM)i7-7700處理器、3.60 GHz主頻、8GB內(nèi)存、NVIDA GeForce GT710顯卡。
準(zhǔn)確率定義為準(zhǔn)確檢索到的文本框的數(shù)量與所有檢測(cè)到文本框數(shù)量的比值;召回率定義為準(zhǔn)確檢索到的文本框的數(shù)量與需要被準(zhǔn)確檢索的文本框數(shù)量的比值。假定準(zhǔn)確檢索到的文本框的數(shù)量為m,所有檢測(cè)到文本框的數(shù)量為ma,需要被準(zhǔn)確檢索的數(shù)量為mb,那么準(zhǔn)確率p和召回率r可用以下公式表示:
然而,現(xiàn)實(shí)中檢測(cè)出的文本框和標(biāo)準(zhǔn)的文本框并不一定完全重合,ICDAR2005魯棒測(cè)評(píng)小組用一個(gè)匹配值來(lái)評(píng)估定位的準(zhǔn)確性,m按照如下方式定義。
如圖12所示,根據(jù)ICDAR2005規(guī)定的標(biāo)準(zhǔn),R1表示標(biāo)準(zhǔn)的文本框,R2表示參賽者所得到的文本框,則m的表達(dá)式如式 (14)所示,其中a表示相應(yīng)矩形框的面積。
圖12 當(dāng)兩矩形框重合時(shí)m的計(jì)算方式Fig.12 Formula mode of m when two rectangles overlap
實(shí)驗(yàn)證明,本文提出的方法能夠較好地將文本區(qū)域和復(fù)雜背景進(jìn)行分離,并在單字符檢測(cè)方面取得了較高的準(zhǔn)確率和召回率,實(shí)驗(yàn)中對(duì)文本檢測(cè)的結(jié)果如圖13所示。通過(guò)檢測(cè)結(jié)果可以發(fā)現(xiàn),本文提出的方法可將污染嚴(yán)重、噪聲較大的古籍圖片中的大多數(shù)字符進(jìn)行較準(zhǔn)確的檢測(cè)。
圖13 古籍文本檢測(cè)結(jié)果Fig.13 Detection result of ancient text
本文方法的測(cè)試結(jié)果如表1所示,將本文的方法分別同6種不同的傳統(tǒng)檢測(cè)方法和3種深度學(xué)習(xí)方法在總體性能上進(jìn)行了對(duì)比。傳統(tǒng)方法分別是:只采用連通分量的方法、只采用傳統(tǒng)投影法、采用連通分量結(jié)合傳統(tǒng)的投影法、只采用MSER的方法、只采用筆畫寬度變換的方法 (SWT)和采用MSER結(jié)合SWT的方法[16]。深度學(xué)習(xí)的方法分別是:基于 Region CNN(R-CNN)[17]的方法、基于Fast R-CNN[18]的方法、基于 Faster R-CNN[19]的方法。這3種方法的訓(xùn)練數(shù)據(jù)都選取之前用來(lái)構(gòu)建裁剪數(shù)據(jù)集的124張彝文古籍圖像,并標(biāo)注單個(gè)字符區(qū)域,訓(xùn)練時(shí)將所有圖片的寬度歸一化為400個(gè)像素,高度按比例進(jìn)行縮放。
表1 本文方法和其他傳統(tǒng)檢測(cè)方法在總體性能上的對(duì)比Table 1 Comparison of overall performance of the proposedmethod with other traditional methods
通過(guò)對(duì)比9種不同檢測(cè)方法的檢測(cè)結(jié)果數(shù)據(jù),可以發(fā)現(xiàn),基于傳統(tǒng)投影法的準(zhǔn)確率和召回率較低,這主要是由于彝文古籍書寫版面雜亂,且有較多字符區(qū)域重疊的現(xiàn)象;而基于連通分量的檢測(cè)方法能夠較好地處理字符區(qū)域重疊的問(wèn)題,但是對(duì)于圖文混排的圖像,還是不能取得較好的檢測(cè)效果;在將兩種傳統(tǒng)的方法融合以后,準(zhǔn)確率和召回率得到了一定的提升,基于MSER和SWT結(jié)合的方法取得了較好的效果,但是由于古籍中很多非文本區(qū)域和文本區(qū)域具有相似的筆畫寬度,因此準(zhǔn)確率反而有所下降;3種深度學(xué)習(xí)的方法在總體性能上優(yōu)于傳統(tǒng)方法,但由于目前標(biāo)注的訓(xùn)練樣本仍然較少,最終的檢測(cè)效果不太理想;而本文提出的方法可以較好地處理字符區(qū)域重疊和圖文混排的情況,在有限的標(biāo)注數(shù)據(jù)上檢測(cè)的準(zhǔn)確率和召回率取得了最好的結(jié)果。
同時(shí),本文提出的方法在檢測(cè)其他古籍圖像中也具有一定的普適性,古漢字和古彝文具有相似的字體結(jié)構(gòu),如圖14所示,采用本文的方法對(duì)漢字佛經(jīng)圖像的字符檢測(cè)也取得了一定的效果。
圖14 漢字佛經(jīng)古籍檢測(cè)結(jié)果Fig.14 Detection results of ancient Chinese characters in Buddhist scriptures
本文實(shí)現(xiàn)了一種對(duì)復(fù)雜噪聲背景下彝文古籍掃描圖片進(jìn)行預(yù)處理和文本檢測(cè)的方法。首先通過(guò)非局部均值濾波和改進(jìn)的局部自適應(yīng)二值化方法對(duì)原始圖像進(jìn)行預(yù)處理,其次用啟發(fā)式規(guī)則方法過(guò)濾掉非文本區(qū)域,最后用基于MSER和CNN的方法對(duì)彝文單字符進(jìn)行檢測(cè)。實(shí)驗(yàn)結(jié)果表明,本文提出的方法同其他傳統(tǒng)的檢測(cè)方法相比可以取得較高的準(zhǔn)確率和召回率。如何從更復(fù)雜的背景下更好地提高檢測(cè)性能、對(duì)彝文單字符的識(shí)別以及通過(guò)傳統(tǒng)檢測(cè)方法對(duì)古籍字符進(jìn)行預(yù)標(biāo)注,然后采用深度學(xué)習(xí)的方法進(jìn)行訓(xùn)練將是下一步進(jìn)行的主要工作。