饒 書,魏宏靜
( 1.銅仁學(xué)院 大數(shù)據(jù)學(xué)院,貴州 銅仁 554300;2.貴州理工學(xué)院 機(jī)械工程學(xué)院,貴州 貴陽 550003 )
索取號分割方法研究
饒 書1,魏宏靜2
( 1.銅仁學(xué)院 大數(shù)據(jù)學(xué)院,貴州 銅仁 554300;2.貴州理工學(xué)院 機(jī)械工程學(xué)院,貴州 貴陽 550003 )
拍攝得到的索取號照片通常含有很多干擾信息,需要進(jìn)行相應(yīng)的圖像分割才能得到正確的索取號。在分割算法中,首先需取得原照片的灰度圖像,然后經(jīng)過多種算子對比后使用 CANNY算子來檢測該灰度圖的邊緣點。檢測得到的邊緣點在經(jīng)過S分量的進(jìn)一步分割后,仍然還有少量的非文字邊緣點干擾。為了排除這些干擾,采用文字行、列區(qū)域檢測來確定邊緣點數(shù)量最多的區(qū)域,從而正確的分割出照片中的索取號部分。
索取號; 干擾信息; CANNY算子; 分割
索取號,即圖書館藏書的編號。以往總是需要對圖書館索取號進(jìn)行人工記錄,但是這種記錄方式成本較大,為此,需要開發(fā)一種索取號自動識別系統(tǒng),該系統(tǒng)只需要給書架上的書籍照相并上傳到電腦中,就能夠自動獲取書籍上的索取號信息并轉(zhuǎn)化為電子文檔,方便藏書的管理工作。在該系統(tǒng)中,首先需要剔除各種可能存在的干擾信息從而獲取索取號的正確位置,為此在本篇文章中將討論一種將照片中索取號正確識別并分割的算法。
從圖1中可以看到CCD拍攝的圖書索取號圖像,其中除了索取號以外,還包括了各種色彩的邊框以及出版社和彩色封面等信息,這些信息將對之后的識別起到很大的干擾作用。
針對于復(fù)雜背景文字邊緣數(shù)量特征干擾嚴(yán)重的問題,決定采用基于邊緣點數(shù)量統(tǒng)計的文字圖像分割方法來正確分割圖書索取號。索取號文字圖像具
有如下特征:(1)索取號文字采用黑色印刷;(2)索取號文字?jǐn)?shù)量至少為6個;(3)索取號字符的水平排列;(4)索取號貼在書脊的下半部分。算法主要由以下幾個部分組成:(1)HSI 彩色空間轉(zhuǎn)換;(2)索取號邊緣檢測;(3)索取號文字圖像邊緣點彩色分割;(4)文字圖像行區(qū)域檢測;(5)文字圖像列區(qū)域檢測;(6)區(qū)域邊界調(diào)整[1]。以下將從彩色空間轉(zhuǎn)換開始對索取號的算法步驟進(jìn)行介紹。
在索取號的提取中,首先必須得到一個灰度圖像,因為在之后的邊緣點檢測中能夠減少算法的耗時[2]。攝像頭拍攝的彩色圖片的像素點通常是采用24位RGB表示,但R,G和B三值在程序中并不易分割,在接下來的CANNY算子檢測中很難得到正確的邊緣點。因此選擇更接近于人眼感知、且易于分割的(HSI)空間,H代表色度,S代表飽和度、I代表亮度。
圖2. HSI彩色空間的I分量
在文字切割算法上,只對邊緣點S分量進(jìn)行彩色分割。在本算法中,首先只轉(zhuǎn)換I分量,得到灰度圖像,如圖2所示。待接下來的邊緣點檢測出來后,再對邊緣點進(jìn)行S分量計算。轉(zhuǎn)換關(guān)系如式(1)所示:
在彩色空間轉(zhuǎn)換得到灰度圖以后,接下來為得到灰度圖的邊緣點進(jìn)行邊緣檢測,以便于之后對于邊緣點的S分量彩色分割來得到索取號正確邊緣點。首先,分別使用PREWITT算子、 LOG算子和CANNY算子對圖2(a)的灰度圖進(jìn)行邊緣檢測以確定哪一種算法能夠得到最好的邊緣檢測效果(如圖3所示)。
圖3. 三種算子的檢測邊緣對比
比較前面的PREWITT算子、LOG算子和CANNY算子,可以發(fā)現(xiàn)CANNY算子的邊緣檢測結(jié)果最滿意,所以接下來將使用CANNY算子進(jìn)行索取號邊緣檢測[3]。
CANNY算子需要定義三個參數(shù),分別為高斯函數(shù)的分布參數(shù),高閾值(TG)和低閾值(TL)[4]。其中設(shè)置為1,TL=0.4×TG。在經(jīng)過反復(fù)試驗以后發(fā)現(xiàn),當(dāng)TG取值在0.3以上的時候會將大量的邊緣點丟失而導(dǎo)致無法檢測到正確的邊緣點,而當(dāng) TG 取值在
0.1以下時,則會將過多的非邊緣點檢測為邊緣點,在接下來的S分量彩色分割中這些非邊緣點會直接使得最后無法分割得到需要的索取號邊緣點,所以在實驗中取TG=0.2。 CANNY 算子邊緣檢測結(jié)果如圖4所示。
通過CANNY算子檢測得到的邊緣圖像可以看到關(guān)于文字的邊緣像素點部分通常具有兩個特征,首先是分布集中,然后是像素點數(shù)量較多。雖然有光照、污漬以及紙張質(zhì)量等干擾元素的存在,但是因為上述的特征,使得文字邊緣像素點分布圖像較難被干擾。CANNY算子檢測得到的邊緣點在HSI
彩色空間S分量上進(jìn)行索取號文字邊緣點分割。由于索取號文字采用黑色印刷,但發(fā)生不同程度的褪色, 即黑顏色的飽和度 S有一定的變化,故:
式中,BW(i,j)是Canny算子檢測的邊緣,BW_Word(i,j)是文字的邊緣點,S1=0,S2=0.05。經(jīng)邊緣點S分量分割后的圖像如圖5所示,圖中邊緣點主要為文字邊緣點。
雖然還有少量的非文字邊緣點,但是相對于文字邊緣點來說,其邊緣點的數(shù)量已經(jīng)非常少了,根據(jù)文字圖像結(jié)構(gòu)邊緣點數(shù)量更多的特點,只需要通過文字圖像行、列區(qū)域檢測選擇出包含圖像行、列邊緣點最多的區(qū)域為索取號文字圖像,即可大致判斷出索取號的位置。
由于文字邊緣像素點部分的兩大特征(分布集中、像素多)。則可得下式:
文字圖像區(qū)域的字符間隔可能會導(dǎo)致非文字圖像區(qū)域的行邊緣點數(shù)量高于文字圖像區(qū)域的邊緣點數(shù)量,但是從行平均值來看卻依然能較為準(zhǔn)確的分
割出文字圖像區(qū)域內(nèi)邊緣像素點,如(4)式所示:
其中NY(word)為文字圖像區(qū)域中某行的邊緣點數(shù)量,NY(non-word )是非文字圖像區(qū)域內(nèi)某行的邊緣點數(shù)量,表示圖像所有邊緣像素點數(shù)量的行均值。根據(jù)(4)式檢測出可能的文字圖像行,如圖5(a)的行邊緣點數(shù)量統(tǒng)計如圖6所示。
圖6 行方向邊緣點數(shù)量統(tǒng)計
檢測出的文字圖像區(qū)域行邊緣點進(jìn)行合并得到初步的文字圖像行區(qū)域。在算法中,設(shè)置行間隔值TY=10。當(dāng)文字行間距為DY≤TY時,默認(rèn)為是單獨一個的文字圖像區(qū)域。反之,則為兩個文字圖像區(qū)域[5]。
檢測出的文字圖像區(qū)域列像素點進(jìn)行合并得到初步的文字圖像列區(qū)域。在算法中,設(shè)置列間隔值TX=20。當(dāng)文字列間距為DX≤TX時,默認(rèn)為是單獨一個的文字圖像區(qū)域。反之,則為兩個文字圖像區(qū)域[4]。
在計算過程中,可能會出現(xiàn)多個可能文字圖像列區(qū)域,選擇其中可能包含文字圖像列像素點最多的區(qū)域為最終的索取號圖像區(qū)域。在行、列檢測以
在計算過程中,可能會出現(xiàn)多個可能文字圖像行區(qū)域,選擇其中包含可能文字圖像行最多的區(qū)域為最終的索取號圖像區(qū)域。同理,可進(jìn)一步確定行區(qū)域內(nèi)和列區(qū)域的文字圖像。檢測可能的文字圖像列,圖5(a)的文字圖像行區(qū)域中列邊緣點數(shù)量統(tǒng)計如圖7所示。后基本確定了索取號文字區(qū)域。但是由于本身索取號文字的原因,可能會影響邊界的檢測,所以在文字圖像的分割的最后一步,需要對分割得到文字圖像區(qū)域進(jìn)行進(jìn)一步的修正。
文字圖像中部分字符的筆畫可能會因為種種原因出現(xiàn)漏檢,如字符“F”的下半部分因為邊緣點數(shù)量較少容易漏檢。因此,需要針對文字區(qū)域進(jìn)行相應(yīng)的邊界調(diào)整。在已經(jīng)分割出的文字圖像區(qū)域附近,若行、列邊緣點數(shù)量大于2,則都作為索取號區(qū)域,并提取出相應(yīng)區(qū)域內(nèi)的文字圖像。圖1 所示的索取號經(jīng)分割后如圖8所示。
圖7 列邊緣點數(shù)量統(tǒng)計
圖8 分割出的索取號圖像
本文經(jīng)過對三種算子的實驗對比,認(rèn)為canny算子來檢測圖像的邊緣具有較好的效果,同時基于文字圖像結(jié)構(gòu)的基本特征,使用了行列區(qū)域檢測的辦法,最終去除了圖像中的干擾元素,較為準(zhǔn)確地分割出了照片中的索取號圖像。
[1] 羅華杏.條形碼技術(shù)在圖書館管理系統(tǒng)中的應(yīng)用[J].廣船科技學(xué)報,1999,(4):30-31.
[2] 胡小鋒,趙輝.Visual C++/MATLAB圖像處理與識別實用案例精選[M].北京:人民郵電出版社,2004.
[3] 王圓妹.圖書索書號自動識別技術(shù)的研究與實現(xiàn)[D].武漢:長江大學(xué),2009.
[4] 哈力旦·A,伊力哈木·亞爾買買提,庫爾班·買提木沙.復(fù)雜背景下維吾爾文字符的分割算法[J].計算機(jī)工程與應(yīng)用,2007,(20):163-165.
[5] 龔才春,劉榮興.基于整體特征的快速手寫體數(shù)字字符識別[J].計算機(jī)工程與應(yīng)用,2004,(19):82-83.
Research of Method for Call Number Segmentation
RAO Shu1, WEI Hongjing2
(1. School of Data Sciences, Tongren University, Tongren, Guizhou 554300,China; 2. School of Mechatronics Engineering,Guizhou Institute of Technology, Guiyang, Guizhou 550003,China )
Call numbers’ photos obtained by shooting usually had interference information. So image segmentation was an indispensable means of obtaining exact call numbers. Firstly, call numbers’ photos should be converted to gray level images. Secondly, using CANNY operator detected this images edge points after comparing with several kinds of operators. But a little interference information was still existed among the words’ edge points after using S component segmentation. Finally, we used edge area detection which based on row and column to eliminate the interference and segment exact call numbers’ edge.
call numbers, interference information, Canny operator, segmentation
TP301
A
1673-9639 (2016) 04-0063-04
(責(zé)任編輯 田 波)(責(zé)任校對 毛 志)
2016-06-03
饒 書(1988-),男,貴州銅仁人,銅仁學(xué)院教師,碩士,研究方向:電子科學(xué)技術(shù)。魏宏靜(1987-),女,黑龍江省肇東人,貴州理工學(xué)院教師,研究方向:機(jī)械、電子工程。