曹海青, 王丹煜, 姚志英, 程 玥, 鄭博一
1(首都經(jīng)濟(jì)貿(mào)易大學(xué) 信息學(xué)院,北京 100070)
2(北京物資學(xué)院 物流學(xué)院,北京 101149)
近年來隨著信息技術(shù)的迅猛發(fā)展,圖書館圖書自動存取技術(shù)得到快速發(fā)展. Suthakorn J等提出了通過機(jī)器人實(shí)現(xiàn)圖書館的自動化管理[1],此后諸多學(xué)者開始研究圖書館自動存取書機(jī)器人及其相關(guān)技術(shù),其中圖書書脊和索書號的識別就是一個(gè)研究熱點(diǎn). Spemcer G.Fowers等人利用書脊的顏色特征建立數(shù)據(jù)庫,在使用時(shí)通過提取所拍攝到的圖書書脊圖像顏色特征,然后與數(shù)據(jù)庫中顏色特征進(jìn)行比對,從而進(jìn)行書脊定位和索書號定位[2]. 胡小鋒等利用字符上下輪廓的凹凸特征檢測字符的近似寬度形成索書號字符切分路徑,并根據(jù)筆畫寬度對切分后的筆畫進(jìn)行修復(fù),實(shí)現(xiàn)對圖書索書號粘連字符的切分[3]. 方建軍等應(yīng)用Canny算子進(jìn)行書脊邊緣檢測,采用霍夫變換法查找書脊邊緣線段,實(shí)現(xiàn)索書號圖像的提取與分割,后來他們又應(yīng)用小波分析和概率Hough變換進(jìn)行書脊視覺識別[4,5]. 劉汝翠設(shè)計(jì)了一種結(jié)合深度學(xué)習(xí)中的SoftMax回歸算法和書脊圖像特征識別相結(jié)合的亂架檢測算法,實(shí)現(xiàn)自動高效的圖書亂架檢測[6]. XianZhi Du,Wael Abdalmageed和David Doermann應(yīng)用M超平面和局部敏感哈希算法實(shí)現(xiàn)簽名的快速識別[7]. Hong Shao,Tianshu Yu和Mengjia Xu基于局部敏感哈希算法研究了一種快速的大規(guī)模簽名識別算法[8]. 綜上可知基于圖像和視覺處理技術(shù)的書脊檢測和索書號識別是目前圖書館自動存取書機(jī)器人中應(yīng)用較為廣泛的技術(shù),但這種技術(shù)的處理效果和效率受使用的環(huán)境、圖像容量和圖像質(zhì)量的影響較大,影響了書脊和索書號識別的使用和推廣. 本文將研究一種簡單的投影算子,將其應(yīng)用于書脊和索書號的識別,旨在改善書脊和索書號識別的效率和準(zhǔn)確率,促進(jìn)圖書館圖書自動存取技術(shù)的應(yīng)用和推廣.
圖書館自動存取書機(jī)器人實(shí)現(xiàn)從書架上自動存取圖書的前提條件是能書架上的成排書中準(zhǔn)確識別出每一個(gè)書. 本文將應(yīng)用投影算子實(shí)現(xiàn)對圖書書脊的識別.
在高等代數(shù)中投影算子是從向量空間映射到自身的一種線性變換,投影變換將整個(gè)向量空間映射到它的一個(gè)字空間,并且在這個(gè)字空間中是恒等變換. 用數(shù)學(xué)語言描述如下:
若空間V有一個(gè)子空間W,算子P將所有V中的元素都映射到W中,且P在W上是恒等變換,即,使得,并且,則稱算子P是投影算子.
目前投影算子已經(jīng)被廣泛應(yīng)用于圖像處理、幾何圖形識別和圖形壓縮等領(lǐng)域[9-11]. 本文中將以二值化圖像為研究對象,以二值化圖像的內(nèi)容為基礎(chǔ)構(gòu)建一組n(n≥1)維的向量,定義投影算子P將n維向量的元素求和映射為一維向量. 用數(shù)學(xué)語言表述如下,設(shè)一個(gè)長為L寬為W的二值化圖像,將其分別定義為L個(gè)W維的列向量C(i,j)(i=1,2,…,L;j=1,2,…,W)和W個(gè)L維的行向量R(j,i)(i=1,2,…,L;j=1,2,…,W),本文分別設(shè)計(jì)列投影算子Pc和行投影算子Pr,其中列投影算子對列向量求和,行投影算子對行向量求和,即:
圖書館自動存取書機(jī)器人利用視頻設(shè)備抓圖書彩色圖片經(jīng)二值化處理結(jié)果如圖1所示,本文將圖1所示的二值化圖其長為130像素,寬為170像素,將二值化圖內(nèi)容轉(zhuǎn)化為130個(gè)170維列向量C(i,j)(i=1,2,…,130;j=1,2,…,170),則列向量的元素由0和1組成,具體取值情況如式(3)所示.
其中source(i,j)表示二值化圖中第(i,j) 個(gè)像素點(diǎn)的像素值. 應(yīng)用列投影算子Pc對列向量C(i,j)進(jìn)行運(yùn)算后所得的列投影向量為Ac(i)(i=1,2,…,130),列投影向量Ac(i)的取值情況如圖2所示,由圖可知曲線在AB段、BC段和CD段列投影向量Ac(i)的值也是經(jīng)歷了由大變小再變大的過程,經(jīng)研究分析可知造成列投影向量Ac(i)如此變化的原因是由于在AB、BC和CD段分別屬于不同圖書的書脊內(nèi)容的投影,由于書與書之間以及書架和書之間的相互影響造成明顯的邊界效應(yīng),即在圖像進(jìn)行二值化處理時(shí)書與書的邊界、書與書架的邊界處容易造成黑色集中的情況發(fā)生,而且在這些邊界點(diǎn)處列投影向量A的值呈現(xiàn)出由中間的最大值分別向其左右兩邊減少,在曲線中列投影向量的局部最大值點(diǎn)一般就是書與書之間的分界點(diǎn),根據(jù)上述分析思路進(jìn)行算法設(shè)計(jì)并對圖1所示的圖書圖片進(jìn)行處理后定位到書脊的切分線如圖3所示,按照圖3所示的切分線間的區(qū)域即為圖書書脊區(qū)域,按照切分線進(jìn)行書籍切分即可切分出圖中所包含的每一本圖書.
圖1 書架上圖書的二值化圖片
圖2 列投影向量Ac的變化情況
通過上述研究我們應(yīng)用列投影算子成功地識別出圖書的書脊,但在圖書管自動存取書機(jī)器人應(yīng)用中,不僅要準(zhǔn)確識別書脊,而且還需要精確識別出書籍所對應(yīng)的索書號才能實(shí)現(xiàn)存取書的自動化. 接著我們將通過行投影算子和列投影算子進(jìn)行圖書索書號的定位和切分,然后應(yīng)用模板匹配的方法進(jìn)行索書號的識別.
圖3 基于列投影的書脊檢測結(jié)果
為了確定書脊圖像中索書號的位置,需分別確定索書號在圖像中行位置信息和列位置信息,接著我們將應(yīng)用投影算子分別研究圖像內(nèi)容中索書號的行位置和列位置信息.
圖4為某一本圖書經(jīng)過書脊定位后切分、二值化和區(qū)域去噪后的結(jié)果,圖4所示的圖像的長為42像素,寬為170像素,以此二值化圖內(nèi)容為基礎(chǔ)構(gòu)建170個(gè)42 維的行向量R(j,i)(i=1,2,…,42;j=1,2,…,170),向量的取值情況如式4所示,
其中source(j,i)表示二值化圖中第(j,i) 個(gè)像素點(diǎn)的像素值,則行投影向量Br(j)為:
圖4 含索書號的書脊二值化圖
行投影向量Br(j)的變化情況如圖5所示,在圖5曲線中BC、DE、FG、HI、JK、LM段內(nèi)行投影向量Br(j)的值變化均從0增加到一定的值后又減少到0,經(jīng)分析研究發(fā)現(xiàn)造成曲線如此變化的原因是由于索書號中內(nèi)容在二值化圖中為黑色,不同內(nèi)容間有明顯的白色間隙所造成的,為此可以根據(jù)行投影向量Br(j)的取值情況確定索書號在圖像中行位置信息. 圖4所示的圖書圖像中索書號的行信息定位情況如圖6所示,由圖6可知行投影算子可以很好地實(shí)現(xiàn)索書號行位置信息的定位.
圖5 行投影向量Br的變化曲線
圖6 索書號行位置信息的定位結(jié)果
以圖4所示的圖書書脊二值化圖為基礎(chǔ)構(gòu)建為42個(gè)170維的列向量C(i,j)(i=1,2,…,42;j=1,2,…,170),向量的取值情況如式6所示,
其中source(i,j)表示二值化圖中第(i,j)個(gè)像素點(diǎn)的像素值,則列投影向量Ac(i)為:
列向量Ac(i)的變化情況如圖7所示,由圖可知曲線在AB段和CD段列向量Ac(i)的值為零,在BC段列向量Ac(i)的值不為零,造成曲線產(chǎn)生上述變化的原因是由于BC段是由于圖書索書號的內(nèi)容在二值化圖中為黑色才導(dǎo)致列投影向量Ac(i)的值才從零變化到大于零的某一個(gè)值,又從大于這個(gè)值變化到零,為此可以根據(jù)列投影向量Ac(i)的取值變化情況確定索書號的列位置信息. 圖4所示的圖書圖像中索書號的列信息定位情況如圖8所示,由圖8可知列投影算子可以很好地實(shí)現(xiàn)索書號列位置信息的定位.
在確定索書號的行位置信息和列位置信息后,根據(jù)行位置信息和列位置信息畫出包含索書號每一個(gè)元素的矩形框,具體如圖9所示,按照圖9種所示的矩形框個(gè)數(shù),計(jì)算出索書號中所包含的元素的個(gè)數(shù),并按照矩形框的位置將索書號內(nèi)容切分成一個(gè)一個(gè)圖片實(shí)現(xiàn)索書號內(nèi)容的切分.
圖7 列投影向量A的變化情況
圖8 索書號列位置信息的定位結(jié)果
圖9 索書號內(nèi)容劃分結(jié)果
通過研究圖書索書號的內(nèi)容發(fā)現(xiàn)索書號的組成元素包括26大寫英文字母、0到9共10個(gè)數(shù)字和諸如“.”、“/”和“-”等共 20 個(gè)符號. 由于本文采用的是基于圖像處理的方法進(jìn)行索書號的識別,為此在研究中為這些字符構(gòu)建了長為32個(gè)像素寬為16個(gè)像素的二值化圖像,作為識別中的標(biāo)準(zhǔn)模板字符,圖10中有元素F、元素U、元素3、元素1、元素8、元素、元素4、元素5和元素2的標(biāo)準(zhǔn)模板字符樣例.
圖10 字符模板樣例
根據(jù)上述研究所切分的索書號元素的圖片因各個(gè)圖書管索書號采用的印刷字體、字體大小、是否加粗、印刷是否傾斜以及時(shí)間流逝印刷字的老化等原因,導(dǎo)致切分后所得索書號元素的圖片大小各不相同,為此在進(jìn)行模板匹配之前需對切分所得索書號元素圖片進(jìn)行歸一化處理,使歸一化后元素圖片的幾何尺寸為長32像素,寬16像素. 圖11為切分所得未進(jìn)行歸一化處理的元素圖片和歸一化后元素圖片.
圖11 切分所得索書號圖片歸一化處理結(jié)果
論文在研究過程中構(gòu)建了56個(gè)組成索書號內(nèi)容的元素字符模板二值化圖作為研究的字符標(biāo)準(zhǔn)模板庫,在圖書索書號識別時(shí)通過計(jì)算切分且歸一化處理的圖書索書號元素二值化圖與字符模板庫中所有模板的匹配度,取其中匹配度最大的字符模板對應(yīng)的字符為最終的識別結(jié)果. 具體數(shù)學(xué)解釋如下: 首先在索書號識別系統(tǒng)中將根據(jù)每一個(gè)字符標(biāo)準(zhǔn)模板二值化圖內(nèi)容構(gòu)建16個(gè)32維的向量M(i,j,k) (i=1,2,…,56;j=1,2,…,16;k=1,2,…,32); 接著將以每個(gè)切分且歸一化處理待識別的索書號元素對應(yīng)的二值化圖構(gòu)建16個(gè)32維的向量N(j,k)(j=1,2,…,16;k=1,2,…,32),設(shè)d(i)為待識別的索書號元素二值化圖與第i個(gè)字符標(biāo)準(zhǔn)模塊的歐氏距離,則:
然后計(jì)算帶識別索書號元素二值化圖與字符標(biāo)準(zhǔn)模板的匹配度e(i),其中e(i) 表示與第i個(gè)字符標(biāo)準(zhǔn)模板的匹配度,且:
當(dāng)d(i)=0時(shí),; 當(dāng)時(shí),待識別的索書號元素即為第j個(gè)字符標(biāo)準(zhǔn)模板所對應(yīng)的字符; 根據(jù)如上所述的方法即可識別出索書號的所有元素.
為了檢驗(yàn)本文的研究成果,我們規(guī)范如圖12所示的索書號識別流程. 通過進(jìn)行大量案例測試發(fā)現(xiàn)基于投影算子的圖書書脊定位準(zhǔn)確率達(dá)99.86%,索書號內(nèi)容識別的準(zhǔn)確率達(dá)99.73%,對于成排書架上單本圖書書脊的定位時(shí)間僅需0.1 s,索書號內(nèi)容單個(gè)元素識別時(shí)間僅為0.02 s,與其他方法相比基于投影算子的書脊識別準(zhǔn)確率、索書號識別準(zhǔn)確性和性能均有極大的提高.
圖12 索書號識別流程
為了進(jìn)一步驗(yàn)證本文的研究成功,應(yīng)用參考文獻(xiàn)[5]中方法測試本文方法對書脊的定位情況,其測試結(jié)果如表1所示,由表可知本文所研究的基于投影的書脊定位方法的準(zhǔn)確定位率高于文獻(xiàn)[5]中的方法,且耗時(shí)平均不達(dá)文獻(xiàn)[5]中方法的1/10,值得進(jìn)一步的研究和探索.
本文研究了一種簡單的投影算子,將其應(yīng)用于圖書書脊識別和索書號的識別. 本文以書架圖書的二值化圖像為基礎(chǔ)構(gòu)建了列向量,應(yīng)用列投影算子對列向量進(jìn)行處理,分析列投影向量曲線的變化情況進(jìn)行圖書書脊識別; 以單本圖書書脊二值化內(nèi)容為基礎(chǔ)分別構(gòu)建行向量和列向量,應(yīng)用行投影算子對行向量進(jìn)行處理得到行投影向量,根據(jù)行投影向量曲線的變化情況識別出索書號的行位置信息,應(yīng)該列投影算子對列向量進(jìn)行處理得到投影列向量,根據(jù)列投影向量曲線的變化情況識別出索書號的列位置信息,根據(jù)行、列位置信息切分出索書號元素圖片,對切分所得元素圖片進(jìn)行歸一化處理; 計(jì)算待識別元素圖片和每一個(gè)字符標(biāo)準(zhǔn)模板的歐氏距離和匹配度,則匹配度最大的字符模板所對應(yīng)的字符即為識別結(jié)果; 經(jīng)實(shí)驗(yàn)驗(yàn)證基于投影算子的圖書書脊識別和索書號識別的準(zhǔn)確率高,識別速度快,可以改善圖書館自動存取書機(jī)器人的效率,促進(jìn)圖書館自動化水平的提高.
表1 書脊定位性能比較
1Suthakorn J,Lee S,Zhou Y,et al. A robotic library system for an off-site shelving facility. IEEE International Conference on Robotics and Automation. Washington,DC,USA. 2002. 3589-3594.
2Fowers SG,Lee DJ. An effective color addition to feature detection and description for book spine image matching.ISRN Machine Vision,2012,2012: 945973.
3胡小鋒,陳超,葉慶泰. 圖書索書號粘連字符的切分. 上海交通大學(xué)學(xué)報(bào),2005,39(4): 553-556,560.
4方建軍,趙強(qiáng)強(qiáng). 圖書館在架圖書的索書號圖像提取與分割. 北京聯(lián)合大學(xué)學(xué)報(bào),2015,29(1): 87-92.
5方建軍,杜明芳,龐睿. 基于小波分析和概率Hough變換的書脊視覺識別. 計(jì)算機(jī)工程與科學(xué),2014,36(1):126-131.
6劉汝翠. 基于自動智能分類器的圖書館亂架圖書檢測. 現(xiàn)代商貿(mào)工業(yè),2016,37(25): 172-174.
7Du XZ,Abdalmageed W,Doermann D. Large-scale signature matching using multi-stage hashing. 12th International Conference on Document Analysis and Recognition (ICDAR). Washington,DC,USA. 2013.976-980.
8Shao H,Yu TS,Xu MJ,et al. Image region duplication detection based on circular window expansion and phase correlation. Forensic Science International,2012,222(1-3):71-82. [doi: 10.1016/j.forsciint.2012.05.002]
9趙峰,楊健. 結(jié)合投影算子與小波變換的人臉識別方法. 計(jì)算機(jī)應(yīng)用,2013,33(S1): 230-232.
10段汕,謝英華. 一種基于傾斜投影的圖像分析方法. 中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,34(4): 103-108.
11趙知勁,張滇華. 基于斜投影算子的壓縮采樣匹配追蹤算法. 杭州電子科技大學(xué)學(xué)報(bào),2014,34(1): 30-33.