劉汝翠
摘要:整理亂架圖書是圖書館日常維護(hù)工作的一個(gè)重要組成部分。人工檢測圖書亂架不但費(fèi)時(shí)費(fèi)力而且極容易出錯(cuò)。為此,設(shè)計(jì)了一種結(jié)合深度學(xué)習(xí)中的SoftMax回歸算法和書脊圖像特征識別相結(jié)合的亂架檢測算法,算法主要包括書脊定位分割、字符識別、語義特征提取以及分類判決等環(huán)節(jié),實(shí)現(xiàn)了自動高效的圖書亂架檢測。實(shí)驗(yàn)數(shù)據(jù)表明本文提出的檢測算法能達(dá)到近98%的檢測準(zhǔn)確率,并且還具備速度快、幾乎不需要人工干預(yù)等優(yōu)勢,能大大降低圖書館日常圖書清點(diǎn)工作的勞動強(qiáng)度。
關(guān)鍵詞:圖書館;亂架檢測;圖像分割;字符識別;深度學(xué)習(xí)
中圖分類號:TB
文獻(xiàn)標(biāo)識碼:A
doi:10.19311/j.cnki.16723198.2016.25.087
1概述
利用現(xiàn)代智能處理技術(shù)特別是用計(jì)算機(jī)代替人們自動的去處理大量的圖像信息,能夠解決人類器官的分辨能力容易受到環(huán)境、情緒、疲勞等因素的影響,從而部分代替人工勞動,大大提高生產(chǎn)效率。近年來,將傳統(tǒng)的工作進(jìn)行數(shù)字化和自動化加工逐漸成為圖書館行業(yè)越來越重視的工作內(nèi)容之一。但是目前的圖書館數(shù)字化工作仍存在眾多沒有解決的問題。
圖書亂架的整理工作是圖書館日常維護(hù)工作的一個(gè)重要組成部分。由于書籍眾多,當(dāng)出現(xiàn)不同種類的圖書放置在一起時(shí),工作人員很難人工將錯(cuò)誤放置的圖書進(jìn)行正確地歸類,即使能夠做到,也會花費(fèi)很長的時(shí)間和大量的精力,導(dǎo)致人力資源的浪費(fèi)。
2006年,深度學(xué)習(xí)(Deep Learning)開始在學(xué)術(shù)界和工業(yè)界引領(lǐng)發(fā)展前沿,其中深度學(xué)習(xí)認(rèn)為:1)多隱層的人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,有利于分類和檢測;2)深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過“逐層預(yù)訓(xùn)練”來有效克服?;谏疃葘W(xué)習(xí)的圖像視覺識別技術(shù)已經(jīng)在許多行業(yè)中得到了應(yīng)用,如檢驗(yàn)零件的質(zhì)量;識別工件及物體的形狀和排列形態(tài)等。
本文結(jié)合圖書館日常管理中遇到的圖書亂架這一實(shí)際問題,以書脊視覺圖像為切入點(diǎn),引入深度學(xué)習(xí)中的SoftMax回歸,設(shè)計(jì)出一種包括單冊圖像分割、字符識別、語義特征提取以及歸類判別等環(huán)節(jié)的圖書亂架檢測算法,其有效性已在實(shí)驗(yàn)中得到較好的驗(yàn)證。
2書脊圖像的定位分割
由于獲取的圖像有可能會出現(xiàn)模糊,因此需要對圖像進(jìn)行預(yù)處理。將拍攝的書脊圖像近似看成平穩(wěn)過程,使用Wiener濾波器進(jìn)行幅度相位去模糊。Wiener濾波器的基本原理是將原始圖像f和對原始圖像的估計(jì)f^看作隨機(jī)變量,按照使f和對估計(jì)值f^之間的均方誤差達(dá)到最小的準(zhǔn)則進(jìn)行圖像復(fù)原。
然后使用Canny算子進(jìn)行邊緣檢測,并進(jìn)行縱向和橫向的直線跟蹤,對兩條直線之間的區(qū)域進(jìn)行判斷,如果是書脊區(qū)域,就進(jìn)行分割,然后定位第二本書,直到處理完整幅圖像。
圖1(a)為利用Canny算子進(jìn)行邊緣檢測出來的結(jié)果,得到了所有書籍的邊緣;圖1(b)是對書籍進(jìn)行分割定位的結(jié)果,把定位到的目標(biāo)用直線標(biāo)出,以供后續(xù)處理。
3書脊圖像的字符識別
由于漢字的類別較大、結(jié)構(gòu)復(fù)雜和類似字多,造成漢字的識別難度比較大。傳統(tǒng)的僅用一種特征來識別漢字的方法已不能滿足漢字識別的要求。因此,本文采用了二次識別的方法對漢字字符進(jìn)行識別,第一次分類利用漢字的筆畫穿過數(shù)目特征,第二次是對那些首次仍不能區(qū)別開的漢字利用漢字四角的能量值密度特征進(jìn)行區(qū)分。
本文的漢字特征選擇了筆畫穿過數(shù)目和能量值密度這兩個(gè)特征。筆畫穿過數(shù)目是指對漢字圖像的水平、垂直兩個(gè)方向進(jìn)行掃描,然后統(tǒng)計(jì)這兩個(gè)方向上掃描線出國漢字筆畫的次數(shù)即得到漢字的筆畫直方圖,得到筆畫穿過次數(shù)的特征向量。
在進(jìn)行漢字特征匹配時(shí),首先對待識別的漢字筆畫穿過數(shù)目特征進(jìn)行提取,記該特征為C。識別時(shí),首先計(jì)算待識別漢字與標(biāo)準(zhǔn)庫中漢字的距離d,d定義為待識別漢字的筆畫穿過數(shù)目矩陣C與標(biāo)準(zhǔn)庫中漢字的筆畫穿過數(shù)目矩陣B的對應(yīng)值差值的絕對值之和,其表達(dá)式為
d=∑ni=1∑mj=1cij-bij
式中cij為矩陣C中的元素,bij表示矩陣B中的元素。
給定一個(gè)閾值σ,若距離dσ,則該字不能被識別,否則把該字放入二級識別隊(duì)列中,如果二級隊(duì)列中只有一個(gè)字,就判別這個(gè)字為要識別的字,若二級隊(duì)列中不只一個(gè)漢字,則要對二級識別隊(duì)列中的漢字進(jìn)行二級識別。
在二級識別里用能量值密度作為特征,提取這些漢字的能量值密度。設(shè)一閾值為ε,計(jì)算待識別漢字的能量值密度矩陣和標(biāo)準(zhǔn)庫漢字的能量值密度矩陣中對應(yīng)值的絕對值之和,差值最小的漢字判別為要識別的漢字。
4語義特征提取
利用識別出來的字符,對其進(jìn)行語義特征的提取,以判斷書籍屬于哪一類。首先通過在原始文本語義空間提取文本的局部分布信息,構(gòu)造拉普拉斯矩陣和局部密度矩陣,然后通過奇異值分解SVD和廣義特征值分解GEVD求解特征變換矩陣,最后實(shí)現(xiàn)文本數(shù)據(jù)的降維空間聚類。
給定m個(gè)文本數(shù)據(jù)的原始特征語義空間描述X=(x1,x2,…,xm)T,這里xi為文本i的特征向量描述,包含文本類別信息相關(guān)的關(guān)鍵詞、主題詞以及文本中出現(xiàn)的高頻詞等描述信息,并且xi中的每一個(gè)特征元素記錄了這些詞條的重要程度和出現(xiàn)的頻度。
對X按列進(jìn)行基于歐幾里得距離的kNN近鄰算法獲取點(diǎn)向量xi的k個(gè)鄰近點(diǎn)N(xi),并采用高斯核將鄰接點(diǎn)向量的歐幾里得距離轉(zhuǎn)化為相似度:
sij=exp(-xi-xj2),xj∈N(xi)
得到文本集X的相似矩陣S,該矩陣為對稱矩陣。通過矩陣S構(gòu)造對角矩陣D,其中dii=∑jsij,令L=D-S,為譜圖數(shù)據(jù)的拉普拉斯矩陣,為對稱矩陣。利用局部密度矩陣D求取文本向量均值=∑ixidii∑idii,并將文本歸一化i=xi-,對歸一化的進(jìn)行奇異值分解,降低文本的語義維度,簡化數(shù)據(jù)描述。并通過非監(jiān)督判別分析得到降維文本語義空間,即判別語義特征提取,獲取分類判別能力最強(qiáng)的前l(fā)個(gè)語義特征。
在特征提取后的降維空間采用k-means聚類,進(jìn)行文本分類,即語義特征的提取。
5書籍亂架放置的判別
進(jìn)行了語義特征提取之后,為了檢測書籍的亂架放置。因此,需要將提取到的語義特征進(jìn)行分類。為了盡可能準(zhǔn)確地進(jìn)行分類,采用深度學(xué)習(xí)的方法進(jìn)行模型的訓(xùn)練。其中訓(xùn)練過程分為兩個(gè)階段:貪心的逐層預(yù)訓(xùn)練和整個(gè)模型的全局微調(diào)。
在逐層訓(xùn)練預(yù)階段,每次只訓(xùn)練模型的一層,然后將當(dāng)前層的輸出作為下一層的輸入,進(jìn)行下一層的訓(xùn)練,直到預(yù)訓(xùn)練完所有的層。
在模型的全局微調(diào)階段,由于亂架放置的書籍的種類可能是多個(gè),所以采用softmax回歸多類分類器。Softmax回歸多分類器是logistic回歸模型在多分類問題上的推廣,在多分類問題中,類標(biāo)簽y可以取兩個(gè)以上的值。假設(shè)共有k個(gè)類別,則softmax regression的系統(tǒng)方程為
hθ(x(i))=p(y(i)=1|x(i);θ)p(y(i)=2|x(i);θ)p(y(i)=k|x(i);θ)=1∑kj=1eθTjx(i)eθT1x(i)eθT2x(i)eθTkx(i)
其中,x(i)為第i個(gè)輸入樣本,θ為系統(tǒng)參數(shù),p為樣本取特定類別時(shí)的概率。
此時(shí),系統(tǒng)的損失函數(shù)方程為:
J(θ)=-1m∑mi=1∑kj=11y(i)=jlogeθTjx(i)∑kl=1eθTlx(i)
其中,1·是一個(gè)指示性函數(shù),即當(dāng)大括號中的值為真時(shí),該函數(shù)的結(jié)果就為1,否則其結(jié)果為0。θ為代價(jià)最小化時(shí)所需要滿足的系統(tǒng)參數(shù)。實(shí)際實(shí)現(xiàn)時(shí),首先使用具有先驗(yàn)歸屬標(biāo)記的書籍信息樣本按照以上方式對書籍歸屬學(xué)習(xí)器進(jìn)行訓(xùn)練,得到訓(xùn)練好的歸屬規(guī)則學(xué)習(xí)器。將提取的書籍信息輸入到歸屬規(guī)則學(xué)習(xí)器,學(xué)習(xí)器輸出到歸屬規(guī)則庫進(jìn)行書籍類別的判別,將判別出來的結(jié)果輸入到亂架判決器,進(jìn)行亂架檢測,如果檢測出來有書籍分錯(cuò)類,則會輸出亂架警報(bào)。
6實(shí)驗(yàn)結(jié)果與分析
利用書脊檢測出來的結(jié)果,進(jìn)行字符檢測并對檢測出來的字符進(jìn)行語義識別,判斷某一本書是不是放錯(cuò)了類別,如果放錯(cuò),則框出放錯(cuò)的書籍并發(fā)出警報(bào)。
圖2(a)中都是科技類的書籍,并沒有其他類的書籍,所以輸入的這張圖片并不會輸出亂架報(bào)警;圖2(b)中除了科技類的書籍之外,還有一本建筑類的書籍混雜其中,所以系統(tǒng)會把這本書檢測出來并用交叉直線醒目地標(biāo)示出來。
中除了科技類的書籍之外,還有一本美術(shù)類的書籍混雜其中,所以系統(tǒng)會把這本書檢測出來并用直線標(biāo)示出來。
圖2和圖3只是筆者為了演示系統(tǒng)的運(yùn)行效果而給出的個(gè)例圖示,限于篇幅所限不能窮盡所有曾經(jīng)檢測處理過的案例。筆者曾經(jīng)對科技類、哲學(xué)類和藝術(shù)類為主體的大容量樣本集的亂架圖像進(jìn)行了分析,每個(gè)樣本集的分析耗約為300~320秒,大大高于人工檢測的速度。亂架檢測實(shí)驗(yàn)的樣本集實(shí)驗(yàn)結(jié)果列于表1之中。
7結(jié)論
在圖書館系統(tǒng)中利用機(jī)器視覺的方法進(jìn)行書籍定位和檢測是視覺研究的一個(gè)重要方向。本文給出了一種綜合運(yùn)用相關(guān)視覺圖像技術(shù)對亂架圖書進(jìn)行自動檢測的系統(tǒng)設(shè)計(jì)。實(shí)驗(yàn)表明,該方法可通過程序設(shè)計(jì)完全有計(jì)算機(jī)自動實(shí)現(xiàn),平均檢出率超過90%,速度快穩(wěn)定性好,處理時(shí)間大大小于人工檢測時(shí)間,并且能夠在很大程度上降低圖書管理員的勞動強(qiáng)度,有助于提高大型圖書館的架上書籍整理效率。
參考文獻(xiàn)
[1]李因易.圖像處理技術(shù)在圖書館藏書清點(diǎn)中的應(yīng)用研究[D].貴陽:貴州大學(xué),2006.
[2]方建軍,杜明芳,龐睿.基于小波分析和概率Hough變換的書脊視覺識別[J].計(jì)算機(jī)工程與科學(xué),2014,(36):126131.
[3]何耘嫻.印刷體文檔圖像的中文字符識別[D].秦皇島:燕山大學(xué),2011.
[4]D.-J. Lee,Y.Chang,J. K.Archibald,C.Pitzak.Matching book-spine images for library shelf-reading process automation[C].in Automation Science and Engineering,2008.CASE 2008. IEEE International Conference on, 2008:738743.
[5]戴臻.內(nèi)容文本分類中的語義特征提取算法研究[D].長沙:中南大學(xué),2010.
[6]Y.Bengio, Learning deep architectures for AI[J].Foundations and trends in Machine Learning, 2009,(9):1127.
[7]Y. Bengio.Deep Learning of Representations for Unsupervised and Transfer Learning[J].in ICML Unsupervised and Transfer Learning,2012:1736.
[8]P.Baldi. Autoencoders, Unsupervised Learning,and Deep Architectures[J].in ICML Unsupervised and Transfer Learning,2012:3750.
[9]Y. Bengio,P.Lamblin,D. Popovici,H. Larochelle.Greedy layer-wise training of deep networks[J].Advances in neural information processing systems,2007,(19):153.
[10]鄭胤,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識別中的新進(jìn)展[J].中國圖像圖形學(xué)報(bào),2014,19(2):175184.