崔梓晗,魏昕怡,邱桃榮,鄒凱
(南昌大學(xué)a.信息工程學(xué)院;b.際鑾書(shū)院,江西 南昌 330031)
布料制品以及布料制品加工行業(yè)對(duì)人們的日常生活以及國(guó)家的發(fā)展都有著非常重要的作用。基于內(nèi)容的色卡圖像檢索已經(jīng)得到應(yīng)用,但實(shí)際應(yīng)用中由于不同用戶所獲得的色卡圖像與樣本庫(kù)圖像之間存在諸如不同旋轉(zhuǎn)角度或不同分辨率等實(shí)際問(wèn)題,而對(duì)這些色卡圖像進(jìn)行檢索的準(zhǔn)確率將會(huì)出現(xiàn)明顯下降,檢索效果難以滿足實(shí)際需要。因此為滿足布料生產(chǎn)和銷售領(lǐng)域?qū)Σ剂仙▓D像檢索的需求,針對(duì)該領(lǐng)域存在的實(shí)際問(wèn)題,研究對(duì)旋轉(zhuǎn)和分辨率具有不變性的檢索方法具有重要的應(yīng)用價(jià)值[1-2]。
由于深度網(wǎng)絡(luò)模型具有不依賴于復(fù)雜的特征工程、可充分挖掘圖像的特征信息等特點(diǎn),為了能有效地解決在箱包制造領(lǐng)域進(jìn)行的布料色卡圖像檢索中所出現(xiàn)的上述問(wèn)題,本文提出基于深度學(xué)習(xí)的布料色卡圖像檢索模型和檢索方法,旨在能讓具有不同旋轉(zhuǎn)角度和不同分辨率的布料色卡圖像具有較高的檢索準(zhǔn)確率和系統(tǒng)魯棒性以及較好的檢索時(shí)間性能。為尋求最佳的分類模型,本文較詳細(xì)研究了AlexNet[3-5]、GoogleNet[6-8]、LeNet-5[9-10]3種目前先進(jìn)和流行的深度學(xué)習(xí)網(wǎng)絡(luò),并對(duì)LeNet-5進(jìn)行改進(jìn),以解決在利用LeNet-5原始模型時(shí)由于卷積核數(shù)量較少和網(wǎng)絡(luò)層數(shù)偏少等導(dǎo)致LeNet-5對(duì)稍復(fù)雜圖像識(shí)別準(zhǔn)確率不高及檢索效果不理想的問(wèn)題。另外,為解決訓(xùn)練過(guò)程中可能會(huì)產(chǎn)生的過(guò)擬合問(wèn)題,本文在進(jìn)行對(duì)比分析時(shí),結(jié)合稀疏化Dropout方法對(duì)圖像樣本數(shù)據(jù)庫(kù)進(jìn)行優(yōu)化處理。
AlexNet訓(xùn)練了一個(gè)端對(duì)端(End to End)的卷積神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)對(duì)圖像特征的提取和分類,網(wǎng)絡(luò)結(jié)構(gòu)一共8層,包含了5層卷積層和3層全連接層。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 AlexNet結(jié)構(gòu)圖Fig.1 AlexNet convolutional neural network
與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相比,AlexNet進(jìn)行了以下3點(diǎn)改進(jìn):1)AlexNet在層7和層8后加入了Dropout,Dropout通過(guò)隨機(jī)丟棄一部分神經(jīng)元,降低網(wǎng)絡(luò)復(fù)雜度,以改善網(wǎng)絡(luò)的過(guò)擬合問(wèn)題;2)增加了LRN即局部響應(yīng)歸一化處理;3)使用了ReLU作為激活函數(shù),代替了傳統(tǒng)的tanh和sigmod函數(shù),ReLU函數(shù)能夠有效地增加函數(shù)的稀疏性,可以抑制過(guò)擬合問(wèn)題的產(chǎn)生,并且減少參數(shù)相互依存的關(guān)系。
GoogLeNet是在LeNet-5神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,通過(guò)加深網(wǎng)絡(luò)模型的深度和寬度所構(gòu)建的一種深度卷積神經(jīng)網(wǎng)絡(luò)模型。該網(wǎng)絡(luò)加深了LeNet模型的深度,使帶參數(shù)的層達(dá)到22個(gè),獨(dú)立成塊的層總共有100多個(gè)。GoogLeNet通過(guò)設(shè)計(jì)Inception模塊[11],引入了多尺度卷積提取多尺度局部特征。Inception模塊的結(jié)構(gòu)如圖2所示。
圖2 Inception模型Fig.2 Model of Inception
LeNet-5網(wǎng)絡(luò)模型是Cun等提出的一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。它是一種特殊的多層神經(jīng)網(wǎng)絡(luò),訓(xùn)練方式跟其他神經(jīng)網(wǎng)絡(luò)一樣都是通過(guò)反向傳播進(jìn)行訓(xùn)練,不同點(diǎn)是它的結(jié)構(gòu),其最大特點(diǎn)就是權(quán)值共享,這大大減少了參數(shù)結(jié)構(gòu),加快了學(xué)習(xí)訓(xùn)練的過(guò)程[12]。LeNet-5的結(jié)構(gòu)如圖3所示。
圖3 LeNet-5結(jié)構(gòu)圖Fig.3 LeNet-5 convolutional neural network
LeNet-5網(wǎng)絡(luò)模型除了輸入層,共有7層帶參數(shù)的層結(jié)構(gòu),包括5層卷積層和2層全連接層。輸入時(shí)32×32的像素矩陣,每層卷積都是采用了5×5的卷積核對(duì)圖像進(jìn)行卷積操作,池化層則采用2×2的池化窗口對(duì)提取到的卷積層特征進(jìn)行最大下采樣池化。最后輸出層由歐式徑向基函數(shù)(euclidean radial basis function)單元組成,每類是一個(gè)單元,有84個(gè)輸入。也就是說(shuō),每個(gè)輸出徑向基函數(shù)單元計(jì)算輸入向量和參數(shù)向量之間的歐式距離。如果輸入離參數(shù)向量越遠(yuǎn),徑向基函數(shù)的輸出也就越大。
本文從兩個(gè)方面對(duì)LeNet-5框架進(jìn)行了改進(jìn)和優(yōu)化,分為網(wǎng)絡(luò)框架優(yōu)化和網(wǎng)絡(luò)內(nèi)部?jī)?yōu)化兩個(gè)方面。網(wǎng)絡(luò)框架的優(yōu)化包含兩種方向的優(yōu)化:縱向優(yōu)化和橫向優(yōu)化。首先將網(wǎng)絡(luò)的輸入改成224×224的像素矩陣,以便容納更多的圖像紋理信息。橫向優(yōu)化指的是將C1層和C3層的卷積核個(gè)數(shù)分別由原來(lái)的6個(gè)和16個(gè)增加至64個(gè)和128個(gè)??v向優(yōu)化指的是在現(xiàn)有C1、C3卷積層的基礎(chǔ)上額外增加了C5、C7卷積層,增加了網(wǎng)絡(luò)的深度,更好地提取圖像的特征信息,C5、C7層的卷積核個(gè)數(shù)分別為256個(gè)和512個(gè)。由于LeNet-5網(wǎng)絡(luò)設(shè)計(jì)的原始目的是用于手寫(xiě)數(shù)字的識(shí)別,相對(duì)于本文的紋理數(shù)據(jù)集圖像而言,手寫(xiě)數(shù)字涵蓋的特征信息較少,為了提高網(wǎng)絡(luò)的識(shí)別效果,本文同時(shí)增加了LeNet-5網(wǎng)絡(luò)的深度和每層卷積核的個(gè)數(shù),使網(wǎng)絡(luò)能夠更好地提取紋理圖像的特征。網(wǎng)絡(luò)內(nèi)部?jī)?yōu)化方案:1) 每?jī)纱尉矸e的輸出之后對(duì)數(shù)據(jù)進(jìn)行局部相應(yīng)歸一化處理,即增加LRN(local response normalization)層。2) 全連接層采用的maxout[13]激活函數(shù)來(lái)代替之前的歐式徑向基函數(shù)。同時(shí),我們將改進(jìn)之后的模型命名為L(zhǎng)eNet-M模型,LeNet-M的框架結(jié)構(gòu)如圖4所示。
圖4 改進(jìn)后的LeNet-M結(jié)構(gòu)圖Fig.4 Improued LeNet-M convolutional neural network
在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中采用的激活函數(shù)一般是sigmod、tanh、ReLu等,與這些激活函數(shù)相比,maxout函數(shù)具備一些上述激活函數(shù)不具備的性質(zhì):1)maxout激活函數(shù)不是一個(gè)固定的函數(shù),沒(méi)有固定的函數(shù)方程。2) maxout函數(shù)是一個(gè)可學(xué)習(xí)的激活函數(shù),W參數(shù)是可以學(xué)習(xí)變化的。Maxout激活函數(shù)輸出本層一個(gè)節(jié)點(diǎn)的表達(dá)式為:
(1)
其中:x∈Rd×n,W∈Rd×m×k,b∈Rm×k;d、m、n分別為上一層節(jié)點(diǎn)個(gè)數(shù)、本層節(jié)點(diǎn)個(gè)數(shù)和輸入的樣本個(gè)數(shù);k為每個(gè)隱層節(jié)點(diǎn)對(duì)應(yīng)了k個(gè)“隱含層”節(jié)點(diǎn)。這k個(gè)“隱含層”節(jié)點(diǎn)都是線性輸出的,而maxout的每個(gè)節(jié)點(diǎn)就從這k個(gè)“隱含層”節(jié)點(diǎn)輸出值中取最大值。3) maxout函數(shù)是一個(gè)分段線性函數(shù)。由于maxout函數(shù)是一個(gè)分段線性函數(shù),所以maxout函數(shù)具有非常強(qiáng)的擬合能力,它可以擬合任意的凸函數(shù)。maxout網(wǎng)絡(luò)不僅可以學(xué)習(xí)到隱層之間的關(guān)系,還可以學(xué)習(xí)到每個(gè)隱層單元的激活函數(shù),它放棄了傳統(tǒng)激活函數(shù)的設(shè)計(jì),產(chǎn)生的表示不再是稀疏的,但是它的梯度是稀疏的,結(jié)合Dropout也可以將它稀疏化。maxout網(wǎng)絡(luò)中的線性和最大化操作可以讓Dropout的擬合模型的平均精度很高。
考慮本文所使用的兩個(gè)標(biāo)準(zhǔn)紋理數(shù)據(jù)集和一個(gè)實(shí)際采集的色卡圖像樣本數(shù)據(jù)集中的樣本數(shù)據(jù)量偏少,如果在這樣不夠多的數(shù)據(jù)集上訓(xùn)練,則訓(xùn)練得到的模型容易存在過(guò)擬合現(xiàn)象,這影響本文研究目標(biāo)的實(shí)現(xiàn)。而Dropout正則化方法[13-14]能有效地防止過(guò)擬合的問(wèn)題,該方法是在神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段,前向傳播過(guò)程中以概率P=0.5隨機(jī)刪除掉部分節(jié)點(diǎn)。稀疏化Dropout結(jié)構(gòu)的概念首次在文獻(xiàn)[14]中被提出,即對(duì)模型的某一層施加稀疏性限制時(shí),取這一層所有節(jié)點(diǎn)激活值的中值,將大于中值的節(jié)點(diǎn)定義為高激活值節(jié)點(diǎn),小于中值的節(jié)點(diǎn)則定義為低激活值節(jié)點(diǎn)。高激活值節(jié)點(diǎn)表示網(wǎng)絡(luò)對(duì)樣本感興趣的部分,也是主要的保留節(jié)點(diǎn),而低激活值節(jié)點(diǎn)表示網(wǎng)絡(luò)不感興趣或者興趣較弱的部分,所以本文選擇隨機(jī)刪除部分低激活值的節(jié)點(diǎn),而不再采用所有節(jié)點(diǎn)都以相等概率被刪除的方式。
本文提出的基于深度學(xué)習(xí)網(wǎng)絡(luò)模型分類器來(lái)實(shí)現(xiàn)布料色卡圖像檢索的模型,布料色卡圖像檢索模型如圖5所示。
圖5 布料色卡圖像檢索模型圖Fig.5 Retrieval model of fabric image
模型的工作流程主要分為兩部分:一是基于稀疏化Dropout結(jié)構(gòu)的CNN訓(xùn)練的模型構(gòu)建;二是圖像檢索。
第一流程涉及以下4個(gè)關(guān)鍵技術(shù)步驟。
1) 樣本數(shù)據(jù)歸一化處理:將布料色卡圖像樣本庫(kù)中的所有圖像全部歸一化為224×224像素的圖像,并作為深度學(xué)習(xí)網(wǎng)絡(luò)模型中的輸入數(shù)據(jù)。
2) 結(jié)合稀疏化Dropout結(jié)構(gòu)的CNN訓(xùn)練進(jìn)行模型構(gòu)建。
3) 特征提取和特征降維。對(duì)經(jīng)過(guò)訓(xùn)練構(gòu)建的模型,首先,對(duì)最后一層的4 096維的特征進(jìn)行提取與保存。本文采用了GoogLeNet、Alexnet、LeNet-5以及改進(jìn)后的LeNet-5等4種不同的網(wǎng)絡(luò)模型來(lái)分別提取最后一層的4 096維特征,構(gòu)建布料色卡圖像特征集合。其次,考慮所提取得到的圖像特征維度過(guò)高,不僅占用較大的存儲(chǔ)空間而且影響后續(xù)的檢索系統(tǒng)效率。因此,本文將此特征進(jìn)行PCA降維,對(duì)圖像數(shù)據(jù)庫(kù)中的圖像降維之后得到的特征,根據(jù)其類別標(biāo)識(shí)建立對(duì)應(yīng)的圖像特征向量集合。
4) 帶有類標(biāo)的降維后的圖像特征向量集合構(gòu)建。對(duì)步驟3)得到的每個(gè)樣本的降維特征,結(jié)合基于Softmax函數(shù)的樣本分類標(biāo)識(shí)構(gòu)建每個(gè)樣本的特征向量,形成樣本特征向量集合。
第二流程實(shí)現(xiàn)對(duì)色卡圖像的檢索。該流程包括以下關(guān)鍵環(huán)節(jié)。
1) 待檢索圖像的特征向量生成。首先,選取對(duì)未經(jīng)任何處理的可以具有任意旋轉(zhuǎn)角度或不同于樣本圖像分辨率的待檢索的色卡圖像作為上述構(gòu)建模型的輸入。其次,基于上述模型通過(guò)CNN提取待檢索圖像的4 096維的特征向量,然后將提取到的特征向量輸入至Softmax分類器,得到分類器輸出的分類結(jié)果標(biāo)識(shí),同時(shí)將該特征向量也進(jìn)行PCA降維得到降維后的待檢索圖像特征向量,并結(jié)合預(yù)測(cè)分類標(biāo)識(shí)構(gòu)建待檢索圖像的特征向量。
2) 基于待檢索圖像特征向量進(jìn)行圖像檢索。采用計(jì)算其歐式距離的方法,在樣本特征向量集中與待檢索圖像特征向量按照事先設(shè)置的檢索閾值K獲取最相似的K張樣本圖像。N維空間里兩個(gè)向量X(x1,x2,…,xn)與Y(y1,y2,…,yn)之間的歐氏距離計(jì)算公式為:
(2)
布料色卡圖像是從實(shí)際企業(yè)收集得到的真實(shí)布料色卡圖像數(shù)據(jù)集,通過(guò)EPSON PERFETION V10全彩掃描器對(duì)每張布料色卡掃描得到共有接近1 500張圖像。包括布料皮革包TC棉布、羅緞、桃皮絨印花布、夏布及各種中高檔箱包面料。這些布料圖像紋理多樣,是最真實(shí)、客觀的測(cè)試集。
Brodatz自然紋理庫(kù)是由Brodatz在對(duì)紋理圖像進(jìn)行研究過(guò)程中收集整理而成的。該紋理庫(kù)中的圖像都是灰度圖像,其中包含112種不同紋理的紋理圖像,每幅圖像大小為640×640像素。
UIUC紋理庫(kù)中包含25類紋理,每種類型的紋理因不同的旋轉(zhuǎn)角度、光照條件、視角方位、遠(yuǎn)近尺度采集了40張圖像,每張圖像的像素尺寸大小為640×480。UIUC中的紋理是現(xiàn)實(shí)生活中和自然界常見(jiàn)的紋理,非??陀^真實(shí),能夠有效地檢測(cè)識(shí)別算法的有效性。
為了避免上述模型存在過(guò)擬合問(wèn)題,本文對(duì)圖像樣本進(jìn)行增強(qiáng)處理。以布料色卡圖像數(shù)據(jù)集增強(qiáng)為例,由于企業(yè)提供的色卡圖像數(shù)量多,但是類別少,本實(shí)驗(yàn)只選取了100張類別區(qū)分較為明顯的色卡圖像,將這100張圖像全部歸一化為108×108分辨率大小的圖像,然后對(duì)這100張圖像每張圖像進(jìn)行數(shù)據(jù)增強(qiáng)。首先在原圖像上隨機(jī)截取25張42×42、48×48、56×56、64×64、72×72、80×80、88×88、96×96等8種不同的小于原圖分辨率的圖像,然后將原圖進(jìn)行放大從108×108開(kāi)始,每隔16×16分辨率放大一次,一直到512×512,最后將100張?jiān)瓐D進(jìn)行旋轉(zhuǎn),每隔5°將原圖像旋轉(zhuǎn)一次,可以得到72張不同旋轉(zhuǎn)角度的圖像。最終每一類得到323張圖像,總共32 300張圖像的數(shù)據(jù)集。
本文用上述3種紋理圖像樣本集進(jìn)行模型性能測(cè)試,采用十折交叉驗(yàn)證的方法進(jìn)行。每種類型的樣本集通過(guò)數(shù)據(jù)增強(qiáng)后,隨機(jī)劃分為10份,其中9份做訓(xùn)練集,余下的1份做測(cè)試集,記錄實(shí)驗(yàn)結(jié)果。以上操作交替進(jìn)行10次,然后取10次結(jié)果取平均值即為最終得到的實(shí)驗(yàn)結(jié)果。
為了驗(yàn)證所提出的模型的有效性,本文采用基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法在上述3種樣本集上進(jìn)行測(cè)試和結(jié)果分析。本文選取CLBP方法[15],該方法包含CLBP-C、CLBP-S、CLBP-M 3個(gè)描述子,將這3個(gè)描述子經(jīng)過(guò)不同的串并聯(lián)方式融合其直方圖得到整張圖像的特征,然后將這些特征分別采用邏輯回歸(logistics regression,LR)、k最近鄰(KNN,k-nearest neighbor)、支持向量機(jī)(support vector machine,SVM)、樸素貝葉斯模型(naive bayesian,NB)等分類器進(jìn)行分類測(cè)試。文獻(xiàn)[15]的實(shí)驗(yàn)表明,CLBP-S/M/C方式融合的特征直方圖,能夠取得一個(gè)最佳的識(shí)別效果,本文同樣是采用了這樣的特征融合方式。測(cè)試方法同樣是十折交叉驗(yàn)證的方法,交替進(jìn)行10次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果取平均值即為最終得到的實(shí)驗(yàn)結(jié)果。
本文分別對(duì)LeNet-5網(wǎng)絡(luò)在4個(gè)地方進(jìn)行了改進(jìn),分別是每?jī)纱尉矸e輸出之后對(duì)數(shù)據(jù)進(jìn)行局部歸一化處理(記為L(zhǎng)eNet-5+LRN)、使用maxout激活函數(shù)代替原來(lái)的歐氏徑向基函數(shù)(記為L(zhǎng)eNet-5+Maxout)、采用了稀疏化的Dropout結(jié)構(gòu)(記為L(zhǎng)eNet-5+稀疏化Dropout)以及最后結(jié)合全部3種改進(jìn)之后的LeNet-M模型。本文使用改進(jìn)方法,分別在3個(gè)紋理數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)分析,實(shí)驗(yàn)結(jié)果如表1所示。
表1 不同改進(jìn)方法在3種數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.1 Experimental results of different improved methods on three texture data sets %
可以看出,本文做出的每一種改進(jìn)在3個(gè)紋理數(shù)據(jù)集上均較原網(wǎng)絡(luò)結(jié)構(gòu)有一個(gè)更好的識(shí)別效果。三者結(jié)合之后的LeNet-M模型較原網(wǎng)絡(luò)結(jié)構(gòu)的識(shí)別效果有了更加明顯的提升。
采用4種基于深度學(xué)習(xí)的方法,包括改進(jìn)的LeNet-5和4種非深度學(xué)習(xí)方法,包括3種不同K值(本文實(shí)驗(yàn)了K值從1至10,其中當(dāng)K值取3、4、5時(shí)測(cè)試結(jié)果最好)的KNN方法在3種紋理圖像數(shù)據(jù)集進(jìn)行對(duì)比測(cè)試結(jié)果如表2所示。
表2 8種不同分類模型的測(cè)試結(jié)果Tab.2 Classification results for three data sets %
可以看出,對(duì)3種數(shù)據(jù)集的分類效果最好的是GoogLeNet,它對(duì)3個(gè)數(shù)據(jù)集都有一個(gè)極好的分類效果,而本文提出的LeNet-M模型也有一個(gè)較好的分類效果,在對(duì)3個(gè)數(shù)據(jù)集的分類效果上幾乎是跟AlexNet模型相媲美,在Brodatz數(shù)據(jù)集的識(shí)別上,甚至還優(yōu)于AlexNet網(wǎng)絡(luò)。
本實(shí)驗(yàn)對(duì)不同分辨率大小的圖像也能夠做到很好的適應(yīng)性分類。表3是8種不同分類模型對(duì)Brodatz數(shù)據(jù)集的測(cè)試結(jié)果。Brodatz數(shù)據(jù)集的測(cè)試集,從330×330分辨率開(kāi)始,每隔30×30分辨率截取一次,每張?jiān)紙D像截取5張圖像充當(dāng)測(cè)試集,測(cè)試集共包含6種分辨率低于原始圖像的圖像以及4種分辨率高于原始圖像的圖像,每一類分辨率圖像包含350張圖像,將對(duì)每一類圖像進(jìn)行單獨(dú)測(cè)試。Avg、δ分別表示該方法的準(zhǔn)確率的平均值及方差。
表3 對(duì)Brodatz數(shù)據(jù)集不同分辨率大小測(cè)試結(jié)果Tab.3 Test results for different resolution sizes of Brodatz
對(duì)于UIUC數(shù)據(jù)集,UIUC數(shù)據(jù)集原始圖像均為640×480大小的圖像,其訓(xùn)練集選取了一共6種分辨率低于原始圖像以及5種分辨率高于原始圖像的圖像。而測(cè)試集則采用從270×270分辨率開(kāi)始每隔30×30分辨率大小分別截取了270×270,…,580×580,610×610,共計(jì)9種不同大小分辨率圖像,每種分辨率圖像110張,共計(jì)990張測(cè)試圖像。這些測(cè)試圖像中包含3類比原始數(shù)據(jù)集圖像大的圖像以及6類比原始數(shù)據(jù)集圖像小的圖像。對(duì)UIUC測(cè)試結(jié)果如表4所示。
表4 對(duì)UIUC數(shù)據(jù)集不同分辨率大小測(cè)試結(jié)果Tab.4 Test results for different resolution sizes of UIUC
對(duì)于布料色卡圖像數(shù)據(jù)集,由于該數(shù)據(jù)集是從實(shí)際企業(yè)收集得到的真實(shí)布料色卡圖像數(shù)據(jù)集,因此色卡圖像雜亂不規(guī)范,本文將所有得色卡圖像歸一化為108×108分辨率大小。色卡圖像訓(xùn)練集包含5種低于原始圖像分辨率以及5種高于原始圖像分辨率的圖像。對(duì)于低于原始圖像分辨率的,從40×40分辨率開(kāi)始,每隔10×10截取一次,每次5張圖像;對(duì)于高于原始圖像分辨率的,從120×20開(kāi)始,每隔60×60分辨率截取一次,同樣每次5張圖像。對(duì)布料色卡圖像測(cè)試結(jié)果如表5所示。
表5 對(duì)布料色卡圖像數(shù)據(jù)集不同分辨率大小測(cè)試結(jié)果Tab.5 Test results for different resolution sizes of fabric image
綜合表3~表5,通過(guò)Avg和δ兩個(gè)值可以看出,深度學(xué)習(xí)模型與KNN算法在不同的分辨率圖像的分類準(zhǔn)確率均值很高,而且標(biāo)準(zhǔn)差很小,穩(wěn)定性很好。同時(shí),從上述表中的數(shù)據(jù)也表明,經(jīng)過(guò)橫向和縱向優(yōu)化之后的LeNet-M網(wǎng)絡(luò),即使是在不同分辨率的泛化性能上,也比最初始的LeNet-5網(wǎng)絡(luò)效果更好。對(duì)于不同分辨率紋理圖像,LeNet-5、LeNet-M、AlexNet、GoogLeNet、KNN模型始終能夠保持極佳的分類效果,而SVM、LR、NB等則識(shí)別效果較差,最高不超過(guò)60%的準(zhǔn)確率。造成以上結(jié)果的原因可能是低于原圖分辨率的圖像都是原圖裁剪出來(lái)的,完整地保存了每個(gè)區(qū)域中像素點(diǎn)的位置以及聯(lián)系,與原圖像一致,通過(guò)原圖像訓(xùn)練好的模型對(duì)原圖上截取的圖像分類效果理所應(yīng)當(dāng)。然而圖像放大和裁剪不一樣,圖像放大是通過(guò)線性插值的方法不斷往圖像中插入像素點(diǎn),這樣極大地破壞了原圖中像素點(diǎn)之間的結(jié)構(gòu),導(dǎo)致獲取到的CLBP特征產(chǎn)生極大的差異,從而致使分類效果不佳。
本測(cè)試的訓(xùn)練紋理圖像,選取每隔5°旋轉(zhuǎn)一次,每一類的訓(xùn)練集中包含原始圖像的旋轉(zhuǎn)5°、10°、15°、…、360°等共計(jì)72張不同角度的旋轉(zhuǎn)圖像。72個(gè)旋轉(zhuǎn)角度的圖像(0°、5°、10°、15°、…、360°),每個(gè)旋轉(zhuǎn)角度有990張圖像,而測(cè)試集則采用訓(xùn)練集中沒(méi)有的旋轉(zhuǎn)角度的圖像作為測(cè)試,選取14個(gè)旋轉(zhuǎn)角度(12°、24°、36°、…、168°)的旋轉(zhuǎn)圖像作為測(cè)試。對(duì)Brodatz、UIUC、布料色卡圖像數(shù)據(jù)集的測(cè)試結(jié)果分別見(jiàn)表6~表8所示。
從表6~表8的Avg和δ可以看出4個(gè)深度模型對(duì)不同旋轉(zhuǎn)角度的測(cè)試圖像,均能達(dá)到一個(gè)極佳的識(shí)別效果,而且穩(wěn)定性很高,標(biāo)準(zhǔn)差基本上都在0.03以下,其中LeNet-M模型在不同的旋轉(zhuǎn)角度的圖像分類上,穩(wěn)定性以及準(zhǔn)確率都比LeNet-5模型的效果要好。而其他機(jī)器學(xué)習(xí)的分類算法,只有KNN算法對(duì)以上3個(gè)數(shù)據(jù)集的分類效果偏好,但是分類效果不穩(wěn)定,對(duì)某些特定的角度分類準(zhǔn)確率低于50%。然而LR、NB、SVM等分類算法對(duì)以上3個(gè)數(shù)據(jù)分類準(zhǔn)確率極低,無(wú)法應(yīng)用于商用。這是由于KNN、SVM、NB、LR等分類算法都是基于事先提取好的LBP特征,隨著圖像角度的變化,提取到的LBP特征也發(fā)生了極大的變化,因此造成這4個(gè)分類算法分類效果的不穩(wěn)定。而產(chǎn)生KNN算法這樣的不同于其他3個(gè)分類器的分類效果的原因可能是因?yàn)镵NN的算法實(shí)現(xiàn)過(guò)程決定的。KNN算法過(guò)程是當(dāng)輸入測(cè)試樣本是,先計(jì)算出訓(xùn)練樣本中距離和測(cè)試樣本最近的K個(gè)樣本,這K個(gè)樣本屬于某個(gè)類別的樣本數(shù)量最多的類別即為測(cè)試樣本的類別[20]。因而KNN對(duì)相似性的圖片分類本就具有非常好的泛化效果。
表6 對(duì)Brodatz數(shù)據(jù)集不同旋轉(zhuǎn)角度測(cè)試結(jié)果Tab.6 Test results for different rotation angles of the Brodatz
表7 對(duì)布料色卡圖像數(shù)據(jù)集不同旋轉(zhuǎn)角度測(cè)試結(jié)果Tab.7 Test results for different rotation angles of the fabric image
表8 對(duì)UIUC數(shù)據(jù)集不同旋轉(zhuǎn)角度測(cè)試結(jié)果Tab.8 Test results for different rotation angles of the UIUC
上述測(cè)試結(jié)果表明,深度學(xué)習(xí)對(duì)不同旋轉(zhuǎn)角度以及不同分辨率的圖像都有很好的識(shí)別分類效果,然而一些基于人工設(shè)計(jì)特征的機(jī)器學(xué)習(xí)的分類方法對(duì)具有這倆類性質(zhì)的圖片識(shí)別性能卻不穩(wěn)定。本實(shí)驗(yàn)中用已經(jīng)建立好的深度學(xué)習(xí)的分類模型來(lái)構(gòu)建布料色卡圖像的檢索模型。為了更好地體現(xiàn)深度學(xué)習(xí)的分類模型在進(jìn)行圖像檢索時(shí)的檢索效果,本文同時(shí)還選取了4個(gè)深度學(xué)習(xí)模型,對(duì)布料色卡圖像進(jìn)行了檢索,得到了相應(yīng)的Top-5和Top-10結(jié)果。其中Top-k表示輸入一張圖片,給出數(shù)據(jù)庫(kù)中與該圖像相似度最高的k張圖片,這k張圖像中有任意一張圖像成功匹配,則檢索成功。對(duì)不同旋轉(zhuǎn)角度和不同分辨率檢索相關(guān)的具體實(shí)驗(yàn)結(jié)果如表9、表10所示。
表9 對(duì)不同角度的布料色卡圖像檢索效果Tab.9 Image retrieval effect of fabric image at different angles
表10 對(duì)不同分辨率的布料色卡圖像檢索效果Tab.10 Image retrieval effect of fabric image with different resolutions
從表9、表10看出,4個(gè)深度學(xué)習(xí)分類模型在應(yīng)用于布料色卡圖像的檢索上時(shí)表現(xiàn)出了十分優(yōu)異的檢索效果。實(shí)驗(yàn)證明基于深度學(xué)習(xí)的分類模型同樣能夠應(yīng)用于布料色卡圖像的分析檢索上。與傳統(tǒng)機(jī)器學(xué)習(xí)的檢索方法對(duì)比,基于深度學(xué)習(xí)的方法對(duì)各類旋轉(zhuǎn)角度以及不同分辨率的圖片檢索時(shí),同樣可以達(dá)到非常好的檢索效果,完全能夠滿足日常生活中對(duì)布料圖像查找檢索的要求。
本文研究了基于深度神經(jīng)網(wǎng)絡(luò)的對(duì)于不同分辨率,旋轉(zhuǎn)角度紋理圖像的分類識(shí)別模型,并對(duì)Brodatz和UIUC兩個(gè)標(biāo)準(zhǔn)紋理數(shù)據(jù)集以及來(lái)自一個(gè)真實(shí)領(lǐng)域采集的布料圖像數(shù)據(jù)集進(jìn)行了大量的對(duì)比測(cè)試和結(jié)果分析。從測(cè)試結(jié)果看,相比于傳統(tǒng)的機(jī)器學(xué)習(xí)的方法,深度學(xué)習(xí)在處理同樣的擁有不同旋轉(zhuǎn)角度、不同分辨率圖像的數(shù)據(jù)集時(shí)明顯取得了更好的檢索效果,并且深度學(xué)習(xí)的泛化性比大多數(shù)傳統(tǒng)機(jī)器學(xué)習(xí)的方法要好得多。然而對(duì)于一些只涉及不同分辨率圖像的檢索時(shí),KNN算法同樣能夠取得非常好的實(shí)驗(yàn)效果,而且在此類圖像檢索上使用KNN,能夠大幅度提高檢索效率,省去了大量的深度學(xué)習(xí)的訓(xùn)練時(shí)間。但KNN在對(duì)不同旋轉(zhuǎn)角度的圖像檢索上的表現(xiàn)則有些不盡人意。實(shí)驗(yàn)結(jié)果也表明,經(jīng)過(guò)改進(jìn)后的LeNet-M模型結(jié)構(gòu)比傳統(tǒng)的LeNet-5在布料圖像數(shù)據(jù)集和其他兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上檢索分類準(zhǔn)確率有所提高,泛化性也更好,更加適用于色卡布料圖像的檢索需要。
后續(xù)擬按照LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)思路,來(lái)改進(jìn)AlexNet網(wǎng)絡(luò)模型和GoogLeNet網(wǎng)絡(luò)模型等;另外,通過(guò)對(duì)數(shù)據(jù)集中增加不同來(lái)源的圖像以及帶有噪音的圖像等,測(cè)試是否存在更好地適應(yīng)布料圖像分類和檢索需要的網(wǎng)絡(luò)結(jié)構(gòu)。