劉媛媛 ,王 暉,郭躬德,江楠峰
(1.福建師范大學(xué)數(shù)學(xué)與信息學(xué)院,福州350007; 2.福建省網(wǎng)絡(luò)安全與密碼技術(shù)重點實驗室(福建師范大學(xué)),福州350007;3.?dāng)?shù)字福建環(huán)境監(jiān)測物聯(lián)網(wǎng)實驗室(福建師范大學(xué)),福州350007; 4.阿爾斯特大學(xué)數(shù)學(xué)與計算機學(xué)院,英國科爾雷恩BT52 1SA)
(*通信作者電子郵箱973375485@qq.com)
蘋果是一種常見的水果,在日常生活中市場需求量不斷增加,采摘后進行挑選、分類是商品化處理的重要環(huán)節(jié)。現(xiàn)在蘋果分類大都是通過人的感知進行手工分揀,費時費力,所以亟待研發(fā)出高效、低成本、適用于市場推廣的蘋果分類技術(shù)?,F(xiàn)有的相關(guān)文獻對物體分類有了一定的研究:Yuan等[1]設(shè)計了一個攝像裝置,對這些圖像進行特征提取,根據(jù)不同角度拍攝的葡萄圖像中空隙大小判斷葡萄的緊密程度,結(jié)合葡萄的重量、尺寸,對葡萄品質(zhì)是否合格進行識別;Schmidt等[2]采用軌道成像技術(shù)和概率分布方法對植物種類進行識別;Wu等[3]利用計算機視覺對食品顏色進行測量,對食品進行分類;一些蘋果分類的相關(guān)文獻中,Li等[4]提出了使用近紅外光譜儀獲取蘋果近紅外數(shù)據(jù),然后采用主成分分析(Principal Component Analysis,PCA)降維、Fisher判別分析 (Fisher Discriminant Analysis,F(xiàn)DA)提取特征、K最近鄰算法(K-Nearest Neighbor,KNN)進行分類,得到分類準(zhǔn)確度96%;Bhatt等[5]設(shè)計了專門的硬件系統(tǒng)并載入了軟件系統(tǒng),結(jié)合人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN),可以實現(xiàn)蘋果自動分類;Chen等[6]提取蘋果的顏色特征和蘋果的半徑,將樣本的RGB圖像轉(zhuǎn)到HSV空間,得到分類準(zhǔn)確度96%;Wu等[7]采用近紅外光譜儀收集蘋果的近紅外(Near Infrared,NIR)光譜反射率,結(jié)合模糊判別C均值聚類模型(Fuzzy Discriminant C-Means,F(xiàn)DCM)和主成分分析(PCA)對蘋果進行分類,得到分類準(zhǔn)確度97%;卜錫濱等[8]提出一種基于非相關(guān)判別轉(zhuǎn)換的蘋果近紅外光譜定性分析方法,實驗結(jié)果表明,使用非相關(guān)判別轉(zhuǎn)換方法建立的模型正確識別率優(yōu)于使用主成分分析(PCA)和Fisher判別分析建立的模型;Song等[9]提出了一種模式識別管道,首先使用便攜式近紅外光譜儀采集蘋果光譜數(shù)據(jù),采用基線校正和歸一化預(yù)處理,然后用偏最小二乘判別分析(Partial Least Squares Discriminant Analysis,PLS-DA)分類;Kadir[10]使用工業(yè)相機采集三類蘋果的圖片,提取蘋果的4個尺寸特征和3個顏色特征,然后采用KNN和多層感知器(Multi-Layer Perceptron,MLP)進行分類;Ronald等[11]采用相機采集蘋果圖片,并用樸素貝葉斯(Naive Bayes,NB)算法對蘋果種類進行分類;Shahin等[12]利用掃描X射線成像技術(shù)開發(fā)出一個蘋果自動分類系統(tǒng),結(jié)合使用ANN分類器對蘋果進行分類,它的準(zhǔn)確率達到了90%。這些方法或者采用了比較昂貴的儀器,如X射線掃描儀、近紅外光譜儀、工業(yè)相機,或者操作復(fù)雜,需要設(shè)計專門的硬件模塊,程序繁瑣,不適用于市場的推廣使用。本文使用手機攝像頭對蘋果的多個角度拍照,并從每個照片里提取多個較小的區(qū)域,用顏色直方圖來表示每個區(qū)域的圖像,把所有的區(qū)域直方圖組合在一起,形成一個蘋果的表示,然后建立機器學(xué)習(xí)模型來對蘋果進行分類,操作簡單、成本較低,取得了更好的分類效果,適合推廣到日常生活中的手機應(yīng)用。
本文提出基于多角度多區(qū)域特征融合的圖像分類方法。對每一個物體采集多個圖像,將每個圖像裁剪成若干個區(qū)域塊,每個區(qū)域塊用顏色直方圖向量來表示,多個區(qū)域塊的直方圖向量通過首尾相連進行融合,以此生成一個圖像的表示,多個圖像的表示首尾相連進行融合,生成一個物體的表示。然后用機器學(xué)習(xí)方法從眾多物體的表示數(shù)據(jù)中建立分類模型。我們做了大量的實驗來驗證這個方法,實驗流程包括:樣本采集、圖像采集、圖像裁剪、圖像預(yù)處理、顏色直方圖特征提取、傅里葉變換、多角度多區(qū)域特征融合得到待分類樣本數(shù)據(jù)、分類環(huán)境和分類器選擇。實驗中使用蘋果,并選擇5個角度n個裁剪區(qū)域,其中5個角度、9個裁剪區(qū)域的實驗時間復(fù)雜度為4n,n為圖像裁剪區(qū)域塊總數(shù)。蘋果圖像分類流程如圖1所示。
模仿生活中不同種類植物資源個數(shù)的差異性,在超市隨機采購一些蘋果,其中美國gala果89顆、陜西紅富士55顆、美國QUEEN果73顆、美國青蛇果59顆、美國紅蛇果53顆。
用手機攝像頭對5類蘋果,分別從上面、下面和3個側(cè)面共5個角度拍攝,采集蘋果圖像數(shù)據(jù),蘋果圖像如圖2所示。
圖1 5個角度、N個區(qū)域蘋果圖像分類流程Fig.1 Apple image classification process of five angles and N regions
圖2 美國gala果蘋果圖像示例Fig.2 Sample of American gala apple image
為了獲得蘋果圖像多區(qū)域的特征數(shù)據(jù),對蘋果圖像進行裁剪,對5類蘋果5個角度的圖像分別進行尺寸為50×50像素的裁剪,裁剪位置隨機選取,裁剪區(qū)域塊如圖3所示,根據(jù)裁剪區(qū)域塊個數(shù)的差異,分別得到7組裁剪區(qū)域塊數(shù)據(jù):1region裁剪、4regions裁剪、5regions裁剪、6regions裁剪、7regions裁剪、8regions裁剪、9regions裁剪。
圖3 美國gala果5個角度裁剪區(qū)域塊圖片F(xiàn)ig.3 Five angles cutting regions images of American gala
圖像是一種信息載體,它們包含著物體的大量信息。然而在圖像的獲取、傳輸和存儲過程中常常會受到各種噪聲的干擾和影響而使圖像降質(zhì),所以為了獲取高質(zhì)量數(shù)字圖像,很有必要對圖像進行降噪處理,盡可能地在保持原始信息完整性(即主要特征)的同時,又能夠去除信號中無用的信息。噪聲就是像素的強度相對于真值有個突變。從時域上講,通過高斯濾波能讓一個像素的強度與周圍的點相關(guān),就減小了突變的影響,因此對裁剪區(qū)域圖像塊進行時域高斯低通濾波去除噪聲。
圖像顏色直方圖圖形化顯示不同的像素值在不同的強度值上的出現(xiàn)頻率,對于RGB的彩色圖像可以獨立顯示3種顏色的圖像直方圖,分辨率為256。對每一個高斯去噪后裁剪區(qū)域圖像塊按照6∶3∶1的比例獲取R、G、B分量,得到圖像的一種顏色特征向量數(shù)據(jù)。
有些信號在時域上是很難看出什么特征的,但是如果變換到頻域之后,就很容易看出特征,這就是很多信號分析采用傅里葉變換的原因;另外,傅里葉變換可以將一個信號的頻譜提取出來,這在頻譜分析方面也是經(jīng)常用的。
時域分析只能反映信號的幅值隨時間的變化情況,除單頻率分量的簡諧波外,很難明確揭示信號的頻率組成和各頻率分量大小。信號頻率代表了信號在不同頻率分量成分的大小,能夠提供比時域信號波形更直觀、豐富的信息,信號變化的快慢與頻率域的頻率有關(guān)。圖像的頻率是表征圖像中灰度變化劇烈程度的指標(biāo),是灰度在平面空間上的梯度,噪聲、邊緣、跳躍部分代表圖像的高頻分量,背景區(qū)域和慢變部分代表圖像的低頻分量。傅里葉變換可以將信號分成不同的頻率成分,類似光學(xué)中的分色棱鏡把白光按頻率分成不同的顏色,被稱為數(shù)學(xué)棱鏡。變換后的圖像,大部分能量都分布于低頻譜段。因此對圖像的顏色特征向量數(shù)據(jù)進行快速傅里葉變換,得到圖像的頻率信號,作為該圖像的顏色特征數(shù)據(jù)。
為了用更多角度的更多圖像特征融合起來表示蘋果特征,本文把上面、下面、側(cè)面1、側(cè)面2和側(cè)面3這5個角度的所有裁剪區(qū)域圖像塊的特征向量數(shù)據(jù)通過首尾相連進行融合,以此生成一個圖像的表示。對5類蘋果都作同樣的處理,可以得到5類蘋果圖像表示的特征數(shù)據(jù)。
實驗中會用到不同個數(shù)的角度,每個角度數(shù)有不同的角度組合方案,為方便標(biāo)識區(qū)分,給每個角度組合附上一個ID編號,如表1所示。
表1 不同角度組合的ID編號Tab.1 ID numbers for different angle compositions
在Weka3.6.11中做分類實驗,為了更準(zhǔn)確地體現(xiàn)多角度多區(qū)域特征融合圖像分類的性能以及本文算法的魯棒性,對5類蘋果的特征數(shù)據(jù)作 Lnorm:2.0,norm:1.0標(biāo)準(zhǔn)化處理后,采用 Weka 中自帶的 RandomForest、NaiveBayes、Bagging、DecisionTable、ClassificationViaRegression、RBFNetwork、PART、PLSClassifier、AtrributeSelectedClassifier、BayesNet和 BFTree 共11種分類器進行十折交叉驗證,每次實驗中每個蘋果經(jīng)過多角度多區(qū)域特征融合后可以產(chǎn)生一個樣本數(shù)據(jù),一共有329個樣本數(shù)據(jù),取90%用作訓(xùn)練樣本,10%用作測試樣本,重復(fù)10次,結(jié)果取平均值;其中偏最小二乘(Partial Least Squares,PLS)分類器設(shè)定參數(shù)numComponents為8,其他分類器的參數(shù)都采用Weka里面的默認值。另外用DeepLearing的DeepID算法作分類器作分類實驗,為方便標(biāo)識區(qū)分,將這12種分類器分別附上相應(yīng)的ID編號,如表2所示。
表2 12種分類器的ID編號Tab.2 ID numbers for twelve classifications
將蘋果圖片分為 gala、shanxi、QUEEN、red、green 共 5 類,數(shù)據(jù)集按照3∶1的比例切分,其中3份使用DeepID算法訓(xùn)練,其余的1份作為訓(xùn)練DeepID的驗證集,用來訓(xùn)練分類器,分類器可設(shè)置,本文實驗分類器設(shè)置為聯(lián)合貝葉斯分類器,分類器的輸出表示類型的數(shù)目。圖4為DeepLearning的DeepID算法流程。
為了觀察和驗證角度個數(shù)對分類結(jié)果的影響,本文控制裁剪區(qū)域個數(shù)為一個固定值,嘗試不同的角度個數(shù)組合,如果角度個數(shù)的增多使分類正確率提高,就表明角度個數(shù)越多,分類效果越好,反之則不成立。
2.1.1 多個角度單個裁剪區(qū)域
取5類蘋果每個角度圖像的單個裁剪區(qū)域塊(1region),每個區(qū)域塊用顏色直方圖向量來表示。采用1個角度、2個角度、3個角度和5個角度幾種角度的組合,根據(jù)角度組合的不同,多個角度的多個區(qū)域塊的直方圖向量通過首尾相連進行融合,以此生成一個圖像的表示。通過C1~C11共11種分類器進行十折交叉驗證。實驗結(jié)果如表3所示,當(dāng)裁剪區(qū)域數(shù)固定為1個裁剪區(qū)域(1region):單角度時,分類器C9的角度A13數(shù)據(jù)獲得最佳分類結(jié)果66.87%;2個角度時,分類器C5的角度A25數(shù)據(jù)獲得最佳分類結(jié)果75.08%;3個角度時,分類器C10的角度A30數(shù)據(jù)獲得最佳分類結(jié)果78.42%;5個角度時,分類器 C10的角度 A50獲得最佳分類結(jié)果85.71%。當(dāng)采用單個裁剪區(qū)域多個角度進行分類時,大多數(shù)分類器的分類結(jié)果都滿足多角度分類效果優(yōu)于單角度,而且角度越多,分類結(jié)果越好;5個角度時,分類器C10的角度A50獲得總體最佳分類結(jié)果85.71%。
表3 11種分類器單個裁剪區(qū)域多個角度分類正確率 %Tab.3 One-region multi-angle classification accuracy results for eleven classifiers %
2.1.2 多個角度4個裁剪區(qū)域(4regions)
取五類蘋果每個角度圖像的4個裁剪區(qū)域塊(4regions),每個區(qū)域塊用顏色直方圖向量來表示。采用單角度、2個角度、3個角度和5個角度幾種角度的組合,根據(jù)角度組合的不同,多個角度、多個區(qū)域塊的直方圖向量通過首尾相連進行融合,以此生成一個圖像的表示。通過C1~C11共11種分類器進行十折交叉驗證。實驗結(jié)果如表4所示。
表4 11種分類器4個裁剪區(qū)域多個角度分類正確率 %Tab.4 Four-region multi-angle classification accuracy results for eleven classifiers %
從表4可以看出,當(dāng)裁剪區(qū)域數(shù)固定為4個裁剪區(qū)域(4regions):單角度時,分類器C9的角度A13數(shù)據(jù)獲得最佳分類結(jié)果82.67%;2個角度時,分類器C10的角度A20數(shù)據(jù)獲得最佳分類結(jié)果87.23%;3個角度時,分類器C10的角度A30數(shù)據(jù)獲得最佳分類結(jié)果 91.49%;5個角度時,分類器C10的角度A50獲得最佳分類結(jié)果92.71%。當(dāng)采用4個裁剪區(qū)域多個角度進行分類時,大多數(shù)分類器的分類結(jié)果都滿足多角度分類效果優(yōu)于單角度,而且角度越多,分類結(jié)果越好;5個角度時,分類器C10的角度A50獲得總體最佳分類結(jié)果 92.71%。
2.1.3 多個角度10個裁剪區(qū)域
取五類蘋果每個角度圖像的10個裁剪區(qū)域塊(10regions),每個區(qū)域塊用顏色直方圖向量來表示。采用單角度、2個角度、3個角度、4個角度和5個角度幾種角度的組合,根據(jù)角度組合的不同,多個角度的多個區(qū)域塊的直方圖向量通過向量相加的方式進行融合,以此生成一個圖像的表示。采用5個角度的特征數(shù)據(jù),通過BayesNet分類器C10進行十折交叉驗證,創(chuàng)建分類模型,并用該模型分別測試單角度、2個角度、3個角度、4個角度和5個角度的特征數(shù)據(jù)。實驗結(jié)果如表5所示,當(dāng)裁剪區(qū)域數(shù)固定為10個裁剪區(qū)域(10regions):單角度時,角度A11數(shù)據(jù)獲得最佳分類結(jié)果60.79%;2個角度時,角度A26數(shù)據(jù)獲得最佳分類結(jié)果72.34%;3個角度時,角度A34數(shù)據(jù)獲得最佳分類結(jié)果82.67%;4個角度時,角度A42數(shù)據(jù)獲得最佳分類結(jié)果88.45%;5個角度時,角度A50獲得最佳分類結(jié)果93.31%。當(dāng)采用10個裁剪區(qū)域多個角度進行分類時,采用多個角度多個區(qū)域塊的直方圖向量相加的融合方式,通過BayesNet分類器創(chuàng)建的模型滿足多角度分類效果優(yōu)于單角度,而且角度越多,分類結(jié)果越好,5個角度時,角度A50獲得總體最佳分類結(jié)果 93.31%。
為了觀察和驗證裁剪區(qū)域個數(shù)對分類結(jié)果的影響,本文控制角度為固定角度組合,嘗試不同的裁剪區(qū)域個數(shù),如果裁剪區(qū)域個數(shù)的增多使分類正確率提高,則表明裁剪區(qū)域個數(shù)越多,分類結(jié)果越好,反之不成立。
取5類蘋果每個角度圖像的4/5/6/7/8/9個裁剪區(qū)域塊,每個區(qū)域塊用顏色直方圖向量來表示,取5個角度組合A50的特征數(shù)據(jù),5個角度的多個區(qū)域塊的直方圖向量通過首尾相連進行融合,以此生成一個圖像的表示。通過C1~C11共11種分類器進行十折交叉驗證,以及采用C12進行分類。實驗結(jié)果如表6所示,角度固定為5個角度組合A50,4個裁剪區(qū)域(4regions)時,分類器C10獲得最佳分類結(jié)果92.71%;5個裁剪區(qū)域(5regions)時,分類器C10獲得最佳分類結(jié)果95.14%;6個裁剪區(qū)域(6regions)時,分類器C10獲得最佳分類結(jié)果95.14%;7個裁剪區(qū)域(7regions)時,分類器C6獲得最佳分類結(jié)果95.74%;8個裁剪區(qū)域(8regions)時,分類器C6獲得最佳分類結(jié)果96.66%;9個裁剪區(qū)域(9regions)時,分類器C8獲得最佳分類結(jié)果97.87%。當(dāng)采用相同角度組合時,大多數(shù)分類器的分類結(jié)果都滿足多個裁剪區(qū)域分類效果優(yōu)于單個裁剪區(qū)域,而且裁剪區(qū)域塊數(shù)越多,分類結(jié)果越好,9個裁剪區(qū)域(9regions)時,分類器C8獲得總體最佳分類結(jié)果97.87%,算法復(fù)雜度為4n,n為圖像裁剪區(qū)域塊總數(shù)。
為了觀察和驗證使用裁剪區(qū)域塊對分類結(jié)果的影響,本文嘗試不同的裁剪區(qū)域個數(shù)或一整張圖像,如果使用裁剪區(qū)域比使用一整張圖像分類正確率提高,則表明使用裁剪區(qū)域 塊分類結(jié)果會更好,反之不成立。
表5 BayesNet分類器10個裁剪區(qū)域多個角度分類正確率結(jié)果Tab.5 Ten-region multi-angle classification accuracy results for BayesNet classifier
取5類蘋果側(cè)面2角度圖像的1/4/5/6/7/8/9個裁剪區(qū)域塊以及每個區(qū)域塊用顏色直方圖向量來表示,多個區(qū)域塊的直方圖向量通過首尾相連進行融合,以此生成一個圖像的表示,同時生成側(cè)面2整張圖像的顏色直方圖向量數(shù)據(jù)。通過C1~C11共11種分類器進行十折交叉驗證。實驗結(jié)果如表7所示。
表6 12種分類器五個角度組合1/4/5/6/7/8/9裁剪區(qū)域分類正確率 %Tab.6 Classification accuracy of twelve classifiers with five angles and 1/4/5/6/7/8/9 regions %
表7 11種分類器側(cè)面2一整張圖像、1/4/5/6/7/8/9裁剪區(qū)域分類正確率比較 %Tab.7 Classification accuracy of eleven classifiers for a whole image with 1/4/5/6/7/8/9 regions and angle side2 %
對于5類蘋果的側(cè)面2角度圖像,當(dāng)不進行裁剪,采用整個圖像的顏色特征數(shù)據(jù)進行分類時,分類器C8獲得最佳分類結(jié)果84.50%;當(dāng)裁剪區(qū)域數(shù)為1個裁剪區(qū)域(1region)時,分類器C9獲得最佳分類結(jié)果66.87%;當(dāng)裁剪區(qū)域數(shù)為4個裁剪區(qū)域(4regions)時,分類器 C9獲得最佳分類結(jié)果82.67%;當(dāng)裁剪區(qū)域數(shù)為5個裁剪區(qū)域(5regions)時,分類器C10獲得最佳分類結(jié)果82.07%;當(dāng)裁剪區(qū)域數(shù)為6個裁剪區(qū)域(6regions)時,分類器C10獲得最佳分類結(jié)果89.06%;當(dāng)裁剪區(qū)域數(shù)為7個裁剪區(qū)域(7regions)時,分類器C10獲得最佳分類結(jié)果90.88%;當(dāng)裁剪區(qū)域數(shù)為8個裁剪區(qū)域(8regions)時,分類器C10獲得最佳分類結(jié)果92.71%;當(dāng)裁剪區(qū)域數(shù)固定為9個裁剪區(qū)域(9regions),分類器C10獲得最佳分類結(jié)果91.79%;當(dāng)角度固定為側(cè)面2時,大多數(shù)分類器表明當(dāng)裁剪區(qū)域數(shù)為6/7/8/9時,分類效果好于使用一整張圖像分類,由此可知,當(dāng)使用一整張圖像的多個裁剪區(qū)域塊并且裁剪區(qū)域塊的個數(shù)足夠多時,分類效果好于使用整張圖像進行分類。
收集5類總共329個蘋果,每個蘋果采集從上面、下面和3個不同側(cè)面共5個角度拍攝的圖像,每個圖像裁剪若干個(1~9)區(qū)域塊。每個區(qū)域塊用顏色直方圖向量來表示,多個區(qū)域塊的直方圖向量通過首尾相連進行融合,以此生成一個圖像的表示。最后用Weka中的11種分類器進行十折交叉驗證,以及 Deeplearning的DeepID算法進行分類。實驗結(jié)果表明,當(dāng)多角度多區(qū)域特征融合時,分類效果總是好于單角度單區(qū)域,而且越多越好。當(dāng)采用單個裁剪區(qū)域多個角度進行分類時,大多數(shù)分類器的分類結(jié)果都滿足多角度分類效果優(yōu)于單角度,而且角度越多,分類結(jié)果越好,5個角度時,分類器BayesNet的角度A50獲得總體最佳分類結(jié)果85.71%;當(dāng)采用4個裁剪區(qū)域多個角度進行分類時,大多數(shù)分類器的分類結(jié)果都滿足多角度分類效果優(yōu)于單角度,而且角度越多,分類結(jié)果越好,5個角度時,分類器BayesNet的角度A50獲得總體最佳分類結(jié)果92.71%;當(dāng)采用10個裁剪區(qū)域多個角度進行分類時,采用多個角度多個區(qū)域塊的直方圖向量相加的融合方式,通過BayesNet分類器創(chuàng)建的模型滿足多角度分類效果優(yōu)于單角度,而且角度越多,分類結(jié)果越好,5個角度時,角度A50獲得總體最佳分類結(jié)果93.31%;當(dāng)采用相同角度組合時,大多數(shù)分類器的分類結(jié)果都滿足多個裁剪區(qū)域分類效果優(yōu)于單個裁剪區(qū)域,而且裁剪區(qū)域塊數(shù)越多,分類結(jié)果越好,9個裁剪區(qū)域(9regions)時,分類器PLS獲得總體最佳分類結(jié)果97.87%,算法復(fù)雜度為4n,n為圖像裁剪區(qū)域塊總數(shù)。
本文的多角度多區(qū)域特征融合的圖像分類方法,使用手機攝像頭采集圖片,操作簡單,復(fù)雜度較低,分類效果遠遠好于單角度單區(qū)域方法,甚至好于深度學(xué)習(xí),適用于推廣到手機應(yīng)用中。在今后的工作中,將對更多種類的植物、樹木、水果進行分類研究。