馬娜,李艷文,徐苗
(山西農(nóng)業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,山西 太谷 030801)
近年來(lái)計(jì)算機(jī)視覺(jué)技術(shù)快速發(fā)展,已經(jīng)被應(yīng)用于植物物種分類中,為搜索已知和未知植物種群提供方法[1]。植物物種可以通過(guò)幾何和外貌特征來(lái)識(shí)別,例如根、葉子、花和果實(shí)等。然而,有些特征在不同物種之間的差異通常是微妙的,并且無(wú)法轉(zhuǎn)化為數(shù)學(xué)模型進(jìn)行計(jì)算。研究發(fā)現(xiàn),植物的葉子包含豐富的信息,可以用來(lái)進(jìn)行物種識(shí)別[2]。首先,與果實(shí)、花卉相比,葉子停留時(shí)間更長(zhǎng);其次,葉子具有獨(dú)特的形狀和紋理特征。形狀是在姿態(tài)、位置和大小等信息去除后,在對(duì)象邊界內(nèi)重新形成的幾何信息[3]。因此,利用葉片識(shí)別植物物種得到廣泛應(yīng)用。Mouine S[4]等以葉片為研究對(duì)象,提出一種基于多尺度形狀的葉片圖像檢索方法來(lái)識(shí)別葉片,證明基于形狀的方法可以實(shí)現(xiàn)葉片高檢索精度。R Hu[5]等提出了一種基于輪廓的形狀描述符識(shí)別植物葉片,具有良好的效果。Cope J S[6]等通過(guò)提取葉片的形狀和紋理特征來(lái)識(shí)別植物物種。Park J K[7]等采用依賴于葉子形狀和葉內(nèi)的靜脈幾何形狀識(shí)別植物物種。深度學(xué)習(xí)方法也較多用于植物葉片的特征提取中。Lee S H[8]等以44種植物葉片為對(duì)象,采用卷積神經(jīng)網(wǎng)絡(luò)CNN算法提取不同物種特征值。Barré P[9]等通過(guò)采用深度學(xué)習(xí)方法學(xué)習(xí)葉子的特征值,從而為葉子圖像提供更好的特征表示來(lái)鑒別不同物種。Zhao Z Q[10]等提出了一種用于植物葉片鑒定的不斷增長(zhǎng)的卷積神經(jīng)網(wǎng)絡(luò)(GCNN),并用ImageCLEF2012植物鑒定數(shù)據(jù)庫(kù)進(jìn)行了驗(yàn)證,得到較好結(jié)果。Wu S G[11]等通過(guò)提取葉子特征,采用概率神經(jīng)網(wǎng)絡(luò)算法對(duì)特征數(shù)據(jù)訓(xùn)練學(xué)習(xí)得到植物物種識(shí)別模型,并在Flavia數(shù)據(jù)集上驗(yàn)證,識(shí)別準(zhǔn)確率達(dá)到90%。除此之外,支持向量機(jī)SVM算法在植物物種的分類中也具有廣泛應(yīng)用。魏蕾[12]等以木瓜、女貞、三角楓和五角楓4種植物為例,通過(guò)提取10個(gè)葉片形狀特征參數(shù),采用SVM算法建立分類模型對(duì)植物物種進(jìn)行識(shí)別,有較好的分類效果。張昭[13]等采用基于SVM算法對(duì)植物物種進(jìn)行分類,提取葉片特征參數(shù)后,用主成分分析方法選擇了3個(gè)主成分作為SVM算法的輸入數(shù)據(jù),建立植物物種分類模型。鄭一力等[14]以葉片圖像為對(duì)象,提取高維特征參數(shù),降維后使用SVM算法進(jìn)行訓(xùn)練。余秀麗[15]等以小麥為例,通過(guò)提取小麥病斑區(qū)域形狀特征和紋理特征,利用SVM算法得到小麥葉部常見(jiàn)病害識(shí)別模型。
綜上,在現(xiàn)有植物葉片識(shí)別方法中,存在葉片圖像需求樣本量大,葉片特征提取任務(wù)量大和自動(dòng)分類建模時(shí)間長(zhǎng)等缺陷,因此本文采用支持向量機(jī)SVM算法建立植物葉片分類模型,期望在樣本量較小的情況下也有較好分類效果;同時(shí)采用布谷鳥(niǎo)CS算法對(duì)SVM算法進(jìn)行優(yōu)化,以節(jié)約前期數(shù)據(jù)處理和建模時(shí)間。
布谷鳥(niǎo)搜索算法(Cuckoo Search,CS)是根據(jù)自然界中布谷鳥(niǎo)孵化幼雛的行為提出的。其思想主要基于布谷鳥(niǎo)的巢寄生性和萊維飛行機(jī)制[16]。布谷鳥(niǎo)通過(guò)隨機(jī)游走的方式搜索得到一個(gè)最優(yōu)的鳥(niǎo)窩來(lái)孵化自己的鳥(niǎo)蛋,這種方式可以達(dá)到一種高效的尋優(yōu)模式。
布谷鳥(niǎo)位置更新公式為:
xg+1,i=xg,i+?⊕L(β)(i=1,2,...n)
(1)
式中xg,i為第i個(gè)鳥(niǎo)窩在第g代的鳥(niǎo)窩位置,?為步長(zhǎng),L(β)為萊維隨機(jī)搜索路徑函數(shù)。
步長(zhǎng)?計(jì)算公式為:
?=?0(xg,i-xbest)
(2)
式中?0為常數(shù),xbest為當(dāng)前最優(yōu)解。
L(β)服從萊維概率分布:
L(β)~u=t-β
(3)
為了計(jì)算方便,一般用式(4)產(chǎn)生萊維隨機(jī)路徑:
(4)
式中u,v服從標(biāo)準(zhǔn)正態(tài)分布,β為常數(shù),φ計(jì)算公式為:
(5)
綜上,布谷鳥(niǎo)的位置更新公式為:
(6)
SVM算法的好壞取決于懲罰因子c和核函數(shù)參數(shù)g的取值,本文利用CS算法參數(shù)少、操作簡(jiǎn)單、易實(shí)現(xiàn)、隨機(jī)搜索路徑優(yōu)和尋優(yōu)能力強(qiáng)等優(yōu)點(diǎn)尋找最優(yōu)的懲罰因子c和核函數(shù)參數(shù)g。
本文試驗(yàn)數(shù)據(jù)來(lái)源于兩部分:UCI公開(kāi)數(shù)據(jù)集[17]和自主拍攝采集的葉片圖像。
(1)UCI公開(kāi)數(shù)據(jù)集
目前該數(shù)據(jù)庫(kù)包含30種不同的植物物種。數(shù)據(jù)集有340條記錄,每個(gè)葉片有16種屬性,包括形狀屬性和紋理屬性。
(2)自主采集的葉片圖像
隨機(jī)采集了15種植物葉片圖像,如圖1所示。每種植物采集了75個(gè)葉片,其屬性見(jiàn)表1。為了保證拍攝參數(shù)一致,將背景設(shè)定為白色。將采集的葉片平鋪在白紙上,使燈光均勻打在白紙上。以EOS600D相機(jī)(日本Canon公司,1 800萬(wàn)像素)為拍攝設(shè)備,采集分辨率為1 400×2 500的24位彩色圖片,每種植物圖片各75張。
將采集到的彩色圖像轉(zhuǎn)換為灰度圖,然后用最大類間方差法選擇合適的閾值,將灰度圖轉(zhuǎn)換為二值圖像,效果如圖2所示,其中圖2(a)是采集到的彩色圖,圖2(b)是對(duì)應(yīng)的灰度圖,圖2(c)是處理得到的二值圖像。
圖2 圖像預(yù)處理結(jié)果Fig.2 Image preprocessing result
然后采用八聯(lián)通方法,提取葉片的周長(zhǎng)、面積、長(zhǎng)短軸之比、質(zhì)心、離心率等6個(gè)形狀特征值,結(jié)果如表1所示。
表1 15種葉片的特征參數(shù)Table 1 Characteristic parameters of 15 plant leaves
對(duì)UCI公開(kāi)數(shù)據(jù)集進(jìn)行測(cè)試,葉片種類標(biāo)記為1~15、22~36。訓(xùn)練數(shù)據(jù)由245個(gè)樣本組成,測(cè)試數(shù)據(jù)由114個(gè)樣本組成。最終測(cè)試的114個(gè)樣本中分類正確的樣本為100個(gè),準(zhǔn)確率達(dá)到87.72%。每種葉片的分類結(jié)果如表2所示。
表2 30種葉片分類結(jié)果Table 2 30 leaf classification results
樣本預(yù)測(cè)分類與實(shí)際分類對(duì)比結(jié)果如圖3所示。圖3中縱坐標(biāo)表示樹(shù)葉樣本,橫坐標(biāo)表示測(cè)試樣本集的大小。紅色點(diǎn)表示預(yù)測(cè)出的葉片種類,藍(lán)色點(diǎn)表示葉片實(shí)際的種類。從圖3中可以看到,大部分紅色區(qū)域與藍(lán)色區(qū)域是重合的,說(shuō)明預(yù)測(cè)結(jié)果與實(shí)際結(jié)果類似,分類效果良好。
圖3 樣本預(yù)測(cè)分類與實(shí)際分類對(duì)比Fig.3 Comparison of sample prediction results with actual results
從試驗(yàn)結(jié)果可以看到,雖然公開(kāi)數(shù)據(jù)集中每種植物葉片數(shù)據(jù)較少,但是在樣本量較少的情況下,改進(jìn)的CS-SVM算法對(duì)植物葉片的分類也有良好的效果。
對(duì)表1中鵝耳草榆屬、槭屬等前8種植物葉片進(jìn)行分類,每種葉片訓(xùn)練數(shù)據(jù)選取50個(gè),測(cè)試數(shù)據(jù)選取25個(gè),因此訓(xùn)練數(shù)據(jù)集大小為400,測(cè)試數(shù)據(jù)集大小為200。利用CS-SVM算法對(duì)葉片分類,采用不同的核函數(shù)進(jìn)行分類的結(jié)果如表3所示。
表3鵝耳草榆屬、槭屬等8種葉片分類不同核函數(shù)結(jié)果對(duì)比
Table3 Comparison of different nuclear function results of 8 species of leaf species such as asparagus and acer
核函數(shù)Kernel functionsBestcBestg準(zhǔn)確率/%Accuracy時(shí)間/sTime線性20.112.2995.50 (191/200)8.94多項(xiàng)式25.321.7095.50(191/200)9.08RBF函數(shù)27.782.8295.50(191/200)8.68sigmoid22.141.9795.50(191/200)9.08
對(duì)表1中紅柳、楊屬等15種植物葉片進(jìn)行分類,每種葉片訓(xùn)練數(shù)據(jù)選取50個(gè),測(cè)試數(shù)據(jù)選取25個(gè),則訓(xùn)練數(shù)據(jù)集大小為750個(gè),測(cè)試數(shù)據(jù)集大小為375個(gè)。利用CS-SVM算法對(duì)葉片分類,采用不同的核函數(shù)進(jìn)行分類,結(jié)果如表4所示。
表4紅柳、楊屬等15種葉片不同核函數(shù)結(jié)果對(duì)比
Table4 Comparison of different nuclear functions of 15 species of leaves such as red willow and populus
核函數(shù)Kernel functionsBestcBestg準(zhǔn)確率/%Accuracy時(shí)間/sTime線性497.611.3784.27 (316/375)40.08多項(xiàng)式833.811.1884.00 (315/375)39.56RBF函數(shù)810.251.1584.27 (316/375)39.83sigmoid474.551.4384.27 (316/375)41.90
由表4可以看出,無(wú)論葉片種類是否增加,CS-SVM算法對(duì)植物物種的分類采用RBF核函數(shù)在準(zhǔn)確率和速度方面均有優(yōu)勢(shì);隨著物種種類的增多,CS-SVM算法對(duì)植物物種的分類效果有所下降,所需要的處理時(shí)間也顯著增加;在葉片數(shù)據(jù)特征值較少(只有6個(gè))的情況下,CS-SVM算法對(duì)植物葉片也有良好的分類效果,分類準(zhǔn)確率達(dá)到84%以上。
有學(xué)者[18,19]采用粒子群算法(PSO)對(duì)SVM算法進(jìn)行優(yōu)化,為了進(jìn)一步證明CS對(duì)SVM算法的優(yōu)化效果,本文對(duì)比了CS-SVM算法與PSO-SVM算法對(duì)葉片分類的效果,結(jié)果如表5所示。
表5 PSO-SVM與CS-SVM分類效果對(duì)比Table 5 Comparison of classification between PSO-SVM and CS-SVM
從表5可以看出,在不同的測(cè)試樣本下,CS-SVM算法對(duì)植物葉片分類的平均準(zhǔn)確率為89.75%,PSO-SVM算法對(duì)植物葉片分類的平均準(zhǔn)確率為88.83%。CS-SVM算法與PSO-SVM算法對(duì)植物葉片分類在準(zhǔn)確率上無(wú)顯著差異,在速度上快10 s左右。因此,CS-SVM算法比PSO-SVM算法分類效率高。
針對(duì)現(xiàn)有植物葉片分類方法在需求樣本量大、特征提取復(fù)雜和建模時(shí)間長(zhǎng)等方面不足,本文提出了基于布谷鳥(niǎo)(CS)算法改進(jìn)的支持向量機(jī)(SVM)方法建立植物葉片分類模型從而對(duì)植物物種識(shí)別。
(1)本文在不同數(shù)據(jù)集、不同特征值、不同樣本量下驗(yàn)證了該模型的有效性。在UCI數(shù)據(jù)集上試驗(yàn),葉片分類準(zhǔn)確率達(dá)到87.72%。在自主采集葉片數(shù)據(jù)集鵝耳草榆屬、槭屬等8種植物葉片和紅柳、楊屬等15種植物葉片不同樣本量上試驗(yàn),準(zhǔn)確率分別達(dá)到95.5%和84.27%。試驗(yàn)表明無(wú)論在樣本量或特征屬性值較少的情況下,CS-SVM算法對(duì)植物葉片的分類都具有良好的效果。
(2)與PSO-SVM算法相比,CS-SVM算法對(duì)植物葉片分類在準(zhǔn)確率上無(wú)顯著差異,平均分類準(zhǔn)確率為89.75%,在速度上提高了大概10 s。因此,采用CS-SVM算法利用葉片對(duì)植物物種識(shí)別是有效且便捷的。