張 伏,王新月,崔夏華,曹煒樺,張曉東,張亞坤
1.江蘇大學(xué)現(xiàn)代農(nóng)業(yè)裝備與技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室, 江蘇 鎮(zhèn)江 212013 2.河南科技大學(xué)農(nóng)業(yè)裝備工程學(xué)院,河南 洛陽 471003 3.機(jī)械裝備先進(jìn)制造河南省協(xié)同創(chuàng)新中心,河南 洛陽 471003
千禧番茄富含番茄紅素、VC、可溶性固形物、果糖、葡萄糖、檸檬酸、蘋果酸和氨基酸等豐富營養(yǎng)物質(zhì),不同千禧番茄品種其營養(yǎng)物質(zhì)含量具有明顯差異[1-4],如何實(shí)現(xiàn)千禧番茄的快速準(zhǔn)確分類,對(duì)篩選綜合營養(yǎng)價(jià)值高的千禧番茄品種具有重要的研究意義和價(jià)值。
隨著可見-近紅外光譜、高光譜、圖像處理等技術(shù)在品種分類上應(yīng)用,快速和分類準(zhǔn)確率是關(guān)鍵評(píng)價(jià)指標(biāo)之一。Marcos等[5]基于帶描述符的RGB顏色模型對(duì)番茄模糊分類,重點(diǎn)優(yōu)化顏色空間的描述符,分類預(yù)測(cè)結(jié)果準(zhǔn)確率較高。Harvey等[6]利用人工蜂群算法訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)分類器對(duì)番茄自動(dòng)分類,分類準(zhǔn)確率98.19%。周云成等[7]基于深度卷積網(wǎng)絡(luò)對(duì)番茄分類,分類準(zhǔn)確率為81.64%。耿磊等[8]提出EBn-Net分類模型對(duì)7種蘋果品種分類鑒別,平均分類準(zhǔn)確率為96.78%。李鴻強(qiáng)等[9]基于高光譜建立微型種薯的分類檢測(cè)方法,通過線性判別分析、BP(back propagation)神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)建立分類模型,模型平均分類準(zhǔn)確率為89.75%。趙杰文等[10]基于近紅外光譜對(duì)不同品種蘋果進(jìn)行分類,以徑向基函數(shù)為內(nèi)核建立支持向量機(jī)分類模型,通過對(duì)比不同預(yù)處理方法的分類效果,最終確定懲罰系數(shù)c和正則化系數(shù)γ的取值,分類準(zhǔn)確率為100%。
目前,灰狼優(yōu)化算法作為一種高效的群體智能優(yōu)化算法,已被證明其穩(wěn)定性和求解精度明顯優(yōu)于粒子群優(yōu)化算法(particle swarm optimization,PSO)、萬有引力優(yōu)化算法(gravitational search algorithm,GSA)等[12],因而被廣泛用于求解復(fù)雜問題。其通過模擬灰狼群體捕食行為,基于狼群群體協(xié)作的機(jī)制達(dá)到優(yōu)化的目的,因具有良好的性能引起了學(xué)者的廣泛關(guān)注[11]。孫俊等[12]基于迭代保留信息變量法選取特征變量,以RBF徑向基函數(shù)作為支持向量回歸機(jī)(support vector regression,SVR)的核函數(shù),并用灰狼算法優(yōu)化SVR的懲罰因子c和核函數(shù)參數(shù)g,用優(yōu)化后的參數(shù)c和g建立SVR回歸模型對(duì)番茄葉片含水率檢測(cè),結(jié)果表明經(jīng)灰狼算法尋優(yōu)后,模型過擬合效果得到有效改善。安娟華等[13]用高斯函數(shù)作為支持向量機(jī)的核函數(shù),并采用灰狼算法和粒子群算法分別對(duì)支持向量機(jī)的懲罰因子c和高斯核函數(shù)參數(shù)σ優(yōu)化,結(jié)果表明建立的GWO-SVM模型對(duì)小麥籽粒優(yōu)劣分級(jí)的準(zhǔn)確率和速率均明顯優(yōu)于PSO-SVM。武新燕等[14]對(duì)近紅外光譜的變量篩選應(yīng)用灰狼算法,為玉米內(nèi)部成分含量測(cè)定建立了GWO-PLS模型,預(yù)測(cè)均方根誤差降低了40%,提高了預(yù)測(cè)準(zhǔn)確率?;依莾?yōu)化算法設(shè)置參數(shù)少、算法簡(jiǎn)單、魯棒性強(qiáng),且運(yùn)行結(jié)果準(zhǔn)確度高,收斂速度快,廣泛用于農(nóng)產(chǎn)品的分類,但利用灰狼優(yōu)化算法對(duì)千禧番茄品種分類鮮見報(bào)道?;诖耍每梢?近紅外光譜對(duì)千禧番茄進(jìn)行分類研究,以RBF徑向基函數(shù)作為支持向量機(jī)的核函數(shù),采用灰狼算法優(yōu)化支持向量機(jī)參數(shù),以期提高支持向量機(jī)分類性能,獲得較佳的分類效果,為千禧番茄的分類研究提供新方法。
千禧番茄樣本采自河南省洛陽市孟津縣的某采摘園,包括成熟且顏色相近的四個(gè)品種改良千禧番茄,分別標(biāo)號(hào)為類別1、類別2、類別3和類別4,如圖1,每個(gè)品種各有60個(gè),共240個(gè)千禧番茄樣本。
圖1 千禧番茄樣本
可見-近紅外光譜采集系統(tǒng)主要包括微型光纖光譜儀(USB4000-VIS-NIR-ES,Ocean Optics,USA)、光學(xué)光纖(SMA 905-VISNIR,Ocean Optics,USA)、光源(HL-2000,Ocean Optics,USA)和計(jì)算機(jī)等,如圖2。光譜儀的掃描范圍是350~1 000 nm,光學(xué)分辨率為1.5~2.3 nm FWHM。利用光譜儀配套的Spectrasuite軟件獲取并處理可見-近紅外光譜數(shù)據(jù)。數(shù)據(jù)分析軟件為The Unscrambler X10.4,Excel 2019,Origin 2018,Matlab 2016b。
圖2 光譜采集系統(tǒng)
可見-近紅外光譜儀預(yù)熱30 min后采集暗光譜和參考光譜校正,為避免雜光干擾,黑暗環(huán)境中測(cè)量;在不損壞樣本情況下,光纖探頭緊貼樣本表面,每個(gè)果實(shí)測(cè)量最大橫徑處兩個(gè)點(diǎn)的光譜反射強(qiáng)度(如圖3所示),即每個(gè)果實(shí)有二組數(shù)據(jù),取這二組數(shù)據(jù)的平均值作為該果實(shí)的光譜反射強(qiáng)度測(cè)試值。
圖3 采集位置示意圖
采集后通過Spectrasuite軟件將光譜數(shù)據(jù)導(dǎo)入計(jì)算機(jī)進(jìn)行分析,處理后得到345.89~1 040.49 nm波長(zhǎng)范圍的平均光譜反射強(qiáng)度曲線,通過式(1)得到千禧番茄反射率,如圖4。為提高光譜測(cè)量精度,增強(qiáng)光譜信噪比,剔除345.89~480.94和800.21~1 040.49 nm兩段噪聲較大的光譜,即實(shí)際有效波長(zhǎng)范圍是481.15~800.03 nm。
圖4 千禧番茄樣本平均反射率曲線圖
(1)
式(1)中,R為果實(shí)反射率,I為果實(shí)反射強(qiáng)度,IAN為暗光譜,ICK為參考光譜。
測(cè)量過程中,每隔10 min采集一次暗光譜和參考光譜重新校正,以確保測(cè)量準(zhǔn)確性。另外,在試驗(yàn)操作過程中,操作人員穿深色衣服,有助于最大限度地減少操作員衣服反射光線干擾。
連續(xù)投影算法(successive projections algorithm,SPA)是一種提取特征變量方法,可實(shí)現(xiàn)對(duì)原始數(shù)據(jù)降維處理;支持向量機(jī)(support vector machine,SVM)用于定性分類和預(yù)測(cè),通過對(duì)訓(xùn)練集樣本訓(xùn)練,調(diào)整參數(shù)所得SVM模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè),采用投票方式實(shí)現(xiàn)樣本分類[15],采用性能較穩(wěn)定的RBF徑向基函數(shù)作為SVM核函數(shù),其中,懲罰因子c和核函數(shù)參數(shù)g為兩個(gè)重要的參數(shù);灰狼優(yōu)化算法(grey wolf optimization,GWO)模擬自然界中灰狼群體的社會(huì)等級(jí)制度與狩獵行為的新型群體智能優(yōu)化算法,主要通過灰狼群體搜索、包圍、追蹤和攻擊獵物等過程以達(dá)到優(yōu)化搜索的目的[16],灰狼算法通過搜索最優(yōu)參數(shù)c和g優(yōu)化支持向量機(jī)模型。
光譜數(shù)據(jù)預(yù)處理后,將去噪后的481.15~800.03 nm波段范圍內(nèi)的數(shù)據(jù)提取特征波長(zhǎng)作為模型輸入變量,四種不同的千禧番茄類別作為模型輸出變量建立SVM定性分類模型,發(fā)現(xiàn)分類效果較差,于是采用GWO來尋找SVM的最優(yōu)參數(shù)c和g,設(shè)置狼群數(shù)量、最大迭代次數(shù)和參數(shù)范圍后,初始化α,β和δ狼的位置及目標(biāo)函數(shù)值,按照α,β和δ的等級(jí)排序后,對(duì)訓(xùn)練集樣本進(jìn)行訓(xùn)練,建立不同品種千禧番茄的預(yù)測(cè)分類模型,通過分類準(zhǔn)確率(accuracy)評(píng)價(jià)模型的性能。
綜合分析了本次采樣千禧番茄品種的代表性,同時(shí)又考慮到構(gòu)建模型的穩(wěn)定性和普適性,將采樣得到的240個(gè)樣本按照2∶1的比例劃分為訓(xùn)練集和測(cè)試集,如表1,以此計(jì)算分析訓(xùn)練集和測(cè)試集平均分類準(zhǔn)確率(accuracy)。
表1 樣本劃分結(jié)果
由于光譜探測(cè)器獲得的光譜數(shù)據(jù)除含被測(cè)樣本待測(cè)成分信息外,還容易受到雜散光、基線漂移、噪聲、樣本背景等無關(guān)信息的干擾,從而影響建模效果[17],故在建立模型前先對(duì)光譜數(shù)據(jù)預(yù)處理,以此降低各種非目標(biāo)因素對(duì)檢測(cè)信息的影響,以期提高模型精度,建立更穩(wěn)定可靠的數(shù)學(xué)模型。
選擇S-G平滑法(Savitzky-Golay smoothing)對(duì)光譜數(shù)據(jù)預(yù)處理,平滑點(diǎn)數(shù)為3,所使用的數(shù)據(jù)處理軟件是The Unscrambler X 10.4,經(jīng)過S-G平滑法預(yù)處理后的光譜平均反射率曲線圖,如圖5。
圖5 預(yù)處理后的光譜平均反射率曲線圖
2.3.1 連續(xù)投影算法
預(yù)處理后的光譜數(shù)據(jù)從481.15~800.03 nm波段范圍內(nèi)共1 621個(gè)波長(zhǎng)變量,數(shù)據(jù)維數(shù)過高,冗余信息過多,運(yùn)行時(shí)間過長(zhǎng),直接建立模型會(huì)影響分類效果[18],所以需對(duì)經(jīng)過S-G平滑預(yù)處理后的數(shù)據(jù)提取特征進(jìn)行降維;因連續(xù)投影算法篩選出的特征波長(zhǎng)數(shù)目較少,且優(yōu)選出的波長(zhǎng)建立模型預(yù)測(cè)效果較好[19],故采用連續(xù)投影算法提取特征波長(zhǎng),建立千禧番茄分類模型。根據(jù)均方根誤差(RMSE)最小原則,共優(yōu)選出11個(gè)波長(zhǎng)變量,如圖6(a)所示,分別是第56,198,427,951,1 129,1 195,1 228,1 264,1 350,1 559和1 618個(gè)變量,即對(duì)應(yīng)492.54,521.78,568.42,672.55,707.07,719.75,726.06,732.94,749.28,788.52和799.47 nm處的波長(zhǎng),如圖6(b)所示。
圖6 連續(xù)投影算法提取特征波長(zhǎng)
2.3.2 支持向量機(jī)
使用支持向量機(jī)分類器將SPA算法提取的11個(gè)特征波長(zhǎng)作為輸入變量建立SPA-SVM模型,訓(xùn)練集和測(cè)試集每個(gè)千禧番茄品種的預(yù)測(cè)正確數(shù)目分別如表2和表3,預(yù)測(cè)分類結(jié)果分別如圖7和圖8。
表2 訓(xùn)練集分類結(jié)果
根據(jù)表2和圖7,訓(xùn)練集樣本每個(gè)類別有40個(gè)共160個(gè),其中類別1預(yù)測(cè)正確數(shù)目為34,預(yù)測(cè)準(zhǔn)確率為85%;類別2預(yù)測(cè)正確數(shù)目為20,預(yù)測(cè)準(zhǔn)確率為50%;類別3預(yù)測(cè)正確數(shù)目為26,預(yù)測(cè)準(zhǔn)確率為65%;類別4預(yù)測(cè)正確數(shù)目為15,預(yù)測(cè)準(zhǔn)確率為37.5%。由表3和圖8,測(cè)試集樣本每個(gè)類別有20個(gè)共80個(gè),其中類別1預(yù)測(cè)正確數(shù)目為17,預(yù)測(cè)準(zhǔn)確率為85%;類別2預(yù)測(cè)正確數(shù)目為14,預(yù)測(cè)準(zhǔn)確率為70%;類別3預(yù)測(cè)正確數(shù)目為8,預(yù)測(cè)準(zhǔn)確率為40%;類別4預(yù)測(cè)正確數(shù)目為5,預(yù)測(cè)準(zhǔn)確率為25%。
圖7 訓(xùn)練集分類結(jié)果
圖8 測(cè)試集分類結(jié)果
表3 測(cè)試集分類結(jié)果
綜上,訓(xùn)練集的平均分類準(zhǔn)確率為59.38%,測(cè)試集的平均分類準(zhǔn)確率為48.75%,結(jié)果表明支持向量機(jī)模型對(duì)千禧番茄品種的分類效果差。
2.3.3 GWO優(yōu)化SVM
采用灰狼優(yōu)化算法優(yōu)化上述支持向量機(jī)的參數(shù)c和g,建立SPA-GWO-SVM模型對(duì)千禧番茄分類預(yù)測(cè),灰狼優(yōu)化算法所用公式如式(2)—式(10)。
灰狼個(gè)體與獵物的距離
D=|CP(n)-W(n)|
(2)
灰狼個(gè)體的位置更新
W(n+1)=P(n)-AD
(3)
α狼與其他灰狼個(gè)體的距離
Dα=|C1Wα(n)-W(n)|
(4)
β狼與其他灰狼個(gè)體的距離
Dβ=|C2Wβ(n)-W(n)|
(5)
δ狼與其他灰狼個(gè)體的距離
Dδ=|C3Wδ(n)-W(n)|
(6)
ω狼向α狼移動(dòng)
W1=Wα(n)-A1Dα
(7)
ω狼向β狼移動(dòng)
W2=Wβ(n)-A2Dβ
(8)
ω狼向δ狼移動(dòng)
W3=Wδ(n)-A3Dδ
(9)
ω狼的最終位置
W(n+1)=(W1+W2+W3)/3
(10)
其中,W表示當(dāng)前灰狼的位置;P表示獵物的位置;n表示當(dāng)前迭代次數(shù);N表示最大迭代次數(shù);D表示灰狼個(gè)體與獵物的距離;A和C是系數(shù)向量,A=2ab1-a,C=2b2;a是收斂因子,a=2-2n/N;b1和b2是[0, 1]內(nèi)的隨機(jī)數(shù)向量。
灰狼算法調(diào)優(yōu)步驟如下:
Step 1 初始化灰狼α,β,δ位置;
Step 2 計(jì)算灰狼個(gè)體適應(yīng)度值;
Step 3 比較灰狼個(gè)體適應(yīng)度值,找到最優(yōu)解、次優(yōu)解、第三優(yōu)解并分別保存位置到Wα,Wβ和Wδ;
Step 4 計(jì)算a,A,C值;
Step 5 根據(jù)式(1)—式(9)更新灰狼位置;
Step 6 判斷是否達(dá)到最大迭代次數(shù),若是則輸出α位置即為所優(yōu)化參數(shù)的最優(yōu)解;若否則轉(zhuǎn)到Step 2。
經(jīng)灰狼算法優(yōu)化后的支持向量機(jī)參數(shù)如表4所示。
表4 經(jīng)灰狼算法尋優(yōu)的支持向量機(jī)參數(shù)
訓(xùn)練集和測(cè)試集每個(gè)千禧番茄品種的預(yù)測(cè)正確數(shù)目分別見表5和表6,預(yù)測(cè)分類結(jié)果分別見圖9和圖10。
表5 訓(xùn)練集分類結(jié)果
根據(jù)表5和圖9,訓(xùn)練集樣本每個(gè)類別有40個(gè)共160個(gè),四個(gè)品種全部預(yù)測(cè)正確。由表6和圖10,測(cè)試集樣本每個(gè)類別有20個(gè)共80個(gè),其中類別1預(yù)測(cè)正確數(shù)目為19,預(yù)測(cè)準(zhǔn)確率為95%;類別2預(yù)測(cè)正確數(shù)目為17,預(yù)測(cè)準(zhǔn)確率為85%;類別3預(yù)測(cè)正確數(shù)目為12,預(yù)測(cè)準(zhǔn)確率為60%;類別4預(yù)測(cè)正確數(shù)目為17,預(yù)測(cè)準(zhǔn)確率為85%。
表6 測(cè)試集分類結(jié)果
圖9 訓(xùn)練集分類結(jié)果
圖10 測(cè)試集分類結(jié)果
綜上,訓(xùn)練集平均分類準(zhǔn)確率均為100%,較支持向量機(jī)模型準(zhǔn)確率提高了40.62%,測(cè)試集的平均分類準(zhǔn)確率為81.25%,較支持向量機(jī)模型準(zhǔn)確率提高了32.50%,結(jié)果表明經(jīng)過灰狼算法優(yōu)化的支持向量機(jī)模型較未優(yōu)化支持向量機(jī)模型準(zhǔn)確率有明顯提高,對(duì)千禧番茄品種具有較好的分類效果。
使用SPA算法對(duì)S-G平滑處理后的光譜數(shù)據(jù)提取11個(gè)特征波長(zhǎng)(492.54,521.78,568.42,672.55,707.07,719.75,726.06,732.94,749.28,788.52和799.47 nm)作為模型輸入變量分別建立SPA-SVM模型和SPA-GWO-SVM模型對(duì)四個(gè)品種千禧番茄分類,訓(xùn)練集和測(cè)試集分類準(zhǔn)確率對(duì)比圖分別如圖11和圖12。分析可得,不論是訓(xùn)練集還是測(cè)試集,每個(gè)品種優(yōu)化后的SPA-GWO-SVM模型分類準(zhǔn)確率均明顯提高,其中類別2和類別4分類準(zhǔn)確率差異最為顯著,這說明灰狼優(yōu)化算法對(duì)支持向量機(jī)參數(shù)尋優(yōu)效果較好,可實(shí)現(xiàn)對(duì)千禧番茄品種的分類。
圖11 訓(xùn)練集準(zhǔn)確率對(duì)比
圖12 測(cè)試集準(zhǔn)確率對(duì)比
為篩選風(fēng)味佳且綜合營養(yǎng)價(jià)值高的千禧番茄品種,實(shí)現(xiàn)千禧番茄的快速準(zhǔn)確分類,對(duì)4種不同品種千禧番茄的分類開展了試驗(yàn)和分析。
(1)利用S-G平滑法對(duì)所采集的光譜數(shù)據(jù)作平滑去噪預(yù)處理,確定481.15~800.03 nm波段的光譜數(shù)據(jù)為有效光譜;
(2)采用連續(xù)投影算法對(duì)預(yù)處理后的樣本降維,得到11個(gè)特征變量,分別是492.54,521.78,568.42,672.55,707.07,719.75,726.06,732.94,749.28,788.52和799.47 nm;
(3)SPA提取的特征波長(zhǎng)作為輸入變量建立支持向量機(jī)模型,訓(xùn)練集共160個(gè)樣本,預(yù)測(cè)正確數(shù)目為95,預(yù)測(cè)平均分類準(zhǔn)確率為59.38%;測(cè)試集共80個(gè)樣本,預(yù)測(cè)正確數(shù)目為39,預(yù)測(cè)平均分類準(zhǔn)確率為48.75%;
(4)用灰狼算法尋找最優(yōu)支持向量機(jī)參數(shù)c和g,并用優(yōu)化的支持向量機(jī)分類模型對(duì)訓(xùn)練集樣本訓(xùn)練,訓(xùn)練集的最優(yōu)參數(shù)為c=56.888 3和g=36.971 1,四種樣本的平均分類準(zhǔn)確率為100%,較支持向量機(jī)模型準(zhǔn)確率提高了40.62%;測(cè)試集平均分類準(zhǔn)確率為81.25%,較支持向量機(jī)模型準(zhǔn)確率提高了32.50%。
研究結(jié)果表明經(jīng)灰狼算法優(yōu)化可明顯提高支持向量機(jī)的分類性能,實(shí)現(xiàn)千禧番茄快速準(zhǔn)確分類,為千禧番茄及其他果蔬準(zhǔn)確分類提供了新思路和方法。