胡逸磊,姜洪喆,周宏平,許林云,鞠 皓,王 影
(南京林業(yè)大學(xué)機(jī)械電子工程學(xué)院,江蘇 南京 210037)
油茶果采摘期受環(huán)境因素影響較大,不同地區(qū)的天氣、氣候、積溫、土壤肥力等條件不同,造成油茶果的成熟期有早有晚,因此油茶果的采摘時(shí)間應(yīng)根據(jù)其具體成熟度而定。油茶果采收前的最后一個(gè)月是油脂積累的高峰期,這段時(shí)間油茶果含油量增幅最為明顯,同時(shí)伴隨著內(nèi)部營養(yǎng)物質(zhì)的相互轉(zhuǎn)化。然而在此時(shí)期油茶果的外部形態(tài)特征如形狀大小、鮮果質(zhì)量、顏色等趨于穩(wěn)定,無明顯變化,從而給茶農(nóng)判斷油茶果的成熟度和最佳采摘期帶來一定的困難。故迫切需要提出一種快速準(zhǔn)確地檢測(cè)油茶果成熟度的方法,為油茶果的精準(zhǔn)采收作業(yè)提供幫助。
高光譜成像技術(shù)是一種集圖像和光譜于一體的技術(shù),圖像中的每個(gè)像素點(diǎn)都包含特定位置的光譜信息,可實(shí)現(xiàn)被測(cè)物各組分分布情況的可視化。近年來不少研究人員利用高光譜成像技術(shù)在檢測(cè)果品的成熟度及相關(guān)成熟度參數(shù)方面取得了重大進(jìn)展。Pu Hongbin等比較了兩臺(tái)成像光譜儀(光譜集I:600~1 000 nm和光譜集II:1 000~2 500 nm)檢測(cè)荔枝成熟度的能力,建立的偏最小二乘判別分析(partial least squaresdiscrimination analysis,PLS-DA)在光譜集I上對(duì)成熟和未熟荔枝的分類正確率比在光譜集II上高6.25%。Zhang Chu等采集了成熟、半熟和未熟草莓在兩組不同波段下的高光譜圖像,融合草莓的光譜特征和紋理特征建立的支持向量機(jī)(support vector machine,SVM)模型發(fā)現(xiàn):在441.1~1 013.97 nm,SVM模型識(shí)別正確率為95%,在941.46~1 578.13 nm,SVM模型識(shí)別正確率只有70.83%。Rosli等將柑橘樣品劃分成6 個(gè)區(qū)域,分別采集每個(gè)區(qū)域的光譜反射率,發(fā)現(xiàn)盡管生長期和成熟期的柑橘果皮顏色相差不大,利用粒子群優(yōu)化(particle swarm optimization,PSO)算法建立基于光譜反射率的分類模型能篩選出未成熟的柑橘。周宏平等通過比較不同成像波段(400~1 000 nm及900~1 700 nm)得到油茶籽光譜反射率數(shù)據(jù)建立的偏最小二乘回歸(partial least squares regression,PLSR)模型性能的優(yōu)劣,得出900~1 700 nm是油茶籽含油率最佳檢測(cè)波段的結(jié)論。這些研究結(jié)果為使用光譜分析技術(shù)檢測(cè)油茶果成熟度奠定了良好的理論基礎(chǔ)。
本研究通過高光譜成像技術(shù)獲取油茶果的高光譜數(shù)據(jù)并結(jié)合化學(xué)計(jì)量學(xué)方法獲取油茶果的成熟度參數(shù)作為參照,使用分類算法完成對(duì)油茶果成熟度的判別,并驗(yàn)證分類模型的正確率,旨在為油茶果最佳采摘期的判斷提供科學(xué)依據(jù)。
油茶果樣品來自江蘇南京市江寧區(qū)金航油茶專業(yè)合作社的油茶林,采集的油茶果均屬于霜降籽品種(在霜降節(jié)氣前后成熟),具體采樣要求為:采集位于近似同一海拔高度的茶樹上向陽面的油茶果,且油茶果的大小相似,以最大程度保證每一批次的樣品處于同一成熟度水平。
于2020年10月13號(hào)、10月20號(hào)、10月27號(hào)、11月3號(hào)、11月10號(hào)分別采集油茶鮮果各200 個(gè),當(dāng)天帶回進(jìn)行油茶果高光譜圖像的采集,并于11月14號(hào)采集果殼開裂的油茶果20 個(gè)作為對(duì)照組進(jìn)行含油率的測(cè)量(11月14號(hào)茶樹上幾乎沒有果皮完整的油茶果,由于過熟導(dǎo)致果殼開裂,整個(gè)茶園的油茶果采收工作基本完畢,因此特意留出5 棵茶樹用于實(shí)驗(yàn)樣本的采集)。
南京林業(yè)大學(xué)生物質(zhì)包裝無損檢測(cè)實(shí)驗(yàn)室搭建的高光譜成像無損檢測(cè)平臺(tái)如圖1所示,包括成像光譜儀(GaiaField-V10E-AZ4型,400~1 000 nm)、探測(cè)器(sCMOS相機(jī))、白色食品級(jí)傳送帶(HSIACSD800)、一套由12 只50 W的鹵素?zé)艉吐瓷漶讽斀M成的照明系統(tǒng)以及一臺(tái)計(jì)算機(jī),其中成像光譜儀的光譜分辨率為5 nm,被測(cè)物品置于傳送帶上的載物臺(tái)由步進(jìn)電機(jī)驅(qū)動(dòng),暗箱用于屏蔽外界雜散光對(duì)數(shù)據(jù)采集的干擾;111-101v-10G型游標(biāo)卡尺 桂林廣陸數(shù)字測(cè)控股份有限公司;BSM-220.4型分析天平 上海卓精電子科技有限公司;DHG-9101-2SA型干燥箱 常州朗越儀器制造有限公司;NAI-ZFCDY-6Z型脂肪測(cè)定儀 上海那艾精密儀器有限公司。
圖1 高光譜成像系統(tǒng)Fig. 1 Schematic of hyperspectral imaging system
1.3.1 高光譜圖像的采集和校正
高光譜圖像數(shù)據(jù)獲取基于計(jì)算機(jī)上的Specview軟件,將高光譜儀器預(yù)熱30 min后進(jìn)行油茶果圖像采集。為避免獲取的圖像失真,經(jīng)過多次預(yù)實(shí)驗(yàn)確定最佳的數(shù)據(jù)采集參數(shù)如下:光譜儀I的曝光物距為300 mm,曝光時(shí)間為1.2 ms,電控位移臺(tái)掃描速率為0.601 4 nm/s,掃描線實(shí)際長度為200 mm,圖像分辨率為800像素×666像素。每次采集2 個(gè)油茶果,采集完成后統(tǒng)一裁剪成230像素×290像素的單個(gè)油茶果高光譜圖像。
由于高光譜圖像采集過程中存在暗電流的影響,而且不同波段下成像系統(tǒng)光源的強(qiáng)度分布也不均勻,從而導(dǎo)致獲取的高光譜圖像中含有較大的噪聲。因此要對(duì)其進(jìn)行黑白校正以消除暗電流的影響,校正方法如式(1)所示:
式中:為校正后的漫反射光譜圖像數(shù)據(jù);為樣本原始的漫反射光譜圖像數(shù)據(jù);為暗圖像數(shù)據(jù);為白板的漫反射圖像數(shù)據(jù)。
1.3.2 理化指標(biāo)測(cè)定
分別測(cè)定油茶果的果高、果徑、鮮果質(zhì)量、鮮籽質(zhì)量以及烘干后的油茶果殼質(zhì)量,得到油茶果殼的含水率和出籽率計(jì)算如式(2)、(3)所示:
式中:為油茶果殼含水率/%;為出籽率/%;為果殼烘干后質(zhì)量/g;為油茶鮮果質(zhì)量/g;為油茶鮮籽質(zhì)量/g。
油茶果的含油率按照GB 5009.6—2016《食品中脂肪的測(cè)定》的方法測(cè)定,并按照黃佳聰?shù)鹊姆椒ㄓ?jì)算含油率,如式(4)所示:
式中:為含油率/%;為出油量/g;為茶仁質(zhì)量/g。
1.3.3 曲率校正方法
油茶果表面曲率較大,使得油茶果高光譜圖像每個(gè)像素點(diǎn)的光譜強(qiáng)度存在較大差異,因此必須校正反射強(qiáng)度的變化。Gowen等發(fā)現(xiàn),均值歸一化比最大值法和中值法更適合校正球形水果表面的光譜強(qiáng)度變化。本研究使用均值歸一化方法對(duì)高光譜圖像的像素點(diǎn)光譜反射率進(jìn)行逐一校正,并利用變異系數(shù)評(píng)價(jià)光譜校正的質(zhì)量,計(jì)算如式(5)、(6)所示:
式中:A為高光譜圖像中單個(gè)像素點(diǎn)的光譜向量;為光譜向量中元素個(gè)數(shù)(即波段數(shù)量);A為單個(gè)像素點(diǎn)校正后的光譜向量;SD為光譜矩陣的標(biāo)準(zhǔn)差;MN為光譜矩陣的平均值;CV為變異系數(shù)。
1.3.4 變量選擇方法
高光譜數(shù)據(jù)量大且數(shù)據(jù)之間的共線性嚴(yán)重,影響模型的運(yùn)算速度。因此采用以下3 種方法提取有效信息變量進(jìn)行對(duì)比,從而得到最優(yōu)的變量選擇方法。
連續(xù)投影算法(succesive projections algorithm,SPA)是一種前向選擇算法,通過在光譜中尋找最低限度冗余光譜信息變量集,使得變量之間的共線性最小化。該方法需預(yù)先設(shè)置選擇的變量數(shù)范圍,最終選擇的變量數(shù)在該范圍內(nèi)的均方根誤差(root mean square error,RMSE)最小。本研究中選擇的最佳變量數(shù)范圍為5~30,選擇出28 個(gè)特征波長。
競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling,CARS)是一種以回歸系數(shù)(regression coefficient,RC)作為變量重要性評(píng)價(jià)指標(biāo)的變量選擇方法。該方法利用自適應(yīng)重加權(quán)采樣技術(shù)結(jié)合指數(shù)衰減函數(shù)優(yōu)選出PLSR模型中RC絕對(duì)值大的變量點(diǎn),并將交叉驗(yàn)證選出個(gè)PLSR子集模型中交叉驗(yàn)證均方根誤差(root mean square error of cross-validation,RMSECV)最小的子集定義為最優(yōu)變量子集。本研究中將蒙特卡洛采樣次數(shù)設(shè)置為5 000,每次運(yùn)行程序選擇的訓(xùn)練集和測(cè)試集的樣本比例為2∶1,篩選出28 個(gè)特征波長。
遺傳算法(genetic algorithm,GA)是模擬達(dá)爾文生物進(jìn)化論的自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過程的計(jì)算模型,是一種通過模擬自然進(jìn)化過程搜索最優(yōu)解的方法。本研究設(shè)置進(jìn)化代數(shù)為200,算法運(yùn)行次數(shù)50,種群大小為64,初始時(shí)平均5 個(gè)波長構(gòu)成一個(gè)染色體,染色體個(gè)數(shù)為30,變異概率為1%,篩選出26 個(gè)特征波長。
1.3.5 模型建立與評(píng)價(jià)
采用SVM、-最近鄰(-nearest neighbor,KNN)算法、隨機(jī)森林(random forest,RF)算法、PLS-DA四種分類方法建立油茶果成熟度分類模型。其中SVM是一種非線性模型,能夠有效避免樣本空間的維數(shù)災(zāi)難;KNN屬于簡單的線性分類方法,易于實(shí)現(xiàn);RF是一種集成算法,抗過擬合能力強(qiáng);PLS-DA也是一種線性分類方法,魯棒性較好。最后通過圖像分類的方法,以整幅油茶果的高光譜圖像為輸入量,搭建基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型,并討論模型性能。
KNN算法的核心思想是用距離最近的個(gè)樣本數(shù)據(jù)的類別代表目標(biāo)數(shù)據(jù)的類別,其中值是超參數(shù),會(huì)很大程度上影響分類的效果。將值設(shè)置為[3,40]以2為步長遞增,以平均正確率為依據(jù),使用10折交叉驗(yàn)證法進(jìn)行值尋優(yōu)。
RF算法是以Bagging為框架的基于CART決策樹的集成算法,該算法使用隨機(jī)抽樣形成的多個(gè)分類器達(dá)到更低的泛化誤差。對(duì)RF算法分類效果影響最大的超參數(shù)主要包括Bagging框架參數(shù)N estimators和CART決策樹參數(shù)Max depth,其中N estimators為學(xué)習(xí)器的最大迭代次數(shù),Max depth為決策樹的最大深度。本研究中將N estimators的值設(shè)置為[10,200]以10為步長,將Max depth的值設(shè)置為[1,15]以1為步長進(jìn)行網(wǎng)格搜索。
SVM算法中使用高斯核函數(shù),其中參數(shù)和對(duì)模型的性能影響很大,是懲罰系數(shù),表示對(duì)誤差的容忍度,是高斯核函數(shù)中的一個(gè)參數(shù),反映數(shù)據(jù)映射到新的特征空間后的分布狀況。本研究將設(shè)置為以2為底,在[-10,10]內(nèi)以指數(shù)0.1為步長遞增,將設(shè)置為以2為底,在[-10,5]內(nèi)以指數(shù)0.375為步長遞增進(jìn)行網(wǎng)格搜索。
PLS-DA是根據(jù)樣品的光譜矩陣和類別矩陣分解出的載荷矩陣和得分矩陣計(jì)算測(cè)試樣本的類別信息矩陣,然后根據(jù)類別信息矩陣與類別標(biāo)簽的接近程度確定樣品所屬類別。該模型中的潛變量數(shù)N components為超參數(shù),該值過大,容易發(fā)生過擬合,該值過小,則模型的精度不足。本研究將N components設(shè)置在[1,20]之間進(jìn)行網(wǎng)格搜索。
本實(shí)驗(yàn)采用分類正確率作為模型評(píng)價(jià)指標(biāo),計(jì)算如式(7)所示。正確率越高,說明模型的預(yù)測(cè)性能越好。使用的數(shù)據(jù)處理軟件包括ENVI5.1、Matlab2014a、Python3.8。
式中:Acc為正確率/%;TP為正確識(shí)別為正樣本的數(shù)量;TN為正確識(shí)別為負(fù)樣本的數(shù)量;FP為錯(cuò)誤識(shí)別為正樣本的數(shù)量;FN為錯(cuò)誤識(shí)別為負(fù)樣本的數(shù)量。
從每一批次中取10 個(gè)樣品進(jìn)行油茶果果高、果徑、鮮果質(zhì)量、鮮籽質(zhì)量、出籽率、含油率、果殼含水率等理化參數(shù)的統(tǒng)計(jì),取每一批次各理化參數(shù)的平均值作為該批次樣品的理化值,計(jì)算每個(gè)理化參數(shù)在整個(gè)采摘期內(nèi)的平均值和標(biāo)準(zhǔn)差,結(jié)果如表1所示。
可以發(fā)現(xiàn)油茶果的果高、果徑在整個(gè)采摘期內(nèi)出現(xiàn)些許的遞增,但遞增幅度很小,因此標(biāo)準(zhǔn)差較低,只有0.43 mm左右;鮮果質(zhì)量范圍在25~30 g之間,鮮籽質(zhì)量范圍在10~15 g之間;油茶果的果殼含水率在采摘期內(nèi)有下降的趨勢(shì),但下降的幅度較??;油茶果出籽率在35%~40%之間波動(dòng),油茶果含油率隨著采摘時(shí)間的推遲而遞增,增幅達(dá)到59%,其標(biāo)準(zhǔn)差為5.55%,比其他理化參數(shù)的標(biāo)準(zhǔn)差高很多,可見若提前采摘油茶果將造成茶油產(chǎn)量的嚴(yán)重?fù)p失。并且從采樣時(shí)間上看,11月10號(hào)油茶林中部分油茶果的果殼開裂,油茶果進(jìn)入全面采收階段,至11月14號(hào)采收工作基本完畢,預(yù)留的5 棵茶樹上的大部分油茶果的果殼開裂,有的油茶果已脫落在地,符合油茶果過熟期特征,將此時(shí)采集的油茶果作為對(duì)照組,發(fā)現(xiàn)其含油率基本保持穩(wěn)定,說明11月10號(hào)左右油茶果進(jìn)入完全成熟期,此時(shí)采摘可使茶油產(chǎn)量最大化,并且陸續(xù)有油茶果果殼開裂并脫落導(dǎo)致難以收集,無法再推遲油茶林的整體采收時(shí)間。
表1 油茶果理化參數(shù)隨采摘時(shí)間的變化Table 1 Changes in physicochemical parameters of C. oleifera with picking date
因此本研究采用含油率作為油茶果成熟度的衡量指標(biāo),并結(jié)合表2給出其成熟度的定量判別標(biāo)準(zhǔn):采收前30 d左右,且含油率為(22.00±1.00)%的樣品作為成熟度I;油茶果采收前23 d左右,且含油率為(24.00±1.00)%的樣品作為成熟度II;茶果采收前16 d左右,且含油率為(27.00±2.00)%的樣品作為成熟度III;茶果采收前9 d左右,且含油率為(31.50±2.50)%的樣品作為成熟度IV;油茶果采收期間,且含油率為(35.00±1.00)%的樣品作為成熟度V。成熟度等級(jí)I~V的油茶果樣品的成熟度依次遞增,成熟度V的油茶果為完熟期樣品。本實(shí)驗(yàn)不包含過熟期樣品,因?yàn)檫^熟期的油茶果果殼開裂容易脫落,憑借人眼很容易判別,無需借助高光譜設(shè)備。將以上5 種成熟度油茶果樣品的高光譜數(shù)據(jù)作為數(shù)據(jù)集,用作成熟度的分類。
表2 油茶果含油率的變化Table 2 Changes in oil content in C. oleifera with picking date
油茶果果面曲率較大造成高光譜成像后每個(gè)像素點(diǎn)的光譜強(qiáng)度差異較大,并且從油茶果圖像的中心區(qū)域往果子邊緣處的光譜強(qiáng)度逐漸減小,導(dǎo)致邊緣處的光譜反射率比中心處低,直接使用這種狀態(tài)下數(shù)據(jù)進(jìn)行建模分類的誤差較大,現(xiàn)使用均值歸一化方法進(jìn)行校正。歸一化方法在光譜曲線預(yù)處理中有重要的應(yīng)用,可以在一定程度上減小水果形狀對(duì)采集光譜的影響。
圖2 校正前(a)、后(b)油茶果半徑方向像素點(diǎn)光譜曲線Fig. 2 Pixel spectral curves of C. oleifera in the radius direction before (a) and after (b) correction
圖3 774 nm波段校正前(a)、后(b)油茶果像素點(diǎn)反射率分布Fig. 3 Reflectivity distribution of the pixel points of C. oleifera before (a) and after (b) correction at 774 nm
圖2a是校正前從油茶果中心沿半徑方向至邊緣處89 個(gè)像素點(diǎn)的光譜曲線圖,可以看出由于油茶果曲率的影響,不同位置的光譜反射強(qiáng)度差異很大,光譜CV為0.244 0;圖2b是相同位置的像素點(diǎn)校正后的光譜曲線圖,可以發(fā)現(xiàn)每個(gè)像素點(diǎn)之間的光譜強(qiáng)度差異變小很多,CV為0.075 3。
774 nm通道油茶果樣品的反射率與背景的反射率差異最大,因此該通道能清晰地顯示油茶果樣品的灰度圖。圖3是在774 nm波段校正前后油茶果反射率的偽彩色分布,可以直觀地看到校正后油茶果像素點(diǎn)的反射率分布比校正前更均勻,說明均值歸一化方法的有效性。
在對(duì)1 000 份油茶果樣本的高光譜圖像進(jìn)行曲率校正之后,使用掩膜的方法計(jì)算油茶果的光譜值:以反射率0.2作為分割原始高光譜圖像中油茶果樣本與背景的閾值,將背景區(qū)域的像素值置為0,樣品區(qū)域的像素值置為1生成掩膜圖像,將掩膜圖像與油茶果圖像做內(nèi)積運(yùn)算得到去除背景信息的油茶果高光譜圖像,最后將分割出來的油茶果樣品每個(gè)波長通道所有像素點(diǎn)反射率的平均值作為該樣品的最終光譜值,從而提取出1 000 份樣品的平均光譜曲線。
由于總樣本中可能存在奇異樣本影響最終分類效果,使用馬氏距離法分別對(duì)不同成熟度等級(jí)的樣本進(jìn)行檢測(cè)并予以剔除,最終將剩余939 個(gè)樣品的光譜數(shù)據(jù)用于建立分類模型。
圖4 939 個(gè)樣本的原始(a)及其曲率校正后(b)的光譜曲線Fig. 4 Spectral curves of 939 samples before (a) and after (b)curvature correction
939 個(gè)樣本曲率校正前后的光譜曲線圖見圖4,校正后的數(shù)據(jù)分布更加集中,數(shù)據(jù)特征更加明顯。670 nm處的吸收峰主要與油茶果殼中的花青素和葉綠素有關(guān),970 nm處的吸收峰與果殼中的水分有關(guān)。將5 個(gè)不同成熟度等級(jí)的油茶果光譜數(shù)據(jù)分別取平均值,得到油茶果的成熟度曲線如圖5所示。可以發(fā)現(xiàn),不同成熟度油茶果的光譜強(qiáng)度差異主要體現(xiàn)在500~630 nm和720~970 nm之間。在500~630 nm之間,成熟度I和成熟度II樣品的反射強(qiáng)度差別較小,隨著采樣時(shí)間的推遲,成熟度III和成熟度IV樣品的反射強(qiáng)度較前者有所降低,成熟度V樣品的反射強(qiáng)度降至最低,該波段范圍內(nèi)呈現(xiàn)出油茶果的光譜反射率隨成熟度的增加而降低的規(guī)律。在720~970 nm之間,成熟度II~V樣品的反射強(qiáng)度隨成熟度的增加而降低,而從成熟度I~V樣品的反射強(qiáng)度經(jīng)歷兩次先增高后降低的過程,可能是與果殼中內(nèi)源激素含量的動(dòng)態(tài)變化有關(guān)。在5 個(gè)不同的采收時(shí)間點(diǎn),成熟度曲線存在較明顯的區(qū)別,為成熟度分類提供了理論依據(jù)。
圖5 成熟度曲線Fig. 5 Spectral curves with different maturities
將5 種不同成熟度等級(jí)的油茶果樣品賦予類別標(biāo)簽1~5,分別采用KNN、RF、SVM、PLS-DA建立基于全波長光譜信息的油茶果成熟度分類模型,各模型參數(shù)設(shè)置如表3所示。在對(duì)各個(gè)模型進(jìn)行參數(shù)尋優(yōu)后,獲得了各模型在最優(yōu)參數(shù)下的分類結(jié)果如表3和圖6所示??梢园l(fā)現(xiàn),SVM相比于其他3 個(gè)模型的分類效果最好:訓(xùn)練集的分類正確率為98%,測(cè)試集的平均分類正確率為97%,對(duì)成熟度I樣品的分類正確率最高;其次是RF模型,對(duì)油茶果成熟度的平均分類正確率為86%,對(duì)成熟度I和成熟度IV樣品的分類正確率較高;PLS-DA模型的分類效果一般,測(cè)試集的正確率為76%;KNN模型在訓(xùn)練集和測(cè)試集上的分類正確率是所有模型中最低。
表3 不同分類模型的分類結(jié)果的比較Table 3 Comparison of results of classification of different classification models
圖6 不同算法對(duì)5 種成熟度樣品的分類正確率Fig. 6 Classification accuracy of different algorithms for samples at five maturity stages
通過降維的方式選取特征波長建立分類模型,在最大程度保留有效波段信息的基礎(chǔ)上,通過減少特征維度提高計(jì)算速度。由于在4 種分類模型中,SVM分類器對(duì)油茶果光譜信息的分類效果最好,為便于比較不同降維方法的優(yōu)劣,這里統(tǒng)一使用SVM建立分類模型。
CARS和GA選出的特征變量數(shù)目較多,而且CARS屬于快速粗選算法,因此本研究嘗試在CARS和GA降維的基礎(chǔ)上,再使用SPA算法進(jìn)行二次降維,進(jìn)一步消除干擾波段,最大程度保留有效波段。表4是不同降維方法選擇特征變量建立的SVM分類模型結(jié)果??梢园l(fā)現(xiàn),使用CARS降維后的28 個(gè)特征波長的光譜數(shù)據(jù)建立的SVM模型效果最好:訓(xùn)練集平均正確率為91%,測(cè)試集平均正確率為82%,對(duì)成熟度IV樣品的識(shí)別率最高為91%,對(duì)成熟度II樣品的識(shí)別率較低為73%。經(jīng)SPA和GA降維后建立的分類模型的效果相差不大:訓(xùn)練集上對(duì)油茶果的分類正確率為86%左右,測(cè)試集上的識(shí)別率為80%左右。主成分分析(principal component analysis,PCA)-SVM模型的效果最差:訓(xùn)練集上的分類正確率為64%,測(cè)試集上的分類正確率只有55%,可見PCA方法將全波段光譜數(shù)據(jù)轉(zhuǎn)化為7 個(gè)PC的過程中即使保留了99%的信息量,結(jié)合SVM建立的分類模型的性能還是較差。CARS-SPASVM和GA-SPA-SVM都是經(jīng)過二次降維之后建立的分類模型,兩組數(shù)據(jù)集下的SVM模型分類效果相當(dāng):測(cè)試集的正確率為75%左右,并且兩個(gè)模型均對(duì)成熟度V樣品的分類正確率最高,對(duì)成熟度II和成熟度III樣品的分類正確率較低,究其原因,成熟度V樣品的光譜強(qiáng)度相對(duì)于其他4 個(gè)成熟度等級(jí)的樣品最低,而成熟度II和成熟度III樣品的光譜強(qiáng)度相差不大,在某些波段甚至重疊,導(dǎo)致這兩類樣品的誤判數(shù)量較多??偟膩碚f,無論通過哪種方法尋找特征變量建立分類模型,在測(cè)試集上對(duì)成熟度I和成熟度V樣品的識(shí)別率最高,因?yàn)檫@兩類樣品的采樣時(shí)間間隔最長,光譜特征差異最大,而對(duì)成熟度II、成熟度III和成熟度IV樣品的分類正確率相對(duì)低一些,因?yàn)檫@3 類樣品采樣時(shí)間較為集中,光譜特征的差異性相對(duì)較小。
表4 不同降維方法的SVM分類模型結(jié)果Table 4 Results of SVM classification models with different dimensionreduction methods
采用顏色直方圖表征油茶果高光譜圖像的顏色特征。由于常用的顏色空間是RGB和HSV空間,分別取高光譜圖像的第64(641.8 nm、紅)、46(552.3 nm、綠)、27(459.8 nm、藍(lán))3 個(gè)通道生成對(duì)應(yīng)油茶果樣品的偽彩色RGB圖像。同時(shí)采用灰度共生矩陣表征油茶果高光譜圖像的紋理特征,為了能更直觀地以灰度共生矩陣描述紋理狀況,從矩陣導(dǎo)出能量、對(duì)比度、相關(guān)度、熵和逆差距5 個(gè)參數(shù)。
為驗(yàn)證油茶果高光譜圖像的顏色特征和紋理特征是否能作為成熟度分類的表征因子,以及在油茶果的光譜特征數(shù)據(jù)中融入圖像特征數(shù)據(jù)是否能起到優(yōu)化分類模型、提高模型正確率的效果,分別建立基于油茶果的顏色特征、紋理特征、融合圖像特征和光譜特征的SVM分類模型,同時(shí)約定光譜特征采用經(jīng)CARS降維后的數(shù)據(jù)集,因?yàn)楦鞣N變量選擇方法中,經(jīng)CARS選擇的特征波段建立的SVM模型效果最好。由于顏色特征中灰度級(jí)出現(xiàn)頻次的量級(jí)差異較大,紋理特征中各個(gè)紋理參數(shù)的量級(jí)也不同,因此在建模之前先對(duì)數(shù)據(jù)進(jìn)行歸一化處理。
表5是不同輸入特征下的SVM模型分類結(jié)果,可以發(fā)現(xiàn),使用單一的顏色特征建立的油茶果成熟度SVM模型測(cè)試集正確率為79%,相比使用單一的光譜特征建模的正確率降低了3.7%,并且該模型對(duì)成熟度IV和成熟度V樣品的識(shí)別率較高,分別為92%和95%,對(duì)成熟度II和成熟度III樣品的識(shí)別率較低。使用單一的紋理特征建立的油茶果成熟度SVM分類模型正確率不足50%,說明油茶果的紋理特征參數(shù)在油茶果成熟期間沒有發(fā)生較明顯的變化,并且油茶果的表皮光滑,紋理特征并不明顯,不能較好地作為油茶果成熟度的表征因子。進(jìn)一步地,融合油茶果高光譜圖像中的顏色特征和紋理特征建立的SVM模型正確率沒有使用單一的顏色特征建立的模型正確率高,原因是數(shù)據(jù)集中的紋理參數(shù)拉低了模型性能。融合圖像中的光譜特征和顏色特征建立的SVM模型正確率達(dá)到93%,說明顏色特征對(duì)使用光譜特征建立的分類模型起到優(yōu)化增益作用,原因是在光譜數(shù)據(jù)中加入顏色數(shù)據(jù),使得不同油茶果樣品的特征得到更為充分詳盡的描述,也使得不同成熟度等級(jí)油茶果的特征得到差異化表達(dá),該模型對(duì)成熟度I、IV和V樣品的識(shí)別率較高,對(duì)成熟度II和成熟度III的油茶果樣品識(shí)別率稍低。融合圖像特征(顏色及紋理)和光譜特征建立的油茶果SVM模型的正確率為88%,比使用單一的光譜特征建立的模型正確率提高了7.3%,比使用光譜特征和顏色特征融合建立的SVM模型正確率降低了5.4%,說明油茶果的光譜信息與紋理信息相比占絕對(duì)主導(dǎo),加入紋理數(shù)據(jù)后反而會(huì)導(dǎo)致信息冗余,使得模型性能有所降低。
表5 不同輸入特征下的SVM分類結(jié)果Table 5 Results of SVM classification with different input characteristics
總體上說,融合顏色特征和光譜特征建立的油茶果成熟度SVM分類模型的效果最優(yōu),并且模型對(duì)成熟度I、IV、V油茶果樣品的識(shí)別率普遍高于對(duì)成熟度II、III樣品的識(shí)別率,原因是成熟度I、IV、V油茶果樣品之間的特征參數(shù)差異性較大,易于分辨,而成熟度II、III樣品之間的特征差異相對(duì)較小。
對(duì)利用高光譜成像技術(shù)進(jìn)行油茶果成熟度檢測(cè)的可行性進(jìn)行探究,采用實(shí)驗(yàn)室內(nèi)靜態(tài)測(cè)量的方式觀察和分析油茶果的光學(xué)特性,在此基礎(chǔ)上分析利用油茶果的光學(xué)特征判斷油茶果的成熟度的準(zhǔn)確性。目前結(jié)合田間動(dòng)態(tài)測(cè)量討論自然環(huán)境下光譜檢測(cè)油茶果成熟度的可行性的田間試驗(yàn)正處于方案論證階段,將在今年油茶果成熟期(10—11月)進(jìn)行,為達(dá)到油茶先熟先采、后熟后采、隨熟隨采的智能化采摘新階段奠定理論基礎(chǔ)。主要結(jié)論如下:1)分別使用KNN、RF、SVM、PLS-DA建立基于全波段光譜數(shù)據(jù)的油茶果成熟度判別模型,發(fā)現(xiàn)SVM模型的分類正確率最高:訓(xùn)練集正確率為98%,測(cè)試集正確率為97%。2)分別使用SPA、CARS、GA、CARS-SPA、GA-SPA對(duì)全光譜進(jìn)行降維,建立基于特征變量的SVM模型,發(fā)現(xiàn)經(jīng)過CARS方法選擇的特征波段建立的分類模型正確率最高:訓(xùn)練集分類正確率為91%,測(cè)試集的正確率為82%。3)提取油茶果高光譜圖像中的顏色特征和紋理特征,分別建立SVM分類模型后發(fā)現(xiàn),融合顏色特征和光譜特征建立的SVM模型的正確率高于使用單一的光譜特征(經(jīng)CARS降維)建立的模型正確率:訓(xùn)練集分類正確率為95%,測(cè)試集正確率為93%。