李 鑫,湯衛(wèi)榮,張永輝,謝 強(qiáng),張 凡,吳潤(rùn)生,陳相君,夏 春,曾淑華,劉 雷*
1. 四川農(nóng)業(yè)大學(xué)農(nóng)學(xué)院,成都市溫江區(qū)惠民路211號(hào) 6111302. 四川省煙草公司瀘州市公司,四川省瀘州市龍馬潭區(qū)南光路374號(hào) 646600
煙葉田間成熟度是指煙葉的生長(zhǎng)發(fā)育達(dá)到的成熟狀態(tài)滿足后續(xù)加工環(huán)節(jié)對(duì)原料要求的程度,適宜的田間成熟度是保證烤后煙葉品質(zhì)的前提[1]。目前,生產(chǎn)中通常采用基于鮮煙葉外觀特征的人工判別方法判斷煙葉田間成熟度,但該方法難以量化且受主觀因素影響,易導(dǎo)致采收時(shí)煙葉成熟度控制不當(dāng),嚴(yán)重影響了煙葉品質(zhì)[2-3]。煙葉葉綠素含量[4]、SPAD值[5-6]、丙二醛、過(guò)氧化物酶和其他一些生理生化指標(biāo)[7-8]等量化信息可作為判別煙葉田間成熟度的客觀依據(jù),然而煙葉生理指標(biāo)的測(cè)定多費(fèi)時(shí)費(fèi)力,難以在生產(chǎn)中推廣應(yīng)用,因此仍需探索更加客觀、準(zhǔn)確、快速且易行的判別方法。
高光譜成像技術(shù)通過(guò)采集被測(cè)物體的電磁光譜反射信號(hào)獲取研究對(duì)象的特征信息[9],具有測(cè)定快速、對(duì)樣品無(wú)損傷、數(shù)據(jù)信息量大、分辨精度高等優(yōu)點(diǎn)[10]。研究表明,煙葉光譜信息可反映其顏色、色素含量、葉片組織結(jié)構(gòu)、葉片生理指標(biāo)等煙葉田間成熟特征[8]。王建偉等[11]分析不同成熟度煙葉光譜反射率、位置變量、面積變量和植被指數(shù)變量等光譜參數(shù),明確了不同田間成熟度煙葉的高光譜特征差異;刁航等[12]用可見光范圍內(nèi)的連續(xù)光譜、特征波段和光譜特征參數(shù)建立了煙葉田間成熟度判別模型;李佛琳等[13]發(fā)現(xiàn)不同成熟度鮮煙葉的反射光譜在503~651 nm間差異顯著。然而,煙葉田間成熟度判別模型構(gòu)建的研究目前還鮮見報(bào)道。為此,比較了不同光譜數(shù)據(jù)預(yù)處理方法和機(jī)器學(xué)習(xí)算法在構(gòu)建煙葉田間成熟度判別模型中的適用性,并采用遺傳算法優(yōu)選出對(duì)煙葉田間成熟度響應(yīng)最靈敏的特征光譜波段作為建模輸入變量,以期構(gòu)建基于高光譜信息的煙葉田間成熟度判別模型,客觀且準(zhǔn)確判斷煙葉田間成熟度,為烤煙智能采收方法的建立提供參考。
試驗(yàn)于2020年在四川省瀘州市古藺縣大寨鄉(xiāng)進(jìn)行,試驗(yàn)地為黑色砂壤土,土壤肥力中等,供試品種為中川208,按優(yōu)質(zhì)烤煙栽培規(guī)范進(jìn)行田間管理。自烤煙移栽后100 d 開始,每隔3 d 取1 次樣,于早上8∶00對(duì)煙株中部葉(從下往上第10~12葉位)進(jìn)行隨機(jī)取樣,直到過(guò)熟葉片采集完畢。由煙站技術(shù)人員參照當(dāng)?shù)厣a(chǎn)實(shí)踐經(jīng)驗(yàn)和相關(guān)文獻(xiàn)[2-3]制定鮮煙葉田間成熟度檔次劃分依據(jù)(表1)。
表1 鮮煙葉田間成熟度檔次劃分依據(jù)Tab.1 Basis of field maturity classification for fresh tobacco leaves
將評(píng)定田間成熟度檔次后的煙葉帶回室內(nèi),使用Pika XC2成像儀(美國(guó)Resonon公司)采集其光譜信息,采集軟件為Spectronon Pro,選用波長(zhǎng)范圍為400~1000 nm,光譜分辨率為1.3 nm,光譜通道數(shù)為448個(gè)。由于煙葉過(guò)寬,成像儀載物臺(tái)無(wú)法承載完整的煙葉樣本,故選取煙葉中段作為樣本掃描區(qū)域(圖1)。每片煙葉掃描1 次,使用Spectronon Pro 軟件中ROI(Region of interest)工具計(jì)算葉片的反射光譜平均值作為該樣本的光譜數(shù)據(jù)。
圖1 煙葉光譜信息采集Fig.1 Information collection of tobacco leaf spectra
信息采集前調(diào)節(jié)焦距至圖像最清晰,隨后進(jìn)行標(biāo)準(zhǔn)白板和暗電流校正[14]。使用均勻白板進(jìn)行白板數(shù)據(jù)的測(cè)量,獲得白板數(shù)據(jù)(W)之后將黑色蓋帽蓋在攝像頭上,保證沒有光源透入,獲得暗電流數(shù)據(jù)(B)。按公式(1)進(jìn)行校正:
式中:I是校正后的圖像數(shù)據(jù);I0是樣本的原始圖像數(shù)據(jù);B是全黑環(huán)境下的標(biāo)定圖像數(shù)據(jù)(反射率接近0);W是標(biāo)準(zhǔn)白板圖像數(shù)據(jù)。
試驗(yàn)采集M1、M2、M3 和M4 檔次的煙葉樣品各80 個(gè),共計(jì)320 個(gè)樣本的高光譜數(shù)據(jù)。分別從各成熟度檔次的煙葉樣本群體中隨機(jī)選取總樣本的3/4 作為訓(xùn)練集(共240 個(gè)樣本),余下1/4 為測(cè)試集(共80 個(gè)樣本,其中生青樣本、尚熟樣本、適熟樣本和過(guò)熟樣本各20個(gè))。
應(yīng)用MATLAB軟件,分別采用一階導(dǎo)數(shù)(1stD)、多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變量變換(SNV)、Savitzky-Golay(SG)卷積平滑、一階導(dǎo)數(shù)+SG平滑對(duì)煙葉原始高光譜數(shù)據(jù)進(jìn)行預(yù)處理,去除無(wú)關(guān)信息(如電噪音、樣品背景和雜散光等),提高分辨率和靈敏度,提升模型的精確度與穩(wěn)定性[15-16]。
預(yù)處理后的全波長(zhǎng)光譜數(shù)據(jù)共有448個(gè)變量,其中包含較多冗余信息,影響算法學(xué)習(xí)性能及模型的精確度[17]。因此,將這448 個(gè)變量分割成為45 個(gè)區(qū)間,第1到44區(qū)間每個(gè)區(qū)間內(nèi)包含10個(gè)光譜變量,第45 區(qū)間內(nèi)包含剩余的8 個(gè)變量。使用遺傳算法[18](GA)對(duì)45個(gè)光譜波段區(qū)間進(jìn)行優(yōu)選,設(shè)置初始種群個(gè)數(shù)為20,迭代進(jìn)化次數(shù)為100。通過(guò)適應(yīng)度值的計(jì)算、個(gè)體選擇、交叉、變異等操作完成遺傳算法的一輪迭代,經(jīng)過(guò)一定次數(shù)的迭代進(jìn)化使遺傳個(gè)體達(dá)到最佳適應(yīng)度。
分別使用BP 神經(jīng)網(wǎng)絡(luò)(BPNN)和支持向量機(jī)(SVM)兩種算法建立全波段模型,選擇全波段建模效果最佳的數(shù)據(jù)預(yù)處理方法和建模算法建立鮮煙葉田間成熟度判別模型。
BPNN 拓?fù)浣Y(jié)構(gòu)采用典型的3 層結(jié)構(gòu)(輸入層、隱含層、輸出層)設(shè)計(jì),其中輸入層節(jié)點(diǎn)個(gè)數(shù)為模型輸入變量的個(gè)數(shù);輸出層為模型輸出成熟度類別個(gè)數(shù);隱含層的神經(jīng)元個(gè)數(shù)根據(jù)公式(2)確定:
式中:m為隱含層節(jié)點(diǎn)數(shù);n為輸入層節(jié)點(diǎn)數(shù),l為輸出層節(jié)點(diǎn)數(shù);α為常數(shù),在1~10的范圍內(nèi)取值。
模型建立時(shí)采用newff函數(shù)創(chuàng)建網(wǎng)絡(luò),輸入層至隱含層的連接函數(shù)設(shè)置為tan-sigmoid 飽和正切函數(shù),隱含層到輸出層采用purelin 線性轉(zhuǎn)換函數(shù)。SVM在MATLAB R2019b軟件中調(diào)用林智仁教授開發(fā)設(shè)計(jì)的LIBSVM[19]工具箱。使用網(wǎng)格參數(shù)尋優(yōu)法對(duì)SVM模型的懲罰參數(shù)c和徑向基核函數(shù)參數(shù)g進(jìn)行優(yōu)化選取。
由圖2 可知,不同成熟度檔次的煙葉在400 ~1000 nm波長(zhǎng)內(nèi)的平均光譜曲線的整體變化趨勢(shì)相似,在550 nm 處有波峰、675 nm 處有波谷;在400 ~725 nm 間,煙葉光譜反射率隨煙葉田間成熟度的增加而升高,在725 ~ 1000 nm 間平均光譜曲線起伏平緩,煙葉的光譜反射率隨田間成熟度的增加反而降低,這與煙葉成熟過(guò)程中的外觀特征變化規(guī)律相符合。
圖2 不同成熟度檔次鮮煙葉平均光譜反射率Fig.2 Average spectral reflectances of fresh tobacco leaves of different maturity grades
使用一階導(dǎo)數(shù)、多元散射校正、標(biāo)準(zhǔn)正態(tài)變量變換、Savitzky-Golay平滑、一階導(dǎo)數(shù)+SG平滑5種光譜預(yù)處理方法對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,如圖3所示。
圖3 4個(gè)成熟度檔次煙葉預(yù)處理后平均光譜曲線Fig.3 Average spectral curves of tobacco leaves of four maturity grades after pretreatment
為比較不同預(yù)處理方法的降噪效果,同時(shí)確定最佳建模途徑,在MATLAB 軟件中分別使用SVM和BPNN兩種不同建模算法進(jìn)行全波段建模。
由表2 可見,基于不同預(yù)處理方法建立的SVM模型中,MSC-SVM 和SG-SVM 模型的綜合準(zhǔn)確率最低,僅87.19%,而SNV-SVM 模型的綜合準(zhǔn)確率達(dá)93.13%,相比MSC-SVM 和SG-SVM 模型增加了5.94 百分點(diǎn);基于不同預(yù)處理方法建立的BPNN 模型中,SG-BPNN模型的綜合準(zhǔn)確率最低,為87.50%,1stD-BPNN 模型的綜合準(zhǔn)確率最高,達(dá)92.19%。對(duì)比所有模型,SNV-SVM模型的綜合準(zhǔn)確率最高。因此,在后續(xù)研究中采用SNV 預(yù)處理的光譜數(shù)據(jù)建立鮮煙葉田間成熟度判別的SVM模型。
表2 基于不同預(yù)處理方法的SVM和BPNN模型結(jié)果Tab.2 Results of SVM and BPNN models based on different pretreatment methods
由圖4可知,經(jīng)過(guò)10次遺傳迭代后,各代平均適應(yīng)度曲線在0.95附近波動(dòng),各代平均適應(yīng)度與各代最佳適應(yīng)度的曲線波動(dòng)較小,幾乎重疊。最終從45個(gè)波段區(qū)間中優(yōu)選出19個(gè)區(qū)間,將這19個(gè)區(qū)間作為建模輸入變量。由圖5可知,經(jīng)GA優(yōu)選后的特征變量區(qū)間大多分布在可見光范圍內(nèi),且大多分布在400 ~ 550 nm 與630 ~ 700 nm 這兩個(gè)波段內(nèi),在780 ~ 1000 nm的近紅外波段內(nèi)只有少量分布,且分布較為零散。
圖4 GA變量尋優(yōu)過(guò)程圖Fig.4 Optimization process of GA variable
圖5 GA優(yōu)選的波段區(qū)間分布圖Fig.5 Map of band interval distribution optimized by GA
訓(xùn)練集樣本的原始光譜數(shù)據(jù)經(jīng)SNV 預(yù)處理后,選取GA 優(yōu)選出的19 個(gè)特征波段區(qū)間作為輸入變量,并對(duì)輸入變量數(shù)據(jù)進(jìn)行歸一化處理,以樣本類別為模型輸出,采用徑向基(RBF)函數(shù)作為模型核函數(shù)。使用帶有交互驗(yàn)證的網(wǎng)格搜索法對(duì)SVM 的懲罰參數(shù)c和徑向基核函數(shù)參數(shù)g進(jìn)行優(yōu)化,得到參數(shù)c的最佳值為2.83,參數(shù)g的最佳值為1,并基于最佳值建立SNV-GA-SVM 模型。使用80 個(gè)預(yù)測(cè)集樣本對(duì)模型進(jìn)行測(cè)試,由圖6可知,該模型預(yù)測(cè)準(zhǔn)確率達(dá)95%,且對(duì)過(guò)熟樣本的預(yù)測(cè)效果最佳。
圖6 測(cè)試集的實(shí)際分類與預(yù)測(cè)分類圖Fig.6 Actual classification and predicted classification of test set
為進(jìn)一步對(duì)模型進(jìn)行全面、直觀的評(píng)價(jià),根據(jù)預(yù)測(cè)結(jié)果繪制混淆矩陣。由圖7 可知,預(yù)測(cè)集20 個(gè)生青樣本中有2 個(gè)被錯(cuò)誤預(yù)測(cè)為尚熟;20 個(gè)尚熟樣本中有1個(gè)被錯(cuò)誤預(yù)測(cè)為生青;20個(gè)適熟樣本中有1個(gè)被錯(cuò)誤預(yù)測(cè)為尚熟;20個(gè)過(guò)熟樣本全部預(yù)測(cè)正確。
圖7 測(cè)試集的實(shí)際分類與預(yù)測(cè)分類混淆矩陣圖Fig.7 Confusion matrix diagram of actual classification and predicted classification of test set
根據(jù)混淆矩陣計(jì)算模型精確率、召回率和F1分?jǐn)?shù)。由表3可知,雖然模型平均精確率達(dá)95.28%,但對(duì)尚熟樣本的識(shí)別精確率僅86.36%,而其他樣本的識(shí)別率都達(dá)90%以上,說(shuō)明模型對(duì)不同成熟度檔次樣本的識(shí)別能力存在差異。從4種樣本的綜合F1分?jǐn)?shù)來(lái)看,模型對(duì)生青和尚熟樣本的分類能力較弱,只有0.92和0.90,對(duì)過(guò)熟樣本的分類能力最強(qiáng),達(dá)1.00,其次是適熟樣本,達(dá)0.97。整體來(lái)看,該模型能夠?qū)熑~田間成熟度檔次進(jìn)行快速判別。
表3 SNV-GA-SVM模型評(píng)價(jià)指標(biāo)分析Tab.3 Evaluation indexes of SNV-GA-SVM model
本研究中,煙葉高光譜反射曲線在550 nm處有波峰、675 nm 處有波谷,與余志虹等[20]研究結(jié)果一致,這可能是因?yàn)?50 nm附近是葉綠素對(duì)光的強(qiáng)反射區(qū)域,675 nm 處是葉綠素對(duì)光的強(qiáng)吸收波段,在700 ~ 750 nm 處煙葉光譜反射率急劇上升,這些都是典型的綠色植物光譜特性。不同成熟度檔次煙葉光譜反射率在550 ~ 675 nm 間差異明顯,煙葉光譜反射率隨田間成熟度的增加而升高,這與戴培剛等[21]的研究結(jié)果吻合。本研究中通過(guò)GA 優(yōu)選出的特征變量區(qū)間主要分布在400 ~ 550 nm和630 ~ 700 nm波段,這兩個(gè)波段均是煙葉中質(zhì)體色素的光譜特征吸收峰[22]??梢娕c煙葉質(zhì)體色素密切相關(guān)的光譜波段更能反映煙葉田間成熟特征,色素是造成煙葉高光譜反射率差異的重要因素。在人眼可見光波長(zhǎng)范圍外的780 ~1000 nm中也選出了特征變量區(qū)間,說(shuō)明借助高光譜技術(shù)可獲取人眼無(wú)法識(shí)別的特征信息,還說(shuō)明除質(zhì)體色素外煙葉中其他物質(zhì)也與田間成熟密切相關(guān),這些物質(zhì)本身及其光譜特性可反映煙葉田間成熟度,但其具體成分有待進(jìn)一步探索。
本研究中基于高光譜信息建立的判別模型對(duì)過(guò)熟和適熟煙葉的識(shí)別能力較強(qiáng),F(xiàn)1 分?jǐn)?shù)分別達(dá)到了1和0.97,但對(duì)生青和尚熟煙葉的識(shí)別能力稍低。這可能是因?yàn)闊熑~由生青到過(guò)熟是一個(gè)連續(xù)漸變的生理生化過(guò)程,生青到尚熟階段為煙葉的衰老初期,煙葉生理狀態(tài)和化學(xué)成分變化都較緩慢,樣本的成熟狀態(tài)較接近,因而加大了識(shí)別難度。煙葉由適熟到過(guò)熟處于成熟進(jìn)程的中后期,葉內(nèi)成分及其光譜特征的變化較前期更明顯,導(dǎo)致模型對(duì)不同成熟度檔次樣本的識(shí)別能力有差異。
因所用高光譜掃描設(shè)備不便在田間安裝、移動(dòng)和操作,本研究中煙葉的光譜數(shù)據(jù)皆在室內(nèi)采集,降低了環(huán)境因素的影響,有利于提高模型的識(shí)別正確率,但也降低了模型使用的環(huán)境現(xiàn)實(shí)性,為接近生產(chǎn)實(shí)際還需在不同天氣條件下采集煙葉田間原位高光譜信息。另外,研究中涉及的烤煙產(chǎn)地和品種單一,還需要在后繼研究中采集更多產(chǎn)區(qū)和品種的樣品進(jìn)一步驗(yàn)證模型的普適性和實(shí)用性。
基于不同成熟檔次鮮煙葉的高光譜信息,采用機(jī)器學(xué)習(xí)方法建立了鮮煙葉成熟度的判別模型。結(jié)果表明,高光譜信息可敏銳、準(zhǔn)確地反映煙葉田間成熟度的特征性差異,在550 ~ 675 nm波段內(nèi)最突出,光譜反射率隨煙葉田間成熟度的增加而增大。利用GA 可從全波段信息中優(yōu)選出與煙葉田間成熟度相關(guān)的特征變量信息。采取SNV-GA-SVM 途徑建立的煙葉田間成熟度判別模型性能優(yōu)良,模型識(shí)別準(zhǔn)確率達(dá)95%,且對(duì)適熟和過(guò)熟樣本的識(shí)別能力最突出,對(duì)尚熟煙葉的正確識(shí)別率稍低,但也高于86%。