田容才 周 昆 高志強(qiáng) 盧俊瑋
(湖南農(nóng)業(yè)大學(xué)農(nóng)學(xué)院1,長(zhǎng)沙 410128) (湖南省農(nóng)業(yè)科學(xué)院水稻研究所2,長(zhǎng)沙 410125)
水稻是我國(guó)重要的糧食作物之一,秈稻在長(zhǎng)江中下游稻區(qū)種植面積占比達(dá)97.6%[1],具有重要的地位。隨著人們生活水平的不斷提高,對(duì)稻米品質(zhì)提出了更高的要求。稻米的主要營(yíng)養(yǎng)成分是蛋白質(zhì),蛋白質(zhì)含量決定了大米的食味品質(zhì)和營(yíng)養(yǎng)品質(zhì)[2],蛋白質(zhì)含量是評(píng)價(jià)大米品質(zhì)的重要指標(biāo)之一。傳統(tǒng)的稻米蛋白質(zhì)檢測(cè)方法雖準(zhǔn)確可靠,但存在有損、耗時(shí)、專業(yè)性強(qiáng)等弊端,因此探尋快速無(wú)損高通量的測(cè)定方法具有重要意義。
為建立秈稻粗蛋白含量光譜快速無(wú)損檢測(cè)的普適性模型,本研究利用2019年長(zhǎng)江中下游秈稻聯(lián)合區(qū)試實(shí)驗(yàn),測(cè)定了36個(gè)不同氣候生態(tài)型秈稻品種籽粒反射光譜及糙米粗蛋白含量數(shù)據(jù),分析兩者的相關(guān)關(guān)系,建立了基于最優(yōu)光譜指數(shù)、全波長(zhǎng)及特征波長(zhǎng)的秈稻糙米粗蛋白含量估測(cè)模型,并用R2、RMSE對(duì)模型精度進(jìn)行評(píng)價(jià),以期找到用于秈稻粗蛋白估測(cè)的特征參數(shù)和最適模型。
早秈稻和晚秈稻實(shí)驗(yàn)布設(shè)于湖南省水稻研究所實(shí)驗(yàn)田(28°12′N,113°5′E,海拔44.9 m),中秈稻實(shí)驗(yàn)于湖南省長(zhǎng)沙縣路口鎮(zhèn)明月村基地(28°24′N,113°13′E,海拔45 m)進(jìn)行。早秈稻供試材料為2019年長(zhǎng)江中下游早秈中早熟組,共11個(gè),分別為中早75、中佳早27、中兩優(yōu)286、陵兩優(yōu)230、中早67、中早72、中早73、株兩優(yōu)213、株兩優(yōu)229、金早香1號(hào)和中早35,中秈稻供試材料為2019年長(zhǎng)江中下游國(guó)稻科企聯(lián)合體中秈遲熟組,共11個(gè),分別為荃優(yōu)潔田一號(hào)、C兩優(yōu)金4號(hào)、瑋兩優(yōu)534 、豐兩優(yōu)四號(hào)、呈兩優(yōu)九華占、中香優(yōu)美香新占、551兩優(yōu)570、珍兩優(yōu)2056、晶兩優(yōu)美香油占1號(hào)、民升優(yōu)827和隆兩優(yōu)金2號(hào),晚秈稻供試材料為2019年湖南省水稻研究所晚秈中熟組,共14個(gè),分別為五優(yōu)308、五豐A/19制4、33S/恢1、五豐A/制5、33S/H2437、33S/恢3、五豐A/制2、特S/H2292、F-3A/18P9、33S/恢2、五豐A/19制1、桃1a/wp54、五豐A/制3、泰豐A/18W731。隨機(jī)區(qū)組布置實(shí)驗(yàn),小區(qū)面積13.34 m2,行距20 cm、株距20 cm,3次重復(fù)。育苗移栽方式種植,早秈稻2019年3月25日播種,7月23日收獲,中秈稻5月16日播種,9月17日收獲,晚秈稻6月23日播種,10月29日收獲。田間管理按照國(guó)稻科企聯(lián)合區(qū)試要求進(jìn)行。
1.2.1 稻谷光譜數(shù)據(jù)采集
水稻成熟收獲時(shí),每小區(qū)隨機(jī)選取長(zhǎng)勢(shì)較一致的3兜水稻植株,剪取其稻穗,按小區(qū)編號(hào)用尼龍編織袋裝好,帶回實(shí)驗(yàn)室自然陰干,2個(gè)月后,人工脫粒,利用室內(nèi)暗室平臺(tái)采集稻谷光譜數(shù)據(jù)。采用FieldSpec 3 便攜式地物波譜儀(ASD,美國(guó))測(cè)定,儀器波長(zhǎng)范圍350~2 500 nm,光譜采樣間隔1.377 nm@350~1 050 nm、2 nm@1 000~2 500 nm,光譜分辨率3 nm@700 nm、10 nm@1 400 nm。將脫粒后的每個(gè)小區(qū)制成1個(gè)樣本,用直徑8 cm,高1.5 cm的玻璃器皿盛裝。測(cè)定時(shí)LAMP Pro 50 W的鹵素?zé)魹槲ㄒ还庠?,光源與樣本垂直高度16 cm,光纖探頭距樣本7 cm,與水平成60°,探頭視場(chǎng)角25°,每樣本重復(fù)測(cè)量10次,在ViewSpec Pro 6.0軟件中進(jìn)行平均值計(jì)算,將所得平均光譜作為該小區(qū)稻谷反射光譜數(shù)據(jù)。首次使用需熱機(jī)15 min,并進(jìn)行優(yōu)化與白板定標(biāo),每個(gè)樣品測(cè)定前均使用標(biāo)準(zhǔn)白板重新標(biāo)定。實(shí)驗(yàn)共采集了1080條反射光譜曲線。
1.2.2 糙米粗蛋白含量測(cè)定
將測(cè)完光譜數(shù)據(jù)的稻谷樣品,用新豐JLGJ4.5型檢驗(yàn)礱谷機(jī)去殼得糙米,F(xiàn)W-100高速萬(wàn)能粉碎機(jī)將糙米磨細(xì)成粉,糙米粉過60目篩后用感量為0.000 1 g分析天平秤取充分混勻的固體試樣2 g,最后將制備的硝化管用FOSS KjeltecTM 8400全自動(dòng)凱氏定氮儀測(cè)定糙米粗蛋白含量。粗蛋白測(cè)定結(jié)果為濕基。具體方法參照GB 5009.5—2016。
1.3.1 光譜指數(shù)選擇
根據(jù)水稻光譜特征及其前人的研究成果[21],選取3個(gè)常用的光譜指數(shù)用于秈稻糙米粗蛋白含量的估算,具體計(jì)算公式見表1。
表1 光譜指數(shù)的計(jì)算公式
1.3.2 特征波長(zhǎng)選擇
本文對(duì)原始光譜反射率進(jìn)行一階微分變換后,首先根據(jù)秈稻稻谷原始及一階微分光譜峰谷特征對(duì)應(yīng)的波長(zhǎng)作為敏感波長(zhǎng),再通過原始及一階微分光譜與糙米粗蛋白含量的相關(guān)性分析相結(jié)合,將與粗蛋白含量達(dá)顯著或極顯著相關(guān)的敏感波長(zhǎng)篩選為特征波長(zhǎng),用于估測(cè)模型的構(gòu)建。
1.3.3 模型構(gòu)建及評(píng)價(jià)
首先利用ViewSpec Pro 6.0軟件對(duì)測(cè)得的1080條原始光譜反射率數(shù)據(jù)進(jìn)行平均及一階微分計(jì)算并導(dǎo)出,然后在Excel 2016中進(jìn)行相關(guān)性分析,根據(jù)稻谷峰谷特征及β-coefficient達(dá)顯著或極顯著的方式篩選特征波長(zhǎng),任意兩波長(zhǎng)組合構(gòu)建的DSI、NDSI、RSI指數(shù)采用R語(yǔ)言編程并繪圖,最后利用The Unscrambler X 10.4軟件建立基于最優(yōu)光譜指數(shù)、全波長(zhǎng)及特征波長(zhǎng)的PLSR、PCR、SMLR模型,并用Origin Pro 9.1軟件進(jìn)行繪圖。采用決定系數(shù)(R2)和均方根誤差(RMSE)對(duì)模型精度進(jìn)行驗(yàn)證與評(píng)價(jià)。R2越大,RMSE越小,建模集和驗(yàn)證集越接近,說(shuō)明模型精度及穩(wěn)健性越好。RMSE計(jì)算公式如下:
對(duì)凱氏定氮法測(cè)得的不同氣候生態(tài)型秈稻糙米粗蛋白含量化學(xué)值進(jìn)行統(tǒng)計(jì)分析,為體現(xiàn)模型的普適性,按照部分品種建模,剩余品種驗(yàn)證的方式劃分建模集與驗(yàn)證集。首先對(duì)粗蛋白含量化學(xué)值進(jìn)行升序排序,再按照隔二選一的方式劃分,所得結(jié)果見表2。由表2可知,不同氣候生態(tài)型秈稻糙米粗蛋白含量表現(xiàn)為早秈稻>晚秈稻>中秈稻,其粗蛋白含量均值分別為 (9.62±0.53)、 (7.88±0.46)、 (6.73±0.62) g/100 g,說(shuō)明秈稻糙米粗蛋白含量在不同氣候生態(tài)型方面存在差異,數(shù)據(jù)具有一定的代表性。按照2:1的方式劃分建模集與驗(yàn)證集,包括72個(gè)建模樣本和36個(gè)驗(yàn)證樣本,其中建模集粗蛋白含量范圍在5.46~10.47 g/100 g,變異系數(shù)為15.86%,驗(yàn)證集粗蛋白含量范圍在6.03~10.37 g/100 g,變異系數(shù)為15.14%,驗(yàn)證樣本粗蛋白含量范圍包含在建模樣本中,且兩者變異系數(shù)較大,說(shuō)明建模集與驗(yàn)證集劃分合理,驗(yàn)證樣本可作為獨(dú)立數(shù)據(jù)對(duì)模型精度進(jìn)行外部檢驗(yàn)。
表2 籽粒粗蛋白含量統(tǒng)計(jì)特征
將早、中、晚秈稻籽粒原始及一階微分光譜反射率進(jìn)行平均計(jì)算,得到不同氣候生態(tài)型秈稻籽粒原始及一階微分光譜反射率曲線圖。由圖1可知,早、中、晚秈稻具有相同的反射特征,即“峰谷”位置相近,但反射強(qiáng)度在氣候生態(tài)型上存在差異,表現(xiàn)為中秈稻>晚秈稻>早秈稻,與粗蛋白含量相反,即反射率隨蛋白質(zhì)含量的升高而降低。這一規(guī)律與人們對(duì)秈稻的食味品質(zhì)評(píng)價(jià)契合,認(rèn)為秈稻蛋白質(zhì)含量與食味值呈極顯著負(fù)相關(guān)[22],因此能否利用蛋白質(zhì)含量不同的秈稻其籽粒光譜反射率存在差異的特征,實(shí)現(xiàn)秈稻食味品質(zhì)的快速無(wú)損評(píng)價(jià)有待進(jìn)一步驗(yàn)證。由圖1(A)可知,秈稻稻谷具有顯著的峰谷特征,共出現(xiàn)9個(gè)反射峰,分別在895、944、1 108、1 299、1 647、1 850、2 017、2 211和2 398 nm波長(zhǎng)附近,6個(gè)反射谷,分別在993、1 204、1 467、1 927、2 105和2 276 nm附近。一階求倒變換能增強(qiáng)原始數(shù)據(jù)的信噪比,顯示更多的信息,因此由圖1(B)可知,經(jīng)過一階微分變換后秈稻反射峰谷數(shù)量明顯增多,共出現(xiàn)16個(gè)反射峰,分別位于441、609、688、930、1 037、1 227、1 283、1 373、1 516、1 606、1 731、1 833、1 953、2 151、2 289和2 343 nm等波長(zhǎng)附近,14個(gè)反射谷,出現(xiàn)在517、665、907、971、1 148、1 267、1 344、1 402、1 573、1 895、2 050、2 250、2 313和1 458 nm等附近,將秈稻原始及一階微分光譜反射率峰谷位置用于秈稻特征波長(zhǎng)的篩選。
圖1 秈稻籽粒原始及一階微分光譜反射率曲線
按照糙米粗蛋白含量的差異繪制秈稻原始光譜反射率曲線如圖2。在470~1 390 nm波段范圍內(nèi),秈稻光譜反射率大致表現(xiàn)為隨粗蛋白含量升高而降低,但粗蛋白質(zhì)量分?jǐn)?shù)在9%~9.9%和10%~10.9%范圍內(nèi)的光譜曲線沒有出現(xiàn)該規(guī)律,可能是受數(shù)據(jù)量的影響,因?yàn)楣灿?個(gè)材料粗蛋白質(zhì)量分?jǐn)?shù)位于9%~9.9%,僅3個(gè)材料粗蛋白質(zhì)量分?jǐn)?shù)在10%~10.9%范圍內(nèi)。在1 390~2 500 nm范圍內(nèi),粗蛋白質(zhì)量分?jǐn)?shù)在6%~6.9%、7%~7.9%及8%~8.9%間的光譜差異不明顯,但粗蛋白質(zhì)量分?jǐn)?shù)為6%~8.9%和9%~10.9%存在顯著差異,因此470~2 500 nm波段可作為不同氣候生態(tài)型秈稻粗蛋白含量光譜估測(cè)的敏感區(qū)域。
圖2 不同粗蛋白含量秈稻籽粒原始光譜反射率
對(duì)不同氣候生態(tài)型秈稻籽粒原始及一階微分光譜反射率與其對(duì)應(yīng)的糙米粗蛋白含量進(jìn)行相關(guān)性分析,結(jié)果如圖3所示。秈稻籽粒原始光譜反射率在全波長(zhǎng)范圍內(nèi)與糙米粗蛋白含量呈極顯著負(fù)相關(guān),與顏士博[23]的研究結(jié)果相似。其中944 nm處達(dá)相關(guān)系數(shù)最大值,為0.873。一階微分光譜相關(guān)系數(shù)在全波段內(nèi)波動(dòng)較大,在419~681、696~875、867~929、936~996、1 019~1 045、1 048~1 205、1 208~1 252、1 288~1 462、1 467~1 637、1 680~1 725、1 737~1 779、1 851~1 926、1 936~2 040和2 224~2 266 nm等波段范圍內(nèi)呈極顯著相關(guān)關(guān)系,其中在672、721、906、951、1 153、1 224、1 313、1 494、1 751和1 887 nm等波長(zhǎng)附近相關(guān)系數(shù)均達(dá)0.8以上。
圖3 秈稻籽粒原始及一階微分光譜反射率與粗蛋白含量相關(guān)系數(shù)
2.4.1 基于光譜指數(shù)的粗蛋白含量估測(cè)模型
圖4 任意兩波長(zhǎng)構(gòu)建的原始及一階微分光譜指數(shù) 與糙米粗蛋白含量的決定系數(shù)
表3 最優(yōu)光譜指數(shù)建模結(jié)果
2.4.2 基于全波長(zhǎng)的粗蛋白含量估測(cè)模型
對(duì)比3種方法建模效果,發(fā)現(xiàn)總體表現(xiàn)為PLSR>SMLR>PCR,這可能是因?yàn)镻LSR模型能同時(shí)對(duì)光譜陣和濃度陣進(jìn)行分解,有利于提高模型精度[25],而PCR模型只分解光譜陣,沒有充分考慮光譜陣與濃度陣的關(guān)系[26],同時(shí)由于本文原始光譜在全波長(zhǎng)與籽粒粗蛋白呈顯著負(fù)相關(guān),一階微分光譜也在大部分波段范圍與粗蛋白含量呈顯著相關(guān)關(guān)系,因此SMLR模型效果略優(yōu)于PCR模型。綜合考慮建模集與驗(yàn)證集R2和RMSE,發(fā)現(xiàn)基于原始光譜反射率建立的PLSR模型對(duì)秈稻糙米粗蛋白含量估測(cè)效果最佳,說(shuō)明該模型在不同品種間具有較好的普適性及穩(wěn)定性。
表4 全波長(zhǎng)模型估測(cè)結(jié)果
2.4.3 基于特征波長(zhǎng)的粗蛋白含量估測(cè)模型
雖然全波長(zhǎng)估測(cè)模型精度較為理想,但是存在信息冗余、運(yùn)算效率低及設(shè)備成本高等弊端,在實(shí)際應(yīng)用中難以推廣,而在大量的光譜信息中,通過特征提取方法篩選出可用于目標(biāo)參數(shù)反演的少數(shù)特征波長(zhǎng),具有更大的實(shí)際意義。本文通過分析稻谷原始及一階微分光譜反射率的峰谷特征,再結(jié)合峰谷位置對(duì)應(yīng)的反射率與粗蛋白含量的相關(guān)關(guān)系,篩選出可用于不同氣候生態(tài)型秈稻糙米粗蛋白含量估測(cè)的特征波長(zhǎng)見表5。原始光譜中共提取了15個(gè)特征波長(zhǎng),占全波長(zhǎng)0.7%的信息量,且其與粗蛋白含量的相關(guān)系數(shù)均在0.6以上,其中944 nm處相關(guān)系數(shù)最高,達(dá)0.873。一階微分光譜中共篩選出19個(gè)特征波長(zhǎng),占全波長(zhǎng)0.88%的信息量,其中665 nm處與粗蛋白含量相關(guān)系數(shù)最大,為0.874。
表5 特征波長(zhǎng)
將表5篩選出來(lái)的原始及一階微分特征波長(zhǎng)作為自變量,糙米粗蛋白含量為因變量,建立基于特征波長(zhǎng)的PLSR、PCR和SMLR模型,各模型的效果如表6所示。由表可知,基于一階微分特征波長(zhǎng)建立的3種模型效果普遍優(yōu)于原始光譜特征波長(zhǎng)構(gòu)建模型,這可能是因?yàn)橐浑A微分變換能提高數(shù)據(jù)信噪比,顯示更多的信息,也可能是模型的輸入變量個(gè)數(shù)多于原始光譜特征波長(zhǎng)所致。在基于原始特征波長(zhǎng)建立的SMLR模型中,僅944 nm入選,建模R2為0.763,驗(yàn)證R2為0.853,而在一階微分特征波長(zhǎng)構(gòu)建的SMLR模型中,665、1148和1344 nm等3個(gè)波長(zhǎng)入選建模變量,建立的多元回歸模型建模集R2為0.815,驗(yàn)證集R2達(dá)0.912,由此可知,SMLR估測(cè)模型均表現(xiàn)為驗(yàn)證效果優(yōu)于建模效果,說(shuō)明模型具有較好的適應(yīng)性,但缺乏穩(wěn)健性。綜合看來(lái),在特征波長(zhǎng)估測(cè)模型中,以一階微分光譜反射率建立的PLSR模型效果最理想,用4個(gè)主成分?jǐn)?shù),達(dá)到建模R2為0.842,RMSE為0.506%,驗(yàn)證R2為0.823,RMSE為0.523%的效果。說(shuō)明PLSR模型在估測(cè)籽粒粗蛋白含量方面具有顯著優(yōu)勢(shì),與PLS模型是近紅外品質(zhì)分析儀的內(nèi)置模型[27]的研究結(jié)果相似,但建模方法影響估測(cè)精度,研究發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)[28-29]、深度學(xué)習(xí)[30]等機(jī)器學(xué)習(xí)方法能有效提高模型估測(cè)精度,下階段還將從估測(cè)算法做進(jìn)一步探究。
表6 特征波長(zhǎng)模型估測(cè)結(jié)果
本實(shí)驗(yàn)研究36個(gè)長(zhǎng)江中下游不同氣候生態(tài)型秈稻品種籽粒原始、一階微分光譜特征及其與粗蛋白含量的相關(guān)性分析,建立了基于最優(yōu)光譜指數(shù)、全波長(zhǎng)和特征波長(zhǎng)的糙米粗蛋白含量估測(cè)模型,得到如下結(jié)論:秈稻籽粒光譜反射率隨著粗蛋白含量的升高而降低,具體表現(xiàn)為中秈稻>晚秈稻>早秈稻;在基于最優(yōu)光譜指數(shù)、全波長(zhǎng)和特征波長(zhǎng)的估測(cè)模型中,PLSR模型效果最優(yōu),建模集和驗(yàn)證集R2均達(dá)0.8以上,能有效估計(jì)秈稻糙米粗蛋白含量,為秈稻品質(zhì)檢測(cè)提供了快速、無(wú)損、高通量的方法。