王明,張倩*
北京市農(nóng)林科學(xué)院農(nóng)業(yè)信息與經(jīng)濟研究所(北京 100097)
玉米是我國第一大糧食作物,兼用經(jīng)濟作物和飼料作物,其種植面積和產(chǎn)量在各個主要糧食作物中居于首位,玉米種植效益較其他糧食作物中相對較高,是多個省市的農(nóng)作物種植農(nóng)戶的主要收入來源,因此玉米在我國糧食及飼料供應(yīng)中具有重要地位。提高玉米種植自動化程度,對進一步減少生產(chǎn)成本、提高產(chǎn)量、促進經(jīng)濟效益具有重大意義。
在玉米生產(chǎn)、儲藏、流通、育種等過程中,準(zhǔn)確檢測玉米各項指標(biāo)是保證各環(huán)節(jié)質(zhì)量的關(guān)鍵步驟。目前在生產(chǎn)現(xiàn)場,玉米檢測還是以化學(xué)分析方法為主,雖然檢測精度較高,但也存在著明顯的弊端,如會破壞玉米活性,檢測樣本不能回收利用,化學(xué)試劑會造成環(huán)境污染,并且試劑與玉米樣品需要充分的反應(yīng)時間,耗時耗力。近紅外光譜分析法因其快速、準(zhǔn)確、高效、綠色等[1-5]優(yōu)點在糧食[6-9]、肉制品[10]、乳制品[11]、醫(yī)藥[12-14]等無損檢測中開展了廣泛的應(yīng)用,受到了廣大學(xué)者的青睞。在玉米品質(zhì)檢測中,國外起步較早,從90世紀(jì)60年代Norris等[15]就利用近紅外技術(shù)測定谷物中的水分、蛋白質(zhì)等物質(zhì)含量。近年來,我國在玉米雜交純度檢測[16]、單倍體鑒別[17-18]、品種鑒定[19-21]、水分[22-23]、蛋白質(zhì)[24]、淀粉[25-26]和脂肪[27-28]檢測中已經(jīng)開展了廣泛的應(yīng)用,并且取得了較大的進展[29-33]。
近紅外光譜體現(xiàn)的是含氫基團倍頻和合頻的吸收[34-35],記錄了豐富的結(jié)構(gòu)、組成、屬性等信息,因此理論上能檢測出大多數(shù)成分含量。高分辨率的光譜儀能獲取更多的光譜數(shù)據(jù),大大提高了校正模型穩(wěn)定性和預(yù)測精度[36],同時,近紅外吸收波段重疊嚴重,存在數(shù)據(jù)冗余現(xiàn)象,對數(shù)據(jù)處理能力要求較高,如何分辨有效波段、剔除干擾信息、選擇校正算法直接影響檢測結(jié)果[37]。
近紅外光(NIR,波長介于780~2 526 nm)分為短波近紅外(波長780~1 100 nm)與長波近紅外(波長1 100~2 526 nm),短波近紅外因其透射能力較強常用于液態(tài)農(nóng)產(chǎn)品的品質(zhì)檢測,長波近紅外則常用于反射分析,多用于固體樣品的測量。近紅外光譜信息記錄的是含氫基團X—H(C—H、O—H、N—H等)的吸收特性,涵蓋了大量的結(jié)構(gòu)和組成信息,因此含有這些基團的成分可通過化學(xué)計量方法建立關(guān)系模型,用于樣本的定性或定量分析[38]。
在光譜分析過程中,一般步驟分為樣品收集、光譜數(shù)據(jù)預(yù)處理、波段及特征值選擇、建立校正模型及模型評價[39-41],主要分析步驟如圖1所示。
圖1 近紅外光譜技術(shù)分析步驟
1) 收集玉米樣品,盡可能多地覆蓋多個品種,使成分含量范圍廣,濃度分布均勻,保證樣品具有較好的代表性,提高校正模型的穩(wěn)健性,并用化學(xué)方法測定其含量作為參考值,用近紅外光譜儀采集每個樣品的近紅外光譜,按照3∶1比例劃分為校正集和預(yù)測集。
2) 光譜數(shù)據(jù)預(yù)處理,基線漂移、高頻噪聲、散射現(xiàn)象等會降低信噪比,影響預(yù)測精度,因此需要減小各干擾因素對光譜信息提取的影響,減弱甚至消除各種非目標(biāo)因素對光譜信息的影響。常用預(yù)處理方法包括高頻噪聲濾除、代數(shù)運算、多元散射校正(MSC)、基線校正、微分等。
3) 選擇波段及特征值,近紅外光譜圖會出現(xiàn)吸收不明顯、重疊嚴重等問題,包含了冗余信息,因此建模時需要剔除不相關(guān)信息,篩選出相關(guān)性高的自變量[42]。常用方法有逐步回歸、遺傳算法(GA)、無信息變量消除(UVE)、蒙特卡羅(MCS)算法等。
4) 建立校正模型,采用線性和非線性方式建立樣品近紅外光譜與待測指標(biāo)的校正模型,用來進行定性或者定量分析。其中常用線性建模方法包括主成分回歸、偏最小二乘回歸和多元線性回歸;常見非線性回歸校正模型如區(qū)域權(quán)重回歸和人工神經(jīng)網(wǎng)絡(luò)(ANN)。
5) 模型評價,最后對建立的模型的穩(wěn)定性和準(zhǔn)確性進行評價,篩選優(yōu)質(zhì)校正模型。常用的指標(biāo)有相關(guān)系數(shù)、校正集樣品標(biāo)準(zhǔn)偏差、預(yù)測集樣品標(biāo)準(zhǔn)偏差。
玉米種子好壞直接影響到糧食產(chǎn)量,提高雜交種玉米純度能極大地促進糧食生產(chǎn),帶來更大的經(jīng)濟效益,目前玉米純度鑒定采用人工鑒定、分子標(biāo)定等方法,相比于近紅外光譜分析手段,它們成本高昂,且需要專業(yè)的技術(shù)人員來操作。
趙盛毅等[43]選取農(nóng)華101和對應(yīng)的母本作為試驗樣品,采用MicroNIR 1700光譜儀和Matlab 2012a數(shù)據(jù)處理軟件軟件,研究近紅外光源電壓強度以及距離對雜交純度預(yù)測精度的影響,采用導(dǎo)數(shù)和歸一化進行數(shù)據(jù)預(yù)處理,用PCA及OLDA算法篩選建模波段,最后用支持向量機建立純度預(yù)測模型,統(tǒng)計6組不同條件下的識別率,試驗結(jié)果表明電壓增大或者光源與樣品距離縮小都會提高光譜分辨率,從而提高預(yù)測模型精度。
唐金亞等[44]進行了基于近紅外技術(shù)的玉米種子純度檢測研究,選取了2個不同年份和不同品種一共640粒種子作為研究對象,試驗過程中采用主動學(xué)習(xí)算法選擇建模樣本,并與基于隨機選擇算法和Kennard- Stone算法模型結(jié)果進行比較,結(jié)果表明在3種不同樣本集劃分比例下利用主動學(xué)習(xí)算法整體預(yù)測精度能提高40%以上,并且也提高了對舊樣本預(yù)測精度的可靠性,模型更新效果明顯優(yōu)于RS和KS。
冉航等[45]研究利用近紅外光譜分析玉米雜交純度,提取玉米樣品近紅外透射光譜和反射光譜信息,采用中值濾波、大津法過濾噪聲,篩選特征數(shù)據(jù)并使用降維算法進一步篩選特征信號,最后使用支持向量機建立基于兩種光譜的純度預(yù)測模型,結(jié)果顯示平均鑒別準(zhǔn)確率都達到85%以上,表明近紅外光譜技術(shù)在鑒定玉米純度上是可行的。
單倍體育種技術(shù)能有效縮短產(chǎn)生純合系的周期,顯著提高育種率,因其快速、方便、準(zhǔn)確的特點受到了專家學(xué)者的重視,由于自然產(chǎn)生率不高,一般低于0.1%,并且使用人工誘導(dǎo)技術(shù)也不會超過10%,因此快速、準(zhǔn)確識別單倍體對提高育種技術(shù)顯得非常關(guān)鍵,近紅外在單倍體鑒別中也開展了一定的研究。
Qin等[46]研究了適合單倍體玉米粒鑒定的光譜測量模式,采用了漫反射和漫透射分別采集單倍體和二倍體玉米籽粒的近紅外光譜,并建立校驗?zāi)P?,比較兩種方式下的準(zhǔn)確度,在漫反射模式下識別率小于60%,而采用漫透射則平均識別率可達到93.2%,并且預(yù)測穩(wěn)定性較好,說明在漫反射方式下光譜與樣品接觸更加充分,更能代表樣品內(nèi)部結(jié)構(gòu)信息。
李浩光等[47]提出了采用近紅外技術(shù)對玉米籽粒油進行單倍體和多倍體的定性分類,即采用近紅外技術(shù)間接地對玉米籽粒進行單倍體鑒定,結(jié)果表明在準(zhǔn)確度方面近紅外分析與核磁共振分析方法相當(dāng),在訓(xùn)練集相同時,近紅外分析方法相比其他定性鑒別方法準(zhǔn)確度較高,為近紅外對玉米籽粒單倍體的鑒定提供了新的解決思路。
李偉等[48]采集三組遺傳背景不同的玉米籽粒單倍體與二倍體樣品光譜,用多種機器學(xué)習(xí)算法建立校正模型,對比建模方式、樣品選取對結(jié)構(gòu)的影響,結(jié)果表明采用偏最小二乘和神經(jīng)網(wǎng)絡(luò)預(yù)測鑒別單倍體準(zhǔn)確率較高,為93.26%和95.42%,大數(shù)據(jù)集建模能提高模型預(yù)測精度,并且根據(jù)籽粒顏色標(biāo)記挑選出的單倍體和二倍體,基于偏最小二乘構(gòu)建的機器學(xué)習(xí)模型預(yù)測精度可達到93.39%,說明基于機器學(xué)習(xí)的NIR單倍體鑒定效果較好,為自動化、智能化鑒別提供了很好的基礎(chǔ)研究。
目前玉米品種鑒定還是以形態(tài)學(xué)分析、DNA圖譜分析為主[49-50],但是都存在成本高昂、技術(shù)要求較高的弊端,近紅外因其獨特的技術(shù)優(yōu)勢在玉米品種鑒定中也展開了一系列的探索。
賈仕強等[51]研究了近紅外反射和透射方式對玉米品種識別率的影響,從而判斷玉米籽真實性,采用判別式偏最小二乘提取光譜特征并降低維數(shù),選取9個因子建立仿生模式識別模型,結(jié)果表明樣品放置位置以及采用建模波段的選取都對預(yù)測結(jié)果影響較大,最優(yōu)預(yù)測模型對品種玉米籽平均識別率達到94.6%以上,為玉米籽品種鑒定提供了很好的思路。
李浩光等[52]針對玉米種衣劑對品種識別率的影響問題,研究了基于棧式自編碼神經(jīng)網(wǎng)絡(luò)(SAE)的NIR模型分析方法,選用無種衣劑的玉米籽作為建模訓(xùn)練集,建立的模型用來預(yù)測有種劑樣品,試驗結(jié)果表明采用SAE建模能有效識別玉米籽,能將其對準(zhǔn)確率的影響控制在3%以內(nèi),說明基于機器學(xué)習(xí)算法較傳統(tǒng)近紅外建模算法有較大優(yōu)勢,提供了新的解決思路。
玉米主要成分包括水、蛋白質(zhì)、淀粉和脂肪等,含量高低直接影響產(chǎn)品價格及市場定位,其中玉米粒水分含量對貯藏和育種非常關(guān)鍵,需要考慮水分過多引起發(fā)霉和水分過少影響種子活力的問題,玉米粒水分往往控制在13%以下,快速檢測玉米粒水分含量是把控玉米種子質(zhì)量好壞的重要環(huán)節(jié)。因此能快速、準(zhǔn)確檢測各成分含量對了解玉米品質(zhì)十分重要。
李晉華等[53]利用短波段近紅外漫透射原理設(shè)計了短波近紅外品質(zhì)檢測儀,獲取了38組玉米樣品光譜,用多元散射校正進行光譜預(yù)處理,并采用偏最小二乘對其主要成分水、蛋白質(zhì)、淀粉和脂肪建立定量分析模型,預(yù)測結(jié)果的相關(guān)系數(shù)分別為0.922 4,0.942 8,0.912 8和0.995 6,總體誤差在±0.5%以內(nèi),預(yù)測精度較好。
姚鑫淼等[54]收集了多個省份一共368份玉米樣品,通過短波近紅外建立了基于黃色和混合樣品的神經(jīng)網(wǎng)絡(luò)預(yù)測模型,預(yù)測平均殘差為0.15,0.05和1.04,均方誤差分別為1.06,1.07和1.12,說明玉米粒外觀顏色對預(yù)測模型的預(yù)測精度影響較大。
田喜等[55]通過波段比和閾值相互結(jié)合,提取了經(jīng)過處理的300粒鄭單958玉米樣本的長波段光譜,用化學(xué)方法標(biāo)定樣本水分含量,研究了水分含量與胚區(qū)域光譜關(guān)系,采用多種算法篩選出吸收波段,并建立偏最小二乘預(yù)測模型,試驗表明光譜吸收與水分含量呈現(xiàn)正相關(guān),基于胚結(jié)構(gòu)的光譜建立的CARS、GA及SPA波段篩選的偏最小二乘模型預(yù)測相關(guān)系數(shù)Rp為0.931 2,0.917 6和0.922 7,對應(yīng)的RMSEP分別為0.315 3,0.336 9和0.336 6,在減少了49,12和24個特征波段的前提下,精度與全外表面光譜信息建模結(jié)果無明顯差別,說明掃描玉米胚結(jié)構(gòu)的近紅外光譜對檢測水分含量效率更高。
沈廣輝等[56]搜集全國各省份171個玉米籽粒作為研究對象,以自行研制的近紅外光譜掃描儀為基礎(chǔ),獲取玉米樣品的近紅外光譜圖,采用CARS篩選出特征變量,采用偏最小二乘建立玉米籽粒中水分、蛋白質(zhì)、粗灰分和脂肪的校正模型,預(yù)測集相關(guān)系數(shù)分別為0.76,0.89,0.72和0.83,相對分析誤差對應(yīng)為2.41,3.04,1.80和2.42,為近紅外光譜快速分析玉米粒成分含量提供了可行性。
常冬等[57]選取了來自多個省份的116個玉米品種作為研究對象,選用MPA型多功能近紅外光譜儀獲取樣品光譜,分別對不做處理和粉碎0.5 mm兩種狀態(tài)下的玉米樣品建立了淀粉預(yù)測的近紅外預(yù)測模型,并將兩種結(jié)果進行了對比,得出粉碎前后的相關(guān)系數(shù)分別為0.983和0.988,說明粉碎后樣品與近紅外反應(yīng)更充分,吸收特性更好,預(yù)測精度也會有一定程度的提升。
吳晗等[58]采集了210份玉米樣本的近紅外光譜,采用不同的散射方式對光譜進行預(yù)處理,并且用不同的回歸分析算法建立玉米直鏈淀粉的預(yù)測模型,對比結(jié)果表明采用SNV和Dtrend的散射處理,改進的偏最小二乘回歸算法建模準(zhǔn)確度最高,其交叉驗證誤差是1.465,定標(biāo)決定系數(shù)是0.963,建立的定標(biāo)模型有較好的預(yù)測能力。
楊泉女等[59]利用近紅外光譜技術(shù)對104份甜玉米進行了葡萄糖、果糖、蔗糖含量的測定,分別對不同的測量目標(biāo)采用了不同的預(yù)處理方式,統(tǒng)一采用偏最小二乘法建立校正模型,得出最優(yōu)校正模型的交叉驗證標(biāo)準(zhǔn)差分別為0.321,0.275和1.508,外部驗證預(yù)測相關(guān)系數(shù)分別為0.593,0.780和0.891,其中果糖、蔗糖預(yù)測效果較好,為甜玉米品種選育提供了可行性方案。
從以上國內(nèi)外研究可以看出,近紅外技術(shù)在玉米種子純度檢測、育種、品種識別、成分分析等中取得了較大的進展,但是也存在著一些共性問題:
1) 檢測環(huán)境(外界溫度、濕度、光譜儀零部件、種類等)的不同導(dǎo)致采集到的光譜存在一定的差異,直接影響校正模型精度,并且光譜數(shù)據(jù)兼容性不好,不能互相移植。
2) 樣品的選取影響校正模型的可靠性和適應(yīng)性,樣本選取代表性不強,濃度范圍覆蓋不夠?qū)?,并且樣品的顏色、狀態(tài)差異導(dǎo)致獲取到的近紅外光譜差異較大,導(dǎo)致模型的適應(yīng)性不好。
3) 不同的預(yù)處理方式對模型預(yù)測結(jié)果影響比較大,目前還未找到統(tǒng)一或者標(biāo)準(zhǔn)的預(yù)處理方式,在數(shù)據(jù)處理中往往需要針對不同的組分進行預(yù)處理。
4) 隨著光譜儀技術(shù)的不斷發(fā)展,獲取到的近紅外光譜分辨率也會隨之提高,但同時也會加載大量冗余信息,計算壓力增大,如何提取有用的特征波段和特征值、剔除無關(guān)信息也是亟待解決的問題。
5) 針對玉米檢測建立的校正模型的穩(wěn)健性、傳遞性[60]仍然需要進一步提升,不同的儀器沒有行業(yè)統(tǒng)一規(guī)范,預(yù)測不同的品種時效果較差,需要針對特定的預(yù)測品種單獨建模,阻礙了近紅外光譜儀規(guī)?;?、產(chǎn)業(yè)化發(fā)展。
鑒于近紅外光譜技術(shù)在玉米檢測中的發(fā)展現(xiàn)狀和出現(xiàn)的各種問題,提出了以下幾個方面的展望,以期近紅外光譜技術(shù)能真正地走向生產(chǎn)現(xiàn)場。
光譜儀生產(chǎn)行業(yè)需要統(tǒng)一規(guī)范,制定通用標(biāo)準(zhǔn),從硬件和軟件上打通跨儀器的障礙,提供開發(fā)的數(shù)據(jù)接口,以增加模型的傳遞性;需要建立不同地區(qū)、不同品種的玉米近紅外光譜數(shù)據(jù)庫,擴大建模樣品覆蓋面,包括不同種植年份、品種、種植地區(qū)等,提高玉米的預(yù)測范圍和準(zhǔn)確度;與人工智能技術(shù)相結(jié)合,通過深度機器學(xué)習(xí)優(yōu)選波段及特征值,自動過濾掉無關(guān)信息,不需要人工進行篩選,建立最優(yōu)模型,以提高玉米品質(zhì)檢測模型的穩(wěn)健性、連續(xù)性。