孔慶明,谷俊濤,2,高 睿,李澤東,馬 錚,蘇中濱*
(1.東北農(nóng)業(yè)大學(xué) 電氣與信息學(xué)院,黑龍江 哈爾濱 150030;2.黑龍江省網(wǎng)絡(luò)空間研究中心,黑龍江 哈爾濱 150090)
玉米種植占我國(guó)糧食種植面積的42%,2019年我國(guó)玉米產(chǎn)量達(dá)2.57億噸,與此同時(shí)也遺留下2.41億噸秸稈,如何有效利用玉米秸稈成為行業(yè)難題[1]。玉米秸稈約占整株玉米生物量的50%,目前多數(shù)國(guó)家將秸稈作為反芻動(dòng)物的重要粗飼料來源,秸稈資源飼料化成為現(xiàn)代農(nóng)業(yè)的重要發(fā)展方向[2]。但玉米秸稈的粗蛋白含量低,纖維含量高,適口性差,限制了其有效利用[3-4]。目前秸稈的氨、堿化處理結(jié)合超聲技術(shù)可有效打破纖維素與木質(zhì)素之間的連接,使玉米秸稈更易為微生物附著,從而加速秸稈消化過程[5],達(dá)到提高粗蛋白含量,改善適口性,增加采食量,提高消化率的最終目的。但在進(jìn)行最優(yōu)氨堿超聲條件判定過程中,秸稈中粗蛋白、纖維含量的測(cè)定基于化學(xué)檢驗(yàn),方法速度慢,成效性差,不適合大批量樣品的測(cè)定和篩選。目前針對(duì)秸稈成分的快速檢測(cè)方法較多,從非接觸式方法來看光譜技術(shù)成為首選,高光譜及近紅外檢測(cè)方法應(yīng)用較多[6-11]。本文結(jié)合近紅外光譜分析技術(shù)對(duì)氨、堿化玉米秸稈粗蛋白含量快速檢測(cè)方法開展研究,并對(duì)模型構(gòu)建過程中數(shù)據(jù)冗余問題進(jìn)行探究,采用組合間隔偏最小二乘(SIPLS)變量?jī)?yōu)選方法進(jìn)行特征波長(zhǎng)選擇。通過構(gòu)建快速檢測(cè)模型實(shí)現(xiàn)氨堿最優(yōu)條件的判定,解決秸稈低能量、多纖維、難消化的營(yíng)養(yǎng)特性問題,對(duì)充分發(fā)揮秸稈潛在營(yíng)養(yǎng)優(yōu)勢(shì)、解決人畜爭(zhēng)糧問題、推動(dòng)低碳農(nóng)業(yè)發(fā)展具有重要意義。
1.1.1 樣品采集選取東北農(nóng)業(yè)大學(xué)高標(biāo)準(zhǔn)試驗(yàn)田的優(yōu)質(zhì)玉米秸稈(先玉335,中單909-第一積溫帶上限主栽品種)共計(jì)107株為實(shí)驗(yàn)樣品,樣品制備儀器采用微型植物粉碎機(jī)、超聲儀和50 mL離心管;化學(xué)試劑為5%尿素溶液和4%氫氧化鈉溶液。將收獲后的秸稈選取根上40 cm處切割成6組3 cm長(zhǎng)度樣品(每3組做1個(gè)平行),分別對(duì)平行樣本進(jìn)行氨、堿加工處理。
堿化處理:取秸稈干物質(zhì),將4%氫氧化鈉溶液溶于水,均勻噴灑在秸稈上,實(shí)驗(yàn)室條件下保持含水量為45%左右,密封保存,經(jīng)堿化處理30 d后,打開密封袋,放置排氨72 h,待排氨后放置于65 ℃烘箱中烘干48 h至恒重,再研磨粉碎過200目篩[12]。
無處理空白樣:晾曬制風(fēng)干樣秸稈,未經(jīng)其他處理,稱重后將秸稈置于65 ℃烘箱中烘干48 h至恒重,再研磨粉碎過200目篩。氨、堿化處理與無處理空白樣處理同時(shí)進(jìn)行。
1.1.3 超聲處理取過200目篩的秸稈粉末在水浴條件下進(jìn)行超聲波處理。超聲功率分別為60、75、90、105、120 W,超聲時(shí)間分別為5、10、15、20、25 min,固液比分別為1∶5、1∶10、1∶15、1∶20、1∶25,容器內(nèi)聲功率密度分別為1.2、1.5、1.8、2.1、2.4 W·mL。處理完成后烘干并嚴(yán)格密封,保證良好的厭氧環(huán)境,在室溫靜置穩(wěn)定后測(cè)定秸稈中水分、粗蛋白、半纖維素、纖維素和木質(zhì)素的含量。
1.1.4 粗蛋白含量標(biāo)準(zhǔn)測(cè)定依據(jù)國(guó)標(biāo)GB 5009.3-2010《食品中蛋白質(zhì)的測(cè)定標(biāo)準(zhǔn)》[13]中的凱氏定氮法對(duì)氨堿及超聲處理后的玉米秸稈固體粉末進(jìn)行粗蛋白測(cè)算,得107個(gè)樣本的粗蛋白含量分布區(qū)間為2.481 8%~6.519 3%,平均值為3.724 6%。
經(jīng)氨、堿及超聲處理后的秸稈樣本為固態(tài)粉末,采用Antaris Ⅱ光譜儀對(duì)秸稈固體樣品在4 000~12 000 cm-1波段范圍內(nèi)進(jìn)行漫反射方式掃描,掃描分辨率為4 cm-1,采用積分球掃面方式,背景掃描及樣品掃描均設(shè)定為64次,共計(jì)獲得2 075個(gè)特征波段點(diǎn)。
圖1 玉米秸稈近紅外光譜圖像Fig.1 Near infrared spectra image of corn straw
2.1.1 消除異常樣本107個(gè)玉米秸稈光譜掃描結(jié)果如圖1所示,部分樣品明顯偏離樣本群體中心,因此采用基于3D視圖的雙殘差融合杠桿值法及單殘差法進(jìn)行異常樣本判定[14],綜合二者判斷結(jié)果進(jìn)行異常樣本剔除,對(duì)粗蛋白樣本構(gòu)建交互驗(yàn)證(Cross validation)定量分析模型,統(tǒng)計(jì)樣本X殘差(代表光譜)、樣本Y殘差(代表粗蛋白含量)及杠桿值(Leverage表示差異性)。由圖可見,45、99樣品具有明顯的異常分布(距離群體中心較遠(yuǎn),圖2A)且具有較高的殘差(圖2B),均方根誤差(RMSE)分別為1.690 3、1.443 2,因此將其剔除,對(duì)剩余105個(gè)樣本進(jìn)行正態(tài)分析,統(tǒng)計(jì)樣本選擇及分布,判定其是否具有代表性。
2.1.2 光譜去噪及樣品分類首先采用小波變換方法進(jìn)行噪聲處理[15],在小波降噪過程中閾值的選取的方法直接影響降噪質(zhì)量,而閾值方法中軟、硬閾值各有優(yōu)缺點(diǎn),其中經(jīng)軟閾值去噪后信號(hào)較為平滑,但會(huì)丟失信號(hào)的部分特征,即相似性欠佳;硬閾值雖可保留信號(hào)特征,但平滑性不足。通常軟閾值去噪相似性上的誤差在允許范圍內(nèi),所以較硬閾值法應(yīng)用更廣泛,本文選取軟閾值法進(jìn)行光譜去噪。采用基于DaubechiesN(DBN)系列中DB2 4層分解對(duì)比缺省閾值、Bridge-Massart策略及Penalty閾值3種數(shù)學(xué)模型的信號(hào)重構(gòu)結(jié)果與原信號(hào)的信號(hào)噪聲標(biāo)準(zhǔn)差作為評(píng)價(jià)標(biāo)準(zhǔn),結(jié)果表明:上述3種模型下信號(hào)標(biāo)準(zhǔn)差分別為0.012 36、0.063 67、0.031 07。將基于缺省閾值重構(gòu)的光譜數(shù)據(jù)與粗蛋白含量數(shù)據(jù)進(jìn)行交互驗(yàn)證,從表1中可以看出,經(jīng)異常樣本剔除及小波去噪后粗蛋白模型的決定系數(shù)(R2CV)從0.788 9提升至0.920 8,交互驗(yàn)證均方根誤差(RMSECV)從0.475 2降至0.329 1,表明以上方法可有效提升模型準(zhǔn)確性。圖3為原始光譜及3種閾值方法信號(hào)重構(gòu)后的光譜圖及105個(gè)樣本的正態(tài)分析結(jié)果,可看出該樣品集分布均勻,具有較好的代表性。
表1 玉米秸稈光譜預(yù)處理后模型交互驗(yàn)證結(jié)果Table 1 Corn straw model validation results after pretreatment
對(duì)105個(gè)樣品進(jìn)行分類,依據(jù)Kennardstone進(jìn)行樣品集分類,最終選取70 個(gè)樣品為校正集,35 個(gè)為驗(yàn)證集,其統(tǒng)計(jì)分析結(jié)果如表2所示。
表中:ρ為土體密度,ω為天然含水率,ωp為土體塑限,ωL為土體液限,c為粘聚力,φ為內(nèi)摩擦角,k為土體的滲透系數(shù)。
表2 玉米秸稈粗蛋白定量分析樣品集分類Table 2 Classification of corn straw crude protein sample set
玉米秸稈光譜含有大量冗余信息,降低了模型解析速度,需對(duì)其進(jìn)行特征波段優(yōu)選,常用方法有主成分分析法(PCA)、相關(guān)系數(shù)法(CC)、模擬退火法(SA)、連續(xù)投影算法(SPA)、遺傳算法(GA)、間隔偏最小二乘(IPLS)、后向區(qū)間間隔偏最小二乘(BIPLS)、組合間隔偏最小二乘(SIPLS)、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣法(CARS)等[16-19]。其中IPLS是將整個(gè)光譜區(qū)域劃分為等寬的若干個(gè)子區(qū)間,然后在每個(gè)子區(qū)間用PLS方法建立回歸模型,并用交互驗(yàn)證法確定最佳主因子數(shù),以交互驗(yàn)證均方根(RMSECV)作為局部模型的精度衡量標(biāo)準(zhǔn),取精度較高的局部模型所在的子區(qū)間作為特征子間。SIPLS是在IPLS基礎(chǔ)上聯(lián)合同一次區(qū)間劃分中精度較高的幾個(gè)局部模型所在的子區(qū)間作為一個(gè)整體建立模型[20],從中選擇使RMSECV值最小的組合區(qū)間即為最優(yōu)的特征子區(qū)間。組合區(qū)間的數(shù)量一般取2~4個(gè),但隨著組合區(qū)間的增加,其計(jì)算量及計(jì)算時(shí)間也隨之呈指數(shù)級(jí)增長(zhǎng)。BIPLS可彌補(bǔ)IPLS單一區(qū)間的問題,也可彌補(bǔ)SIPLS計(jì)算時(shí)間較長(zhǎng)的問題,其原理是將光譜區(qū)間分為n個(gè)等寬的子區(qū)間,每次預(yù)留出1個(gè)子區(qū)間,把剩余的n-1個(gè)子區(qū)間作為一個(gè)大區(qū)間來建立偏最小二乘回歸模型,計(jì)算模型RMSE值,使剩余的n-1個(gè)子區(qū)間中具有最小RMSECV值的子區(qū)間即為第一個(gè)排除區(qū)間,直到計(jì)算只剩一個(gè)區(qū)間為止。本研究將分別論證IPLS、BIPLS以及SIPLS的特征優(yōu)選實(shí)現(xiàn)過程及結(jié)果。
2.2.1 IPLS將整個(gè)譜圖區(qū)間依據(jù)間隔數(shù)10、20、30、40進(jìn)行區(qū)間劃分并分別構(gòu)建交互驗(yàn)證模型,各間隔區(qū)間的RMSECV分布見圖4,從圖中可以看出,RMSECV最小值明顯集中于9 600~10 400 cm-1。圖5為10~40間隔數(shù)下所選取最優(yōu)區(qū)間及最優(yōu)區(qū)間下校正集及驗(yàn)證集樣本分布,其數(shù)據(jù)結(jié)果見表3。結(jié)合圖5和表3可見,10間隔數(shù)下第8間隔在主因子數(shù)為7的情況下驗(yàn)證效果最好,驗(yàn)證集相關(guān)系數(shù)(rp)為0.966 6,驗(yàn)征集決定系數(shù)(R2P)為0.934 3,驗(yàn)征集均方根誤差(RMSEP)為0.277 8。由此可見,IPLS的精準(zhǔn)間隔劃分可為特征波段的選取提供精準(zhǔn)定位的判定依據(jù)。
2.2.2 BIPLS采用BIPLS依據(jù)間隔數(shù)10、20、30、40進(jìn)行區(qū)間劃分,每次預(yù)留出1個(gè)子區(qū)間,計(jì)算其余所有區(qū)間的均方根誤差(RMSE),并不斷排除多余區(qū)間,由于運(yùn)算數(shù)據(jù)較多,運(yùn)算量較大,因此本文僅展示間隔數(shù)40的波段選擇過程,其特征選擇的預(yù)留間隔、子區(qū)間、RMSE及變量數(shù)的變化結(jié)果見表4。從表中可看出RMSE隨變量的不斷減少而逐漸降低,直至預(yù)留間隔數(shù)9時(shí)RMSE達(dá)最小值0.249 0,此后RMSE隨變量的繼續(xù)減少發(fā)生波動(dòng)并呈上升趨勢(shì),因此判定該間隔為其最優(yōu)區(qū)間解。選擇預(yù)留間隔數(shù)為9時(shí)的468個(gè)變量(實(shí)際間隔24~29)作為間隔數(shù)40的最優(yōu)選擇,其余間隔數(shù)10、20、30情況下依此類推,統(tǒng)計(jì)結(jié)果見表5。表中數(shù)據(jù)可見BIPLS在間隔數(shù)為10時(shí)選擇7、8間隔(8 808~10 404 cm-1)具有最優(yōu)模型驗(yàn)證精度,rp為0.978 0,R2P為0.956 4,RMSEP為0.229 1。其中BPLS間隔數(shù)為10時(shí)最優(yōu)定量分析模型校正及驗(yàn)證結(jié)果見圖6。
表3 IPLS優(yōu)選后定量分析模型驗(yàn)證結(jié)果Table 3 Validation results after IPLS selection
表4 間隔40條件下RMSE及變量數(shù)量變化情況Table 4 Change of RMSE and variable number under 40 interval
表5 BIPLS優(yōu)選后定量分析模型驗(yàn)證結(jié)果Table 5 Validation results after BIPLS selection
圖6 BIPLS特征間隔選取及定量分析模型構(gòu)建結(jié)果Fig.6 Optimal feature interval selection and model building results of BIPLSA:optimal feature interval selection(最優(yōu)特征區(qū)間選取結(jié)果);B:predicted results of calibration set(校正集預(yù)測(cè)結(jié)果);C:predicted results of validation set(驗(yàn)證集預(yù)測(cè)結(jié)果)
2.2.3 SIPLSSIPLS以組合波段為主,其運(yùn)算過程較繁雜,以間隔數(shù)40為例,其預(yù)留間隔、RMSE及變量數(shù)量變化見表6。選取2~4個(gè)變量組合并提取最優(yōu)驗(yàn)證結(jié)果,在采用SIPLS方法特征選取的過程中發(fā)現(xiàn),在間隔數(shù)10~30情況下選取2~4個(gè)變量組合,每次交互驗(yàn)證運(yùn)算時(shí)間為0.5~1.0 min;而隨著變量增大其模型驗(yàn)證時(shí)間呈指數(shù)級(jí)增長(zhǎng),在間隔數(shù)30時(shí)4變量組合執(zhí)行時(shí)間明顯增大,間隔數(shù)40時(shí)3變量組合模型運(yùn)算次數(shù)達(dá)27 405次,4組合(間隔數(shù)40)時(shí)模型運(yùn)算次數(shù)達(dá)91 300次,運(yùn)算時(shí)間激增至24 min,因此本實(shí)驗(yàn)不計(jì)入間隔數(shù)40條件下的變量?jī)?yōu)選結(jié)果。另外,即使選擇不同間隔數(shù),其特征波段區(qū)間依然較為明顯和集中,表6數(shù)據(jù)可見在執(zhí)行間隔數(shù)30條件下2變量組合24、28具有最優(yōu)驗(yàn)證結(jié)果,由此可見,不同間隔數(shù)及不同變量組合條件下其特征波長(zhǎng)的選取均具有高度一致性,基本集中于9 800~10 400 cm-1,但執(zhí)行間隔數(shù)40的多變量組合方式的運(yùn)算時(shí)間過長(zhǎng)。SIPLS方法30間隔數(shù)條件下2變量組合(24、28)的特征波長(zhǎng)區(qū)間選取及定量分析模型校正及驗(yàn)證結(jié)果見圖7。
表6 SIPLS優(yōu)選后定量分析模型驗(yàn)證結(jié)果Table 6 Validation results after SIPLS selection
圖7 SIPLS特征間隔選取及定量分析模型構(gòu)建結(jié)果Fig.7 Optimal feature interval selection and model building results of SIPLSA:optimal feature interval selection(最優(yōu)特征區(qū)間選取結(jié)果);B:predicted results of calibration set(校正集預(yù)測(cè)結(jié)果);C:predicted results of validation set(驗(yàn)證集預(yù)測(cè)結(jié)果)
為進(jìn)一步驗(yàn)證玉米秸稈粗蛋白含量快速檢測(cè)中SIPLS特征優(yōu)選方法的優(yōu)勢(shì),對(duì)多種特征波長(zhǎng)選取方法及結(jié)果進(jìn)行綜合比較,PCA、相關(guān)系數(shù)法、CARS、GA、MWPLS等特征優(yōu)選結(jié)果見圖8。驗(yàn)證結(jié)果統(tǒng)計(jì)見表7。結(jié)果顯示:采用SIPLS選取波段10 128~10 398 cm-1及11 196~11 462 cm-1時(shí)具有最優(yōu)模型驗(yàn)證結(jié)果,rp為0.978 4(R2P為0.957 2),RMSEP為0.221 1。
綜合對(duì)比IPLS/BIPLS及SIPLS等其他特征波長(zhǎng)選擇方法總結(jié)如下:
(1) 主成分分析(PCA):主成分分析法在進(jìn)行特征選取中依據(jù)計(jì)算協(xié)方差等統(tǒng)計(jì)特征代表性實(shí)現(xiàn)數(shù)據(jù)降維,選取7個(gè)有效主成分即可代表所有特征波段(圖8A),實(shí)現(xiàn)了數(shù)據(jù)重構(gòu)及數(shù)據(jù)降維的特征優(yōu)選。但相較于偏最小二乘建模方法,其特征選擇僅針對(duì)光譜,不考慮樣本特性與光譜的關(guān)聯(lián)性,使得模型驗(yàn)證精度降低,且較低的重構(gòu)主成分?jǐn)?shù)無法實(shí)現(xiàn)對(duì)大量光譜信息的完整表達(dá),無法完全描述非線性問題,表7中實(shí)驗(yàn)結(jié)果也印證了PCA在玉米秸稈粗蛋白模型構(gòu)建中特征優(yōu)選效果不夠理想。
(2) 相關(guān)系數(shù)法:相關(guān)系數(shù)法的思想提出較早,是早期光譜模型構(gòu)建的特征判定方法,分為自相關(guān)性(光譜-光譜)及互相關(guān)性(光譜-樣品特性),通常自相關(guān)較低、互相關(guān)較高會(huì)具有較好的模型精度。但從相關(guān)研究可以看出[21],由于近紅外吸收特性較低,多種樣品間自相關(guān)與互相關(guān)性通常呈矛盾狀態(tài),如4 000~8 000 cm-1波數(shù)范圍內(nèi)相關(guān)系數(shù)普遍低于0.3,粗蛋白與光譜呈現(xiàn)較差的弱相關(guān)性,r大于0.7的強(qiáng)相關(guān)性區(qū)間為11 352~11 997 cm-1,相比于其他特征波段選擇方法,具有明顯的差異性(圖8B)。
表7 不同特征波段優(yōu)選定量分析模型及驗(yàn)證結(jié)果Table 7 Quantitative analysis model and validation results of different characteristic wavenumber
(3) CARS與GA:二者基本原理類似,均為基于進(jìn)化理論而衍生的算法,其中CARS依據(jù)“適者生存”原理以指數(shù)衰減函數(shù)變化為判定依據(jù),篩選出每次循環(huán)構(gòu)建的回歸系數(shù)絕對(duì)值最大的變量,如圖8C所示,共選取146 個(gè)特征變量。GA通過不斷種群迭代形成最優(yōu)子代,通過信息的選擇、變異、交叉來實(shí)現(xiàn),本研究設(shè)定適應(yīng)度函數(shù)為RMSE,通過不斷迭代變異找到適應(yīng)性最強(qiáng)即RMSE最小的特征變量,可見9 883、10 256 cm-1等8個(gè)波段構(gòu)成的特征波段組合具有最小的RMSEP(圖8D)。但CARS和GA兩種方法均需借助先前經(jīng)驗(yàn),影響選擇結(jié)果的因素較多,需設(shè)計(jì)與調(diào)整的參數(shù)(如選擇方式、交叉重組方式等)較多,且選擇結(jié)果的隨機(jī)性較大,需多次驗(yàn)證(依據(jù)經(jīng)驗(yàn)10 次平行)方可篩選出最優(yōu)特征波段點(diǎn),因此所選取結(jié)果不具有唯一性。
(4) 移動(dòng)窗口最小二乘法MWPLS:移動(dòng)窗口偏最小二乘基于窗口沿著光譜軸連續(xù)移動(dòng),每移動(dòng)一個(gè)波長(zhǎng)點(diǎn),采用交互驗(yàn)證方式建立一個(gè)模型,得到系列不同窗口(移動(dòng)波長(zhǎng)點(diǎn))和主因子數(shù)對(duì)應(yīng)的殘差平方和(PRESS或SSR),但移動(dòng)窗口大小的寬度需不斷嘗試(本文通過多次試驗(yàn)選取31窗口,圖8E)。從試驗(yàn)過程來看,窗口大小設(shè)置過大容易忽略和錯(cuò)過特征波長(zhǎng)點(diǎn),設(shè)置過小則容易陷入局部循環(huán)。
(5) SIPLS在原有IPLS基礎(chǔ)上實(shí)現(xiàn)間隔波段自由組合,特征組合更為自由化,在實(shí)現(xiàn)特征間隔變化的基礎(chǔ)上可實(shí)現(xiàn)特征波長(zhǎng)的精確定位,不會(huì)出現(xiàn)GA、CARS等單獨(dú)波段點(diǎn)提取情況,同時(shí)由于多組合、可變特征間隔相比于MWPLS的固定窗口大小更具靈活性的特性,不會(huì)破壞光譜數(shù)據(jù)的連貫性和特征吸收的漸變性,使得整個(gè)光譜區(qū)間分為多個(gè)模塊進(jìn)行分層次交互驗(yàn)證,因此在多組合、多間隔情況下模型表現(xiàn)較好,表7中最優(yōu)模型(SIPLS 30 間隔,2組合)校正結(jié)果也論證了該方法的特性。但同時(shí)該法也存在弊端,主要表現(xiàn)為多間隔、多波段組合條件下特征選取運(yùn)算量較大,系統(tǒng)響應(yīng)較慢,大量特征組合變量形式構(gòu)建交互驗(yàn)證模型消耗的時(shí)間隨間隔增加呈指數(shù)級(jí)增長(zhǎng)(40間隔4組合運(yùn)算次數(shù)91 300次,耗時(shí)24 min)。目前,基于SIPLS可實(shí)現(xiàn)全譜波段4 000~12 000 cm-1下低于30間隔數(shù)4變量組合的特征優(yōu)選,并呈現(xiàn)較好的準(zhǔn)確性與實(shí)時(shí)性,但間隔數(shù)超40且變量組合數(shù)量大于4時(shí)現(xiàn)有服務(wù)器難以實(shí)現(xiàn)特征波段的快速、準(zhǔn)確選取,特征選取響應(yīng)時(shí)間較長(zhǎng)。因此下一步工作會(huì)重點(diǎn)結(jié)合深度學(xué)習(xí)構(gòu)建多層解析網(wǎng)絡(luò),整合優(yōu)化非線性算法來實(shí)現(xiàn)多變量組合的快速選取,解決特征波段快速、精準(zhǔn)定位的難題。
本文構(gòu)建了玉米秸稈中粗蛋白近紅外光譜定量分析模型,對(duì)樣本進(jìn)行異常剔除及光譜去噪后,對(duì)特征波段選取方法進(jìn)行了探討,重點(diǎn)對(duì)IPLS及其改進(jìn)型方法BIPLS、SIPLS的波長(zhǎng)選取原理、選取過程進(jìn)行闡述,實(shí)現(xiàn)了定量分析模型的快速準(zhǔn)確定標(biāo),為秸稈氨堿化處理最優(yōu)條件判定提供了數(shù)據(jù)支持,研究結(jié)果如下:
(1) 數(shù)據(jù)預(yù)處理(剔除異常樣本、光譜去噪)可有效提高模型樣本的分布均勻性和代表性。本研究對(duì)107個(gè)樣本進(jìn)行殘差計(jì)算,剔除2個(gè)具有明顯較大殘差的樣本,交互驗(yàn)證模型決定系數(shù)R2CV從0.788 9提升至0.894 8,RMSECV從0.475 2下降至0.343 4。使用小波變換去除光譜噪聲后,R2CV從0.894 8提升至0.920 8,RMSECV從0.343 4下降至0.329 1。
(2) 特征波段選取可有效提取代表性數(shù)據(jù),降低數(shù)據(jù)冗余,提升模型解析速度并提高模型驗(yàn)證精度。本文采用IPLS、BIPLS、SIPLS對(duì)光譜區(qū)間重新排列,依據(jù)交互驗(yàn)證誤差根結(jié)果進(jìn)行多種特征波段選取(PCA、CARS、相關(guān)系數(shù)法、GA、MWPLS等),結(jié)果顯示除PCA、GA及相關(guān)系數(shù)法外,其他特征優(yōu)選驗(yàn)證結(jié)果都符合預(yù)期,可有效準(zhǔn)確找到特征波段區(qū)間,其中在SIPLS 30 間隔情況下選取24、28間隔(共計(jì)138個(gè)特征波段點(diǎn))時(shí)定量分析模型具有最優(yōu)驗(yàn)證結(jié)果,rp為0.978 4,R2P為0.957 2,RMSEP為0.221 1。由此可見,SIPLS在間隔30以內(nèi)可有效提取出2 組變量組合最優(yōu)樣品解,但在40 間隔以上擬合時(shí)間較長(zhǎng),變量組合超過4,運(yùn)算時(shí)間呈現(xiàn)指數(shù)級(jí)增長(zhǎng),無法應(yīng)用于實(shí)驗(yàn)室檢測(cè)。要完成在線檢測(cè)(大量樣本、快速分析)則有待與其他方法如深度學(xué)習(xí)等進(jìn)行非線性組合優(yōu)化及融合。
本文構(gòu)建了氨、堿處理后玉米秸稈粗蛋白含量的快速定量分析模型,發(fā)現(xiàn)基于SIPLS的特征優(yōu)選方法可有效、快速地測(cè)定粗蛋白含量,模型精度及誤差滿足要求,該方法可為氨堿化秸稈處理提供重要的快速判定方法和檢測(cè)手段。