陳素彬,胡振
南充職業(yè)技術(shù)學(xué)院(南充 637131)
小麥?zhǔn)侨祟惖闹骷Z之一,也是重要的動(dòng)物飼料、食品原料和外貿(mào)商品。蛋白質(zhì)含量是小麥的基本品質(zhì)指標(biāo)之一,在很大程度上反映了小麥的營(yíng)養(yǎng)價(jià)值和加工特性,對(duì)其品種選育、栽培管理、市場(chǎng)交易和食品加工等相關(guān)環(huán)節(jié)都有重要意義。
小麥蛋白質(zhì)含量測(cè)定的最新國(guó)標(biāo)方法為凱氏定氮法、分光光度法和燃燒法[1],它們皆為濕化學(xué)分析方法,測(cè)量精度高,可用于仲裁檢驗(yàn),但有操作復(fù)雜、耗時(shí)長(zhǎng)、污染環(huán)境等缺點(diǎn)[2],不適用于大量樣本的快速檢測(cè)。近紅外光譜(Near infrared spectroscopy,NIRS)分析是目前應(yīng)用廣泛的儀器分析技術(shù)之一,具有快速、方便、簡(jiǎn)單、準(zhǔn)確以及可同時(shí)分析多種成分的優(yōu)點(diǎn),是一種非破壞性的“瞬間分析”技術(shù)[3],能對(duì)各種氣、液、固態(tài)樣品進(jìn)行定量和定性分析,故其被確定為小麥蛋白質(zhì)含量快速測(cè)定方法的國(guó)家標(biāo)準(zhǔn)[4]。
近紅外光譜分析技術(shù)的應(yīng)用也存在一些問(wèn)題,如數(shù)據(jù)量大、譜峰重疊嚴(yán)重、測(cè)定結(jié)果受環(huán)境影響大等[5]。因此,為了在小麥蛋白質(zhì)含量及其近紅外光譜之間建立一個(gè)準(zhǔn)確高效、泛化性能良好的校正模型,應(yīng)選用先進(jìn)的建模方法,并輔之以數(shù)據(jù)預(yù)處理、特征波長(zhǎng)選取和模型參數(shù)優(yōu)化等技術(shù)手段。已有的一些相關(guān)研究采用偏最小二乘(Partial least squares,PLS)[6-7]或人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)[8-9]方法建模,以無(wú)信息變量消除(Uninformative variables elimination,UVE)或連續(xù)投影算法(Successive projections algorithm,SPA)篩選特征波長(zhǎng)[10-11],獲得了較好的結(jié)果。但當(dāng)物質(zhì)的待測(cè)屬性與光譜數(shù)據(jù)之間的線性相關(guān)度較差時(shí),不適合建立線性回歸模型[12];而ANN模型則存在訓(xùn)練效率低、易發(fā)生過(guò)擬合現(xiàn)象等缺陷,且非線性模型的參數(shù)優(yōu)化則一直是個(gè)難題,常用的幾種方法都有明顯缺陷,不易確定最優(yōu)參數(shù)值[13]。UVE基于對(duì)PLS回歸系數(shù)b的分析,因此可能所得波長(zhǎng)變量仍然較多;SPA則在剔除共線性波段的同時(shí)會(huì)損失一些有用的光譜信息,且保留的波段中既有待測(cè)成分信息,又有其他屬性信息,這些都在一定程度上影響了所建校正模型的精度和效率。
試驗(yàn)在通過(guò)對(duì)比確定小麥樣品光譜預(yù)處理和樣本集劃分的最優(yōu)方案之后,嘗試以最小二乘支持向量機(jī)(Least squares support vector machine,LS-SVM)建模,并利用改進(jìn)的二進(jìn)制蝙蝠算法(Improved binary bat algorithm,IBBA)進(jìn)行特征波長(zhǎng)和模型參數(shù)的聯(lián)合優(yōu)化,得到一個(gè)快速、穩(wěn)健的小麥蛋白質(zhì)近紅外光譜定量校正模型。所用軟件工具主要為MATLAB R2015b,LS-SVMlab Toolbox 1.8,The Unscrambler X 10.4和OriginPro 8.0。
收集不同產(chǎn)地、品種的248個(gè)成熟小麥樣本,剔除雜質(zhì)后自然晾曬風(fēng)干,每個(gè)樣本取1 kg以四分法分成2份:一份用于蛋白質(zhì)含量的化學(xué)方法測(cè)定;另一份避光保存于4 ℃冷藏箱中,用于近紅外光譜掃描。
按照國(guó)家標(biāo)準(zhǔn)GB 5009.5—2016《食品安全國(guó)家標(biāo)準(zhǔn) 食品中蛋白質(zhì)的測(cè)定》第一法 凱氏定氮法,測(cè)定各樣品的蛋白質(zhì)含量。
每個(gè)樣品約取500 g,以FOSS公司的Infratec 1241型近紅外光譜谷物品質(zhì)分析儀掃描,波長(zhǎng)范圍為570~1 100 nm,步長(zhǎng)為0.5 nm,掃描10次,取其平均值為樣品光譜。248個(gè)樣品的1 061個(gè)波點(diǎn)光譜如圖1所示。
圖1 樣品原始光譜
首先用均值中心化(Mean centering,MC)算法對(duì)樣品光譜進(jìn)行預(yù)處理,以消除多重共線性的影響。然后以MC預(yù)處理結(jié)果為基礎(chǔ)數(shù)據(jù),分別嘗試用SG平滑(Savitzky-Golay smoothing,2階、5點(diǎn))、標(biāo)準(zhǔn)正態(tài)變量變換(Standard normal variable,SNV)、去趨勢(shì)(De-trending,2階)、多元散射校正(Multiplicative scatter correction,MSC)和正交信號(hào)校正(Orthogonal signal correction,OSC)算法進(jìn)行處理;分別以CG(Concentration gradient)法、RS(Random sampling)法、KS(Kennard-Stone)法和SPXY(Sample set partitioning based on joint x-y distance)法,按3︰1劃分樣本校正集和測(cè)試集,然后用預(yù)處理后的數(shù)據(jù)建立PLS模型,通過(guò)結(jié)果比較確定最優(yōu)的光譜預(yù)處理方案和樣本集劃分方法。
LS-SVM能夠支持線性和非線性建模,其訓(xùn)練即為求解線性方程組,預(yù)測(cè)則是計(jì)算各建模樣本與待測(cè)樣本之間的核函數(shù),計(jì)算量?jī)H取決于校正集的樣本數(shù)目,而與光譜維數(shù)無(wú)關(guān)。LS-SVM模型比線性模型更穩(wěn)健,而且避免了ANN模型普遍存在的訓(xùn)練速度慢、易早熟、過(guò)擬合和泛化性差等缺陷。但LS-SVM模型(徑向基核函數(shù))的核寬度σ2、正則化參數(shù)γ與模型的支持向量數(shù)目、預(yù)測(cè)精度、泛化性能密切相關(guān),因此需要尋找這兩個(gè)參數(shù)的最優(yōu)值;此外,小麥樣品的原始光譜中含有大量共線性變量和非目標(biāo)信息,也會(huì)嚴(yán)重影響模型的性能和效率,故應(yīng)選取與蛋白質(zhì)含量密切相關(guān)的特征波長(zhǎng)光譜建模,以摒棄無(wú)關(guān)信息、降低數(shù)據(jù)維數(shù),從而在簡(jiǎn)化模型的同時(shí),提高其精度、速度和穩(wěn)健性。
1.5.1 改進(jìn)的二進(jìn)制蝙蝠算法
蝙蝠算法(Bat algorithm,BA)[14]是Yang基于蝙蝠的回聲定位特性提出的一種群體智能搜索算法,其求解準(zhǔn)確性和有效性優(yōu)于常用經(jīng)典算法,且模型簡(jiǎn)單、效率高,具有潛在并行性和分布式特性。但是,BA的優(yōu)化能力主要源于個(gè)體間的相互作用,而沒(méi)有提供能夠保持種群多樣性的變異機(jī)制,故易發(fā)生早熟收斂而影響尋優(yōu)精度,并因強(qiáng)化局部搜索而導(dǎo)致了后期進(jìn)化變慢[15]。為此,可在BA中引入動(dòng)態(tài)速度權(quán)重因子和Cauchy分布隨機(jī)數(shù)擾動(dòng),以保持種群的多樣性,增強(qiáng)其全局搜索能力,同時(shí)加快收斂速度。該算法的原理及執(zhí)行流程請(qǐng)參考文獻(xiàn)[15]。
對(duì)改進(jìn)蝙蝠算法進(jìn)行離散化,將其搜索空間由連續(xù)的實(shí)數(shù)空間映射到離散的二進(jìn)制空間,即為IBBA[16]。其主要思想是:蝙蝠的各維位置都限定為二進(jìn)制值0或1,但其速度則不限制,于是可用傳遞函數(shù)將速度轉(zhuǎn)換為概率值來(lái)確定蝙蝠個(gè)體的位置。
1.5.2 用IBBA進(jìn)行建模參數(shù)與特征波長(zhǎng)聯(lián)合優(yōu)化
大多數(shù)研究都將LS-SVM的建模參數(shù)優(yōu)化與特征波長(zhǎng)選擇分別用不同方法實(shí)現(xiàn),但二者在同一個(gè)NIRS定量校正模型中是相互影響的[17],將其置于同一過(guò)程進(jìn)行聯(lián)合優(yōu)化更易得到最優(yōu)結(jié)果。對(duì)此,運(yùn)用IBBA實(shí)現(xiàn):
以蝙蝠的各維位置對(duì)應(yīng)波長(zhǎng)變量,某維取值為1表示相應(yīng)波長(zhǎng)的光譜被選中,反之表示未選中[18]。取值1的各維即為特征波長(zhǎng),將其與建模參數(shù)σ2、γ一起構(gòu)成優(yōu)化變量,對(duì)其進(jìn)行二進(jìn)制編碼,通過(guò)迭代搜索獲得其最優(yōu)值。在每次迭代過(guò)程中調(diào)用LS-SVMlab Toolbox函數(shù),用校正集樣本數(shù)據(jù)建立LS-SVM模型,將留一法交叉驗(yàn)證(Leave-One-Out Cross Validation,LOO-CV)所得交叉驗(yàn)證均方根誤差(Root Mean Square Error of Cross Validation,RMSECV),作為IBBA算法的適應(yīng)度函數(shù),迭代搜索最優(yōu)建模參數(shù)和特征波長(zhǎng)。
1.5.3 優(yōu)化LS-SVM校正模型的建立與驗(yàn)證
對(duì)于經(jīng)過(guò)預(yù)處理的校正集樣本,取其特征波長(zhǎng)光譜數(shù)據(jù),以最優(yōu)參數(shù)建立LS-SVM模型,在同等條件下代入測(cè)試集樣本數(shù)據(jù)進(jìn)行驗(yàn)證,并與常用的PLS、CARS-PLS和未優(yōu)化的LS-SVM建模結(jié)果比較。
以校正決定系數(shù)Rc2、預(yù)測(cè)決定系數(shù)Rp2、校正均方根誤差(Root mean square error of calibration,RMSEC)、預(yù)測(cè)均方根誤差(Root mean square error of prediction,RMSEP)、相對(duì)分析誤差(Ratio of performance to standard deviate,RPD)為模型評(píng)價(jià)指標(biāo)。Rc2和Rp2值大且相差少、RMSEC和RMSEP值小且相差少、RPD值越大,則相應(yīng)的模型性能越好。
依照1.4小節(jié)的方案,首先分別將原始光譜和MC預(yù)處理后的數(shù)據(jù)以CG、RS、KS和SPXY法劃分樣本集并建立PLS模型,比較結(jié)果得Rp2和RMSEP,發(fā)現(xiàn)用MC預(yù)處理數(shù)據(jù)所建PLS模型遠(yuǎn)優(yōu)于原始光譜,SPXY法劃分的樣本集建模效果優(yōu)于其他方法;然后用相同方法對(duì)比“MC+SG平滑”“MC+SNV”“MC+De-trending”“MC+MSC”“MC+OSC”預(yù)處理方案,結(jié)果以“MC+De-trending”算法最佳,相應(yīng)PLS模型的Rp2為0.934 0,RMSEP為0.394 0,明顯優(yōu)于其它方案。各種預(yù)處理方案的PLS建模結(jié)果如表1所示。
表1 各種預(yù)處理方案的PLS建模結(jié)果
圖2 “MC+De-trending”預(yù)處理后的譜圖
以SPXY法劃分的樣本集基本信息如表2所示。蛋白質(zhì)含量最低和最高的樣本都被劃分到校正集,測(cè)試集樣本的蛋白質(zhì)含量在校正集樣本蛋白質(zhì)含量區(qū)間之內(nèi),表明兩個(gè)樣本集的待測(cè)屬性值分布合理,所建校正模型能產(chǎn)生較好的預(yù)測(cè)結(jié)果。
表2 SPXY法劃分的樣本集基本信息
按1.5.2小節(jié)的方案設(shè)計(jì)優(yōu)化流程,用MATLAB編程實(shí)現(xiàn)。算法的運(yùn)行參數(shù)設(shè)置:迭代次數(shù)60,蝙蝠數(shù)量40;頻率Q∈[0,2],響度初值A(chǔ)=0.25,衰減系數(shù)α∈[0.001, 0.999],脈沖頻率初值r0=0.1,增強(qiáng)系數(shù)β∈[0.001, 1],權(quán)重因子w∈[0.5, 1]。
將優(yōu)化程序運(yùn)行100次,獲得最小適應(yīng)度函數(shù)值時(shí)的模型參數(shù)值即為最優(yōu),其結(jié)果為:γ=1 098 472.606 317,σ2=216.010 717。同時(shí)選取的建模特征波長(zhǎng)為487個(gè)。相應(yīng)尋優(yōu)迭代過(guò)程中RMSECV值的變化如圖3所示。
圖3 尋優(yōu)迭代過(guò)程的RMSECV值變化
同樣地,亦可直接采用適應(yīng)度函數(shù)值最小時(shí)的特征波長(zhǎng)作為最終建模的波長(zhǎng)變量。但I(xiàn)BBA作為一種智能搜索算法,其結(jié)果并非唯一確定的,故將100次優(yōu)化運(yùn)算產(chǎn)生的100組特征波長(zhǎng)進(jìn)行統(tǒng)計(jì),得到各波點(diǎn)光譜被選中建模的次數(shù),如圖4所示。
從圖4可以看出,在短波近紅外譜區(qū)建立小麥蛋白質(zhì)近紅外校正模型時(shí),用IBBA算法選中建模的高概率波長(zhǎng)點(diǎn)較分散,相對(duì)集中的波段主要有595~599,897~909,916~929,977~1 008和1 012~1 023 nm,此外在576.5,595,598,598.5,600,605,623,625,646,654.5,659和674.5 nm處的光譜被選取的概率也在90%以上。
圖4 各波點(diǎn)被選中建模的次數(shù)
以優(yōu)化所得σ2、γ參數(shù)值和特征波長(zhǎng)光譜對(duì)校正集數(shù)據(jù)建立LS-SVM模型,再用測(cè)試集數(shù)據(jù)驗(yàn)證其性能,所得結(jié)果隨波長(zhǎng)變量的選取方法不同而有所差異。
方案A:直接采用優(yōu)化所得487個(gè)特征波點(diǎn)建模、驗(yàn)證,其結(jié)果為:=0.994 5、RMSEC=0.153 2,=0.983 4、RMSEP=0.197 6,RPD=7.81。
方案B:根據(jù)100組特征波長(zhǎng)的統(tǒng)計(jì)情況選取波長(zhǎng)變量。將被選概率50%的波點(diǎn)作為起點(diǎn),分別向遞增、遞減兩個(gè)方向調(diào)整特征波長(zhǎng)數(shù),用相應(yīng)光譜數(shù)據(jù)建模并驗(yàn)證,結(jié)果以被選概率為47%以上的對(duì)應(yīng)波點(diǎn)建模最佳:Rc2=0.995 8、RMSEC=0.145 3,Rp2=0.984 2、RMSEP=0.192 4,RPD=8.02。選取不同波長(zhǎng)變量所建模型的性能對(duì)比如表3所示。
表3表明,當(dāng)選取的特征波長(zhǎng)被選概率從43%開(kāi)始依次遞增時(shí),所建模型的Rp2逐漸增大,且與Rc2的差值逐漸縮?。籖MSEP逐漸減小,且與RMSEC的差值逐漸縮小,同時(shí)RPD也隨之遞增,反映出模型的預(yù)測(cè)精度越來(lái)越高,穩(wěn)健性逐漸增強(qiáng);但達(dá)到47%之后,如果繼續(xù)提高建模波長(zhǎng)的被選概率,則模型的Rc2、Rp2和RPD逐漸減小,RMSEC和RMSEP逐漸增大。究其原因,應(yīng)是隨著選取波點(diǎn)數(shù)的持續(xù)減少,建模所用光譜數(shù)據(jù)對(duì)于待測(cè)屬性信息的反映越來(lái)越不充分,故而模型性能呈下降趨勢(shì)。方案B所建最佳模型的小麥蛋白質(zhì)測(cè)試結(jié)果如圖5所示。該模型對(duì)測(cè)試集樣本預(yù)測(cè)所得小麥蛋白質(zhì)含量值位于兩條坐標(biāo)軸的對(duì)角線附近,并均勻分布在擬合線兩邊,表明其精確度高、穩(wěn)健性好。
表3 方案B不同波長(zhǎng)變量所建模型的性能對(duì)比
圖5 方案B所建最佳模型的測(cè)試結(jié)果
為進(jìn)一步確定優(yōu)化LS-SVM模型的效果,還分別用CARS-PLS和未優(yōu)化的SVM(Support Vector Machine,支持向量機(jī))、LS-SVM方法對(duì)相同的樣本集建模并驗(yàn)證,與優(yōu)化LS-SVM模型及表1的PLS模型進(jìn)行性能比較,結(jié)果如表4所示。CARS-PLS模型選取的特征波長(zhǎng)數(shù)最少,各項(xiàng)性能指標(biāo)明顯優(yōu)于PLS模型,其RPD值達(dá)到了ICC(International association for cereal science and technology,國(guó)際谷物科技協(xié)會(huì))標(biāo)準(zhǔn)等級(jí)“好”;未經(jīng)優(yōu)化的SVM模型則表現(xiàn)不理想,這也正好印證了參數(shù)優(yōu)化對(duì)于建立非線性模型的重要性。相比之下,LS-SVM模型的性能優(yōu)于前三種模型,充分體現(xiàn)其用于小麥蛋白質(zhì)近紅外光譜分析的方法優(yōu)勢(shì);但未經(jīng)優(yōu)化的LS-SVM模型穩(wěn)健性尚有欠缺,故其預(yù)測(cè)表現(xiàn)較建模指標(biāo)有明顯下降。采用此次試驗(yàn)建立的方法獲得最優(yōu)建模參數(shù)和特征波長(zhǎng)之后,LS-SVM模型的穩(wěn)健性和預(yù)測(cè)精度顯著提高,尤以方案B對(duì)應(yīng)的模型性能最佳,其Rc2和Rp2分別達(dá)到0.995 8和0.984 2,RMSEC和RMSEP分別為0.145 3和0.192 4,兩對(duì)指標(biāo)值都相差很小,且RPD值為8.02,已達(dá)到ICC標(biāo)準(zhǔn)等級(jí)“非常好”。
表4 幾種方法所建模型性能比較
以248個(gè)小麥樣品為試驗(yàn)材料,通過(guò)反復(fù)對(duì)比,選定“MC+De-trending”算法進(jìn)行光譜預(yù)處理,SPXY法劃分樣本集;以建模參數(shù)和特征波長(zhǎng)為優(yōu)化變量,應(yīng)用改進(jìn)的二進(jìn)制蝙蝠算法搜索其最優(yōu)值,用之于LS-SVM模型的建立和驗(yàn)證。結(jié)果表明,該優(yōu)化LS-SVM模型性能優(yōu)異,可用于實(shí)際檢測(cè)工作。