武新燕,卞希慧,*,楊 盛,徐 沛,王海濤
(1.天津工業(yè)大學(xué) 省部共建分離膜與膜過程國家重點(diǎn)實(shí)驗(yàn)室,環(huán)境科學(xué)與工程學(xué)院,天津 300387;2.天津工業(yè) 大學(xué) 化學(xué)與化工學(xué)院,天津 300387;3.紹興市柯橋區(qū)污染物總量控制中心,浙江 紹興 312030)
近紅外光譜因其快速、方便、低成本以及無損等優(yōu)勢,已廣泛應(yīng)用于諸多領(lǐng)域[1-7]。然而,近紅外光譜同時(shí)存在變量維度高,多重共線性,包含冗余信息和高頻噪聲等問題,直接構(gòu)建預(yù)測模型不但增加建模復(fù)雜度,同時(shí)也會影響模型的預(yù)測性能和泛化能力[8]。因此選擇信息最豐富的變量或剔除信息不豐富的變量變得尤為重要。隨著人工智能和計(jì)算機(jī)技術(shù)的迅速發(fā)展及應(yīng)用,變量選擇的方法研究也取得了較大的進(jìn)展。主要有基于統(tǒng)計(jì)學(xué)的變量選擇方法[9-11],基于單一指標(biāo)的波長選擇方法[12-13]和群體智能優(yōu)化算法[14-18]。其中群體智能優(yōu)化算法因其強(qiáng)大的全局搜索能力,使得其在特征變量篩選方面具有巨大的潛力。
灰狼優(yōu)化(Gray wolf optimizer,GWO)算法是由Mirjalili等[19]于2014年開發(fā)的一種群體智能優(yōu)化算法。GWO模擬灰狼群體捕食行為的特性,其主要設(shè)計(jì)思想是基于狼群按個(gè)體的能力劃分社會等級,選出狼群的領(lǐng)導(dǎo)者,通過狼群追蹤、包圍、追捕、狩獵獵物等過程達(dá)到優(yōu)化搜索的目的,狩獵過程即算法尋優(yōu)過程。與其它群體智能優(yōu)化算法相比,GWO算法因參數(shù)少,結(jié)構(gòu)簡單,易于實(shí)現(xiàn),在求解優(yōu)化問題上具有很好的局部搜索能力和求解精度,受到研究者的廣泛關(guān)注[20],并廣泛應(yīng)用于多種領(lǐng)域的理論研究和實(shí)際生產(chǎn)中[21-23]。由于GWO算法目前在光譜分析領(lǐng)域應(yīng)用較少,本文探討了GWO算法在近紅外領(lǐng)域應(yīng)用的可行性。選用玉米樣品的近紅外光譜,考察了優(yōu)化過程中狼群性能的變化,迭代次數(shù)及狼群數(shù)量對模型性能的影響,將參數(shù)優(yōu)化后的GWO算法用于玉米中蛋白質(zhì)、脂肪、水分及淀粉組分的變量選擇,并建立偏最小二乘(PLS)模型。結(jié)果表明,與全光譜的PLS模型相比,GWO-PLS算法不僅采用的變量少,而且可以明顯提高模型的預(yù)測精度。
圖1 灰狼算法原理圖Fig.1 Schematic diagram for GWO algorithm
GWO算法靈感來自于犬科的灰狼?;依侨壕?,在捕獵過程中它們分工明確、共同合作進(jìn)行捕獵。領(lǐng)導(dǎo)能力最強(qiáng)的灰狼被記為α,主要負(fù)責(zé)捕獵過程中的決策部分及管理狼群。剩下的灰狼個(gè)體按社會等級被依次記為β、δ和ω。其中β狼和δ狼是等級依次排在后面的兩個(gè)個(gè)體,捕獵中它們會協(xié)助α狼對灰狼群進(jìn)行管理及輔助參與捕獵過程中的決策問題。剩余的狼群被定義為ω,其主要職責(zé)是平衡灰狼種群的內(nèi)部關(guān)系及協(xié)助α、β、δ對獵物進(jìn)行攻擊。在整個(gè)捕獵過程中,首先由α狼帶領(lǐng)狼群搜尋、追蹤獵物,當(dāng)距離獵物足夠近時(shí),α指揮β、δ狼對獵物進(jìn)行圍攻,并召喚周圍的ω狼對獵物進(jìn)行攻擊,當(dāng)獵物移動時(shí),狼群包圍圈也隨之移動,直到捕獲獵物。GWO算法的原理圖如圖1所示。圖中Dα、Dβ、Dδ表示獵物到α、β、δ狼的距離,C1、C2、C3表示狼的位置對獵物影響的隨機(jī)權(quán)重,a1、a2、a3表示收斂因子。
算法通過包圍、追捕、攻擊三個(gè)階段進(jìn)行捕獵,最終捕獲獵物即獲得全局最優(yōu)解。具體算法描述如下:
第1步:狼群尋找獵物,當(dāng)發(fā)現(xiàn)獵物可能出現(xiàn)的位置時(shí),狼群會慢慢地包圍獵物。
第2步:對獵物進(jìn)行包圍后,β、δ狼在α狼的帶領(lǐng)下對獵物進(jìn)行追捕,在追捕過程中狼群個(gè)體的位置會隨獵物的逃跑改變,而后可以根據(jù)α、β、δ的更新位置重新確定獵物的位置。
第3步:向獵物攻擊。攻擊是捕獵過程的最后階段,狼群對獵物進(jìn)行攻擊并捕獲獵物,即得到最優(yōu)解。
本文將GWO算法運(yùn)用于近紅外光譜數(shù)據(jù),并以0和1分別代表是否選取該波長點(diǎn),將與波長點(diǎn)相等的1、0組成的向量作為灰狼算法的輸入,交叉驗(yàn)證均方根誤差(RMSECV)作為灰狼算法參數(shù)優(yōu)化的衡量標(biāo)準(zhǔn)獲取最優(yōu)參數(shù)。
圖2 M5儀器采集的玉米樣品的近紅外光譜圖Fig.2 Near infrared spectra of corn samples collected by M5 instrument
為驗(yàn)證GWO算法的有效性,本文對網(wǎng)上公開的玉米數(shù)據(jù)進(jìn)行分析。該數(shù)據(jù)集下載網(wǎng)址為http://software.eigenvector.com/Data/Corn/index.html,由3種光譜儀(M5、MP5、MP6)測定近紅外光譜和相應(yīng)的蛋白質(zhì)、脂肪、水分及淀粉的含量組成。本文采用M5儀器的光譜,對4種組分進(jìn)行考察,其中灰狼算法參數(shù)討論以蛋白質(zhì)組分為主。光譜的波長范圍為1 100~2 498 nm,采樣間隔為2 nm,共700個(gè)波長點(diǎn)(如圖2所示)。將80個(gè)樣品按照Kennard-Stone方法進(jìn)行分組,選取53個(gè)樣品用于建立模型,27個(gè)樣品用于驗(yàn)證模型的性能。
為了考察狼群性能隨迭代次數(shù)的變化情況,選取狼群數(shù)量為20,迭代次數(shù)分別為10、30、60、100、300來表示狼群的尋優(yōu)趨勢,并以RMSECV為預(yù)測指標(biāo)將20匹狼的預(yù)測性能顯示在圖3。從圖中可以看出迭代次數(shù)為10時(shí)(圖3a),20匹狼整體的RMSECV相近;當(dāng)?shù)螖?shù)為30時(shí)(圖3b),每匹狼的性能差異較大,且整體的RMSECV相比10次迭代時(shí)下降;當(dāng)?shù)螖?shù)增至60時(shí)(圖3c),每匹狼的性能差異明顯變小且RMSECV整體下降明顯;當(dāng)?shù)螖?shù)增至100時(shí)(圖3d),20匹狼的RMSECV雖有下降,但與60次迭代時(shí)相比下降幅度不大;而當(dāng)?shù)螖?shù)達(dá)到300時(shí)(圖3e),狼群整體的RMSECV相比迭代次數(shù)為100時(shí)下降明顯,且每匹狼的RMSECV幾乎相等。說明最優(yōu)目標(biāo)值基本尋找到,20匹狼的位置均接近最優(yōu)解。每個(gè)子圖中的箭頭對應(yīng)的狼為α狼,可以看出,α狼的位置隨著迭代次數(shù)的變化而不斷變化,在整個(gè)尋優(yōu)過程中α狼不斷地更新以靠近目標(biāo)位置,直至找到最佳位置。
圖3 蛋白質(zhì)組分不同迭代次數(shù)中20匹狼的運(yùn)行結(jié)果和α狼的位置Fig.3 The running results of 20 wolves and the position of α wolf in different iterations of the protein a.10 th,b.30 th,c.60 th,d.100 th,e.300 th
圖4 玉米樣品蛋白質(zhì)組分的平均RMSECV隨迭代次數(shù)的變化Fig.4 Variation of the mean RMSECV with the number of iterations for protein of corn samples
圖5 蛋白質(zhì)組分的RMSECV(a)及運(yùn)行時(shí)間(b) 隨狼群數(shù)量的變化圖Fig.5 Variation plots of RMSECV(a) and runtime(b) with number of wolves for protein
圖6 玉米樣品波長變量的選擇分布Fig.6 Distribution of wavelength variable for corn samples
當(dāng)灰狼算法的迭代次數(shù)達(dá)到一定值后,算法整體的結(jié)果基本趨于穩(wěn)定。由于每匹狼的性能有差異,為了進(jìn)一步考察整體狼群性能,將迭代次數(shù)從1變化到500,選取20匹狼的平均RMSECV作為評價(jià)標(biāo)準(zhǔn),得到了玉米樣品中蛋白質(zhì)組分的平均RMSECV隨著迭代次數(shù)的變化圖(如圖4)??梢钥闯觯?dāng)?shù)螖?shù)在1~50范圍內(nèi)時(shí),20匹狼的平均RMSECV下降很快。在50~300范圍內(nèi),20匹狼的平均RMSECV下降趨勢較快,并出現(xiàn)較大波動。300次以后,狼群的平均RMSECV不再隨著迭代次數(shù)變化,說明所有狼匹都聚集在獵物上,即已經(jīng)尋找到最佳值。因此,迭代次數(shù)確定為300。類似可以得到脂肪、水、淀粉的最佳迭代次數(shù)分別為350、340、340。
狼之所以能夠戰(zhàn)勝體形更大的生物,是因?yàn)槔侨后w協(xié)作的結(jié)果,因此狼群的數(shù)量會影響狼的作戰(zhàn)效果。同理,在GWO算法中,狼群數(shù)量也會影響GWO算法的性能。為了考察狼群性能與狼群數(shù)量的關(guān)系,將狼群以間隔為5的數(shù)量從5變化到100,以模型預(yù)測的RMSECV以及運(yùn)行時(shí)間作為評價(jià)模型預(yù)測的參數(shù),并得到了RMSECV以及運(yùn)行時(shí)間隨著狼群數(shù)量的變化圖。如圖5所示,可以看出RMSECV隨灰狼數(shù)量的變化波動較大,整體呈下降趨勢。當(dāng)灰狼數(shù)量為65時(shí),RMSECV值達(dá)到最低,當(dāng)灰狼數(shù)量超過65時(shí),RMSECV值隨灰狼數(shù)量的增加開始上升。由此可見當(dāng)灰狼數(shù)量為65時(shí)可得到滿意的結(jié)果。同理,可得到玉米樣品中其它組分的最佳狼群數(shù)量,即脂肪、水、淀粉組分的最佳狼群數(shù)分別為100、35、65。另一方面,從運(yùn)行時(shí)間來看,雖然運(yùn)行時(shí)間隨著狼群數(shù)量的增加基本呈直線上升,但即使灰狼數(shù)量高達(dá)100時(shí),運(yùn)行時(shí)間也不超過50 s,說明灰狼算法非常高效。因此,在選擇狼群數(shù)量時(shí),主要參考RMSECV指標(biāo),選取65為最佳狼群數(shù)量。
圖6顯示了玉米樣品不同組分變量選擇的分布圖,從上到下依次為蛋白質(zhì)、水、脂肪、淀粉組分。與未經(jīng)變量選擇的波長相比,蛋白質(zhì)組分經(jīng)過變量選擇后保留的變量數(shù)為19,水組分的變量數(shù)為14,脂肪組分的變量數(shù)為19,淀粉組分的變量數(shù)為34。而未經(jīng)變量選擇則有700個(gè)變量數(shù)。表明使用灰狼算法優(yōu)化后,每個(gè)組分的變量數(shù)明顯減少。這是由于變量選擇將原本存在于全波譜的與建模無關(guān)的變量剔除,保留了可用于建立模型的相關(guān)變量。經(jīng)過變量選擇后模型的預(yù)測精度有所提高,也大大簡化了模型計(jì)算量,從而驗(yàn)證了算法的可靠性。
采用GWO算法優(yōu)選波長變量,通過對灰狼算法的參數(shù)進(jìn)行優(yōu)化可得玉米樣品中蛋白質(zhì)、脂肪、水、淀粉4個(gè)組分的最佳迭代次數(shù)分別為300、350、340、340,最佳狼群數(shù)量分別為65、100、35、65。與直接進(jìn)行PLS建模的變量數(shù)相比,玉米樣品的蛋白質(zhì)、脂肪、水、淀粉這4個(gè)組分保留下來的波長數(shù)分別為19、19、14、34。將通過GWO算法進(jìn)行波長選擇保留下的變量數(shù)建立的PLS校正模型與全光譜建立的PLS校正模型進(jìn)行比較。模型性能指標(biāo)主要有預(yù)測均方根誤差(RMSEP)和相關(guān)系數(shù)(R)。RMSEP用于衡量預(yù)測值與真實(shí)值之間的偏差,R則用于反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo)。RMSEP和R值能反映模型的預(yù)測能力。RMSEP值越大,R越小,則模型的預(yù)測能力越好。計(jì)算結(jié)果如表1所示。玉米樣品的蛋白質(zhì)、脂肪、水、淀粉組分在進(jìn)行波長選擇前后RMSEP分別從0.245 8、0.122 4、0.339 8、1.105 8下降到0.147 7、0.080 1、0.176 2、0.739 8,RMSEP分別下降了40%、35%、48%、33%。相應(yīng)的R值在進(jìn)行波長選擇前后分別從0.876 9、0.748 9、0.665 8、0.593 5提高到0.957 0、0.896 1、0.876 9、0.730 7,R值分別提高了8%、16%、24%、19%。數(shù)據(jù)顯示經(jīng)過波長選擇保留的變量數(shù)建模后,RMSEP有很大程度的下降,而R值也有一定程度的提升。由此表明經(jīng)過變量選擇后的建模效果更好,模型的預(yù)測能力也得到提高。
表1 玉米數(shù)據(jù)不同建模方法結(jié)果的比較Table 1 Comparison of the results of different modeling methods for corn dataset
本文提出了基于GWO波長選擇的算法結(jié)合PLS建立的玉米樣品近紅外光譜模型,探究了全譜校正模型以及優(yōu)化組合校正模型對預(yù)測結(jié)果的影響。該方法以1/0組成的向量表示波長點(diǎn)的選擇與否,并作為GWO算法的輸入,從而選出需要進(jìn)行建模的最佳變量數(shù),并同時(shí)優(yōu)化灰狼算法的種群數(shù)及迭代次數(shù)。在最佳的變量數(shù)和優(yōu)化參數(shù)下分別對蛋白質(zhì)、脂肪、水分和淀粉組分進(jìn)行定量預(yù)測。結(jié)果表明,使用GWO波長選擇后的少量變量建模比全波長的PLS模型有更低的RMSEP值和更高的R值,運(yùn)行效率也更高。因此,GWO算法有望廣泛應(yīng)用于近紅外光譜的變量選擇。