趙艷莉 趙 倩 李志強(qiáng)
(1. 鄭州財稅金融職業(yè)學(xué)院,河南 鄭州 450000;2. 河南科技大學(xué),河南 洛陽 471000;3. 鄭州大學(xué),河南 鄭州 450001)
菠蘿,又稱鳳梨,屬于熱帶水果之一。近年來,芒果干、菠蘿干等水果干已成為家家戶戶喜愛的零食之一,其營養(yǎng)成分和口感不亞于新鮮水果。水果干制時,水分與糖分含量是評價其品質(zhì)的重要指標(biāo)之一,所以在收購和存貯果干過程中快速檢測其含水率非常重要。傳統(tǒng)的化學(xué)檢測方法存在工作繁瑣、耗費(fèi)時間很長、成本高的缺點,雖然這些檢測方法的準(zhǔn)確度基本上達(dá)到了要求,但檢測的準(zhǔn)確性與周圍環(huán)境有很大關(guān)系,已經(jīng)不能滿足現(xiàn)代市場經(jīng)濟(jì)發(fā)展的需求。近紅外光譜技術(shù)是近幾年發(fā)展起來的一項新技術(shù),被廣泛應(yīng)用于各個領(lǐng)域[1-3]。相對于常規(guī)的含水率檢測方法,近紅外光譜檢測技術(shù)有操作簡單、成本低,儀器占地面積小等優(yōu)點,而且還可以實現(xiàn)無前處理、無損快捷、無污染、可在線檢測和多組分同時檢測。
為了減少近紅外光譜中大量冗余信息,降低復(fù)雜度以及提高菠蘿含水率檢測模型的精度,研究擬提出一種基于連續(xù)投影法和麻雀搜索算法[4](sparrow search algorithm,SSA)優(yōu)化正則化極限學(xué)習(xí)機(jī)[5](regularized extreme learning machine,RELM)的菠蘿含水率檢測模型。
試驗所用菠蘿于2023年3月份采自廣東徐聞,切成厚度為9,10 mm的菠蘿片,立即用真空包裝袋封存帶回實驗室存于冰箱中。試驗時,取出菠蘿樣本于室溫(20 ℃左右)下靜置,待菠蘿溫度達(dá)到室溫時,并用干凈的抹布或紙巾將其表面水分擦拭干凈。其中厚度為9 mm的菠蘿采樣110份,厚度為10 mm的菠蘿采樣109份,共取得219份樣品。將樣品的70%用作訓(xùn)練集,剩下的30%用作測試集。
手持便攜式反射型光譜儀:NIR-S-G1型,布魯克光譜(BRUKER OPTICS)有限公司;
鹵素水分測定儀:VM-E01型,江蘇維科特儀器儀表有限公司。
1.3.1 近紅外光譜分析 近紅外光波長介于可見光和中紅外之間,范圍處于780~2 526 nm,光譜分布區(qū)間如圖1所示[6-7]。近紅外光譜區(qū)與含氫基團(tuán)(O—H、N—H、C—H)振動的合頻和各級倍頻的吸收區(qū)一致,因此掃描樣品的近紅外光譜可以得到樣品的結(jié)構(gòu)信息和組成信息。
圖1 光譜分布區(qū)間
光譜分析時,光源和檢測器放置于同一側(cè),光源發(fā)出光照射于待檢測樣品,光經(jīng)過待檢測樣品返回檢測器,計算出接收光與發(fā)射光的比值,即反射率。由于待測樣品的大小基本不會影響反射率的大小,因此近紅外光譜檢測易實現(xiàn)在線檢測。
1.3.2 建模思路 基于近紅外光譜的麻雀搜索算法改進(jìn)正則化極限學(xué)習(xí)機(jī)(SSA-RELM)的菠蘿含水率快速檢測的建模思路:
(1) 選擇試驗所用的菠蘿樣品。
(2) 菠蘿樣品切片,制成一定厚度的菠蘿片,運(yùn)用NIR-S-G1手持便攜式反射型光譜儀采集菠蘿樣品的近紅外光譜數(shù)據(jù)。
(3) 對菠蘿樣品的近紅外光譜數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理(多元散射校正以及特征波長篩選)。
(4) 建立菠蘿含水率的SSA-RELM快速檢測模型。
(5) 菠蘿含水率快速檢測模型的驗證。菠蘿含水率快速檢測建模流程圖如圖2所示。
圖2 菠蘿含水率快速檢測建模流程圖
1.3.3 SSA算法 在標(biāo)準(zhǔn)SSA中,N只麻雀組成的種群矩陣為:
X=[x1,x2,…,xN]T,xi=[xi,1,xi,2,…,xi,d],i=1,2,…,N,
(1)
式中:
X——麻雀種群位置向量矩陣;
xi——第i個麻雀個體位置;
T——矩陣轉(zhuǎn)置符號;
d——優(yōu)化問題的維數(shù);
N——麻雀的種群大小。
麻雀種群的適應(yīng)度值矩陣Fx可表示為:
Fx=[f(x1),f(x2),…,f(xN)]T,f(xi)=[f(xi,1),f(xi,2),…,f(xi,d)],
(2)
式中:
f(xi)——第i只麻雀的適應(yīng)度值。
麻雀個體的適應(yīng)度值越高,其獲取食物的優(yōu)先級就越高。適應(yīng)度高的麻雀個體會被當(dāng)作發(fā)現(xiàn)者,帶領(lǐng)麻雀群體靠近食物源。發(fā)現(xiàn)者的位置更新數(shù)學(xué)公式可表示為[8]:
(3)
式中:
t——麻雀搜索算法的當(dāng)前迭代次數(shù);
Tmax——麻雀搜索算法的最大迭代次數(shù);
α——隨機(jī)數(shù),α∈(0,1);
R2——預(yù)警值,R2∈[0,1];
ST——安全值,ST∈[0.5,1];
Q——正態(tài)分布的隨機(jī)數(shù),且Q∈[0,1];
L——元素全為1的1×d的矩陣。
當(dāng)R2 跟隨者的位置更新數(shù)學(xué)公式可表示為[9-10]: (4) 式中: A+——1×d的矩陣,矩陣中的元素隨機(jī)賦值為1或-1,其中A+=AT(AAT)-1。 在標(biāo)準(zhǔn)的SSA算法中,一般隨機(jī)選擇占麻雀總數(shù)量的10%~20%的F只麻雀作為預(yù)警者,預(yù)警者的位置更新數(shù)學(xué)公式可表示為: (5) 式中: β——步長控制參數(shù),β∈(0,1); K——運(yùn)動方位控制參數(shù),K∈[-1,1]; ε——最小常數(shù),防止分母出現(xiàn)0的情況; fi、fg和fw——當(dāng)算法迭代次數(shù)到第i次的適應(yīng)度值、最優(yōu)適應(yīng)度值和最差適應(yīng)度值。 當(dāng)fi>fg時,麻雀個體位于麻雀種群的邊緣,易被捕食者攻擊;當(dāng)fi=fg時,處于種群中心位置的麻雀個體意識到危險,向其他區(qū)域的麻雀個體靠近。 1.3.4 RELM模型 極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)的數(shù)學(xué)模型為[11]: (6) 式中: H——隱含層神經(jīng)元數(shù); ai,bi——第i個隱含層神經(jīng)元的輸入權(quán)重和偏置,其中ai∈Rn,bi∈R; G(ai,bi,x)——第i個隱含層神經(jīng)元的輸出函數(shù); βi——第i個隱含層神經(jīng)元對于輸出神經(jīng)元的權(quán)重系數(shù),其中βi∈R。 G(ai,bi,x)輸出函數(shù)可表示為: G(ai,bi,x)=g(ai·x+bi), (7) 式中: g(·)——激活函數(shù)。 (8) 式(8)的矩陣形式為: Wβ=Y, (9) 式中: s.t.:h(xl)β=yl-εl,l=1,2,…,N, (10) 式中: εl——訓(xùn)練偏差。 根據(jù)Karush-Kuhn-Tucker條件,式(10)可轉(zhuǎn)化為式(11)的雙重優(yōu)化問題[13]: (11) 此時β的最優(yōu)解為: (12) 式(12)代入式(8)可得,RELM模型的擬合回歸值為: (13) RELM模型的擬合回歸值主要取決于式(12)中的正則化因子λ、矩陣W和Y。 1.3.5 基于SSA-RELM的菠蘿含水率快速檢測模型 (1) 適應(yīng)度函數(shù):RELM模型的性能受初始參數(shù)(輸入權(quán)值ai和隱含層偏置bi)的影響。為改善RELM模型的性能,將SSA算法應(yīng)用于RELM模型參數(shù)選擇,選擇式(14)作為SSA算法優(yōu)化RELM模型的適應(yīng)度函數(shù): s.t.ai∈[aimin,aimax] bi∈[bimin,bimax], (14) 式中: n——訓(xùn)練樣本數(shù)量; x(i)、xp(i) ——第i個樣本的實際值和預(yù)測值; [aimin,aimax]、[bimin,bimax]——第i個初始輸入權(quán)值a和隱含層偏置b的尋優(yōu)區(qū)間,且a∈[-1,1]和b∈[-1,1]。 (2) 算法步驟:為實現(xiàn)菠蘿含水率的快速檢測,基于近紅外光譜的菠蘿含水率SSA-RELM快速檢測模型的算法步驟可具體描述為: Step1:讀取菠蘿近紅外光譜數(shù)據(jù)和含水率,光譜數(shù)據(jù)預(yù)處理以及光譜特征波長選擇,歸一化處理,并劃分訓(xùn)練集和測試集。 Step2:設(shè)定RELM模型參數(shù)和麻雀搜索算法參數(shù)并隨機(jī)初始化種群:發(fā)現(xiàn)者比例PD、預(yù)警值ST、偵察者比例SD、種群規(guī)模N、最大迭代次數(shù)Tmax,假設(shè)RELM模型的隱含層神經(jīng)元數(shù)為L,輸入層神經(jīng)元數(shù)為n,SSA算法的初始種群維數(shù)dim=L(n+1)。 Step3:計算每個麻雀個體的適應(yīng)度。將訓(xùn)練集代入RELM模型,按式(14)計算每個麻雀個體的適應(yīng)度并排序,找到當(dāng)前最優(yōu)適應(yīng)度值和最優(yōu)位置以及最差適應(yīng)度值和最差位置。 Step4:選擇發(fā)現(xiàn)者和跟隨者,并分別按式(3)和式(4)更新發(fā)現(xiàn)者位置和跟隨者位置。 Step5:隨機(jī)選擇預(yù)警者,并按式(5)更新預(yù)警者的位置。 Step6:判斷算法終止條件。若滿足終止條件,則輸出SSA算法的最優(yōu)適應(yīng)度和最優(yōu)位置,即對應(yīng)RELM模型的輸入層權(quán)值和隱含層偏置,將尋優(yōu)獲取的最佳參數(shù)代入RELM模型訓(xùn)練和測試;否則,返回Step2。基于近紅外光譜的SSA-RELM的菠蘿含水率快速檢測流程如圖3所示。 圖3 基于近紅外光譜的SSA-RELM的菠蘿含水率快速檢測流程圖 建立模型時用到的模型性能評價指標(biāo)一般包括訓(xùn)練集的相關(guān)系數(shù)(Rc)和測試集的相關(guān)系數(shù)(Rp),訓(xùn)練集的均方根誤差(RMSEC)和測試集的均方根誤差(RMSEP)。相關(guān)系數(shù)Rc和Rp的值越大,越接近1,則預(yù)測含水率的值與測量含水率的值之間的相關(guān)性越好。RMSEC用于測試模型對訓(xùn)練集樣本的預(yù)測能力,RMSEC值越小,則說明建立的模型的預(yù)測效果越好;RMSEP用于評估模型預(yù)測樣品目標(biāo)成分含量的能力,同理RMSEP越小,說明該模型對目標(biāo)信息的預(yù)測效果越好。相關(guān)系數(shù)Rc和Rp,均方根誤差RMSEC和RMSEP的計算公式為[14-15]: (15) (16) (17) (18) 式中: n、m——訓(xùn)練集和測試集的樣本數(shù); i——第i個樣本; yi——第i個樣本用標(biāo)準(zhǔn)方法測定的含水率實際值; f——RELM建模采用的主成分?jǐn)?shù)。 選擇多元散射校正(MSC)、移動平均平滑(Smooth)、一階導(dǎo)數(shù)、二階導(dǎo)數(shù)、標(biāo)準(zhǔn)正態(tài)變換(SNV)、歸一化(Nor)、標(biāo)準(zhǔn)化等多種預(yù)處理方法[12,16]進(jìn)行對比,找到菠蘿含水率最佳預(yù)處理方法。原始光譜圖和不同預(yù)處理光譜圖如圖4和表1所示。 表1 不同預(yù)處理方法的菠蘿含水率RELM模型檢測結(jié)果 圖4 原始光譜圖和不同預(yù)處理方法處理后的光譜圖 由表1可知,用原始光譜數(shù)據(jù)建立的菠蘿含水率模型測試集的預(yù)測效果是比較好的,但相對于經(jīng)過預(yù)處理之后的預(yù)測效果還是較差,其相關(guān)系數(shù)分別為0.990 2和0.986 4。由表1可以看出,經(jīng)過SNV、MSC、歸一化(Nor)、標(biāo)準(zhǔn)化和Smooth以及以上方法的組合這幾種預(yù)處理方法的測試集模型預(yù)測效果得到了較高的提升,所以經(jīng)過數(shù)據(jù)預(yù)處理一般是能夠提高模型預(yù)測精度的。其中經(jīng)過Smooth+MSC共同處理后的水分模型精度最好,RMSEC由0.037 7下降到0.023 5,相關(guān)系數(shù)Rc由0.990 2提高到0.996 1,RMSEP由0.038 8下降到0.023 4,相關(guān)系數(shù)Rp由0.986 4提高到0.994 6。通過對比,經(jīng)過Smooth+MSC預(yù)處理能夠提高訓(xùn)練集和測試集模型預(yù)測的精度。 針對菠蘿樣品的近紅外光譜數(shù)據(jù)存在維度高、冗余復(fù)雜的特點,在菠蘿含水率快速檢測模型建立之前,首先運(yùn)用連續(xù)投影法(SPA)、主成分分析法(PCA)和全波段(FS)對近紅外光譜數(shù)據(jù)進(jìn)行對比分析[17],從而確定菠蘿含水率近紅外光譜特征波長的篩選方法。同時為了確定RELM模型隱層神經(jīng)元數(shù),RELM模型的激活函數(shù)為sig函數(shù),初始隱層神經(jīng)元數(shù)為1,不斷增加,直到隱層神經(jīng)元數(shù)為50,不同隱層神經(jīng)元數(shù)和不同特征波長篩選的菠蘿含水率檢測準(zhǔn)確率如圖5所示。 圖5 隱層神經(jīng)元數(shù)與準(zhǔn)確率關(guān)系圖 由圖5可知,連續(xù)投影法—正則化極限學(xué)習(xí)機(jī)(SPA-RELM)模型的隱層神經(jīng)元數(shù)為30時,菠蘿含水率快速檢測的準(zhǔn)確率最高,故文中RELM模型的隱層神經(jīng)元數(shù)設(shè)定為30,特征篩選方式為SPA。 由圖6可知,菠蘿片厚度為9,10 mm時,其均方根誤差和相關(guān)系數(shù)取得綜合最優(yōu)。 圖6 菠蘿片厚度與精度的關(guān)系圖 為驗證SSA-RELM進(jìn)行菠蘿含水率快速檢測的有效性和可靠性,將SSA-RELM與遺傳算法改進(jìn)RELM(GA-RELM)、粒子群算法改進(jìn)RELM(PSO-RELM)和RELM進(jìn)行比較。通用參數(shù)設(shè)定:種群規(guī)模N=10,最大迭代次數(shù)T=100;SSA算法:發(fā)現(xiàn)者比例PD=0.2、預(yù)警值ST=0.8、偵察者比例SD=0.2;遺傳算法[18](genetic algorithm,GA):變異概率pm=0.1,交叉概率pc=0.7;粒子群算法[19](particle swarm optimization algorithm,PSO):學(xué)習(xí)因子c1=c2=2,慣性權(quán)重w=0.8;RELM模型[20-21]:輸入層神經(jīng)元數(shù)量N1=240、隱含層神經(jīng)元數(shù)量N2=30以及輸出層神經(jīng)元數(shù)量為N3=1。文中樣本共219組,按照70%∶30%的比例對219份樣本進(jìn)行劃分,劃分后得到訓(xùn)練集153份樣本,測試集66份樣本。菠蘿含水率快速檢測結(jié)果如圖7~圖10和表2所示。 表2 菠蘿含水率檢測結(jié)果 圖7 SSA-RELM檢測結(jié)果圖 圖8 GA-RELM檢測結(jié)果圖 圖9 PSO-RELM檢測結(jié)果圖 圖10 RELM檢測結(jié)果圖 由表2可知: (1) 從訓(xùn)練集和測試集的評價指標(biāo)來看,SSA-RELM模型的菠蘿含水率檢測效果優(yōu)于GA-RELM、PSO-RELM和RELM等模型,SSA-RELM模型的RMSEC最小且相關(guān)系數(shù)Rc和Rp最大,從而說明SSA-RELM模型的菠蘿含水率檢測精度最高,誤差最小。 (2) 通過SSA、GA和PSO等算法對RELM模型的參數(shù)進(jìn)行優(yōu)化選擇,可以有效提高RELM模型的菠蘿含水率檢測精度。 為提高菠蘿含水率檢測精度,提出了一種基于麻雀搜索算法改進(jìn)正則化極限學(xué)習(xí)機(jī)(SSA-RELM)的菠蘿含水率檢測模型。研究結(jié)果表明,與遺傳算法改進(jìn)正則化極限學(xué)習(xí)機(jī)(GA-RELM)、粒子群算法改進(jìn)正則化極限學(xué)習(xí)機(jī)(PSO-RELM)和正則化極限學(xué)習(xí)機(jī)(RELM)相比,SSA-RELM的菠蘿含水率檢測模型的檢測精度最高。然而通過智能算法優(yōu)化正則化極限學(xué)習(xí)機(jī)模型的復(fù)雜程度較高,對計算機(jī)的硬件配置要求較高,后續(xù)將從降低算法復(fù)雜度的角度去提升算法的計算效率和運(yùn)行速度,從而提高算法的實時性,便于實際推廣和工程應(yīng)用。2 實證分析
2.1 評價指標(biāo)
2.2 數(shù)據(jù)預(yù)處理
2.3 篩選特征波長
2.4 結(jié)果與分析
3 結(jié)論