胡春艷 于來行
(1. 周口職業(yè)技術學院,河南 周口 466300;2. 周口師范學院,河南 周口 466300)
近紅外光譜分析技術具有快速、高效、環(huán)保以及低成本等優(yōu)點,在食品、農(nóng)業(yè)、制藥工程和石油化工等領域得到了廣泛應用。已有學者[1]利用近紅外光譜技術對蘋果品質(zhì)評價進行了研究。目前蘋果品質(zhì)評價的方法主要有主成分回歸法、逐步多元線性回歸法以及偏最小二乘法等統(tǒng)計方法和人工神經(jīng)網(wǎng)絡法[2-4]。統(tǒng)計方法適合線性數(shù)據(jù)研究,但是針對非線性分類問題就不具備相應的優(yōu)勢。人工神經(jīng)網(wǎng)絡法適合非線性分類研究,但是存在過學習和易陷入局部最優(yōu)的問題,且無法解決光譜冗余信息帶來的復雜度較高的問題。
為了提高蘋果內(nèi)部品質(zhì)評價模型的精度,針對近紅外光譜存在大量冗余信息和預測精度較低的問題,提出一種基于連續(xù)投影法的特征波長篩選和灰狼優(yōu)化算法[5](grey wolf optimization algorithm,GWO)改進深度置信網(wǎng)絡[6](deep belief network,DBN)的蘋果品質(zhì)評價模型,旨在為蘋果內(nèi)部品質(zhì)評價提供新的方法。
試驗儀器采用美國Thermo Fisher公司的型號為Antaris II的近紅外檢測儀。該儀器集成了透射、反射、漫透射以及漫反射等不同檢測模塊,采用了Nicolet專利的高光通量、高速動態(tài)準直電磁式干涉儀,可以實現(xiàn)不同狀態(tài)下樣品的高效、精準的檢測與分析。Antaris II的近紅外檢測儀的光譜范圍為4 000~10 000 cm,掃描次數(shù)為64次,分辨率為8 cm。
DBN是概率網(wǎng)絡模型,屬于深度神經(jīng)網(wǎng)絡的一種。采用DBN不僅可以進行非監(jiān)督學習,同時還可以進行監(jiān)督學習。受限玻爾茲曼機(restricted boltzmann machine,RBM)是DBN的組成元件,一系列的RBM堆疊成DBN,圖1為DBN的結構圖。
圖1 DBN結構組成Figure 1 DBN structure compositions
由圖1可知,DBN是由多層RBM所構成的神經(jīng)網(wǎng)絡,其采用非監(jiān)督貪婪逐層方法來進行預訓練,獲得所對應的權值。v為顯層,作為輸入數(shù)據(jù);h為隱層,作為特征收集[7]。不同的顯層與隱層堆疊成不同的RBM,BP層為DBN的最后一層。
設(v,h)為DBN給定的狀態(tài),在DBN網(wǎng)絡中所有顯層與隱層單元二值變量i和j的能量函數(shù)E為
(1)
式中:
θ——參數(shù)w,a,b組成的集合;
a、b——顯層與隱層的偏置;
w——顯層與隱層的連接權重。
設K為訓練樣本數(shù),采用隨機梯度法求解對數(shù)似然函數(shù)L(θ)的最大值來確定參數(shù)θ的值θ*,即
(2)
參數(shù)確定之后,由能量函數(shù)可以得到顯層和隱層每一種狀態(tài)(v,h)的聯(lián)合概率分布函數(shù),即[5]
(3)
顯層v確定之后,隱層單元的激活概率p為
(4)
隱層h確定之后,顯層單元的激活概率p為
(5)
由Gibbs采樣定理得到RBM參數(shù)更新的規(guī)則,即
(6)
式中:
ε——學習速率;
〈·〉data、〈·〉recon——輸入數(shù)據(jù)和重構后數(shù)據(jù)的數(shù)學期望。
GWO算法中,灰狼個體被劃分為4個等級α、β、δ和ω。α負責整個狼群的決策與管理,β和δ為適應度次于α的灰狼個體,ω為除α、β、δ之外的灰狼個體。主要包括3種行為,分別為包圍行為、捕獵行為和攻擊行為[8]。
1.3.1 包圍行為 灰狼根據(jù)式(7)和式(8)包圍獵物:
D=|C·Xp(t)-X(t)|,C=2·r2,
(7)
X(t+1)=Xp(t)-A·D,A=2ac·r1-ac,
(8)
式中:
D——狼群和獵物之間的距離;
t——當前迭代次數(shù);
X——當前狼群的位置;
Xp——獵物的位置;
r1、r2——隨機數(shù),r1、r2∈[0,1];
ac——非線性收斂因子,ac∈[2,0]。
1.3.2 捕獵行為 包圍獵物之后,狼群將捕食獵物。如果α、β、δ依次為全局最優(yōu)解、全局第二解和全局第三解,則α、β、δ可以根據(jù)式(9)~式(11)進行重新定位[9]。
Dα=|C1·Xα-X|,
(9)
Dβ=|C2·Xβ-X|,
(10)
Dδ=|C3·Xδ-X|,
(11)
式中:
Dα、Dβ和Dδ——α、β、δ與當前解X的近似距離;
Xα、Xβ、Xδ——α、β、δ的位置;
C1、C2、C3——隨機向量。
當前解X和更新解X(t+1)為:
X1=Xα-A1·(Dα),
(12)
X2=Xβ-A2·(Dβ),
(13)
X3=Xδ-A3·(Dδ),
(14)
(15)
式中:
A1、A2、A3——隨機向量。
1.3.3 攻擊行為 狼群捕食獵物的最后階段就是攻擊捕獲獵物。當|A|≤1時,狼群接近獵物(X*,Y*),進行集中攻擊獵物;當|A|>1時,狼群遠離獵物,尋找新的獵物。該過程主要通過調(diào)節(jié)參數(shù)ac實現(xiàn)。
DBN模型的性能受其參數(shù)θ={w,a,b}選擇影響比較大,采用GWO算法對DBN模型參數(shù)θ={w,a,b}進行優(yōu)化,提高DBN模型的性能,將均方根誤差作為GWO-DBN的目標函數(shù)[10]:
(16)
式中:
k——訓練樣本的個數(shù);
x(k)——實際值;
p(k)——預測值;
wmin,wmax——w的上限和下限;
amin,amax——a的上限和下限;
bmin,bmax——b的上限和下限。
運用GWO算法隨機產(chǎn)生參數(shù)θ={w,a,b},將不同參數(shù)θ={w,a,b}帶入DBN模型進行訓練,將均方根誤差最小時的對應的參數(shù)θ={w,a,b}輸出,建立基于DBN模型的蘋果內(nèi)部品質(zhì)評價模型。
基于近紅外光譜的GWO-DBN的蘋果內(nèi)部品質(zhì)評價建模流程可以描述:
① 選擇蘋果樣品;
② 采集蘋果的近紅外光譜;
③ 光譜數(shù)據(jù)預處理[多元散射校正(MSC)預處理、特征波長篩選];
④ 建立基于GWO-DBN的蘋果內(nèi)部品質(zhì)評價模型;
⑤ 蘋果內(nèi)部品質(zhì)評價模型的驗證。
蘋果原料選擇2021年山東煙臺紅富士成熟蘋果為研究對象,隨機挑選234個大小相似且無機械損傷的蘋果進行清洗、削皮和均勻切片,切片厚度為5 mm,將蘋果切片置于0.5 g/100 mL抗壞血酸鈉溶液中浸泡30 min,之后蘋果薄片放入65 ℃烘箱,熱風干燥處理6 h,共得到234組樣本數(shù)據(jù)。
光譜的預處理方法有:一階導數(shù)算法(FD)預處理、二階導數(shù)算法(SD)預處理、標準正態(tài)變量變換算法預處理(SNV)和多元散射校正(MSC)預處理[11-12],原始數(shù)據(jù)和不同預處理方式對比結果如表1所示。蘋果原始光譜圖像如圖2所示。由表1可知,多元散射校正(MSC)處理結果最好,因此文中蘋果光譜采用MSC預處理,建模方法為DBN。
圖2 蘋果原始光譜Figure 2 Original spectrum of apple
表1 不同預處理建模效果對比Table 1 Comparison of modeling effects of different pretreatment
由于蘋果光譜數(shù)據(jù)具有維度高而復雜的特點,蘋果品質(zhì)評價模型建立之前先對光譜數(shù)據(jù)進行降維處理,文中分別對比全波段、主成分分析和連續(xù)投影法[13](SPA)篩選特征波長的結果,最終確定蘋果光譜特征波長篩選方法。特征波長篩選后建模效果對比如表2所示。由表2可知,連續(xù)投影法(SPA)特征波長篩選結果最好。運用SPA篩選蘋果光譜數(shù)據(jù)的特征波長,不同波長成分進行訓練時,正確率和均方根誤差與主數(shù)的關系圖如圖3所示。由圖3可知,當主成分數(shù)為13時,蘋果內(nèi)部品質(zhì)評價的正確率最高。
圖3 SPA特征篩選結果Figure 3 SPA feature selection results
表2 波長篩選結果對比Table 2 Comparison of wavelength screening results
為了驗證GWO-DBN模型的有效性和可靠性,將采集到的234組蘋果光譜劃分為校正集和預測集,校正集樣本163組,其中高品質(zhì)、中品質(zhì)和低品質(zhì)樣本分別為70,46,47組;預測集樣本71組,其中高品質(zhì)、中品質(zhì)和低品質(zhì)樣本分別為26,21,24組。根據(jù)維生素C含量、果實硬度、可滴定酸含量、可溶性固形物含量、可溶性糖含量、固酸比和糖酸比等7項理化指標,蘋果內(nèi)部品質(zhì)評價標準如表3所示。不同模型參數(shù)設定如下① GWO算法:種群規(guī)模N=20、最大迭代次數(shù)Tmax=100;② 粒子群(particle swarm optimization algorithm,PSO)算法:種群規(guī)模N=20、最大迭代次數(shù)Tmax=100、學習因子c1=c2=2、慣性權重w=0.2;③ 遺傳算法[14](genetic algorithm,GA)算法:最大迭代次數(shù)Tmax=100,種群規(guī)模N=10,變異概率pm=0.1,交叉概率pc=0.7。蘋果內(nèi)部品質(zhì)評價結果如圖4~圖7所示,訓練集和預測集的評價精度如表4所示。
表3 蘋果內(nèi)部品質(zhì)分級標準Table 3 Grading standard of apple quality
由圖4~圖7和表4可知,在訓練集和預測集上,GWO-DBN的準確率分別為92.02%和81.69%,優(yōu)于PSO-DBN、GA-DBN和DBN的。與單獨的DBN模型相比,GWO-DBN的蘋果內(nèi)部品質(zhì)評價的準確率分別提高了3.06%和7.04%,說明GWO-DBN可以有效提高蘋果內(nèi)部品質(zhì)評價的精度。
圖4 GWO-DBN評價結果Figure 4 GWO-DBN evaluation results
圖5 PSO-DBN評價結果Figure 5 PSO-DBN evaluation results
圖6 GA-DBN評價結果Figure 6 GA-DBN evaluation results
圖7 DBN評價結果Figure 7 DBN evaluation results
表4 不同模型評價結果Table 4 Evaluation results of different models %
為了進一步考察GWO-DBN法的有效性,將GWO-DBN與支持向量機(support vector machine,SVM)、網(wǎng)格搜索優(yōu)化支持向量機(Grid-SVM)和粒子群優(yōu)化支持向量機(PSO-SVM)進行對比,對比結果如表5所示。
表5 不同算法蘋果內(nèi)部品質(zhì)評價結果Table 5 Results of pork quality identification with different algorithms %
由表5可知,在訓練集和測試集上,GWO-DBN算法蘋果內(nèi)部品質(zhì)評價的正確率最高。在訓練集上,高品質(zhì)、中品質(zhì)和低品質(zhì)評價的正確率分別為96.15%,97.06%,96.15%;在測試集上,高品質(zhì)、中品質(zhì)和低品質(zhì)評價的正確率分別為100.00%,94.11%,92.31%,優(yōu)于PSO-SVM模型、Grid-SVM模型以及SVM模型的蘋果內(nèi)部品質(zhì)評價的正確率。
通過研究可知,GWO-DBN算法可以有效提高蘋果內(nèi)部品質(zhì)評價的正確率,為蘋果內(nèi)部品質(zhì)評價提供了新的方法。主要結論:① 蘋果內(nèi)部品質(zhì)評價時,近紅外光譜的預處理方式對評價精度有重要影響,其中多元散射校正(MSC)處理結果最好。② 蘋果光譜數(shù)據(jù)特征波長的選擇影響蘋果內(nèi)部品質(zhì)評價的結果,通過對比全波段和主成分分析法、連續(xù)投影法等特征波長篩選方法,發(fā)現(xiàn)連續(xù)投影法效果最好。③ 與DBN模型、GA-DBN模型和PSO-DBN模型相比,GWO-DBN可以有效提高蘋果內(nèi)部品質(zhì)評價的精度,與DBN模型相比,訓練集和測試集上的準確率分別提高了3.06%和7.04%。通過GA、PSO和GWO優(yōu)化DBN模型參數(shù),可以提高DBN模型的性能。④ 與PSO-SVM模型、Grid-SVM模型以及SVM模型相比,GWO-DBN在訓練集和測試集上,不同品質(zhì)的評價精度更高,主要因為DBN模型可以更好地提取蘋果光譜數(shù)據(jù)特征,加強了特征數(shù)據(jù)與品質(zhì)類別之間的映射關系。
為了提高蘋果內(nèi)部品質(zhì)評價的精度,提出一種連續(xù)投影法的特征波長篩選與灰狼優(yōu)化算法改進深度置信網(wǎng)絡的蘋果內(nèi)部品質(zhì)評價模型。針對深度置信網(wǎng)絡模型性能受參數(shù)設定的影響,運用灰狼優(yōu)化算法對深度置信網(wǎng)絡模型參數(shù)進行優(yōu)化選擇,提出一種連續(xù)投影法的特征波長篩選與灰狼優(yōu)化算法改進深度置信網(wǎng)絡的蘋果內(nèi)部品質(zhì)評價模型。與粒子群算法改進深度置信網(wǎng)絡、遺傳算法改進深度置信網(wǎng)絡和深度置信網(wǎng)絡相比,基于灰狼優(yōu)化算法改進深度置信網(wǎng)絡的蘋果內(nèi)部品質(zhì)評價模型可以有效提高蘋果內(nèi)部品質(zhì)評價的準確率。
雖然研究提出的算法可以有效提高蘋果內(nèi)部品質(zhì)評價的準確率,但是優(yōu)化效率有待進一步提高。后續(xù)將從深度置信網(wǎng)絡的內(nèi)部機制進行改進,運用支持向量機或者極限學習機替換為深度置信網(wǎng)絡的輸出層來提高深度置信網(wǎng)絡的執(zhí)行效率和泛化能力。