付娟娟 陳春茹 黃珍琳 孫 峰
大米貯藏是食品企業(yè)對大米進行加工到消費必不可少的中間環(huán)節(jié),貯藏時間與大米口感、價格等直接相關。脂肪酸含量是大米品質評估的重要指標,更決定著大米的市場價格。將復雜耗時的傳統(tǒng)方法替換為簡單高效的檢測方法已成為當前研究的熱門話題[1]。
高光譜檢測技術是近年來蓬勃發(fā)展起來的一種快速檢測方法,在食品檢測中應用越來越廣泛[2]。目前,高光譜成像技術被廣泛應用于食品檢測,在大米品質檢測中主要應用有蛋白質檢測、產地檢測等[3-4]。羅浩東等[5]提出將高光譜成像技術與主成分分析和支持向量機相結合用于大米產地快速檢測,該方法可以實現(xiàn)大米產地的快速無損檢測,具有較高的檢測準確率。王朝輝等[6]提出結合高光譜成像和偏最小二乘回歸檢測大米中蛋白質含量,該方法對大米中蛋白質含量分布的可視化研究具有可行性。翁士狀等[7]提出一種將高光譜成像技術和深度學習網(wǎng)絡相結合的名優(yōu)大米無損鑒別方法,該方法可以實現(xiàn)名優(yōu)大米種類的準確鑒別,具有較高的檢測準確率。孫俊等[8]提出將高光譜圖像、堆棧自動編碼器和支持向量機相結合用于大米蛋白質含量檢測,該方法可以有效融合深度特征,提高檢測的精度。上述方法雖然可以實現(xiàn)大米品質的無損檢測,但在實際應用中的檢測準確率和效率還有待進一步提高。
相比于傳統(tǒng)學習方法,最小二乘支持向量機具有結構簡單、精度高、運算速度快等優(yōu)勢,在食品檢測中應用廣泛,但其參數(shù)根據(jù)經(jīng)驗選取,增加了計算量和易陷入局部極值。細菌覓食算法具有收斂速度快、求解質量好、搜索能力強等特點。研究擬提出一種應用于大米品質的快速無損檢測,將高光譜技術、改進細菌覓食(bacterial foraging optimization,BFO)算法、最小二乘支持向量機(least squares support vector machine,LSSVM)相結合完成大米品質檢測。通過改進BFO對LSSVM的正則化參數(shù)和核參數(shù)進行尋優(yōu)。并與常規(guī)方法進行試驗對比分析,旨在為食品質量檢測方法的發(fā)展提供一定的參考和借鑒。
通過高光譜圖像采集系統(tǒng)采集大米高光譜數(shù)據(jù),采集系統(tǒng)如圖1所示。該系統(tǒng)主要由4部分組成,高光譜相機、鏡頭、計算機和光源。所測光譜包含477個波段(408.360~1 007.220 nm),系統(tǒng)通過黑箱采集大米圖像,降低外部光干擾,但高光譜相機采樣存在一定的噪聲干擾,為降低噪聲干擾,對高光譜采集圖像進行圖像預處理[9-10]。
圖1 高光譜圖像采集系統(tǒng)
首先通過高光譜圖像采集系統(tǒng)采集不同貯藏月份大米的光譜數(shù)據(jù),通過平均中心化(MC)進行數(shù)據(jù)預處理,通過連續(xù)投影算法(SPA)進行大米高光譜特征波長的提取,最后通過改進BFO算法優(yōu)化的LSSVM模型對脂肪酸含量進行檢測。圖像采集時設置物距為0.135 m,曝光時間為0.015 s,位移臺速度為1.62 mm/s。
為了降低外部噪音等干擾,對采集數(shù)據(jù)進行預處理,目前應用最廣泛的有3種方法:卷積平滑(SG)、平均中心化(MC)、多散射校正(MSC),通過對比分析,選擇平均中心化(MC)作為數(shù)據(jù)預處理方法[11-13]。高光譜數(shù)據(jù)包括光譜信息和圖像信息,數(shù)據(jù)量龐大,其中既包括貯藏大米脂肪酸信息,也包括不相關的信息。采用SPA進行大米高光譜特征波長的提取(26個波長)[14-15]。
LSSVM是針對支持向量機(SVM)的改進,將目標函數(shù)誤差的平方項作為優(yōu)化指標,利用等式約束加快求解速度,達到降低求解難度的目的[16-18]。對于樣本(xi,yi),使用與SVM相同的算法理論,構建了LSSVM的目標函數(shù),如式(1)所示。
(1)
式中:
ei——誤差;
γ——正則化參數(shù),可控制誤差精度;
ω——權矢量。
通過引入Lagrange算子,可轉化為:
(2)
進一步求解可得:
(3)
求解線性方程組可得式(4)。
(4)
式中:
I——單位列向量,I=[I1,I2,…,In]T;
K——核函數(shù);
E——單位矩陣,E=[1,1,…,1]T。
基于式(4)可以計算出Ii和b的值,進而可以計算LSSVM模型,如式(5)所示。
y=∑IiK(xi,xj)+b。
(5)
核函數(shù)的選擇非常重要,通過比較SVM的4種常用核函數(shù),發(fā)現(xiàn)RBF核函數(shù)可以在大米品質檢測中獲得最準確的結果。其使用范圍非常廣泛,采用RBF核函數(shù)作為LSSVM模型的核函數(shù)。
確定核函數(shù)后,LSSVM模型的求解問題可歸結為超參數(shù)(核函數(shù)參數(shù)K,正則化參數(shù)γ)的選取問題,其中核參數(shù)直接影響低維樣本數(shù)據(jù)在映射空間中的分布復雜度,正則化參數(shù)與模型對訓練樣本的擬合情況和模型的推廣能力相關。但參數(shù)根據(jù)經(jīng)驗選取,增加了計算量和易陷入局部極值。BFO算法具有魯棒性強、搜索能力強等優(yōu)點,通過改進BFO算法尋優(yōu)LSSVM核參數(shù)和正則化參數(shù)。
BFO通過趨化、聚集、復制和遷移來尋找最優(yōu)解。但其存在適用性不強、易陷入局部最優(yōu)等缺點[19]。通過兩個方面的優(yōu)化解決上述問題。
(6)
將得到的混沌趨化步長進行降序排序,以確保細菌與周圍環(huán)境相互作用,自適應地選擇趨勢化步長,以防止陷入局部最優(yōu)困境。
(2) 高斯變異操作:在當前細菌群體中的最佳位置Gbest應用高斯變異,生成變異位置GbestG。如式(7)所示。
GbestG=Gbest·(1+Gauss(0,1)),
(7)
式中:
Gauss (0,1)——標準正態(tài)分布。
在Gbest的基礎上添加高斯分布隨機擾動項,不僅可以使細菌擺脫局部最優(yōu)值并收斂到全局最優(yōu)值,而且可以提高收斂速度。
利用改進的BFO算法尋優(yōu)LSSVM模型參數(shù)(K和γ)的最優(yōu)值。大米品質檢測步驟:
步驟1:對采集的高光譜圖像進行數(shù)據(jù)集劃分,劃分為訓練集和測試集。
步驟2:對輸入的高光譜圖像進行特征提取。
步驟3:算法初始化。設置細菌個數(shù)、趨化因子次數(shù)、復制次數(shù)、遷移次數(shù)等。
步驟4:各細菌隨機產生一組K和γ值,計算其適應度值。
步驟5:進行趨化、聚集、復制和遷移操作。
步驟6:對結束條件進行判斷,達到輸出最優(yōu)參數(shù),否則重復步驟2~4。
步驟7:通過最優(yōu)參數(shù)構建LSSVM模型。
步驟8:采用模型對測試集進行測試,輸出大米品質參數(shù)。
貯藏大米品質檢測流程如圖2所示。
圖2 貯藏大米品質檢測流程
為了驗證試驗方法的優(yōu)勢和可行性,以黑龍江五常市上市1月新大米為研究對象,將其置于25 ℃恒溫箱中,模擬貯藏環(huán)境,恒溫箱共5個,以月為單位每月從各恒溫箱中取出8份20 g大米樣品進行數(shù)據(jù)采集,共獲得480份大米樣品。將數(shù)據(jù)集劃分為訓練集和測試集,比例為3∶1。研究的目的是建立大米品質快速無損檢測模型,用脂肪酸含量評估大米品質,脂肪酸含量實際值通過GB 5009.6—2016《食品安全國家標準 食品中脂肪的測定》進行測定,每個樣品測定5次,將平均值作為實際值。表1為不同貯藏時間大米脂肪酸含量均值。
表1 不同貯藏時間大米脂肪酸含量
設備采用華為PC,操作系統(tǒng)為Windows11 64位旗艦機,Intel i513400CPU,頻率4.0 GHz,高光譜采集系統(tǒng)的構成如表2所示。
表2 高光譜采集系統(tǒng)組成
通過大米樣本集的訓練對所提模型的初始參數(shù)進行微調,算法參數(shù)見表3。
表3 算法參數(shù)
模型性能的優(yōu)劣需要相關指標進行評價,選擇決定系數(shù)、均方根誤差和檢測時間來評估模型的性能。
決定系數(shù)(R2)的值越接近1,表示模型預測值越接近真實值,決定系數(shù)(R2)如式(8)所示。
(8)
式中:
R2——決定系數(shù);
n——樣本數(shù)。
均方根誤差(RMSE)值越小,則說明模型對待測樣本的檢測越接近實際值,均方根誤差(RMSE)如式(9)所示。
(9)
式中:
RMSE——均方根誤差,mg/100 g。
檢測時間為所有樣本檢測時間之和除以樣本總數(shù)作為模型運行速度的評估指標。
為了驗證改進BFO算法的尋優(yōu)能力,將其與優(yōu)化前的BFO算法進行比較分析,對LSSVM進行參數(shù)尋優(yōu),不同方法隨迭代次數(shù)變化的適應度值如圖3所示。
圖3 不同方法隨迭代次數(shù)變化的適應度值
從圖3可以看出,BFO算法在迭代55次左右時收斂,個體最優(yōu)適應度值最低,為1.602 5。所提改進BFO算法在迭代30次左右時收斂,個體最優(yōu)適應度值最低,為0.803 6,收斂精度較高。結果表明,通過混沌映射和高斯變異操作優(yōu)化BFO算法可以提高BFO算法在LSSVM模型參數(shù)尋優(yōu)中的收斂性,避免陷入局部極值。改進前后優(yōu)化參數(shù)如表4所示。
表4 改進前后參數(shù)優(yōu)化結果
為了驗證所提數(shù)據(jù)預處理方法的優(yōu)越性,將該方法數(shù)據(jù)預處理方法與卷積平滑(SG)、多散射校正(MSC)進行對比分析,檢測結果相關系數(shù)和均方根誤差如表5所示。
表5 光譜數(shù)據(jù)預處理結果
由表5可以看出,經(jīng)平均中心化(MC)預處理方法對光譜數(shù)據(jù)進行預處理,所建模型最佳。訓練集和測試集R2分別為0.950 2和0.940 5, RMSE分別為0.433 3和0.543 5。與SG和MSC光譜數(shù)據(jù)預處理方法相比,平均中心化(MC)訓練集R2分別提高了2.12%和2.50%,測試集R2分別提高了2.14%和4.43%,訓練集RMSE分別降低了22.69%和16.32%,測試集RMSE分別降低了36.57%和36.55%。
為了驗證所提特征提取方法的優(yōu)越性,將該方法和主成分分析法(PCA)進行對比分析,不同特征提取方法的檢測結果如表6所示。
表6 不同特征提取方法檢測結果
由表6可以看出,經(jīng)連續(xù)投影算法(SPA)對光譜數(shù)據(jù)進行特征提取,所建模型最佳。與PCA特征提取方法相比,連續(xù)投影算法(SPA)訓練集和測試集R2分別提高了1.02%和0.57%,訓練集和測試集RMSE分別降低了11.10%和27.11%。
為了進一步驗證改進BFO-LSSVM方法的有效性,將其與文獻[20]的AlexNet卷積神經(jīng)網(wǎng)絡進行對比分析,不同模型的檢測效果如圖4所示,不同方法的檢測結果如表7所示。
表7 不同方法檢測結果
圖4 不同方法檢測結果與實際值對比
由圖4和表7可知,改進BFO-LSSVM方法檢測的脂肪酸含量與貯藏大米脂肪酸實際值基本一致,優(yōu)于文獻[20]方法,與文獻[20]的高光譜圖像檢測方法相比,改進BFO-LSSVM方法具有優(yōu)異的R2、RMSE和平均檢測時間,R2提高了1.04%,RMSE下降了41.13%,平均檢測時間下降了65.00%。表明改進BFO-LSSVM方法在大米品質檢測中具有較好的性能,可用于大米品質的檢測。
研究提出將高光譜技術、改進細菌覓食算法和最小二乘支持向量機相結合用于貯藏大米品質的快速無損檢測。通過平均中心化對高光譜采集圖像進行數(shù)據(jù)預處理,通過連續(xù)投影算法完成特征波長的提取,結合改進細菌覓食算法和最小二乘支持向量機實現(xiàn)貯藏大米脂肪酸含量的檢測。結果表明,所提方法可以實現(xiàn)貯藏大米脂肪酸含量的快速無損檢測,具有較優(yōu)的決定系數(shù)、均方根誤差和平均檢測時間,相比于文獻[20]方法,決定系數(shù)提高了1.04%,均方根誤差降低了41.13%,平均檢測時間降低了65.00%,具有一定的實用價值。試驗僅對大米品質參數(shù)脂肪酸進行了檢測,后續(xù)可在此基礎上檢測大米水分、蛋白質等參數(shù),不斷完善和優(yōu)化所提方法。