侯曉蕾 武小紅 武 斌 沈嘉棋 汪 鑫
(1.江蘇大學卓越學院,江蘇 鎮(zhèn)江 212013;2.江蘇大學電氣信息工程學院,江蘇 鎮(zhèn)江 212013;3.滁州職業(yè)技術學院信息工程學院,安徽 滁州 239000)
蔬菜作為日常生活中必不可少的食物,可為人體提供所需的膳食纖維和礦物質[1],也可有效防治各種疾病的發(fā)生[2-3]。然而,受限于當前的保鮮技術貯藏時間過長,生菜中的營養(yǎng)物質會受到不同程度的影響,降低其營養(yǎng)價值[4]。因此借助儀器和算法設計一種鑒別生菜貯藏時間的模型具有較高的研究價值。
徐曉霞等[5]通過對不同貯藏溫度下的鮮切生菜進行腐敗細菌分離,能較準確地判斷各種細菌的腐敗性及生菜的腐敗程度。劉勇等[6]利用偏最小二乘回歸系數法對波長進行特征提取,對比分析了特征波長和全波長下香腸中亞硝酸鹽含量預測模型的檢測精度。胡亞南等[7]針對食品包裝機袋膜張力較難控制問題,設計了一種模糊分數階PID袋膜張力控制系統(tǒng),該控制系統(tǒng)能夠滿足包裝機袋膜張力控制精度和穩(wěn)定性需求;王敏等[8]利用電子鼻獲取食品的氣味變化,該技術可以實現無損、低成本、實時地檢測冰箱中食品的新鮮度;張桂君等[9]對保鮮技術進行了整理歸納與優(yōu)點判斷,并對此研究方向的未來進行了展望。
然而關于生菜貯藏時間和新鮮度的相關研究相對較少。祝紅等[10]通過對電子鼻的傳感器響應值進行PCA方法的分析,明顯區(qū)分出不同貯藏條件下的鮮濕米粉樣品,但其經濟成本仍較高。汪天宇等[11]利用模糊聚類算法計算出相應對象數據集合的聚類中心與試驗樣本對相應聚類中心的隸屬度,按照最大隸屬度原則實現對山核桃外殼、內隔(隔、殼內壁等)和核桃仁的合理分類;試驗擬分別采用主成分分析(PCA)、鑒別主成分分析(DPCA),以及將模糊集理論與DPCA結合的模糊鑒別主成分分析(FDPCA),對數據進行特征提取,并使用K-最近鄰分類算法(KNN)建立生菜貯藏時間鑒別模型,以期尋找更為準確的生菜貯藏時間鑒別模型,為生菜的品質檢測提供依據。
1.1.1 材料與試劑
生菜:北山3號,挑選無腐爛蟲害、大小一致的生菜,市售。
1.1.2 主要儀器設備
低溫恒溫保鮮柜:MIR-554-PC型,日本三洋電機株式會社;
傅里葉變換近紅外光譜儀:AntarisⅡ型,美國賽默飛世爾儀器公司。
1.2.1 近紅外光譜采集
(1)材料準備:采集新鮮生菜樣本60個,放入貼有標簽的保鮮袋中,隨后放入4 ℃保鮮柜中貯藏備用。
(2)儀器預熱:為減小試驗誤差,保證數據的可靠性,采集數據前將近紅外光譜儀開機預熱1 h,采集時保持實驗室溫度為20~25 ℃,相對濕度為70%。
(3)光譜掃描:利用反射積分球模式采集茶葉近紅外光譜,掃描次數32次,光譜波數4 000~10 000 cm-1,掃描間隔3.856 cm-1。每隔12 h取出所有樣本進行近紅外光譜檢測,共檢測3次,并分別記為貯藏時間1、貯藏時間2和貯藏時間3,共獲得180組近紅外光譜數據。其中訓練樣本60個(每類20個),測試樣本120個(每類40個)。
1.2.2 模糊鑒別主成分分析(FDPCA) FDPCA[12]是一種基于DPCA[13]和模糊集合理論[14]的特征提取算法。該算法包括以下步驟:
(1)聚類中心計算出每類訓練樣本的均值,將其作為聚類中心V。
(1)
式中:
vi——第i類訓練樣本的類中心值(其值與第i類訓練樣本的均值xmeani相等,即vi=xmeani)。
(2)
式中:
c——類別數;
vi——第i類訓練樣本的類中心值;
n——樣本數;
mf——權重系數,mf∈(1,+∞)。
(3)計算模糊類間離散度矩陣和模糊總體離散度矩陣。
(3)
(4)
式中:
SfB——模糊類間離散度矩陣;
SfT——模糊總體離散度矩陣;
(4)計算最大特征值和特征向量,選出最大特征值λ1和與之相對應的特征向量ψ1,并將ψ1作為最優(yōu)鑒別向量集的第一個向量。
(5)
式中:
λ——所求特征值集合;
ψ——所求特征向量集合。
(5)計算最優(yōu)鑒別向量集,根據前r個最優(yōu)鑒別向量ψ1,ψ2,…,ψr(r≥1)計算得到第(r+1)個最優(yōu)鑒別向量ψr+1,進而獲得p(p>r)個最優(yōu)鑒別向量組成最優(yōu)鑒別向量集ψ={ψ1,ψ2,…,ψp}。
(6)
(7)
(8)
ψ=[ψ1,ψ2,…,ψr]T,
(9)
式中:
ψr+1——第(r+1)個最優(yōu)鑒別向量;
β——第(r+1)個最優(yōu)鑒別向量所對應的特征值;
I——單位矩陣;
ψ——最優(yōu)鑒別向量集。
(6)測試樣本的線性轉換。
Y=[ψ1,ψ2,…,ψp]TX,
(10)
式中:
X——測試樣本;
Y——測試樣本投影到最優(yōu)鑒別向量集上得到的投影樣本。
1.2.3 準確度比較 為了比較 PCA、DPCA、FDPCA的準確度差異,控制以下兩個參數變量,計算并繪制準確度變化圖:權重指數mf為2,K近鄰分類器的參數K分別取1,3,5,7,9,11,13,15,17;K近鄰分類器的參數K為5,權重指數mf分別取2.0,2.1,2.2,2.3,2.4,2.5,3.0,3.5,4.0,4.5。
1.2.4 數據處理 利用多元散射校正技術(MSC)對未分類的原始光譜數據進行預處理,旨在削弱溫度、濕度等其他因素對數據采集的影響;分別利用PCA、DPCA和FDPCA對校正后的數據進行特征提取,以實現數據降維;利用K-最近鄰分類算法分類,進而建立生菜貯藏時間鑒別模型。
利用近紅外光譜儀分別采集3類貯藏時間生菜樣本的近紅外光譜數據,FT-NIR圖如圖1所示。由圖1可知,隨著貯藏時間的推移,生菜樣本在同一波數下的吸光度略有降低。除了包含對數據分析有價值的生菜化學成分的光譜吸收數據信息外,圖1中還摻雜著影響數據分析準確度的光散射信息,因此,需要對原始數據進行預處理,使有用信息得到加強。
近紅外光譜儀所獲數據不能直接用于生菜貯藏時間的分類[14]。當光譜儀長期用于數據采集時,溫度和濕度[15]等因素會對傳感器的靈敏性造成一定干擾,可能存在一定偏差。為此,利用多元散射校正(MSC)對原始數據進行預處理,以削弱溫度和濕度等因素對數據的影響,確保數據的真實性。對圖1進行MSC處理后的光譜如圖2所示。由圖2可知,MSC預處理可有效降噪。
圖1 3類生菜樣本近紅外光譜圖
圖2 MSC預處理后生菜近紅外光譜圖
結合主成分分析與鑒別分析,DPCA主要致力于尋找一組最優(yōu)判別向量進行最優(yōu)轉換,對MSC處理后的1 557維光譜數據進行降維,獲得由4個最優(yōu)判別向量組成的最優(yōu)判別向量集,結合KNN算法對數據分類,測試樣本分類情況如圖3所示。其中,貯藏時間1與貯藏時間2有10處以上重疊,重疊樣本越多越不利于提高準確度。
圖3 DPCA測試樣本分類情況
由圖4可知,120個樣本在所屬類別的模糊隸屬度均>0.5,在非所屬類別的模糊隸屬度均<0.5。
圖4 FDPCA模糊隸屬度
基于FDPCA的樣本分類情況如圖5所示。相較于DPCA,FDPCA中相同類型的數據集群仍然緊密地聚合,且貯藏時間1與貯藏時間2僅有3處重疊,說明基于模糊理論的FDPCA對分類較為有益,尤其是在集群分布重疊的區(qū)域,FDPCA可以對這些重疊的數據點分配權重,降低數據結構的復雜性,提高分類的準確性。
圖5 FDPCA測試樣本分類情況
設置維數為6,9,12,15,18,20,尋找分類準確度最大值時的最優(yōu)維數,結果如表1所示。由表1可知,將1 557維數據降至20維,PCA、DPCA和FDPCA的分類準確度均達到最大值。
表1 PCA, DPCA和FDPCA在不同維數下的分類準確度
由圖6和圖7可知,當K近鄰分類器的參數K與權重指數mf取不同值時,FDPCA的分類準確度均高于DPCA和PCA的,其中K近鄰分類器的參數K取5,權重指數mf取2時,FDPCA、DPCA、PCA的最高準確度分別為93.33%,86.67%,46.67%。設置K近鄰分類器的參數K為5,將預處理后的1 557維數據直接進行KNN分類,其準確度僅為35%,可能是高維數據無法排除無關甚至有干擾性的特征。因此,基于FDPCA的生菜貯藏時間鑒別模型能夠有效提取數據特征,提高分類準確度。
圖6 權重指數mf=2,分類準確度隨K近鄰分類器的參數K的變化
圖7 K近鄰分類器的參數K=2,分類準確度隨權重指數的變化
經過對比主成分分析、鑒別主成分分析,以及將模糊集理論與鑒別主成分分析結合的模糊鑒別主成分分析3種算法的鑒別準確度,確定了一種基于近紅外光譜分析的生菜貯藏時間鑒別系統(tǒng)。結果表明:當K近鄰分類器的參數K=5,權重指數為2時,模糊鑒別主成分分析的準確度最高為93.33%;當K近鄰分類器的參數K=1,權重指數為2時,鑒別主成分分析和主成分分析的最高準確度分別為86.67%,46.67%。通過比較,不同參數設定下利用模糊鑒別主成分分析進行特征提取后的鑒別準確度均顯著高于鑒別主成分分析和主成分分析,且與未降維原始數據分類準確度35%相比,模糊鑒別主成分分析在提高鑒別準確度方面發(fā)揮重要作用,即結合模糊鑒別主成分分析和K近鄰算法分類器是一種有效鑒別生菜貯藏時間的方法。但該模型不能忽略復雜貯藏條件對最終分類結果的影響,后續(xù)可將貯藏條件量化,作為變量引入降維后的變量列表中,確定權重后再分類,以此解決復雜貯藏條件引起的誤差。