武 斌,周樹斌,武小紅,賈紅雯
1. 滁州職業(yè)技術學院信息工程學院,安徽 滁州 239000 2. 江蘇大學科技信息研究所,江蘇 鎮(zhèn)江 212013 3. 江蘇大學電氣信息工程學院,江蘇 鎮(zhèn)江 212013
生菜是最為常見的綠色蔬菜之一,不僅為社會帶來了極大的經(jīng)濟效益,同時具有食用、藥用以及保健價值,富含抗氧化成分(如抗壞血酸、類胡蘿卜素)、膳食纖維以及礦物質元素(如鈣和鐵)等有益物質。生菜有益健康且便于食用,被消費者喜愛,保障市場上生菜的新鮮品質就很有必要。對于生菜的新鮮程度,生菜的儲存時間是重要的影響因素,生菜儲藏時間過長易積聚大量的硝酸鹽以及微生物,從而對人體健康構成潛在威脅。因此,對生菜的儲藏時間實現(xiàn)高效精準的鑒別就十分必要。
近紅外光譜技術是一種無損檢測技術,具有設備簡單、檢測速度快且綠色環(huán)保的特點。近年來,近紅外光譜技術以其優(yōu)越的性能在食品、農(nóng)業(yè)、石化等眾多領域得到了廣泛的應用[1-3]。例如: Subedi等利用近紅外光譜技術對鱷梨果實干物質(dry matter content,DMC)含量進行評估,DMC的增長率可以預測作物何時達到目標規(guī)格從而對果實的成熟度進行檢測,結果表明該技術可以用于確定果園區(qū)域的收獲順序[4]。Mo等利用可見近紅外和近紅外高光譜成像技術對鮮切生菜生物污染物進行鑒別,結果表明高光譜反射成像技術具有檢測新鮮生菜蠕蟲的潛力[5]。Sun等基于高光譜成像技術對番茄葉片鎘殘留量進行研究與分析,提出了一種涉及小波變換和最小二乘支持向量機回歸的方法來選擇最優(yōu)波長并建立檢測模型[6]。Bert等利用可見/近紅外反射光譜對野苣的前期貯藏期進行估算,通過偏最小二乘回歸將可見/近紅外光譜與存儲時間聯(lián)系起來,最終表明可見/近紅光譜技術可以作為一種有價值、快速和無損的方法來識別和量化野苣的前期貯藏期[7]。Shubhangi等利用近紅外光譜技術和分級聚類分析方法對昆蟲侵染的水稻品種進行鑒定分析[8]。近紅外光譜技術結合主成分分析(PCA)與排序判別分析實現(xiàn)了對紅富士、花牛蘋果的精準鑒別,為蘋果的鑒別分類提供了一種創(chuàng)新的方法思路[9]。武小紅等采用近紅外光譜技術,提出了一種模糊判別C均值聚類(fuzzy discriminant c-means,FDCM)算法完成了對蘋果品種的鑒別分類,證明了將近紅外光譜與PCA和FDCM相結合聚類可以成功區(qū)分蘋果品種的可行性[10]。武小紅等利用傅里葉變換近紅外光譜和Adaboost-ULDA對豬肉貯藏時間進行了準確預測[11]。
模糊聚類是非監(jiān)督學習的最重要方法之一,在常規(guī)聚類方面有明顯優(yōu)勢。模糊C均值聚類(FCM)算法、可能性C均值聚類(possibilistic c-means,PCM)是經(jīng)典的模糊聚類算法,但都具有一定的局限性[12],PCM相比于FCM處理噪聲性能更好,但對初始值比較敏感,而聯(lián)合模糊C均值聚類(AFCM)將FCM與PCM結合起來,能夠同時產(chǎn)生隸屬度和典型值,在更好地處理噪聲的同時,避免了一致性聚類,提高了聚類準確性[13]。在基于歐式距離測度的AFCM基礎上引入指數(shù)距離測度從而提出了一種GG聯(lián)合模糊聚類(GGAFCM)分析算法,并應用該算法進行不同儲藏時間生菜的模糊聚類分析。
首先使用傅里葉近紅外光譜儀采集不同儲藏時間生菜樣本的原始光譜,然后經(jīng)過主成分分析和模糊線性判別分析(FLDA)的數(shù)據(jù)降維處理和鑒別信息提取,最終通過GGAFCM聚類算法實現(xiàn)對不同儲藏時間生菜近紅外漫反射光譜數(shù)據(jù)的聚類分析。實驗結果表明,本方法可完成對不同儲藏時間生菜的快速準確鑒別。
共采集了60個生菜樣本,將其清潔處理后放入貼有標簽的保鮮袋內,而后置于5 ℃的冰箱內存儲,每隔一段時間將其取出進行近紅外漫反射光譜檢測,檢測時間間隔設定為12 h,共計3次,總獲取180個生菜的近紅外漫反射光譜。采集光譜時,實驗室溫度和相對濕度保持相對恒定。AntarisⅡ傅里葉近紅外光譜分析儀開機預熱1 h,通過反射積分球模式采集生菜的近紅外漫反射光譜,掃描各生菜樣品32次以獲取樣品的漫反射光譜均值。光譜掃描波數(shù)范圍介于10 000~4 000 cm-1之間,掃描間隔是3.857 cm-1,采集到的各個生菜樣品的光譜為1 557維的數(shù)據(jù)。為盡可能的減少實驗誤差,對各樣本采樣3次,取平均值作為后續(xù)研究所使用的最終實驗數(shù)據(jù)。采集到生菜樣本的近紅外漫反射光譜圖如圖1所示。
圖1 生菜樣本的近紅外光譜圖Fig.1 FT-NIR spectra of lettuce samples
GG聯(lián)合模糊聚類(GGAFCM)算法描述如下:
(2)計算參數(shù)γi
式中,n和c分別代表測試樣本數(shù)據(jù)的數(shù)量和類別數(shù)。
(3)進行以下迭代計算直至收斂:
步驟1 計算距離測度
步驟2 計算模糊隸屬度
步驟3 計算典型值
步驟4 計算聚類中心值
vi是第i類的聚類中心值; 模糊隸屬度值uik表示第k個樣本xk屬于類別i的模糊隸屬度值; 典型值tik表示第k個樣本xk屬于類別i的典型值。
采集到的生菜近紅外光譜數(shù)據(jù)中包含了大量的冗余信息,不利于后續(xù)的光譜分析,需要對其進行降維壓縮處理。通過PCA將生菜光譜數(shù)據(jù)由1557維壓縮至22維時的累積貢獻率達到99.99%,剔除光譜數(shù)據(jù)中絕大部分無用的冗余信息。將生菜樣本分為三種類型的儲藏時間,即“儲藏時間1”、“儲藏時間2”、“儲藏時間3”,其依次代表了第1次采集生菜近紅外漫反射光譜,再每隔12 h各采集一次生菜近紅外光譜。根據(jù)儲藏時間的不同將生菜的光譜數(shù)據(jù)分為3類,每類光譜數(shù)據(jù)60個,共計180個生菜的近紅外漫反射光譜數(shù)據(jù)。從每類生菜樣本中選取30個樣本作為訓練樣本,即訓練集樣本數(shù)為90個,同樣選取30個樣本作為測試樣本,即測試集樣本數(shù)為90個。所有程序的設計和運行采用Matlab7.0軟件。
而后通過模糊線性判別分析(FLDA)方法對降維的光譜數(shù)據(jù)進行特征提取以便于提取出有用的鑒別信息。設置訓練樣本數(shù)為N1=90,測試樣本數(shù)為n=90,權重指數(shù)m=2,類別數(shù)c=3,鑒別向量(由訓練集樣本計算得出)數(shù)為2,經(jīng)FLDA將22維的測試集樣本投影到其鑒別向量上得到了新的測試樣本,其得分圖如圖2所示。其中“*,o,+”分別代表了“儲藏時間1”、“儲藏時間2”和“儲藏時間3”等三種類型的生菜數(shù)據(jù)。觀察得分圖可知,三類生菜測試樣本中,“儲藏時間1”和“儲藏時間2”的生菜光譜數(shù)據(jù)存在部分重疊的現(xiàn)象,而“儲藏時間3”的數(shù)據(jù)則與另外兩類數(shù)據(jù)基本不存在重疊。數(shù)據(jù)的部分重疊會使得生菜數(shù)據(jù)在分類時存在一定的誤分類。
圖2 FLDA得分圖Fig.2 Scores plot of FLDA
2.2.1 設置聚類分析初始參數(shù)
GGAFCM和AFCM的初始參數(shù)設置為: 測試集樣本數(shù)為n=90,模糊加權參數(shù)m=2,系數(shù)a=1,b=1,類別數(shù)c=3;ε=0.000 01; 最大迭代次數(shù)rmax=100,初始迭代計數(shù)器r0=1; 對圖2得到的二維光譜數(shù)據(jù)運行模糊C均值聚類(FCM),將FCM得到的模糊隸屬度值和聚類中心值分別作為GGAFCM和AFCM的初始模糊隸屬度值和初始聚類中心。
2.2.2 生菜儲藏時間鑒別分類
把經(jīng)過FLDA處理后的新的測試樣本數(shù)據(jù)作為模糊聚類分析的數(shù)據(jù)樣本。GGAFCM的模糊隸屬度和典型值分別如圖3和圖4所示。在權重指數(shù)均為m=2的情況下,運行FCM后的模糊隸屬度聚類準確率為91.11%,GGAFCM的模糊隸屬度和典型值鑒別準確率均為95.56%,AFCM的模糊隸屬度和典型值鑒別準確率均為91.11%??芍珿GAFCM具有更高的鑒別準確率,AFCM與FCM的鑒別準確率相同。GGAFCM迭代4次達到收斂,AFCM與FCM均為8次達到收斂。GGAFCM收斂速度比AFCM和FCM更快。
圖3 GGAFCM模糊隸屬度值Fig.3 Fuzzy membership values from GGAFCM
圖4 GGAFCM典型值Fig.4 Typical values from GGAFCM
在聯(lián)合模糊C均值聚類(AFCM)基礎上引入指數(shù)距離測度從而提出GG聯(lián)合模糊聚類(GGAFCM)分析算法。GGAFCM算法相比于FCM和AFCM算法鑒別準確率更高。實驗結果表明: 使用近紅外光譜技術對生菜進行檢測,結合主成分分析和模糊線性判別分析后,GGAFCM方法可對生菜存儲時間實現(xiàn)高效、精準的分類,相比于FCM和AFCM具有明顯更高的聚類準確率。