李 楠 楊春杰
(1. 運城學院生命科學系,山西 運城 044000;2. 運城學院機電工程系,山西 運城 044000)
小米又稱粟(米),禾本科狗尾草屬[1]。在中國,作為五谷之一的小米有著悠久的食用歷史,數(shù)千年來一直作為傳統(tǒng)主食養(yǎng)育了中國北方文明,在現(xiàn)代仍是主要雜糧之一[2]。小米的產(chǎn)地來源與其品質(zhì)密切相關,地域特色小米具有反映該區(qū)域自然環(huán)境的特有品質(zhì),中國已出現(xiàn)許多名優(yōu)原產(chǎn)地域小米產(chǎn)品群落。假冒產(chǎn)地不僅損害消費者和企業(yè)利益,同時也增加了食品安全問題追溯與風險管理難度[3]。農(nóng)產(chǎn)品產(chǎn)地溯源方法主要包括特定化學成分(如礦物元素、同位素、多酚、糖、氨基酸等)差異分析的破壞性溯源方法和光譜、仿生(電子鼻、電子舌)、介電特性、核磁共振檢測等無損溯源方法[4]。其中,近紅外光譜技術因其高效、無損、環(huán)保等優(yōu)點已成為近幾十年來發(fā)展最迅速的無損檢測技術之一,也被認為是當前經(jīng)濟性最高的食品溯源技術[4-8]。近紅外光譜技術已被應用于茶葉[9-10]、橄欖油[11]、肉類[12-14]、酒類[15-17]等食品的產(chǎn)地溯源研究,顯現(xiàn)出較好的應用前景。目前,采用近紅外、高光譜、拉曼光譜等光譜技術的小米產(chǎn)地溯源研究較少,同時這些研究多存在樣本數(shù)量較少[18-20]、樣本產(chǎn)地來源偏少[18-22]、模型預測準確率偏低[18]等問題。此外,相關研究多使用體積大、價格高的精密型近紅外光譜儀,在實際應用方面存在一定局限。因此,研究擬以來源于11個主產(chǎn)省份的150份小米樣品為研究對象,采用便攜式近紅外光譜儀檢測樣品,同時為了提高模型準確率和泛化能力,采用魯棒主成分分析(rPCA)識別異常數(shù)據(jù),并采用DUPLEX方法劃分樣本集,進而比較主成分分析、線性判別、人工神經(jīng)網(wǎng)絡等模式識別方法的分類結(jié)果,為利用近紅外光譜技術實現(xiàn)小米產(chǎn)地溯源提供參考。
小米樣品:采集于中國11個省份,涵蓋所有國內(nèi)小米主產(chǎn)地(見表1)。小米采集后鋁箔袋真空密封,4 ℃保存。
便攜式近紅外谷物分析儀:ZX-50IQ型,美國Zeltex公司;
真空封口機:RS-BZ11A型,合肥榮事達電子電器集團有限公司;
電子天平:FA1604型,上海舜宇恒平科學儀器公司。
1.3.1 光譜采集 樣品預先放置于25 ℃環(huán)境自然升溫至室溫。近紅外分析儀開機預熱30 min后校準。每次測量時,稱取50.0 g樣品,均勻置于樣品杯,然后放于樣品室關閉遮光罩進行測量。每個樣品測量3次,取平均值作為最終分析光譜值。
1.3.2 數(shù)據(jù)分析 采用魯棒主成分分析(rPCA)方法剔除樣品光譜數(shù)據(jù)異常值后,使用DUPLEX方法將數(shù)據(jù)按3∶1劃分為訓練集和預測集,最后對數(shù)據(jù)進行主成分分析(PCA)、費舍爾線性判別分析(LDA)及多層感知器神經(jīng)網(wǎng)絡(MLP-NN)建模識別分析。建模分析采用SPSS20軟件;異常值檢測、訓練集及預測集劃分采用Matlab R2015b軟件。
由圖1可知,不同樣本的光譜形狀具有相似性,但吸收峰的位置均存在一定的差異性,說明不同產(chǎn)地小米的組成成分存在差異,這些差異通過近紅外光對含氫基團(C—H、N—H、O—H、S—H等)振動的倍頻和組合頻吸收不同而生成差異化的紅外光譜圖。為保證光譜數(shù)據(jù)具有代表性,每個樣品測量3次,取平均值作為最終分析光譜值。由于試驗使用的便攜式近紅外分析儀只有14個近紅外波長,且小米樣品在不同波長下的吸光值均有差異,因此將全部波長數(shù)據(jù)用于后續(xù)分析。
表1 小米樣品產(chǎn)地及數(shù)量
圖1 不同產(chǎn)地小米近紅外光譜圖Figure 1 Near infrared spectra of millet samples from different origins
異常值會影響模型的可靠性,甚至會導致模型嚴重失真,因此在模型建立前需要識別并剔除異常值。魯棒主成分分析(rPCA)被用于識別異常值,該方法能夠高效識別出異常值[23]。首先計算每個樣品的主成分得分距離(SD)和正交距離(OD),然后將樣品分為4組:常規(guī)組(低SD低OD)、良好主成分轉(zhuǎn)換組(高SD低OD)、正交異常值組(低SD高OD)、不良主成分轉(zhuǎn)換組(高SD高OD),后兩組樣品不利于模型分析,被識別為異常值。如圖2所示,產(chǎn)自陜西的14個樣品中,2、7、9、13號共4個樣品異常值被檢出。同樣的方法識別其余樣品組異常值,最終得到131組數(shù)據(jù)用于進一步分析。
圖2 小米樣品魯棒主成分分析檢測異常值Figure 2 The outlier diagnosis obtained by rPCA for millet samples
主成分分析是一種無監(jiān)督的分析方法,在盡可能保證原有信息的前提下將多元數(shù)據(jù)降維轉(zhuǎn)化為少數(shù)新變量,減少數(shù)據(jù)冗余,進而方便理解和展示原有變量差異。依據(jù)前兩個主成分得到的PCA得分圖,可以直觀地表現(xiàn)原始數(shù)據(jù)所代表的樣本狀態(tài),樣品點的聚集、離散程度反映出樣品間的差異大小。如圖3所示,第一主成分的方差貢獻率為95.48%,第二主成分的方差貢獻率為4.22%,合計為99.70%,因此前兩個主成分可以充分反映原始數(shù)據(jù)信息。山西、河南、黑龍江3省內(nèi)的樣品點分布較為分散,其余省內(nèi)樣品點分布相對集中,說明來自于山西、河南、黑龍江3省樣品的省內(nèi)差異較大,其余省份樣品的省內(nèi)差異較小。同時,山西、河南、黑龍江3省樣品點與其余8個省份樣品點部分重疊,但8個省份樣品點分布相對獨立且界限清晰,說明除了山西、河南、黑龍江3省份樣品與部分省份樣品差異較小之外,其余省份樣品省間差異明顯。上述結(jié)果說明在主成分分析中,除山西、河南、黑龍江3省的樣品省內(nèi)差異較大導致難以區(qū)分省間差異外,其余省份的樣品均能依據(jù)省間差異區(qū)分省份產(chǎn)地。
圖3 不同產(chǎn)地小米樣品主成分分析二維圖Figure 3 PCA plot of millet samples with PC1 and PC2
2.4.1 訓練集及預測集劃分 雙向數(shù)據(jù)分組(DUPLEX)方法是一種計算機訓練集識別方法,該方法能保證訓練集中樣本按照空間距離均勻分布,保證訓練集樣本的代表性[24]。該方法的選取過程:① 選擇樣本組中歐式距離最大的兩個樣本劃入訓練集;② 在余下的樣本組中,選擇歐式距離最大的兩個樣本劃入預測集[25]。重復上述操作,直到滿足預測集所需的樣本數(shù),余下的樣本全部劃入訓練集。使用該方法最終由92個樣品組成訓練集,39個樣品組成預測集,具體結(jié)果見表2。
表2 利用DUPLEX方法的分組結(jié)果
2.4.2 費舍爾線性判別分析(FLDA) FLDA是一種有監(jiān)督的線性分類方法,將高維模式樣本投影到最佳鑒別矢量空間,降維的同時保證樣本有最大的類間距離和最小的類內(nèi)距離,使得各類樣品能夠更好的區(qū)分。在SPSS軟件中,將訓練集作為FLDA的變量輸入,產(chǎn)地信息作為判別輸出,利用Fisher函數(shù)、wilks'lambda變量選擇,采用步進判別法進行分析,結(jié)果見表3。訓練集中對不同樣品產(chǎn)地溯源的平均正確率為100.0%,預測集中對不同樣品產(chǎn)地溯源的平均正確率為84.6%,其中來源于內(nèi)蒙古的3個樣品產(chǎn)地預測全部錯誤。以上結(jié)果表明建立的FLDA模型在訓練集上表現(xiàn)良好,但對測試集數(shù)據(jù)表現(xiàn)一般,模型的泛化能力較差,有可能是訓練集樣本數(shù)量不足或特征波長選擇不合適導致了模型的過擬合。
表3 訓練集和測試集的費舍爾線性判別分析結(jié)果
2.4.3 多層感知器神經(jīng)網(wǎng)絡分析(MLP-NN) MLP-NN是一種前饋式有監(jiān)督神經(jīng)網(wǎng)絡,由一個輸入層、一個輸出層以及一個或多個隱藏層組成。作為神經(jīng)網(wǎng)絡方法中最有影響的方法之一,MLP-NN具有從訓練數(shù)據(jù)中學習復雜非線性映射的能力,能夠發(fā)現(xiàn)數(shù)據(jù)間復雜的關系。利用訓練集數(shù)據(jù)構(gòu)建MLP-NN模型,隱藏層和輸出層的激活函數(shù)分別為雙曲正切和Softmax,隱藏層層數(shù)為1,單位數(shù)為50,優(yōu)化算法為調(diào)整的共軛梯度。結(jié)果見表4,訓練集中對樣品產(chǎn)地溯源的平均正確為95.7%,預測集中對樣品產(chǎn)地溯源的平均正確率為92.3%。以上結(jié)果表明建立的MLP-NN模型具有較高的準確度和可靠性,因此,相較于建立的FLDA判別模型,基于MLP-NN判別模型的近紅外光譜技術可有效應用于小米的產(chǎn)地溯源。
以產(chǎn)地相對全面的小米樣品為研究對象,采用便攜式近紅外光譜儀檢測樣品,建立了基于近紅外光譜技術的小米產(chǎn)地多層感知器神經(jīng)網(wǎng)絡、費舍爾線性判別模型。結(jié)果顯示:多層感知器神經(jīng)網(wǎng)絡模型優(yōu)于費舍爾線性判別模型,費舍爾線性判別模型準確度高,但泛化能力一般(測試集正確率為84.6%);多層感知器神經(jīng)網(wǎng)絡模型具有較高的準確度和可靠性(測試集正確率為92.3%)。因此,基于多層感知器神經(jīng)網(wǎng)絡模型的近紅外光譜技術可有效應用于小米的產(chǎn)地溯源。
研究中檢測近紅外波長以及算法模型都較少,后續(xù)研究應該擴展近紅外波長范圍(780~2 500 nm),優(yōu)選新的數(shù)據(jù)算法(數(shù)據(jù)預處理、特征波長選擇、建模方法等),進而深入揭示小米近紅外光譜數(shù)據(jù)、產(chǎn)地以及組成成分之間的關系。另外,小米的品質(zhì)除了受地域環(huán)境(如氣候、土壤等)影響外,還與基因(品種)、種植、管理和加工等因素相關,這些因素均能影響產(chǎn)地溯源的準確性。實際應用時需要考慮并克服這些因素,因此實際應用建模樣本的數(shù)量及來源會遠遠超過研究中的樣本,甚至需要建立規(guī)模龐大的樣本數(shù)據(jù)庫并持續(xù)完善以降低模型的預測風險。
表4 訓練集和測試集的多層感知器神經(jīng)網(wǎng)絡分析結(jié)果