鄧志揚,廖 強,邵淑娟,劉 軍,
(1.中國農(nóng)業(yè)大學(xué)食品科學(xué)與營養(yǎng)工程學(xué)院,北京 100083;2.菏澤市食品藥品檢驗檢測研究院,山東菏澤 274000)
山楂(Crataegus pinnatifidaBunge)在我國具有悠久的藥用以及食用歷史,山楂果實及其制品深受消費者歡迎[1]。我國的山楂品種資源豐富,據(jù)不完全統(tǒng)計約有500 余份,經(jīng)《中國果樹志·山楂卷》核實收載的代表性品種資源有142 份[2]。不同品種的山楂果實往往在感官品質(zhì)、營養(yǎng)成分等方面存在差異,適合不同的加工食用方式。例如,昌黎紫肉山楂果實大而整齊、果肉紫紅、味酸微甜,適宜鮮食;敞口山楂果實常加工制成山楂片,出片率高且質(zhì)量好[2]。因此,在加工前有必要對山楂果實品種進行鑒別,以適應(yīng)不同加工食用方式的要求。傳統(tǒng)的農(nóng)產(chǎn)品鑒別分類主要依賴感官品評或者理化鑒定,感官品評受主觀影響較大,而理化鑒定則步驟繁瑣且成本高[3]。近紅外光譜檢測技術(shù)具有無損、快速、高效、操作簡便等特點[4]。近紅外光譜在農(nóng)產(chǎn)品檢測中具有廣泛應(yīng)用,如產(chǎn)地鑒別[5],營養(yǎng)成分定量分析[6-8],霉變鑒定[9]等。
近紅外光譜數(shù)據(jù)包含信息復(fù)雜,解析困難。近紅外光譜主要采集C-H、O-H、N-H 等含氫基團的化學(xué)鍵伸縮振動的倍頻或合頻吸收所反映的光譜信息,該區(qū)域譜峰較寬且重疊嚴重,加之吸收強度低,因此難以得到分子中官能團的特征吸收峰[10]。合適的數(shù)據(jù)處理方法可有效分析光譜信息,構(gòu)建準(zhǔn)確率較高的預(yù)測模型。常用于鑒別農(nóng)產(chǎn)品品種的模型有偏最小二乘判別分析法(Partial Least Squares Discriminant Analysis,PLS-DA)、支持向量機(Support Vector Machine,SVM)和最小二乘支持向量機(Least Squares-Support Vector Machines,LS-SVM)等[11]。
自然語言處理(Natural Language Processing,NLP)的主要對象具有序列特性,如文本信息是文字按照語法規(guī)則的邏輯順序排列;語音信息是單位時間的音頻信號按照時間順序排列構(gòu)成的。NLP 模型大多有較強的序列信息處理能力[12]。近紅外光譜數(shù)據(jù)亦是一種序列數(shù)據(jù),是按照波長或波數(shù)的大小,將吸光度按順序排列構(gòu)成,因此,可考慮將NLP 運用到近紅外光譜數(shù)據(jù)解析。目前已有研究者將NLP 運用到農(nóng)產(chǎn)品的無損檢測中并取得了良好的效果,如長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)、門控循環(huán)單元(Gated Recurrent Unit,GRU)神經(jīng)網(wǎng)絡(luò)、時間卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)模型可根據(jù)草莓醬的中紅外光譜數(shù)據(jù)實現(xiàn)對草莓醬摻假的鑒別[13];卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)以及CNN-LSTM 模型可分析近紅外高光譜數(shù)據(jù),實現(xiàn)對新鮮茶葉中摻入陳年茶葉的鑒別[14]。
本研究將NLP 應(yīng)用于山楂果實的近紅外光譜數(shù)據(jù)解析,實現(xiàn)對山楂果實品種的無損鑒別。共采集了4 個品種240 個山楂果實樣本的近紅外光譜,訓(xùn)練模型,檢驗?zāi)P丸b別的準(zhǔn)確率,旨在為基于近紅外光譜的農(nóng)產(chǎn)品無損鑒別分析提供參考。
山里紅大果山楂果實 產(chǎn)自吉林四平;五棱大果山楂果實 產(chǎn)自山東煙臺;棉球大果山楂果實產(chǎn)自山東臨沂;甜紅子櫻桃山楂果實 產(chǎn)自山東臨沂。
Antaris II 型傅立葉變換近紅外光譜儀 賽默飛世爾(上海)儀器有限公司。
1.2.1 樣品預(yù)處理與近紅外光譜數(shù)據(jù)采集 對收集所得的不同品種山楂果實進行隨機取樣(n=60),山楂果實清水洗凈后擦去果實表面水分,將果實放置于近紅外光譜儀的光源中央,確保光源平行于山楂果實的赤道面照射,采集山楂果實的近紅外光譜數(shù)據(jù)。光譜采集參數(shù)為:分辨率4 cm-1;掃描信號次數(shù)32 次;掃描范圍10000~4000 cm-1。每次采集后將山楂果實以果柄為軸線旋轉(zhuǎn)120°,每個山楂果實樣本采集三個不同角度的光譜數(shù)據(jù),取對應(yīng)波數(shù)吸光度的平均值作為該樣本的近紅外光譜。
1.2.2 光譜數(shù)據(jù)的預(yù)處理 為提升模型的準(zhǔn)確性,使用主成分分析結(jié)合馬氏距離法剔除異常光譜[15],使用主成分分析法(Principal Component Analysis,PCA)、SG 濾波法(Savitzky-Golay,SG)、一階差分(Difference of First Order,D1)、二階差分(Difference of Second Order,D2)對山楂果實的近紅外光譜數(shù)據(jù)進行預(yù)處理,以提升模型的分類效果。
1.2.3 深度學(xué)習(xí)模型的搭建
1.2.3.1 長短期記憶網(wǎng)絡(luò) LSTM 是由循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)改進而來。RNN廣泛應(yīng)用于時間序列信息的處理,但其在訓(xùn)練中存在梯度消失的問題,即某一時刻的梯度無法很久地影響結(jié)果[16]。而LSTM 可通過添加的“遺忘機制”使得網(wǎng)絡(luò)對長序列信息的記憶更好,可有效解決長序列訓(xùn)練過程中的梯度消失和梯度爆炸問題[16]。LSTM 網(wǎng)絡(luò)的單元結(jié)構(gòu)如圖1 所示。
圖1 LSTM 單元結(jié)構(gòu)[17]Fig.1 Structure of LSTM unit[17]
其中xt為當(dāng)前時刻的輸入數(shù)據(jù),上一時刻的存儲單元信息ct-1以及上一時刻的隱藏層信息ht-1也作為t 時刻的輸入;當(dāng)前時刻的存儲單元信息ct以及隱藏層信息ht為t 時刻的輸出。it為輸入門,ft為遺忘門,ot為輸出門,通過遺忘門可以選擇性地記憶信息,從而對長序列信息有更好的記憶效果[12];激活函數(shù)tanh 可將實數(shù)輸入映射到[-1,1]范圍內(nèi)[18],σ表示sigmoid 激活函數(shù),可將實數(shù)輸入映射到[0,1]范圍,激活函數(shù)的作用為加入非線性因素,提高神經(jīng)網(wǎng)絡(luò)解決非線性問題的能力[19]。
本研究的山楂果實樣本數(shù)為240 個,采集的山楂果實的近紅外光譜數(shù)據(jù)序列較長,每個樣本的近紅外光譜數(shù)據(jù)包含1556 個波數(shù)下的吸光度,即為1556 維的向量,為序列數(shù)據(jù),因此采用LSTM 網(wǎng)絡(luò)模型對其進行分析。本研究中搭建的LSTM 模型結(jié)構(gòu)如圖2 所示。
圖2 LSTM 網(wǎng)絡(luò)模型Fig.2 LSTM network model
每個樣本的近紅外光譜數(shù)據(jù)按照時間步長被分成若干個向量(x1,x2,x3.......xt)后按順序輸入LSTM單元中,最后輸入全連接層Dense,再經(jīng)過Sigmoid函數(shù)計算后獲得分類結(jié)果。
1.2.3.2 門控循環(huán)單元網(wǎng)絡(luò) GRU 是LSTM 單元結(jié)構(gòu)的一種變體,是將LSTM 單元結(jié)構(gòu)的輸入門和遺忘門合并為更新門(Zt),輸出門改為重置門(rt)(圖3)[20]。因此,GRU 相較于LSTM 單元結(jié)構(gòu)簡單,參數(shù)更少,更便于訓(xùn)練。圖3 中Xt為本時刻輸入的向量,ht-1為上一時刻的輸出,ht為本時刻的輸出[21]。用GRU 代替圖2 中的LSTM 單元,可構(gòu)成GRU 神經(jīng)網(wǎng)絡(luò)模型。
圖3 門控循環(huán)單元[21]Fig.3 Gated recurrent unit[21]
1.2.4 傳統(tǒng)機器學(xué)習(xí)模型建立 本研究采用邏輯回歸、樸素貝葉斯、決策樹、K 近鄰算法四種NLP 常用的傳統(tǒng)機器學(xué)習(xí)模型對山楂果實的近紅外光譜數(shù)據(jù)進行分析。
1.2.4.1 邏輯回歸模型 邏輯回歸模型[22]的數(shù)學(xué)表達式如下所示:
其中,x 是自變量,w 是參數(shù),?是估計值。本研究將山楂果實的近紅外光譜特征作為多維自變量x,品種作為因變量y,建立邏輯回歸模型預(yù)測山楂果實的品種。
1.2.4.2 樸素貝葉斯模型 采用樸素貝葉斯模型對山楂果實樣本的近紅外光譜數(shù)據(jù)進行分析,以期實現(xiàn)山楂果實品種分類。設(shè)C 為山楂果實品種的集合,n 為品種數(shù),則集合為C={c1,c2,c3......cn}。x 為某一待分類山楂果實樣本的光譜特征集合x={a1,a2,a3.......am},m 為光譜的特征數(shù),依據(jù)貝葉斯定理,計算每個山楂果實品種對于該待分類山楂果實樣本的光譜特征集合x 的條件概率P(cj|a1,a2......am),其中j=1,2,.....m,條件概率中最大的一項的類即為待分類山楂果實樣本所屬的品種[23]。
1.2.4.3 決策樹模型 采用決策樹模型從根節(jié)點出發(fā)對待分析山楂果實樣本的近紅外光譜的一個特征進行判斷,根據(jù)判斷的結(jié)果分配到子節(jié)點中,進而對山楂果實樣本的近紅外光譜的下一個特征進行判斷分類,如此循環(huán),直到將最后一個特征分配到帶有山楂果實品種標(biāo)簽的葉子節(jié)點中,實現(xiàn)山楂果實品種的分類[24]。
1.2.4.4 K 近鄰算法 K 近鄰算法根據(jù)距離函數(shù)計算待分類的山楂果實樣本近紅外光譜X 與訓(xùn)練集中每個山楂果實樣本的近紅外光譜之間的距離,選擇與待分類山楂果實樣本距離最小的K 個樣本作為X 的K 個最近鄰,最后依據(jù)X 的近鄰中的大多數(shù)樣本的類別作為X 的類別[25]。
1.2.5 數(shù)據(jù)集劃分與模型評價驗證 將數(shù)據(jù)集按照訓(xùn)練集:驗證集:測試集=6:2:2 劃分,訓(xùn)練集用于模型的擬合調(diào)試,驗證集用于模型超參數(shù)的調(diào)整,測試集不參與模型的調(diào)試只用于檢驗?zāi)P偷念A(yù)測能力。采用外部驗證法以驗證集和測試集預(yù)測的準(zhǔn)確率來評價模型的預(yù)測能力[26]。
在Jupyter Notebook 6.0.1 開發(fā)環(huán)境下,利用Python 3.7.0 對近紅外光譜數(shù)據(jù)進行分析建模,深度學(xué)習(xí)框架采用Keras 2.3.1,機器學(xué)習(xí)庫采用Scikitlearn 0.21.3,異常光譜檢驗采用SciPy 1.3.1。
本研究采用PCA 結(jié)合馬氏距離法進行異常光譜的檢測與剔除。共從光譜樣本中剔除異常樣本9 個,其中甜紅子櫻桃、山里紅大果樣本各剔除3 個,棉球大果樣本剔除1 個,五棱大果樣本剔除2 個。圖4 為剔除異常光譜后的山楂果實的近紅外光譜圖,由圖4 可知在5200 cm-1附近有吸收峰,可能與C-H 和C=O 伸縮振動的合頻 有關(guān)[10];7000 cm-1附近的吸收峰可能與水中O-H 的一級倍頻有關(guān)[27]。該光譜圖與Dong 等[27]收集的山楂果實的近紅外光譜圖形狀相近。由于山楂果實的近紅外光譜吸收峰范圍相近,形狀相似,難以直接區(qū)分品種。
圖4 不同品種山楂果實樣本的近紅外光譜圖Fig.4 Near-infrared spectra of four hawthorn species
2.2.1 深度學(xué)習(xí)模型訓(xùn)練 利用四個品種山楂果實的近紅外光譜數(shù)據(jù)訓(xùn)練LSTM 與GRU 神經(jīng)網(wǎng)絡(luò)模型進行品種鑒別,優(yōu)化后的兩種深度學(xué)習(xí)模型的訓(xùn)練參數(shù)與訓(xùn)練結(jié)果如表1 所示。由表1 可知,LSTM與GRU 神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練集中的準(zhǔn)確率分別為98.30%±0.46%和97.87%±0.46%,在驗證集中的準(zhǔn)確率分別為95.47%±0.83%與96.01%±0.63%。
表1 LSTM 與GRU 神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練參數(shù)與結(jié)果Table 1 Training parameters and results of LSTM and GRU neural network models
采用混淆矩陣對驗證集預(yù)測結(jié)果進行可視化處理,進一步分析深度學(xué)習(xí)模型對山楂果實品種鑒別的準(zhǔn)確率。如圖5 所示,LSTM 與GRU 神經(jīng)網(wǎng)絡(luò)模型對棉球大果鑒別的準(zhǔn)確率均較高,均為100%。LSTM對甜紅子櫻桃、五棱大果品種的鑒別能力較差,準(zhǔn)確率低于90%。GRU 神經(jīng)網(wǎng)絡(luò)模型對四種山楂果實品種的鑒別準(zhǔn)確率較為穩(wěn)定,均在90%以上。本研究中GRU 神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率略優(yōu)于LSTM 模型,原因推測為數(shù)據(jù)集規(guī)模較小,GRU 神經(jīng)網(wǎng)絡(luò)模型在較小規(guī)模的數(shù)據(jù)集中的性能往往優(yōu)于LSTM[28]。
圖5 LSTM 與GRU 神經(jīng)網(wǎng)絡(luò)模型驗證集混淆矩陣Fig.5 Confusion matrix of validation sets for LSTM and GRU neural network models
2.2.2 不同預(yù)處理方法對深度學(xué)習(xí)模型訓(xùn)練結(jié)果的影響 對光譜進行預(yù)處理往往可以提升近紅外分析模型的準(zhǔn)確性,因此,本研究嘗試在訓(xùn)練深度學(xué)習(xí)模型之前對近紅外光譜數(shù)據(jù)進行預(yù)處理。光譜進行預(yù)處理后,由于數(shù)據(jù)發(fā)生了變化,深度學(xué)習(xí)模型的參數(shù)需要優(yōu)化調(diào)整才能得到較優(yōu)的效果。優(yōu)化后的參數(shù)如表2 所示,深度學(xué)習(xí)模型在驗證集中的準(zhǔn)確率如圖6 所示。
表2 深度學(xué)習(xí)模型的訓(xùn)練參數(shù)Table 2 Training parameters of the deep learning model
圖6 不同預(yù)處理方法對深度學(xué)習(xí)模型驗證集準(zhǔn)確率的影響Fig.6 Influence of different preprocessing methods on the validation set accuracy of deep learning models
在未預(yù)處理的條件下,LSTM 與GRU 神經(jīng)網(wǎng)絡(luò)模型的山楂果實品種鑒別的準(zhǔn)確率分別為95.47%±0.83%與96.01%±0.63%,準(zhǔn)確率高,表明兩種NLP常用的深度學(xué)習(xí)模型對序列數(shù)據(jù)特征提取能力強[29],即使在無預(yù)處理情況下,也可以充分提取分析不同品種山楂果實近紅外光譜數(shù)據(jù)特征。因此,LSTM 與GRU 神經(jīng)網(wǎng)絡(luò)模型不但對文本數(shù)據(jù)有強的分析能力,對光譜序列數(shù)據(jù)也有較好的分析效果。經(jīng)過PCA 預(yù)處理后,兩種模型的準(zhǔn)確率提升至99.46%±0.00%,可見PCA 預(yù)處理進一步提升LSTM 與GRU神經(jīng)網(wǎng)絡(luò)模型對不同品種山楂果實光譜特征的提取能力。利用D1 預(yù)處理后,兩種模型的山楂果實品種鑒別的準(zhǔn)確率分別提升至98.55%±0.31%、98.73%±0.31%,較之于PCA 略低。利用D2 預(yù)處理后,兩種模型的準(zhǔn)確率下降,分別降為93.12%±1.37%、92.57%±0.31%。利用SG 預(yù)處理后,LSTM 模型的準(zhǔn)確率下降,GRU 神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率略有提升,準(zhǔn)確率分別為93.66%±1.13%、96.20%±1.09%。光譜經(jīng)預(yù)處理后,準(zhǔn)確率下降的可能原因為,SG、D2 預(yù)處理雖降低了噪聲,但影響了模型對近紅外光譜數(shù)據(jù)的特征提取能力,導(dǎo)致模型對山楂果實品種鑒別的準(zhǔn)確率降低[30]。
2.2.3 傳統(tǒng)機器學(xué)習(xí)模型的構(gòu)建 傳統(tǒng)機器學(xué)習(xí)模型在驗證集中的準(zhǔn)確率如圖7 所示,常用于文本分類問題的邏輯回歸模型在本研究中的準(zhǔn)確率最高,其在無預(yù)處理條件下,采用PCA 或SG 算法預(yù)處理光譜數(shù)據(jù)后準(zhǔn)確率均為100%。
圖7 預(yù)處理方法對機器學(xué)習(xí)模型驗證集準(zhǔn)確率的影響Fig.7 Influence of preprocessing method on accuracy of machine learning model validation set
樸素貝葉斯模型在無預(yù)處理的條件下對山楂果實品種鑒別的準(zhǔn)確率僅為76.09%,推測原因為樸素貝葉斯模型的假設(shè)條件是特征之間相互獨立[31],而山楂果實近紅外光譜各波長的吸光度數(shù)據(jù)之間存在著多重共線性問題,即具有較強的相關(guān)性[32],不滿足樸素貝葉斯模型的假設(shè)條件。光譜數(shù)據(jù)經(jīng)過PCA 預(yù)處理后,樸素貝葉斯模型在驗證集中的準(zhǔn)確率提升至95.65%。PCA 預(yù)處理可將光譜特征降維,組成若干相互獨立的、新的一組特征,符合樸素貝葉斯模型成立的假設(shè)條件[33]。而D1 預(yù)處理近紅外光譜數(shù)據(jù)后,樸素貝葉斯模型的準(zhǔn)確率提升至89.13%。D1 預(yù)處理可消除近紅外光譜基線漂移、平緩背景干擾,提供比原光譜更高的分辨率和更清晰的光譜輪廓變化信息,因而可提升樸素貝葉斯模型的準(zhǔn)確率[34]。決策樹模型和K 近鄰算法在光譜數(shù)據(jù)無預(yù)處理的情況下在驗證集準(zhǔn)確率僅為75%左右,而經(jīng)合適的預(yù)處理后,其品種鑒別的準(zhǔn)確率顯著提升。其中,決策樹模型對經(jīng)D1 處理后的光譜鑒別的準(zhǔn)確率可達89.13%;K 近鄰算法對經(jīng)D1 處理后的光譜鑒別的準(zhǔn)確率可達93.48%。
綜上,NLP 常用的傳統(tǒng)機器學(xué)習(xí)模型可用于解決基于近紅外光譜的山楂果實品種鑒別問題,而PCA 及D1 預(yù)處理方法可有效提升傳統(tǒng)機器學(xué)習(xí)模型的準(zhǔn)確率。
PLS-DA、SVM 是兩種基于近紅外光譜的農(nóng)產(chǎn)品品種鑒別常用模型[11]。分別采用這兩種模型對不同品種山楂果實的近紅外光譜數(shù)據(jù)進行建模分析并與本研究中使用的NLP 模型的品種鑒別準(zhǔn)確率進行對比分析,采用外部驗證法對構(gòu)建模型的預(yù)測能力進行驗證[26]。
如表3 所示,在驗證集中,PLS-DA 模型準(zhǔn)確率高(無預(yù)處理以及使用不同預(yù)處理方法,準(zhǔn)確率均為100%)。SVM 模型準(zhǔn)確率低(準(zhǔn)確率均低于80%)。本研究中的NLP 模型在合適的預(yù)處理條件下準(zhǔn)確率均高于85%,優(yōu)于SVM 模型。LSTM、GRU 神經(jīng)網(wǎng)絡(luò)、邏輯回歸、樸素貝葉斯模型在光譜數(shù)據(jù)經(jīng)合適的預(yù)處理后準(zhǔn)確率均可達到或接近PLS-DA 模型的準(zhǔn)確率。
在測試集中,PLS-DA 模型的準(zhǔn)確率均為100%。SVM 模型的準(zhǔn)確率均在75%以下。PCA 預(yù)處理結(jié)合LSTM 與PCA 預(yù)處理結(jié)合GRU 神經(jīng)網(wǎng)絡(luò)模型在測試集中的準(zhǔn)確率為100%±0.00%,說明模型具有很強的預(yù)測能力,與PLS-DA 模型的準(zhǔn)確率相當(dāng),且LSTM 與GRU 神經(jīng)網(wǎng)絡(luò)模型在光譜經(jīng)其他方式預(yù)處理的條件下準(zhǔn)確率也均高于95%。邏輯回歸模型在光譜無預(yù)處理、D1、PCA 或SG 預(yù)處理條件下,準(zhǔn)確率均為100%,與PLS-DA 模型的準(zhǔn)確率相當(dāng)。PCA 預(yù)處理結(jié)合樸素貝葉斯模型的準(zhǔn)確率為95.83%。決策樹和最近鄰算法在測試集中的表現(xiàn)相對較差,D1 預(yù)處理后模型的準(zhǔn)確率均為91.67%。
農(nóng)產(chǎn)品的近紅外光譜無損鑒別研究多將近紅外光譜數(shù)據(jù)視為高維度、具有多重共線性且包含復(fù)雜信息的數(shù)據(jù)[10],常采用SVM、PLS-DA 等模型實現(xiàn)對農(nóng)產(chǎn)品的鑒別[11]。本研究認為近紅外光譜數(shù)據(jù)與自然語言數(shù)據(jù)均為序列數(shù)據(jù),可采用NLP 模型實現(xiàn)近紅外光譜數(shù)據(jù)解析。以本研究中的光譜數(shù)據(jù)進行建模分析,邏輯回歸、樸素貝葉斯以及LSTM、GRU神經(jīng)網(wǎng)絡(luò)模型均能實現(xiàn)與PLS-DA 模型等同的分類準(zhǔn)確率(最優(yōu)預(yù)處理條件下,測試集準(zhǔn)確率均為100%)。Hong 等[14]將近紅外高光譜數(shù)據(jù)視為序列數(shù)據(jù),使用CNN-LSTM 以及LSTM 等NLP 方法對茶葉樣本的近紅外高光譜數(shù)據(jù)進行分類,可實現(xiàn)對新鮮茶葉中摻入陳年茶葉的鑒別且與SVM 的效果接近。CNN-LSTM、LSTM 以及SVM 模型的驗證集準(zhǔn)確率分別為83.102%、82.548%以及80.332%,表明了NLP 相關(guān)模型適用于序列數(shù)據(jù)—近紅外高光譜的分類,這與本研究的結(jié)果相近。
Dong 等[27]收集了我國三個省份共96 枚山楂果實的近紅外光譜,構(gòu)建了PLS-DA、反向傳人工神經(jīng)網(wǎng)絡(luò)模型(Backpropagation Artificial Neural Networks,BP-ANN)對山楂果實的產(chǎn)地進行預(yù)測。PLSDA 在測試集中的準(zhǔn)確率為83%,BP-ANN 在測試集中的準(zhǔn)確率為95.8%,本研究使用的深度學(xué)習(xí)模型以及邏輯回歸、樸素貝葉斯模型,在最優(yōu)的預(yù)處理條件下測試集準(zhǔn)確率均可達到或接近100%,與之相較,準(zhǔn)確率更高。Peng 等[35]采用氣相色譜飛行時間質(zhì)譜法對333 份武夷肉桂巖茶樣品的揮發(fā)性成分進行了測定,并建立了多層感知機器、SVM、隨機森林等多種機器學(xué)習(xí)模型,發(fā)現(xiàn)多層感知機在測試集中的準(zhǔn)確率最高(83.2%)。本研究與之相比,不會破壞農(nóng)產(chǎn)品,無須復(fù)雜耗時的檢測分析,便可實現(xiàn)極高的分類準(zhǔn)確率(最優(yōu)可達100%),由此可見近紅外光譜無損鑒別農(nóng)產(chǎn)品的優(yōu)勢。
然而,本研究僅可實現(xiàn)對四種山楂果實品種的鑒別,對于實現(xiàn)更多品種的鑒別以及同時實現(xiàn)山楂果實營養(yǎng)成分的測定,仍有待研究。該目標(biāo)的實現(xiàn),依賴于充足、高質(zhì)量的數(shù)據(jù)集以及更加可靠的模型,而目前少有公開的農(nóng)產(chǎn)品的近紅外光譜數(shù)據(jù)集,這一定程度上限制了農(nóng)產(chǎn)品的近紅外光譜無損檢測研究。當(dāng)今NLP 技術(shù)蓬勃發(fā)展,一系列功能強大的NLP 模型如Transformer、GPT-3 相繼誕生[36-37]。可考慮將更復(fù)雜、功能更強的NLP 模型運用于近紅外光譜解析中,為農(nóng)產(chǎn)品的近紅外光譜解析提供更多、更有效的方法。
本研究使用NLP 對山楂果實的近紅外光譜數(shù)據(jù)進行分析,實現(xiàn)對山楂果實品種的無損鑒別。邏輯回歸模型在光譜無預(yù)處理條件下以及經(jīng)PCA 或SG預(yù)處理后,驗證集、測試集準(zhǔn)確率均為100%。LSTM和GRU 神經(jīng)網(wǎng)絡(luò)模型在光譜無預(yù)處理條件下,驗證集準(zhǔn)確率分別為95.47%±0.83%和96.01%±0.63%,測試集準(zhǔn)確率分別為97.74%±0.30%和97.57%±1.08%,光譜經(jīng)PCA 預(yù)處理后驗證集準(zhǔn)確率可達99.46%±0.00%,測試集準(zhǔn)確率可達100%±0.00%。樸素貝葉斯模型,在光譜經(jīng)PCA 預(yù)處理后,驗證集準(zhǔn)確率為95.65%,測試集準(zhǔn)確率為95.83%。深度學(xué)習(xí)模型(LSTM 和GRU 神經(jīng)網(wǎng)絡(luò)模型)以及傳統(tǒng)機器學(xué)習(xí)模型(邏輯回歸模型和樸素貝葉斯模型)依據(jù)山楂果實的近紅外光譜鑒別山楂果實品種的準(zhǔn)確率高,邏輯回歸模型與深度學(xué)習(xí)模型(LSTM 和GRU神經(jīng)網(wǎng)絡(luò)模型)的鑒別準(zhǔn)確率最優(yōu)。本研究表明基于自然語言處理的模型可用于山楂果實品種近紅外無損鑒別,為農(nóng)產(chǎn)品近紅外光譜數(shù)據(jù)分析提供了更多可參考的模型,為更復(fù)雜、功能更強的NLP 模型運用于該領(lǐng)域提供參考。