王永波 李洪艷 張想芬 溫衛(wèi)華 楊瑞
關鍵詞:核桃產(chǎn)地;傅里葉變換紅外光譜;數(shù)據(jù)驅動型簇類獨立軟模式分類;二維相關光譜
中圖分類號:S664.1 文獻標志碼:A 文章編號:1009-9980(2023)01-0155-14
核桃(Juglans regia L.)是世界四大堅果之一,我國是其原產(chǎn)地,也是主要種植區(qū)。廣泛分布于新疆、云南、山東等21個省區(qū)。核桃極具經(jīng)濟和保健價值?,F(xiàn)代醫(yī)學研究認為,核桃仁中豐富的α-亞麻酸(ALA)、多酚、類黃酮、植物甾醇等抗氧化物質(zhì),具有很好的抗癌作用,并能有效對抗心血管疾病,對預防肥胖、糖尿病等也有很好的作用。不同產(chǎn)地和品種的核桃營養(yǎng)成分存在差異,隨著生活水平的提高,人們越來越重視具有地理標志的優(yōu)質(zhì)核桃產(chǎn)品。因此對核桃產(chǎn)地溯源檢測有實際意義。我國多以未去殼核桃銷售,核桃殼(核桃內(nèi)果皮)是核桃加工和消費的副產(chǎn)物,其含有豐富的木質(zhì)素、纖維素和半纖維素以及酚酸類、黃酮類、苷類等多種活性物質(zhì),常被用于食品加工、化工、醫(yī)學應用等。核桃產(chǎn)地溯源研究材料大多是核桃仁,利用核桃殼進行的產(chǎn)地判別尚未見報道。
目前常用的產(chǎn)地溯源分析技術主要有同位素溯源、礦質(zhì)元素指紋分析、電子鼻技術等,這些方法要求操作者有較豐富的專業(yè)知識,并且存在實驗過程復雜、成本高、污染環(huán)境等缺點。傅里葉變換紅外光譜(Fourier transform infrared spectroscopy,F(xiàn)TIR)分析方法所需樣品制備量少或無需樣品制備,不使用危險的溶劑或試劑,具有檢測步驟簡便快速、特征吸收峰更易鑒別、實驗重復性好等優(yōu)點,已被廣泛地用于化工、中藥、食品等方面的定性和定量分析。由于核桃是高度復雜的多成分系統(tǒng),會導致紅外振動信號的整合和重疊,這使得其直接解釋困難。因此,筆者引入二維相關光譜(two-dimensional spectrosco-py,2DCoS)分析技術。與傳統(tǒng)的FTIR技術相比,2DCoS可以放大紅外光譜中微小的差異并揭示任何重疊的峰值來提高光譜分辨率。
化學計量學工具是提取紅外光譜有效信息的關鍵數(shù)學方法,該信息與地理特征結合可實現(xiàn)對樣本產(chǎn)地的快速鑒別。典型的化學計量學數(shù)據(jù)分析包括無監(jiān)督的主成分分析(principal component anal-ysis,PCA)、層次聚類分析(hierarchical cluster analy-SIS,HCA),以及有監(jiān)督的分類方法,如線性判別分析(linear discriminant analysis,LDA)、偏最小二乘判別分析(partial least squares-discriminant analysis,PLS-DA)、k最近鄰分類算法(k-nearest neighbors,k-NN)、支持向量機(support vector machines,SVM)等。簇類獨立軟模式分類(SIMCA)是廣泛用于化學計量學中的單分類器之一。它通過對每種類別進行無監(jiān)督PCA建模分析,可以將樣本關聯(lián)到多個類或不關聯(lián)任何類。Dana等的研究表明,SIM-CA分類與機器學習(ML)的預測模型在拉曼光譜判別蜂蜜產(chǎn)地和品種結果存在相關性,且2種算法分類結果正確率基本相同。最近學者提出了基于SIMCA邊界構建修改的數(shù)據(jù)驅動型簇類獨立軟模式分類(data driven soft independent modelling of class analogy,DD-SIMCA)。DD-SIMCA通過計算每個對象的得分距離和正交距離,從而建立2個公差閾值:給定顯著性水平的接受區(qū)域和異常值區(qū)域。DD-SIMCA常用于樣品的摻假檢測,鮮有用于樣本產(chǎn)地識別。
筆者旨在通過選擇正確的數(shù)據(jù)預處理和適當?shù)腇TIR光譜數(shù)據(jù)分析方法,為開發(fā)一種自動量化和識別核桃產(chǎn)地的快速、簡便的方法提供依據(jù)。
1材料和方法
1.1樣品處理
樣品是從當?shù)胤N植戶和經(jīng)認證的銷售商處采購的當年產(chǎn)核桃干果,其中3種分別為來自中國國家地理標志產(chǎn)品保護產(chǎn)區(qū)的貴州赫章核桃、云南大理漾濞核桃和新疆阿克蘇核桃,另一種為產(chǎn)自于四川涼山的大涼山核桃。采集的樣品密封保存于室溫條件下待用,測試前剝離其核桃仁和核桃殼作為實驗材料,分別重復18~38個樣本。具體信息見表1。
為進一步降低樣品中水分對實驗結果的影響,將核桃仁樣品去除種皮,用粉碎機粉碎后置于真空冷凍干燥機,凍干36 h;將核桃殼樣品置于干燥箱,105℃條件下烘干4h后,用粉碎機粉碎并過200目篩。干燥后的樣品分別編號裝入密封袋,并置于真空干燥器中儲存?zhèn)溆谩?/p>
1.2主要儀器與試劑
傅里葉變換紅外光譜儀(Frontier,美國Perki-nElmer公司)、真空冷凍干燥機(LGJ-10C,北京四環(huán)公司)、壓片機(DF-4B,天津港東科技公司)配13 mm免脫模壓片模具、分析天平(BSA2202S,德國Sarto-rius公司)、瑪瑙研缽、KBr(光譜純,國藥集團)。
1.3 FTIR采集和光譜數(shù)據(jù)預處理
參考黃冬晨等的方法并做適當改進,實驗前將光譜純KBr放入真空烘箱105℃條件下烘干12 h以除去水。按質(zhì)量比1:100稱取樣品與KBr,分多次等比例放入瑪瑙研缽中混合均勻后,放入模具壓成透明薄片。
傅里葉變換紅外光譜儀預熱30 min,設掃描范圍:4000~400 cm-1,掃描次數(shù):4次,分辨率:4 cm-1。保持樣品倉內(nèi)無樣品,扣除空氣中H2O和CO2的干擾,掃描獲取FTIR中紅外透射光譜數(shù)據(jù)(ASCII格式)。實驗全程環(huán)境濕度控制在45%以下,溫度為室溫條件。
光譜采集過程中,由于儀器、樣品和測量環(huán)境的變化,原始光譜中不可避免的存在噪聲、基線偏移、譜峰重疊等干擾,這就需要對圖譜數(shù)據(jù)進行預處理。光譜數(shù)據(jù)的預處理:采用基線校正(baseline correct)減小樣品研磨不夠細和壓片不夠透明因素造成的紅外光散射影響。采用Savitsky-Golay(S.G.)5點平滑(smooth)處理降低光譜的噪聲。采用一階導數(shù)(first derivative,1stDer)提高原光譜中的吸收峰和肩峰的識別精度。標準正態(tài)變量變換(standard normal variate transformation, SNV)和多元散射校正(multiplicative scatter correction,MSC)被用來消除樣品顆粒分布不均和顆粒大小產(chǎn)生的、表面散射以及光程變化對光譜的影響。
1.4二維相關光譜(2DCoS)
2DCoS是樣品在系統(tǒng)外部擾動下獲得的一系列動態(tài)光譜和通過一種交叉相關數(shù)據(jù)分析所得到的光譜。2DCoS是通過將不同產(chǎn)地核桃仁樣品片放入帶有可編程加熱夾套控制器(GS20730型;Spe-cac,英國)的樣品支架中獲得的。溫度范圍為15~55℃,間隔為10℃,在加熱速度為2℃·min-1的情況下采集的動態(tài)吸光度譜。使用OriginPr02022(OriginLab,美國)插件(2D Correlation Spectrosco-py Analysis)對采集到的動態(tài)光譜的平均光譜進行二維相關分析。
1.5化學計量學分析工具
化學計量學算法可被用于評估、區(qū)分和判別核桃的類別。核桃仁和核桃殼的FTIR數(shù)據(jù)被收集在數(shù)據(jù)矩陣x中,向量y表示核桃的產(chǎn)地類別。矩陣x(FTIR光譜)數(shù)據(jù)信息復雜且不含有產(chǎn)地等效信息,故需要通過不同的數(shù)據(jù)處理才能獲得正確結果。
主成分分析法(PCA)是一種無監(jiān)督學習算法,常用于數(shù)據(jù)的分類和降維。本工作中,PCA被應用于評估根據(jù)不同產(chǎn)地核桃仁和核桃殼FTIR光譜數(shù)據(jù)的樣品聚類。此外,在建立分類模型前,可用PCA檢測可能的異常值。
偏最小二乘判別分析(PLS-DA)是一種廣泛應用于光譜分析的統(tǒng)計方法。它是基于偏最小二乘回歸模型,對不同處理的樣本進行訓練,產(chǎn)生訓練集,并檢驗訓練集的可信度。建模過程中,各產(chǎn)地類別定義為數(shù)值型變量1、2、3、4,設置判別閾值為0.5。
支持向量機(SVM)是一種機器學習算法。它定義了一個決策邊界,該邊界通過最大化2類之間的距離來優(yōu)化劃分2類,用于解決模式識別和回歸問題。
簇類獨立軟模式分類(SIMCA)是基于主成分分析的一種模式識別方法。它利用先驗分類知識,對每一種類別建立1個PCA模型,通過F檢驗設定的分類置信區(qū)間,利用建立的模型判斷未知樣本的歸屬。
數(shù)據(jù)驅動型簇類獨立軟模式分類(DD-SIMCA)是對揭示極值和異常值等特殊類型的數(shù)據(jù)進行校正分析,從而優(yōu)化目標樣本可接受范圍的SIMCA決策閾值。DD-SIMCA主要算法步驟如下:
一個好的分類器,靈敏度和特異性應接近100%。靈敏度可用于擬合(對被建模的訓練集對象)和預測(未用于建模的驗證集對象)兩方面的模型評價。而特異性只用于預測評價。
在本工作中,光譜數(shù)據(jù)作圖采用OriginPro2022(OriginLab,美國)軟件。光譜數(shù)據(jù)預處理采用Spectrum 10 (FTIR儀器自配)軟件和The Unscram-bler X(CAMO,挪威)。另外The UnscramblerX和MATLAB 2020b (MathWorks,美國)用于光譜數(shù)據(jù)的建模分析。MATLAB的DD-SIMCA_GUI工具從https://github.com/yzontov/dd-simca獲得。
2結果和分析
2.1光譜數(shù)據(jù)預處理
分別采用原始數(shù)據(jù)(處理1)、基線校正+平滑(處理2)、1stDer(處理3)、S.G.平滑+SNV(處理4)和S.G.平滑+MSC(處理5)等預處理方法,以4類產(chǎn)地核桃仁樣本為研究對象,根據(jù)PCA和SIMCA結果評價各預處理方法的效果。各預處理在5%顯著水平的SIMCA分類結果見表2,其中處理5的靈敏度和特異性分別在67%~100%和86%~100%之間,明顯高于其他處理(1~4)靈敏度的43%~75%和特異性的21%~85%。4個產(chǎn)地中新疆的靈敏度和特異性均最高,說明與其他產(chǎn)地的樣本差異較大。對比不同預處理方法對PCA和SIMCA判別結果的影響,發(fā)現(xiàn)S.G.平滑+MSC方法可明顯提升模型的識別率。
2.2 FTIR光譜分析
2.2.1核桃仁FTIR光譜 將測定的4個產(chǎn)地核桃仁樣品的中紅外光譜數(shù)據(jù)分別計算平均光譜,經(jīng)基線校正+S.G.平滑處理后觀察平均光譜在全譜范圍內(nèi)的差異。如圖1所示,不同產(chǎn)地核桃的平均光譜在總體模式上呈現(xiàn)出相似的趨勢,但在指紋區(qū)的2個譜段(1750~1450 cm-1和1330~1100cm-1)存在較大差異,這與不同官能團的振動模式有關。所得14個主要特征吸收峰及基團歸屬如下:3412 cm-1為液態(tài)H2O伸縮或醇羥基O—H伸縮振動;2923 cm-1和2857 cm-1表現(xiàn)為脂肪族基團CH3的反對稱和對稱伸縮振動;1745 cm-1為飽和脂肪酸酯中的C=O吸收峰;1649 cm-1為酰胺Ⅰ帶C=O伸縮振動峰,氨基酸NH3+振動峰,以及C—H鍵的伸縮振動;1539 cm-1附近為酰胺Ⅱ帶C—N、C=C、N=O的伸縮振動,以及N—H變形引起;1456 cm-1和1391cm-1可能為飽和C—H和氨基酸COO吸收峰,或酰胺Ⅲ譜帶;1238 cm-1、1163 cm-1、1100 cm-1處為C—O、C—N吸收峰以及脂肪族SO2吸收峰;716 cm-1和608 cm-1為S-O伸縮振動和酰胺O=C-N吸收峰。其中2923 cm-1、2857 cm-1、1745 cm-1、1649 cm、1456 cm-1、1163 cm-1和716 cm-1處為強吸收峰,這些譜帶的分配顯示出核桃仁中含有豐富的蛋白質(zhì)、酯類脂肪酸和碳水化合物等物質(zhì)。對比4個產(chǎn)地核桃仁的中紅外光譜,箭頭標示位置的表征蛋白和脂類的2個吸收峰的吸收強度和相對強度存在明顯差異。進一步通過變量投影重要性(variable importance in the projection VIP)算法對3100~700 cm-1波數(shù)范圍內(nèi)主要吸收峰進行分析,篩選出統(tǒng)計學差異(VIP>1.0)的吸收峰為1649 cm-1和1539 cm-1。這表明不同產(chǎn)地核桃的蛋白質(zhì)和脂肪結構組成及相對含量可能存在差異。
2.2.2核桃殼FTIR光譜 各產(chǎn)地核桃殼粉的FTIR透過率光譜如圖2所示,3400 cm-1附近的吸收峰為O—H的伸縮振動峰;2930 cm-1處的特征峰與CH2和CH3中存在的C-H拉伸振動有關;1739 cm-1附近是纖維素中C=O伸縮振動峰;1610 cm-1和1517 cm-1處與木質(zhì)素芳香環(huán)的C-C拉伸有關,這是木質(zhì)素最特征的紅外吸收帶;1444 cm-1附近的吸收峰或與CH3和CH2中C—H的彎曲振動有關;酚類、醇類和醚類的C—O拉伸出現(xiàn)在1249 cm-1和1050 cm-1處。對比各產(chǎn)地核桃殼紅外光譜,貴州產(chǎn)地的1800~1300 cm-1范圍光譜特征與其他3地(云南、新疆、四川)區(qū)別明顯,表征為木質(zhì)素和纖維素的組成和結構差異。
由圖1和圖2可知,4個產(chǎn)地的核桃仁和核桃殼的紅外光譜,雖然存在差異,但是整體上相似,直觀上并不能通過紅外光譜中特異的吸收峰等特征將其區(qū)分開來,需要進行化學計量學或2DoS分析。訓練和優(yōu)化模型,預測集用來預測模型的泛化能力(即預測性能)評價。利用The UnscramblerX軟件,通過偏最小二乘(PLSR)和支持向量機(SVM)方法,將產(chǎn)地信息與光譜信息分別進行數(shù)學建模分析。
2.4.1偏最小二乘判別分析(PLS-DA)PLS-DA作為一種常用的有監(jiān)督的降維、判別分析方法,運行中一個重要的參數(shù)選擇就是主成分數(shù)。本研究采用完全交叉驗證的驗證策略,選擇最佳主成分數(shù)為5。結果表明,核桃仁校正集決定系數(shù)R2=0.80、驗證集R2cv=0.78,校正均方根誤差RMSEC=0.52、交叉驗證均方根誤差RMSECV=0.63。校正集和驗證集的決定系數(shù)相差較小,說明基于PLSR建立的核桃仁
2.3主成分分析(PCA)
利用經(jīng)S.G.平滑+MSC預處理后核桃仁和核桃殼的全光譜數(shù)據(jù)進行PCA分析,三維得分圖見圖3-a~b,可以看出,不同產(chǎn)地的樣本可明顯聚為4類。圖3-a中,前3個主成分PC1、PC2和PC3分別解釋了66.2%、20.8%和7.7%的方差,累計貢獻率為93.7%。云南產(chǎn)地核桃仁樣本聚集更為集中且與其他3地樣本的空間距離更遠,說明云南核桃的化學成分組成或含量與其他3地差異較大。新疆產(chǎn)地樣本內(nèi)部聚集相對分散,編號為xj16的觀測數(shù)據(jù)點處于95%置信區(qū)間外,判定其為異常值。由圖3-b可知,前3主成分累計方差貢獻率為91.6%,除貴州產(chǎn)地的核桃殼樣本單獨聚為一類外,其他3地樣本的置信橢圓彼此間有重疊,這與核桃仁的PCA表現(xiàn)存在差異。
2.4 PLS-DA和SVM建模及判別
將核桃仁(n=120)和核桃殼(n=80)樣本數(shù)據(jù)集分別按3:1隨機分為校正集和預測集。校正集用于產(chǎn)地預測模型沒有產(chǎn)生過擬合現(xiàn)象。同時較小的決定系數(shù)值,較大的均方根誤差值,表明所建立的預測模型的預測效果會差強人意。另外,核桃殼樣本校正集R2=0.97、驗證集R2cv=0.95,校正均方根誤差RMSEC=0.19、交叉驗證均方根誤差RMSECV=0.26。它們對未知樣本(預測集)的預測結果分別見圖4-a~b,核桃仁和核桃殼樣本預測集識別正確率分別為73%和100%。由此可見,通過核桃殼樣本的PLS-DA模型比核桃仁樣本建立的更穩(wěn)健。
2.4.2支持向量機(SVM) SVM是最流行的用于樣本通用分類和識別的機器學習模型之一。該模型對非線性樣本具有良好的分離效果。本實驗中選擇SVM類型:nu-SVC,Kemel類型:徑向基核函數(shù)(ra-dial basis function),Nu值:0.5,進行SVM建模和判別分析。結果表明,SVM模型在核桃仁樣本校正集和驗證集的識別正確率分別為100%和96%,預測集的識別正確率97%。在核桃殼樣本校正集、驗證集和預測集識別正確率均為100%。
比較核桃仁和核桃殼樣本的PLS-DA和SVM判別結果,核桃殼樣本在2種分類器中得到更高的判別正確率,說明其或更適合作為實驗材料進行核桃產(chǎn)地鑒別。SVM比PLS-DA對核桃仁樣本的判別精度提高較大。為探究核桃仁的分類潛力,對其做進一步的分析。
2.5 SIMCA和DD-SIMCA判別分析
SIMCA和DD-SIMCA屬于單類分類器,該分類器用于將一個特定的目標類別對象從所有其他對象類別中區(qū)分出來。按2:1將核桃仁樣本數(shù)據(jù)集隨機劃分為校正集(n= 80)和獨立的預測集(n=40)。為了防止過擬合,模型中最佳主成分數(shù)分別采用杠桿率校正(leverage correction)和留一法交叉驗證(leave-one-out CV)確定。
2.5.1 SIMCA判別分析 選擇最佳主成分數(shù)4(sc),6(gz),5(xj)和7(yn),利用校正集分別建立各產(chǎn)地的PCA模型,分類結果見圖5庫曼圖(Coomans plot)。該圖表示每個樣本到模型(sc vs xj)的馬氏距離,坐標軸為樣品到模型的距離,坐標是計算出來的距離值(樣品標準差)。采用軟分類標準的SIM-CA,允許將樣本同時分配到所調(diào)查類別中的任何一類。即當1個樣本在2個類中的標準化距離都小于1時,它可以被分配到2個類中。這代表了重疊類模型的情況。此外,當1個樣本的標準化距離在這個類中大于1,在另一個類中小于1時,它只能被分配到1個類。相應地,當1個樣本對2個類的標準化距離都大于1時,它就被分配到2個類中的任何一個,并被視為異常值。由圖5可知,各樣本基本都能按照各自的組別成功分類,只有樣本sc24被同時分配到四川(sc)和貴州(gz)產(chǎn)地。此外,樣本g28,xj16,xj14與所在樣本組的距離較大。在5%顯著性水平下,各產(chǎn)地的識別率分別是新疆(xj)93%、云南(yn)100%、四川(sc)87%和貴州(gz) 79%,4類產(chǎn)地總體樣本的測試集識別正確率為87%。
圖6為各產(chǎn)地樣本與四川樣本的相對類間距離。類間距描述了類之間的相似性或差異性.如果兩類模型間距離大于3,則它們被區(qū)分為不同模型,且距離越大,分類越準確。核桃仁樣本的四川與貴州產(chǎn)地PCA模型間距離最小為38.38,而四川與新疆、云南產(chǎn)地模型的距離較遠,分別為747.43和696.78。說明SIMCA方法能夠成功進行核桃產(chǎn)地分類,其中四川與貴州兩產(chǎn)地的核桃仁樣本光譜數(shù)據(jù)比較相似,而與云南和新疆兩產(chǎn)地的差異性較大。對比核桃殼樣本各類與四川產(chǎn)地的類間距離,最小為59.30,最大為905.70,驗證了核桃殼比核桃仁分類結果更準確。這或許與所選擇不同產(chǎn)地品種間核桃殼差異更大有關。
2.5.2 DD-SIMCA判別分析 將隨機選取的校正集和預測集樣本按產(chǎn)地類別各分為4類,即校正集:貴州(gz;n=19)、四川(sc;n=20)、云南(yn;n=26)、新疆(xj;n=18)和預測集:g(n=8)、s(n=8)、v(n=12)、x(n=9)。在進行類建模之前,分別對總樣本的校正集和預測集進行異常值檢測。圖7-a為校正集的DD-SIMCA接受度圖(綠線內(nèi)),紅線為目標組樣品的閾值線。兩線與坐標軸組成的區(qū)域將樣品分為3類:規(guī)則數(shù)據(jù)(綠點)、極值(黃點)和異常值(紅點)。由圖7-a可知,校正集中兩極值點為xj14和sc24。圖7-b中所有的校正集數(shù)據(jù)都在公差范圍內(nèi)(以垂直線表示)。表明基于DD-SIMCA模型的校正集不包含異常值,最終校正集和預測集中的xj14、xj16和sc24被判定為極值,這與SIMCA的檢測結果基本一致。
將各產(chǎn)地數(shù)據(jù)分別建立DD-SIMCA模型,設參數(shù)為:校正集數(shù)據(jù)采用中心化(Centering)預處理,主成分數(shù)3,接受區(qū)域類型選擇卡方分布(chi-square),并使用經(jīng)典的估計方法(α=0.01;γ=0.01)。值得注意的是,建模過程中某些參數(shù)的設置(如主成分數(shù)過高)會導致模型不穩(wěn)定,因此主成分數(shù)是通過校正集對模型反復訓練,選出預測結果最好時對應的數(shù)據(jù)。
在驗證階段,使用新數(shù)據(jù)(校正集)對模型進行評估。為了測試模型對目標類或者含有外部樣本的新數(shù)據(jù)集的接受和拒絕能力,分別用預測集中非目標類、目標類和所有類數(shù)據(jù)進行驗證,結果見圖7一C~e。圖7-c和d分別表明貴州產(chǎn)地模型特異性與四川產(chǎn)地的靈敏度均為100%,圖7-e和f表明云南和新疆產(chǎn)地模型對目標類樣本和非目標類樣本的特異性和靈敏度都達到100%。
2.6二維相關紅外光譜分析
比較4類產(chǎn)地核桃仁紅外光譜在1800~700 cm-1波數(shù)范圍內(nèi)的二維同步譜,結果如圖8所示。同步2DCoS圖是對角線對稱的,位于對角線上的相關峰被稱為自相關峰(總為正值),是由擾動引起的動態(tài)波動的自相關強度引起的。非對角線上的峰為交叉峰(正或負),是由分子間或分子內(nèi)相互作用產(chǎn)生的官能團相對性變化的結果。
由圖8可知,各產(chǎn)地的二維同步譜圖存在明顯的差異,主要表現(xiàn)在1750~1710 cm-1的脂肪酸酯、1700~1520 cm-1蛋白質(zhì)、1200~1080 cm-1碳水化合物吸收譜帶的變化。例如,圖8-b和d中四川和云南產(chǎn)地樣本2DCoS圖譜在Φ(1745 1745)和中(16501650)處存在明顯的強自相關峰,而貴州的中(17451745)和新疆中(1650 1650)處均表現(xiàn)為弱自相關峰(圖8-a和c)。1200~1080 cm-1范圍自相關峰,表現(xiàn)為圖8(a,b)和(c,d)差異較大,后者的強度明顯更高。在中(1050 1050)處各產(chǎn)地均發(fā)生自相關峰,但在一維FIIR圖譜中并不容易分辨,或因其在一維圖譜中表現(xiàn)為重疊峰或肩峰,而1050 cm-1歸屬于脂肪族酸酐(酯)的C—O伸縮振動。另外,圖8(a-d)分別存在特異自相關峰,發(fā)生在Φ(1576 1576)、Φ(950950)、中(1720 1720)、Φ(886 886)處。
圖8-b中四川產(chǎn)地樣本的交叉峰(1655 1745)cm-1和(1540
1745) cm-1為負相關與其他產(chǎn)地存在明顯不同。它們是由羧酸(酯)C=O伸縮振動、酰胺Ⅰ的C-O伸縮振動和蛋白質(zhì)N-H變角振動產(chǎn)生的。綜合這些特征,可以發(fā)現(xiàn)各產(chǎn)地核桃仁樣品2DCoS圖譜存在明顯差異,其中四川與新疆產(chǎn)地差異最大,這與SIMCA的類間距表現(xiàn)結果一致。因此可以依據(jù)2DCoS圖譜進行核桃產(chǎn)地分類識別。
3討論
試驗結果表明,利用核桃仁樣本可以實現(xiàn)基于紅外光譜核桃的區(qū)域識別,這與前人的研究結果一致。另外利用核桃殼樣本同樣取得了很好識別效果,這與Nogales-bueno等的利用近紅外光譜實現(xiàn)對帶殼核桃的品種識別的結果類似,證明核桃殼材料可用于紅外光譜的定性識別。值得強調(diào)的是,影響核桃品質(zhì)的因素包括不同產(chǎn)地的氣候環(huán)境、地理條件、物候期及栽培管理措施和品種之間的差異。為取得高的材料變異性,筆者實驗條件是嚴格選取4個不同物候期的核桃。實際工作中,可選取盡可能多的產(chǎn)地和主栽品種的核桃作為研究樣本,從而建立更穩(wěn)定、更準確的核桃產(chǎn)地判別模型。
各分類器對核桃產(chǎn)地的判別效果:DD-SIM-CA>SVM>SIMCA>PLS-DA。分析PLS-DA對核桃殼數(shù)據(jù)表現(xiàn)良好而對核桃仁結果一般的情況,其原因或許是該分類器對類別數(shù)據(jù)不平衡或全光譜的冗余數(shù)據(jù)比較敏感。下一步可以優(yōu)化信息區(qū)間,利用PCA降維數(shù)據(jù)或特征波段選擇,進一步發(fā)掘模型的精度和效率。Muller等使用siPLS算法將光譜分為20個區(qū)間和3個區(qū)間的組合,取得了明顯優(yōu)于使用所有變量的PLS最佳模型。本實驗中不同分類模型都檢測出極值或者異常值,它們會影響模型的預測精度和穩(wěn)健性,因此可以選擇剔除異常值的數(shù)據(jù)建模。
2DCoS的特點是能夠有效地突出光譜細微的差異而提高光譜分辨率,事實上它也會放大數(shù)據(jù)集的噪聲,而噪聲會產(chǎn)生多余的交叉峰而嚴重干擾異步譜分析。從光譜數(shù)據(jù)中去除非系統(tǒng)性噪聲是后續(xù)分析前的一個重要預處理步驟。2DCoS光譜會受到材料、擾動類型和環(huán)境條件等的影響。為了盡量減少高溫引起材料中蛋白質(zhì)等的結構變化而影響光譜結果,本實驗中溫度梯度設置為15~55℃,連續(xù)動態(tài)光譜個數(shù)為5,或存在梯度設置不夠充分從而影響二維相關光譜的表征。后續(xù)研究中可選擇其他較穩(wěn)定的擾動類型,以及采用機器學習算法對二維相關光譜圖進行分類分析,以獲得準確性和可重復性更高的結果。
4結論
(1)采取S.G.平滑+MSC的光譜預處理方法,能夠顯著地提升模型的分類和判別正確率。
(2)核桃殼和核桃仁都可以用于核桃產(chǎn)地的鑒別?;诤颂覛颖镜腜LS-DA和SVM模型判別正確率達100%,好于基于核桃仁的識別結果。
(3)核桃仁樣本的FTIR光譜與DD-SIMCA結合,建立的鑒定模型能將目標類和其他產(chǎn)地樣本分開,校正集和預測集的靈敏度和特異性均達到100%。
綜上,F(xiàn)TIR光譜結合SVM和DD-SIMCA化學計量學方法或2DCoS分析技術可以實現(xiàn)對核桃產(chǎn)地的高效識別。