張愛武 宋雪健 王欣卉 李殿威 錢麗麗.3.4 張東杰 張桂芳 關(guān)海鷗
(黑龍江八一農(nóng)墾大學(xué)食品學(xué)院1,大慶 163319) (齊齊哈爾大學(xué)食品與生物工程學(xué)院2,齊齊哈爾 161006) (黑龍江省雜糧加工及質(zhì)量安全工程技術(shù)研究中心3,大慶 163319) (黑龍江省農(nóng)產(chǎn)品加工與質(zhì)量安全重點(diǎn)實(shí)驗(yàn)室4,大慶 163319) (國家雜糧工程技術(shù)研究中心5,大慶 163319) (黑龍江八一農(nóng)墾大學(xué)信息學(xué)院6,大慶 163319)
“中國綠豆之鄉(xiāng)”泰來縣生產(chǎn)的綠豆,被認(rèn)定為國家農(nóng)業(yè)部農(nóng)產(chǎn)品地理標(biāo)志產(chǎn)品。由于冒牌“泰來綠豆”的介入,使銷量完全大于產(chǎn)量,干擾市場秩序,侵犯消費(fèi)者的合法權(quán)益,影響了品牌綠豆的名譽(yù),因此,對(duì)于泰來綠豆的品牌保護(hù)至關(guān)重要。在農(nóng)產(chǎn)品產(chǎn)地保護(hù)方面采用化學(xué)檢測手段,礦物元素指紋分析技,穩(wěn)定同位素技術(shù),電子鼻/舌技術(shù)、氣質(zhì)聯(lián)用代謝組學(xué)分析等技術(shù)研究較為廣泛,但存在檢測周期長,受環(huán)境因素干擾大,操作繁瑣,效率低,費(fèi)用昂貴等缺點(diǎn)。而近紅外光譜技術(shù)(Near Infrared Spectroscopy,NIR)具有穩(wěn)定性好、操作簡易、高效無損、環(huán)保無污染及可在線的檢測特點(diǎn)被廣泛應(yīng)用。
實(shí)驗(yàn)于2018年收獲期內(nèi)采用5點(diǎn)田間隨機(jī)采樣方式進(jìn)行樣品收集,每份樣品收集2 kg,其中泰來綠豆樣品78份、非泰來地區(qū)樣品175份,共計(jì)253份,樣品信息表如表1。
表1 隨機(jī)采樣樣品信息
FW100高速萬能粉碎機(jī),TENSORⅡ型傅里葉變換近紅外光譜儀。
1.3.1 樣品前處理
實(shí)驗(yàn)將采集的樣品進(jìn)行統(tǒng)一晾曬、脫殼、精選,并進(jìn)行超微粉碎,過100目篩,備用。
1.3.2 綠豆原始光譜采集
將TENSORⅡ型傅里葉變換近紅外光譜儀預(yù)熱30 min,利用OPUS 7.5軟件對(duì)綠豆樣品進(jìn)行掃描,通過檢查信號(hào)、保存峰位,掃描背景單通道光譜(每間隔1 h掃描一次),測量樣品單通道光譜等操作,來消除外界信息的干擾提高采集數(shù)據(jù)的精度。
依次將綠豆籽粒樣品和粉末樣品倒入玻璃杯中,用壓樣器將樣品表面處理平整,測量樣品單通道采集樣品光譜。儀器參數(shù)為漫反射鍍金積分球,InGaAs檢測器,實(shí)驗(yàn)所處的環(huán)境溫度為(25±1) ℃,相對(duì)濕度為20%~30%,光譜波數(shù)范圍12 000~4 000 cm-1,分辨率8 cm-1,掃描64 次。
1.3.3 實(shí)驗(yàn)樣品選取
實(shí)驗(yàn)分別選取兩地區(qū)樣品量的2/3作為建模樣品集,用于模型的建立,1/3作為預(yù)測樣品集,用于模型的驗(yàn)證。各地區(qū)用于建模和預(yù)測的樣品數(shù)見表2。
表2 建模及驗(yàn)證用樣品數(shù)
1.3.4 近紅外光譜數(shù)據(jù)的處理
為防止出現(xiàn)過擬合現(xiàn)象,實(shí)驗(yàn)采用Origin10.5對(duì)原始光譜進(jìn)行一階導(dǎo)數(shù)(derivative 1st)處理,通過去除受噪聲、光的色散等因素干擾的波段,得到最優(yōu)波數(shù)范圍,進(jìn)行模型研究。
1.3.5 判別模型的建立及驗(yàn)證
1.3.5.1 定性分析模型的研究
定性分析分為有監(jiān)督的模式識(shí)別和無監(jiān)督的模式識(shí)別兩種模式識(shí)別技術(shù)。前者包含標(biāo)準(zhǔn)算法和因子化法。標(biāo)準(zhǔn)算法在計(jì)算時(shí)是以模型中某一類物質(zhì)的平均光譜作為參考光譜,與未知樣品的測試光譜進(jìn)行比較的。光譜距離(D)如式(1)所示:
(1)
式中:A(λi)為測試光譜在波數(shù)點(diǎn)λi處吸光度值;B(λi)為模型的平均光譜在波數(shù)點(diǎn)λi處吸光度值;i為波數(shù)因子化法光譜距離(D)按式(2)進(jìn)行計(jì)算。
(2)
式中:a為原始光譜;b為重建光譜;Tia為第i張?jiān)脊庾V圖的得分值;Tib為第i張重建光譜圖的得分值。
需要將所處理的譜圖先表示為所謂因子譜(載荷)的線性組合,如公式(3):
a=T1a×f1+T2a×f2+…+Tna×fn
(3)
式中:a為原始光譜;f為各種因子譜;T為重建原始光譜a時(shí)每張因子譜的得分值,該值越大表明該因子譜對(duì)原始光譜的貢獻(xiàn)越大。
實(shí)驗(yàn)采用樣品之間的距離S值來衡量定性模型的建模效果,當(dāng)S<1時(shí),表示兩類樣品之間存在相交關(guān)系,模型的鑒別效果極差;當(dāng)S=1時(shí),表示兩類樣品之間是相切的關(guān)系,模型的鑒別效果一般;當(dāng)S>1時(shí),表示兩類樣品是相離的關(guān)系,數(shù)值越大,模型的鑒別效果越好。
(4)
式中:D為兩類樣品的平均光譜距離;DT1為一類樣品的光譜模型半徑;DT2為另一類樣品的光譜模型半徑。
實(shí)驗(yàn)分別對(duì)籽粒樣品及粉末樣品采用標(biāo)準(zhǔn)算法和因子化法進(jìn)行建模研究,進(jìn)而篩選出最優(yōu)的光譜計(jì)算法,并對(duì)最適合建模的樣品狀態(tài)進(jìn)行進(jìn)一步研究。
無監(jiān)督的模式識(shí)別(聚類分析)的計(jì)算方法主要有最短距離法、最長距離法、平均距離法、加權(quán)平均距離法、中間距離法、重心法、Ward’s 氏算法。
通過光譜的預(yù)處理方式,如矢量歸一化(Standard Normal Variate,SNV)、一階導(dǎo)數(shù)+平滑(5、9、13、17、21、25 點(diǎn),下同)、一階導(dǎo)數(shù)+SNV+平滑、二階導(dǎo)數(shù)(derivative 2st)+平滑、二階導(dǎo)數(shù)+SNV+平滑方式,對(duì)建模原始光譜進(jìn)行預(yù)處理,消除樣品不均勻,光的散射,光程不恒定等因素的干擾,提高模型的檢測精度[6,7]。
1.3.5.2 定量分析模型的研究
定量分析使用偏最小二乘法(partial least squares,PLS)進(jìn)行擬合,來建立近紅外光譜與樣品組分值相關(guān)聯(lián)系。采用留一交叉檢驗(yàn)的方式進(jìn)行建模,檢驗(yàn)集檢驗(yàn)的方式進(jìn)行模型驗(yàn)證。PLS法的原理是通過預(yù)測變量組X與獨(dú)立變量Y二者之間的關(guān)系所構(gòu)成的線性模型來表達(dá)的,如公式(5):
Y=b0+b1X1+b2X2+…+bpXp
(5)
式中:b0為截距;b1~bp為回歸系數(shù);Y為綠豆樣品組分值真值;X為樣品組分預(yù)測值。
實(shí)驗(yàn)將泰來綠豆的組分值賦值為1,非泰來綠豆的組分值賦值為-1,以0作為衡量值進(jìn)行判別,其中通過模型的計(jì)算出的預(yù)測值大于0的被認(rèn)定為泰來綠豆,小于0的為非泰來綠豆。同時(shí),實(shí)驗(yàn)用精度較高的樣品狀態(tài)模型去驗(yàn)證另一種狀態(tài)的樣品,研究模型的實(shí)用性。
對(duì)于定量分析而言,校正集均方根誤差(root mean square error of calibration,RMSEC)及其決定系數(shù)(R2)、預(yù)測集均方根誤差(root mean square error of prediction,RMSEP)及其決定系數(shù)(R2)、范圍誤差比(ratio of performance to standard deviate,RPD)作為衡量模型精度的指標(biāo),其中RMSEC、RMSEP數(shù)值越小R2數(shù)值越大證明模型的精度越高,同時(shí)RPD>3時(shí)模型的穩(wěn)定性及檢測精度最佳[8,9]。對(duì)于定量分析而言光譜的預(yù)處理方式有減去一條直線、SNV、多元散射矯正(multiplicative scatter correction,MSC)、一階導(dǎo)數(shù)+平滑、二階導(dǎo)數(shù)+平滑、一階導(dǎo)數(shù)+減去一條直線+平滑、一階導(dǎo)數(shù)+SNV+平滑、一階導(dǎo)數(shù)+MSC+平滑。
圖1 綠豆粉末樣品原始光譜圖
圖2 綠豆籽粒樣品原始光譜圖
圖3 一階導(dǎo)數(shù)處理
原始光譜經(jīng)過一階導(dǎo)數(shù)處理后,在波數(shù)為12 000~9 000cm-1范圍內(nèi)的光譜存在較為強(qiáng)烈的噪聲等因素干擾,因此實(shí)驗(yàn)選取9 000~4 000cm-1進(jìn)行建模研究,盡可能的運(yùn)用近紅外所提取的全部樣品信息,如圖3。實(shí)驗(yàn)與戰(zhàn)皓等[13]對(duì)91份黃芪藥材采用近紅外光譜技術(shù)進(jìn)行研究,所選取的波長范圍相似。
2.3.1 有監(jiān)督的模式識(shí)別對(duì)建模效果的影響
當(dāng)S值大于1表示泰來綠豆和非泰來綠豆被均一鑒別,且數(shù)值越大表示樣品差異越大。由表2可知,對(duì)于兩種狀態(tài)的綠豆而言,粉末狀態(tài)的建模效果要優(yōu)于籽粒狀態(tài)的建模效果,主要是因?yàn)榫G豆個(gè)體的粒徑越小,它們之間所存在的空隙越小,緊密度越高,使近紅外光線在樣品中能更全面的進(jìn)行信息提取,避免光線的損耗[14]。采用因子化法建立的模型要優(yōu)于采用標(biāo)準(zhǔn)算法,因標(biāo)準(zhǔn)算法是衡量泰來綠豆樣品和非泰來綠豆樣品平均光譜差異程度的一個(gè)尺度,不能體現(xiàn)特征變化的情況。因子化法是通過對(duì)原始光譜進(jìn)行主成分分解,選取特征值較大的幾個(gè)主成分得分特征變量參與模式識(shí)別,起到特征信息提取的作用。由圖4,圖5可知,實(shí)驗(yàn)選擇粉末狀態(tài)的綠豆運(yùn)用近紅外光譜技術(shù)結(jié)合因子化法及一階導(dǎo)數(shù)+5點(diǎn)平滑的預(yù)處理方式所建立的模型進(jìn)行定性分析,分離程度較高,其模型的S值為1.3 479。同時(shí),選取粉末狀態(tài)的綠豆樣品進(jìn)行進(jìn)一步研究。黃得棟等[15]利用近紅外光譜技術(shù)結(jié)合因子化法對(duì)來自9 個(gè)不同產(chǎn)地的南五味子建立定性分析產(chǎn)地鑒別模型,結(jié)果表明,在特征波數(shù)5 362.4~4 191.2cm-1范圍內(nèi),結(jié)合一階導(dǎo)數(shù)的預(yù)處理方式能所建立的模型能實(shí)現(xiàn)對(duì)不同地域的南五味子進(jìn)行快速鑒別研究。
表3 不同計(jì)量學(xué)及預(yù)處理方式對(duì)定性分析模型效果的影響
圖4 因子化2D得分圖(粉末)
圖5 因子化2D得分圖(籽粒)
2.3.2 無監(jiān)督的模式識(shí)別對(duì)建模效果的影響
由表3可知,運(yùn)用Ward’s algorithm聚類算法對(duì)泰來綠豆和非泰來綠豆的聚類效果要優(yōu)于Average linkage等。主要是因?yàn)閃ard’s algorithm聚類算法不同于其他算法僅是根據(jù)光譜距離將相似樣品聚合在一起,而是根據(jù)尋找的同類綠豆的中變化最小的異質(zhì)因子進(jìn)行歸類[16]。故實(shí)驗(yàn)采用Ward’s algorithm聚類算法結(jié)合二階導(dǎo)數(shù)+SNV+5點(diǎn)平滑的預(yù)處理方式建立的聚類分析模型,其兩類綠豆的距離值為6.409,如圖6所示。宋佳航等[17]利用近紅外漫反射光譜技術(shù)對(duì)來自不同產(chǎn)地的45份白術(shù)進(jìn)行聚類鑒別分析,其正確鑒別率高達(dá)100%。Srivastava等[18]研究表明,利用NIR結(jié)合Ward’s algorithm聚類算法可以實(shí)現(xiàn)對(duì)水稻是否被蟲害進(jìn)行準(zhǔn)確聚類。
PLS是化學(xué)計(jì)量學(xué)中最有效的分析方法之一,具有準(zhǔn)確度高、穩(wěn)定性強(qiáng)的特點(diǎn)[19]。由表4可知,當(dāng)預(yù)處理方式為SNV時(shí),所建立的模型RMSECV為0.129,R2為98.06,RPD為7.18,維數(shù)為7,RMSECV隨著維數(shù)的增加而減小,達(dá)到最低點(diǎn)后幾乎保持穩(wěn)定不變,故選用此方法建立的定量分析模型最佳。利用該模型對(duì)預(yù)測樣品集采用檢驗(yàn)集檢驗(yàn)的方式對(duì)模型進(jìn)行驗(yàn)證,結(jié)果得到,RMSEP為0.123,R2為98.01,|預(yù)測相對(duì)誤差|=0.6%,研究表明當(dāng)預(yù)測誤差<5%時(shí),證明所建模型的檢測精度極高[20]。Marquetti等[21]運(yùn)用PLS法結(jié)合MSC+二階導(dǎo)數(shù)的預(yù)處理方式對(duì)巴西的咖啡產(chǎn)地正確識(shí)別率高達(dá)94.4%。
表4 不同聚類算法及預(yù)處理方式對(duì)聚類分析模型效果的影響
注:橢圓區(qū)域內(nèi)為泰來綠豆圖6 不同地區(qū)綠豆的聚類樹形圖
因上述模型均采用粉末狀態(tài)的綠豆進(jìn)行建模,為考量模型的精度與實(shí)用度,實(shí)驗(yàn)將建立好的定性分析模型和聚類分析模型用于兩種狀態(tài)的綠豆樣品進(jìn)行產(chǎn)地判別,將定量分析模型用于籽粒樣品判別,結(jié)果如表5,表6。研究表明實(shí)驗(yàn)建立的模型能很好的用于對(duì)于粉末狀態(tài)的泰來綠豆進(jìn)行鑒別,其正確識(shí)別率達(dá)到92.30%以上,對(duì)于籽粒狀態(tài)的泰來綠豆樣品而言,定量分析模型相比較其他的模型具有較高的識(shí)別率,證明采用NIR結(jié)合PLS建立的定量分析模型,其實(shí)用性較高,但其檢測精度有待進(jìn)一步提升。盡管籽粒樣品比粉末樣品的檢測情況要差很多,但這是合乎邏輯的,因?yàn)樽蚜>G豆是一個(gè)更為復(fù)雜的基質(zhì),在進(jìn)行定性分析與聚類分析的過程中,根據(jù)距離值分析,能夠?qū)D譜中的微小差異放大,造成模型精度不高。而利用PLS結(jié)合SNV預(yù)處理方式能夠去除樣品圖譜信息中可能存在的復(fù)共線關(guān)系,實(shí)現(xiàn)對(duì)泰來綠豆的準(zhǔn)確鑒別。
表5 不同預(yù)處理方式對(duì)定量分析模型效果的影響
表6 綠豆粉末驗(yàn)證結(jié)果
表7 綠豆籽粒驗(yàn)證結(jié)果
實(shí)驗(yàn)在波數(shù)為4 000~9 000 cm-1范圍內(nèi)采用NIR對(duì)不同狀態(tài)的泰來綠豆進(jìn)行產(chǎn)地溯源研究,結(jié)果表明,應(yīng)用粉末狀態(tài)的樣品的建模效果要優(yōu)于籽粒,對(duì)于定性分析而言用因子化法建立的模型精度要優(yōu)于標(biāo)準(zhǔn)算法,采用一階導(dǎo)數(shù)+5點(diǎn)平滑的預(yù)處理方式建立定性分析模型,其S值為1.347 9,對(duì)粉末和籽粒狀態(tài)的泰來綠豆正確鑒別率為96.15%和76.92%。聚類分析運(yùn)用Ward’s algorithm聚類算法優(yōu)于其他方法,采用二階導(dǎo)數(shù)+SNV+5點(diǎn)平滑的預(yù)處理方式建立的聚類分析模型,其“距離值”為6.409,對(duì)兩種狀態(tài)的泰來綠豆正確鑒別率為92.30%和76.92%。采用PLS結(jié)合SNV預(yù)處理方式建立的定量分析模型,RMSECV為0.129,R2為98.06,RPD為7.18,RMSEP為0.123,對(duì)籽粒狀態(tài)的泰來綠豆正確識(shí)別率為88.46%。故運(yùn)用NIR能實(shí)現(xiàn)對(duì)泰來綠豆的快速檢測,同時(shí)定量分析模型的實(shí)用性要優(yōu)于其他模型。今后如何運(yùn)用科學(xué)的算法來提升所建模型的檢測精度有待進(jìn)一步研究,以實(shí)現(xiàn)真正意義上的快速、無損、高效鑒別。