戴元豐,代作曉,郭光智,王迎超
(1 中國科學院上海技術物理研究所 上海200083 2 太倉光電技術研究所 江蘇蘇州215411 3 中國科學院大學 北京 100049)
中國是世界上主要的水稻生產國之一,全國稻米種植區(qū)域廣、種類多,土壤、環(huán)境和水質等差異形成地域因素會導致稻米的品質發(fā)生變化[1]。具有鮮明地理標識的稻米產品因特有的口感和營養(yǎng)價值,進而具有更高的商業(yè)價值[2]。在這種條件下,一些商家為了謀取更高的利益,用相近產地的稻米代替地域品牌稻米,嚴重侵犯了消費者的利益[3]。正確鑒別稻米產地有重要意義。
目前,感官評價、形態(tài)性狀指數、雜交親和性鑒定、同工酶基因定量、DNA 分子標記、氯酸鉀耐受性、運動細胞硅體形態(tài)性狀、雙峰結節(jié)鑒定等傳統(tǒng)方法常用于水稻品種分類[4-8]。這些傳統(tǒng)方法均需要一定的軟、硬件條件支撐,操作繁瑣,耗時費力。光譜法為一種快速無損鑒別的手段,在食品科學領域得到越來越廣泛的應用[9]。近紅外光(NIR)是介于可見光(Vis)與中紅外(MIR)之間的電磁輻射波,它可以反映有機分子中含氫基團X-H(例如:X 可以為C,O,N 等)振動的各級倍頻和合頻的吸收情況[10]。高地[11]使用近紅外光譜技術結合偏最小二乘判別分析(PLS-DA)建立模型,對松原地區(qū)5 種稻米進行分類判別。錢麗麗等[12]使用近紅外光譜技術,利用因子化法建立的定性分析模型及聚類分析模型對建三江稻米及五常稻米進行判別分析。林瑩[13]利用近紅外光譜技術對輝南縣火山巖稻米的真實性進行聚類分析。然而,上述應用大多是將樣品磨粉處理后再進行光譜分析,且需要復雜的建模過程,無法滿足無損、在線檢測的需求。
廣義二維相關光譜由Noda 于1993 年提出,已經成為一種強大而通用的工具,用于解釋由外部擾動(如時間、溫度、壓力、濃度和成分)引起的細微光譜變化[14-15]。因在針對復雜生物體系檢測上的優(yōu)勢,二維相關光譜在食品分析領域也得到廣泛的應用。Zhang等[16]采用二維紅外相關光譜分析不同含糖量紅酒的主要成分和不同廠家干紅葡萄酒的揮發(fā)性殘渣,實現了對不同紅酒的鑒別。Sohng等[17]提出一種以溫度變化為外擾二維相關近紅外光譜分析策略,對摻假橄欖油進行分析,提高了鑒別的準確性。楊仁杰等[18]以牛奶中摻雜物的濃度為外擾,提出一種基于歐式距離的二維相關紅外譜判別方法,實現了對摻假牛奶的鑒別。
目前,針對稻米產地鑒別的二維相關光譜的研究很少。本文提出一種基于歐氏距離的二維相關近紅外光譜判別方法,以溫度作為外擾,針對5個產地的稻米樣品進行鑒別。通過建立不同類別樣品的標準二維相關圖譜,將待測樣品的二維相關圖譜分別與標準圖譜求取歐氏距離,依據距離最小歸屬一類的判別準則,實現對稻米產地的無損、快速鑒別。
為了更好地評判鑒別方法的有效性,在樣品選擇上選取了5 個產地的粳米樣品,分別來自黑龍江省、吉林省、寧夏回族自治區(qū)、上海市以及江蘇省。每類樣品各10 份,每份質量為15 g,放置于深10 mm 的樣品池中。樣品光譜采集在室溫下(18.0±1)℃進行,環(huán)境相對濕度約為22%±2%。稻米樣品的具體信息如表1 所示。
表1 稻米樣品信息Table 1 Details of rice samples
光譜采集使用德國INSION 公司的NIR NT/H 微型光譜儀,光譜采集區(qū)間為906~1 859 nm,分辨率為8 nm。采用漫反射采集方式,配備Y 型光纖,光源選用聞奕光電的HL3000 鹵素燈光源。使用恒溫加熱平臺對樣品池進行溫度控制,在30~60 ℃之間每隔5 ℃采集動態(tài)近紅外光譜。光譜采集時探頭距離樣品表面約3.5 cm,在該距離下經過測試可以得到重復性較好的光譜曲線。設置積分時間為500 ms,經過16 次采集取平均值獲得一條光譜數據。
動態(tài)近紅外光譜是指樣品因外擾作用而處于不同狀態(tài)時的光譜減去某一參考光譜之后的結果,動態(tài)光譜y(v,t)可以表示為:
式中,x(v,t)為樣品在外擾為t 時變量v 處的光譜強度,而x(v)則為整個外擾過程所得到的樣品光譜中變量v 處的光譜強度平均值[19]。
同步相關光譜代表兩個變量v1、v2處光譜強度隨外擾而產生變化的相似性[20]。二維相關近紅外同步譜可以表示為:
式中,Φ(v1,v2)為(v1,v2)處相關強度,A 為動態(tài)光譜矩陣,m 為矩陣行數,在本文中m=7。
同步相關譜對角線上的峰稱為自動鋒,其強度代表了該變量處光譜強度的變化程度[21]。非對角線上的峰稱為交叉峰,峰值有正負之分,代表了在外擾作用下兩個變量處光譜強度的變化是正相關還是負相關[22]。
首先對樣品進行劃分,每類稻米隨機選擇6份作為校正集,而剩余4 份樣品作為預測集。經過光譜采集和二維相關計算得到各樣品的二維相關譜后,求取校正集樣品二維譜的平均值作為該種類稻米的標準二維相關譜。預測集各個樣品的二維相關譜分別與5 個求得的標準二維相關譜求取歐式距離,將預測集樣品歸入與其距離最小的標準譜對應的稻米類別。具體計算公式如下:
式中,A、B 分別為要求取歐氏距離的兩個目標矩陣,aij與bij分別為兩個矩陣的元素,最終可以得到兩個矩陣的歐式距離D(A,B)。
儀器在完成背景測量和標準漫反射白板參考光譜測量后,可以采集到樣品的漫反射吸收譜。在不同溫度下采集到的同一樣品的光譜曲線會發(fā)生變化,經過基線校正后,某樣品的7 條在不同溫度條件下的光譜如圖1 所示,光譜已經進行了基線校正預處理。隨著溫度的不斷升高,光譜在整體趨勢上呈現下降的趨勢,這一點在峰值位置尤其明顯。這是由于稻米所含化學物質受到溫度外擾所引起的圖譜變化。以平均光譜作為參考光譜,可以得到如圖2 所示的動態(tài)光譜。從動態(tài)光譜中可以更加清晰地看出在1 205,1 405,1 650 nm 附近處的下降趨勢尤其明顯。根據相關研究報道,近紅外光譜在1 205 nm 附近的吸收峰是由于-CH3的-CH 鍵二級倍頻振動造成的,而1 405 nm 附近的吸收峰與直鏈淀粉分子中O-H 基團的反對稱和對稱振動的一級倍頻有關[23-24]。
圖2 動態(tài)光譜示例Fig.2 Examples of dynamic spectra
使用Matlab 進行相關計算,對校正集樣品的二維相關譜求取平均后,圖3a~3e 分別為以等高線形式展現的5 種樣品的標準二維相關譜,顏色越深代表數值越小,顏色越明亮代表數值越大。從圖中可以看出,不同類別的同步二維相關譜十分相似,副對角線上自動峰的位置也與一維光譜中峰值的位置對應,并且可以通過交叉峰來看出不同峰值間受溫度外擾影響下變化的關聯(lián)性,可以得到更多一維光譜中無法獲得的有用信息。圖3b、3c、3e 在(1 405,1 650)及其沿著副對角線對稱位置附近皆可以觀察到明顯的交叉峰存在,而其余兩種樣品的標準二維相關譜在該位置的交叉峰并不明顯,說明不同樣品雖然整體類似,但其內部物質含量仍存在細微差別,在受到外擾影響后得以更好地體現。
圖3 不同類別樣品的標準二維相關譜Fig.3 Standard two-dimensional correlation spectra of different types of samples
分別計算了測試集中各個樣品的二維相關近紅外譜與5 種樣品各自的標準二維相關譜之間的歐氏距離,并且根據距離最小值進行了類別歸屬的判斷,表2 展示了具體的結果。從表中可以看出,整體上除了樣品2-2 被誤分類至類別5 之外,其余所有測試集樣品皆被正確分類,整體判別準確率為95%。值得注意的是,除了同類樣品之外,所有其余待測樣品與第3 類樣品的標準二維相關譜的歐式距離都是最大的,說明第3 類樣品與其余所有樣品的差異最大。通過表1 可以看出,第3類樣品產地為寧夏回族自治區(qū),其氣候與地質條件與其余4 處差別最大。針對樣品2-2,其與各個標準相關譜的距離與同類別的其它測試集樣品存在較大差異,而且并沒有像其它樣品一樣顯現出與第3 類樣品的顯著差異。通過回溯試驗記錄,發(fā)現在進行該樣品光譜采集時升溫階段的等待間隔存在較大誤差,在動態(tài)光譜采集過程中導致樣品的溫度沒有均勻上升,從而無法得到標準的二維相關光譜,最終造成誤判。
表2 判別結果Table 2 Discrimination results
為了更好地體現每種樣品的判別效果,定義一個區(qū)分度參數:
式中,di為第i 個測試集樣品與同類別標準二維相關譜的歐氏距離,d'min代表該樣品與其余類別的標準二維相關譜歐氏距離中的最小值,disi則為第i 個測試集樣品的區(qū)分度參數,該參數數值越大,代表此樣品的區(qū)分度越高。
按照公式(4)來計算每類測試集樣品的區(qū)分度,以整體評判該判別方式對各類別樣品的整體判別效果。為了避免因為不良樣品所造成的影響,在此環(huán)節(jié)去除掉樣品2-2 的結果。經過計算,5 類樣品的平均區(qū)分度參數分別為:0.31521,1.25654,2.3535,0.15369,0.4547。由此可以看出,該判別方式對第3 類樣品的區(qū)分度最高,其次則是第2 類樣品,這兩種樣品的平均區(qū)分度參數均大于1。其余3 種樣品的平均區(qū)分度較低,尤其是第4 類樣品的區(qū)分度最差。
采用了其它兩種常用建模方法進行了判別嘗試。在同樣的樣品集劃分情況下,對30 ℃和60 ℃條線下采集的樣品光譜進行偏最小二乘判別分析和支持向量機分類嘗試。偏最小二乘判別分析(PLS-DA)是一種線性分類方法,它結合了PLS 回歸的特性和分類技術的鑒別能力[25]。它可以減少變量間多重共線性的影響,提高模型的判別性能[26]。支持向量機(SVM)是一種監(jiān)督學習算法,用于解決模式識別中的數據分類問題。它能解決高維問題,具有泛化誤差小、易于解釋、計算復雜度低等優(yōu)點[27]。當低維輸入空間中的線性邊界不足以區(qū)分兩類時,SVM 算法在高維空間中建立一個超平面或一系列超平面進行分類[28]。本研究選取線性核函數作為支持向量機的核函數,采用網格搜索法確定參數C 為7 742.645。
混淆矩陣可以直觀地顯示分類結果。矩陣的行和列分別代表試驗類和預測類,矩陣的元素mij是屬于i 類且被分類為j 類的樣本數。因此,對角線元素表示正確分類的樣本數,而其它元素則為被錯誤分類的樣本數[29]。
具體的分類結果如圖4 所示,其中(a)、(b)分別為30,60 ℃時PLS-DA 模型的判別結果,在2種溫度條件下的一維光譜數據構造的模型判別準確率皆為75%,明顯低于二維相關判別方法得到的結果。該判別方法可以比較好地區(qū)分1、2 兩類樣品,但對于其余類別樣品的判別效果不佳。圖4c、4d 為30,60 ℃時SVM 模型的判別結果,準確率分別為70%和65%,不能對第1 類樣品外的其余樣品進行很好地區(qū)分。
圖4 PLS-DA 和SVM 模型的分類結果Fig.4 Discrimination results of PLS-DA and SVM models
本文針對不同產地的稻米樣品無損鑒別問題,借助二維相關近紅外光譜的技術開展了研究。對待測樣品進行類別和數據集劃分后,進行了二維相關分析,并提出了一種通過設定標準二維相關譜的新方法,依據歐氏距離最近歸屬同類的準則,對測試集樣品進行了判別分析。最終得到的結果顯示,該方法可以達到95%的整體判別準確率,并且針對第2、3 類樣品的判別效果尤其突出。為了更好地比較二維相關方法和常用的化學計量分析方法的判別效果,還使用PLS-DA 和SVM 兩種策略進行了嘗試。經過實際測試,兩種判別方法在同樣的數據條件下,正確率最高也僅為75%,明顯低于二維相關方法。因此,使用二維相關近紅外光譜進行稻米樣品的無損判別是一種有效的手段,它在不損傷樣品的情況下可以進行準確的判別分析,而且不需要復雜的建模過程,能夠為稻米的在線檢測提供參考。