陳爭(zhēng)光, 李 鑫, 范學(xué)佳
黑龍江八一農(nóng)墾大學(xué)信息技術(shù)學(xué)院, 黑龍江 大慶 163319
基于可見近紅外光譜分析技術(shù)的馬鈴薯品種鑒別方法
陳爭(zhēng)光, 李 鑫, 范學(xué)佳
黑龍江八一農(nóng)墾大學(xué)信息技術(shù)學(xué)院, 黑龍江 大慶 163319
基于可見-近紅外光譜分析技術(shù), 提出了一種快速鑒別馬鈴薯品種的方法。 以三種不同品種共計(jì)352個(gè)樣本的馬鈴薯作為主要研究對(duì)象, 隨機(jī)將其分為建模集(307個(gè)樣本)和預(yù)測(cè)集(45個(gè)樣本)。 對(duì)其中的建模集樣品進(jìn)行可見-近紅外光譜分析, 將獲取的光譜圖像通過多元散射校正(MSC)和窗口大小為9的Savitzky-Golay(S-G)一階卷積求導(dǎo)方法預(yù)處理, 消除顆粒大小、 表面散射及光程變化對(duì)漫反射光譜影響, 降低原始光譜曲線的隨機(jī)噪聲影響。 然后用偏最小二乘法(PLS)對(duì)數(shù)據(jù)進(jìn)行降維、 壓縮, 使用主成分分析方法(PCA)獲得的前4個(gè)主成分累計(jì)貢獻(xiàn)率達(dá)到96%以上, 并從前4個(gè)主成分圖譜中提取20個(gè)吸收峰作為輸入變量, 經(jīng)過試驗(yàn), 得到一個(gè)20(輸入)-12(隱含)-3(輸出)結(jié)構(gòu)的3層BP神經(jīng)網(wǎng)絡(luò)。 最后利用該模型對(duì)預(yù)測(cè)集樣本進(jìn)行品種鑒別, 識(shí)別正確率達(dá)到100%。 此方法能較為快速、 準(zhǔn)確地鑒別馬鈴薯的品種, 為馬鈴薯品質(zhì)檢測(cè)與鑒別提供了新思路。
可見-近紅外光譜; 馬鈴薯; BP神經(jīng)網(wǎng)絡(luò); 偏最小二乘; 品種鑒別
作為我國(guó)四大農(nóng)作物之一的馬鈴薯, 年產(chǎn)量近9 000萬噸, 僅黑龍江省馬鈴薯年產(chǎn)量達(dá)到700多萬噸。 從2015年起, 中國(guó)將啟動(dòng)馬鈴薯主糧化戰(zhàn)略, 推進(jìn)把馬鈴薯加工為主食, 因此馬鈴薯將成水稻、 小麥、 玉米外的又一主糧。 隨著雜交技術(shù)的不斷發(fā)展, 馬鈴薯的新品種也逐漸增多, 單從外表通過肉眼很難區(qū)分馬鈴薯的類別。 使用傳統(tǒng)的生化鑒別方法存在費(fèi)時(shí)、 費(fèi)力、 破壞樣本并存在化學(xué)污染等不足。 因此, 研究一種高效, 無損的鑒別方法顯得尤為重要。
人類發(fā)現(xiàn)近紅外光譜區(qū)已經(jīng)有200多年的歷史, 但是真正將近紅外光譜分析技術(shù)應(yīng)用于工農(nóng)業(yè)生產(chǎn)則是近幾十年的事。 光譜分析技術(shù)具有效率高、 速度快、 無損、 無污染等特點(diǎn), 能夠利用測(cè)量所得的波段對(duì)物質(zhì)進(jìn)行定性或定量分析, 已在食品、 藥品、 石油化工等諸多領(lǐng)域被廣泛應(yīng)用。 將光譜技術(shù)應(yīng)用于農(nóng)產(chǎn)品檢測(cè)方面, 國(guó)內(nèi)外學(xué)者利用近紅外光譜技術(shù)在農(nóng)產(chǎn)品(玉米、 谷物)品質(zhì)檢測(cè)方面進(jìn)行了大量的研究, 將光譜技術(shù)應(yīng)用于馬鈴薯研究方面, 國(guó)內(nèi)外學(xué)者的研究興趣主要集中在使用光譜技術(shù)對(duì)某一品種單一組分(如淀粉[1]、 蛋白質(zhì)[2]、 還原糖等)或病理[3]的檢測(cè)。 將光譜技術(shù)應(yīng)用于農(nóng)產(chǎn)品類別識(shí)別方面, 國(guó)內(nèi)外研究較少, 周子立等[4]提出一種基于近紅外光譜技術(shù)的大米品種快速鑒別方法, 用可見光-近紅外光譜技術(shù)結(jié)合小波變換數(shù)據(jù)壓縮技術(shù)對(duì)來自三個(gè)不同地區(qū)的大米進(jìn)行了分類研究, 取得了較好的效果。 牛曉穎等使用近紅外漫反射光譜對(duì)不同品種草莓進(jìn)行無損鑒別的方法, 并分析了各品種草莓品質(zhì)指標(biāo)的差異性。 將光譜技術(shù)應(yīng)用于馬鈴薯品種鑒別方面的報(bào)道尚不多見, 代芬等以近紅外熒光光譜和近紅外拉曼光譜作為檢測(cè)手段鑒別馬鈴薯品種, 比較兩種光譜的鑒別效果, 但研究中沒有考慮光譜散射對(duì)數(shù)據(jù)處理的影響。 因?yàn)榧幢闶窍嗤贩N的馬鈴薯, 其物理性質(zhì)(大小、 形狀、 表面粗糙程度)仍有很大差異, 由此產(chǎn)生的散射光極易干擾到熒光光譜的效果, 從而導(dǎo)致靈敏度較低, 鑒別效果不明顯。 由于近紅外光譜波段信息量大、 光譜重疊, 馬鈴薯表皮情況復(fù)雜很難直接從原始光譜中提取有效信息, 若直接利用原始光譜進(jìn)行分析建模, 所得模型的穩(wěn)定性差、 精度低, 影響分析結(jié)果。 本文利用光譜儀獲取馬鈴薯的可見-近紅外光譜數(shù)據(jù), 在對(duì)光譜曲線進(jìn)行預(yù)處理基礎(chǔ)上采用偏最小二乘法對(duì)光譜進(jìn)行降維、 數(shù)據(jù)壓縮和主成分提取, 用所得的主成分結(jié)合BP神經(jīng)網(wǎng)絡(luò)建模, 實(shí)現(xiàn)對(duì)馬鈴薯的品種鑒別。
1.1 儀器與軟件
使用的是美國(guó)ASD公司制造的FieldSpec UV/VNIR手持式可見-近紅外光譜儀, 光譜測(cè)定范圍為325~1 075 nm, 采樣間隔3 nm。 光源為兩個(gè)100 W白熾燈泡。 數(shù)據(jù)處理軟件為ViewSpecPro, The Unscrambler X 10.3和MATLAB R2013b。
1.2 樣品
從當(dāng)?shù)剞r(nóng)貿(mào)市場(chǎng)購買三種常見的馬鈴薯各一袋, 分別為訥河馬鈴薯、 內(nèi)蒙黃瓤、 內(nèi)蒙白瓤(分別用A, B, C表示)。 選取的樣本數(shù)A為142, B為84, C為126, 共計(jì)352個(gè)樣本。 樣本隨機(jī)分成建模集和預(yù)測(cè)集, 建模集樣品數(shù)為307個(gè), 預(yù)測(cè)集為45個(gè)(每個(gè)品種各隨機(jī)選擇15個(gè)樣本)。
1.3 光譜的獲取
儀器預(yù)熱30 min并進(jìn)行優(yōu)化和白平衡后開始測(cè)量, 光源置于儀器兩側(cè), 儀器探頭與樣本垂直, 距離約2~3 cm, 如圖1所示。 實(shí)驗(yàn)時(shí), 每個(gè)樣本掃描32次取平均值作為樣本實(shí)驗(yàn)數(shù)據(jù)。
圖1 實(shí)驗(yàn)平臺(tái)
1.4 光譜預(yù)處理
光譜圖像主要反應(yīng)物質(zhì)的組成成分和成分含量, 因?yàn)槭墉h(huán)境中多種因素(光照、 粒度、 密度、 表面紋理等)的干擾, 原始光譜曲線會(huì)產(chǎn)生基線漂移[5]并且含有噪聲, 由于光譜曲線中325~400 nm之間受噪聲影響嚴(yán)重, 因此研究范圍以400~1 075 nm為主。 為了消除光譜曲線中基線平移和偏移的影響, 采用多元散射校正(MSC)方法分別處理三個(gè)品種的馬鈴薯光譜, 增強(qiáng)光譜曲線與成分含量的相關(guān)性。 再用Savitzky-Golay一階卷積求導(dǎo), 窗口尺寸為9[6]。 該處理流程避免了直接使用求導(dǎo)方法造成噪聲放大的弊端, 并且可以得到比原始光譜更高的分辨率和更清晰的波形變化, 有助于后期模型的建立, 提高模型的穩(wěn)定性和可靠性。
1.5 偏最小二乘與人工神經(jīng)網(wǎng)絡(luò)
使用偏最小二乘(partial least squares, PLS)對(duì)光譜進(jìn)行降維時(shí)[7-8], 同時(shí)分解光譜矩陣(自變量矩陣X)和濃度矩陣(因變量矩陣Y), 并將濃度信息引入到光譜矩陣分解過程中, 在計(jì)算主成分之前, 交換光譜矩陣與濃度矩陣的得分, 從而使光譜主成分和該組分含量直接進(jìn)行關(guān)聯(lián)。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)具有很強(qiáng)的學(xué)習(xí)能力、 魯棒性、 自適應(yīng)性及高度非線性表達(dá)能力[9]。 ANN中最常用到的是BP(Back Propagation)神經(jīng)網(wǎng)絡(luò), 它是一種信息正傳遞, 誤差反向傳播的多層前饋網(wǎng)絡(luò), 信息通過輸入層、 隱含層到達(dá)輸出層, 如果輸出層沒有輸出期望值, 則計(jì)算誤差變化值并反向傳播, 網(wǎng)絡(luò)通過誤差信號(hào)自行更正各層神經(jīng)元的權(quán)值, 使輸出不斷逼近期望值。 利用訓(xùn)練數(shù)據(jù)對(duì)構(gòu)建的網(wǎng)絡(luò)進(jìn)行訓(xùn)練, 通過網(wǎng)絡(luò)的自學(xué)習(xí)而產(chǎn)生預(yù)測(cè)能力, 從而實(shí)現(xiàn)預(yù)測(cè)集中的樣本分類。
2.1 馬鈴薯的可見-近紅外反射光譜
圖2所示為截取后的400~1 075 nm范圍內(nèi)三種馬鈴薯的典型可見-近紅外反射光譜曲線, 波譜的趨勢(shì)大致相同, 說明不同品種馬鈴薯組分基本相同, 曲線的差異主要是由于不同品種馬鈴薯主要成分含量差異所致, 各自的特征較為明顯。 利用PLS對(duì)預(yù)處理后的光譜進(jìn)行分析, 對(duì)不同種類的馬鈴薯進(jìn)行分類。
圖2 三種馬鈴薯的可見-近紅外光譜反射圖
2.2 偏最小二乘對(duì)馬鈴薯品種的聚類分析
圖3所示為通過對(duì)光譜進(jìn)行多元散射校正和窗口寬度為9的S-G一階卷積求導(dǎo)預(yù)處理后的效果圖, 從圖中可以看出預(yù)處理之后的譜線有了明顯的變化, 不同品種之間的差異較圖2更加明顯, 為接下來的品種鑒別工作奠定了基礎(chǔ)。 用PLS對(duì)處理后的光譜數(shù)據(jù)進(jìn)行分析, 在計(jì)算主成分時(shí)盡可能地保證方差最大, 更多地提取數(shù)據(jù)內(nèi)有效信息, 并且盡量利用光譜變量與濃度之間的線性關(guān)系與濃度最大程度地相關(guān)聯(lián)。 圖4所示為使用PLS處理之后, 以前3個(gè)主成分PC1, PC2, PC3作為坐標(biāo)軸, 對(duì)建模集中的樣品進(jìn)行聚類之后的效果, 聚類效果非常明顯。 通過觀察, 三個(gè)樣本分布在坐標(biāo)的不同區(qū)域。 樣本B在三維坐標(biāo)系的中心帶, 而樣本A和樣本C分居兩側(cè), 并且樣本各自的聚合度非常好, 沒有大幅度跨象限的現(xiàn)象。
圖3 預(yù)處理后的三種馬鈴薯光譜圖
圖4 馬鈴薯主成分(PC1, PC2, PC3)得分圖
2.3 基于BP神經(jīng)網(wǎng)絡(luò)馬鈴薯品種鑒別模型的建立
全譜數(shù)據(jù)中混雜著一些無效或干擾信息, 用全波段數(shù)據(jù)進(jìn)行建模會(huì)影響模型的穩(wěn)定性、 精確度和運(yùn)算速率。 挑選出有代表性的光譜特征數(shù)據(jù)進(jìn)行模型建立能大大提高運(yùn)算效率。 如圖5所示為全譜范圍的前4個(gè)主成分圖譜, 其累計(jì)貢獻(xiàn)率達(dá)到96%以上, 選取20處最能反應(yīng)光譜信息的吸收峰所對(duì)應(yīng)的波長(zhǎng)作為光譜特征數(shù)據(jù)。 由于PC1和PC2累積貢獻(xiàn)率達(dá)86%, 包含了樣品中大部分特征信息, 因此選取這兩個(gè)主成分的全部吸收峰, 共計(jì)13個(gè); 而PC3和PC4累積貢獻(xiàn)率為10%, 貢獻(xiàn)率相對(duì)較低, 其主成分會(huì)摻雜有噪聲, 因此選取這兩個(gè)主成分的顯著吸收峰, 共7個(gè)。 對(duì)選取的20個(gè)特征峰數(shù)據(jù)進(jìn)行歸一化處理作為BP神經(jīng)網(wǎng)絡(luò)的輸入, 神經(jīng)網(wǎng)絡(luò)各層傳遞函數(shù)選用S型(Sigmoid)函數(shù), 學(xué)習(xí)速率設(shè)為0.1, 最大迭代次數(shù)為2 000, 通過調(diào)整隱含層節(jié)點(diǎn)數(shù)來優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu), 用試湊法反復(fù)測(cè)試, 最終得到的最佳網(wǎng)絡(luò)結(jié)構(gòu)為20(輸入)-12(隱含)-3(輸出)的3層BP神經(jīng)網(wǎng)絡(luò)模型, 通過訓(xùn)練得出樣本正確分類百分比為99.15%, 平均絕對(duì)誤差為0.012。 對(duì)預(yù)測(cè)集的45個(gè)樣本進(jìn)行分類, 預(yù)測(cè)準(zhǔn)確率達(dá)到100%, 如表1所示。
圖5 全譜范圍的前四個(gè)主成分圖譜
序號(hào)真實(shí)值預(yù)測(cè)值序號(hào)真實(shí)值預(yù)測(cè)值序號(hào)真實(shí)值預(yù)測(cè)值1AA(99 78%)16BB(99 98%)31CC(99 91%)2AA(98 74%)17BB(98 68%)32CC(97 97%)3AA(99 97%)18BB(99 72%)33CC(98 91%)4AA(97 63%)19BB(96 98%)34CC(98 78%)5AA(99 96%)20BB(97 41%)35CC(99 90%)6AA(98 77%)21BB(98 93%)36CC(99 96%)7AA(99 73%)22BB(99 98%)37CC(98 13%)8AA(99 99%)23BB(99 94%)38CC(97 72%)9AA(99 58%)24BB(97 23%)39CC(98 64%)10AA(98 51%)25BB(97 82%)40CC(96 86%)11AA(97 26%)26BB(98 53%)41CC(98 89%)12AA(99 95%)27BB(99 51%)42CC(99 11%)13AA(99 99%)28BB(99 98%)43CC(97 81%)14AA(98 98%)29BB(99 98%)44CC(99 61%)15AA(99 79%)30BB(98 59%)45CC(99 58%)
運(yùn)用可見-近紅外光譜分析技術(shù)結(jié)合BP神經(jīng)網(wǎng)絡(luò)建模對(duì)三種馬鈴薯樣本進(jìn)行了品種鑒別。 采集三種馬鈴薯的反射光譜作為研究樣本, 經(jīng)過多元散射校正和S-G一階卷積求導(dǎo)后, 用PLS進(jìn)行數(shù)據(jù)壓縮, 將前4個(gè)主成分的吸收峰作為輸入變量, 建立了20-12-3結(jié)構(gòu)的BP神經(jīng)網(wǎng)絡(luò)模型, 對(duì)預(yù)測(cè)集樣本分類的正確率達(dá)到100%, 能夠高效、 準(zhǔn)確地對(duì)馬鈴薯品種進(jìn)行鑒別, 并且不損壞樣本結(jié)構(gòu), 克服了傳統(tǒng)方法檢測(cè)的弊端。 研究表明該方法可以用于馬鈴薯品種鑒別和分類, 可以作為有效手段加以推廣、 應(yīng)用。
[1] WU Chen, HE Jian-guo, LIU Gui-shan, et al(吳 晨, 何建國(guó), 劉貴珊, 等). Food and Machinery(食品與機(jī)械), 2014, 30(4): 133.
[2] López, A, Arazuri S, Jarén C, et al. Procedia Technology, 2013, 8: 488.
[3] HUANG Tao, LI Xiao-yu, XU Meng-ling, et al(黃 濤, 李小昱, 徐夢(mèng)玲, 等). Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2015, 35(1): 198.
[4] ZHOU Zi-li, ZHANG Yu, HE Yong, et al(周子立, 張 瑜, 何 勇, 等). Transactions of the Chinese Society of Agricultural Engineering(農(nóng)業(yè)工程學(xué)報(bào)), 2009, 25(8): 131.
[5] NI Zhen, HU Chang-qin, FENG Fang(尼 珍, 胡昌勤, 馮 芳). Chinese Journal of Pharmaceutical Analysis(藥物分析雜志), 2008, 28(5): 824.
[6] LI Xin, CHEN Zheng-guang(李 鑫, 陳爭(zhēng)光). Heilongjiang Agricultural Sciences(黑龍江農(nóng)業(yè)科學(xué)), 2015, 2: 132.
[7] Alvarez Sánchez B, Priego Capote F, García Olmo J, et al. Journal of Chemometrics, 2013, 27(9): 221.
[8] Peerapattana J, Shinzawa H, Otsuka K, et al. Journal of Near Infrared Spectroscopy, 2013, 21(3): 195.
[9] Wang S, Zhang Z, Ning J, et al. Analytical Letters, 2013, 46(1): 184.
Method for the Discrimination of the Variety of Potatoes with Vis/NIR Spectroscopy
CHEN Zheng-guang, LI Xin, FAN Xue-jia
College of Information Technology, Heilongjiang Bayi Agricultural University, Daqing 163319, China
Potato (Solanum tuberosum L.) , as one of the most important carbohydrate food crops in the China ranking thefourth after rice, wheat and maize, plays a significant role in national economy. Since there are many varieties of potato, the quality such as physical sensory property and chemical components, differ drastically with the variety of potato. Different potato varieties are suitable for different utilization. Thus, the rapid and nondestructive identification of potato cultivars plays an important role in the better use of varieties. Near infrared (NIR) spectroscopy has raised a lot of interest in the classification and identification of agricultural products because it is a rapid and non-invasive analytical technique. In this study, a rapid visible (VIS) and near infrared (NIR) spectroscopic system was explored as a tool to measure the diffuse spectroscopy of three different species of potatoes. 352 potato samples (Sample A 142, Sample B 84, Sample C 126) from different sites in Heilongjiang province of China, obtained from peddlers market, were randomly divided into two sets at random: calibration set and prediction set, with 307 samples and 45 samples respectively for each set. The potatoes in the calibration set were tested with visible-near infrared spectroscopy method. The spectral data obtained from this test were analyzed with near infrared spectral technology, along with data processing algorithm, i.e., Savitzky-Golay (S-G) smoothing and multiplicative scatter correction (MSC). The spectra data was firstly transformed by multiplicative scatter correction (MSC) to compensate for additive and/or multiplicative effects. In order to reduce the noise components from a raw spectroscopic data set, Savitzky-Golay smoothing and differentiation filter method were introduced. It was proved that, with the soothing segment size of 9, many high frequency noises components can be eliminated. Based on the following analysis with principal component analysis (PCA), partial least square (PLS) regression and back propagation artificial neural network (BP-ANN), a near infrared discrimination model was established. The results obtained from the partial least squares (PLS) analysis showed a positive cumulate reliability of more than 96% for the first four components. The clustering effect was also getting better. After that, twenty absorption peaks extracted from the first four principal components were applied as BP neural network inputswhile a three layers BP neural network [20(input) - 12(implicit) - 3 (output)] was constructed, upon which the recognition accuracy of potato varieties for those Prediction Set samples reaches 100%. As a result, the model established in this study can rapidly and accurately identify potato varieties without any destruction, which provides a new way for potato quality detection and variety identification.
Vis-NIRS; Potato; BP neural network; Partial least squares (PLS); Discrimination
Jun. 1, 2015; accepted Nov. 28, 2015)
2015-06-01,
2015-11-28
高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金項(xiàng)目(20124105110004), 黑龍江省科技計(jì)劃項(xiàng)目(GA09B501-2)和黑龍江省教育廳科研項(xiàng)目(12521370)資助
陳爭(zhēng)光, 1973年生, 黑龍江八一農(nóng)墾大學(xué)信息技術(shù)學(xué)院副教授 e-mail: ruzee@sina.com
O433.4; S532
A
10.3964/j.issn.1000-0593(2016)08-2474-05