劉海龍,倪 金,索麗敏
(黑龍江八一農(nóng)墾大學(xué),黑龍江大慶 163319)
枸杞是目前最具發(fā)展?jié)摿Φ乃幨硟捎妙?lèi)經(jīng)濟(jì)植物,因其含有豐富的營(yíng)養(yǎng)價(jià)值和藥用價(jià)值而得到消費(fèi)者的普遍接受和信賴(lài),在全國(guó)乃至全世界都享有極高的聲譽(yù)[1]。目前,我國(guó)枸杞主產(chǎn)區(qū)的絕大多數(shù)栽培品種均引自寧夏枸杞系列品種[2]。研究表明,不同品種或不同產(chǎn)地的枸杞子在多酚、糖類(lèi)、維生素、氨基酸等化學(xué)成分含量等方面具有較大差異[3-6]。例如,祿璐等[7]研究發(fā)現(xiàn),46個(gè)枸杞原漿產(chǎn)品的主要成分與口感、風(fēng)味具有相關(guān)性;蔣蘭等[8]研究得出多種活性成分能明顯提升枸杞子品質(zhì),如枸杞多糖含量可作為枸杞果酒釀造工藝的衡量指標(biāo)[9],枸杞的營(yíng)養(yǎng)成分是其藥用價(jià)值的評(píng)價(jià)指標(biāo)之一[10]。因此,對(duì)不同品種枸杞子進(jìn)行快速、準(zhǔn)確判別,有利于根據(jù)不同枸杞子品種的差異有針對(duì)性地開(kāi)展枸杞資源的利用,提高資源利用率。目前有關(guān)枸杞子分類(lèi)方面的研究較少。
近紅外光譜是一種介于可見(jiàn)光和中紅外間的電磁波,波長(zhǎng)為780~2 526 nm,該區(qū)域的波長(zhǎng)能夠記錄C-O、O-H和N-H等化學(xué)鍵振動(dòng)的倍頻和合頻吸收信息,可以作為獲取信息有效載體對(duì)含氫基團(tuán)有機(jī)物的理化性質(zhì)進(jìn)行測(cè)量,且可實(shí)現(xiàn)對(duì)樣品快速、無(wú)損的檢測(cè),現(xiàn)已廣泛運(yùn)用于各農(nóng)產(chǎn)品研究中[11-12]。但光譜數(shù)據(jù)中還包含噪聲、基線(xiàn)漂移采樣環(huán)境干擾等不穩(wěn)定因素,會(huì)導(dǎo)致建立模型的精度下降,因此還需要提前對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,提高光譜數(shù)據(jù)信噪比和分辨率,從而提高模型預(yù)測(cè)的準(zhǔn)確度。
Keras是一種主流的神經(jīng)網(wǎng)絡(luò)框架,其采用Python編寫(xiě),高度封裝,能夠在TensorFlow、CNTK或Theano之上運(yùn)行,用戶(hù)可以用最小的時(shí)間獲得最優(yōu)的實(shí)驗(yàn)結(jié)果,大大降低了神經(jīng)網(wǎng)絡(luò)的使用門(mén)檻,減少了構(gòu)建網(wǎng)絡(luò)所耗費(fèi)的時(shí)間與精力。目前,該神經(jīng)網(wǎng)絡(luò)框架在醫(yī)學(xué)、自動(dòng)駕駛、人臉識(shí)別等眾多領(lǐng)域都有使用[13-15]。
用于實(shí)驗(yàn)的枸杞子為產(chǎn)地市購(gòu)買(mǎi),分別為中寧1號(hào)、中寧7號(hào)、小尖椒(中寧)、青海板型、青海條形,青海1號(hào)6個(gè)品種。將枸杞子樣品進(jìn)行除雜、干燥后,每個(gè)品種選取20粒作為一份樣品,得到青海1號(hào)104份、青海板型104份、青海條形106份、小尖椒(中寧)106份、中寧1號(hào)106份、中寧7號(hào)122,共計(jì)648份樣品。將樣本置于近紅外光譜實(shí)驗(yàn)室靜置24 h后進(jìn)行掃描。
采樣儀器為Bruker公司生產(chǎn)的TANGO近紅外光譜儀,測(cè)量波數(shù)為11 550~3 950 cm-1,測(cè)量樣本的吸光度。每個(gè)樣品單獨(dú)掃背景,后掃描32次選取平均光譜作為研究樣本。將樣品數(shù)據(jù)按照7∶3的比例隨機(jī)分為訓(xùn)練集和驗(yàn)證集,劃分后訓(xùn)練集和測(cè)試集樣本數(shù)據(jù)量分別為454個(gè)和194個(gè),結(jié)合Keras框架進(jìn)行枸杞子品種鑒別研究。
由于樣本在掃描過(guò)程中極易受到檢測(cè)環(huán)境、儀器、顆粒大小不均勻和自身因素的影響,使光譜數(shù)據(jù)質(zhì)量下降,產(chǎn)生基線(xiàn)漂移、噪聲、尺度差異等一系列問(wèn)題,造成模型精度下降。因此對(duì)數(shù)據(jù)分別進(jìn)行多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變換(SNV)、移動(dòng)平均平滑(MA)、標(biāo)準(zhǔn)化(SS)、Savitzky-Golay平滑濾波(SG)、最大最小歸一化(MMS)以及均值中心化(Zero-centered)預(yù)處理,提高信噪比和分辨率,讓模型更具有穩(wěn)健性。通過(guò)不同方法預(yù)處理后的光譜圖如圖1所示。
圖1 不同方法預(yù)處理后的光譜圖
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)的學(xué)習(xí)能力很強(qiáng),且對(duì)于許多非線(xiàn)性問(wèn)題有極強(qiáng)的映射能力和容錯(cuò)性[16]?;诜聪騻鞑ニ惴ǎ˙P)的神經(jīng)網(wǎng)絡(luò)作為ANN重要組成部分,在涉及多種非線(xiàn)性因素建模時(shí),相對(duì)于傳統(tǒng)的反應(yīng)機(jī)理建模顯示出巨大的優(yōu)勢(shì)[17]?;贙eras框架搭建模型1:輸入層—3個(gè)隱藏層(8)—輸出層(6)以及模型2:輸入層—3個(gè)隱藏層(16)—輸出層(6)的全連接反向傳播神經(jīng)網(wǎng)絡(luò)模型見(jiàn)圖2,使用Sgd隨機(jī)梯度下降法學(xué)習(xí)率為0.05,隱藏層均采用rule激活函數(shù)。面對(duì)多分類(lèi)問(wèn)題將輸出層激活函數(shù)設(shè)置為softmax,每批次輸入數(shù)據(jù)尺寸為100,損失函數(shù)為交叉熵(CrossEntropy Loss),設(shè)置訓(xùn)練迭代次數(shù)為10 000次。
圖2 神經(jīng)網(wǎng)絡(luò)模型
使用Python語(yǔ)言和Keras框架分別建立了模型1:3個(gè)隱藏層(8)—輸出層(6),以及模型2:3個(gè)隱藏層(16)—輸出層(6)的神經(jīng)網(wǎng)絡(luò)模型,將通過(guò)不同方法預(yù)處理后的數(shù)據(jù)輸入模型訓(xùn)練得到結(jié)果如圖3所示。
圖3 神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)不同方法預(yù)處理后的枸杞數(shù)據(jù)
分析可知,通過(guò)標(biāo)準(zhǔn)化(SS)預(yù)處理后的數(shù)據(jù)在模型1中準(zhǔn)確率達(dá)到了100%,而在模型2中經(jīng)最大最小歸一化(MMS)和標(biāo)準(zhǔn)化(SS)方法預(yù)處理后的數(shù)據(jù)測(cè)試結(jié)果準(zhǔn)確度均能達(dá)到100%,證實(shí)了該方法的有效性。
通過(guò)對(duì)自采的6種不同枸杞子品種的光譜數(shù)據(jù)進(jìn)行7種不同方法預(yù)處理后分別輸入復(fù)雜度不同的兩個(gè)Keras搭建的神經(jīng)網(wǎng)絡(luò)模型,最終模型對(duì)枸杞品種的鑒別準(zhǔn)確度達(dá)到100%,能夠滿(mǎn)足枸杞品種鑒別的實(shí)際需求。通過(guò)SS和MMS兩種預(yù)處理方法均能增大不同品種之間光譜圖的差異,有效提高了近紅外光譜預(yù)測(cè)模型的準(zhǔn)確性和魯棒性,為快速無(wú)損檢測(cè)枸杞品種提供了一種新方法。