栗曉禹 黃興召
(國家林業(yè)局調(diào)查規(guī)劃設(shè)計(jì)院,北京,100714) (安徽農(nóng)業(yè)大學(xué))
基于時(shí)間序列神經(jīng)網(wǎng)絡(luò)的山核桃化學(xué)成分分析1)
栗曉禹 黃興召
(國家林業(yè)局調(diào)查規(guī)劃設(shè)計(jì)院,北京,100714) (安徽農(nóng)業(yè)大學(xué))
核桃;蛋白質(zhì);脂肪;時(shí)間序列神經(jīng)網(wǎng)絡(luò)法;神經(jīng)網(wǎng)絡(luò)法;偏最小二乘法
山核桃(CaryacathayensisSarg.)是我國特有的高檔干果和木本油料樹種,主要分布于浙、皖交界的天目山區(qū)。有近7萬農(nóng)戶從事山核桃生產(chǎn)經(jīng)營,主產(chǎn)區(qū)農(nóng)戶的收入70%以上來源于山核桃[1]。山核桃的營養(yǎng)成分含量是評(píng)價(jià)山核桃質(zhì)量好壞的重要指標(biāo)。因此,對(duì)果實(shí)的化學(xué)成分(脂肪、蛋白質(zhì)、氨基酸等)含量分析具有重要的價(jià)值。王冀平等[2]較早的利用氨基酸分析儀和氣相色譜儀及經(jīng)典的化學(xué)分析法對(duì)山核桃仁中的氨基酸、脂肪酸、蛋白質(zhì)、脂肪的組成和含量進(jìn)行了測(cè)定。同時(shí),也對(duì)山核桃外果皮的化學(xué)成分的進(jìn)行了測(cè)定和分析[3-4]。山核桃化學(xué)成分的測(cè)定過程復(fù)雜,費(fèi)時(shí)費(fèi)力。但是,運(yùn)用光譜數(shù)據(jù)與植物生理特性的相關(guān)性,分析果實(shí)的化學(xué)成分含量,方法簡單、操作快速,越來越受到重視[5-7]。
偏最小二乘法(PLS)能夠在自變量存在嚴(yán)重多重相關(guān)性的條件下進(jìn)行回歸建模,并且在樣本點(diǎn)個(gè)數(shù)少于變量個(gè)數(shù)的條件下進(jìn)行線性回歸[8]。但是,樣本數(shù)據(jù)變異范圍較大時(shí),樣本數(shù)據(jù)和光譜參數(shù)的非線性關(guān)系就會(huì)增大,預(yù)測(cè)效果就會(huì)變差[9]。人工神經(jīng)網(wǎng)絡(luò)(ANN)從信息處理的角度,對(duì)人腦神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象,建立簡單模型,按不同的連接方式組成不同的網(wǎng)絡(luò),通過模擬大腦神經(jīng)網(wǎng)絡(luò)處理、記憶信息的方式進(jìn)行信息處理[10]。ANN是由大量處理單元互聯(lián)組成的非線性、自適應(yīng)信息處理系統(tǒng),同時(shí),將PLS分析中得到的特征變量作為ANN的輸入?yún)⒖?,不僅減少了ANN的計(jì)算量,加快訓(xùn)練速率,還可以去除光譜干擾,提高預(yù)測(cè)效果[11]。偏最小二乘法的人工神經(jīng)網(wǎng)絡(luò)(PLS-ANN)方法可以很好的利用光譜數(shù)據(jù)預(yù)測(cè)樣品的化學(xué)成分[12]。
山核桃化學(xué)成分的含量隨著果實(shí)的生長不斷增加,利用PLS-ANN預(yù)測(cè)山核桃果實(shí)生長過程中化學(xué)成分的變化,必須考慮時(shí)間因素。因?yàn)樯胶颂夜麑?shí)化學(xué)成分含量的變化與時(shí)間序列(TS)具有典型非線性相關(guān)。因此,可以通過前期的果實(shí)脂肪含量,預(yù)測(cè)后期的果實(shí)脂肪含量。時(shí)間序列的神經(jīng)網(wǎng)絡(luò)(TSNN )作為一種非參數(shù)的方法,利用前期的數(shù)據(jù)來識(shí)別隱含著時(shí)間序列中的相關(guān)性和記憶效應(yīng),解決有時(shí)間序列的預(yù)測(cè)問題[12]。因此,通過測(cè)定6個(gè)時(shí)間梯度的山核桃果實(shí)的蛋白質(zhì)和脂肪含量,利用PLS、PLS-ANN和TSNN等方法建模,預(yù)測(cè)山核桃果實(shí)蛋白質(zhì)和脂肪含量,以期為經(jīng)濟(jì)林果實(shí)成分分析提供新的數(shù)據(jù)處理方法。
實(shí)驗(yàn)地點(diǎn)位于安徽省金寨縣山核桃示范園,地處安徽省西部,大別山主脈北坡,該區(qū)屬北亞熱帶季風(fēng)濕潤季候,年平均氣溫16 ℃,全年無霜期210 d,年降水量1 400 mm,土壤為典型的沙壤土,土壤厚度≥60 cm,pH值6.0~6.5。
2.1 實(shí)驗(yàn)樣品及化學(xué)成分測(cè)定
實(shí)驗(yàn)所需山核桃樣品的采集地點(diǎn)為安徽省金寨縣山核桃示范園,據(jù)果實(shí)生長發(fā)育過程將采集樣品分為6個(gè)時(shí)間梯度:2014年7月21日、8月1日、8月11日、8月21日、8月31日和9月10日。每個(gè)時(shí)間梯度的間隔均為10 d, 每次采集15顆山核桃果實(shí),帶到實(shí)驗(yàn)室進(jìn)行分析。
山核桃果實(shí)蛋白質(zhì)含量采用凱式定氮法測(cè)定。每顆山核桃經(jīng)破殼、取仁、粉碎均勻后,其中取1 g置于 500 mL燥的凱氏燒瓶內(nèi),利用CuSO4、K2SO4、濃硫酸、2%的H3BO3、甲基紅-溴甲酚混合指示劑、飽和氫氧化鈉溶液和0.01 mol/L的HCl標(biāo)準(zhǔn)滴定液,測(cè)定每個(gè)果實(shí)的蛋白質(zhì)質(zhì)量分?jǐn)?shù)。
山核桃果實(shí)脂肪質(zhì)量分?jǐn)?shù)采用酸水解法測(cè)定。取粉碎均勻的果仁2 g置于50 mL試管內(nèi),通過濃鹽酸、乙醚、石油醚和5%乙醇,使用水浴鍋、具塞量筒和干燥箱提取脂肪,根據(jù)樣品質(zhì)量及提取的脂肪質(zhì)量計(jì)算每個(gè)果實(shí)的脂肪質(zhì)量分?jǐn)?shù)。
2.2 樣品光譜數(shù)據(jù)
山核桃經(jīng)破殼、取仁、粉碎均勻后剩余的樣品,使用美國ASD公司的FieldSpec3 型光譜儀(350~2 500 nm)進(jìn)行樣品測(cè)試每顆山核桃樣品。采樣間隔在350~1 000 nm為1.4 nm,1 000~2 500 nm為2 nm。整個(gè)過程都在暗室中進(jìn)行,以鹵素?zé)魹槲ㄒ还庠?,最大限度減小外來光線的影響[13]。光源入射角45°,距樣品表面30 cm,探頭位于山核桃果仁樣品垂直上方15 cm處,視場(chǎng)角45°,果仁樣品覆蓋面積20 cm2。每個(gè)樣本取10條光譜曲線數(shù)據(jù)算術(shù)平均,得到該山核桃果仁樣品實(shí)際反射光譜數(shù)據(jù);每測(cè)8個(gè)樣本做一次白板校正,以獲得無量綱的相對(duì)反射率。
山核桃果仁的光譜圖有一定的共性,即本身的特征性和指紋性(見圖1)。不同時(shí)間梯度的山核桃果仁的光譜圖有明顯區(qū)別。除了350~450 nm 和900~1 400 nm的光譜有重疊外,在450~750 nm和1 800~2 500 nm 的光譜有明顯的差異。
圖1 山核桃果實(shí)發(fā)育階段的6個(gè)時(shí)間梯度的光譜圖
2.3 預(yù)測(cè)方法
偏最小二乘法(PLS):采用 PLS 對(duì)山核桃樣品的實(shí)際反射光譜數(shù)據(jù)進(jìn)行降維和正交化處理,得到原始數(shù)據(jù)矩陣的 PLS 主成分及相應(yīng)的主成分得分矩陣[14],并建立 PLS 回歸模型,對(duì)山核桃果實(shí)樣品中的蛋白質(zhì)和脂肪含量進(jìn)行預(yù)測(cè)。
偏最小二乘法的人工神經(jīng)網(wǎng)絡(luò)(PLS-ANN):ANN中處理典型的單元類型如圖2所示,輸入層、隱藏層和輸出層。輸入層接受實(shí)驗(yàn)測(cè)定的光譜數(shù)據(jù),輸入向量X包含M維數(shù)據(jù);隱藏層是處在輸入和輸出單元之間,不能由系統(tǒng)外部觀察的單元,包含H個(gè)單元;輸出層實(shí)現(xiàn)處理結(jié)果,輸出向量Y包含N維數(shù)據(jù)。輸入層與隱藏層之間的連接權(quán)值為wij,隱藏層與輸出層之間的連接權(quán)值為wjk,其中i∈[1,M],j∈[1,H],k∈[1,N]。利用樣本中的導(dǎo)出值得到輸出層誤差,然后根據(jù)德爾塔法則,在網(wǎng)絡(luò)中反向傳播誤差來修正網(wǎng)絡(luò)中的各層誤差,反復(fù)這個(gè)過程直到網(wǎng)絡(luò)的輸出誤差符合期望誤[15]。
圖2 人工神經(jīng)網(wǎng)絡(luò)示意圖
本研究中PLS-ANN網(wǎng)絡(luò)輸入層、隱藏層和輸出層節(jié)點(diǎn)數(shù)分別為8、11、1。輸入層節(jié)點(diǎn)為PLS 主成分個(gè)數(shù),輸出層設(shè)定的輸出值分別為[0, 1]和[0.1, 0.9],最小訓(xùn)練速度為0.4,迭代次數(shù)設(shè)定為1 000次。
時(shí)間序列的神經(jīng)網(wǎng)絡(luò)(TSNN):TSNN方法的關(guān)鍵是規(guī)格化處理,可以有效防止數(shù)值范圍過大使激活函數(shù)失去作用[16]。以山核桃化學(xué)成分含量預(yù)測(cè)為例,因數(shù)據(jù)來源于不同時(shí)間梯度的觀測(cè)點(diǎn),故需要對(duì)數(shù)據(jù)進(jìn)行整合,以代表山核桃蛋白質(zhì)或脂肪含量的變化情況。然后對(duì)數(shù)列進(jìn)行歸一化處理,以加快網(wǎng)絡(luò)的收斂速度。山核桃蛋白質(zhì)或脂肪含量的歸一化處理,是將數(shù)列值與最小序列值做差,除以序列最大值與最小值之差,數(shù)列就轉(zhuǎn)化到[0, 1]或者[0.1, 0.9]。
TSNN用于時(shí)間序列的預(yù)測(cè),其方法就是按照固定長度分割樣本,本研究樣本的固定長度為10 d,使每一個(gè)樣本都對(duì)應(yīng)著1個(gè)或多個(gè)未來的序列值,每一個(gè)樣本輸入人工網(wǎng)絡(luò)就得到一個(gè)輸出,輸出值就是樣本對(duì)應(yīng)的未來序列的預(yù)測(cè)值,通過與真實(shí)值的對(duì)比,訓(xùn)練網(wǎng)絡(luò)最終達(dá)到預(yù)測(cè)時(shí)間序列的目的[17]。
TSNN數(shù)學(xué)表達(dá)如下:
式中:aj、βij分別是神經(jīng)網(wǎng)絡(luò)的連接權(quán)重,i=0、1、2、…、h,j=0、1、2、…、n,n和h分別是網(wǎng)絡(luò)的輸入層及隱藏層節(jié)點(diǎn)數(shù)。
基于時(shí)間序列的神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)表達(dá)式,本質(zhì)上是一個(gè)對(duì)于過去時(shí)間序列(yt-1,yt-2,yt-3,…,yt-h)到未來時(shí)間(yt)的一個(gè)非線性函數(shù),即:yt=f(yt-1,yt-2,yt-3,…,yt-h)+wt。其中:函數(shù)f(x)代表了TSNN的結(jié)構(gòu)和連接權(quán)重因素,TSNN的權(quán)重參數(shù)為wt。TSNN網(wǎng)絡(luò)輸入層、隱藏層和輸出層節(jié)點(diǎn)數(shù)、輸出層設(shè)定輸出值、最小訓(xùn)練速度及迭代次數(shù)與ANN相同。
表1 3種方法預(yù)測(cè)山核桃蛋白質(zhì)質(zhì)量分?jǐn)?shù)的檢驗(yàn)
由圖3可知,PLS方法的誤差較大,大部分蛋白質(zhì)質(zhì)量分?jǐn)?shù)預(yù)測(cè)值離回歸線較遠(yuǎn);PLS-ANN方法優(yōu)與PLS方法,預(yù)測(cè)值大部分分布在回歸線兩側(cè);TSNN方法最優(yōu),預(yù)測(cè)值均勻分布在回歸線上。因此,說明TSNN方法較好,且預(yù)測(cè)精度最高。
圖3 山核桃蛋白質(zhì)質(zhì)量分?jǐn)?shù)的預(yù)測(cè)值和實(shí)際值的散點(diǎn)圖
表2 3種方法預(yù)測(cè)的山核桃脂肪質(zhì)量分?jǐn)?shù)的檢驗(yàn)
由圖4可知,PLS方法預(yù)測(cè)的脂肪質(zhì)量分?jǐn)?shù)誤差較大,大部分脂肪質(zhì)量分?jǐn)?shù)預(yù)測(cè)值離回歸線較遠(yuǎn);PLS-ANN方法優(yōu)與PLS方法,脂肪質(zhì)量分?jǐn)?shù)預(yù)測(cè)值大部分分布在回歸線兩側(cè);TSNN方法最優(yōu),脂肪質(zhì)量分?jǐn)?shù)預(yù)測(cè)值均勻分布在回歸線上,說明TSNN方法最優(yōu),且預(yù)測(cè)精度最高。
圖4 山核桃脂肪含量的預(yù)測(cè)值和實(shí)際值的散點(diǎn)圖
本文偏重?cái)M合方法研究,利用偏最小二乘法(PLS),人工神經(jīng)網(wǎng)絡(luò)(PLS-ANN)和時(shí)間序列的神經(jīng)網(wǎng)絡(luò)(TSNN)3種方法,分別擬合山核桃果實(shí)蛋白質(zhì)和脂肪的含量,TSNN可以消除果實(shí)生長發(fā)育過程中時(shí)間對(duì)其影響,顯著提升山核桃果實(shí)在生長發(fā)育過程中蛋白質(zhì)和脂肪含量的估算效果。KHALED 等[12]、HAROLD 等[15]在林分物理化學(xué)性質(zhì)、果實(shí)的養(yǎng)分含量等指標(biāo)的預(yù)測(cè)中,表明人工神經(jīng)網(wǎng)絡(luò)(PLS-ANN)和偏最小二乘法(PLS)之間存在顯著差異,且PLS-ANN可以提升預(yù)測(cè)精度。因?yàn)椋琍LS-ANN是由大量處理單元互聯(lián)組成的非線性、自適應(yīng)信息處理系統(tǒng),按不同的連接方式組成不同的網(wǎng)絡(luò),通過模擬大腦神經(jīng)網(wǎng)絡(luò)處理、建立某種簡單模型,不僅減少了計(jì)算量,還可以去除光譜干擾。
山核桃蛋白質(zhì)和脂肪的含量,隨著果實(shí)的生長不斷增加,預(yù)測(cè)模型必須考慮時(shí)間因素。時(shí)間序列的神經(jīng)網(wǎng)絡(luò)(TSNN)按照時(shí)間長度將樣本分割,進(jìn)行規(guī)格化處理,防止數(shù)值范圍過大使激活函數(shù)失去作用[17]。不同時(shí)間段的山核桃蛋白質(zhì)和脂肪含量,在TSNN中以時(shí)間梯度進(jìn)行了行歸一化處理,以加快網(wǎng)絡(luò)的收斂速度。因此,消除時(shí)間梯度對(duì)山核桃蛋白質(zhì)和脂肪含量預(yù)測(cè)的影響,提升了預(yù)測(cè)精度。
基于山核桃果實(shí)發(fā)育階段的6個(gè)時(shí)間梯度的光譜圖,分別使用PLS方法、PLS-ANN方法和TSNN方法預(yù)測(cè)山核桃果實(shí)蛋白質(zhì)和脂肪的含量,TSNN的預(yù)測(cè)均方根誤差最小。因此,TSNN方法分析時(shí)間梯度的數(shù)據(jù)時(shí),具有較好的預(yù)測(cè)能力和穩(wěn)健性。
[1] 黃堅(jiān)欽,夏國華.圖說山核桃生態(tài)栽培技術(shù)[M].杭州:浙江科學(xué)技術(shù)出版社,2008:36-41.
[2] 王冀平,李亞南,馬建偉.山核桃仁中主要營養(yǎng)成分的研究[J].食品科學(xué),1998,19(4):44-46.
[3] 林君陽.山核桃外果皮化學(xué)成分及抑菌活性研究[D].臨安:浙江林學(xué)院,2008:32-35.
[4] 陳仕云,吳德玲,金傳山,等.山核桃外蒲殼化學(xué)成分初步分析及總黃酮含量測(cè)定[J].安徽中醫(yī)藥大學(xué)學(xué)報(bào),2010,29(1):64-66.
[5] 顧志宏.基于高光譜的大麥籽粒蛋白質(zhì)含量遙感預(yù)測(cè)[J].光譜學(xué)與光譜分析,2012,32(2):435-438.
[6] AITHALA K B, KUNMAR S M R, RAO N B, et al. Juglone, a naphthoquinone from walnut, exerts cytotoxic and genotoxic effects against cultured melanoma tumor cells[J]. Cell Biology International,2009,33(10):1039-1049.
[7] 葉旭軍,KENSHI S,何勇.基于機(jī)載高光譜成像的柑橘產(chǎn)量預(yù)測(cè)模型研究[J].光譜學(xué)與光譜分析,2010,30(5):1295-1300.
[8] R?NKK? M, MCINTOSH C N, ANTONAKIS J. On the adoption of partial least squares in psychological research: Caveat emptor[J]. Personality and Individual Differences,2015,87:76-84.
[9] HAZAMA K, KANO M. Covariance-based locally weighted partial least squares for high performance adaptive modeling[J]. Chemometrics and Intelligent Laboratory Systems,2015,146:55-62.
[10] ATA R. Artificial neural networks applications in wind energy systems: a review[J]. Renewable and Sustainable Energy Reviews,2015,49:543-562.
[11] MAXIME J, JULIEN P, PIERRICK N, et al. Fractionation in position-specific isotope composition during vaporization of environmental pollutants measured with isotope ratio monitoring by 13C nuclear magnetic resonance spectrometry[J]. Environmental Pollution,2015,205:299-306.
[12] KHALED C, EDDY E T, LOUBNA B, et al. Predicting the flame characteristics and rate of spread in fires propagating in a bed of pinus pinaster using artificial neural networks[J]. Process Safety and Environmental Protection,2015,98:50-56.
[13] EUNYOUNG C, FREEK M, FRANK R, et al. Mapping of heavy metal pollution in stream sediments using combined geochemistry, field spectroscopy, and hyperspectral remote sensing: A case study of the rodalquilar mining area, SE Spain[J]. Remote Sensing of Environment,2008,112(7):3222-3233.
[14] MAJID B, SAYED A M, ZAHRA B. Modeling and optimization of activated sludgebulking for a real wastewater treatment plant using hybrid artificial neural networks-genetic algorithm approach[J]. Process Safety and Environmental Protection,2015,95:12-25.
[15] HAROLD W W, DANIEL S J C, BRUCE D B, et al. Testing complex models with small sample sizes a historical overview and empirical demonstration of what partial least squares (PLS) can offer differential psychology[J]. Personality and Individual Differences,2015,84:73-78.
[16] LEONEL A L, RICARDO A S F, GUILHERME G L. Maximum and minimum stock price forecasting of brazilian power distribution companies based on artificial neural networks[J]. Applied Soft Computing,2015,35:66-74.
[17] HU Z Y, BAO Y K, CHIONG R, et al. Profit guided or statistical error guided? a study of stock index forecasting using support vector regression[J]. Journal of Systems Science and Complexity,2017(2):1-18.
NeuralNetworkofTimeSeriesinChemicalContentofHickory//
Li Xiaoyu
(Academy of Inventory and Planning, SFA, Beijing 100714, P. R. China);
Huang Xingzhao
(Anhui Agricultural University)//Journal of Northeast Forestry University,2017,45(9):54-57.
CaryacathayensisSarg.; Protein; Fat; Neural network of time series; Artificial neural networks; Partial least squares
S715.3
1)林業(yè)行業(yè)標(biāo)準(zhǔn)(2017-LY-086);林業(yè)科普項(xiàng)目(2017-KP13);安徽農(nóng)業(yè)大學(xué)青年項(xiàng)目(2014rz013)。
栗曉禹,女,1982年7月生,國家林業(yè)局調(diào)查規(guī)劃設(shè)計(jì)院,工程師。E-mail:lixiaoyu@afip.com.cn。
黃興召,安徽農(nóng)業(yè)大學(xué)林學(xué)與園林學(xué)院,講師。E-mail:xingzhaoh@163.com。
2017年6月19日。
責(zé)任編輯:王廣建。
We proposed a neural network of time series method (TSNN), and compared with the partial least squares (PLS) and the artificial neural networks of partial least squares (PLS-ANN) to test the results of modeling and prediction. The measured data of spectra and proteins and fat contents in six growth stages were studied. The PLS, PLS-ANN and TSNN method were used to establish the model, and the results were compared. For the contents of protein, the root mean square error (RMSEP) of the TSNN was reduced by 18.82% and 7.39% PLS and PLS-ANN, respectively. For the contents of fat, the RMSEP of the TSNN were reduced by 39.95% and 35.02% compared with PLS and PLS-ANN, respectively. The correlation coefficient squared and the prediction correlation coefficient squared of TSNN were improved compared with PLS and PLS-ANN.