丁 姣蔡建榮張海東陳全勝
(1.江蘇大學食品與生物工程學院,江蘇 鎮(zhèn)江 212013;2.云南農業(yè)大學工程技術學院,云南 昆明 650201)
近紅外結合Si-ELM檢測食醋品質指標
丁 姣1蔡建榮1張海東2陳全勝1
(1.江蘇大學食品與生物工程學院,江蘇 鎮(zhèn)江 212013;2.云南農業(yè)大學工程技術學院,云南 昆明 650201)
為了提高近紅外光譜技術檢測食醋中可溶性無鹽固形物含量(SSFSC)的精度和穩(wěn)定性,提出采用聯(lián)合區(qū)間偏最小二乘(Si-PLS)篩選光譜特征區(qū)間,再利用極限學習機(ELM)算法建立非線性回歸模型,并對該方法的優(yōu)越性進行系統(tǒng)比較;試驗通過交互驗證優(yōu)化模型相關參數(shù),以預測時的相關系數(shù)(Rp)和預測均方根誤差(RMSEP)作為模型的評價指標。結果表明,Si-PLS結合ELM算法(Si-ELM)所建模型最佳,預測結果:Rp=0.973 9,RMSEP=1.232 g/100 m L。說明利用近紅外光譜技術可以快速準確檢測食醋中的SSFSC,Si-ELM的應用可以適當提高該預測模型的精度。
近紅外光譜;聯(lián)合區(qū)間偏最小二乘法;極限學習機;食醋;可溶性無鹽固形物含量
食醋在中國是一種很受消費者歡迎的傳統(tǒng)酸性調味品,在中國具有至少四、五千年的應用歷史[1]。其營養(yǎng)價值高,含有豐富的氨基酸、糖類物質和有機酸。GB/T 18187——2000[2]中指出可溶性無鹽固形物含量(SSFSC)是評價食醋品質的一個重要指標。SSFSC是指除水、食鹽、不溶性物質外的其他物質含量,主要包含蛋白質、肽、糖類、有機酸等物質。SSFSC不達標產(chǎn)品直接侵害了消費者利益,也對產(chǎn)品品牌造成不利影響。因此,SSFSC的快速準確測定對食醋的質量監(jiān)督檢測有著重要意義。
食醋SSFSC的測定一般采用化學滴定法,該方法操作要求高、費時費力,且不能實現(xiàn)實時在線測量。近紅外光譜分析技術可充分利用全譜或多波長下的光譜數(shù)據(jù)進行定性或定量分析,具有樣本無需預處理、操作簡單、分析成本低、速度快、精度高等優(yōu)點,易于實現(xiàn)實時在線監(jiān)測。目前國內外很少有涉及到SSFSC的研究。另外,研究大多采用經(jīng)典的偏最小二乘法(PLS)來建立預測模型,但該方法在某些特定場合存在一定的局限性[3]。
本試驗提出利用聯(lián)合區(qū)間偏最小二乘(synergy interval partial least-squares,Si-PLS)篩選近紅外光譜特征區(qū)間,然后利用極限學習機(extreme learning machine,ELM)算法建立非線性回歸模型,以提高近紅外光譜技術檢測食醋中SSFSC的精度和穩(wěn)定性。
食醋:東湖陳醋、東湖江南醋、東湖保健醋、水塔陳醋、恒順香醋、恒順宴會香醋、恒順無糖香醋、恒順涼拌醋、北固山姜汁香醋、老恒和玫瑰醋、老恒和米醋、老恒和蟹醋、寶鼎白醋、寶鼎康樂醋、寶鼎枸杞醋和松盛園玫瑰米醋,鎮(zhèn)江市售;
硝酸銀、鉻酸鉀:分析純,國藥化學試劑有限公司。
傅里葉變換近紅外光譜儀:AntarisⅡ型,美國Thermo Fisher公司;
電子天平:感量0.1 mg,Sartorius,北京賽多利斯公司;
電熱鼓風干燥箱:1010C-3D型,上海實驗儀器有限公司。
1.2.1 樣品的選擇及預處理 以市面上常見的16個種類和品牌的食醋為樣品,各樣品生產(chǎn)日期在2010年5月到7月,且同種食醋購買的生產(chǎn)日期均不相同,最大限度地保證了樣品的多樣性。每種食醋10個樣本,共160個樣本。根據(jù)每個種類校正集與預測集數(shù)量比為2∶1的原則,隨機選取107個樣本作為校正集,剩下的53個樣本作為預測集。試驗前,將樣本編號置于25℃的實驗室中48 h,使樣本溫度與環(huán)境溫度一致。
1.2.2 光譜采集和參數(shù)設定 采用傅里葉變換近紅外光譜儀的透射模式。光譜掃描范圍:10 000~4 000 cm-1;掃描次數(shù):16次;分辨率:8 cm-1;數(shù)據(jù)采樣間隔3.856 cm-1。每個樣品的每條光譜共含有1 557個變量。樣品池采用光程5 mm的標準管(儀器標配),可盛裝大約1 m L樣品,以儀器內置背景為參比。在試驗過程中,室內溫度和濕度基本保持不變,溫度保持在25℃左右。每個樣本在不同時間段和不同位置分別采集4次光譜,取這4次采集得到的光譜的平均值作為該樣本的原始光譜。
1.2.3 化學測定 可溶性無鹽固形物按GB 18187——2000測定。每個樣品做3組平行測定,并且3組平行的最大相對誤差在3%以內,試驗測得的可溶性無鹽固形物含量的統(tǒng)計結果見表1。
表1 食醋樣本統(tǒng)計描述Table 1 Descriptive statistics for vinegar samples
1.2.4 光譜預處理 從圖1(a)中可以看出在波數(shù)5 155 cm-1和6 944 cm-1的附近各有一個很明顯的吸收峰。這是因為純水中的O-H伸縮振動的一級倍頻區(qū)位于6 944 cm-1(波長1 440 nm)附近,它的一個合頻區(qū)位于5 155 cm-1(波長1 940 nm)附近,在這兩個波長附近是水分吸收的敏感區(qū)[4]。而且采集近紅外光譜時,會受到高頻隨即噪音、基線漂移、樣本不均勻以及光散射等影響,需要對光譜進行預處理。本試驗先采用Moving average smoothing平滑,選用平滑點數(shù)為7,此時能很好濾除各種因素產(chǎn)生的高頻噪音,再選用一階導數(shù)(first derivative,D1)對光譜進行預處理,一階求導可以有效去除基線漂移和背景的干擾,區(qū)分重疊峰,提高分辨率和靈敏度。原始光譜經(jīng)過平滑+一階求導后的圖像見圖1(b)。
圖1 食醋樣本的原始光譜及平滑+一階求導預處理之后的光譜Figure 1 Raw spectra and Smooth-D1 preprocessing spectra of vinegar samples
1.2.5 數(shù)據(jù)處理及分析 數(shù)據(jù)處理首先采用Si-PLS篩選特征子區(qū)間,用交互驗證方法確定最優(yōu)聯(lián)合區(qū)間,以交互驗證均方根誤差(RMSECV)作為衡量標準來篩選特征區(qū)間;然后對篩選的變量進行主成分分析,以主成分因子為模型輸入建立ELM模型,用交互驗證確定模型的主因子數(shù)和隱層節(jié)點數(shù),以驗證集中的預測均方根誤差(RMSEP)和相關系數(shù)(Rp)作為指標對模型的性能進行評價。本試驗中所有試驗數(shù)據(jù)分析均基于 MATLAB V7.1(Mathworks Co.USA)軟件平臺。
食醋是一種發(fā)酵食品,其成分復雜且含有大量水分,除了水分,食醋中的大量有機成分的含氫基團(如O-H、CH、N-H等)都能在近紅外光譜區(qū)產(chǎn)生各級倍頻和合頻吸收,造成一定程度的信息冗余,而且有些光譜區(qū)的噪音信息和非相關信息也會對模型的精度和穩(wěn)定性造成一定的影響,因此需要篩選出與食醋可溶性無鹽固形物相關的特征譜區(qū)。Si-PLS法的基本原則是將整個光譜區(qū)域劃分為若干個小區(qū)域,距離相等,然后將局部模型精度較高的幾個子區(qū)間聯(lián)合起來預測指標。其算法步驟:① 將整個光譜區(qū)域劃分為多個等寬的子區(qū)間;② 結合2個、3個或4個子區(qū)間進行偏最小二乘回歸,分別建立待測品質在各聯(lián)合區(qū)間的“局部回歸模型”;③ 以校正均方根誤差RMSECV值為衡量各局部模型精度的標準,最小RMSECV值(即為精度最高)所對應的子區(qū)間組合為特征波譜區(qū)間組合。為了考察不同數(shù)目的子區(qū)間劃分和不同的子區(qū)間組合對模型精度的影響,將預處理后的光譜區(qū)域分別劃分為10~25個不同數(shù)目的子區(qū)間,在各相同子區(qū)間數(shù)目下又分別聯(lián)合2~4個子區(qū)間分別建立可溶性無鹽固形物含量的Si-PLS模型。最佳Si-PLS模型根據(jù)全局最小的RMSECV來確定。
圖2 可溶性無鹽固形物含量的最佳Si-PLS模型選擇的最佳子區(qū)間Figure 2 Optimal spectral region selected by Si-PLS model for SSFSC
試驗結果顯示,當光譜區(qū)間劃分為24時獲得采納的主因子數(shù)為7,聯(lián)合第7、第8和第15等3個子區(qū)間時,所對應的RMSECV值全局最低,[7,8,15]區(qū)間組合試驗選取特征光譜區(qū)間,它們所對應的光譜范圍為5 503.84~5 750.69 cm-1,5 754.54~6 001.39 cm-1和 7 509.45~7 756.29 cm-1,共195個變量(見圖2)。在此特征光譜區(qū)間內,存在大量與食醋中糖類和氨基酸等有效成分相關的含氫基團倍頻或合頻吸收,這些有效成分又與食醋的可溶性無鹽固形物有關[5,6]。同時,由圖2和圖1(b)對比看出,Si-PLS篩選出來的區(qū)間避開了兩個水強吸收峰,有效避免了水分對模型精度和穩(wěn)定性的干擾。
極限學習機是(ELM)是單隱層前饋神經(jīng)網(wǎng)絡的一種新型學習算法。算法執(zhí)行過程中只需要設置網(wǎng)絡的隱層節(jié)點個數(shù),不需要調整網(wǎng)絡的權值及隱層單元的偏置,并且產(chǎn)生唯一的最優(yōu)解[7]。ELM具有很好的全局搜索能力,不需要繁瑣的確定參數(shù)的過程,所以學習速度快、簡單易行。本試驗中,以主成分因子作為模型輸入,激勵函數(shù)選擇Sigmoidal函數(shù),隱層節(jié)點個數(shù)初始化為10,以5為周期增加隱層節(jié)點數(shù),通過交互驗證的手段對ELM的主成分因子數(shù)和隱層節(jié)點數(shù)進行優(yōu)化。結果表明當主成分數(shù)為7、隱層節(jié)點為55時建立的ELM模型RMSECV最小。校正集交互驗證均方根誤差(RMSECV)和相關系數(shù) (Rc)分別為1.098 2 g/100 m L和0.978 9,預測集的預測均方根誤差(RMSEP)和相關系數(shù)(Rp)分別為1.231 6 g/100 m L和0.9739。圖3是校正集和預測集樣本的預測值與參考測量值之間的散點圖。
圖3 校正集和預測集樣本的預測值與參考測量值之間的散點圖Figure 3 Reference measurement versus NIR prediction in calibration set and prediction set
在預測模型建立過程中,為了顯示Si-ELM模型的優(yōu)越性,將其預測性能與經(jīng)典偏最小二乘(PLS)模型、Si-PLS模型和全光譜區(qū)域的ELM模型相比較,結果見表2。由表2可知,通過Si-PLS進行光譜區(qū)間優(yōu)選后建立的模型要好于全光譜范圍建立的模型;非線性ELM模型的性能要強于線性的PLS模型。分析原因可以歸納如下:
(1)近紅外光譜區(qū)域存在大量含氫基團倍頻與合頻吸收,這就造成全光譜區(qū)域內存在大量的共線性變量,存在一定程度的信息冗余。食醋中可溶性無鹽固形物是包含能溶于水的多糖、氨基酸和礦物質等多種成分的復雜體系。在某些近紅外區(qū)域(特別是水的強吸收峰區(qū)域),食醋的光譜信息與其SSFSC之間缺乏相關性,這就造成一定的噪音信息。在模型建立過程中,這些噪音和冗余信息的介入容易擴大估計方差,降低模型的精度和穩(wěn)定性[8]。Si-PLS模型通過區(qū)間劃分的手段,把與可溶性無鹽固形物含量相關性較大的幾個子區(qū)間聯(lián)合起來,既剔除了全光譜中大量噪音信息或冗余的信息,又保留了大量與SSFSC相關的光譜信息。因此,模型精度有了很大的提高。
(2)食醋中可溶性無鹽固形物是復雜體系,其含量(SSFSC)取決于食醋中多種有效成分,例如:多糖、氨基酸和礦物質等。正因為如此,SSFSC與近紅外光譜之間的相關性往往傾向于非線性關系。對本試驗中近紅外光譜與SSFSC之間的非線性關系進行了相應的診斷,試驗通過APRP(augmented partial residual plot)法和Runs test結合的方法估算近紅外光譜與SSFSC之間的非線性度|z|[9]。結果表明,全光譜范圍內,非線性度|z|=4.67,特征區(qū)間范圍內,非線性度|z|=10.37,均超過其臨界值(|z0|=1.96),所以本試驗中食醋的近紅外光譜與SSFSC之間相關性并非簡單的線性關系,而更傾向于非線性關系。ELM是一種非線性方法,所以整體效果要優(yōu)于線性方法。且ELM具有很好的全局搜索能力,可以克服傳統(tǒng)梯度算法(支持向量機等)常有的局部極小、過擬合和學習率選擇不合適等問題,并且有更好的泛化能力,所以其模型精度要高于線性模型;再利用Si-PLS對特征區(qū)間進行篩選,模型精度得到了進一步的提高。
表2 基于幾種不同模型的近紅外預測結果的比較Table 2 Comparison of NIR prediction results based on different models
本試驗嘗試利用近紅外光譜技術檢測食醋中可溶性無鹽固形物含量(SSFSC)的可行性,并提出利用聯(lián)合區(qū)間偏最小二乘(Si-PLS)篩選光譜特征區(qū)間,然后利用極限學習機(ELM)算法建立非線性回歸模型,以提高檢測結果的精度。試驗結果為食醋可溶性無鹽固形物含量快速檢測提供理論依據(jù),同時拓寬了Si-PLS和ELM等算法的實際應用范圍。
1 劉楊岷,張家驪,王利平,等.食醋風味比較研究[J].食品與機械,2005,21(5):26~27.
2 國家國內貿易局.GB/T 18187——2000釀造食醋[S].北京:中國標準出版社,2000.
3 郭志明,趙杰文,陳全勝,等.特征譜區(qū)篩選在近紅外光譜檢測茶葉游離氨基酸含量中的應用[J].光學精密工程,2009,17(8):1 839~1 844.
4 Ni L J,Zhang L G,Xie J,et al.Pattern recognition of Chinese flue-cured tobaccos by an improved and simplified K-nearest neighbors classification algorithm on near infrared spectra[J].Analytica Chimica Acta.,2009(633):43~50.
5 Cen H Y,He Y.Theory and application of near infrared reflectance spectroscopy in determination of food quality[J].Trends in Food Science & Technology,2007,18(2):72~83.
6 Rambla F J,Garrigues S,De la Guardia M.PLS-NIR determination of total sugar,glucose,fructose and sucrose in aqueous solutions of fruit juices[J].Analytica Chimica Acta.,1997(344):41~53.
7 潘華賢,程國建,蔡磊.極限學習機與支持向量機在儲層滲透率預測中的對比研究[J].計算機工程與科學,2010,32(2):131~134.
8 Chen Q S,Jiang P,Zhao J W.Measurement of total flavone content in snow lotus(Saussurea involucrate)using near infrared spectroscopy combined with interval PLS and genetic algorithm[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2010,76(1):50~55.
9 Centner V,De Noord O E,Massar D L.Detection of nonlinearity in multivariate calibration[J].Analytica Chimica Acta.,1998,(376):153~168.
Measurement of quality index in vinegar using near infrared(NIR)combined with Si-ELM
DING Jiao1CAI Jian-rong1ZH ANG Hai-dong2CHEN Quan-sheng1
(1.Food and Biological Engineering,Jiangsu University,Zhenjiang,Jiangsu212013,China;2.Faculty of Engineering and Technology,Yunnan Agricultural University,Kunming,Yunnan650201,China)
To address the performance of NIR predicted model in measurement of soluble salt-free solid content(SSFSC)in vinegar,synergy interval partial least square(Si-PLS)was employed to select efficient spectral regions,and then extreme learning machine(ELM)algorithm was employed to develop the non-linear regression model.The relevant parameters of the model were optimized by cross-validation.The performance of the model was evaluated according to the correlation coefficient(Rp)and root mean square error of prediction(RMSEP)in prediction set.Experimental results showed that the model based on Si-PLS and ELM(i.e.Si-ELM model)was superior to others,and the optimum results were achieved as follows:Rp=0.973 9,RMSEP=1.232 g/100 m L.The work demonstrated that NIR spectroscopy can be applied in rapid measurement of SSFSC in vinegar,and Si-PLS and ELM algorithms has the potentials in increasing the performance of NIR prediction model.
NIR spectroscopy;synergy interval PLS(Si-PLS);extreme learning machine(ELM);vinegar;soluble salt-free solid content(SSFSC)
10.3969/j.issn.1003-5788.2012.01.023
博士后特別資助項目(編號:201003559)
丁姣(1985-),女,江蘇大學在讀碩士研究生。E-mall:dingjiaonumber2@163.com
陳全勝
2011-11-11