收稿日期:2023-04-25
基金項(xiàng)目:云南高原優(yōu)質(zhì)肉牛產(chǎn)業(yè)智能化管理研究與示范項(xiàng)目(202102AE090009);云南省基礎(chǔ)研究專(zhuān)項(xiàng)-面上項(xiàng)目(202101AT070248)
作者簡(jiǎn)介:羅 爽(1998-),女,云南昆明人,碩士,研究方向?yàn)闄C(jī)器視覺(jué),(電話)15887814850(電子信箱)2243514656@qq.com;通信作者,
郜魯濤(1987-),男,河南輝縣人,副教授,碩士,主要從事農(nóng)業(yè)信息化研究,(電話)15987171851(電子信箱)2013015@ynau.edu.cn。
羅 爽,楊林楠,張麗蓮,等. 基于高光譜的云嶺牛雪花牛肉氨基酸含量預(yù)測(cè)[J]. 湖北農(nóng)業(yè)科學(xué),2024,63(7):120-128.
摘要:為建立一種基于高光譜成像技術(shù)結(jié)合機(jī)器學(xué)習(xí)的雪花牛肉氨基酸含量無(wú)損、快速測(cè)定的方法,采集云嶺牛5個(gè)等級(jí)100組的雪花牛肉分別在400~1 000 nm和900~2 500 nm波段高光譜數(shù)據(jù),使用JJG1064-2011標(biāo)準(zhǔn)氨基酸分析儀測(cè)定樣本中17種氨基酸含量;采用一階差分(1st Derivative,D1)進(jìn)行高光譜數(shù)據(jù)預(yù)處理,使用連續(xù)投影算法(Successive projection algorithm,SPA)提取特征波段。采用決策樹(shù)(Decision trees)、支持向量機(jī)(Support vector machine,SVM)、嶺回歸(Ridge regression)、偏最小二乘回歸(Partial least squares regression,PLSR)以及卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)5種方法預(yù)測(cè)氨基酸含量。結(jié)果表明,結(jié)合D1預(yù)處理、SPA特征提取建立CNN模型在預(yù)測(cè)氨基酸含量方面表現(xiàn)最佳,其均方誤差(Mean squared error,MSE)為0.010 3,平均絕對(duì)誤差(Mean absolute error,MAE)為0.082 2,決定系數(shù)(Coefficient of determination,R2)為0.898 5。
關(guān)鍵詞:高光譜成像技術(shù);云嶺牛雪花牛肉;氨基酸;預(yù)測(cè)模型
中圖分類(lèi)號(hào):O157.3 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):0439-8114(2024)07-0120-09
DOI:10.14088/j.cnki.issn0439-8114.2024.07.020 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Hyperspectral prediction of amino acid content in Yunling marbled beef
LUO Shuang1a,2,3, YANG Lin-nan1a,2,3, ZHANG Li-lian1a,2,3, PENG Lin1a,2,3, LI Pei-shan1a,2,3, GAO Lu-tao1a,1b,2,3
(1a. College of Big Data;1b. College of Food Science and Technology, Yunnan Agricultural University, Kunming 650201, China; 2. Yunnan Engineering Technology Research Center of Agricultural Big Data, Kunming 650201, China;3. Yunnan Engineering Research Center for Big Data Intelligent Information Processing of Green Agricultural Products, Kunming 650201, China)
Abstract: A method for non-destructive and rapid determination of the amino acid content of Yunling marbled beef based on hyperspectral imaging technology combined with machine learning was introduced. Hyperspectral data were collected in the 400~1 000 nm and 900~2 500 nm bands for 100 groups of marbled beef from five grades of Yunling cattle. The JJG1064-2011 standard amino acid analyzer was used to measure the content of 17 amino acids in the sample. The first-order difference (1st Derivative, D1) was used for hyperspectral data preprocessing, and the Successive projection algorithm (SPA) was used for feature band extraction. Five methods including Decision trees (Decision trees), Support vector machine (SVM), Ridge regression (Ridge regression), Partial least squares regression (PLSR) and Convolutional neural network (CNN) were used for predicting amino acid content. Experimental results showed that the CNN model combined with D1 preprocessing and SPA feature extraction performed best in predicting amino acid content, with mean squared error (MSE) of 0.010 3, mean absolute error (MAE) of 0.082 2, and the coefficient of determination (R2) of 0.898 5.
Key words: hyperspectral imaging technology; Yunling marbled beef; amino acid; predictive model
牛肉是人類(lèi)獲取蛋白質(zhì)的重要來(lái)源之一[1],因其富含高質(zhì)量蛋白質(zhì)及多種必需氨基酸,對(duì)維持肌肉健康和身體機(jī)能至關(guān)重要,而構(gòu)成蛋白質(zhì)的基本單元是氨基酸[2]。因此,為了滿足消費(fèi)者對(duì)高品質(zhì)牛肉的需求,精確評(píng)估牛肉中氨基酸的含量,是食品科學(xué)領(lǐng)域主要研究方向之一。云嶺牛是中國(guó)科研人員研制的第四個(gè)完全自主知識(shí)產(chǎn)權(quán)的肉牛品種[3],也是全球惟一沒(méi)有和?;騾s可以產(chǎn)生雪花牛肉的肉牛品種。
目前,肉類(lèi)氨基酸測(cè)定通常使用化學(xué)分析方法測(cè)定。如Soren等[2]使用酸水解法將肉類(lèi)樣品加入強(qiáng)酸中,蛋白質(zhì)因變性而沉淀,通過(guò)水解將蛋白質(zhì)分解為氨基酸用于后續(xù)分析,氨基酸的水解條件需要嚴(yán)格控制,否則容易造成氨基酸的降解或損失;Jiang等[4]采用多種智能感官技術(shù)結(jié)合化學(xué)計(jì)量學(xué)方法,對(duì)家庭高壓烹飪法燉牛肉的影響進(jìn)行研究,盡管模型在預(yù)測(cè)大多數(shù)感官屬性得分方面表現(xiàn)出色,但是在預(yù)測(cè)整體喜好度得分方面表現(xiàn)不佳,這可能是由于整體喜好度得分受到評(píng)估者個(gè)體特征的影響,而智能感官技術(shù)無(wú)法充分反映情感結(jié)果;Pant等[5]使用氣相色譜-火焰離子化檢測(cè)器(GC-FID)結(jié)合多變量方法對(duì)不同地理來(lái)源的蜂膠樣本進(jìn)行評(píng)估和區(qū)分,通過(guò)主成分分析(PCA)和層次聚類(lèi)分析(HCA),根據(jù)地理來(lái)源對(duì)所有蜂膠樣本進(jìn)行分類(lèi),但氣相色譜-火焰離子化檢測(cè)器的靈敏度檢測(cè)有限,對(duì)于某些低濃度的化合物可能無(wú)法滿足檢測(cè)要求,在檢測(cè)微量物質(zhì)的分析中可能會(huì)受到限制。這些傳統(tǒng)方法具有樣品破壞性,存在專(zhuān)業(yè)性強(qiáng)、時(shí)間長(zhǎng)等問(wèn)題。
近年來(lái),高光譜成像技術(shù)作為一種無(wú)損檢測(cè)技術(shù),結(jié)合機(jī)器學(xué)習(xí)的方法,解決食品工程問(wèn)題已成為研究熱點(diǎn)[6-9]。通過(guò)結(jié)合光譜成像技術(shù),能夠在很大程度上解決傳統(tǒng)方法中存在的問(wèn)題。例如Liu等[10]利用回歸系數(shù)(RC)建立了一項(xiàng)利用PLSR、MLR和LS-SVM預(yù)測(cè)牛肉樣品顏色的研究,并使用不同的光譜預(yù)處理(SG、MSC、SNV和衍生物)比較其預(yù)測(cè)性能;Nolasco-Perez等[11]利用偏最小二乘回歸算法,分別在900~1 700 nm和900~2 500 nm范圍獲取豬肉和牛肉摻假雞肉樣品高光譜數(shù)據(jù)建模,模型的預(yù)測(cè)系數(shù)([R2P])分別為0.83和0.94,性能偏差比(RPD)分別為1.96和3.56;Liu等[12]利用粒子群優(yōu)化-支持向量回歸(PSO-SVR)和CARS進(jìn)行波長(zhǎng)選擇來(lái)預(yù)測(cè)蘋(píng)果的酸甜度,得到預(yù)測(cè)酸甜度的[R2P]分別為0.810和0.887;Sun等[13]結(jié)合人工神經(jīng)網(wǎng)絡(luò)和低場(chǎng)核磁共振(LF-NMR),監(jiān)測(cè)食品的風(fēng)味變化,并預(yù)測(cè)干燥過(guò)程中大蒜的風(fēng)味變化;Sun等[14]利用高光譜成像技術(shù)結(jié)合隨機(jī)森林算法分析養(yǎng)殖鮭魚(yú)的異味特征,在874~1 734 nm的波長(zhǎng)范圍內(nèi),提取異味鮭肌肉樣品的高光譜信息識(shí)別異味鮭;Caporaso等[15]在1 000~2 500 nm范圍內(nèi)采用偏最小二乘回歸算法預(yù)測(cè)烘焙咖啡的香氣特征,模型的R2大于0.7,性能偏差比大于1.5。大部分研究運(yùn)用回歸系數(shù)、偏最小二乘回歸等方法對(duì)肉類(lèi)成分或特征進(jìn)行預(yù)測(cè)分析,而使用深度學(xué)習(xí)方法的研究不多,關(guān)于云嶺雪花牛肉及其氨基酸含量的研究尚未見(jiàn)報(bào)道。
本研究以云嶺牛雪花牛肉為研究對(duì)象,旨在構(gòu)建云嶺牛雪花牛肉高光譜數(shù)據(jù)和氨基酸含量的預(yù)測(cè)模型,主要研究目標(biāo)如下:①獲得雪花牛肉氨基酸在400~1 000 nm、900~2 500 nm光譜區(qū)域內(nèi)的主要特征波長(zhǎng),為進(jìn)一步研究氨基酸和光譜數(shù)據(jù)的關(guān)系提供基礎(chǔ);②對(duì)比多種回歸方法,找到雪花牛肉高光譜數(shù)據(jù)預(yù)測(cè)氨基酸含量的最佳模型和數(shù)據(jù)處理方法;③構(gòu)建利用高光譜數(shù)據(jù)預(yù)測(cè)云嶺牛雪花牛肉氨基酸含量的模型,實(shí)現(xiàn)雪花牛肉氨基酸的快速、無(wú)損測(cè)定。
1 材料與方法
1.1 樣品的采集和制備
本研究選用云嶺牛雪花牛肉作為研究對(duì)象,采集雪花牛肉5個(gè)等級(jí)(A1、A2、A3、A4、A5)的樣品,采集過(guò)程依據(jù)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局備案的地方標(biāo)準(zhǔn)(DB53/T 447.11—2012),嚴(yán)格遵循衛(wèi)生和食品安全標(biāo)準(zhǔn),確保樣品的質(zhì)量和完整性。剔除樣品表面多余的油脂、筋膜和結(jié)締組織,將其平均切割成15 cm×10 cm的形狀,以獲得適合分析的標(biāo)準(zhǔn)樣本,真空包裝后保存于4 ℃。數(shù)據(jù)采集首先通過(guò)高光譜成像系統(tǒng)對(duì)樣本進(jìn)行光譜信息的采集,以獲取樣品的光譜特征;其次對(duì)樣品進(jìn)行化學(xué)值的測(cè)量,以獲取樣品的化學(xué)成分信息。本研究共計(jì)100組牛肉樣本,分別在400~1 000 nm和900~2 500 nm波段獲取高光譜數(shù)據(jù),共200組光譜數(shù)據(jù)。
1.2 高光譜數(shù)據(jù)的獲取
使用兩套高光譜成像儀設(shè)備(廣州星博科儀有限公司)掃描雪花牛肉樣本,其中,Micro-Hyperspec VNIR-E設(shè)備(圖1a)獲取波長(zhǎng)范圍為(400~1 000 nm),設(shè)備主要參數(shù)包括:1.63 nm的分辨率、40 ms的曝光周期以及24 mm的透鏡類(lèi)型,在全波長(zhǎng)范圍內(nèi)成像速度為25.0 Hz,掃描速度為25.0行/s;Micro-Hyperspec SWIR 384設(shè)備(圖1b)獲取波長(zhǎng)范圍為(900~ 2 500 nm),設(shè)備主要參數(shù)包括:8 nm的分辨率、6 ms的曝光周期以及25 mm的透鏡類(lèi)型,在全波長(zhǎng)范圍內(nèi)成像速度為20.8 Hz,掃描速度為20.8行/s。
在獲取高光譜數(shù)據(jù)時(shí),采用隨機(jī)分組,將每個(gè)級(jí)別劃分為兩組,一組獲取400~1 000 nm;另一組獲取900~2 500 nm的高光譜成像數(shù)據(jù)。為減少背景和系統(tǒng)噪聲引起的偏差,對(duì)高光譜數(shù)據(jù)進(jìn)行校準(zhǔn)[16]。對(duì)每塊牛肉樣品的高光譜圖像進(jìn)行精細(xì)處理,排除圍繞每個(gè)肌肉的外部肌間脂肪像素,手動(dòng)描繪每個(gè)樣品的主要感興趣區(qū)域(ROI)[16,17]。隨后對(duì)每個(gè)樣品的感興趣區(qū)域內(nèi)所有像素的反射率值進(jìn)行平均,以獲得該樣品的一個(gè)平均光譜,并針對(duì)每一個(gè)測(cè)試樣品重復(fù)以上過(guò)程,以獲取每個(gè)樣品的高光譜信息,形成原始高光譜數(shù)據(jù)。
1.3 氨基酸數(shù)據(jù)的獲取
為獲取云嶺雪花牛肉的氨基酸數(shù)據(jù),首先將不同等級(jí)的牛肉樣品使用組織粉碎機(jī)粉碎并密封冷凍保存。在測(cè)定過(guò)程中,將混合氨基酸標(biāo)準(zhǔn)工作液和樣品測(cè)定液分別注入氨基酸分析儀,依照氨基酸分析儀檢定規(guī)程[18]和儀器說(shuō)明書(shū),逐步調(diào)整儀器的操作程序和參數(shù),以確保最佳的分析條件。通過(guò)外標(biāo)法計(jì)算樣品測(cè)定液中氨基酸的濃度,得到氨基酸數(shù)據(jù)。共包括17種氨基酸,包括天門(mén)冬氨酸、蘇氨酸、絲氨酸、谷氨酸、甘氨酸、丙氨酸、胱氨酸、纈氨酸、蛋氨酸、異亮氨酸、亮氨酸、酪氨酸、苯丙氨酸、賴(lài)氨酸、組氨酸、精氨酸、脯氨酸。試驗(yàn)參考配制混合氨基酸標(biāo)準(zhǔn)儲(chǔ)備液時(shí)氨基酸標(biāo)準(zhǔn)品的稱(chēng)量質(zhì)量參考值及相對(duì)分子質(zhì)量表,以確保數(shù)據(jù)的準(zhǔn)確性和可靠性。
1.4 光譜特征的提取
利用一階差分(1st Derivative,D1)[19]對(duì)原始數(shù)據(jù)集進(jìn)行處理。通過(guò)計(jì)算相鄰波長(zhǎng)間的梯度,觀察斜率變動(dòng)最為顯著的區(qū)間,并從中得到一階差分譜的峰值點(diǎn),通常較大的峰值攜帶有用的信號(hào)信息,同時(shí)也能夠根據(jù)峰值的位置判定有用信號(hào)和噪聲分量的邊界[20]。該過(guò)程有助于檢測(cè)光譜中的特征峰和特征谷,從而提高結(jié)果的穩(wěn)定性和可靠性。通過(guò)捕捉數(shù)據(jù)中的局部變化趨勢(shì),能夠更加準(zhǔn)確地解讀光譜數(shù)據(jù),并為后續(xù)的研究和應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。
高光譜數(shù)據(jù)通常包含大量的波長(zhǎng)和高維數(shù)據(jù),可能導(dǎo)致信息冗余、增加計(jì)算復(fù)雜性[21-23]等問(wèn)題。因此,為了提高數(shù)據(jù)處理和分析的效率,使用連續(xù)投影算法(Successive projections algorithm,SPA)來(lái)選擇最佳的光譜波長(zhǎng)[24]。SPA是一種使矢量空間共線性最小化的前向變量選擇算法,能夠消除原始光譜矩陣中的冗余信息,對(duì)光譜特征波長(zhǎng)進(jìn)行篩選[25,26]。
kFOYtRfSYW8xzuOwJRHTUlsVCL0dVNgpNXZfGRLZy+U=1.5 預(yù)測(cè)模型的構(gòu)建
采用決策樹(shù)(Decision trees)、支持向量機(jī)(Support vector machine)、嶺回歸(Ridge regression)、偏最小二乘回歸(Partial least squares regression,PLSR)以及卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)5種方法進(jìn)行預(yù)測(cè)分析[27]。決策樹(shù)是通過(guò)構(gòu)建樹(shù)狀結(jié)構(gòu)來(lái)建模目標(biāo)變量與特征之間的關(guān)系,在每個(gè)節(jié)點(diǎn)上,選擇最佳特征進(jìn)行分割,使子節(jié)點(diǎn)內(nèi)的數(shù)據(jù)更具有相似性[28]。支持向量機(jī)通過(guò)尋找最佳超平面,使得該平面與數(shù)據(jù)點(diǎn)的距離最小化,從而建立一個(gè)回歸模型[29]。偏最小二乘回歸是一種特別用于高光譜數(shù)據(jù)建模的方法,其目的是找到兩個(gè)數(shù)據(jù)集X(光譜)和Y(氨基酸)之間的數(shù)學(xué)關(guān)系,通過(guò)將光譜數(shù)據(jù)壓縮成被稱(chēng)為潛在變量([lvs])的正交結(jié)構(gòu)來(lái)描述X和Y之間的最大協(xié)方差。卷積神經(jīng)網(wǎng)絡(luò)是一種深度學(xué)習(xí)模型,在信號(hào)處理領(lǐng)域廣泛應(yīng)用。高光譜圖像既包含豐富的物體二維空間信息,又包含重要的一維光譜信息。在這種情況下,將高光譜數(shù)據(jù)的一維光譜信息作為卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),以實(shí)現(xiàn)對(duì)數(shù)據(jù)特征的提取和建模[30]。
2 結(jié)果與分析
本研究基于云嶺雪花牛肉的高光譜數(shù)據(jù),對(duì)比了決策樹(shù)、支持向量機(jī)、嶺回歸、偏最小二乘回歸以及卷積神經(jīng)網(wǎng)絡(luò)5種方法預(yù)測(cè)氨基酸含量的效果。分別以17種氨基酸的總含量和其中3種氨基酸各自的含量為標(biāo)簽數(shù)據(jù),選擇最佳模型和算法。數(shù)據(jù)按照8∶2進(jìn)行隨機(jī)劃分訓(xùn)練集和測(cè)試集,其中,400~ 1 000 nm范圍特征數(shù)據(jù)的最大值為1.040 0、最小值為0.019 1、方差為0.017 7、均值為0.301 6;900~ 2 500 nm范圍特征數(shù)據(jù)的最大值為0.850 0、最小值為0.019 2、方差為0.002 5、均值為0.171 9。
2.1 預(yù)處理結(jié)果與分析
對(duì)全波長(zhǎng)數(shù)據(jù)進(jìn)行D1預(yù)處理方法后,如圖2所示,D1預(yù)處理方法通過(guò)計(jì)算相鄰波長(zhǎng)點(diǎn)上的光譜差異,強(qiáng)調(diào)數(shù)據(jù)的梯度信息。D1的應(yīng)用使得光譜中的特征更加突出,揭示樣本中可能存在的微小變化和結(jié)構(gòu)。這種處理方式有助于捕捉樣本中更細(xì)致的特征,為后續(xù)分析提供更多詳細(xì)的信息。
2.2 特征波長(zhǎng)預(yù)測(cè)模型結(jié)果
2.2.1 特征波長(zhǎng)的提取結(jié)果 在使用全光譜范圍進(jìn)行數(shù)據(jù)分析時(shí),可能存在過(guò)度擬合的風(fēng)險(xiǎn),光譜數(shù)據(jù)受到噪聲等非線性因素的影響導(dǎo)致模型的預(yù)測(cè)不夠準(zhǔn)確。如果能夠選擇出攜帶最有信息價(jià)值的波長(zhǎng),可能與全光譜范圍的模型效率相等或更高。連續(xù)投影算法(SPA)將波長(zhǎng)投影到其他波長(zhǎng)上,比較投影向量大小,以投影向量最大的波長(zhǎng)為待選波長(zhǎng),然后基于矯正模型選擇最終的特征波長(zhǎng)。選取出具有代表性和信息量豐富的特征波長(zhǎng)組合,有助于降低數(shù)據(jù)的維度和復(fù)雜性,降低模型過(guò)擬合的風(fēng)險(xiǎn),提高模型的泛化能力,并使模型更具解釋性和可靠性。本研究分別在400~1 000 nm、900~2 500 nm兩個(gè)光譜范圍數(shù)據(jù)內(nèi)進(jìn)行特征提?。黄浯螌?duì)經(jīng)過(guò)一階差分(D1)預(yù)處理后的兩組數(shù)據(jù)進(jìn)行特征提取。
在采用SPA算法進(jìn)行特征波長(zhǎng)篩選時(shí),首先計(jì)算SPA算法在各個(gè)波長(zhǎng)數(shù)下的RMSE值。通常將RMSE最小值對(duì)應(yīng)的波長(zhǎng)點(diǎn)個(gè)數(shù)確定為有效波長(zhǎng)數(shù)。試驗(yàn)設(shè)定SPA算法參數(shù)為最小波長(zhǎng)點(diǎn)個(gè)數(shù)為5,最大波長(zhǎng)點(diǎn)個(gè)數(shù)為30,步長(zhǎng)為1,利用SPA算法對(duì)原始波長(zhǎng)數(shù)據(jù)和經(jīng)過(guò)D1處理后的波長(zhǎng)數(shù)據(jù)進(jìn)行特征波長(zhǎng)提取,結(jié)果如圖3至圖6所示。圖3為400~ 1 000 nm原始數(shù)據(jù)提取特征波長(zhǎng),圖3a為RMSE值隨特征變量數(shù)的變化曲線,變量數(shù)個(gè)數(shù)在16之前時(shí),RMSE值下降趨勢(shì)較為明顯;隨后隨著波長(zhǎng)數(shù)的增加,RMSE值雖有降低但變化較平穩(wěn)。因此,確定特征波長(zhǎng)個(gè)數(shù)為16。此時(shí)對(duì)應(yīng)的RMSE值為0.538,說(shuō)明此時(shí)提取的16個(gè)特征波長(zhǎng)所含的氨基酸信息與真實(shí)值之間有較高的一致性。圖3b為SPA算法選取的16個(gè)特征波長(zhǎng)點(diǎn)分布區(qū)域。900~2 500 nm原始數(shù)據(jù)提取特征波長(zhǎng)、400~1 000 nm D1預(yù)處理后提取特征波長(zhǎng)和900~2 500 nm D1預(yù)處理后提取特征波長(zhǎng),具體見(jiàn)圖4至圖6,分別提取17、25和21個(gè)特征波長(zhǎng)。
使用預(yù)處理后選定的特征波長(zhǎng)構(gòu)建預(yù)測(cè)氨基酸含量的CNN模型,如表1所示,模型的可預(yù)測(cè)性仍然良好。在400~1 000 nm范圍內(nèi),使用選定的特征波長(zhǎng)得到的結(jié)果與使用全光譜范圍相比有所提升,預(yù)測(cè)的決定系數(shù)(Predicted R-squared,[R2P])由0.773 6提升為0.781 2,標(biāo)準(zhǔn)誤差預(yù)測(cè)(Standard error of prediction,SEP)由0.224 8降至0.206 4;在900~2 500 nm范圍內(nèi),使用選定的特征波長(zhǎng)模型相比全光譜范圍模型表現(xiàn)更為出色,在全光譜范圍下,[R2P]為0.816 5,SEP為0.191 3,經(jīng)過(guò)提取特征波長(zhǎng)后,[R2P]達(dá)到了0.834 1,SEP為0.183 9,進(jìn)一步證明了氨基酸光譜特征提取的有效性。
2.2.2 SPA特征提取后的氨基酸總含量預(yù)測(cè)結(jié)果 通過(guò)比較MSE(均方誤差)、MAE(平均絕對(duì)誤差)以及R2(決定系數(shù))評(píng)估指標(biāo),以更全面地評(píng)估其泛化能力。如表2、表3所示,針對(duì)原始數(shù)據(jù)提取的特定波長(zhǎng)進(jìn)行分析。在900~2 500 nm范圍中,SPA特征提取方法得到的效果均明顯優(yōu)于400~1 000 nm范圍內(nèi)的效果。在400~1 000 nm的范圍內(nèi),使用SVM模型時(shí),MSE、MAE和R2分別為0.018 8、0.128 5和0.695 8;使用PLSR模型時(shí),MSE、MAE和R2分別為0.008 5、0.102 5和0.698 6;在900~2 500 nm的范圍內(nèi),使用同樣模型時(shí),SVM模型的MSE為0.012 3、MAE為0.087 1、R2為0.715 6;PLSR模型的MSE為0.013 6、MAE為0.097 7、R2為0.739 8;在400~1 000 nm范圍內(nèi),決策樹(shù)產(chǎn)生了比900~2 500 nm范圍更低的均方誤差和平均絕對(duì)誤差,900~2 500 nm范圍的結(jié)果明顯優(yōu)于400~1 000 nm范圍內(nèi)的模型表現(xiàn)。
由表3可以看出,經(jīng)過(guò)特征提取方法后,表現(xiàn)最佳的模型出現(xiàn)在900~2 500 nm范圍內(nèi),采用SPA方法,并通過(guò)CNN模型進(jìn)行建模。在該情境下,模型取得了0.012 5的MSE、0.096 4的MAE以及0.752 7的R2。
2.2.3 D1預(yù)處理結(jié)合SPA特征波長(zhǎng)提取后的預(yù)測(cè)結(jié)果 如表4所示,在400~1 000 nm范圍內(nèi),使用經(jīng)D1預(yù)處理后從全波長(zhǎng)范圍中選定的特征波長(zhǎng)進(jìn)行分析,其效果大部分優(yōu)于全光譜范圍下的效果。表2中,PLSR模型下,MSE、MAE、R2分別為0.008 5、0.102 5和0.698 6;經(jīng)過(guò)提取特征波長(zhǎng)后,相同模型下,MSE、MAE、R2分別為0.013 7、0.083 5和0.767 4,再次驗(yàn)證了特征提取在光譜數(shù)據(jù)分析中的關(guān)鍵作用,通過(guò)減少數(shù)據(jù)維度和提取相關(guān)性高的信息,顯著改善模型的性能。如表5所示,SPA方法表現(xiàn)出較為優(yōu)越的性能,尤其是SPA-PLSR在MSE(0.010 8)、MAE(0.091 2)和R2(0.856 3)方面取得了顯著的結(jié)果。另外,SPA-CNN在該范圍內(nèi)展現(xiàn)了目前所有實(shí)驗(yàn)中的最佳性能,其MSE和MAE分別為0.008 7和0.088 3,R2達(dá)0.874 5。
從總體趨勢(shì)來(lái)看,通過(guò)D1預(yù)處理結(jié)合SPA特征提取方法,仍然表現(xiàn)出900~2 500 nm范圍的效果優(yōu)于400~1 000 nm范圍,通過(guò)特征提取后的效果優(yōu)于使用全光譜范圍的效果。表2中,在400~1 000 nm范圍內(nèi),使用全光譜范圍建立回歸模型時(shí),其SVM模型的MSE為0.018 8,MAE為0.128 5,R2為0.695 8;在900~2 500 nm范圍內(nèi),使用相同方法提取特征波長(zhǎng)后,其SVM模型的MSE為0.020 9,MAE為0.112 3,R2為0.753 9(表4)。
2.2.4 谷氨酸、精氨酸和丙氨酸預(yù)測(cè)結(jié)果 通過(guò)氨基酸總含量的預(yù)測(cè)模型研究,模型在900~2 500 nm光譜數(shù)據(jù)的擬合效果比在400~1 000 nm光譜數(shù)據(jù)中好。研究表明,在牛肉樣本中檢測(cè)到17種氨基酸,其中谷氨酸、精氨酸和丙氨酸為對(duì)應(yīng)呈味氨基酸中含量最高且滋味貢獻(xiàn)值最大的物質(zhì)[31]。建立了谷氨酸、精氨酸和丙氨酸的預(yù)測(cè)模型,以更好地了解云嶺牛的營(yíng)養(yǎng)需求和生長(zhǎng)特性,以這3種氨基酸的含量作為標(biāo)簽,探索并比較5種回歸模型的性能。
如表6至表11所示,比較了使用經(jīng)D1預(yù)處理后提取的特征波長(zhǎng)數(shù)據(jù)預(yù)測(cè)牛肉樣品中谷氨酸、精氨酸和丙氨酸3種氨基酸含量的回歸模型。其中,在900~2 500 nm范圍內(nèi),經(jīng)過(guò)SPA特征提取方法,如表7所示,谷氨酸在CNN模型中表現(xiàn)出所有試驗(yàn)中最佳的效果,其MSE為0.010 3,MAE為0.082 2,R2為0.898 5;相同條件下,在400~1 000 nm范圍中,雖然略低于900~2 500 nm范圍內(nèi)取得的結(jié)果,但也取得了較好的效果,R2為0.837 1,其對(duì)應(yīng)的MSE和MAE分別為0.011 7和0.092 4。精氨酸和丙氨酸在CNN模型中也表現(xiàn)出色,最佳結(jié)果下的R2同樣超過(guò)0.83。如表9所示,在900~2 500 nm范圍內(nèi),精氨酸的MSE為0.010 3,MAE為0.077 2,R2為0.844 4,如表11所示,丙氨酸的MSE為0.011 9,MAE為0.084 7,R2為0.838 7。這些結(jié)果進(jìn)一步證明了經(jīng)過(guò)特征波長(zhǎng)提取后的數(shù)據(jù)在預(yù)測(cè)氨基酸含量方面的有效性,并突顯了不同波長(zhǎng)范圍和方法對(duì)模型性能的影響。
3 討論
本研究在900~2 500 nm波長(zhǎng)范圍內(nèi)的高光譜數(shù)據(jù)中,采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)通過(guò)D1預(yù)處理,SPA特征提取方法,建立云嶺雪花牛肉不同等級(jí)的高光譜數(shù)據(jù)與氨基酸營(yíng)養(yǎng)指標(biāo)之間的預(yù)測(cè)模型。結(jié)果表明,谷氨酸的R2接近0.9,相應(yīng)的MSE和MAE分別為0.010 3和0.082 2。高光譜數(shù)據(jù)在預(yù)測(cè)云嶺牛雪花牛肉氨基酸含量方面具有一定的潛力。
高光譜數(shù)據(jù)存在著高維度的問(wèn)題。PLSR是一種監(jiān)督學(xué)習(xí)方法,試圖最大化輸入特征和輸出變量之間的協(xié)方差。在高光譜數(shù)據(jù)中,如果目標(biāo)變量與輸入特征之間存在一定的線性關(guān)系,PLSR能夠更好地捕捉這種關(guān)系。嶺回歸通過(guò)懲罰系數(shù)的平方和限制參數(shù)的大小,可能無(wú)法有效地利用輸入特征和輸出變量之間的關(guān)系。如果數(shù)據(jù)稀疏或者存在噪聲,決策樹(shù)和SVM容易過(guò)擬合,而PLSR可以處理這種多重共線性,在降低維度的同時(shí)減少過(guò)擬合的風(fēng)險(xiǎn)。PLSR提供了更直觀的方法理解數(shù)據(jù)和模型之間的關(guān)系,因?yàn)槠涮峁┝藵撛谧兞康慕忉專(zhuān)兄诖_定哪些特征對(duì)輸出的預(yù)測(cè)最為重要。
高光譜數(shù)據(jù)通常包含大量的波段信息,特征之間通常存在復(fù)雜的非線性關(guān)系以及空間相關(guān)性。CNN具有強(qiáng)大的特征提取和學(xué)習(xí)能力,通過(guò)多層卷積和非線性激活函數(shù)能夠有效地建模這些復(fù)雜關(guān)系,并利用空間信息更好地捕捉數(shù)據(jù)中的相關(guān)性,能夠自動(dòng)從數(shù)據(jù)中學(xué)習(xí)到有意義的特征。相比之下,PLSR是一種線性回歸方法,依賴(lài)于特征之間的線性關(guān)系,對(duì)于非線性關(guān)系的建模能力較弱;沒(méi)有考慮空間信息,其將所有像素視為獨(dú)立的樣本,可能無(wú)法充分利用高光譜數(shù)據(jù)中的非線性特征和空間相關(guān)性。
本研究的波長(zhǎng)范圍覆蓋400~2 500 nm的波長(zhǎng),與以往研究只選擇874~1 734 nm或900~1 700 nm或1 000~2 300 nm等部分波長(zhǎng)相比,在更高波長(zhǎng)范圍的預(yù)測(cè)效果更佳,對(duì)高光譜數(shù)據(jù)進(jìn)行預(yù)處理后盡可能消除高頻噪聲的影響。經(jīng)過(guò)D1預(yù)處理后的光譜數(shù)據(jù)預(yù)測(cè)效果更佳,且通過(guò)D1預(yù)處理后有效提高了模型的性能。
通過(guò)完全交叉驗(yàn)證方法說(shuō)明與以往的研究相比,SPA-CNN模型的精度更高或相近。如在Sun等[14]的研究中利用高光譜成像技術(shù)結(jié)合隨機(jī)森林算法,在874~1 734 nm的波長(zhǎng)范圍內(nèi),對(duì)養(yǎng)殖鮭魚(yú)的異味特征進(jìn)行分析,得到異味相關(guān)化合物的R2分別為0.703 6、0.661 9和0.597 8;Caporaso等[15]在1 000~ 2 500 nm范圍內(nèi)采用偏最小二乘回歸算法預(yù)測(cè)烘焙咖啡的香氣特征,模型的R2最好為0.812 0。因此,本研究構(gòu)建的利用高光譜特征波長(zhǎng)預(yù)測(cè)云嶺牛雪花牛肉氨基酸含量的SPA-CNN模型是可行、有效的。
4 結(jié)論
本研究使用決策樹(shù)、SVM、嶺回歸、PLSR以及CNN 5種不同的回歸方法構(gòu)建通過(guò)云嶺雪花牛肉高光譜數(shù)據(jù)預(yù)測(cè)其氨基酸含量的模型。結(jié)果表明,900~2 500 nm范圍的模型效果優(yōu)于400~1 000 nm范圍,其中,在900~2 500 nm范圍中,通過(guò)D1預(yù)處理,SPA特征提取后CNN模型具有較小的均方誤差(MSE為0.010 3)、平均絕對(duì)誤差(MAE為0.082 2)以及相對(duì)較高的決定系數(shù)(R2為0.898 5),表現(xiàn)出了最佳的回歸性能。本研究為利用高光譜數(shù)據(jù),通過(guò)合理的特征選擇構(gòu)建與雪花牛肉氨基酸的預(yù)測(cè)關(guān)系提供了一種方法。
參考文獻(xiàn):
[1] NDLOVU T,CHIMONYO M,OKOH A I,et al. Assessing the nutritional status of beef cattle:Current practices and future prospects[J]. African journal of biotechnology, 2010, 23(6):515-525.
[2] SOREN N M,BISWAS A K. Methods for nutritional quality analysis of meat[A].BISWAS A K,MANDAL P K.Meat quality analysis[M].Pittsburgh:Academic press,2020.21-36.
[3] FAN Y, HAN Z, ARBAB A A I, et al. Effect of aging time on meat quality of Longissimus dorsi from Yunling cattle: A new hybrid beef cattle[J]. Animals(Basel), 2020, 10(10): 1897.
[4] JIANG S, ZHU Y, PENG J, et al. Characterization of stewed beef by sensory evaluation and multiple intelligent sensory technologies combined with chemometrics methods[J]. Food chemistry, 2023, 408: 135193.
[5] PANT K, THAKUR M, CHOPRA H K, et al. Assessment of fatty acids, amino acids, minerals, and thermal properties of bee propolis from northern India using a multivariate approach[J]. Journal of food composition and analysis, 2022, 111: 104624.
[6] WANG X,SHAN J,HAN S,et al. Optimization of fish quality by evaluation of total volatile basic nitrogen (TVB-N) and texture profile analysis (TPA) by near-infrared (NIR) hyperspectral imaging[J]. Analytical letters, 2019, 52(12): 1845-1859.
[7] FENG C H, MAKINO Y. Colour analysis in sausages stuffed in modified casings with different storage days using hyperspectral imaging–A feasibility study[J]. Food control, 2020, 111: 107047.
[8] YE R, CHEN Y, GUO Y, et al. NIR hyperspectral imaging technology combined with multivariate methods to identify shrimp freshness[J]. Applied sciences, 2020, 10(16): 5498.
[9] BABELLAHI F, PALIWAL J, ERKINBAEV C, et al. Early detection of chilling injury in green bell peppers by hyperspectral imaging and chemometrics[J]. Postharvest biology and technology, 2020, 162: 111100.
[10] LIU Y, SUN D W, CHENG J H, et al. Hyperspectral imaging sensing of changes in moisture content and color of beef during microwave heating process[J]. Food analytical methods, 2018, 11: 2472-2484.
[11] NOLASCO-PEREZ I M, ROCCO L A C M, CRUZ-TIRADO J P, et al. Comparison of rapid techniques for classification of ground meat[J]. Biosystems engineering, 2019, 183: 151-159.
[12] LIU J, LIU S, SHIN S, et al. Detection of apple taste information using model based on hyperspectral imaging and electronic tongue data[J]. Sensors & materials, 2020, 32(5):1767-1784.
[13] SUN Y, ZHANG M, JU R, et al. Novel nondestructive NMR method aided by artificial neural network for monitoring the flavor changes of garlic by drying[J]. Drying technology, 2021, 39(9): 1184-1195.
[14] SUN D, ZHOU C, HU J, et al. Off-flavor profiling of cultured salmonids using hyperspectral imaging combined with machine learning[J]. Food chemistry, 2023, 408: 135166.
[15] CAPORASO N, WHITWORTH M B, FISK I D. Prediction of coffee aroma from single roasted coffee beans by hyperspectral imaging[J]. Food chemistry, 2022, 371: 1303Gs1Q+wYl/4dCNIYGd27Q==1159.
[16] PAN Y, SUN D W, CHENG J H, et al. Non-destructive detection and screening of non-uniformity in microwave sterilization using hyperspectral imaging analysis[J].Food analytical methods,2018, 11: 1568-1580.
[17] ELMASRY G, SUN D W, ALLEN P. Chemical-free assessment and mapping of major constituents in beef using hyperspectral imaging[J]. J Food Eng, 2013,117(2):235-246.
[18] JJG1064—2011,氨基酸分析儀檢定規(guī)程[S].
[19] 林 琦,俞水良.沿梯度方向的改進(jìn)一階差分亞像素邊緣檢測(cè)法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(14):168-171,175.
[20] 馬愈昭,王強(qiáng)強(qiáng),王瑞松,等.基于SVD和MPSO-SVM的光纖周界振動(dòng)信號(hào)識(shí)別[J].系統(tǒng)工程與電子技術(shù),2020,42(8):1652-1661.
[21] HE P, WU Y, WANG J, et al. Detection of mites tyrophagus putrescentiae and Cheyletus eruditus in flour using hyperspectral imaging system coupled with chemometrics[J]. Journal of food process engineering, 2020, 43(6): e13386.
[22] CHEN J, LI G. Prediction of moisture content of wood using Modified Random Frog and Vis-NIR hyperspectral imaging[J]. Infrared physics & technology, 2020, 105: 103225.
[23] WOLD J P, KERMIT M, WOLL A. Rapid nondestructive determination of edible meat content in crabs (Cancer pagurus) by near-infrared imaging spectroscopy[J]. Applied spectroscopy, 2010, 64(7): 691-699.
[24] ARAúJO M C U, SALDANHA T C B, GALVAO R K H, et al. The successive projections algorithm for variable selection in spectroscopic multicomponent analysis[J]. Chemometrics and intelligent laboratory systems, 2001, 57(2): 65-73.
[25] LIU F, ZHANG F, FANG H, et al. Application of successive projections algorithm to nondestructive determination of total amino acids in oilseed rape leaves[J]. Spectroscopy and spectral analysis, 2009, 29(11): 3079-3083.
[26] GOUDARZI N, GOODARZI M. Application of successive projections algorithm (SPA) as a variable selection in a QSPR study to predict the octanol/water partition coefficients (Kow) of some halogenated organic compounds[J]. Analytical methods, 2010, 2(6): 758-764.
[27] REHMAN T U, MAHMUD M S, CHANG Y K, et al. Current and future applications of statistical machine learning algorithms for agricultural machine vision systems[J]. Computers and electronics in agriculture, 2019, 156: 585-605.
[28] ZHANG D, XU Y, HUANG W, et al. Nondestructive mea-surement of soluble solids contentin apple using near infrared hyperspectral imaging coupled with wavelength selection algorithm[J]. Infrared Phys Technol, 2019, 98:297-304.
[29] MYERSON J. Support vector machine[J]. Machine learning models and algorithms for big data classification: Thinking with examples for effective learning[J].Computing reviews, 2016, 57(6): 283-284.
[30] ZHOU C, ZHANG X, LIU Y, et al. Research on hyperspectral regression method of soluble solids in green plum based on one-dimensional deep convolution network[J]. Spectrochimica acta part A: Molecular and biomolecular spectroscopy,2023, 303: 123151.
[31] 董福佳. 寧夏冷涼區(qū)黃牛肉特征氨基酸含量的光譜解析及響應(yīng)規(guī)律[D].銀川:寧夏大學(xué),2023.