馬婉婷,尚偉,谷晏,趙峙堯,孫穎
(1.北京工商大學(xué)化學(xué)與材料工程學(xué)院,人工智能學(xué)院,北京 100048)(2.北京市西城區(qū)市場監(jiān)督管理局,北京 100048)
草莓為薔薇科的多年生草本植物,其果實鮮美紅嫩、果肉柔嫩多汁、有著濃郁的特殊香氣,具有較高的營養(yǎng)價值,有著“漿果皇后”的美稱,在國內(nèi)外許多地區(qū)均有種植[1,2]。近年來,中國草莓生產(chǎn)規(guī)模穩(wěn)定增長,產(chǎn)量和種植規(guī)模均居于全球首位,在全世界的經(jīng)濟作物中占有重要的地位[3]。然而針對草莓的品質(zhì)優(yōu)劣的評價流程仍存在欠缺從而使得草莓的綜合利用率相對較低[4]。目前有關(guān)草莓的感官評價研究大多聚集在草莓果汁、果酒和草莓醬等領(lǐng)域[5],針對草莓新鮮果實的感官評價方法較少,有基于電子鼻技術(shù)[6]、近紅外光譜檢測[7]等,但仍以專家組人工品嘗評定的方法為主[8]。人工評定與評價者本人的評價經(jīng)驗、年齡及健康狀況有關(guān),結(jié)果具有主觀性,不同專家評定結(jié)果會有偏差,導(dǎo)致不同批次的產(chǎn)品無法橫向比較。鐘成等[8]提出一種基于神經(jīng)網(wǎng)絡(luò)對啤酒風(fēng)味建立的客觀評價模型,但由于草莓的貨架期短,導(dǎo)致理化指標(biāo)樣本數(shù)據(jù)少,故而鮮果草莓感官評價的估計模型相對較少。
支持向量機(Support Vector Machine,SVM)是一種具有構(gòu)建流程相對簡潔且耗時較低,可以較好的解決樣本數(shù)量少、數(shù)據(jù)維度高等問題的機器學(xué)習(xí)算法[10],被廣泛應(yīng)用于分類和回歸問題中。支持向量機模型不僅可以表征樣本數(shù)據(jù)中輸入數(shù)據(jù)多個特性和目標(biāo)輸出之間的非線性關(guān)系而且結(jié)果精度高、穩(wěn)定性好。游清順等[11]通過SVM對抽檢數(shù)據(jù)進行食品質(zhì)量合格分類。王娜[12]采用了最小二乘支持向量機預(yù)測模型對北京市肉類供應(yīng)量做出了預(yù)估。影響支持向量機模型精度、穩(wěn)定性及泛化性的主要因素就是支持向量機的核心參數(shù):懲罰因子c和松弛因子g。故而參數(shù)的優(yōu)化對于如何建立起一個支持向量機模型必不可少。因此,本文提出了一種基于支持向量回歸的草莓感官評價估計方法,并利用灰狼算法(Grey Wolf Optimizer,GWO)對模型參數(shù)進行優(yōu)化。
本研究中的草莓果實品種為“章姬”,來自北京天翼生物工程有限公司的昌平奶油草莓生產(chǎn)基地。超氧化物歧化酶(Superoxide Dismutase,SOD)、過氧化氫酶(Catalase,CAT)、抗壞血酸過氧化物酶(Ascorbate Peroxidase,APX)、過氧化物酶(Peroxidase,POD)、多酚氧化酶(Polyphenol Oxidase,PPO)、過氧化氫(H2O2)測定試劑盒,南京建成生物工程研究所有限公司;生理鹽水,石家莊四藥有限公司。
Bio-tek酶標(biāo)儀,SYNERGY公司;分光光度計,安捷倫科技有限公司;3K15高速冷凍離心機,SIGMA公司;T-403數(shù)字電子天平,北京賽多利斯儀器系統(tǒng)有限公司;恒溫集熱式加熱磁力攪拌器DF-101S,鞏義市予華儀器有限公司;F-80C型制冰機,北京博威興業(yè)科技發(fā)展有限公司。
1.3.1 草莓樣品設(shè)計
選擇果實體積、色澤、成熟度相同(草莓品種為章姬,八成熟,色澤紅潤鮮艷色深,單果質(zhì)量(15±1) g),無病蟲害和機械傷的草莓鮮果在常溫下進行試驗。
1.3.2 理化指標(biāo)測定
按照SOD、CAT、APX、POD、PPO、H2O2測定試劑盒提供的方法進行測定。按照m(草莓):m(生理鹽水)=1:9,在冰水浴條件下配制比例為10%組織均勻漿液,獲取3500 r/min離心10 min后的上清液。遵循試劑盒步驟,先準(zhǔn)備好實驗管、對照管,再添加相應(yīng)試劑1到試劑4。均勻后,獲取3500 r/min離心10 min后的上清液,在相應(yīng)波長處,利用酶標(biāo)儀進行測定,平行重復(fù)各3次,計算酶活力[13]。
黃酮的測定方法[14]:稱取蘆丁10 mg,加入10 mL無水乙醇,配成0.1 mg/mL的標(biāo)準(zhǔn)品溶液。稱取草莓樣品5 g,置于50 mL棕色容量瓶中,加入無水乙醇35 mL,超聲60 min,以無水乙醇定容至刻度,搖勻后取25 mL于50 mL離心管中,于6000 r/min離心10 min,上清液備用。吸取0.00、1.00、2.00、3.00、4.00、5.00 mL蘆丁標(biāo)準(zhǔn)品溶液,分別置于25 mL的比色管中,補水至10 mL,加1.0 mL亞硝酸鈉(50 g/L),放置6 min,加1.0 mL硝酸鋁溶液(100 g/L),放置6 min,加入4.0 mL氫氧化鈉溶液(40 g/L),加水至刻度,放置15 min。用1 cm比色皿,以試劑空白調(diào)節(jié)零點,在波長510 nm處測定吸光度。以吸光度為縱坐標(biāo),蘆丁質(zhì)量為橫坐標(biāo),繪制標(biāo)準(zhǔn)曲線。精密吸取2.0 mL供試品溶液,置25 mL比色管中,補水至10 mL。在波長510 nm處測定吸光度。
總多酚的測定方法[15]:稱取沒食子酸約10 mg,置于100 mL棕色容量瓶中,加水配成的0.1 mg/mL標(biāo)準(zhǔn)品溶液。稱取草莓樣品10 g,置100 mL棕色容量瓶中,加入水適量,超聲60 min,冷卻至室溫,以水定容至刻度,搖勻后取30~35 mL于50 mL離心管中,于6000 r/min離心15 min,上清液備用。吸取標(biāo)準(zhǔn)品溶液0.20、0.40、0.60、0.80 mL分別置于10 mL的容量瓶中,各加入3~4 mL的水。加入0.5 mL福林酚試液;在1~8 min內(nèi),各加入1.5 mL Na2CO3溶液(20.0 g/100 mL的水溶液)。用水定容至刻度,分別得到?jīng)]食子酸濃度約為0.002、0.004、0.006、0.008 mg/mL的標(biāo)準(zhǔn)品溶液,將各容量瓶置于30 ℃水浴中保持2 h。同時配制空白溶液,以空白溶液調(diào)零,于760 nm(10 min內(nèi))處測定吸光度,以吸光度為縱坐標(biāo),濃度為橫坐標(biāo),繪制回歸曲線。精密吸取0.2 mL供試品溶液,置10 mL容量瓶中,各加入3~4 mL水,以空白溶液調(diào)零,于760 nm(10 min內(nèi))處測定吸光度。
pH值的測定:草莓可食部分打漿,取一定量的草莓醬加等量的屈臣氏水混勻,用pH計測量5次。
可溶性固形物(Soluble Solids Content,SSC)的測定[16]:草莓可食部分打漿,用四層紗布擠出均漿汁液,用Abbemat 500全自動折光儀測量3次。
1.3.3 感官評價
感官評價小組由5名女性和5名男性(年齡從25歲到55歲)組成。他們能夠區(qū)分基本口味(苦、甜、酸、咸和鮮味),并在果蔬感官評級及風(fēng)味分析方面有一定經(jīng)驗。小組成員接受了培訓(xùn),每周(3周)三次,每次20 min,對5種不同濃度的基本口味溶液進行區(qū)分和重新排序。在培訓(xùn)期間,為受試者提供了五種草莓,為每種屬性提供了廣泛的感官可變性,并進一步刺激描述符的形成。感官評估的最終評估標(biāo)準(zhǔn)由小組討論確定。
描述性術(shù)語及其評價標(biāo)準(zhǔn)定義如下:(1)酸度:0.05 g檸檬酸/100 mL水=酸10,0.1 g檸檬酸/100 mL水=酸性20;(2)甜度:2 g蔗糖/100 mL水=甜度10,4 g蔗糖/100 mL水=甜值20;(3)苦味:0.00075 g奎寧/100 mL水=苦味10,0.0015 g奎寧/100 mL水=苦20;(4)外觀:草莓果實飽滿完整,沒有機械損傷=外觀20;(5)堅硬度:硬度高,無腐爛=硬度20;(6)色澤:紅潤,均勻=色澤20;(7)香氣:草莓香氣濃郁,無異味,無澀味=香氣20;(8)滋味:不同口味的組合。根據(jù)確定的感官評估標(biāo)準(zhǔn),小組成員在2周內(nèi)接受了6次培訓(xùn)。最后,所有小組成員都能夠識別這些描述詞并一致使用它們。
感官評價在(23±2)℃、濕度55%的感官面板室中進行。小組成員被要求以外觀、堅硬度、色澤、香氣、滋味為評價指標(biāo)。每個指標(biāo)滿分20分,總計100分。表1為試驗中的感官評價回答表。為了避免疲勞和攜帶影響,小組成員被要求在兩個不同樣本的測試間隔期間用50~60 mL的飲用水漱口。感官評估前一小時不允許進食、飲酒或吸煙。在每節(jié)課結(jié)束時收集所有記分卡,并計算所有10名小組成員在三次重復(fù)實驗中給出的所有描述符的平均值,以進行多元統(tǒng)計分析。
表1 感官評價得分表Table 1 Sensory evaluation score table
1.3.4 數(shù)據(jù)處理
理化指標(biāo)及感官指標(biāo)均每0.5 d測定一次,共測量6 d,每次平行測定3組,共測得36條實驗樣本數(shù)據(jù)。
支持向量機可以對樣本進行有監(jiān)督的分類和回歸,2014年由Vladimie等[17]提出,本文使用的是支持向量機的回歸(Support Vector Regression,SVR),圖1為其原理圖,目的是通過訓(xùn)練尋找到一個使得所有樣本點距其距離最小的超平面。
圖1 支持向量機原理示意圖Fig.1 Schematic diagram of Support vector machine
超平面可用式(1)表示:
式中:
ωT——權(quán)向量轉(zhuǎn)置,
b——偏置。
尋找最優(yōu)超平面的問題可以轉(zhuǎn)化為所對應(yīng)的凸二次規(guī)劃問題:
式中懲罰因子c的取值反映了公式(2)中2個變量的權(quán)重;iξ和ξ*i為松弛變量,旨在使得尋找最優(yōu)超平面的標(biāo)準(zhǔn)降低。落入到ε定義的不敏感帶內(nèi)的樣本數(shù)據(jù)忽略其損失,即只有落在不敏感地帶外的樣本才會對支持向量模型產(chǎn)生影響,最后確定的優(yōu)化模型具有總損失最小和間隔最大的特點。
SVR的核函數(shù)有多種選擇[18],應(yīng)用廣泛的徑向基函數(shù)作為本文選用的核函數(shù)。尋找最優(yōu)超平面轉(zhuǎn)化為的凸二次規(guī)劃的對偶問題由拉格朗日乘數(shù)法解決,并給出決策函數(shù):
式中:
ai和aj——拉格朗日乘數(shù);
用K(xi,xj)=φ(xi)Tφ(xj)來計算多維特征空間向量的數(shù)量積。
參數(shù)的正確取值也對SVR模型有著很大的影響[19],合理的參數(shù)選擇會使得所建立模型學(xué)習(xí)能力更強,精度更高。懲罰因子c和徑向基核函數(shù)的參數(shù)g是建立支持向量回歸模型需要確定的兩個關(guān)鍵參數(shù)。c決定了模型的復(fù)雜程度和誤差大小,擬合效果會隨著c數(shù)值的增大而變好,然而取值超過一定范圍也會導(dǎo)致過擬合現(xiàn)象。核函數(shù)參數(shù)g則是用于定義了單一訓(xùn)練樣本能起到多大的影響,如果g的取值不恰當(dāng)會導(dǎo)致支持向量機模型的泛化能力差。為獲取精度最高的SVR模型,采用GWO算法進行參數(shù)c、g的尋優(yōu)[20]。
灰狼優(yōu)化算法在2014年作為一種群體的隨機搜索算法由高校研究者Mirjalili等[21]提出。該優(yōu)化算法模仿灰狼種群的等級制度及捕獵生活,存在能夠自適應(yīng)調(diào)整的收斂因子,需要設(shè)定的參數(shù)少易通過編程實現(xiàn)等優(yōu)點因而被廣泛選用。
灰狼是一種處于食物鏈頂端的群居犬科哺乳動物[22]?;依欠N群嚴(yán)格按照社會權(quán)力等級制度進行生活。GWO將灰狼群體劃分為α、β、γ和ω4種等級。按適應(yīng)度的大小排序金字塔如圖2所示。
圖2 灰狼的社會等級制度Fig.2 The social hierarchy of the gray wolf
狼群中的頭狼記為α,它是在狼群中對捕獵、生長、作息時間等行為進行決定的支配狼。狼群中所有其他的狼都要聽從它的吩咐。另外,雖然它不一定是整個狼群中最強大的狼但是它是整個狼群中最具有管理技能。
β狼是α狼的最優(yōu)遞補狼,它可以管理除了α狼之外的其他等級的狼群,并幫助α狼做出選擇,在α狼死亡或衰弱后,β狼將有望頂替α狼。
γ狼,它服從α、β狼,并同時調(diào)配底層狼。
ω狼,需要服從社會層級上的其他狼,主要作用是保持狼群內(nèi)秩序的穩(wěn)定,防止出現(xiàn)自相殘殺等問題。
灰狼捕食獵物有如下三個步驟:搜尋、跟蹤和圍捕[23],GWO優(yōu)化過程就是灰狼種群生活中社會階級劃分、搜索、包圍和攻擊獵物的過程,GWO算法首先自由產(chǎn)生部分狼群,確定獵物的大致位置,ω狼在α、β、γ狼的帶領(lǐng)和指導(dǎo)下進行跟蹤獵物和圍攻,最優(yōu)參數(shù)通過計算適應(yīng)度值得出,直至滿足終止條件時,目標(biāo)函數(shù)的最優(yōu)解即為獵物的最終位置。
灰狼在發(fā)覺獵物后漸漸靠近并圍困獵物的過程可用如下數(shù)學(xué)模型進行描述:
搜尋過程大多依賴α、β、γ狼的合作進行。算法通過假設(shè)狼群具有分辨獵物方向和位置的潛能[23,24]來模擬灰狼狩獵的過程從而獲得最優(yōu)解,這樣在每次迭代過程中,保留社會等級中前三層級的狼群位置并根據(jù)其位置數(shù)據(jù)來更新計算出其余灰狼的定位[25],用下列數(shù)學(xué)模型描述上述過程:
圖3 灰狼位置更新示意圖Fig.3 Schematic of gray wolf location update
2.3.1 數(shù)據(jù)分析
實驗每隔0.5 d測量一次與草莓感官評價相關(guān)的十項理化風(fēng)味指標(biāo)并記錄,同時記錄專家組評定的草莓感官評價得分?jǐn)?shù)據(jù),每次平行測定三組,直至6 d后草莓腐敗失去感官價值,共獲得3組36條草莓理化風(fēng)味指標(biāo)及對應(yīng)的專家組感官評價得分?jǐn)?shù)據(jù),并計算三組平行實驗數(shù)據(jù)的均值。對所有數(shù)據(jù)進行歸一化處理,將實驗所得的三組平行數(shù)據(jù)作為訓(xùn)練集,用三組平行數(shù)據(jù)的均值作為測試集對模型的估計結(jié)果進行驗證。利用十項理化風(fēng)味指標(biāo)作為輸入數(shù)據(jù),草莓感官評價得分作為輸出數(shù)據(jù)的軟測量模型結(jié)構(gòu)圖如圖4。
圖4 草莓感官評價模型結(jié)構(gòu)圖Fig.4 Structural diagram of strawberry sensory evaluation model
2.3.2 草莓感官評價模型的建立
整個流程在MATLAB2019b中進行編譯與實現(xiàn),使用LIBSVM工具箱來進行支持向量機的應(yīng)用,核函數(shù)采用徑向基函數(shù)。影響SVR模型精度參數(shù)的懲罰因子c和核函數(shù)參數(shù)g由灰狼優(yōu)化算法通過不斷迭代直至達到終止?fàn)顟B(tài)獲得,模型的精度由測試集數(shù)據(jù)進行評定,上述過程即為草莓感官評價得分的軟測量模型的建立,如圖5所示。
圖5 基于灰狼優(yōu)化支持向量回歸的草莓感官評價模型的建立Fig.5 Establishment of strawberry sensory evaluation based on grey wolf optimized support vector regression
本文按照3:1的比例劃分為訓(xùn)練集和測試集。草莓感官評價模型基于灰狼優(yōu)化支持向量機算法實現(xiàn),其中灰狼算法初始參數(shù)設(shè)置為:狼群數(shù)量20,迭代終止次數(shù)50。將尋優(yōu)算法尋優(yōu)后獲得的最佳參數(shù)c和參數(shù)g代入構(gòu)建的支持向量回歸模型中對樣本進行訓(xùn)練和預(yù)測。
本實驗選用均方根誤差(Root Mean Squared Error,RMSE)、平均絕對誤差[27](Mean Absolute Error,MAE)和R2(R Squared)這三個指標(biāo)來評價基于GWO-SVM的草莓感官評價模型的性能。
其中,以均方根誤差計算出估計值與真值之間偏差的平方和與訓(xùn)練次數(shù)n比值的平方根,用于反映估計值同真值之間的誤差[28];平均絕對誤差用于衡量估計值與真值之間的距離,可以準(zhǔn)確表達實際估計偏差的嚴(yán)重程度;R2是一個相對度量指標(biāo),它的主要作用是對其結(jié)果進行了歸一化,更易于看出模型間的差距[29],故而可以使用它來與在相同數(shù)據(jù)上訓(xùn)練的其他模型進行比較。
三項指標(biāo)的計算公式如下:
式中:
n——樣本數(shù);
?y——草莓感官評價真實值;
?y——草莓感官評價真實值的平均值;
y——預(yù)測結(jié)果;
y——預(yù)測結(jié)果的平均值。
設(shè)置粒子群優(yōu)化支持向量機(Particle Swarm Optimization-Support Vector Machine,PSO-SVM)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、長短時記憶網(wǎng)絡(luò)(Long Short Term Memory Networks,LSTM)進行對比,每種算法的迭代次數(shù)均與實驗所用方法迭代次數(shù)一致。其中粒子群優(yōu)化算法與灰狼優(yōu)化算法的目的相同,均為找到支持向量機模型中最優(yōu)的的懲罰因子c和松弛因子g[30,31],旨在比較不同優(yōu)化算法在此實驗問題中的參數(shù)尋優(yōu)性能。LSTM和CNN[32]有監(jiān)督學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)對草莓感官評價數(shù)據(jù)進行回歸預(yù)測,比較了機器學(xué)習(xí)和深度學(xué)習(xí)在本實驗中小樣本數(shù)據(jù)回歸問題上的精度。為了充分驗證所提出模型的有效性,將每種方法獨立重復(fù)20次,均計算均方根誤差、平均絕對誤差、R2三個評價指標(biāo)與所提出模型的誤差效果進行對比,以確保結(jié)果的客觀性。統(tǒng)計結(jié)果如圖6~8所示。
圖6 各個模型的RMSE箱線圖Fig.6 RMSE boxplot of each model
圖7 各個模型的MAE箱線圖Fig.7 MAE boxplot of each model
由圖6、7可以看出,經(jīng)GWO優(yōu)化后的SVM模型的誤差箱體小于其他模型的誤差箱體,重復(fù)實驗20次后,RMSE均值為0.28,誤差浮動范圍為0.04,MAE均值為0.24,誤差浮動范圍為0.05。其次依次為經(jīng)PSO優(yōu)化的支持向量機模型RMSE均值0.46,MAE均值0.38,誤差浮動范圍分別為0.06、0.06;CNN模型RMSE均值0.88,MAE均值為0.75,誤差浮動范圍0.9、0.44;LSTM模型RMSE均值1.24,MAE均值0.99,誤差浮動范圍0.85、0.66。證明所提出模型的RMSE和MAE的分布最集中,模型誤差最小,相比其他模型,保持了較高的精度和穩(wěn)定性。由圖8可以看出,GWO-SVM模型的R2最高,證明在草莓感官評價估計問題中,所提出模型的擬合度最高。文中所需設(shè)定尋優(yōu)參數(shù)較少,灰狼優(yōu)化算法可以可以在簡單尋優(yōu)問題中在局部尋優(yōu)與全局搜索之間實現(xiàn)平衡,證明GWO在簡單尋優(yōu)問題中全局尋優(yōu)能力強,效果優(yōu)于側(cè)重于局部尋優(yōu)的PSO算法。SVM模型作為機器學(xué)習(xí)模型的一種,在小樣本回歸問題中準(zhǔn)確率和穩(wěn)定性均高于深度神經(jīng)網(wǎng)絡(luò)模型。由圖9可以看出,GWO-SVM與真值重合度最高,其余依次為PSO-SVM、CNN、LSTM。
圖8 各個模型的R2箱線圖Fig.8 R2 boxplot of each model
圖9 各個模型的感官評價得分估計曲線及分值Fig.9 Sensory evaluation score estimation curve and score of each model
本試驗建立了一種可以將草莓的理化指標(biāo)與感官評價得分對應(yīng)起來的綜合模型,并設(shè)置了對照實驗驗證了所提出模型的優(yōu)越性。試驗結(jié)果表明,同等條件下,在小樣本高緯度問題中,SVM模型的結(jié)果優(yōu)于神經(jīng)網(wǎng)絡(luò)模型,而灰狼優(yōu)化算法在簡單尋優(yōu)問題中可以在局部尋優(yōu)與全局搜索之間實現(xiàn)平衡且具有較強的收斂性能,基于GWO-SVM綜合模型的草莓感官評價軟測量結(jié)果優(yōu)于基于PSO-SVM模型軟測量結(jié)果。以上結(jié)論已在其他批次的草莓上進行過驗證,結(jié)果表明方法可行,可以為支持向量機方法在其他食品領(lǐng)域感官評價得分的估計研究提供一定的參考,在未來的研究中,將嘗試使用該模型對不同種類食品的理化指標(biāo)數(shù)據(jù)進行測試,并對模型結(jié)構(gòu)進一步優(yōu)化和改進。