胡云超,劉智健,汪 瑩,黃浩冉,王紅鴻,吳彩娥,熊智新
(南京林業(yè)大學(xué)輕工與食品學(xué)院,江蘇 南京 210037)
小麥?zhǔn)鞘澜缟戏N植面積最廣、總產(chǎn)量和營養(yǎng)價值最高的糧食作物,提供了人類20%的能量[1]。小麥行業(yè)的發(fā)展對國家的糧食安全和社會穩(wěn)定具有重要意義,2022年,國內(nèi)糧食市場“麥強(qiáng)面弱”格局明顯,產(chǎn)品品質(zhì)、品牌成為企業(yè)贏得小麥粉市場的關(guān)鍵[2]。小麥粉中有三大營養(yǎng)素,分別是蛋白質(zhì)、淀粉和脂類,其中蛋白質(zhì)(含量約為7%~15%)決定著小麥粉的加工品質(zhì)和營養(yǎng)品質(zhì)[3]。小麥粉可根據(jù)其蛋白質(zhì)含量分為高筋粉(大于10.5%)、中筋粉(8.0%~10.5%)和低筋粉(小于8.0%)[4]。小麥粉中蛋白質(zhì)含量的不同使得小麥粉具有不同的用途,例如高筋粉一般用于制作面包,而點(diǎn)心和菜肴一般使用低筋粉進(jìn)行制作加工,所以在生產(chǎn)過程中對小麥粉蛋白質(zhì)含量的快速精確檢測就顯得尤為重要。
近紅外光譜分析技術(shù)是21世紀(jì)發(fā)展起來的一種快速、無損、綠色、可用于在線監(jiān)測的分析技術(shù),廣泛應(yīng)用于食品[5]、農(nóng)業(yè)[6]、醫(yī)藥[7]、林業(yè)[8]等各個領(lǐng)域,隨著科學(xué)技術(shù)的發(fā)展,結(jié)合化學(xué)計量學(xué)的近紅外光譜分析技術(shù)在小麥粉蛋白質(zhì)定量分析中的應(yīng)用逐漸廣泛[9-11]。近紅外光譜所分析的對象大多是復(fù)雜的、未預(yù)處理的樣品體系,通常會收集大量的實(shí)驗樣本,但這些樣本可能80%以上是重復(fù)樣本或無效樣本,因此有必要從中挑選出具有一定代表性的校正樣本代替原始數(shù)據(jù)集進(jìn)行建模,提高建模的效率和模型精度,減少數(shù)據(jù)庫的存儲空間。常用的樣本劃分方法有隨機(jī)采樣法、K/S(Kennard/Stone)法、SPXY(sample set partitioning based on joint X-Y distances)法等。隨機(jī)采樣法是從樣品集中隨機(jī)選擇一定數(shù)量的樣品組成校正集[12]。K/S法是以光譜變量間的歐氏距離為基礎(chǔ),挑選分布范圍廣且代表性強(qiáng)的樣品作為校正集[13-14]。SPXY法是在K/S法的基礎(chǔ)上引入樣品化學(xué)值信息,用光譜間距離以及化學(xué)值濃度之間的距離選擇代表性樣品[15-16]。由于K/S法和SPXY法以樣本間的距離為標(biāo)準(zhǔn)對樣品集進(jìn)行劃分,可能會將異?;蛘卟缓线m的樣本挑選入校正集,進(jìn)而影響所建模型性能。群智能優(yōu)化算法是化學(xué)計量學(xué)方法的重要組成部分,其主要思路是基于對自然生物群體(例如狼群、蟻群、蜻蜓等)生存現(xiàn)象的觀察,將其生存現(xiàn)象量化并應(yīng)用在數(shù)學(xué)模型優(yōu)化中,特點(diǎn)為群個體之間相對獨(dú)立,通過更新策略在搜索空間中尋找最優(yōu)解。群智能優(yōu)化算法在光譜分析領(lǐng)域中已有許多成功的研究及應(yīng)用案例,主要應(yīng)用在特征波長優(yōu)選及建模方法參數(shù)優(yōu)化等方面。Guo Zhiming等[17]利用近紅外光譜分析技術(shù)結(jié)合模擬退火、蟻群優(yōu)化、遺傳算法等群智能優(yōu)化算法,選擇信息豐富的光譜變量,建立了準(zhǔn)確、穩(wěn)健的綠茶活性成分和抗氧化能力定量分析模型。王仲雨等[18]提出改進(jìn)鯨魚優(yōu)化算法并用于近紅外建模過程中的波長選擇,該算法能有效篩選出波長變量并建立玉米脂肪、蛋白質(zhì)、淀粉和水的預(yù)測模型。蜻蜓算法(dragonfly algorithm,DA)作為群智能優(yōu)化算法的一種,將群體行為的所有可能因素都考慮在內(nèi),使其能夠?qū)⒛繕?biāo)函數(shù)快速地收斂在最優(yōu)解附近,具有良好的全局尋優(yōu)能力[19-20]。陳勇等[21]采用衰減消退蜻蜓算法優(yōu)選小麥粉蛋白質(zhì)近紅外特征波長,篩選出的波長數(shù)量少,所建模型穩(wěn)定性高。Chen Yuanyuan等[22]提出了一種新的基于二進(jìn)制蜻蜓算法(binary dragonfly algorithm,BDA)的波長選擇方法,針對汽油近紅外光譜數(shù)據(jù)集選擇有效波長,結(jié)果表明基于多BDA和集成學(xué)習(xí)BDA算法可以提高波長選擇的穩(wěn)定性。蜻蜓算法在近紅外特征波長優(yōu)選、建模方法參數(shù)優(yōu)化等方面有著良好的應(yīng)用性能,但在模型建立過程中優(yōu)選校正集的應(yīng)用鮮見報道。本研究采用BDA算法挑選具有代表性的校正集樣品,以迭代過程中BDA選出的校正集建模的交互驗證標(biāo)準(zhǔn)偏差(root mean square error of cross validation,RMSECV)與所建模型對驗證集預(yù)測的預(yù)測標(biāo)準(zhǔn)偏差(root mean square errors of prediction,RMSEP)之和構(gòu)建適應(yīng)度函數(shù),從而在適應(yīng)度函數(shù)構(gòu)建中引入校正集信息,實(shí)現(xiàn)對校正集樣品的優(yōu)選,提高模型預(yù)測的精度,并以NeoSpectra Micro型便攜式近紅外光譜儀所測的小麥粉近紅外光譜和蛋白質(zhì)數(shù)據(jù)為例,與傳統(tǒng)的校正集優(yōu)選算法(K/S法、SPXY法)的預(yù)測結(jié)果進(jìn)行對比和分析,探討B(tài)DA算法優(yōu)選小麥粉蛋白質(zhì)近紅外建模校正集樣品的可行性。
實(shí)驗所用樣品為超市購買不同品牌、不同批次的小麥粉,共計160 個樣品,包含低筋粉23 份、中筋粉82 份和高筋粉55 份,收集到的樣本置于保鮮袋內(nèi)常溫儲存?zhèn)溆?,取出小麥粉后于室溫?0~23 ℃)條件下采集光譜。
NeoSpectra Micro型便攜式近紅外光譜儀 埃及Si-ware公司;D200杜馬斯定氮儀 濟(jì)南海能儀器股份有限公司。
1.3.1 光譜采集
NeoSpectra Micro型便攜式近紅外光譜儀的波長范圍為1 350~2 550 nm,波數(shù)范圍為7 407~3 922 cm-1,采樣間隔為13.62 cm-1,分辨率為16 cm-1。采集小麥粉樣品的近紅外光譜時,NeoSpectra Micro型便攜式近紅外光譜儀機(jī)身采用金屬試管架夾持固定,探頭向下垂直對準(zhǔn)深1 cm圓盤樣品池,樣品池頂部與探頭底部相距1 cm,面粉樣品鋪平深1 cm圓盤樣品池,按120°間隔采集得到3 條不同檢測點(diǎn)的光譜,取它們的平均作為該樣品的最終采集光譜,共得到160 個小麥粉的光譜數(shù)據(jù)。
1.3.2 蛋白質(zhì)含量測定
小麥粉樣品的蛋白質(zhì)含量參照GB 5009.5—2016《食品中蛋白質(zhì)的測定》[23]中的燃燒法測定。
1.3.3 建模與模型評估
采用偏最小二乘回歸(partial least square regression,PLSR)法建立小麥粉蛋白質(zhì)定量校正模型[24],采用留一法交互驗證,限定最大主成分?jǐn)?shù)為12,選取最佳主成分?jǐn)?shù),即交叉驗證的預(yù)測殘差平方和(prediction residual error sum of square,PRESS)最小時對應(yīng)的主成分?jǐn)?shù)。
模型建立過程中采用RMSECV對模型的性能進(jìn)行評價,建立最優(yōu)的校正模型。模型建立完成后,通常采用RMSEP、決定系數(shù)(R2)[25]等指標(biāo)對模型的預(yù)測性能進(jìn)行綜合評價,R2越接近1,表示模型的預(yù)測效果越好;如果R2為負(fù)值,表明模型擬合效果極差。RMSECV和RMSEP值越小,所建模型的穩(wěn)定性與預(yù)測精確度越高。
1.3.4 蜻蜓算法優(yōu)選校正集
蜻蜓算法是Mirjalili[26]在2016年通過對自然界蜻蜓行為進(jìn)行觀察、總結(jié)和抽象后,提出的一種新的智能群體優(yōu)化算法,并通過對幾類典型函數(shù)優(yōu)化驗證了連續(xù)DA算法、BDA算法的有效性。生物學(xué)家觀察到,蜻蜓主要通過5 種主要策略來改變其位置:分離(Separation)、對齊(Alignment)、聚集(Cohesion)、覓食(Attraction to food)、避敵(Distraction from enemy),這5 種策略的數(shù)學(xué)模型表達(dá)式分別如式(1)~(5)所示:
式中:i表示第i個蜻蜓;X表示當(dāng)前蜻蜓的位置,Xj表示第j個鄰近蜻蜓的位置;N表示鄰近蜻蜓的數(shù)量;Vj表示第j個鄰近蜻蜓的速率;X+表示食物的位置;X-表示危險或敵人的位置。
通過上述5 種策略位置,在搜索范圍空間更新蜻蜓的位置并模擬它們運(yùn)動,考慮了步長向量(ΔX)和位置向量(X),并在粒子群算法的框架基礎(chǔ)上開發(fā)了一種基于步長向量(ΔX)和位置向量(X)的人工蜻蜓搜索算法。步長向量表明了蜻蜓的運(yùn)動方向,如式(6)所示:
式中:s為分離權(quán)重;a為對齊權(quán)重;c為聚集權(quán)重;f為覓食權(quán)重;e為避敵權(quán)重;w為慣性權(quán)重;t為當(dāng)前迭代次數(shù)。得出步長向量后,蜻蜓的位置更新如式(7)所示:
群智能優(yōu)化算法在連續(xù)空間和離散空間中的優(yōu)化方式不同。在連續(xù)搜索空間中,DA的搜索代理通過在位置向量上添加步進(jìn)向量更新種群的位置,而在利用蜻蜓算法優(yōu)選近紅外建模校正集時,需將連續(xù)域轉(zhuǎn)換為離散域,在離散域空間中尋找最優(yōu)解。Mirjalili等[27]利用傳遞函數(shù)將蜻蜓算法進(jìn)行改進(jìn),提出BDA,傳遞函數(shù)接收步長值作為輸入并輸出一個0或1的數(shù)字,表示位置變化的概率。V型傳遞函數(shù)如式(8)所示:
式中:Δx為傳遞函數(shù)的輸入,即步長值。
用傳遞函數(shù)得出位置變化率后更新蜻蜓在搜索空間中的搜索位置(式(9)):
式中:r為[0,1]之間的隨機(jī)數(shù);負(fù)號表示邏輯取反運(yùn)算。
采用BDA算法優(yōu)選校正集,首先使用K/S法將樣本初步劃分為初始校正集和預(yù)測集,初始校正集用于建立定量校正模型以及待優(yōu)化,預(yù)測集在建模結(jié)束后用于評估優(yōu)選的校正集建模的預(yù)測效果,接下來采用BDA算法,在初始校正集中進(jìn)一步挑選出數(shù)量更少、更具有代表性的樣品組成新的校正集,實(shí)現(xiàn)對校正集樣品的優(yōu)選。采用K/S法將初始校正集劃分為子校正集和驗證集,BDA的作用是在子校正集中挑選一定數(shù)量的樣品作為新的校正集,根據(jù)其全局搜索能力強(qiáng)的特性在子校正集樣本空間中大范圍搜索合適的校正集,適應(yīng)度函數(shù)值為優(yōu)選出的校正集建立PLSR模型的RMSECV與該模型預(yù)測驗證集的RMSEP之和(sum),如式(10)所示。每次實(shí)驗迭代計算時,如果本次迭代最優(yōu)解優(yōu)于上次,則記錄該最優(yōu)解對應(yīng)的sum、RMSECV和RMSEP。經(jīng)過不斷的迭代更新,最終選取sum最小的樣品集作為最優(yōu)校正集。BDA算法優(yōu)選校正集的流程如圖1所示。
圖1 BDA算法優(yōu)選校正集的流程圖Fig.1 Flow chart of calibration set optimization by BDA
采用實(shí)驗室自主研發(fā)的NIRSA 5.9.4系統(tǒng)[28](計算機(jī)軟件著作權(quán)登記號為2007SR06801)、Matlab 2016a等軟件平臺進(jìn)行數(shù)據(jù)處理與分析。
本研究所選樣品的小麥粉蛋白質(zhì)含量測定結(jié)果如表1 所示,其含量基本覆蓋小麥粉蛋白質(zhì)量分?jǐn)?shù)(7%~15%),并且分布較為均勻,表明該樣品具有代表性。
表1 小麥粉蛋白質(zhì)含量統(tǒng)計Table 1 Statistics of the protein content in wheat flour
在采集的所有樣品數(shù)據(jù)中,受樣品、采集環(huán)境和儀器的影響,一定程度上會存在異常樣品數(shù)據(jù),影響所建模型的穩(wěn)定性與預(yù)測能力,因此在建模之前必須將異常樣品從集合中剔除。采用主成分分析(principal component analysis,PCA)與馬氏距離相結(jié)合的方法檢測異常樣本,剔除馬氏距離大于3f/m的樣本,其中f為PCA所用主因子數(shù),m為樣本數(shù),共剔除20 個異常樣本。采用K/S方法將140 個正常樣品劃分為初始校正集(100 個)和預(yù)測集(40 個),其小麥粉蛋白質(zhì)含量分布如表2所示,初始校正集與預(yù)測集的樣本化學(xué)值分布較寬,具有良好的代表性。
表2 初始校正集與預(yù)測集小麥粉蛋白質(zhì)含量統(tǒng)計Table 2 Statistics of the protein content in wheat flour in initial calibration and prediction sets
以100 個初始校正集樣品的近紅外光譜及其蛋白質(zhì)含量數(shù)據(jù)為研究對象,建立PLSR模型。為了消除光譜數(shù)據(jù)中無關(guān)信息和噪聲的干擾,使用移動平均平滑(moving average filter,MAF)、Savitaky-Golay卷積平滑(Savitaky-Golay filter,SGF)、標(biāo)準(zhǔn)正態(tài)量變換(standard normal variate transformation,SNV)、一階導(dǎo)數(shù)(1stderivative,1stD)、標(biāo)準(zhǔn)化及組合的預(yù)處理方法對樣品進(jìn)行預(yù)處理[29],建立PLSR校正模型以評價預(yù)處理方法的優(yōu)劣,選定最佳的預(yù)處理方法。不同預(yù)處理方法的校正模型評價結(jié)果如表3所示。
表3 不同預(yù)處理方法的樣品蛋白質(zhì)PLSR校正模型評價Table 3 Evaluation of PLSR calibration models developed using different pretreatment methods
由表3可知,對比不同預(yù)處理方法的建模效果,其中MAF+標(biāo)準(zhǔn)化(MAF窗口寬度為5)的預(yù)處理方法除RMSEP略高于無預(yù)處理和SGF+標(biāo)準(zhǔn)化外,各項指標(biāo)均為最優(yōu),此時PLSR模型的為0.962 3,RMSECV為0.335 7,為0.938 8,RMSEP為0.329 4,模型具有較高的預(yù)測精度,后續(xù)實(shí)驗均采用MAF+標(biāo)準(zhǔn)化(MAF窗口寬度為5)的預(yù)處理方法。
采用K/S方法將初始校正集劃分為子校正集和驗證集,比例為4∶1,子校正集80 個,驗證集20 個,結(jié)合BDA算法優(yōu)選校正集,設(shè)置迭代次數(shù)40 次,初始種群數(shù)500,優(yōu)選校正集樣品數(shù)量20~40 個。進(jìn)行10 次BDA優(yōu)選校正集實(shí)驗,實(shí)驗序號記為BK1~BK10,sum變化如圖2所示,隨著迭代的進(jìn)行,sum越來越小,表明所挑選的校正集建模以及所建模型對驗證集的預(yù)測評價參數(shù)越來越優(yōu)。優(yōu)選校正集的建模及預(yù)測結(jié)果如表4所示,10 次實(shí)驗優(yōu)選的校正集樣品個數(shù)平均為30.2 個,平均為0.949 5,RMSEP為0.299 0,平均預(yù)測性能提高了1.14%,RMSEP降低了9.23%,10 次優(yōu)選的校正集建模預(yù)測性能均優(yōu)于初始校正集,實(shí)驗BK1在10 次實(shí)驗中優(yōu)選出的30 個校正集樣本建模預(yù)測效果最優(yōu)(:0.956 4,RMSEP:0.278 1),與初始校正集相比,提高1.87%,RMSEP降低15.57%,實(shí)驗BK3和BK10所優(yōu)選出的校正集樣品數(shù)僅24 個,且具有較好的模型穩(wěn)定性和預(yù)測能力。
表4 10 次BDA優(yōu)選校正集實(shí)驗的建模及預(yù)測結(jié)果Table 4 Modeling and prediction results from BDA experiments 1–10 for calibration set optimization
圖2 10 次BDA優(yōu)選校正集實(shí)驗適應(yīng)度值變化Fig.2 Changes in fitness values for BDA experiments 1–10 for calibration set optimization with the number of iterations
圖3為初始校正集、BK1優(yōu)選校正集和預(yù)測集的蛋白質(zhì)含量分布圖,BK1所挑選出的校正集樣本含量分布較為均勻,基本涵蓋了預(yù)測集樣品的含量分布范圍。將BK1優(yōu)選的校正集和預(yù)測集取前兩個主成分作主成分分布圖,如圖4所示,30 個校正集在42 個預(yù)測集樣本中均勻分布,盡可能地用較少的樣本包含整個數(shù)據(jù)集的特征,從而使所建立的預(yù)測模型可以對預(yù)測集進(jìn)行良好預(yù)測。
圖3 校正集和預(yù)測集樣本的蛋白質(zhì)含量分布Fig.3 Protein content distribution of calibration set and prediction set samples
圖4 BK1優(yōu)選校正集和預(yù)測集主成分分布Fig.4 Principal component analysis showing the distribution of calibration set and prediction set samples in BK1 for calibration set optimization
在校正模型建立的過程中,選取參與校正的樣本對建立穩(wěn)健的模型是十分必要的,目前最常用的方法是K/S法和SPXY法。潘國鋒[30]使用K/S算法對41 個水體中總氮光譜數(shù)據(jù)進(jìn)行優(yōu)選,用30 個樣本建立了較為理想的硝酸鹽定量校正模型。王世芳等[31]以小型西瓜為研究對象,校正集與預(yù)測集通過SPXY法進(jìn)行劃分,建立了西瓜瓜梗、瓜臍和赤道3 個部位的可溶性固形物含量模型,預(yù)測精度較好。朱榮光等[32]采用濃度梯度法、隨機(jī)法、K/S以及SPXY法共4 種校正集劃分方法對牛肉嫩度高光譜數(shù)據(jù)進(jìn)行劃分和比較,結(jié)果發(fā)現(xiàn)在偏最小二乘回歸和主成分回歸建模時,SPXY法所挑選出的校正集建模效果均較優(yōu)。本研究將與傳統(tǒng)的K/S法和SPXY法優(yōu)選校正集進(jìn)行對比,利用傳統(tǒng)方法從初始校正集中分別采用K/S和SPXY法進(jìn)一步挑選出k(k=20,25,…,90,95)個樣品作為新的校正集建立PLSR模型,并對預(yù)測集進(jìn)行預(yù)測,結(jié)果如圖5所示。由圖5a、b可知,K/S法所挑出的校正集隨著樣品數(shù)量的增加模型穩(wěn)定性整體上越來越好,當(dāng)所選樣品個數(shù)為80、85以及90時所建模型穩(wěn)定性最優(yōu),當(dāng)所選樣品個數(shù)為35時,模型預(yù)測效果最好(:0.942 8,RMSEP:0.318 4)。由圖5c、d可知,SPXY法所挑選出的校正集隨著樣品數(shù)量的增加模型穩(wěn)定性整體變好;當(dāng)樣品個數(shù)為20時,所建模型穩(wěn)定性較優(yōu),但預(yù)測性能差(:0.385 6,RMSEP:1.043 6);當(dāng)樣品個數(shù)為85時,所建模型穩(wěn)定性最優(yōu),預(yù)測性能較好(:0.933 4,RMSEP:0.343 5);當(dāng)樣品個數(shù)為35時,所建模型穩(wěn)定性較優(yōu),且預(yù)測性能最好(:0.938 1,RMSEP:0.331 3)。
圖5 K/S、SPXY法優(yōu)選校正集建模及預(yù)測參數(shù)Fig.5 Modeling and prediction parameters of K/S and SPXY optimal calibration sets
通過K/S和SPXY法挑選出的校正集建模和預(yù)測結(jié)果可以看出,K/S法從初始校正集100 個樣品中挑選出35 個樣品作為新校正集,所建模型的預(yù)測精度相較于初始校正集而言也略有提升,從0.938 8上升到0.942 8,初步達(dá)到了優(yōu)選校正集的效果;SPXY法在挑選出35 個樣品建模時預(yù)測性能最好,但預(yù)測精度略低于初始校正集建模,為0.938 1,不符合挑選出數(shù)量更少的校正集建立預(yù)測精度更高的模型的目標(biāo)。而采用BDA算法從初始校正集中優(yōu)選校正集,10 次實(shí)驗所選出的新校正集建模預(yù)測精度均高于初始校正集,挑選出30 個樣品進(jìn)行建模時,預(yù)測高達(dá)0.956 4,樣品個數(shù)為24時,預(yù)測也可以達(dá)到0.952 5,說明采用BDA算法可以優(yōu)選出數(shù)量更少的校正集建立預(yù)測精度更高的小麥粉蛋白質(zhì)定量模型。
本研究在傳統(tǒng)挑選校正集樣品的基礎(chǔ)上引入BDA算法進(jìn)行優(yōu)化,以所選校正集建立的模型RMSECV與其對驗證集的RMSEP之和構(gòu)建適應(yīng)度函數(shù),并與傳統(tǒng)校正集挑選方法K/S和SPXY法進(jìn)行比較。結(jié)果表明,BDA算法優(yōu)選出的校正集有最優(yōu)的預(yù)測性能,在10 次BDA優(yōu)選實(shí)驗中,平均挑選出的校正集個數(shù)約占原校正集個數(shù)的30%(從100 個降低到30.2 個),平均預(yù)測性能提高了1.14%(從0.938 8提升至0.949 5),RMSEP降低了9.23%(從0.329 4降低至0.299 0)。采用BDA算法可以優(yōu)選出數(shù)量少、具有代表性的校正集樣品,建立的小麥粉蛋白質(zhì)PLSR模型穩(wěn)定性好、預(yù)測精度高,可為小麥粉品質(zhì)近紅外檢測分析提供一種高效、準(zhǔn)確的校正集優(yōu)選方法。