肖仕杰,王巧華, 2*,李春芳,杜 超,周增坡,梁生超,張淑君*
1. 華中農(nóng)業(yè)大學(xué)工學(xué)院,湖北 武漢 430070 2. 農(nóng)業(yè)部長(zhǎng)江中下游農(nóng)業(yè)裝備重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430070 3. 華中農(nóng)業(yè)大學(xué)動(dòng)物遺傳育種與繁殖教育部實(shí)驗(yàn)室,湖北 武漢 430070 4. 河北省畜牧業(yè)協(xié)會(huì),河北 石家莊 050000
牛奶富含蛋白質(zhì)和脂肪。 乳蛋白中含多種人體必需的氨基酸。 乳脂能夠提供能量和營(yíng)養(yǎng)。 牛奶的品質(zhì)決定牛奶的口感[1]和價(jià)格[2],直接關(guān)系到乳企的利潤(rùn)和發(fā)展。 相關(guān)數(shù)據(jù)表明,2014年—2019年,我國(guó)每年原料奶產(chǎn)量均在3 000萬(wàn)噸以上[3]。 隨著生活水平的提高,消費(fèi)者更加注重牛奶品質(zhì),因此市場(chǎng)上普遍出現(xiàn)“高蛋白”,“高乳脂”等特色牛奶。 此外,研究表明,牛奶中體細(xì)胞數(shù)的變化會(huì)直接影響乳蛋白和乳脂的含量[4]。 乳企在收購(gòu)原料奶時(shí)會(huì)將其作為評(píng)價(jià)指標(biāo)。
乳蛋白和乳脂含量,體細(xì)胞數(shù)的測(cè)定需要分開(kāi)進(jìn)行,使用不同的方法和儀器。 傳統(tǒng)的化學(xué)分析方法技術(shù)成熟、準(zhǔn)確率高,但是耗時(shí)長(zhǎng)且污染環(huán)境。 若能找到一種方法同時(shí)對(duì)乳蛋白、乳脂含量和體細(xì)胞數(shù)直接進(jìn)行檢測(cè)并快速分級(jí),將大大提高乳企的生產(chǎn)效率,節(jié)約生產(chǎn)成本。 利用中紅外光譜法檢測(cè)牛奶操作簡(jiǎn)單且快速無(wú)損,在國(guó)外被用于牛奶成分(如蛋白成分和脂肪酸)[5-7]的含量預(yù)測(cè)和奶牛營(yíng)養(yǎng)、健康與生殖狀況監(jiān)控[8]。 在國(guó)內(nèi),中紅外光譜在牛奶方面主要用于三聚氰胺和尿素等的摻假研究[9-10]。 牛奶體細(xì)胞的無(wú)損研究方面,崔傳金等和吳海云等[11-12]利用電參數(shù)和化學(xué)計(jì)量學(xué)方法進(jìn)行了含量預(yù)測(cè)和分類研究。 但是,關(guān)于牛奶體細(xì)胞的光譜無(wú)損檢測(cè)鮮有報(bào)道。
利用傅里葉變換中紅外光譜針對(duì)乳蛋白、乳脂和體細(xì)胞對(duì)牛奶進(jìn)行分級(jí)研究。 通過(guò)對(duì)特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的光譜差異進(jìn)行分析,利用無(wú)信息變量消除法(uninformative variable elimination,UVE)、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(competitive adaptive reweighed sampling,CARS)與穩(wěn)定性競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣算法(stability competitive adaptive reweighted sampling,SCARS)篩選出能代表4種牛奶品質(zhì)差異的特征變量,并基于樸素貝葉斯(NB)和隨機(jī)森林(RF)模型構(gòu)建了牛奶檢測(cè)分級(jí)模型。
牛奶于2020年1月、3月至10月期間從河北省10個(gè)牧場(chǎng)獲得,所有奶牛品種均為中國(guó)荷斯坦牛。 牛奶采集利用全自動(dòng)擠奶設(shè)備,每份牛奶采集40 mL,分裝到河北省奶牛生產(chǎn)性能測(cè)定(DHI)中心配置的全新專用取樣瓶里并依次編號(hào),為防止牛奶腐敗變質(zhì),每個(gè)采樣瓶里加入專用防腐劑布羅波爾3.2~3.4 μL并使其與牛奶充分混勻,及時(shí)放入專用冰箱冷藏保存。
試驗(yàn)儀器與設(shè)備主要包括乳成分分析儀MilkoScanTM FT+(傅里葉變換中紅外光譜儀,丹麥FOSS公司);體細(xì)胞檢測(cè)儀FossomaticTM7(丹麥FOSS公司),電熱恒溫水浴鍋。
1.3.1 光譜采集、乳蛋白和乳脂含量及體細(xì)胞數(shù)檢測(cè)
將牛奶分批放入42 ℃電熱恒溫水浴鍋內(nèi)預(yù)熱15~20 min后搖晃均勻,使用MilkoScanTM FT+進(jìn)行光譜采集以及蛋白質(zhì)和脂肪的含量測(cè)定。 FossomaticTM7可視為自動(dòng)熒光顯微鏡,物鏡位于轉(zhuǎn)盤上方,連續(xù)的牛奶液膜涂布在轉(zhuǎn)盤周邊,暴露在紫外光下,經(jīng)吖啶橙染色的牛奶細(xì)胞熒光信號(hào)由光電倍增管檢測(cè)并饋入放大系統(tǒng),測(cè)得的脈沖被計(jì)數(shù), 每個(gè)脈沖等于1 000個(gè)細(xì)胞·mL-1。
根據(jù)歐盟標(biāo)準(zhǔn),脂肪的正常含量范圍為1.5%~9%,蛋白質(zhì)的正常含量范圍為1%~7%,共篩選出5 121份牛奶。 各牧場(chǎng)的樣本分布如表1所示。
1.3.2 分級(jí)標(biāo)準(zhǔn)
參考GB19301—2010《食品安全國(guó)家標(biāo)準(zhǔn)生乳》和TTDSTIA001—2019《生乳用途分級(jí)技術(shù)規(guī)范》對(duì)牛奶進(jìn)行分級(jí),分級(jí)標(biāo)準(zhǔn)如表2所示。
1.4.1 光譜預(yù)處理方法
牛奶本身作為膠體,當(dāng)光束穿過(guò)時(shí),會(huì)產(chǎn)生丁達(dá)爾效應(yīng),即光的散射,儀器在運(yùn)行過(guò)程中也會(huì)產(chǎn)生隨機(jī)噪聲,基線漂移等,對(duì)中紅外光譜產(chǎn)生影響[8]。 本文采用6種算法對(duì)光譜進(jìn)行預(yù)處理,包括標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variable,SNV),多元散射校正(multiplicative scatter correction,MSC),一階導(dǎo)數(shù),二階導(dǎo)數(shù),一階差分和二階差分。
表1 各牧場(chǎng)的樣本分布統(tǒng)計(jì)Table 1 Sample distribution statistics of each pasture
表2 分級(jí)標(biāo)準(zhǔn)Table 2 Standard of classification
1.4.2 特征變量選擇
牛奶的原始光譜共有1060個(gè)波長(zhǎng),波長(zhǎng)不同包含的信息不同,對(duì)模型的貢獻(xiàn)率大小也不同,部分無(wú)信息變量對(duì)牛奶分級(jí)的中紅外判別分析沒(méi)有價(jià)值,反而容易降低模型的預(yù)測(cè)精度。 UVE,CARS和SCARS均以降低無(wú)信息變量為出發(fā)點(diǎn),提取出能夠代表4種牛奶差異的特征變量組合。
1.4.3 模型建立與性能評(píng)估
樸素貝葉斯(NB)[13]是一種以概率統(tǒng)計(jì)中的貝葉斯定理為理論基礎(chǔ)的學(xué)習(xí)算法。 已知先驗(yàn)概率,并計(jì)算給定的待分級(jí)牛奶屬于特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的條件概率,再計(jì)算后驗(yàn)概率,選擇后驗(yàn)概率最高的類別作為牛奶的預(yù)測(cè)類別。
隨機(jī)森林(RF)[14]的本質(zhì)是一個(gè)多決策樹(shù)(隨機(jī)方法形成)的分類器。 當(dāng)測(cè)試集中4種牛奶樣本進(jìn)入分類器時(shí),實(shí)際上是由每棵決策樹(shù)進(jìn)行分類,選擇分類結(jié)果最多的類別作為最終結(jié)果。
利用準(zhǔn)確率作為模型的評(píng)價(jià)指標(biāo)。 訓(xùn)練集準(zhǔn)確率與測(cè)試集準(zhǔn)確率越高并且兩者越接近,表明模型的精度高,可靠性好。
全部數(shù)據(jù)處理均在MATLAB 2014b中進(jìn)行。
在中紅外范圍內(nèi)對(duì)牛奶樣品的采集區(qū)域?yàn)?25~4 000 cm-1,由于3 680~4 000 cm-1區(qū)域?qū)δP拓暙I(xiàn)率較低,因此,選擇925~3 680 cm-1的光譜進(jìn)行分析。 圖1所示為特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的平均光譜,從圖中可以看出,特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的平均光譜吸收曲線緊密重合,每條曲線的變化趨勢(shì)相似,表明特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的成分大致相同,但同時(shí)它們的光譜吸光度也存在差異,這表明4種牛奶的化學(xué)成分含量存在差異,這就為我們建立牛奶品質(zhì)分級(jí)模型提供了理論依據(jù)。
圖1 特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的平均光譜
光譜中1 250,1 550和1 650 cm-1峰與蛋白質(zhì)的吸收有關(guān)[15],1 774,2 856和2 928 cm-1峰與脂肪的吸收有關(guān)[10]。 此外,水的吸收峰與牛奶相似,會(huì)對(duì)牛奶的中紅外吸收造成干擾。 1 597~1 712和3 024~3 680 cm-1區(qū)域由于水的吸收導(dǎo)致很低的信噪比[15-17],建模前先將這些區(qū)域去除。 最終取925~1 597和1 712~3 024 cm-1的敏感波段組合用于后續(xù)模型的建立。
樣本總數(shù)為5 121,其中A級(jí)牛奶的樣本數(shù)量為1 342,B級(jí)牛奶的樣本數(shù)量為1 155,C級(jí)牛奶的樣本數(shù)量為1 292,D級(jí)牛奶的樣本數(shù)量為1 332,利用隨機(jī)法RS按照7∶3的原則劃分樣本集。 劃分后的訓(xùn)練集樣本數(shù)量為3 587,其中,A級(jí)牛奶的樣本數(shù)量為940,B級(jí)牛奶的樣本數(shù)量為809,C級(jí)牛奶的樣本數(shù)量為905,D級(jí)牛奶的樣本數(shù)量為933;測(cè)試集中樣本總數(shù)為1 534,其中,A級(jí)牛奶的樣本數(shù)量為402,B級(jí)牛奶的樣本數(shù)量為346,C級(jí)牛奶的樣本數(shù)量為387,D級(jí)牛奶的樣本數(shù)量為399。
基于全光譜和預(yù)處理后的光譜數(shù)據(jù),分別建立NB和RF模型,比較不同預(yù)處理對(duì)模型精度的影響,結(jié)果如表3。 對(duì)于NB模型,全光譜模型的訓(xùn)練集準(zhǔn)確率與測(cè)試集準(zhǔn)確率僅為84.50%和84.22%,與全光譜相比,所有預(yù)處理后的光譜數(shù)據(jù)建立的NB模型的訓(xùn)練集準(zhǔn)確率與測(cè)試集準(zhǔn)確率都有明顯提升。 其中,二階差分處理后的光譜建立的NB模型精度最佳,訓(xùn)練集準(zhǔn)確率與測(cè)試集準(zhǔn)確率為94.31%和92.11%。 對(duì)于RF模型,SNV和MSC的模型準(zhǔn)確率低于全光譜模型,其余4種預(yù)處理方法建立的RF模型準(zhǔn)確率得到提高。 二階差分預(yù)處理后的光譜數(shù)據(jù)建立的RF模型精度最佳,訓(xùn)練集準(zhǔn)確率和測(cè)試集準(zhǔn)確率為99.86%和96.87%。 因此,無(wú)論是NB模型還是RF模型,均選擇二階差分預(yù)處理作為最佳的預(yù)處理方法,并用于后續(xù)的建模分析。
表3 采用不同預(yù)處理方法的全光譜預(yù)測(cè)模型Table 3 Full spectrum prediction model using different pre-processing methods
2.4.1 UVE算法提取特征變量
UVE算法[18]的變量選擇過(guò)程如圖2所示,將閾值參數(shù)設(shè)為0.9,主成分?jǐn)?shù)取20,建立PLS模型選擇變量。 圖中左側(cè)曲線為牛奶的光譜變量矩陣,右側(cè)為添加的與牛奶光譜變量數(shù)相同的隨機(jī)噪聲矩陣,兩條水平虛線處的值分別為+95.57和-95.57,代表隨機(jī)噪聲的最大閾值,兩線之間為被剔除的無(wú)用變量,水平線之外則為建模的牛奶特征變量。
圖2 UVE消除算法篩選特征波長(zhǎng)Fig.2 Screening characteristic wavelengths by UVE
2.4.2 CARS與SCARS算法提取特征變量
CARS算法基于“優(yōu)勝劣汰”準(zhǔn)則剔除不適應(yīng)的波長(zhǎng)變量。 SCARS算法延續(xù)了CARS的提取過(guò)程[19]。 由于兩者的變量選擇過(guò)程相似,僅以CARS為例對(duì)變量提取的過(guò)程進(jìn)行分析。 如圖3所示,將采樣次數(shù)設(shè)為100,利用5折交叉驗(yàn)證,重采樣率為0.8。 圖3(a)表明,迭代次數(shù)增加的過(guò)程,被選取的特征變量數(shù)量在逐步減少。 此過(guò)程又可分為兩個(gè)階段,第一個(gè)階段特征變量數(shù)呈指數(shù)衰減趨勢(shì),稱為“粗選階段”,第二個(gè)階段特征變量數(shù)緩慢減少并趨于穩(wěn)定,為“精選階段”。 圖3(b)為RMSECV的變化趨勢(shì)。 當(dāng)采樣次數(shù)小于48,RMSECV變化不明顯,大于48時(shí),RMSECV緩慢增加,表明特征變量中可能包含了無(wú)用信息。 圖3(c)中的豎線處對(duì)應(yīng)迭代48次,可以取得最佳變量組合。
分別以UVE,CARS和SCARS提取的變量組合為自變量,以牛奶級(jí)別A, B, C, D (在模型中分別記作0, 1, 2, 3)作為因變量建立NB模型和RF模型,結(jié)果如表4。
對(duì)比NB模型可知,全光譜NB模型訓(xùn)練集準(zhǔn)確率與測(cè)試集準(zhǔn)確率分別為94.31%,92.11%,預(yù)測(cè)性能較好。 UVE,CARS和SCARS提取特征變量后建立的模型均優(yōu)于全光譜模型,表明UVE,CARS和SCARS算法適用于牛奶的品質(zhì)分級(jí),可以簡(jiǎn)化模型,提高模型精度。 SCARS-NB模型的精度優(yōu)于CARS-NB模型和UVE-NB模型,訓(xùn)練集準(zhǔn)確率與測(cè)試集準(zhǔn)確率為94.45%,93.94%。 CARS,SCARS提取的變量較少,為37,20,僅占全光譜變量的7.2%,3.9%。 UVE提取的變量數(shù)高達(dá)229個(gè),占比達(dá)到44.6%,變量數(shù)遠(yuǎn)大于CARS,SCARS,導(dǎo)致模型運(yùn)行速度慢,因此在UVE的基礎(chǔ)上利用CARS,SCARS進(jìn)行二次變量提取。 UVE-CARS和UVE-SCARS提取的變量數(shù)分別為30和37,僅占UVE變量數(shù)的13.1%和20.5%,變量數(shù)大大減少。 從UVE-CARS-NB與UVE-SCARS-NB的預(yù)測(cè)結(jié)果來(lái)看,兩種二次特征變量結(jié)合方法均對(duì)UVE-NB進(jìn)行了優(yōu)化,且UVE-SCARS-NB要優(yōu)于UVE-CARS-NB,訓(xùn)練集準(zhǔn)確率與測(cè)試集準(zhǔn)確率為94.68%,93.61%。 綜合考慮,選擇SCARS-NB模型作為牛奶品質(zhì)分級(jí)的最優(yōu)NB模型。
圖3 (a)采樣變量數(shù); (b)RMSECV; (c)回歸系數(shù)路徑Fig.3 (a) Number of sampling variables; (b) RMSECV; (c) Regression coefficient path
表4 NB模型和RF模型的預(yù)測(cè)結(jié)果Table 4 Prediction results by NB and RF models
對(duì)比RF模型可知,全光譜RF測(cè)試集準(zhǔn)確率為96.87%,模型的預(yù)測(cè)性能良好。 UVE,CARS和SCARS提取特征變量后建立的模型精度較全光譜模型均有不同程度的下降,但模型的測(cè)試集準(zhǔn)確率均大于95.5%,表明基于特征變量的RF模型還是可行的,具有良好的精度。 其中UVE-RF的精度優(yōu)于CARS-RF和SCARS-RF,測(cè)試集準(zhǔn)確率為96.74%,與全光譜RF接近。 同樣將UVE分別與CARS和SCARS相結(jié)合,進(jìn)行二次特征變量提取并建立RF模型,但兩種結(jié)合方法的模型精度較UVE-RF模型有所下降,這可能是因?yàn)镃ARS和SCARS在進(jìn)一步剔除無(wú)用信息的同時(shí)將部分有用信息也剔除了。 其中,UVE-SCARS-RF的測(cè)試集準(zhǔn)確率為96.48%,與全光譜RF較接近。
進(jìn)一步對(duì)比全光譜RF,UVE-RF和UVE-SCARS-RF模型的預(yù)測(cè)性能。 與全光譜RF模型的測(cè)試集準(zhǔn)確率相比,UVE-RF模型精度下降0.13%,UVE-SCARS-RF模型精度下降0.39%;對(duì)測(cè)試集的1 534份牛奶判別結(jié)果表明,UVE-RF僅比全光譜RF模型多誤判2個(gè),UVE-SCARS-RF比全光譜RF模型多誤判6個(gè)。 但在運(yùn)行時(shí)間上,對(duì)測(cè)試集的1 534份牛奶判別,全光譜RF模型的運(yùn)行時(shí)間為59.28 s;UVE提取的特征變量數(shù)為全光譜變量的44.55%,運(yùn)行時(shí)間為全光譜RF模型的44.74%;UVE-SCARS提取的特征變量數(shù)為全光譜的9.14%,運(yùn)行時(shí)間僅為全光譜RF模型的10.22%。 綜合考慮,最終選擇UVE-SCARS-RF模型作為牛奶品質(zhì)分級(jí)的最優(yōu)RF模型。
對(duì)于NB模型,二階差分-SCARS-NB模型取得最優(yōu)效果,訓(xùn)練集準(zhǔn)確率與測(cè)試集準(zhǔn)確率分別為94.45%和93.94%,測(cè)試集中特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的預(yù)測(cè)準(zhǔn)確率分別為97.26%,93.93%,93.02%和91.48%。 對(duì)于RF模型,二階差分-UVE-SCARS -RF模型取得了最優(yōu)效果,訓(xùn)練集準(zhǔn)確率和測(cè)試集準(zhǔn)確率為99.86%,96.48%,測(cè)試集中特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的預(yù)測(cè)準(zhǔn)確率分別為98.26%,97.40%,95.87%和94.49%。 二階差分-UVE-SCARS-RF模型的訓(xùn)練集準(zhǔn)確率與測(cè)試集準(zhǔn)確率均高于SCARS-NB模型。 綜合考慮精度和效率,最終選擇二階差分-UVE-SCARS-RF模型作為牛奶品質(zhì)分級(jí)的最佳模型。
圖4 基于二階差分-UVE-SCARS-RF的分類模型Fig.4 Hierarchical model based on the secondorder difference-UVE-SCARS-RF
針對(duì)特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶建立了無(wú)損快速檢測(cè)分級(jí)模型。 選擇來(lái)自10個(gè)牧場(chǎng)的5 121份牛奶樣本,保證了模型的通用性和可靠性。 主要結(jié)論如下:
(1)探討了牛奶品質(zhì)分級(jí)的最佳預(yù)處理算法,結(jié)果表明無(wú)論是NB模型還是RF模型,二階差分均為最佳預(yù)處理方法,并將其用于后續(xù)的建模分析。
(2)探討了UVE,CARS,SCARS,UVE-CARS和UVE-SCARS 5種特征提取算法對(duì)NB模型和RF模型性能的影響。 結(jié)果表明對(duì)于NB模型,SCARS為最佳特征提取算法,對(duì)于RF模型,最佳的特征提取算法為UVE-SCARS,但RF模型的精度優(yōu)于NB模型。
(3)在實(shí)際生產(chǎn)中,效率也十分重要。 在測(cè)試集中,二階差分-SCARS-NB模型的運(yùn)行時(shí)間為5.53 s,二階差分-UVE-SCARS-RF模型的運(yùn)行時(shí)間為6.06 s。 綜合考慮精度和效率,最終選擇二階差分-UVE-SCARS-RF模型作為牛奶品質(zhì)分級(jí)的最佳模型。