孫婷,胡新軍*,田建平,王開鑄,黃丹,彭興輝
1(四川輕化工大學(xué) 機械工程學(xué)院,四川 宜賓,644000)2(四川輕化工大學(xué) 生物工程學(xué)院,四川 宜賓,644000)
大曲主要以生料小麥為原料,通過自然網(wǎng)羅制曲環(huán)境中的微生物接種發(fā)酵,微生物在曲坯中此消彼長, 自然積溫轉(zhuǎn)化并風干而成的一種多酶多菌的微生態(tài)制品[1]。這種多酶多菌的微生態(tài)制品提供了白酒發(fā)酵所需的糖化力、液化力和形成白酒復(fù)雜風味成分的前驅(qū)物質(zhì)[2],是影響白酒風格和酒質(zhì)的重要物質(zhì)基礎(chǔ)。因此自古就有“曲乃酒之骨”、“有好酒必有好曲”的精辟論斷[3]。
大曲質(zhì)量檢測手段的不完善是制約傳統(tǒng)白酒生產(chǎn)進一步發(fā)展的一個重要原因[4]。目前衡量大曲質(zhì)量的優(yōu)劣主要是根據(jù)大曲的水分、酸度、淀粉、發(fā)酵力、酯化力、糖化力等理化指標, 再輔以感官綜合評判[5]。其中大曲酸度是一個重要指標,大曲酸度主要來源于生酸微生物進行有機酸代謝以及脂肪、淀粉和蛋白質(zhì)的降解,可作為判斷曲香強弱的一個指標[6]。檢測酸度的傳統(tǒng)方法一般為pH電位法[7],屬于破壞性檢測,其操作繁瑣且耗時長,不能及時指導(dǎo)培曲生產(chǎn),因此建立一種快速準確、實時高效的大曲酸度檢測方法對于質(zhì)量監(jiān)控和分析研究具有重要意義。
近紅外光譜技術(shù)作為高效快速的現(xiàn)代分析技術(shù)已被成功應(yīng)用于白酒真?zhèn)味鹊蔫b別[8],以及大曲的理化指標如水分[9]、糖化力[10]等的測定。但是近紅外光譜技術(shù)僅能根據(jù)光譜信息計算其內(nèi)部含量,無法獲取圖像信息,更不能實現(xiàn)內(nèi)部含量的可視化[11]。高光譜成像技術(shù)融合了物質(zhì)的圖像信息和光譜信息的優(yōu)點,通過圖像中的每個像素點記錄全光譜,可以實現(xiàn)物質(zhì)內(nèi)部組分的可視化分析[12]。因此被廣泛應(yīng)用于農(nóng)產(chǎn)品的品質(zhì)檢測中[13-17]。但尚未見采用于大曲酸度檢測的研究報道。
本研究以發(fā)酵過程中的大曲為研究對象,利用高光譜成像技術(shù)的優(yōu)勢挖掘光譜數(shù)據(jù)和酸度值之間的內(nèi)在相關(guān)性,建立一種快速定量檢測大曲酸度值的方法,為改善乃至替代傳統(tǒng)檢測手段提供數(shù)據(jù)支撐和方法參考。
以四川宜賓某酒廠生產(chǎn)的大曲為樣本,大曲發(fā)酵周期為春季(2018年4月18日~5月15日),共計28 d,在此期間經(jīng)歷2次并房,并房時間分別為4月21日和5月2號,并房時間不采集數(shù)據(jù)。從大曲成型入庫到第2次并房期間,每天上午9時分別在2間曲房均勻分布的8個位置取樣,共計13 d,由于第2次并房到發(fā)酵結(jié)束期間理化指標變化緩慢,所以隔天取樣,共計7 d。取樣時間總計20 d,得到160個大曲樣本。
高光譜圖像采集系統(tǒng)主要由FX17E型高光譜相機(Specim,芬蘭)2組功率為150 W的鹵素燈光源、高精度電控載物臺、裝有專用軟件(Lumo-scanner,芬蘭)的計算機及輔助支架等組成。高光譜成像系統(tǒng)的光譜采集范圍為900~1 700 nm,設(shè)定的曝光時間為4.02 ms,掃描速度為16.57 mm/s,工作時在樣品垂直方向作橫向掃描,由此得到包含224個波長分辨率為320×256的三維數(shù)據(jù)立方體。
采集前高光譜成像系統(tǒng)預(yù)熱10 min,調(diào)整好系統(tǒng)參數(shù),均勻打碎大曲樣本,篩分后填充至與培養(yǎng)皿邊緣齊平,放置在上述系統(tǒng)的載物臺上開始掃描樣品,得到160組大曲的原始高光譜數(shù)據(jù)。
為了消除相機的物理結(jié)構(gòu)、背景光強度、以及培養(yǎng)皿形狀差異等產(chǎn)生的噪聲影響,需要對獲得的高光譜圖像進行黑白校正,以降低噪音提高信噪比[18]。采集反射率為99%的標準白色聚四氟乙烯校正板作為白平衡,再采集反射率為0%的鏡頭關(guān)閉圖像作為黑平衡,校正公式如公式(1)所示:
(1)
式中:I,校正后光譜反射率;I0,校正前Digital Number (DN)值數(shù)據(jù);W,標準白板DN值數(shù)據(jù);B,暗電流DN值數(shù)據(jù)。
校正后對高光譜圖像進行感興趣區(qū)域(region of interest,ROI)提取,每個樣本提取一個80×80像素的圓形區(qū)域,求得每個ROI內(nèi)所有像素點的平均光譜,得到160組光譜數(shù)據(jù)。
大曲酸度值根據(jù)GB/T 12456—2008中的pH電位法來測定,試樣的酸度值按公式(2)計算:
(2)
式中:X,酸度值,g/kg;c,NaOH標準溶液濃度,mol/L;VI,試樣溶液消耗NaOH的體積,mL;V0,空白溶液消耗NaOH的體積,mL;K,酸的換算系數(shù);F,試樣稀釋倍數(shù);m,試樣質(zhì)量,g。在相同條件下,2次獨立測試結(jié)果的絕對值差不得超過算術(shù)平均值的5%。
光譜預(yù)處理可以有效減弱環(huán)境、高光譜系統(tǒng)自身所帶來的負面影響,提高預(yù)測模型精度,本文采用多元散射校正(multiplicative scatter correction,MSC)、標準正態(tài)變量校正(standard normal variable correction,SNV)和S-G卷積平滑后一階導(dǎo)(savitzky-golay smoothing first derivative,SGFD)3種預(yù)處理方法。其中,MSC用來校正由于樣品表面分布不均產(chǎn)生的光譜散射[19];SNV能高效地去除高頻噪音,防止基線變化,優(yōu)化光譜信號[20];S-G平滑濾波在抑制或消除隨機噪聲的同時,盡可能保留數(shù)據(jù)中的有用信息,求導(dǎo)能突出顯示隱藏在光譜曲線中的不明顯曲線峰谷變化,得到突顯微弱影響因素的微分光譜曲線。
高光譜獲取的樣本數(shù)據(jù)量大,本文采集的900~1 700 nm內(nèi)有224個波長,其中包含很多冗余和干擾信息,會影響模型的準確度,因此需要采用合適的方法篩選與表征指標高度相關(guān)的特征波長,以增加模型的魯棒性和泛化性。本文采用連續(xù)投影算法(successive projection algorithm,SPA)進行特征波長提取,SPA算法是一種使矢量空間共線性最小化的前向變量選擇算法,可以將有效的信息從大量的光譜數(shù)據(jù)中篩選出來,找到光譜變量之間共線性最小的特征波長,優(yōu)化建模條件[21]。
高光譜圖像數(shù)據(jù)上每一個像素點都有一條包括全波長的光譜反射率曲線[22]。將大曲樣本每個像素點的光譜數(shù)據(jù)代入以上最佳預(yù)測模型中,計算相應(yīng)像素點的酸度值,得到灰度圖像,對其進行偽彩色處理,最終獲得大曲酸度值的可視化彩色分布圖。其中紅色代表高含量,藍色代表低含量,可以根據(jù)顏色直觀顯示出不同發(fā)酵時期的大曲酸度值及其分布情況。
通過pH電位法測得不同發(fā)酵周期的160個大曲樣本酸度值,如表1所示,全部樣本的酸度值含量為3.35~10.76 g/kg,平均值為5.245 9 g/kg,方差為0.116 6。根據(jù)Kennard-Stone(KS)算法將樣本劃分為120個訓(xùn)練集和40個測試集用于后續(xù)的建模。
表1 大曲樣品酸度值統(tǒng)計表Table 1 Statistics of acidity indicators for Daqu samples
由于光譜曲線的首尾波長噪聲較大,為了保證數(shù)據(jù)的穩(wěn)定性,去掉首尾10個波長的數(shù)據(jù),圖1表示大曲樣本204個波段的原始平均反射率光譜和經(jīng)過3種預(yù)處理方式后得到的光譜。在波長范圍內(nèi),原始光譜呈現(xiàn)均勻的階梯型變化,這是由于隨著發(fā)酵時間的進行,大曲水分逐漸散失導(dǎo)致反射率逐漸增大。MSC、SNV預(yù)處理的光譜特征整體變化趨勢基本一致,在1 200、1 470 nm處出現(xiàn)2個吸收峰,但吸收峰位置高低有一些差異,這與樣品成分中各種含氫基團物質(zhì)的運動有關(guān)。而SGFD放大了原始光譜曲線的細節(jié)部分,凸顯出光譜變化的趨勢,可見大曲樣本對1 150、1 400 nm這2個波長的光非常敏感,這是由于有機酸的主要特征羧基官能團在此處產(chǎn)生較強吸收。
分別基于原始光譜和3種預(yù)處理的204個波長,建立PLSR和LS-SVM兩種酸度值預(yù)測模型,結(jié)果如表2所示。
由表2得知,基于原始光譜和3種預(yù)處理光譜建立的PLSR和LS-SVM模型預(yù)測大曲酸度值效果均良好,決定系數(shù)總體達到0.9以上,均方根誤差均較小。
a-原始光譜; b-MSC預(yù)處理光譜; c-SNV預(yù)處理光譜; d-SGFD預(yù)處理光譜圖1 不同預(yù)處理下的大曲光譜曲線Fig.1 Daqu spectral curve under different pretreatments
表2 PLSR和LS-SVM模型全光譜建模效果Table 2 Statistics of modeling effect of PLSR and LS-SVM models in full spectrum
從預(yù)測集精度綜合比較而言,LS-SVM模型比PLSR模型具有更好的預(yù)測精度和魯棒性,其中,SGFD預(yù)處理構(gòu)建的LS-SVM模型表現(xiàn)效果最好,為0.929 6,RMSEP為0.011 2,因此可以作為基于全波長預(yù)測大曲酸度值的較好模型。
采用SPA算法分別從原始光譜、MSC、SNV和SGFD預(yù)處理后的204個波長中篩選出最優(yōu)波長,結(jié)果如表3所示。其中篩選出的波長數(shù)量在8~20之間,光譜減少量在91%~97%。
表3 最優(yōu)波長篩選結(jié)果比較Table 3 Comparison of optimal wavelengths selected by SPA
表4 PLSR和LS-SVM模型特征光譜建模效果Table 4 Statistics of modeling effect of PLSR and LS-SVM models in characteristic wavelengths
綜合考慮表2和表4,在900~1 700 nm波長范圍內(nèi)SNV預(yù)處理和SPA算法結(jié)合能有效選取特征波長,降低數(shù)據(jù)冗余,減少計算時間并能保證預(yù)測精度,最終確定SNV+SPA+LS-SVM為最優(yōu)的大曲酸度值預(yù)測模型。
大曲發(fā)酵過程中,酸度值會隨著水分蒸發(fā)和微生物的生長代謝等因素發(fā)生變化,酒企會根據(jù)酸度值大小來推測發(fā)酵狀態(tài)以便及時地開關(guān)窗戶,調(diào)整曲房溫度。高光譜成像技術(shù)可以直觀展示酸度值二維分布狀況。均勻選擇發(fā)酵時間為4月18日、4月23日、4月29日、5月6日、5月10日和5月15日的大曲高光譜圖像,分別提取ROI內(nèi)每個像素相應(yīng)8個特征波長的光譜數(shù)據(jù),將光譜數(shù)據(jù)代入到最優(yōu)的SNV+SPA+LS-SVM模型中,計算每個像素點的酸度值形成灰度圖像,然后進行偽彩色處理得到可視化云圖,這樣可以非常直觀地感知酸度值變化,如圖2所示。
a-4月18日; b-4月23日; c-4月29日; d-5月6日; e-5月10日; f-5月15日圖2 不同時期大曲酸度可視化分布Fig.2 Visualization of Daqu acidity in different periods
由圖3可知,不同發(fā)酵時間的大曲酸度值明顯不同,隨著發(fā)酵時間的進行,酸度值不斷降低,顏色逐漸由紅變藍。4月18日中有部分紅色區(qū)域,因為發(fā)酵剛開始時,產(chǎn)酸量很少,酸度值較高;隨著發(fā)酵進行,4月23日測定的酸度值緩慢降低;4月29日中有少量紅色區(qū)域,產(chǎn)酸細菌大量生長,產(chǎn)酸量增加,酸度值降低較快;經(jīng)過一段時間的發(fā)酵,5月6日酸度值下降得更為明顯;5月10日藍色區(qū)域逐漸增多,產(chǎn)酸菌大量繁殖,產(chǎn)酸量增多,酸度值進一步下降;5月15日天藍色顏色加深,但并不明顯,這是由于發(fā)酵后期產(chǎn)酸菌活性逐漸降低導(dǎo)致大曲的酸度變化不明顯。酸度值變化趨勢與這6 d的實際檢測值高度吻合,可以直觀顯示大曲酸度值分布,為判定大曲發(fā)酵狀態(tài),調(diào)節(jié)曲房環(huán)境提供了依據(jù)。