張曉兵,田建平*,胡新軍,王 俊,何 林,韓李鵬,周書宇,黃 丹,羅惠波
(1.四川輕化工大學 機械工程學院,四川 自貢 643000;2.四川輕化工大學 生物工程學院,四川 自貢 643000)
窖泥素有“千年老窖萬年糟,酒好須得窖池老”的美譽,作為濃香型白酒釀造的基礎,對白酒的品質具有重要意義。窖泥是窖池內壁和底部的特殊發(fā)酵粘土,為釀造微生物提供合適的棲息地[1]。窖泥中微生物菌群的生長繁殖不僅影響白酒的品質,而且對白酒的風味物質形成也有一定的影響[2];這說明窖泥質量的優(yōu)劣與白酒的產香和品質密切相關。總氮含量作為窖泥質量評價指標之一,是構成窖泥微生物細胞的重要元素,對窖泥功能菌的生長繁殖至關重要[3]。目前,檢測總氮含量所采用的化學方法耗時耗力、破壞性強,并且檢測結果往往滯后于實際生產進程,對生產過程的指導缺乏快速性和實時性。因此,亟需開發(fā)一種快速、無損的方法檢測窖泥的總氮含量。
近年來,快速檢測技術憑借快速、無損等優(yōu)點已成為一種常用的檢測手段。其中光譜技術已經成功運用于快速檢測物質的成分,但是該技術只能根據(jù)光譜信息預測其內部成分含量,既無法獲取物質表面的圖像信息,也不能實現(xiàn)成分含量的可視化[4]。圖像處理技術依據(jù)人的視覺原理,借助計算機圖像處理方法提取物質的顏色、紋理等信息特征檢測成分含量,但這種方法的穩(wěn)定性和檢測精度不高[5]。然而,高光譜成像技術(hyperspectral imaging,HSI)是圖像處理技術與光譜技術有機結合,可以同時獲取待測樣本的圖像信息和光譜信息,能夠對待檢測物進行快速、無損的定量及定性分析[6]。高光譜成像技術與化學計量學結合的方法,被廣泛用于各種物質含量檢測及可視化[7],如羊肉中棕櫚酸和油酸含量,豬肉中脂肪含量,橡膠葉中氮含量,芹菜貯藏期內不溶性和可溶性膳食纖維含量,牛肉的pH值,桑果果膠含糖量等[8-13]。以上對物質含量檢測方面的研究均取得了較好的結果,為使用高光譜成像技術檢測窖泥總氮含量提供了可行性。
本實驗以各窖池不同層位的窖泥為研究對象,對樣本的原始光譜數(shù)據(jù)進行預處理,采用競爭性自適應重加權(competitive adapative reweighted sampling,CARS)算法,連續(xù)投影(successive projections algorithm,SPA)算法和CARS與SPA(CARS-SPA)聯(lián)用策略方法提取特征波長,基于全波長和特征波長分別建立偏最小二乘回歸(partial least squares regression,PLSR)和最小二乘支持向量機(least squares-support vector machine,LS-SVM)模型,并基于最優(yōu)模型實現(xiàn)可視化。旨在為窖泥中總氮含量的檢測提供新方法。
窖泥(取自窖帽、黃水、窖底不同層位):四川宜賓某酒業(yè)有限公司;氫氧化鈉、濃鹽酸、濃硫酸、硫酸銅、硫酸鉀、硼酸、碳酸鈉、乙醇(均為分析純):成都市科龍化工試劑廠;甲基紅(分析純):天津科密歐化學試劑有限公司。
CP214電子天平:奧豪斯儀器上海有限公司;78HW-1恒溫磁力攪拌器:金壇市醫(yī)療儀器廠;Kjeltec 8400全自動凱氏定氮儀:瑞典FOSS公司;ZDJ-5B型自動滴定儀:廣州市深華生物技術有限公司。
高光譜成像系統(tǒng)(主要包括:FX10E型高光譜相機(配備精密電控載物臺)):芬蘭SPECIM公司;裝有高光譜采集軟件的計算機:美國DELL公司;Y型光纖鹵素燈(160 W):美國DolanJenner Industries公司。
1.3.1 高光譜圖像采集、校正及光譜提取
本實驗使用高光譜成像系統(tǒng)采集可見光和短波近紅外區(qū)域(400~1 000 nm)內448個波長的窖泥樣本的高光譜圖像。采集方式為推掃式,分辨率640×180像素,采樣曝光時間4.02 ms,掃描速度16.42 mm/s。在完成系統(tǒng)的參數(shù)設定后,使用該系統(tǒng)采集120個窖泥樣本的高光譜圖像。
由于采集時存在環(huán)境光及暗電流的影響,窖泥樣本的高光譜圖像中包含了樣本信息、暗電流信息及高頻噪聲,因此必須對高光譜圖像進行黑白校正,以消除相機中暗電流所引起的噪音和光源強度在各波長條件下的分布不均勻性[14]。校正后的樣本光譜圖像由公式(1)得到:
式中:Ir是校正前的光譜圖像;Iw是白板的參考光譜圖像;Id是暗電流的光譜圖像。
校正后在樣本中心手動選取感興趣區(qū)域(region of in terest,ROI)[15],將樣本的RGB圖像中的ROI區(qū)域與背景分離,提取ROI內所有像素點的光譜數(shù)據(jù),并在每個波長處取平均值作為每個樣本的光譜反射率數(shù)據(jù)。在光譜區(qū)域內,可以得到120個窖泥樣本的光譜反射率數(shù)據(jù),并用于后續(xù)的研究中。窖泥樣本的ROI選取及光譜反射率提取如圖1所示。
圖1 樣本ROI的平均光譜反射率圖Fig.1 Average spectral reflectance map of sample ROI
1.3.2 窖泥總氮含量測定
窖泥樣本的高光譜圖像采集完成后,參照GB/T609—2018《化學試劑總氮含量測定通用方法》測定窖泥樣本的總氮含量。具體操作步驟為稱取0.5 g烘干至質量恒定的窖泥樣品于消化管中,再加入硫酸銅與硫酸鉀的混合試劑(比例1∶12)4 g于消化管中,最后加入10 mL 濃硫酸(體積分數(shù)98%),稍搖勻后,450 ℃消化70 min,放入凱氏定氮儀,由儀器自動加蒸餾水、NaOH溶液和硼酸。反應結束后,向接收瓶中滴加1滴(甲基紅乙醇溶液)指示劑。然后用HCl溶液(用碳酸鈉標定)滴定接收瓶中的回收溶液,至粉紅色時結束滴定,記錄HCl用量。再根據(jù)所取窖泥量(除去水分含量),計算總氮含量。窖泥樣本的總氮含量按式(2)計算:
式中:X為窖泥樣本的總氮含量,g/100 g;V1為窖泥樣本中消耗酸的標準液的體積,mL;V2為試劑空白消耗酸標準溶液的體積,mL;N為鹽酸或硫酸標準溶液的當量濃度,mol/L;0.014為1.0 mL硫酸或鹽酸標準滴定溶液消耗氮的當量,g/mol;m為窖泥樣本的質量,g。
1.3.3 數(shù)據(jù)處理
(1)光譜數(shù)據(jù)預處理
窖泥樣本的光譜數(shù)據(jù)經黑白校正后,依然存在著光譜信息復雜、吸收強度弱和信噪比低等問題,使光譜數(shù)據(jù)中的有效信息降低[16]。因此,需要采用預處理方法降低光譜噪聲,去除或減少無關信息的影響[17]。本研究將采用標準正態(tài)變量變換(standard normal variate transformation,SNV)、多元散射校正(multiplicative scatter correction,MSC)和卷積平滑(savitzky-golay,SG)3種方法對窖泥樣本的光譜數(shù)據(jù)進行預處理。
(2)特征波長提取
在光譜區(qū)域內,窖泥樣本的高光譜圖像包含了大量的波長光譜反射率數(shù)據(jù),其存在大量的冗余和共線性信息,使得模型的精度和運算速度降低[18]。為了減少冗余信息,簡化模型的復雜度,需要對全波長進行特征波長的篩選,然后提取特征波長對應的光譜反射率數(shù)據(jù)。采用CARS算法、SPA算法以及CARS-SPA聯(lián)用策略算法進行特征波長提取。
CARS是一種PLSR模型回歸系數(shù)的波長選擇方法。使用蒙特卡洛采樣建立PLSR模型,以獲得PLSR模型的回歸系數(shù)的絕對值。計算每個波長的絕對回歸系數(shù)的權重,并根據(jù)指數(shù)遞減函數(shù)刪除權重小的波長,選擇與具有最小交叉驗證均方差(rootmeansquareerrorofcrossvalidation,RMSECV)的PLSR模型相對應的候選子集[19],即為最優(yōu)的波長組合。
SPA算法是一種變量的正向選擇算法,將候選的特征波長正交投影到已選波長上,利用最大投影值來依次選擇候選的特征波長。算法依據(jù)該原則對原始波長進行重新組合,通過不斷迭代得到一個按投影值最大的順序排列的特征波長組合的集合。然后對特征波長組合建立多元回歸模型,通過均方根誤差(RMSE)對特征波長組合進行評估,最佳波長組合由最小的RMSE值確定[20]。
CARS-SPA聯(lián)用策略算法是使用CARS算法提取光譜區(qū)域內數(shù)據(jù)中具有豐富信息含量的重要波長,在此基礎上,再使用SPA算法剔除重要波長中的共線性波長,以簡化后續(xù)所建模型的復雜度。使用CARS-SPA算法提取特征波長能夠減少特征波長的數(shù)量,構建更穩(wěn)定、更簡易的總氮含量預測模型。
(3)模型的建立與評估
PLSR作為一種經典的線性算法,廣泛應用于構建快速、在線的食品質量安全評價[21]。PLSR算法從自變量集(光譜數(shù)據(jù))中提取潛在變量(latent variables,LVs),LVs可以解釋光譜數(shù)據(jù)的方差,降低光譜數(shù)據(jù)的維數(shù);然后采用均方根誤差(RMSE)最小值優(yōu)化LVs的數(shù)量,避免模型欠擬合或過擬合;最后依據(jù)最佳潛在變量個數(shù)建立光譜數(shù)據(jù)與總氮含量的回歸模型[22]。
LS-SVM是支持向量機的擴展。算法原理是把訓練集數(shù)據(jù)從輸入空間非線性地映射到一個多維度的特征空間,然后在多維度的特征空間中通過最小化某種損失函數(shù)獲得一個線性的擬合空間,尋找新的最優(yōu)分類面作為決策面,實現(xiàn)不同數(shù)據(jù)的分離,不同之處在于LS-SVM使用了最小二乘代價函數(shù),得到多個線性方程組,以此代替了二次規(guī)劃,從而降低了計算復雜度[23-24]。
基于全波長和特征波長的光譜數(shù)據(jù)分別建立預測總氮含量的PLSR、LS-SVM模型,通過校正集決定系數(shù)(determination coefficient of calibration set,Rc2),校正均方根誤差(root mean square error of calibration,RMSEC),預測集決定系數(shù)(determination coefficient of prediction set,Rp2),預測均方根誤差(root mean square error of prediction,RMSEP)進行綜合評價模型的性能[25],比較分析后得到最優(yōu)模型。通常RMSEC、RMSEP值越接近0,Rc2、Rp2值越接近1,模型的預測效果越好[26]。評價參數(shù)的計算公式如下:
式中:y^i和yi分別為第i個窖泥樣本預測和測定的總氮含量;yc和yp分別為校正集和預測集中窖泥樣本的平均含量;nc和np分別為校正集和預測集中窖泥樣本的個數(shù)。
(4)窖泥總氮含量的可視化
將窖泥樣本ROI中的總氮含量可視化,有助于研究人員可以直觀地了解不同窖池各層位的窖泥總氮含量分布情況。首先利用圖像處理技術中的形態(tài)學方法劃分ROI區(qū)域,并提取樣本ROI區(qū)域內各像素點的光譜反射率數(shù)據(jù);然后把像素點的光譜反射率數(shù)據(jù)作為最優(yōu)模型的輸入,計算出各像素點的總氮含量值,將值映射到0~255的灰度區(qū)間,得到灰度圖像;最后,對灰度圖像進行偽彩色處理得到窖泥總氮含量的可視化圖像。窖泥總氮含量分布的偽彩色圖像以線性色階表示,不同的色階與不同的窖泥總氮含量相匹配,這種匹配關系可用于分析窖泥總氮含量的變化[27-28]。
窖泥總氮含量統(tǒng)計結果見表1。為了提高模型的預測精度和泛化性能,利用Kennard-Stone(KS)[29]算法將120個窖泥樣本按4∶1的比例劃分為校正集(總氮含量1.060 9~
表1 窖泥樣本中總氮含量測定結果統(tǒng)計Table 1 Statistic of determination results of total nitrogen content in pit mud samples
1.3888g/100 g)和預測集(總氮含量1.0604~1.380 1g/100 g)。校正集用于訓練模型,預測集用于測試模型的效果。由表1可知,預測集樣本的總氮含量分布幾乎都位于校正集樣本的總氮含量范圍之內,說明用KS算法劃分是合理的,有利于后續(xù)總氮含量預測模型的建立。
120個窖泥樣本的平均光譜曲線見圖2。由圖2可知,光譜區(qū)域內窖泥樣本的反射率曲線均未出現(xiàn)明顯的吸收峰,但不同波段下的反射率值存在略微不同。這是因為可見光區(qū)域的光譜主要反映樣本的顏色信息,說明120個窖泥樣本的顏色特征存在細微的差異。
圖2 窖泥平均光譜曲線Fig.2 Average spectral curves of pit mud
在本研究中,使用SNV、SG、MSC對光譜數(shù)據(jù)進行預處理,利用原始(Raw)和預處理后的光譜數(shù)據(jù)建立PLSR模型預測窖泥總氮含量。與原始光譜建立的PLSR模型相比,預處理后的光譜數(shù)據(jù)建立的PLSR模型精度均有所提高,說明預處理方法可以有效地消除或降低光譜數(shù)據(jù)中的噪聲。模型預測總氮含量的性能見表2。
表2 不同預處理方法偏最小二乘回歸模型評估結果Table 2 Evaluation results of partial least squares regression model by different preprocessing methods
由表2可以看出,SNV預處理后的光譜數(shù)據(jù)建立的PLSR模型預測總氮含量的精度最高(校正集決定系數(shù)Rc2=0.946 5,RMSEC=0.028 3,預測集決定系數(shù)Rp2=0.903 7,RMSEP=0.035 8)。使用SNV方法預處理后的光譜數(shù)據(jù)建立的模型效果好,這可能是因為窖泥樣本的光譜圖像在采集過程中,樣本表面不平整,光照在各個位置的分布不均勻,導致存在著大量的噪聲,而SNV預處理方法有消除樣本散射或光程引起的樣本光譜誤差的作用[30]。根據(jù)以上分析結果,故選擇SNV方法預處理后的光譜數(shù)據(jù)進行后續(xù)的研究。
2.4.1 CARS算法提取特征波長
CARS算法提取特征波長的結果見圖3。由圖3(a)可知,隨著采樣次數(shù)的不斷增加,采樣變量逐漸減小,前30次速度減小較快,隨后逐漸減緩,說明該算法篩選特征時有粗選和精選過程。由圖3(b)可知,隨著采樣次數(shù)的增加,PLSR交叉驗證RMSECV值先降低隨后又增加,在采樣次數(shù)達到9次時值最?。≧MSECV=0.016 6),表明在采集前9次,光譜中不能預測成分含量的無關信息被剔除,在采集32次以后,RMSECV值呈現(xiàn)階梯型增加,表明剔除了光譜中能夠預測成分含量的信息,導致模型的性能逐漸變差。由圖3(c)可知,RMSECV值最小時對應的采樣次數(shù)為9,其對應包含了106個最優(yōu)波長。
圖3 競爭性自適應重加權采樣算法選擇特征波長Fig.3 Selection of characteristic wavelength by competitive adapative reweighted sampling algorithm
2.4.2 SPA算法提取特征波長
采用SPA算法提取特征波長的結果見圖4。由圖4可知,當特征波長數(shù)為347個,RMSE值達到最?。≧MSE=0.003 3),表明此時模型精度最高;隨著特征波長數(shù)增加,RMSE值逐漸變大,說明模型效果變差。因此,當波長數(shù)為347個,RMSE達到最小值時,所選擇的波長組合為特征波長。
圖4 連續(xù)投影算法選擇特征波長Fig.4 Selection of characteristic wavelength by successive projections algorithm
2.4.3 CARS-SPA聯(lián)用策略算法提取特征波長
在使用CARS算法提取光譜區(qū)域中重要波長的基礎上,再使用SPA算法剔除重要波長中的共線性波長。采用CARS-SPA聯(lián)用策略算法提取特征波長的結果見圖5。由圖5(a)可知,當波長數(shù)量為38個,RMSE值達到最?。≧MSE=0.045 6),表明此時模型精度最高;隨著波長數(shù)量增加,RMSE值逐漸變大,說明模型效果變差。因此,當波長數(shù)為38個,RMSE達到最小值時,所選擇的波長組合為特征波長。為清晰地展示CARS-SPA聯(lián)用策略算法提取特征波長的結果,繪制特征波長與樣本平均光譜反射率曲線的對應關系,如圖5(b)所示。由圖5(b)可知,提取的特征波長零散分布在400 nm、500 nm、800 nm、900 nm、1 000 nm附近。
圖5 競爭性自適應重加權采樣-連續(xù)投影算法聯(lián)用策略方法選擇特征波長Fig.5 Selection of characteristic wavelength by competitive adapative reweighted sampling-successive projections algorithm combined strategy method
2.5.1 PLSR模型
利用全波長和特征波長的光譜數(shù)據(jù)建立PLSR模型性能如表3所示。由表3可知,使用特征波長建立的PLSR模型效果,不僅提高模型精度,而且降低波長數(shù)量。與全波長相比,CARS、SPA、CARS-SPA聯(lián)合策略方法建立的PLSR模型的預測集決定系數(shù)Rp2分別提高0.074 3、0.072 3、0.078 8,RMSEP分別降低0.016 8、0.015 0、0.016 8,波長比數(shù)量也分別降低76%、23%、92%。其中使用CARS-SPA聯(lián)合策略方法提取特征波長建立的PLSR模型性能最好,校正集和預測集決定系數(shù)Rc2、Rp2分別為0.996 2和0.982 5,校正集和預測集均方根誤差(RMSEP)分別為0.007 0 g/100 g和0.019 0 g/100 g。
表3 利用不同的波長選擇方法對偏最小二乘回歸模型進行性能分析Table 3 Performance of partial least squares regression model analyzed by different wavelength selection methods
2.5.2 LS-SVM模型
利用全波長和特征波長的光譜數(shù)據(jù)建立LS-SVM模型性能見表4。由表4可知,與全波長的建模效果相比,特征波長建模略微提升模型預測總氮含量的精度,但波長數(shù)量有所減少,降低模型的復雜程度。在特征波長的提取方法中,同樣是使用CARS-SPA聯(lián)合策略方法建立的LS-SVM模型性能最好,校正集和預測集決定系數(shù)為Rc2、Rp2分別為0.999 2和0.987 6,校正集和預測集均方根誤差(RMSEP)分別為0.003 2 g/100 g和0.013 8 g/100 g;波長數(shù)量從448個減少至38個。
表4 利用不同的波長選擇方法對最小二乘支持向量機模型進行性能分析Table 4 Performance of least squares support vector machine model analyzed by different wavelength selection methods
2.5.3 對比結果分析
由于全波長的光譜數(shù)據(jù)存在過多的冗余信息,導致不能準確建立預測窖泥總氮含量的模型;故使用不同方法提取特征波長建立了PLSR和LS-SVM模型,并與全波長的建模效果進行了對比。由表3、表4可知,發(fā)現(xiàn)使用特征波長建立的PLSR和LS-SVM模型都能很好的解釋光譜信息與總氮含量之間的對應關系。在兩種模型中,使用CARS-SPA聯(lián)合策略方法建立的模型都達到了最好效果。表明CARS-SPA聯(lián)合策略方法提取特征波長的有效性和魯棒性。綜合對比結果,發(fā)現(xiàn)最優(yōu)模型為使用CARS-SPA聯(lián)合策略方法提取的特征光譜建立的LS-SVM模型,該模型可以減少波長數(shù)量提高模型的檢測精度和運算速度,實現(xiàn)對窖泥總氮含量的高精度檢測。
通過上述分析確定了最優(yōu)模型為SNV+CARS-SPA+LS-SVM,選取兩個窖池不同層位的窖泥樣本作為可視化對象進行比較,結果見圖6。由圖6可知,同一窖池的窖帽、黃水中、窖底的窖泥總氮含量分布呈逐漸降低的趨勢,窖帽和黃水中的窖泥總氮含量無明顯差異,窖底的窖泥總氮含量略低于窖帽和黃水中的窖泥總氮含量。
圖6 不同層位窖泥總氮含量分布圖Fig.6 Distribution map of total nitrogen content in pit mud at different levels
本研究探討了高光譜成像技術在窖泥總氮含量的快速無損檢測中的應用,結果表明,高光譜成像技術能夠準確地檢測窖泥的總氮含量。利用原始和不同預處理方法(SNV、MSC、SG)處理后的光譜數(shù)據(jù)建立PLSR模型預測窖泥總氮含量,發(fā)現(xiàn)SNV方法可以提高模型預測的精度(預測集決定系數(shù)Rp2=0.903 7,RMSEP=0.035 8 g/100 g)?;谌ㄩL和不同方法提取的特征波長建立PLSR、LS-SVM模型預測總氮含量,發(fā)現(xiàn)用CARS-SPA聯(lián)合策略方法提取的特征波長建立的LS-SVM模型最優(yōu)(預測集決定系數(shù)Rp2=0.987 6、RMSEP=0.013 8 g/100 g),有效降低了模型的復雜度,提高了窖泥總氮含量的預測精度。最后,利用最優(yōu)模型(SNV+CARS-SPA+LS-SVM)對窖泥樣本的總氮含量進行可視化,直觀反映了不同窖池各層位的窖泥總氮含量的變化情況??傮w研究結果表明,高光譜技術有潛力為窖泥質量評估快速檢測提供一種新的方法,同時也可以為白酒固態(tài)發(fā)酵過程中的工藝參數(shù)調整提供指導。