袁 壯,董大明
1. 廣西大學,廣西 南寧 530004 2. 智能裝備技術研究中心,北京市農林科學院,北京 100097
近紅外光譜是發(fā)展快、 具有廣闊前途的成分分析技術之一,以其方便、 快速、 高效、 準確、 無污染和在線預測的優(yōu)點,一直處于食品分析的前沿[1-2]。由于近紅外光譜反應的主要是分子中官能團振動的倍頻和合頻的吸收,光譜特征不明顯,特征之間存在多重共線性,對近紅外光譜進行分析往往需借助化學計量學軟件和機器學習算法的輔助。數據降維和特征提取是分析高維數據的有效手段,利用降維結果還可以進行可視化分析。常見的數據降維算法有:奇異值分解(SVD)[3]、 主成分分析(PCA)[4]、 線性判別分析(LDA)[5]、 因子分析(FA)[6]、 獨立成分分析(ICA)[7]。然而,這些算法都被設計為一次只能分析一個數據集,當數據集個數較多或者一個數據集中有多個不同的背景因素影響時,它們只能單獨作用然后需要手動分析比較數據集之間特征的相同點和不同點[3]。cPCA是PCA的對比學習變體,它能夠將需要分析的數據集(目標集)與干擾因素(背景集)進行比較、 學習到兩個集合的差異(研究人員想要的特征信息),已經在不同水果的農藥殘留判別中得到優(yōu)良的效果[8-9]。主成分只能通過線性的方式組合生成新特征,特征提取效果存在局限性,而在一些復雜條件下,非線性的新特征可能在下游模型中取得更好的效果,并且cPCA基于數據集方差最大化,在對背景集進行約束時需要合理選擇對比參數,實際使用時存在不確定性。
普通的自編碼器在理論上可以在低維度空間中完全擬合原始數據,但是不具備任何生成能力,對新樣本無法進行適應[10-11]。變分自編碼器通過對模型進行概率化,添加正則化項對低維隱變量Z的編碼空間進行約束,使得模型既能一定程度上擬合原始樣本,又具備了可靠的生成能力[12]。Z被稱為隱變量,因為它是由模型編碼器部分給出的低維編碼,我們不一定知道編碼中的哪些具體設置促進生成了輸出。對比變分自編碼器是變分自編碼器的多輸入型的變體,它主要利用了變分自編碼器能夠提取隱含空間特征信息的能力和神經網絡多輸入和多輸出的特點,同時對兩個不同的數據集進行擬合。cVAE在手寫數字圖片受背景干擾的情況下進行數字識別、 受不同檢測批次影響的骨髓移植前后RNA信息判別分析,以及面部圖像特征提取中得到了比較好的改進效果。我們將cVAE用于受不同品牌和批次影響的純牛奶中是否摻假三聚氰胺的檢測,實現了非線性對比學習算法結合近紅外光譜在液態(tài)食品樣品中的首次應用。
三元、 伊利兩種品牌的全脂純牛奶,國標號為GB25190,前后兩個日期購置于北京市海淀區(qū)某超市(日期新鮮、 包裝完好、 國內大品牌)。純牛奶買回后置于常溫環(huán)境中,由于其中脂肪球和蛋白質顆粒隨環(huán)境變化和時間推移發(fā)生不同程度的聚集,造成成分不均勻。在制備樣本前使用超聲振蕩20 min,使其中成分盡可能均勻分布。摻假牛奶的制備過程為:往試劑瓶中稱取90 mg的三聚氰胺粉末(小于常溫下三聚氰胺在水中溶解度0.33 g,也符合摻假廠商實際牟利目的),隨后向其中添加30 mL純牛奶,將所有樣本充分搖勻后靜置,等待光譜采集,上述操作與采集過程同步且連貫。每次制備的樣本分為目標數據集與背景數據集??紤]牛奶成分的非均勻性和光譜采集方式的限制,每個樣本采集10條光譜。重復前后五次,各個類型的樣本及數目如表1所示。
表1 數據集中樣本的組成Table 1 The composition of the samples in the data set
選用傅里葉變換型近紅外光譜儀(美國賽默飛,Antaris Ⅱ)采集純牛奶光譜,采集方式為積分球漫反射,分辨率為16 cm-1,采集次數設置為64次,每次采集扣除內置背景,采集范圍為4 000~10 000 cm-1。光譜分析使用Unscrambler X10.4(CAMO)。使用基于python3.6.8的Jupyter Notebook構建對比學習分類模型,神經網絡框架基于Tensorflow 2.0。
將上述數據集中的樣本使用FT-NIR儀器進行掃描,為了使觀察更加清楚,隨機選取目標數據集中四種不同樣本中的一條原始光譜圖,如圖1所示。從圖中可以看出,4 700~5 300,5 400~5 600和6 200~7 200 cm-1這三個波數段的吸光度值明顯大于其他波數段,反映了純牛奶中主要成分的光譜信息(水、 蛋白質、 脂肪等)。四類牛奶的光譜從直觀看來并無明顯差異,原始光譜曲線平滑基本無噪聲,故不進行預處理直接使用原始光譜建模。
圖1 四類樣本的4 000~10 000 cm-1光譜圖Fig.1 Spectra of four types of samples at 4 000~10 000 cm-1
考慮到純牛奶成分的非均勻性,和本實驗所用均質方法的實際效果,為了削弱不均勻性對近紅外光譜重復性的影響,我們選擇接近有關文獻中確定的牛奶中摻雜三聚氰胺等不同目標物的特征分類區(qū)間4 200~4 800 cm-1,增大目標物對光譜的影響[13]。同時為了盡可能多的保留變量個數,經過選擇后,波段為4 000~6 000 cm-1,共有259個波長,隨機選取四個不同類樣本的一條光譜,其間譜線如圖2所示。
圖2 四類樣本的4 000~6 000 cm-1光譜圖Fig.2 Spectra of four types of samples at 4 000~6 000 cm-1
將選擇后的數據代入cVAE模型進行分析,多輸入神經網絡結構如圖3所示。隱藏層采用128個神經元的全連接層,使用ReLU激活函數。其中S為我們感興趣的編碼(也稱為隱變量或特征信息),Z為不感興趣的編碼。x為目標數據集,b為背景數據集。
圖3 cVAE神經網絡結構Fig.3 cVAE neural network structure
神經網絡的具體訓練過程如下:
(1)對目標數據集和背景數據集光譜數據進行最大值歸一化;
(2)設置batch大小為100個的單批次數據大?。?/p>
(3)背景數據集自動根據目標數據集大小進行倍數復制;
(4)定義神經網絡損失函數,優(yōu)化器;
(5)將目標數據集、 背景數據集同時放入神經網絡進行訓練;
(6)根據loss下降情況和評價指標分析分類效果。
對比變分自編碼器的loss函數總共包含以下幾項:
(1)重構損失:包含兩項,分別為目標數據集x和背景數據集b的重構損失;
(2)正則化項:包含三項,分別是目標數據集隱變量Zx和Sx,背景數據集中隱變量Zb,他們分別對提取的隱變量空間進行正則化約束;
(3)全局相關損失:為了增加隱變量S和Z之間的不相關性添加的損失;
(4)判別器損失:為了方便計算全局相關損失,另外構建了單獨的判別器,利用分類概率估計該項。該判別器與cVAE的編碼器和解碼器同時訓練,因此需要添加進總的損失函數。
實驗的主要目的是為了在不同品牌和批次生產的純牛奶中區(qū)分出摻假三聚氰胺和未摻假三聚氰胺的純牛奶。將200個摻假的三元牌純牛奶、 未摻假的三元牌純牛奶、 摻假的伊利牌純牛奶、 未摻假的伊利牌純牛奶混合后輸入模型,畫出二維隱空間中的散點圖,如圖4所示。
從圖4中可以發(fā)現,VAE學習到的特征信息主要包含了純牛奶的不同品牌和批次的信息,這兩者都會使得牛奶中成分信息不同。對于是否摻假三聚氰胺這一重要信息,VAE無法提取。
造成VAE無法對摻假牛奶進行判別的主要原因是數據集中包含了純牛奶品牌及批次這兩個重要變量的信息,導致不相關信息占據了數據變化的絕大部分。
我們考慮利用cVAE提取感興趣的數據變化,將目標數據集200個樣本混合形成驗證集輸入經過訓練的模型,畫出二維隱變量空間的數據散點圖,如圖5所示。從圖5中可以發(fā)現,藍色和紅色點聚成一類(分別代表三元摻假牛奶、 伊利摻假牛奶),綠色和黃色點聚成另一類(分別代表三元未摻假牛奶、 伊利未摻假牛奶),表明此時特征信息主要反應了純牛奶中有無摻假三聚氰胺,品牌和批次差異的無關背景信號被消除。分類邊界存在少量不明確的樣本點,這可能與神經網絡的隨機初始化參數有關,需進一步優(yōu)化模型。
圖4 VAE二維隱變量空間樣本分布Fig.4 VAE two-dimensional latent variablespace sample distribution
圖5 cVAE二維隱變量空間樣本分布Fig.5 cVAE two-dimensional latent variablespace sample distribution
為了進一步驗證cVAE同時改善了聚類的效果,我們使用輪廓系數(sihouette score)去定量評估降維結果與真實標簽更接近的聚集程度。輪廓系數的值介于[-1,1],越接近1代表內聚度和分離度都相對較優(yōu),最后將所有數據點的輪廓系數求平均,就是該聚類效果總的輪廓系數。重復訓練100次,VAE與cVAE的相應輪廓系數的比較如圖6所示,可以發(fā)現cVAE的輪廓系數相比VAE有了明顯提升,表明cVAE提取特征后對樣本的聚類效果要優(yōu)于VAE。
cVAE利用神經網絡的非線性特點,同時組合概率生成模型和對比學習的優(yōu)點,是一種能夠通過引入背景數據集,來提取分析多個數據集中感興趣信息的新型數據降維方法。在對受品牌和批次干擾的純牛奶中是否摻假三聚氰胺進行分析時,使用VAE算法只能區(qū)分出不同品牌和批次的純牛奶這一背景信息,而使用cVAE算法能夠將純牛奶中是否摻假三聚氰胺這一關鍵信息提取出來,說明cVAE能夠提取非線性的對比特征。并通過聚類評估指標對二者聚類效果進行評價,結果表明cVAE提取到的低維空間信息對樣本的聚類效果優(yōu)于VAE。神經網絡的可擴展性和對海量數據的依賴性使得這一算法有更大的進步空間,我們可以通過增加神經元數量和層數增大網絡容量,通過增加更多的新數據使得模型
圖6 VAE和cVAE輪廓系數對比Fig.6 Comparison of VAE aod cVAE silhouette scores
的泛化性能更優(yōu),提取到的關鍵特征可以用于下游模型的建立,該算法在近紅外光譜分析中有著廣闊的應用前景。