◎ 扎西窮達(dá),次仁旺姆,央拉,尼珍
(西藏自治區(qū)食品藥品檢驗(yàn)研究院,西藏自治區(qū)醫(yī)療器戒檢測中心,國家藥品監(jiān)督管理局中藥(藏藥)質(zhì)量控制中心重點(diǎn)實(shí)驗(yàn)室,西藏 拉薩 850000)
酥油富含脂肪酸和維生素,是我國高海拔地區(qū)居民熱量攝入的重要來源[1-2]。酥油是我國少數(shù)民族地區(qū)的傳統(tǒng)食物,深受藏族、蒙古族、納西族等民族的喜愛。在實(shí)際生產(chǎn)、食用過程中,酥油的品質(zhì)往往受原料來源[3]、加工工藝[4]、儲藏時(shí)間[5]等因素的影響而發(fā)生較大變化。例如,受特殊地域氣候等的影響,藏酥油中不飽和脂肪酸的含量明顯高于其他奶制品,如二十碳五烯酸、二十二碳六烯酸。近年來,不法商人為牟取利益,常以廉價(jià)人造奶油冒充藏酥油或摻假。因此,建立一套行之有效的藏酥油真?zhèn)舞b別方法,對規(guī)范酥油市場、保護(hù)消費(fèi)者權(quán)益有較為深遠(yuǎn)的實(shí)踐意義。
20 世紀(jì)50 年代,近紅外(Near Infrared,NIR)技術(shù)開始在農(nóng)業(yè)生產(chǎn)領(lǐng)域應(yīng)用,并隨著現(xiàn)代光譜分析技術(shù)的發(fā)展逐步成熟[6]。近紅外光譜具有快速、無損、無需前處理等優(yōu)勢,被廣泛應(yīng)用于黃油、奶制品[7-10]、食用油[11-12]等食品的質(zhì)量監(jiān)控和摻假分析。然而,近紅外技術(shù)仍存在較多問題,如譜圖重疊嚴(yán)重、缺乏特征信號、解析依賴化學(xué)計(jì)量學(xué)等[7]。近紅外光譜具有高維度、高度自相關(guān)性等特點(diǎn),往往會對數(shù)據(jù)模型的穩(wěn)定性和準(zhǔn)確性造成較大的影響。在常規(guī)方法實(shí)踐中,首先篩選特征波長,特征波長選擇技術(shù)主要有相關(guān)系數(shù)法(Correlation Analysis,CA)、連續(xù)投影法(Successive Projection Algorithm,SPA)、競爭性自適應(yīng)重加權(quán)法(Competitive Adaptive Reweighted Sampling,CARS)。王立琦等[8]利用區(qū)間偏最小二乘法(Interval Partial Least Squares,OPLS)評估豆粕品質(zhì);李春婷[11]結(jié)合模擬退火算法(Simulated Annealing,SA)與OPLS算法對多目標(biāo)進(jìn)行優(yōu)化,路皓翔等[10]結(jié)合最小角回歸(Least Angle Regression,LAR)和CARS 的優(yōu)勢篩選特征波長。這些方法都依賴于數(shù)據(jù)集標(biāo)簽,對數(shù)據(jù)反復(fù)建模,獲取特征波長。因此,數(shù)據(jù)準(zhǔn)確性在建模過程中至關(guān)重要,往往是NIR 應(yīng)用的限制性因素。
本試驗(yàn)采用傅里葉變換算法將NIR 光譜從時(shí)域轉(zhuǎn)換到頻域,在頻域信中對近紅外信號進(jìn)行去噪和降維等特征工程,規(guī)避NIR 本身的局限性引起的試驗(yàn)?zāi)P蛯Σ蓸悠畹囊蕾囆裕鶕?jù)卷積神經(jīng)網(wǎng)絡(luò)識別信號間的相關(guān)性,建立、驗(yàn)證了一套用于識別西藏酥油的NIR 分析方法。
試驗(yàn)樣本選擇西藏境內(nèi)的30 批牦牛奶酥油、30 批奶牛奶酥油、1 批羊奶酥油、1 批金鸝牌人造奶油和1 批其他品牌人造奶油,詳細(xì)信息見表1。
表1 樣品信息表
用PerkinElmer 公司Frontier FT-IR/NIR Spectrometer光譜儀采集所有樣品的光譜,光譜掃描范圍為12 800~4 000 cm-1,每個樣品掃描2 次,采樣間隔為2 cm-1。
利用Python 讀取NIR 光譜儀中的數(shù)據(jù),利用Python 的Numpy、Pandas 等工具箱進(jìn)行了一階導(dǎo)數(shù)、傅里葉變換、閾值濾波等光譜預(yù)處理,利用Matplotlib 工具箱進(jìn)行可視化操作,使用mixOmics 軟件建立偏最小二乘判別分析法(Partial Least Squares Discriminant Analysis,PLSDA)模型,五重交叉折疊驗(yàn)證模型的準(zhǔn)確性。
1.3.1 導(dǎo)數(shù)法
酥油是不均一、黏稠的半固體樣品,在檢測時(shí)會發(fā)生漫射、反射、折射等現(xiàn)象,容易發(fā)生基線漂移。導(dǎo)數(shù)法是處理基線漂移的標(biāo)準(zhǔn)方法,求導(dǎo)間隔是數(shù)據(jù)預(yù)處理的關(guān)鍵選擇。間隔過小容易造成噪音增加,導(dǎo)致光譜的可讀性降低;間隔過大會導(dǎo)致樣品信息丟失??紤]到特征工程的抗噪性和特征光譜的提取能力,本研究選擇間隔為1 的一階導(dǎo)數(shù)法,處理公式為
式中:g 為間隔波數(shù),cm-1;A(i+g)為i+g波數(shù)的吸光度,L·(g·cm)-1;A(i)為i點(diǎn)的吸光度,L·(g·cm)-1;xi為i點(diǎn)的導(dǎo)數(shù)。
1.3.2 傅里葉變換
傅里葉變換是信號學(xué)中常見的數(shù)據(jù)處理方式,由法國學(xué)者約瑟夫·傅里葉在1807 年提出,該信號處理技術(shù)的主要思路是將信號分解成多個正弦信號,若信號滿足狄利克雷條件,則可進(jìn)行傅里葉變換。經(jīng)研究發(fā)現(xiàn)NIR 光譜滿足狄利克雷條件,可以進(jìn)行傅里葉變換,公式為
式中:F(j)?為頻域傅里葉級數(shù);?為頻率;f(t)為指時(shí)域信號;j為虛數(shù);nΩ為角頻率;e 為自然數(shù)。
近紅外光譜記錄的是分子振動的倍頻和合頻信息。傅里葉變換作為一種特征工程技術(shù),雖然無法拆分分子振動的頻率,將其變得更加簡潔,但是可以根據(jù)頻域信號能量差拆分出信號和噪聲。結(jié)合濾波技術(shù),在頻域內(nèi)完成去噪和降維的雙重目的。
1.3.3 卷積與卷積神經(jīng)網(wǎng)絡(luò)
卷積是一種數(shù)據(jù)計(jì)算,計(jì)算公式見式(3)。卷積的基本原理是輸入函數(shù)f(x),經(jīng)過卷積核g(x)后,信號累加。卷積在NIR 光譜中的最常見應(yīng)用是滑動平均法去除噪音。相較于PLSDA,卷積更加關(guān)注信號之間的關(guān)系,這在一定程度上消除了變量之間的自相關(guān)性。因此,相對單純的線性回歸系統(tǒng)而言,卷積發(fā)生過擬合的可能性進(jìn)一步降低。將卷積核作為分類的依據(jù),但卷積核難以求出,考慮到模型的擴(kuò)展性,本文設(shè)計(jì)了卷積神經(jīng)網(wǎng)絡(luò),識別不同來源的酥油。
式中:f(x)為時(shí)域信號;g(x)為卷積核;*為卷積運(yùn)算符;τ為某時(shí)刻。
卷積神經(jīng)網(wǎng)絡(luò)是一種利用卷積思維的神經(jīng)網(wǎng)絡(luò)[12]。相較于全連接神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是采用了卷積核對短距離信號加權(quán)求和,相當(dāng)于對一段信號進(jìn)行了過濾和積分處理,降低了信號之間的自相關(guān)性。
1.3.4 建模方法
選用PLSDA 建模。
1.3.5 模型評判
分別用一階導(dǎo)數(shù)、頻譜、虛數(shù)譜建模,用接受者操作特性曲線(Receiver Operating Characteristic,ROC)評價(jià)多分類模型,ROC 曲線下面積(Area Under Curve,AUC)越接近1,分類的準(zhǔn)確度越高。
近紅外光譜分為3 個區(qū)域,第一區(qū)(12 800 ~8 500 cm-1)是電子轉(zhuǎn)運(yùn)、高階倍頻、多種振動模式的組合;第二區(qū)(8 500 ~5 500 cm?1)是極性鍵的一階、二階伸縮振動的倍頻信息;第三區(qū)(5 500 ~4 000 cm?1)是多種模式的合頻信息[13]。本項(xiàng)目中5 種不同類型的酥油樣本平均光譜極為類似,在Ⅱ區(qū)和Ⅲ區(qū)(4 000 ~8 500 cm-1)信號呈現(xiàn)變化,但信號較弱;Ⅰ區(qū)大部分信號較強(qiáng),缺少變化,如圖1 所示。在奶牛酥油的NIR 光譜分析中,大量樣品發(fā)生了光譜漂移,如圖2 所示。經(jīng)過一階導(dǎo)數(shù)分析后,Ⅰ區(qū)大部分信號極為混雜,難以觀測出信號特征,如圖3 所示。但是為了模型的穩(wěn)健性,增加了8 500 ~9 200 cm-1波段,因此選擇區(qū)間4000 ~9200 cm-1為分析對象。
圖1 不同酥油種類的平均光譜圖
圖2 奶牛酥油的原始光譜圖
圖3 酥油一階導(dǎo)數(shù)熱圖
本文采用離散傅里葉變換處理數(shù)據(jù),如圖4 所示。頻譜中能量主要集中在0 ~500 Hz 的頻域內(nèi),500 ~2 000 Hz 信號較弱,在傅里葉變換后,有效信號主要集中在低頻區(qū)。將所有的檢測數(shù)據(jù)轉(zhuǎn)化到頻域,如圖5 所示,在650 Hz 附近發(fā)現(xiàn)某個特征光譜頻率,在分析頻譜的過程中,單獨(dú)的虛部和實(shí)部中頻譜信號更加特征,如在350 Hz、600 Hz附近存在兩條特征信號,250 Hz 存在著強(qiáng)度約為-1 的信號,這表明變換后增強(qiáng)了數(shù)據(jù)的特征。
圖4 傅里葉變換頻譜圖
圖5 不同閾值傅里葉變換熱圖
為了降低模型的復(fù)雜程度和噪音對數(shù)據(jù)的感染,在頻譜中分別選擇振幅閾值為0.1、1、5 的信號去噪,結(jié)果如圖6 所示。較高閾值的信號連續(xù)性增強(qiáng),但是有可能丟失部分信息,振幅為1 的閾值是相對保守的選擇。經(jīng)去噪后,有效數(shù)據(jù)僅剩下不到500 維,數(shù)據(jù)量下降到了90%,表明傅里葉變換不僅去除了部分噪音,也同時(shí)完成了降維,有利于后期模型的建立與維護(hù),提升模型的穩(wěn)健性。
圖6 不同閾值濾波后逆傅里葉變換效果圖
在特征工程的處理中,運(yùn)用PLSDA 模型評價(jià)了一階導(dǎo)數(shù)法、頻譜法、頻譜虛數(shù)法3 種處理方法的差異,采用mixOmic 軟件包完成,建模方法用4 個主成分,5 重交叉折疊驗(yàn)證,結(jié)果見表2。結(jié)果表明,在較大的數(shù)據(jù)集中,牦牛酥油和奶牛酥油的真陽性概率(True Positive Rate,TPR)均能達(dá)到1.00,一階用導(dǎo)數(shù)法僅在0.91 ~0.98;牦牛酥油和奶油酥油的AUC值均為1.00,一階導(dǎo)數(shù)法為0.98;假陽性概率在牦牛酥油和奶油酥油中均小于0.10,在一階導(dǎo)數(shù)法中牦牛酥油假陽性概率(False Positive Rate,F(xiàn)PR)值高達(dá)0.16,表明在較大的數(shù)據(jù)集中,傅里葉變換比一階導(dǎo)數(shù)法好。小數(shù)據(jù)集的TPR 值均較低,如人造奶油、羊奶酥油、摻假酥油,但可以看出頻譜法略微優(yōu)于導(dǎo)數(shù)法,如羊奶酥油在虛數(shù)法中有0.83 的真陽性率,頻譜法在摻假酥油有0.50 的真陽性率;虛數(shù)法中人造酥油的AUC 值為0.97,遠(yuǎn)遠(yuǎn)大于導(dǎo)數(shù)法的0.79,表明傅里葉變換對小數(shù)據(jù)集也能提升模型的可靠性。從精確度(Precision,PREC)角度,傅里葉變換提升了分類的準(zhǔn)確度,牦牛酥油的PREC 從0.85 上升至0.94,奶牛酥油的PREC 從0.96 上升至0.98 和0.99,表明傅里葉變換和去噪進(jìn)一步提升了近紅外光譜的特征性,雖然傅里葉變換無法提取出分子振動的頻率,但是依然有利于模型的建立和模型穩(wěn)健性的提升。
表2 不同特征工程下的評價(jià)數(shù)據(jù)表
數(shù)據(jù)的偏向性導(dǎo)致模型的擴(kuò)展性較差,本文僅采用了頻譜數(shù)據(jù)建立一維卷積神經(jīng)網(wǎng)絡(luò),結(jié)果見表3。在建模的過程中,為避免小數(shù)據(jù)集全部進(jìn)入訓(xùn)練集中,訓(xùn)練集、驗(yàn)證集、測試集的比例為5 ∶4 ∶1。對輸入數(shù)據(jù)進(jìn)行歸一化處理,通過一個卷積層和池化層提取特征信息,最后通過全連接層輸出分類信息。分類采用one-hot 編碼。通過100 次的訓(xùn)練后,模型在訓(xùn)練集的準(zhǔn)確度(Accuracy,ACC)達(dá)100%,所有數(shù)據(jù)被完美分類,AUC 值均等于1;模型在驗(yàn)證集準(zhǔn)確度均大于97%,F(xiàn)PR 值低于5%,但在摻假酥油和人造奶油中AUC 值為0.5 分析假陰性(False Negative,F(xiàn)N)值可知,在測試集中僅分到一個正樣本,可能是樣本數(shù)量不足導(dǎo)致。測試集牦牛酥油FPR值高達(dá)33%,AUC值為0.82;羊奶酥油未能分配得到正樣本,也未出現(xiàn)假陽性概率,因此其PREC 無法計(jì)算,可能是由于除數(shù)為0。
表3 卷積神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集表
傅里葉變換是一個正向的特征工程處理技術(shù)。在NIR 光譜分析過程中,傅里葉變換不僅能夠有效去除NIR光譜的噪音,也能在保持原有信息的基礎(chǔ)上完成降維,識別出NIR 光譜的特征頻率。傅里葉變換結(jié)合卷積神經(jīng)網(wǎng)絡(luò)使用能夠快速分析大量數(shù)據(jù),但是卷積神經(jīng)網(wǎng)絡(luò)對小數(shù)據(jù)集效果較差,需重點(diǎn)注意小數(shù)據(jù)集的數(shù)據(jù)分配。