喬 淼 張 磊 母芳林
(河北工業(yè)大學人工智能與數(shù)據(jù)科學學院,天津 300130)
葡萄酒是一種極具風格和個性化的酒精飲料,不同
產地、不同年份、不同品種和不同工藝條件的葡萄酒均具有顯著的特征[1],其中葡萄品種是決定葡萄酒品質的重要因素。目前,鑒別不同品種的葡萄酒的方式主要還是利用品評專家的感官鑒定[2]來實現(xiàn),受到個人經驗和條件的限制;而現(xiàn)有的儀器分析[3]、理化分析[4]等只能從某一或者某幾個側面反映葡萄酒的品質。
隨著電子鼻技術的發(fā)展,很多研究人員開始利用這一技術對葡萄酒品質特征進行快速判別。張振等[5]利用表面聲波型電子鼻對不同年份的黃酒樣品進行采樣,并利用主成分分析法和典型判別分析對氣體數(shù)據(jù)進行分析,成功區(qū)分了4種酒齡黃酒樣品。許春華等[6]利用電子鼻指紋分析系統(tǒng)對張裕干白和長城干紅的氣味進行鑒別,并采用主成分分析和線性判別分析法對傳感器響應信號進行分析,實現(xiàn)了對葡萄酒的風味評價。劉奕彤等[7]利用電子鼻檢測技術有效地鑒別了西拉、馬瑟蘭和美樂3種品種干紅葡萄酒的香氣差異。宮雪[8]利用電子鼻對不同葡萄品種釀造葡萄酒進行檢測,結合主成分分析方法和線性判別分析探索電子鼻的識別能力,結果顯示,電子鼻能很好地識別與分區(qū)葡萄酒的品種。
LightGBM是一種集成學習算法,具有較優(yōu)的數(shù)據(jù)分類能力,不易過擬合,在食品安全[9]、信用評級[10]、電力評估[11]、疾病預測[12]等方面可實現(xiàn)快速準確的判別,但目前尚未見其在葡萄酒品種鑒別中的相關報道。研究擬提出一種LightGBM結合電子鼻檢測的葡萄酒品種快速、準確識別方法,以期為葡萄酒檢測引入性能優(yōu)異的算法。
1.1.1 試驗材料
赤霞珠、馬瑟蘭、西拉、梅洛、蛇龍珠、佳美、品麗珠7個品種干紅葡萄酒樣品:華夏產區(qū)2018年產的原酒,每種樣品100瓶,中糧華夏長城葡萄酒有限公司。
1.1.2 主要儀器
便攜式電子鼻:PEN3型,由10個金屬氧化物氣體傳感器矩陣(如表1所示)、氣體采集裝置和信號處理單元組成,德國Airsense公司。
表1 PEN3傳感器名稱與性能描述
1.2.1 試驗環(huán)境控制 室內溫度22~25 ℃,濕度50%~55%。用移液器取每個酒樣300 mL并將酒樣裝于500 mL燒杯中,用保鮮膜密封,并使其與小瓶中的空氣靜置平衡10 min,使樣品氣體能充分揮發(fā)在密閉燒杯中,待氣體達到飽和平穩(wěn)狀態(tài)后進行正式試驗。
1.2.2 電子鼻采樣 采用直接頂空吸氣法,氣體采集前以300 mL/min的速率吸取經由活性炭處理的潔凈空氣,對電子鼻的氣室和氣道進行清洗,清洗時間為60 s;檢測時,將進氣針與補氣針同時插入保鮮膜密封的燒杯中,電子鼻內置氣泵開始工作,以300 mL/min的速率吸取樣品氣體,采集間隔時間1 s,采樣時間為90 s;為避免試驗過程中人為操作造成的偶然性誤差,確保樣品的準確性與可靠性,對同一樣品進行3次重復試驗。每次采集后的氣體信息以文本方式保存到計算機內,以便進行后續(xù)的數(shù)據(jù)分析處理。
1.3.1 LightGBM算法 LightGBM算法是一種基于GBDT的數(shù)據(jù)模型,是將弱學習器組合成強大的學習器的集成學習算法[13]。算法中使用回歸樹作為弱學習器,通過使用每個預測結果與目標值的殘差作為下一個學習的目標,獲得當前殘差回歸樹,每個樹都學習所有先前樹的結論與殘差,將多個決策樹的結果加在一起作為最終預測輸出。利用直方圖算法對特征進行預排序,并利用節(jié)點展開方式進行樹的構建,是一種高效、高精度、高性能的分類算法。
1.3.2 支持向量機 支持向量機(SVM)是在分類分析中的監(jiān)督式演算法,利用分離超平面將兩種或多種類別資料做區(qū)分[14]。當資料為線性可分時,支持向量機透過決策平面將不同類別資料進行區(qū)分,資料與決策平面的距離成為邊界,距離越大越能夠明確的區(qū)分資料。面對非線性的分類問題時,先計算每個資料與決策邊界的最小距離,再將所有的距離加總求最大值,得到區(qū)分線為分離超平面。
1.3.3 隨機森林 隨機森林(RF)是以決策樹為元分類器,通過隨機方式建立“森林”對樣品進行訓練并預測的一種分類器[15]。使用拔靴法將數(shù)據(jù)隨機進行取后放回的動作,在數(shù)據(jù)取出后使用特征袋法隨機選取訓練數(shù)據(jù)集特征來生成決策樹,重復這樣的動作建立出每棵獨立的決策樹,最后對多顆決策樹進行投票對分類結果進行評斷。
1.3.4 BP神經網絡 神經網絡是由人工神經元所組成,以人工神經元來模仿生物神經元的功能,再由人工神經連接成網絡,進而達到模仿生物神經網絡的目的[16]。在多層神經網絡中,由于隱藏層沒有理想輸出值,只能透過計算最后一個隱藏層中的誤差來估計上一層的理想輸出值后來計算上一層的誤差,通過這種方式一層一層的反向分析傳遞到第一層,稱之為反向傳輸神經網絡(BPNN)。
1.3.5 TPE超參數(shù)尋優(yōu) 以TPE算法對LightGBM超參數(shù)進行自適應尋優(yōu),假設λ1,λ2,…,λn代表模型中選擇的超參數(shù),Λ1,Λ2,…,Λn代表每個超參數(shù)的選擇域;則模型的超參數(shù)選擇域空間定義為Λ=Λ1×Λ2×…×Λn,假設訓練中的損失函數(shù)L(·),當λ∈Λ的超參數(shù)使用k折交叉驗證方法時,超參數(shù)的優(yōu)化問題可以表示為最小化公式:
(1)
式中:
f(λ)——k次損失函數(shù)的平均值;
k——交叉驗證次數(shù);
TPE算法利用概率模型代理復雜優(yōu)化函數(shù)[17],概率模型中引入了待優(yōu)化目標的先驗,模型能有效減少不必要的采樣,是考慮歷史參數(shù)的一種搜索方法。TPE使用順序模型全局優(yōu)化(SMBO)方式進行超參數(shù)尋優(yōu)[18],利用預期改進法(EI)作為優(yōu)化準則,使用以往的超參數(shù)推薦下一次的超參數(shù)。
由圖1可觀察到,電子鼻響應值的變化趨勢呈現(xiàn)一定的規(guī)律,在90 s的檢測過程中,傳感器的響應值先突然升高,偏離原有基線,隨著檢測時間的延長,傳感器的響應值基本達到穩(wěn)定狀態(tài),其中B、F、G、H、I 5個傳感器對葡萄酒氣味響應明顯,G、F響應值更是高于150,表明葡萄酒中存在甲烷類、烴和硫的有機成分。其他5種傳感器響應值都在5以下,沒有變化或者變化不明顯。通過觀察響應曲線,電子鼻設備能對葡萄酒進行檢測,但想要對每種品種進行建模分析,需要對數(shù)據(jù)進行進一步的處理。
圖1 傳感器響應圖
通過二維多項式擬合傳感器響應曲線,其表達式:
y=A0+A1x+A2x2,
(2)
式中:
y——傳感器吸附過程的響應值;
A0、A1、A2——多項式曲線擬合系數(shù);
x——傳感器吸附時間,s。
采用每條擬合曲線的模型3個系數(shù)A0、A1、A2作為單個傳感器特征值。
試驗中,共采用到2 100(7種品種×100瓶×3次平行試驗)組葡萄酒的氣味信息數(shù)據(jù),每組數(shù)據(jù)具有30(10個傳感器×3個特征值)維特征。LightGBM算法經Python2.7實現(xiàn),采用TPE超參數(shù)尋優(yōu)算法對模型超參數(shù)進行選擇,其中參數(shù)表述、取值范圍、最終取值情況由表2所示。采用5折交叉驗證方法進行判別準確性評估,將2 100組資料分為5個子集,每次輪流挑選1個子集(420組)資料作為驗證,剩下的4個子集(1 680組)數(shù)據(jù)作為訓練資料,最后將5次的資料辨別率取平均作為整體的辨別率。
從表3可以看出,LightGBM方法作為改進的集成算法在葡萄酒的氣味數(shù)據(jù)挖掘中表現(xiàn)出了優(yōu)秀的判別準確性。在5折交叉驗證中,每次的判別準確率均高于95%,并在第3次交叉驗證中準確率高達98.10%,提升了最終的平均準確率,并且5折交叉驗證避免了判別的偶然性與單一性,有力地說明了LightGBM模型的適用性。
為驗證所提的LightGBM在葡萄酒鑒別中的分類優(yōu)越性,選擇支持向量機(SVM)、隨機森林(RF)、神經網絡(BPNN)3種在電子鼻檢測中常用的分類算法進行結果的驗證與比較。為保證各算法達到最優(yōu)的效果,同樣采取TPE超參數(shù)尋優(yōu)方法對模型進行優(yōu)化,采用5折交叉驗證對模型進行分類準確性的判別。
由表4可知,4種算法對葡萄酒鑒別準確率均高于90%,說明電子鼻結合模式識別能有效地判別葡萄酒中葡萄的品種;LightGBM算法取得了最高的判別準確率,說明LightGBM模型通過不斷擬合前一棵樹的誤差能有效提高分類準確率。其次為隨機森林算法,說明對于特征值與特征向量進行隨機選取構建的“森林”能多氣味數(shù)據(jù)進行較全面的訓練與學習,但因沒考慮每棵樹產生的誤差其分類效果劣于LightGBM。通過比較得知,經典的支持向量機算法和神經網絡算法在驗證集上的效果相對較差,支持向量機平均判別準確率最低為90.53%,并且在第5次交叉驗證中準確率為89.29%,在420個驗證集中有45個被判別錯誤,其分類效果不佳。說明支持向量機在對葡萄酒氣味信息進行分類時無法尋找到最優(yōu)的分線性映射函數(shù),無法對多品種的葡萄酒數(shù)據(jù)構建最優(yōu)的分類超平面。相較于支持向量機,神經網絡展現(xiàn)了較優(yōu)良的分類效果,在5折交叉驗證中其分類準確率均高于90%,并且平均準確率為92%僅次于隨機森林算法,說明誤差反向傳播的神經網絡算法通過不斷減小誤差能達到較好的分類效果,然而每次訓練樣本僅為1 680個,神經網絡無法得到最優(yōu)的訓練,固其分類效果欠佳。
表2 超參數(shù)信息
表3 LightGBM模型的5折交叉驗證的測試集判別準確率
Table 3 5-fold cross-vaidation method for accuracy of LightGBM model in test set
交叉驗證次數(shù)準確率/%交叉驗證次數(shù)準確率/%第1次96.19第4次97.38第2次95.95第5次95.48第3次98.10平均值96.62
表4基于5折交叉驗證的不同算法測試集準確率
Table 4 5-fold cross-vaidation method for accuracy of different algorithm model in test set%
利用電子鼻對赤霞珠、馬瑟蘭、西拉、梅洛、蛇龍珠、佳美、品麗珠7種葡萄酒的氣味進行采集。通過觀察傳感器響應曲線提出二次多項式擬合方法對曲線進行擬合,提取多項式3個系數(shù)作為90 s傳感器信號的特征值,大大地降低了特征值的維度。然后,提出LightGBM算法對不同品種葡萄酒進行區(qū)分,并利用TPE參數(shù)尋優(yōu)方法對算法進行改進,最后對比支持向量機、隨機森林、反向傳輸神經網絡算法的分類效果,結果表明LightGBM模型的5折交叉驗證平均準確率為96.62%,分類準確度最高,驗證了所提算法在葡萄酒品種鑒別中的優(yōu)越性。
試驗探索了電子鼻和LightGBM模型在葡萄酒品種檢測中的可行性,為提高判別準確率后續(xù)將進一步探索電子鼻數(shù)據(jù),通過特征選擇方法選取更具代表的葡萄酒氣味特征對其進行分析。