武斌,王大智,嵇港,黃大鵬,武小紅,陳開兵,賈紅雯
1(滁州職業(yè)技術學院 信息工程系,安徽 滁州,239000)2(江蘇大學 京江學院, 江蘇 鎮(zhèn)江, 212013)3(江蘇大學 電氣信息工程學院, 江蘇 鎮(zhèn)江, 212013)
食醋是人們?nèi)粘o嬍持谐S玫乃嵝哉{(diào)味品。由于食醋釀造的地理位置、氣候和水源環(huán)境、原材料以及釀造工藝流程的各有千秋,因此釀造出來的食醋風味不同[1]。市場上有多種品牌的食用醋,醋的質(zhì)量良莠不齊,還存在以次充好的現(xiàn)象,而普通消費者憑主觀判斷選擇食醋難以確定食醋品質(zhì)。
電子鼻技術包含了傳感器,模式識別,信號處理等多個學科的技術。隨著物聯(lián)網(wǎng)和人工智能的發(fā)展,電子鼻技術將成為新的研究熱點[2]。電子鼻利用傳感器陣列對氣體反應靈敏來檢測混合氣體,被廣泛用來分析各種有機揮發(fā)性有機化合物的氣體成分[3-5]。由于電子鼻具有無損檢測,速度快,智能化,靈敏度高等優(yōu)點,在食品及食品安全行業(yè)領域得到應用[6]。目前,電子鼻技術在有毒氣體檢測[7-9]、中藥檢測[10-13]和食品安全檢測[14-18]上都有應用。特別在食品檢測上,已經(jīng)成為研究熱點。例如電子鼻已經(jīng)成功應用于對碳酸飲料[14],鱈魚[15],豬肉冷凍儲藏期[16-17],不同產(chǎn)地名優(yōu)紅茶和綠茶[18]等的檢測。WU等使用自制電子鼻設備,提出模糊鑒別主成分方法,快速準確判別不同品牌的白酒[19]。成劍峰等使用PEN3電子鼻判斷食醋是否變質(zhì),使用主成分分析(principal component analysis,PCA)和線性判別分析(linear discriminant analysis,LDA)進行對比分析,獲得很好的效果[20]。黎新榮使用PEN3電子鼻對不同貯藏時間沃柑的氣味進行判別,分別采用PCA和LDA對氣味進行特征值提取,最后比較發(fā)現(xiàn)使用LDA具有更好的準確率[21]。食醋的香氣成分多達65種,其中酸類,酯類和酮類共占79.15%,乙酸乙酯,苯乙醇,苯乙醛,3-羥基2-丁酮,乙醛-3-甲基1-丁醋,2-甲基丁酸,2, 3-丁二酮,二氫-5-戊基-2(3H)呋喃酮共8種特征香氣[22]是區(qū)分食醋的關鍵物質(zhì)。不同品種的食醋其8種特征香氣存在差異,這些差異有利于食醋品種的分類。
綜上所述,電子鼻技術可實現(xiàn)對食醋的分類。目前,電子鼻技術的應用存在兩個問題,第一,大部分采用的電子鼻都不是自制的,使用的德國的PEN3比較多,價格昂貴,不利于市場推廣使用,操作起來也很復雜;第二,分類方法仍然有待進一步研究和優(yōu)化。本研究設計一種用于食醋檢測的電子鼻系統(tǒng),用主成分分析(PCA)+線性判別分析(LDA)和正交線性判別分析(orthogonal linear discriminant analysis,OLDA)[23]來處理電子鼻信號而實現(xiàn)食醋品種的快速無損檢測。
實驗所用食醋品種共有5種,分別是鎮(zhèn)江香醋、恒順香醋、鎮(zhèn)江陳醋、山西陳醋和保寧醋。5種食醋的詳細信息見表1。
表1 食醋的詳細信息
實驗所用的食醋電子鼻系統(tǒng)主要包括氣體傳感器陣列、數(shù)據(jù)采集卡、PC機、氣室、電源模塊和樣品瓶等組成。如圖1所示。
圖1 食醋電子鼻系統(tǒng)
采用TGS813、TGS822、TGS822TF、TGS2620、TGS2610、TGS2611、TGS2602、TGS2600、MQ135、MQ3十個半導體氣體傳感器。傳感器的基本信息見表2。本文的自制電子鼻針對食醋的特征香氣選取電子鼻傳感器,用于食醋品種分類。電子鼻傳感器對所測樣品的氣味類別和氣味濃度敏感,工作環(huán)境溫度在20 ℃和濕度在35%~70%。
表2 傳感器的基本信息
1.2.1 環(huán)境溫度與濕度
實驗采用了靜態(tài)測試法,在室溫約20 ℃和濕度40%左右的環(huán)境下進行采樣。
1.2.2 電子鼻系統(tǒng)
首先打開樣品瓶蓋,將電子鼻各部分器件連接起來,電源模塊接傳感器陣列,傳感器陣列信號輸出端接數(shù)據(jù)采集卡的輸入端,數(shù)據(jù)采集卡的輸出端通過USB線連接到PC機。將電子鼻通電10 min進行預熱。
1.2.3 食醋樣本
量取10 mL樣品放入樣品瓶中,將樣品瓶的氣管與氣室連接,伸入氣室的氣管位置正好位于傳感器陣列中心,目的是對各個傳感器響應時間保持大體一致,然后連接好數(shù)據(jù)采集卡與傳感器陣列和PC,并計時。讓傳感器靜置60 min,待氣體揮發(fā)完全[23]。
1.2.4 電子鼻信號采集
編寫控制PC端Labview程序,設置好數(shù)據(jù)采集卡參數(shù),分別在60 min采集數(shù)據(jù)1次,然后每隔5 min采集1次,總共采集3次,最后計算3次結(jié)果的平均值作為最終結(jié)果,將結(jié)果通過USB傳輸并保存到PC機。采集1次完成后,打開樣品瓶的瓶蓋,開啟出氣的氣泵,清除整個系統(tǒng)的氣味10 min,使傳感器恢復初始狀態(tài)[23]。將采集的數(shù)據(jù)結(jié)果按食醋品種分類保存,每個品種食醋的樣本數(shù)為51,每個樣本10 mL,共255個樣本。
與線性判別分析相比,正交線性判別分析(OLDA)[24]無需事先運行PCA對數(shù)據(jù)進行降維。OLDA的判別投影向量之間的正交關系以消除投影中的冗余信息,OLDA要計算的新投影向量與所有先前獲得的投影向量正交,解決了LDA小樣本問題。
假設有一組樣本的集合IR,令訓練樣本矩陣A={A1,A2,…,Ak},其中Ai∈IR。類內(nèi)方差矩陣為Sw,類間方差矩陣為Sb和總體方差矩陣別為St定義公式(1)、(2)、(3)、(4)如下:
(1)
(2)
(3)
(4)
式中:e(i)=(1,1,...,1)T∈Rni,e=(1,1,...,1)T∈Rn,c(k)是第k類樣本均值,c為總體樣本均值。
實驗獲得5種食醋總樣本共255個數(shù)據(jù),每種食醋有51個樣本數(shù)據(jù),將51個樣本數(shù)據(jù)里的20個數(shù)據(jù)作為訓練樣本,其余的31個數(shù)據(jù)作為測試樣本。也就是總樣本255個數(shù)據(jù)分成100個訓練樣本數(shù)據(jù)集和155個測試樣本數(shù)據(jù)集。所有的樣本都是1×10的向量,則100個訓練樣本數(shù)據(jù)可得到100×10的數(shù)據(jù)矩陣;同理155個測試樣本數(shù)據(jù)可得到155×10的數(shù)據(jù)矩陣。用100個訓練樣本數(shù)據(jù)進行模式訓練學習,建立食醋的預測分類模型,再用155個測試樣本數(shù)據(jù)來檢驗該模型的分類準確率。
對采集的255個食醋樣本數(shù)據(jù)進行標準正態(tài)變量變換處理。標準正態(tài)變量變換也稱為標準歸一化,它是一種預處理方法,能降低電子鼻采集數(shù)據(jù)中產(chǎn)生的噪聲影響,有效地優(yōu)化了原始數(shù)據(jù),減少冗余信息。標準正態(tài)變量變換就是將數(shù)據(jù)按照對于一組實驗獲得的原始樣本,求出它的標準差、方差和均值,通過標準歸一化變換得到一個新變量。標準正態(tài)變量變換能夠按照比例把樣本數(shù)據(jù)進行平移和縮放,使數(shù)據(jù)落入到一個特定的小區(qū)間中。
PCA是一種基于Karhunen-Loeve變換思想的方法[25],它主要是用于簡化變量結(jié)構(gòu)并提取訓練數(shù)據(jù)樣本空間的特征,把樣本空間從高維降到低維。使用PCA得到的樣本數(shù)據(jù)不僅能降低各特征信息相關性和減少冗余信息,還能使得訓練算法的運行效率得到提高。線性判別分析[26]計算得到一個最優(yōu)的線性變換,通過這個變換,高維空間中的原始數(shù)據(jù)被轉(zhuǎn)換為一個更低維的特征空間,在減小維數(shù)的同時保留盡可能多的分類信息。
首先使用PCA算法對預處理后的數(shù)據(jù)進行第1次降維,其中降維是通過針對數(shù)據(jù)矩陣求取特征向量和特征值然后選取合適的維數(shù)。定義其特征向量數(shù)為6,得到其特征值見表3。其對應的特征向量為表4所示。用PCA降維后,根據(jù)前2個特征向量投影形成的測試樣本的兩維散點圖如圖2所示。圖2中PC1和PC2為PCA的前2個特征向量。由圖2可知,鎮(zhèn)江香醋和山西陳醋重疊在一起難以區(qū)分開,而保寧醋和其他4種醋間隔遠,易于和其他4種醋區(qū)分開。
表3 用PCA計算得到的特征值
表4 用PCA計算得到的特征向量
圖2 主成分分析處理后的測試樣本兩維散點圖
在通過PCA降維處理后得到了255×6的樣本集,其中訓練集數(shù)據(jù)為100×6,余下所有數(shù)據(jù)均為測試集數(shù)據(jù)。通過線性判別的方法提取鑒別特征向量。經(jīng)過LDA算法的計算后,最終將PCA算法降維得到的155×6的測試數(shù)據(jù)樣本轉(zhuǎn)換成155×4的新的測試集。完成了從PCA特征空間向LDA特征空間的空間轉(zhuǎn)換,達到了降維和提取分類信息的目的。
經(jīng)過LDA計算后得到的測試樣本的兩維散點圖見圖3。由圖3可知,食醋電子鼻信號經(jīng)過PCA+LDA后完成了數(shù)據(jù)維數(shù)從10維到4維的減少,從測試樣本的兩維散點圖可以看出,鎮(zhèn)江香醋和山西陳醋這2類醋數(shù)據(jù)點很靠近給分類造成一定難度,容易造成誤分類現(xiàn)象。恒順香醋、鎮(zhèn)江陳醋和保寧醋這3種醋彼此之間以及與其他2種醋的間隔較大,比較容易區(qū)分開。
經(jīng)過OLDA處理后的測試樣本的兩維散點圖見圖4。圖4和圖3情況類似,鎮(zhèn)江香醋和山西陳醋兩種醋的數(shù)據(jù)點很靠近,不利于分類器進行分類。另外,在本文中OLDA處理后的測試樣本是4維數(shù)據(jù),無法可視化看到4維數(shù)據(jù)分布情況,所以也就無法進一步比較PCA+LDA和OLDA處理后測試樣本的4維數(shù)據(jù)分布。
圖3 線性判別分析處理后的測試樣本兩維散點圖
圖4 正交線性判別分析處理后的測試樣本兩維散點圖
PCA將數(shù)據(jù)降為不同特征維數(shù)時再用LDA計算降為4維后,用最近鄰分類器得到的食醋識別準確率見圖5。由圖5可知,當特征維數(shù)為9時,PCA+LDA分類準確率最高。在其他特征維數(shù)時,分類準確率保持在85%以上。
圖5 特征維數(shù)與識別準確率的關系
在PCA以后再用LDA,這種方法是在降維的另一階段之后執(zhí)行LDA。由于類內(nèi)散布矩陣Sw的秩以m-c為上限,所以PCA的最大維數(shù)可以減少到m-c,其中m是訓練集的大小,并且c表示類的大小。然而,PCA + LDA存在一個嚴重的問題,那就是分類信息可能會丟失。
OLDA強制判別投影向量之間的正交關系以消除投影中的冗余信息,從而在識別率方面實現(xiàn)比傳統(tǒng)判別投影向量更強的判別投影向量。OLDA算法在處理數(shù)據(jù)時無需先用PCA對數(shù)據(jù)進行降維,其計算的新投影向量與所有先前獲得的投影向量正交。針對PCA+LDA方法的不足,用正交線性判別分析對食醋電子鼻信號進行處理,再用最近鄰分類器進行分類。表5列出了樣本在不同劃分情況下的分類準確率。
由表5可知,當每類食醋電子鼻信號的訓練樣本個數(shù)為20,測試樣本個數(shù)為31個時,主成分分析與線性判別分析的分類準確率達到最高(90.32%)。對于不同的訓練樣本與測試樣本劃分情況,基于正交線性判別分析的分類準確率始終保持在90%以上,高于PCA+LDA方法的分類準確率。
表5 樣本不同劃分情況下的分類準確率
由圖6可知,當每類的食醋電子鼻信號的訓練樣本個數(shù)變化時,基于正交線性判別分析的分類準確率要明顯高于基于PCA+LDA方法的分類準確率。
當總樣本數(shù)較少時,例如總樣本數(shù)是75個數(shù)據(jù)樣本(即每種15個樣本數(shù)),當訓練樣本每種6個樣本數(shù),共30個訓練樣本,測試樣本每種9個樣本數(shù),共45個測試樣本。用PCA將數(shù)據(jù)降維到6維,再用LDA降維到4維,最后用最近鄰分類器進行分類,分類準確率為82.22%。用OLDA將數(shù)據(jù)降維到4維,用最近鄰分類器進行分類,可得分類準確率為82.22%。
圖6 訓練樣本個數(shù)變化時兩種算法分類準確率
采用主成分分析與線性判別分析(PCA+LDA)方法對食醋電子鼻信號進行處理會存在分類信息丟失現(xiàn)象。為了克服這一缺陷,引入正交線性判別分析方法對食醋電子鼻信號進行處理,分類準確率得到了提高。對訓練樣本和測試樣本進行了不同劃分,當訓練樣本為20,測試樣本為31時,PCA+LDA方法識別準確率達到最高90.32%。而且,在訓練樣本和測試樣本劃分變化時,使用正交線性判別分析方法的食醋電子鼻信號分類準確率明顯高于使用PCA+LDA方法的分類準確率,即基于正交線性判別分析的電子鼻食醋信號分類是切實可行的一種方法。當總樣本數(shù)較少,訓練樣本較少時,分類準確率不高,此問題有待以后的進一步研究和探索。