王 茜孟慶浩靳荔成
(天津大學機器人與自主系統(tǒng)研究所,天津市過程檢測與控制重點實驗室,天津大學電氣自動化與信息工程學院,天津300072)
我國是白酒生產和消費的大國。 根據(jù)香型、品牌及制作工藝的不同,我國白酒可有幾千種之多。近些年,白酒市場中以次充好、以假亂真的現(xiàn)象時有發(fā)生,如何快速鑒別白酒的品質困擾著普通消費者?,F(xiàn)有用于白酒鑒別的方法包括感官法、色譜法、光譜法和傳感器陣列等方法。 感官法主要通過有經驗的品酒師完成,具有較強的主觀性,受影響因素較多。色譜法和光譜法依賴昂貴的分析儀器,成本高、耗時長,且儀器的體積普遍偏大,不便于日常使用[1-2]。電子鼻[3]作為一種新興檢測技術,已在食品鑒別、生物檢驗、醫(yī)療診斷、環(huán)境監(jiān)測、煙草檢測等[4-8]多個領域有成功應用的案例。
電子鼻在酒類識別方面也有了一些研究案例。Pornpanomchai 等[9]將電子鼻技術和神經網絡技術相結合實現(xiàn)了10 種啤酒品牌的分類。 Qi 等[10]研制了一種由采樣模塊、氣室和ARM(Advanced RISC Machines)處理器組成的便攜式電子鼻,采用仿生分段呼吸采樣方法實現(xiàn)快速采樣,并用優(yōu)化后的支持向量機(Support Vector Machine,SVM)算法對六種白酒進行識別,準確率高達90.8%。 商業(yè)化便攜式電子鼻Cyranose320[11]已被廣泛應用在多個領域。Li 等[12]研制了用于檢測豬肉新鮮度的手持式電子鼻系統(tǒng)。 Li 等[13]利用手持式電子鼻研究了檢測白酒方法,能夠很好的實現(xiàn)白酒分類。 目前,針對于酒類檢測的電子鼻系統(tǒng)提取的特征[14-15]可分為靜態(tài)特征和動態(tài)特征。 靜態(tài)特征包括基線值、峰值、均值、穩(wěn)態(tài)響應時間等,動態(tài)特征包括響應曲線在某點的積分值、微分值、瞬態(tài)響應值等[16-21]。
為提升白酒識別的準確率,除常用的時域特征提取方法外,本文將基于小波包分析的時頻域特征及基于一對多共同空間模式(One Versus Rest Common Spatial Pattern,OVR-CSP)分析的空域特征[22]引入到手持式電子鼻的白酒識別研究,并通過可分度加權的方式對時域、時頻域和空域三種特征進行融合。 利用實驗室自制的手持式電子鼻對6 種白酒進行檢測與識別,實驗結果表明本文所提的多域特征融合提取方法提高了分類的平均準確性。 在此基礎上,比較了SVM、K 近鄰(K-Nearest Neighbour,KNN)和BP 神經網絡(Back Propagation Artificial Neural Network,BP-ANN)三種分類器的實時性和分類效果。
本文所采用的實驗室自制手持式電子鼻如圖1所示,左側為電子鼻展開結構圖,主要包括Arm 系統(tǒng)板、系統(tǒng)擴展板、氣室、氣路、LCD 觸摸屏等部件,右側為電子鼻整體結構圖,該電子鼻系統(tǒng)總重283 g,長11 cm,寬9 cm,高3 cm,平均功率小于5 W。
圖1 用于白酒檢測的手持式電子鼻實物圖
傳感器陣列是電子鼻系統(tǒng)的氣味感知部件,傳感器陣列的選擇是根據(jù)不同傳感器對白酒氣味物質的響應特點,并以較少的傳感器數(shù)量獲取更多的氣味信息,以及基于傳感器之間對不同氣味信息交叉敏感為原則進行陣列優(yōu)化。 本文所用的手持式電子鼻的傳感器陣列包含6 種金屬氧化物半導體(Metal Oxide Semiconductor,MOS)型傳感器和一個溫濕度傳感器,MOS 型氣體傳感器型號分別為CCS801、CCS803、TGS8100、MiCS-5914、MiCS-5524、MiCS-4514,其中MiCS-4514 輸出兩路信號,傳感器具體信息如表1 所示。
表1 傳感器陣列的傳感器型號
1.2.1 實驗材料與數(shù)據(jù)采集
本文選取六種白酒進行實驗,分別為國窖1573、西鳳、汾酒、劍南春、五糧液和飛天茅臺。 六種白酒的具體信息如表2 所示。
表2 六種白酒的具體信息
在實驗室中進行白酒樣本數(shù)據(jù)采集,室內溫度為28 ℃,空氣相對濕度為30%。 手持式電子鼻實驗采樣參數(shù)設置:采樣頻率400 Hz,采樣時間40 s,其中吸氣時間1 s,吸氣等待時間3 s,呼氣時間35 s,呼氣等待時間為1 s,氣室清洗時間為30 s。
1.2.2 數(shù)據(jù)預處理
采用氣泵將潔凈空氣吹入白酒樣本瓶,吹入空氣攜帶揮發(fā)的白酒樣本從氣路系統(tǒng)進入氣室中,與傳感器陣列發(fā)生反應,其中吸氣-吸氣等待-呼氣-呼氣等待過程為采樣周期,完成氣體采樣,采樣結束后進行氣室清洗。 TGS8100 傳感器原始響應曲線如圖2 所示。
圖2 TGS8100 傳感器原始響應曲線
電子鼻獲取的數(shù)據(jù)是經過RC 電路消除工頻干擾噪聲后的結果,但此時響應曲線依舊存在一些噪聲和波動,為便于后續(xù)數(shù)據(jù)處理,應進一步對數(shù)據(jù)進行濾波。 本文先采用中值濾波去噪,中值濾波對去除硬件電路中的孤立脈沖噪聲具有較好效果,同時也能使曲線更加平滑。 中值濾波算法的思想是用某一點鄰域窗口內所有響應值的中位值去代替這一點的真實值,如式(1)所示:
式中:x(i)為位于窗口中心的采樣值,窗口中心采樣值鄰域窗口長度L=2n+1,其中n為正整數(shù),本文中n取值為51,y(i)為濾波后的響應值。
經過中值濾波后可以得到較為平滑響應曲線,但仍有一些波動,為減少這些波動對后續(xù)數(shù)據(jù)處理的不利影響,繼續(xù)使用局部回歸加權算法進行平滑濾波,得到波動更小、更平滑的響應曲線。 局部回歸加權濾波算法的具體方法如下:
在采樣點處建立一個L=2n+1 的濾波窗口,n為窗口半徑,本文中n取31,設各個測量點為X=[-n-n+1 …n]T,每點對應的響應值Y=[x(-n)x(-n+1) …x(n)]T。 對位于窗口內的數(shù)據(jù)用權值函數(shù)進行加權線性回歸,取回歸線的中心值作為該采樣點濾波后的值。 因為權值公式選取并不固定,滿足一定規(guī)則即可,本文所采用的局部回歸權值公式如式(2)所示,并利用式(3)求取加權回歸模型。
式中:x為當前傳感器響應值,x(i)為位于平滑窗口內的相鄰點,d(x)為x到窗口內緊鄰點距離最大值,g(i)為窗口內每點的權值,G為權值矩陣,G=diag[g(-n)g(-n+1) …g(n)],其中g(-n)~g(n)窗口內每個點對應的權值,^Y為求取的加權回歸模型。
圖3 為TGS8100 傳感器濾波去噪后曲線響應圖,經過中值濾波和平滑濾波后,獲得了更加平滑的曲線。
圖3 TGS8100 傳感器濾波后響應曲線
本文提出的用于白酒檢測的手持式電子鼻多域特征融合方法包括:提取基于統(tǒng)計學方法傳感器響應曲線的時域特征,提取基于小波包分解和重構的時頻域特征,提取基于OVR-CSP 的空域特征,對所有特征進行歸一化處理以及利用特征加權方法進行特征融合。
基于統(tǒng)計學分析對響應曲線進行時域特征提取,計算時域波形數(shù)據(jù)的統(tǒng)計指標,提取其靜態(tài)特征和動態(tài)特征。 通過對手持式電子鼻采樣方式和響應曲線特點的分析,選取了6 個時域特征,分別為一階微分最大值M1,一階微分最大值時刻對應的響應值M2,采樣時間內的響應曲線的積分值M3,采樣時間內微分平均值M4,最大響應值與響應初始時刻對應響應值的差值M5,二階微分最大值M6,提取的時域特征表達如下:
式中:St-1、St、St+1分為t-1、t、t+1 時刻響應值,Δt為采樣間隔時間,td代表一階微分最大值對應的時刻,T為采樣周期,t0為響應初始時刻,ts為曲線穩(wěn)態(tài)響應時刻。
對手持式電子鼻的6 個傳感器輸出的7 條響應曲線分別提取上述的6 個時域特征,將其整合成單個樣本時域特征向量f1∈Rm1×1,其中m1表示時域中提取的特征總個數(shù),本文中m1=42。
小波分析是時頻分析的一種,是對短時傅里葉變換局部化思想的繼承和發(fā)展,不僅克服了傅里葉分析中窗口大小不能跟隨頻率改變的缺點,而且提供了一個隨頻率變化的時間頻率。 窗口應用多分辨率分析,通過尺度函數(shù)進行伸縮和平移,對信號進行多頻帶分解。 小波分析將時間序列分解為低頻和高頻兩部分,并對低頻信息部分進一步分解,高頻部分則不再處理。 小波分析可以很好地表征信號低頻信息,但會忽略高頻的大量細節(jié)信息。 小波包分析在小波分析的基礎上,同時進一步分解低頻和高頻兩部分,以獲取更全面的信號特征。
由于Daubechies 小波的正交性、高階連續(xù)可導、對稱性、小時頻窗口和高消失矩的特性,本文選取3階的Daubechies 進行分解,經過多次驗證,當分解尺度為3 時既有良好的去噪效果,且信號不失真,同時計算量較小。 本文中選取db3 小波函數(shù)對各個傳感器響應信號進行3 層小波包分解與重構,將傳感器時間響應序列S 分解為低頻信息a 和高頻信息d 兩部分,下一層分解中,繼續(xù)將低頻信息a 和高頻信息d 部分分解為aa,ad,da,dd 四部分,以此類推,經過三層分解后可得到aaa、aad、ada、add、daa、dad、dda、ddd 共8 個頻帶,圖4 為在各個尺度上分解與重構后得到的小波樹圖,分別提取第三層小波重構后能量的最大值及小波包能量熵值作為白酒類別的時頻域特征。 其中小波包能量熵值是基于小波包分解系數(shù)計算得到熵值,該值是對信號中小波分解重構后能量分布的平均復雜度表征。
圖4 傳感器響應信號3 層小波包分解重構結果
基于小波包分析的小波包能量特征和小波包能量熵特征的提取步驟如下:
①選擇db3 小波函數(shù)對預處理后傳感器響應曲線進行3 層小波包分解,獲取第三層各個節(jié)點對應的小波包系數(shù),分別為d3k,其中k=1,2,…8。
②利用所求的第3 層各節(jié)點小波包系數(shù)重構各節(jié)點信號S3k,k=1,2,…8。
③利用小波包重構信號計算第三層小波包各節(jié)點能量E3k和總能量E,其中:
式中:S3k(t)為第3 層第k個節(jié)點重構信號的第t個數(shù)據(jù),t=1,2,…n,n為重構節(jié)點的數(shù)據(jù)個數(shù)。
④計算小波包總能量熵值WEE:
式中:P3k為各節(jié)點小波歸一化能量。
⑤獲取時頻域特征小波包能量最大值Emax:
對手持式電子鼻的6 個傳感器輸出的7 條響應曲線分別提取上述的2 個時頻域特征,將其整合成單個樣本時頻域特征向量f2∈Rm2×1,其中m2表示時頻域中提取的特征總個數(shù),本文中m2=14。
CSP 是一種用于兩分類任務下的空間濾波算法,目前在腦電領域尤其是運動想象特征提取方面已廣泛應用,但在電子鼻的分類識別領域應用較少。CSP 的原理是構造一個空間濾波器,兩類信號通過這個濾波器后,一類信號的方差最大,另一類信號的方差最小,從而實現(xiàn)對兩種不同類別信號的區(qū)分。然而對于白酒種類多樣的問題,CSP 無法完成分類任務,因此本文采用OVR-CSP 方法實現(xiàn)多種白酒種類的識別。 對于文中的6 種白酒分類而言,OVRCSP 是將其分成6 個一對一的兩分類問題,依次計算每個濾波器,共需要構建6 個空間濾波器。 基于OVR-CSP 的空域特征提取步驟如下:
①將其中某一類白酒視為一類信號,其余白酒種類視為另一類信號,求取兩種信號的空間濾波器。計算兩類白酒信號矩陣的空間協(xié)方差均值矩陣:
計算兩類白酒混合空間的協(xié)方差矩陣R,并進行特征值分解:
求取混合協(xié)方差矩陣的白化矩陣W:
利用求取的白化矩陣對兩類白酒的協(xié)方差均值矩陣進行白化處理:
對白化后的矩陣進行特征值分解:
式中:Us是S1和S2的共同特征向量,λ1和λ2對應S1和S2的特征值,且λ1和λ2的和為單位矩陣。 因此,當S1的特征值最大時,S2特征值最小,兩類信號的協(xié)方差區(qū)別最大,因此可構造出空間濾波器:
按照此種方法構造出所有白酒類別的空間濾波器族Qc,c=1,2,…,6。
②空域特征信號提取。
將白酒樣本矩陣經過空間濾波投影得到特征矩陣:
式中:Xj是第j個白酒樣本,Zj第是j個白酒樣本經過空間濾波器Qc濾波投影得到的特征矩陣,N為白酒樣本個數(shù)。
取特征矩陣Zj的所有行的方差作為信號矩陣的空域特征值:
式中:Zj(i)表示特征矩陣Zj的第i行,k為特征矩陣Zj的總行數(shù),即電子鼻傳感器陣列輸出響應曲線條數(shù),本文中k=7。
按照上式分別求取白酒樣本在不同濾波器下的特征值,將其整合成單個樣本的空域特征向量f3∈Rm3×1,其中m3表示空域中提取的特征總個數(shù),本文中m3=42。
提取全部白酒樣本的時域特征、時頻域特征和空域特征,生成時域特征、時頻域特征和空域特征矩陣F1、F2、F3:
式中:f1,j、f2,j和f3,j分別為時域、時頻域和空域下提取的第j個白酒樣本的特征向量,其中j=1,2…N,N為白酒樣本個數(shù)。
將時域特征、時頻域特征和空域特征矩陣組合生成多域特征矩陣F:
式中:m為多域特征矩陣所含特征個數(shù),本文中m=m1+m2+m3=98,N為白酒樣本個數(shù)。
在進行特征加權融合前,為減少各個特征值量綱不統(tǒng)一對后續(xù)數(shù)據(jù)處理的影響,對特征矩陣進行歸一化處理,歸一化公式如下所示:
式中:ai表示特征矩陣中的某個特征的一個特征值,amin為這個特征值中最小的值,amax為特征值中最大的值。
特征加權融合方法的原理是根據(jù)一定的準則去評價每個特征值的重要程度,并根據(jù)他們的重要程度去賦予不同的權值,求取其權值矩陣。 本文中采用樣本特征的可分度函數(shù)去計算特征權值,對特征以及不同類間的相關性進行量化。 某個特征的可分度越大,則賦予其更高的權重值,否則則賦予其更低的權重值。 定義特征的可分度函數(shù)為:
式中:μij表示樣本中所有屬于j類白酒的第i個特征值的均值,μik表示樣本中所有屬于k類白酒的第i個特征值的均值,σip表示樣本中所有屬于第p類白酒的第i個特征值的方差,c表示白酒種類數(shù)量,文中c等于6。
Di值越大,表示第i個特征值對區(qū)分各類白酒樣本集的作用越大,通過可分度函數(shù),對特征矩陣中的所有特征分量進行計算,定義特征的權重系數(shù):
式中:α為常量,m為特征矩陣維數(shù),wi為第i個特征值的權重系數(shù)。
則特征權值對角矩陣P和特征加權矩陣FW為:
式中:w1~wm為根據(jù)式(29)求得的各個特征值的權重系數(shù)。
基于上述可分度函數(shù),計算每個特征值的歸一化權值,最終得到所有特征值可分度權值,并按照權值大小降序排列。 表3 給出按照降序排列后的前12 個特征及對應的權值,符號fa_b及其下面的數(shù)字分別表示特征及對應權值。 其中,下角標a取1、2、3,分別對應時域、時頻域和空域下提取的特征;下角標b對應a值為1、2 和3 時的取值范圍分別是1~42、1~14 和1~42,表示為時域、時頻域及空域下的第b個特征。 通過相關性分析,可以直觀地看出不同特征值對白酒類別識別的重要程度,為每個特征值賦予不同權值。
表3 按可分度函數(shù)權值大小降序排列的前12 個特征
為驗證本文所述方法的有效性,采集6 種白酒共395 個樣本,其中每種白酒樣本60~70 個。 由于樣本數(shù)量有限,所以采用交叉驗證的方式進行分類器的性能評估。 每次隨機選擇35 個樣本作為測試樣本,其余為訓練樣本,迭代次數(shù)20 次,取20 次模型下識別結果的平均值作為識別準確率。 選取SVM 分類器作為分類器,單一特征和多域特征下的平均分類準確率如表4 所示。
表4 不同特征的平均準確率
從表4 中可以看出,使用本文的多域融合特征FW時,能達到97.33%的平均正確率,與單一的時域、時頻域和空域特征相比,平均識別正確率分別提高了9.83、8 和1.5 個百分點。 因為與單一域特征相比,多域特征加權融合實現(xiàn)了信號不同域下特征的互補,同時根據(jù)可分度函數(shù)計算每個特征值對白酒分類的不同重要程度設置特征權值,從而獲得了更好的分類識別效果。
選取三種常用的分類識別算法SVM、KNN 和BP-ANN 進行多域特征下的白酒種類識別,由于多域特征加權融合后的特征維數(shù)仍然較大,因此選取核主成分分析(Kernel Principal Component Analysis,KPCA)對特征空間進行降維,減少特征冗余的不利影響,提高分類器的效率。 表5 所示為不同分類器下各類白酒的分類結果。
表5 不同分類算法的平均準確率
從表5 中可以看出,多域融合特征經KPCA 降維后,BP-ANN 的準確率最高,比SVM 和KNN 分別多1.9 和0.52 個百分點。 但在訓練樣本、測試樣本數(shù)量相同、迭代次數(shù)相同的情況下,BP-ANN 的識別時間為77.48 s,SVM 的識別時間為4.19 s,KNN 的識別時間為2.57 s,考慮到白酒用手持式電子鼻的在線快速識別要求,雖然BP-ANN 識別準確率最高,但運行時間比其他兩種分類算法長很多,而KNN 的識別準確率也很高,運行時間最短,所以建議選擇KNN 作為分類識別算法。
本文綜合考慮了白酒識別用電子鼻傳感器響應曲線的時域、時頻域和空域特征,基于多域特征提取方法和自制的用于白酒檢測的手持式電子鼻完成了6 種白酒的采樣和識別。 在特征提取方面,分別基于統(tǒng)計學方法、小波包分析方法和OVR-CSP 法提取了每個傳感器響應曲線的時域、時頻域和空域特征,并運用特征加權融合方法對三類特征進行了融合。實驗結果表明,在相同分類算法的前提下,本文提出的多域特征加權融合方法相較于單一域方法的平均準確率更高。 最后,分析比較了SVM、KNN、BPANN 三種分類算法對多域融合特征的分類性能,實驗表明,三種分類算法的識別率均能達到95%以上,其中BP-ANN 準確率最高,但運行時間最長。KNN 算法運行時間最短,且識別準確率很高。 針對本文的實驗結果,建議選擇KNN 作為分類器用于白酒的在線識別。