陶 洋,劉翔宇,梁志芳
(重慶郵電大學 通信與信息工程學院,重慶 400065)
相較于視覺的發(fā)達,人類的嗅覺并不出色。因此機器嗅覺可以在多個領域替代人工[1],實現對氣體的檢測與分析,例如環(huán)境質量監(jiān)測[2]、食品安全[3]、醫(yī)療衛(wèi)生等[4],對電子鼻系統(tǒng)的研究具有重大的價值。
電子鼻傳感器陣列的優(yōu)化是一類特殊的特征選擇問題[5],主要表現在兩個方面:
(1)電子鼻系統(tǒng)中的傳感器普遍具有廣譜效應[5],因此傳感器之間的冗余有別于傳統(tǒng)特征之間的冗余,在冗余度相同的情況下前者更傾向于較大的冗余分布,即篩選出較少重疊的特征;
(2)與傳統(tǒng)特征選擇不同,電子鼻傳感器陣列更傾向于篩選出高敏感特征,即傳感器對不同氣體的響應有更大的幅度差。
綜上所述,本文提出一種電子鼻傳感器性能的互信息特征選擇算法(Sensor Performance Mutal Information,SPMI),結合傳感器特性進行特征子集的篩選,相較于現有算法獲得了更優(yōu)的識別精度。該算法的主要創(chuàng)新點有:
(1)針對候選特征與已選特征之間的冗余度設計權重函數,降低聯(lián)合冗余信息離散程度小的特征權值,使得篩選出的特征之間相互冗余的數量降低;
(2)設計基于方差的特征敏感性評價函數,使得篩選的特征對目標響應具有更高的辨識度。
互信息特征選擇算法根據評價函數J(Xm)對特征Xm打分[6],并根據需求的特征數量確定迭代次數,每次迭代從候選特征集合M 中獲得最高分特征并將其加入已選特征集合N 中。
1994 年,Battiti 等人提出MIFS 算法[7],其評價函數如式(1)所示,該算法將特征與類的互信息作為相關性,將候選特征與已選特征之間的互信息作為冗余性,通過系數β 平衡兩者之間的權重:
其中,I(Xm;L)為特征與標簽的相關性;I(Xm;Xn)表示特征之間的相關性;β 作為平衡系數,權衡兩者之間的權重。
2000 年,Yang 等人提出了JMI 算法[8],該算法在特征與類的相關性基礎上,通過條件互信息進一步消除其中的無效信息:
2005 年,Peng 等人提出了mRMR 算法[9],該算法確定特征之間的冗余性的系數為已選特征數量的倒數,計算出冗余程度的集中趨勢:
2018、2019 年Gao 等人相繼提出了CFR 算法[10]、MRMD算法[11],分別如式(4)、式(5)所示:
通過上述分析,可知現有算法并未根據電子鼻傳感器陣列特性進行優(yōu)化,使得其在電子鼻傳感器數據集上未能篩選出最優(yōu)特征子集。據此本文提出基于傳感器性能的互信息特征選擇算法。
互信息特征選擇算法主要通過評價函數作為準則篩選特征,SPMI 算法的評價函數分為三部分:特征相關性Jrev(Xm)、特征冗余性Jrdu(Xm)以及特征敏感性Jsen(Xm):
可以發(fā)現此評價函數采用特征與類的互信息衡量特征的相關性:
候選特征與已選特征的互信息I(Xm;Xn)可以簡單地看作特征的冗余性。然而由于標簽信息的存在,此互信息可根據是否存在標簽信息劃分為兩個部分:
其中,I(Xm;Xn|L)中不帶任何標簽信息,被稱為類外冗余。類外冗余因不帶標簽信息可不被考慮在冗余范圍內,因此,可以縮 小冗余信 息為類內冗余I(Xm;Xn;L)。同時減去此特征與標簽特有的條件互信息I(Xm;L|Xn),以最大化相關性[12]。可得到冗余互信息評價函數為:
然而當多個特征的冗余度相同時,傳感器陣列更傾向于較大的冗余分布,因此可以根據均值μ 和標準差σ表征特征的類內冗余分布:
類內冗余標準差σ 越大,此特征的冗余離散程度越高,相同冗余度下與已選特征冗余的數量越小。由于冗余性評價函數與整體評價函數呈現負相關,因此將此標準差的倒數作為權重函數W,并通過常數項擴大函數定義域:
最后將函數W(Xm)作為特征冗余度的權值,獲得特征冗余評價函數:
電子鼻傳感器陣列所識別的目標氣體之間往往具有相關性,例如混合氣體的識別中,不同目標氣體之間可能只有濃度的差異。這就要求傳感器特征具有足夠的敏感性區(qū)分不同的目標氣體。
SPMI 算法根據特征變量的方差設計特征的敏感性評價函數。特征的方差越大,特征分量與均值的差異也就越高,傳感器特征對不同目標氣體的辨識能力也就越強。同時設置系數α 平衡敏感性占總評價函數的比重:
SPMI 算法通過逐步迭代獲取候選特征集合中每次得分最高的特征,算法的詳細流程如下:
綜上所述,SPMI 算法結合傳感器陣列特性,做出以下優(yōu)化:
(1)基于類內冗余度獲得最大相關性,并設計冗余度的標準差為權重函數,以篩選出冗余離散度更高的特征;
(2)基于特征方差設計敏感性,以篩選出對不同目標氣體更敏感的特征。
本文使用了兩個數據集驗證所提出算法性能:
(1)加州大學歐文分校(University of California Irvine,UCI)機器學習庫中收錄的流量調制下氣體傳感器陣列數據集[13]。其中包含了從16 個金屬氧化物傳感器在氣流調制條件下獲取的58 個時間序列內的響應。調制的氣流為丙酮、乙醇以及二者的氣態(tài)混合物,實驗將傳感器時間序列內穩(wěn)態(tài)最大響應值作為候選特征。
(2)重慶大學生物感知與智能信息處理實驗室采集的傷口細菌電子鼻公開數據集[14]。實驗采用了34 個化學傳感器獲取對大腸桿菌培養(yǎng)液、金黃色葡萄球菌培養(yǎng)液、銅綠假單胞菌培養(yǎng)液以及任意兩種混合培養(yǎng)液的響應,同樣將傳感器穩(wěn)態(tài)最大響應值作為候選特征。
實驗將在上述數據集中運行泛化性能良好的現有算 法(MIM、JMI、mRMR、MIFS、CFR、MRMD)以及所提出算法(SPMI)進行對比,獲得各對比算法篩選出特征子集,并在分類算法(支持向量機(Suport Vertor Machine,SVM))下獲得特征子集的識別精度[15]。
經過多次實驗,確定在流量調制數據集下特征敏感性的系數α=1,傷口細菌數據集下系數α=0.3,能達到最優(yōu)效果。支持向量機的核函數采用徑向基函數(Radial Basis Function,RBF)能獲得更好的分類精度。
本次實驗在流量調制數據集和傷口細菌數據集下獲取的特征子集的識別精度趨勢如圖1 和圖2 所示,精度的數值如表1 和表2 所示。
表2 傷口細菌數據集下各算法篩選傳感器的識別精度 (%)
圖1 流量調制數據集特征子集識別精度折線圖
圖2 傷口細菌數據集特征子集識別精度折線圖
表1 流量調制數據集下各算法篩選傳感器的識別精度 (%)
圖1 和圖2 展現了在兩個數據集上應用不同的算法得到的傳感器子集在進行模式識別精度的趨勢變化??梢园l(fā)現在流量調制數據集中,當特征數量在30%~50%的范圍時,SPMI 算法篩選的特征子集獲得了最好的識別精度,隨著特征數量的繼續(xù)上升該算法也保持了良好的效果;在傷口細菌數據集下,SPMI 算法相較于對比算法則始終保持了最高的識別精度。
表1 和表2 列出了在兩個數據集中不同算法篩選出特征子集具體的識別精度值??梢园l(fā)現,各算法在傷口細菌數據集下的識別精度普遍高于流量調制數據集;相同數據集同等特征數量下,SPMI 算法精度提升的最大值均能達到20%以上。
本文針對電子鼻系統(tǒng)特性提出一種基于傳感器性能的互信息特征選擇算法,并在電子鼻相關數據集中篩選特征子集驗證識別精度。實驗表明,SPMI 算法確實能夠針對傳感器特性進行有效優(yōu)化,篩選出的傳感器特征子集能夠獲得更高的識別精度,且相較于現有的互信息特征選擇算法篩選出的子集有較大的提升。
現階段電子鼻系統(tǒng)工作的環(huán)境較為復雜,所識別的目標氣體常為混合氣體而非單質,因此針對多標記的特征選擇算法更為契合電子鼻系統(tǒng)。今后的工作將繼續(xù)改進SPMI 算法,使得算法能夠充分考慮在多目標下傳感器特征的性能,進一步擴大算法的應用范圍。