王 玲 孟建瑤
(北京科技大學(xué)自動化學(xué)院 北京 100083) (工業(yè)過程知識自動化教育部重點實驗室(北京科技大學(xué)) 北京 100083) (lingwang@ustb.edu.cn)
特征選擇是數(shù)據(jù)挖掘和機器學(xué)習(xí)中的一個重要課題,它不僅有助于理解數(shù)據(jù)、節(jié)約計算成本、減少特征之間的相互影響,而且可以提高預(yù)測的準確率[1-2].特征選擇也稱特征子集選擇,是指從原始特征中選擇出一些最有效特征以降低數(shù)據(jù)集維度的過程[3].目前,特征選擇已經(jīng)應(yīng)用于多個領(lǐng)域,例如工業(yè)傳感器數(shù)據(jù)分析[4]、空氣質(zhì)量分析[5]、健康數(shù)據(jù)分析[6]等等.
在一些現(xiàn)實的系統(tǒng)中,人們往往利用一些模糊語義將原始特征集轉(zhuǎn)化為模糊特征集,提高系統(tǒng)的可解釋性.然而,模糊化后的特征空間比原始的特征空間維度更高,為了減少系統(tǒng)模糊化后的復(fù)雜性,從模糊特征中選擇有價值的特征顯得更為重要.此外,實際應(yīng)用往往是具有多特征的動態(tài)復(fù)雜系統(tǒng),隨著時間的變化,特征的重要程度也在逐漸發(fā)生變化,例如一些重要的特征隨著時間的推移變得冗余,或者起初不重要的特征隨著時間的推移變得越來越重要.雖然國內(nèi)外已經(jīng)涌現(xiàn)了一系列特征選擇算法,例如過濾式特征選擇算法[7]、封裝式特征選擇算法[8]、嵌入式特征選擇算法[9]等用于提高學(xué)習(xí)算法的性能.但上述方法不能體現(xiàn)特征選擇的實時性,導(dǎo)致算法延遲和不連續(xù),影響了可解釋性.因此,動態(tài)特征選擇算法應(yīng)運而生.文獻[10]提出基于在線分類器的動態(tài)特征選擇算法,該算法選擇所有可以代表整體數(shù)據(jù)集信息的特征,但利用分類器評估所選特征的好壞,增加了計算負擔;文獻[11]提出基于貝葉斯分類器的封裝式動態(tài)特征選擇算法,該算法利用貪婪算法尋找最優(yōu)的特征子集,增加了算法的時間復(fù)雜度和空間復(fù)雜度;文獻[12]介紹了4種新的特征質(zhì)量檢測指標,然后用檢測指標和聚類算法動態(tài)地選擇有用的特征,但是聚類算法需要人為設(shè)置聚類個數(shù),降低了算法的自適應(yīng)性;文獻[13]提出基于K均值算法和遺傳算法的動態(tài)特征選擇算法,該算法分別利用遺傳算法和K均值算法確定目標函數(shù)和尋優(yōu)范圍,但該算法得到的特征子集不是全局最優(yōu)的.盡管如此,針對動態(tài)系統(tǒng),如何自適應(yīng)地進行模糊特征選擇仍然是一個挑戰(zhàn)性的課題.
本文主要有4個方面的貢獻:
1) 提出一種基于特征變權(quán)的動態(tài)模糊特征選擇算法,包括離線模糊特征選擇和在線模糊特征選擇2部分;
2) 通過計算每個模糊特征的權(quán)重,動態(tài)優(yōu)化所選模糊特征子集,保證了特征選擇過程的平滑性和時效性;
3) 在特征變權(quán)的基礎(chǔ)上,離線模糊特征選擇利用后向選擇算法和模糊特征篩選指標獲得優(yōu)化模糊特征子集,在線模糊特征選擇根據(jù)重要度不斷更新優(yōu)化模糊特征子集;
4) 應(yīng)用不同數(shù)據(jù)集的實驗結(jié)果表明:我們提出的動態(tài)模糊特征選擇算法在無需設(shè)置任何參數(shù)的情況下,提高了算法的自適應(yīng)性和預(yù)測準確性.
動態(tài)特征選擇算法的目的是在動態(tài)數(shù)據(jù)集中選擇出能夠?qū)崟r刻畫主要特性的特征.關(guān)于動態(tài)特征選擇的研究有很多[14-18],其中,一些動態(tài)特征選擇算法只能處理類別數(shù)據(jù),例如文獻[14]提出基于粗糙集的動態(tài)特征選擇算法,以粗糙集為基礎(chǔ),動態(tài)地計算特征的獨立性,從而進行特征選擇;文獻[15]提出基于鄰域粗糙集的動態(tài)特征選擇算法,鄰域粗糙集擺脫了粗糙集只能處理離散型數(shù)據(jù)的約束;文獻[16]提出基于信息粒度的動態(tài)特征選擇算法,利用非矩陣的信息粒度結(jié)構(gòu)減少了算法時間和空間的消耗,提高了算法效率.然而,上述算法都是針對類別數(shù)據(jù)集,適用范圍較小.除此之外,研究者提出一些針對其他類型數(shù)據(jù)集的動態(tài)特征選擇算法;文獻[17]提出動態(tài)無監(jiān)督特征選擇算法,該算法將特征選擇直接嵌入聚類算法中,利用聚類算法保存局部信息結(jié)構(gòu),幫助選擇具有辨識能力的特征,然而,該算法需要設(shè)置參數(shù)控制聚類算法目標函數(shù)的構(gòu)建,導(dǎo)致算法自適應(yīng)能力不佳;文獻[18]提出新的無監(jiān)督動態(tài)特征選擇算法,該算法近似地保存數(shù)據(jù),根據(jù)在近似數(shù)據(jù)上的回歸結(jié)果確定特征的重要程度,從而進行特征選擇.然而,該算法依賴回歸模型進行特征選擇,沒有獨立的特征評價指標,限制了算法的使用范圍.
針對模糊數(shù)據(jù)的特征選擇算法較少,文獻[19]提出基于最小-最大學(xué)習(xí)規(guī)則和擴展矩陣的模糊特征選擇算法,利用模糊化后的數(shù)據(jù)構(gòu)建擴展矩陣,根據(jù)最小-最大學(xué)習(xí)規(guī)則衡量每個模糊特征包含重要信息的多少,從而獲得模糊特征選擇結(jié)果,但是此算法只適用于靜態(tài)數(shù)據(jù)集,不適用于動態(tài)系統(tǒng)中的模糊特征選擇;文獻[20]提出基于在線特征權(quán)重的動態(tài)模糊特征選擇算法,該算法計算每個模糊特征的權(quán)重,根據(jù)可分離判據(jù),選擇有助于分類的模糊特征,然而該算法中需要設(shè)置分離閾值,降低了算法的自適應(yīng)能力.
鑒于此,本文提出了基于特征變權(quán)的動態(tài)模糊特征選擇算法(dynamic fuzzy features selection based on variable weight, DFFS-VW).主要包括2個階段:
1) 離線模糊特征選擇.首先,利用滑動窗口分割模糊數(shù)據(jù),在第1個滑動窗口中進行離線模糊特征選擇,計算每一個模糊輸入特征與輸出特征的互信息量;然后根據(jù)互信息量計算每一個模糊輸入特征的權(quán)重,并從大到小排序,計算相鄰模糊輸入特征的權(quán)重梯度和截斷點閾值進而獲得候選模糊特征子集,縮小了尋找最優(yōu)模糊輸入特征子集的空間,提高了算法效率;在此基礎(chǔ)上,根據(jù)模糊特征篩選指標既考慮模糊特征子集的輸入特征與輸出特征之間的互信息量又兼顧模糊輸入特征之間的互信息量來篩選特征,并通過后向特征選擇算法得到離線的優(yōu)化模糊特征子集,保證了所選模糊特征子集為全局最優(yōu).
2) 在線模糊特征選擇.在依次到來的滑動窗口中進行在線模糊特征選擇,綜合利用當前時刻滑動窗口中的候選模糊特征子集和前一個滑動窗口中的優(yōu)化模糊特征子集,自適應(yīng)地跟蹤輸入模糊特征權(quán)重的變化,得到當前滑動窗口中的優(yōu)化模糊特征子集,提高了模型的解釋性并保證學(xué)習(xí)的平滑性和實效性;根據(jù)模糊輸入特征與初始化優(yōu)化模糊特征子集之間的重要度獲取最終的優(yōu)化模糊特征子集,同時考慮歷史特征選擇結(jié)果和當前數(shù)據(jù)分布,確保最終的優(yōu)化模糊特征子集的優(yōu)越性.在DFFS-VW算法中,輸出特征可以是類別標簽,也可以是連續(xù)數(shù)據(jù),無論是離線模糊特征選擇,還是在線模糊特征選擇,都無需依賴分類器或者回歸模型,無需人為設(shè)置任何參數(shù),提高了算法的自適應(yīng)性.
本文以滑動窗口分割模糊化數(shù)據(jù)為基礎(chǔ),從模糊特征互信息量入手,建立起模糊輸入特征與輸出特征之間的聯(lián)系,進而實現(xiàn)動態(tài)模糊特征選擇.為了確定滑動窗口的大小,這里采用Hoeffding邊界檢測數(shù)據(jù)的分布.
定義1. Hoeffding邊界[21].對于取值范圍為R的特征,假設(shè)每個滑動窗口包含n條數(shù)據(jù)樣本,在置信程度是1-δ(δ一般取0.05)的條件下,Hoeffding邊界ε為
(1)
其中,R為特征的取值范圍:
R=(x1.max-x1.min,x2.max-x2,min,…,
xj,max-xj,min,…,xL,max-xL,max),
其中,xj,max是第j個變量的最大值,xj,min是第j個變量的最小值,L是數(shù)據(jù)集變量的個數(shù).
隨著n的增加,Hoeffding邊界ε在變小,這表明當n足夠大,Hoeffding邊界ε將趨近于0.
根據(jù)Hoeffding邊界,樣本集的最小容量NH可以確定:
(2)
根據(jù)式(2)可知,Hoeffding邊界ε是獲得樣本集的最小容量NH的關(guān)鍵.假設(shè)相鄰滑動窗口Wp-1和Wp所包含的樣本集均值分別是μp-1和μp,在置信程度是1-δ的條件下,|μp-1-μp|≤2ε,則樣本集的最小容量NH的計算公式可以調(diào)整為
(3)
由于對數(shù)值數(shù)據(jù)進行模糊化處理不僅有助于提取高層次的含義,而且不需要對數(shù)據(jù)進行簡單地“硬”劃分,它被廣泛應(yīng)用于智能系統(tǒng)中[19].通常的模糊化方法是根據(jù)經(jīng)驗或者知識建立隸屬度函數(shù).但是,在多數(shù)情況下,很難獲取所需要的信息或者專家知識.本文利用以前的研究基礎(chǔ)[22]對數(shù)據(jù)特征進行聚類實現(xiàn)特征模糊化.設(shè)第p(p≥0)個滑動窗口包含n條數(shù)據(jù),L維輸入特征和一維輸出特征,可以表示為
(4)
(5)
(6)
(7)
為了度量模糊特征之間的相關(guān)性,有必要引入新的度量.
(8)
(9)
(10)
(11)
為了提高模糊動態(tài)特征選擇的實效性和快速性,降低算法復(fù)雜性,發(fā)現(xiàn)各個模糊輸入特征權(quán)重的演化規(guī)律.本文提出了DFFS-VW算法,該算法的基本框架如圖1所示,首先利用滑動窗口W0,W1,…,Wp分割模糊數(shù)據(jù),以第1個滑動窗口中的數(shù)據(jù)作為初始數(shù)據(jù)進行離線模糊特征選擇,在隨后依次到來的滑動窗口中進行在線模糊特征選擇.在離線模糊特征選擇中,計算每個模糊輸入特征的權(quán)重,根據(jù)權(quán)重得到候選模糊特征子集;結(jié)合后向特征選擇算法和模糊輸入特征篩選指標迭代地篩選候選模糊特征子集,每一步都忽略其中權(quán)重值最小的模糊特征,得到優(yōu)化模糊特征子集.在在線模糊特性選擇中,根據(jù)當前滑動窗口中的數(shù)據(jù)獲取候選模糊特征子集,利用上一個滑動窗口的模糊優(yōu)化特征子集與當前窗口的候選模糊特征子集的交集作為當前快照的初始優(yōu)化模糊特征子集,計算其余的模糊輸入特征與初始優(yōu)化模糊特征子集的重要度,若重要度大于0,將模糊輸入特征加入優(yōu)化模糊特征子集.最后,根據(jù)各個模糊輸入特征的權(quán)重對模糊輸入特征進行演化分析.
在動態(tài)環(huán)境中,滑動窗口是一種被廣泛應(yīng)用的技術(shù).每個滑動窗口中包含著最新產(chǎn)生的樣本,并丟棄過去的樣本.目前主要有2種確定滑動窗口的方法:1)使用固定的窗口大小;2)根據(jù)衰減因子確定滑動窗口中丟棄的數(shù)據(jù)和保留下來的數(shù)據(jù),利用新數(shù)據(jù)代替已丟棄的數(shù)據(jù).這2種方法都需要人為設(shè)置參數(shù),然而,這些參數(shù)都很敏感,不易確定.根據(jù)數(shù)據(jù)分布直接確定窗口大小,可以解決上述問題.Hoeffding邊界考慮了特征的變化范圍,不斷地調(diào)整滑動窗口包含的樣本個數(shù)n,使得通過滑動窗口中的數(shù)據(jù)求得的最小容量NH不大于實際滑動窗口樣本個數(shù)n,將n作為固定的滑動窗口大小.在動態(tài)特征選擇過程中,隨著信息不斷的采集輸入,滑動窗口的任務(wù)是以有效的方式管理輸入數(shù)據(jù),存儲信息.相鄰滑動窗口記錄將被用來進行演化過程中特征之間的對等比較,獲取各個輸入模糊特征對輸出特征的權(quán)重演化規(guī)律.
Fig. 1 Framework of the DFFS-VW圖1 DFFS-VW框架
模糊特征權(quán)重是衡量模糊特征重要性的一種指標,在區(qū)間[0,1]中連續(xù)變化.模糊特征權(quán)重越接近1,代表該模糊特征越重要;越接近0,表示模糊特征重要性越低.模糊特征權(quán)重具有柔軟性和平滑性:柔軟性是指權(quán)重可以變小,但是不能完全丟棄,具有低模糊特征權(quán)重的特征仍然含有較少的信息;平滑性是指模糊特征權(quán)重在連續(xù)不斷地變化,因此,具有低模糊特征權(quán)重的特征在之后的學(xué)習(xí)中仍有可能變成重要的特征.利用模糊特征權(quán)重的這2個特性,對模糊特征進行動態(tài)特征選擇.本文根據(jù)互信息量計算每個模糊特征的權(quán)重:
(12)
(13)
當Yp是類標簽時,Yp的熵H(Yp):
(14)
(15)
(16)
(17)
(18)
(19)
為此,我們將模糊輸入特征篩選指標FCI作為衡量動態(tài)模糊特征選擇的衡量標準.它不僅考慮模糊特征子集的輸入特征與輸出特征之間的互信息量,還考慮模糊輸入特征與模糊輸入特征之間的互信息量:
(20)
(21)
(22)
第1個滑動窗口中的數(shù)據(jù)作為初始數(shù)據(jù)進行離線模糊特征選擇,主要分為2部分:1)根據(jù)輸入模糊特征和輸出特征的互信息量計算各個輸入模糊特征的權(quán)重,將模糊輸入特征根據(jù)權(quán)重由大到小排序,獲取候選模糊特征集;2)在候選模糊特征集中,根據(jù)模糊特征篩選指標同時考慮輸入模糊特征和輸出特征的互信息量與輸入模糊特征之間的互信息量,利用后向特征選擇和模糊輸入特征篩選指標得到與輸出特征相關(guān)性最大、冗余度最小的優(yōu)化模糊特征子集.
算法1. 離線模糊特征選擇算法.
輸入:所有模糊特征;
輸出:最優(yōu)模糊特征子集.
Step2.1. 分別計算各個模糊特征與輸出類別的互信息量.
算法2. 在線模糊特征選擇算法.
輸入:前一個滑動窗口的聚類結(jié)果和當前滑動窗口的所有數(shù)據(jù);
輸出:優(yōu)化模糊特征子集.
(23)
Step5. 選擇具有最大重要度的模糊特征.選擇滿足下面條件的屬性:
(24)
在線模糊特征選擇獲取當前窗口的候選模糊特征集的過程與離線模糊特征選擇的相似,最壞情況下所需要的時間復(fù)雜度是O(m+m+m+m);最好情況下所需要的時間復(fù)雜度是O(m+m+m+3),在此基礎(chǔ)上,依次計算其余的模糊特征相對于候選模糊特征集的重要度,直到其重要度不大于0,獲得最終的優(yōu)化模糊特征子集,最壞情況下,所需要的計算復(fù)雜度數(shù)O(m-3).綜上所述,該算法的復(fù)雜度是O(4m),經(jīng)化簡算法的最終復(fù)雜度是O(m).
本文將DFFS-VW算法與基于鄰域粗糙集的動態(tài)特征選擇算法(incremental feature selection based on fuzzy neighborhood rough set, IFSFNRS)[13]、基于貝葉斯分類器的封裝式動態(tài)特征選擇算法(wrapper feature selection algorithm with incremental Bayesian classifier, WFSIBC)[11]、動態(tài)無監(jiān)督特征選擇算法(online unsupervised multi-view feature selection, OMVFS)[20]、改進的動態(tài)無監(jiān)督特征選擇(feature selection on data streams, FSDS)[20]對比,選取1個人工合成數(shù)據(jù)集、UCI數(shù)據(jù)庫中的10個數(shù)據(jù)集[23]、2個分類數(shù)據(jù)流[24]和2個回歸數(shù)據(jù)流作為實驗數(shù)據(jù)進行分析,以測試DFFS-VW算法在無需設(shè)置任何參數(shù)的情況下,算法執(zhí)行效率、自適應(yīng)和預(yù)測準確性方面均得到提高.對于所有數(shù)據(jù),各個維度均進行輸入特征模糊化處理,使得數(shù)據(jù)集中所有數(shù)據(jù)值均在[0,1]區(qū)間.所有實驗都在Inter?CPU 2.30 GHz工作臺上運行,利用matlab 2014.a軟件進行仿真.數(shù)據(jù)集的詳細信息如表1所示:
Table 1 Description of Datasets表1 數(shù)據(jù)集描述
本文采用2種評價指標對算法的動態(tài)特征選擇效果進行評價:分類準確率(Acc)和平均絕對百分比誤差(MAPE).
(25)
其中,ak代表第k個類別中算法的分類結(jié)果和實際數(shù)據(jù)集分類情況相一致的數(shù)據(jù)個數(shù),|C|是類別個數(shù),n是數(shù)據(jù)集中包含的數(shù)據(jù)個數(shù).
(26)
為了分析滑動窗口大小對DFFS-VW算法模糊特征選擇結(jié)果的影響,本文利用不同數(shù)據(jù)集形成大小各異的滑動窗口,以數(shù)據(jù)集70%作為訓(xùn)練集,30%作為測試集,分析比較模糊特征選擇的性能.表2分別對比了CMAR(classification based on multiple association rules)分類器[25]、C4.5分類器[26]和DFFS-VW算法對不同大小滑動窗口的模糊特征選擇結(jié)果的分類性能,其中CMAR中的最小支持度設(shè)置為10%,最小置信度為70%,C4.5選取信息增益最大的作為劃分節(jié)點.從表2可以看出,本文所提方法自動確定窗口大小的分類性能優(yōu)于人為定義窗口大小的分類性能.表3分別對比了BP神經(jīng)網(wǎng)絡(luò)[27]、支持向量回歸(support vector regression, SVR)[28]和DFFS-VW算法對不同大小滑動窗口的模糊特征選擇結(jié)果的預(yù)測性能,其中BP神經(jīng)網(wǎng)絡(luò)有1層隱含層,隱含層中包含10個節(jié)點.SVR的核函數(shù)為徑向基函數(shù),不敏感系數(shù)為0.05,懲罰因子為10.從表3可以看出,本文所提出方法的預(yù)測結(jié)果優(yōu)于人為定義窗口大小的預(yù)測結(jié)果.這是由于本文所提出的窗口大小確定方法根據(jù)Hoeffding邊界考慮了數(shù)據(jù)的分布情況,提高了分割后的模糊數(shù)據(jù)的分類性能和預(yù)測性能.
Tabel 2 The Comparison of the Classification Accuracy(Acc) for CMARC4.5 on Different Window Sizes表2 不同窗口大小的CMARC4.5分類性能(Acc)對比
Tabel 2 The Comparison of the Classification Accuracy(Acc) for CMARC4.5 on Different Window Sizes表2 不同窗口大小的CMARC4.5分類性能(Acc)對比
DatasetTheSizeofWindow5%10%CMARC4.5CMARC4.5TheProposedMethodCMARC4.5SD0.8750.8810.8640.8750.9060.912BCH0.8830.8960.8740.8960.9470.958Glass0.9040.9120.8910.9010.9620.967Liver0.8920.8810.8740.8690.9520.948Wine0.9030.9210.8860.8970.9570.969Yeast0.9110.9160.8950.9030.9630.974SEA0.9210.9340.9040.9120.9830.989Weather0.8780.8960.8580.8690.9480.957Mean0.8960.9050.8810.8900.9520.959
Tabel 3 The Comparison of the Prediction Accuracy(MEAP) for BPSVR on Different Window Size表3 不同窗口大小的BPSVR預(yù)測性能(MEAP)對比
Tabel 3 The Comparison of the Prediction Accuracy(MEAP) for BPSVR on Different Window Size表3 不同窗口大小的BPSVR預(yù)測性能(MEAP)對比
DatasetTheSizeofWindow5%10%CMARC4.5CMARC4.5TheProposedMethodCMARC4.5AirfoilSelf?Noise0.1940.1850.1850.1760.1410.042Concrete_Data0.1490.1330.1370.1310.1160.053EnergyEfficiency0.2240.2160.2160.2440.1810.057RedWineQuality0.1740.1610.1680.1590.1240.053WhiteWineQuality0.1530.1420.1440.1360.1040.031BeijingPM2.5Data0.2540.2430.2410.2460.1730.026PPPTS0.2540.2490.2360.2190.1940.057Mean0.1970.1900.1900.1840.1480.043
為了充分驗證DFFS-VW算法的有效性,對比WFSIBC算法、IFSFNRS算法、OMVFS算法和FSDS算法在多個數(shù)據(jù)集下的特征選擇效果.圖2給出5種特征選擇算法的模糊特征選擇結(jié)果與原始模糊特征個數(shù)的對比結(jié)果.從圖2可以看出,除數(shù)據(jù)集SD,經(jīng)過5種動態(tài)特征選擇算法后,所選模糊特征個數(shù)都比原始模糊特征個數(shù)少,算法DFFS-VW最為明顯.DFFS-VW算法所選的模糊特征個數(shù)均比其余4種算法的少,這是因為DFFS-VW算法根據(jù)模糊權(quán)重獲取候選模糊特征子集,同時考慮輸入模糊特征與輸出特征的互信息量與輸入模糊特征之間的互信息量得到最優(yōu)模糊特征子集,使得DFFS-VW算法的特征選擇效果更加明顯.
Fig. 2 Fuzzy features comparison of different agorithms on different datasets圖2 模糊特征個數(shù)對比
表4給出了CMAR分類器和C4.5分類器對原始模糊特征集和3種動態(tài)特征選擇算法的所選模糊特征集的分類準確性的對比.從表4可以看出,除了SD數(shù)據(jù)集,DFFS-VW算法所選的模糊特征子集對于CMAR分類器的分類效果最好;經(jīng)特征選擇后,C4.5分類器對于各個數(shù)據(jù)集的分類準確率均得到了提高,其中DFFS-VW算法所選的模糊特征子集提高得最明顯.
表5給出了BP神經(jīng)網(wǎng)絡(luò)和支持向量回歸對原始模糊特征集和3種動態(tài)特征選擇算法的所選模糊特征集的預(yù)測精確性的對比.從表5可以看出,除SD數(shù)據(jù)集外,BP神經(jīng)網(wǎng)絡(luò)對DFFS-VW算法所選的模糊特征子集的預(yù)測精確性最好;經(jīng)模糊特征選擇后,支持向量回歸對于各個數(shù)據(jù)集的預(yù)測精確性均得到了提高,其中DFFS-VW算法所選的模糊特征子集提高得最明顯.
Tabel 4 The Comparison of the Classification Accuracy(Acc) 表4 CMARC4.5分類性能(Acc)對比
Tabel 4 The Comparison of the Classification Accuracy(Acc) 表4 CMARC4.5分類性能(Acc)對比
DatasetOriginalWFSIBCIFSFNRSDFFS?VWCMARC4.5CMARC4.5CMARC4.5CMARC4.5SD0.9060.9120.9060.9120.9060.9120.9060.912BCH0.9210.9250.9400.9450.9360.9380.9470.958Glass0.9320.9060.9510.9580.9450.9490.9620.967Liver0.9160.8960.9320.9330.9280.9310.9520.948Wine0.9250.9130.9390.9360.9380.9320.9570.969Yeast0.9150.9240.9430.9460.9280.9350.9630.974SEA0.9230.9090.9560.9610.9440.9250.9830.989Weather0.9190.9180.9450.9430.9360.9280.9480.957Mean0.9200.9130.9390.9420.9330.9310.9520.959
Tabel 5 The Comparison of the Prediction Accuracy (MEAP) 表5 BPSVR預(yù)測性能(MEAP)對比
Tabel 5 The Comparison of the Prediction Accuracy (MEAP) 表5 BPSVR預(yù)測性能(MEAP)對比
DatasetOriginalOMVFSFSDSDFFS?VWCMARC4.5CMARC4.5CMARC4.5CMARC4.5AirfoilSelf?Noise0.2480.0750.1830.0550.2090.0620.1410.042Concrete_Data0.2240.0940.1940.0420.2170.0510.1160.033EnergyEfficiency0.2350.0960.2040.0650.2180.0720.1810.057RedWineQuality0.2320.1040.1810.0670.2050.0690.1240.052WhiteWineQuality0.2060.0870.1920.0640.1860.0680.1040.031BeijingPM2.5Data0.3110.0760.2540.0540.2640.0650.1730.026PPPTS0.3410.1060.2720.0740.2950.0860.1940.057Mean0.2570.0920.2110.0610.2280.0680.1480.043
如圖3所示,本文采用不同的數(shù)據(jù)集對5種不同算法的運行時間進行了對比,可以看出,針對同一個數(shù)據(jù)集,DFFS-VW算法的運行時間最短.由于FSDS算法利用回歸模型提高所選模糊子集的預(yù)測正確率,在回歸模型尋參期間需要不斷迭代,時間復(fù)雜度大約為O(n3);WFSIBC算法使用貪婪算法發(fā)現(xiàn)最優(yōu)特征子集,而貪婪算法的時間復(fù)雜度是O(nlogn),當數(shù)據(jù)量較大時,算法復(fù)雜度也會大幅度地增加;IFSFNRS算法以粗糙鄰域為基礎(chǔ),在最壞情況下,需要對整個數(shù)據(jù)集進行重新特征選擇,時間復(fù)雜度不低于O(logn2);OMVFS算法將特征選擇嵌入到聚類算法中,使得時間復(fù)雜度近似為O(knlnL|C|),其中k是迭代至收斂的平均迭代次數(shù),nl是屬于第l個聚類的樣本個數(shù),L是輸入特征個數(shù),|C|是聚類個數(shù),由此可見OMVFS算法的時間復(fù)雜度也很大.DFFS-VW算法利用權(quán)重梯度選取候選模糊特征子集,減少了最優(yōu)模糊特征子集的尋找范圍,從而減少了算法的運行時間,時間復(fù)雜度為O(m),其中m是模糊特征個數(shù).其中,DFFS-VW算法對SD數(shù)據(jù)集的運行時間最長,對Wine數(shù)據(jù)集的運行時間最短.從圖3可以得出,原始模糊特征個數(shù)越多,算法的運行時間越長.
Fig. 3 Comparision of the running time for feature selection with different algorithms on different datasets圖3 不同數(shù)據(jù)集上不同算法特征選擇運行時間的比較
Fig. 4 The variable weight of some fuzzy features on the dataset SEA圖4 數(shù)據(jù)集SEA部分模糊特征變權(quán)
Fig. 5 The effect on classification accuracy of ignoring some fuzzy features on dataset SEA圖5 數(shù)據(jù)集SEA忽略部分模糊特征前后分類準確率
Fig. 6 The effect on predicition accuracy of ignoring some fuzzy features on dataset PPPTS圖6 數(shù)據(jù)集PPPTS部分模糊特征權(quán)重的演化
Fig. 7 The effect on predicition accuracy of ignoring some fuzzy features on dataset PPPTS圖7 數(shù)據(jù)集PPPTS忽略部分模糊特征前后預(yù)測精確率對比
綜上所述,DFFS-VW算法無需人為設(shè)置參數(shù),能夠自動得到最優(yōu)模糊特征子集,具有良好的自適應(yīng)性;利用互信息量計算特征之間的相關(guān)性,不僅考慮了特征之間的線性關(guān)系,還考慮了非線性關(guān)系,提高了特征選擇結(jié)果的分類準確看和預(yù)測精確率;考慮各個模糊特征的權(quán)重,得到候選模糊特征子集,并采取后向搜索的方式得到離線模糊特征選擇的優(yōu)化模糊特征子集,減少了算法運行時間,提高了算法的效率;將當前窗口的候選模糊特征子集和歷史模糊特征選擇結(jié)果的交集作為當前窗口的初始優(yōu)化模糊特征子集,根據(jù)模糊輸入特征相對于初始優(yōu)化模糊特征子集的重要度,獲得最終的優(yōu)化模糊特征子集.通過不同滑動窗口模糊特征權(quán)重的演化趨勢,發(fā)現(xiàn)模糊輸入特征對分類準確性或者預(yù)測精確性的影響.
本文研究動態(tài)模糊特征選擇問題,無論是連續(xù)數(shù)據(jù)集,還是類別數(shù)據(jù)集,以輸入特征相對與輸出特征的權(quán)重作為衡量輸入特征相對于輸出特征之間的重要性,提出基于特征變權(quán)的動態(tài)模糊特征選擇算法.在離線模糊特征選擇中,首先根據(jù)特征權(quán)重,獲取候選模糊特征子集.然后,結(jié)合后向特征選擇方式和模糊特征篩選指標,篩選候選模糊特征子集得到優(yōu)化模糊特征子集;在線模糊特征選擇中,以上一個滑動窗口的優(yōu)化模糊特征子集與當前滑動窗口中的候選模糊特征集的交集為基礎(chǔ),根據(jù)模糊輸入特征在模糊特征子集中的重要度,獲得當前窗口中的優(yōu)化模糊特征子集.更進一步,我們分析了窗口之間模糊特征權(quán)重的變化,發(fā)現(xiàn)輸入模糊特征的演化關(guān)系和模糊輸入特征對分類準確性或者預(yù)測誤差的影響.實驗結(jié)果表明了本文所提動態(tài)模糊特征選擇算法的有效性.但目前的滑動窗口實質(zhì)上仍然是在離線采集數(shù)據(jù)的基礎(chǔ)上反復(fù)學(xué)習(xí)獲得的,本文未來將研究隨著在線數(shù)據(jù)變化,自適應(yīng)地確定滑動窗口大小,進一步提升動態(tài)模糊特征選擇算法的性能.
[1]Xiao Jin, Xiao Yi, Huang Anqiang, et al. Feature-selection-based dynamic transfer ensemble model for customer churn prediction[J]. Knowledge and Information Systems, 2015, 43(1): 29-51
[2]Zhang Xiangrong, He Yudi, Jiao Licheng, et al. Scaling cut criterion-based discriminant analysis for supervised dimension reduction[J]. Knowledge and Information Systems, 2015, 43(3): 633-655
[3]Guyon I, Elisseeff A. An introduction to variable and feature selection[J]. Journal of Machine Learning Research, 2003, 3(3): 1157-1182
[4]Li Dan, Zhou Yuxun, Hu Guoqiang, et al. Optimal sensor configuration and feature selection for AHU fault detection and diagnosis[J]. IEEE Trans on Industrial Informatics, 2016, 13(3): 1369-1380
[5]Siwek K, Osowski S. Data mining methods for prediction of air pollution[J]. International Journal of Applied Mathematics and Computer Science, 2016, 26(2): 467-478
[6]Soguero-Ruiz C, Hindberg K, Rojo-Alvarez J, et al. Support vector feature selection for early detection of anastomosis leakage from bag-of-words in electronic health records[J]. IEEE Journal Biomedical Health Informatics, 2014, 20(5): 1404-1415
[7]Zhao Peilin, Steven C, Jin Rong. Double updating online learning[J]. Journal of Machine Learning Research, 2011, 12(may): 1587-1615
[8]Kohavi R, John G H. Wrappers for feature subset selection[J]. Artificial Intelligence, 1997, 97(1/2): 273-324
[9]Zhou Yang, Jin Rong, Steven C. Exclusive lasso for multi-task feature selection[J]. Journal of Machine Learning Research, 2010, 9: 988-995
[10]Wang Jialei, Zhao Peilin, Steven C, et al. Online Feature selection and its applications[J]. IEEE Trans on Knowledge & Data Engineering, 2006, 26(3): 698-710
[11]Li Yang, Gu Xueping. Feature selection for transient stability assessment based on improved maximal relevance and minimal redundancy criterion[J]. Proceedings of the Chinese Society of Electrical Engineering, 2013, 33(34): 179-186 (in Chinese)
(李揚, 顧雪平. 基于改進最大相關(guān)最小冗余判據(jù)的暫態(tài)穩(wěn)定評估特征選擇[J]. 中國電機工程學(xué)報, 2013, 33(34): 179-186)
[12]Naqvi S S, Browne W N, Hollitt C. Feature quality-based dynamic feature selection for improving salient object detection[J]. IEEE Trans on Image Processing, 2016, 25(9): 4298-4313
[13]Zhao Wei, Wang Yafei, Li Dan. A dynamic feature selection method based on combination of GA with K-means[C] //Proc of the Int Conf on Industrial Mechatronics and Automation. Piscataway, NJ: IEEE, 2010: 271-274
[14]Raza M S, Qamar U. An incremental dependency calculation technique for feature selection using rough sets[J]. Information Sciences, 2016, 343(12): 41-65
[15]Bilal I S, Keshav P D, Alamgir M H, et al. Diversification of fuzzy association rules to improve prediction accuracy[C] //Proc of the Int Conf on Fuzzy System. Piscataway, NJ: IEEE, 2010: 1-8
[16]Jing Yuege, Li Tianrui, Luo Chuan, et al. An incremental approach for attribute reduction based on knowledge granularity[J]. Knowledge-Based Systems, 2016, 104(7): 24-38
[17]Shao Weixiang, He Lifang, Lu Chunta, et al. Online unsupervised multi-view feature selection[C] //Proc of the 16th Int Conf on Data Mining. Piscataway, NJ: IEEE, 2016: 1203-1208
[18]Huang H, Yoo S, Kasiviswanathan S P. Unsupervised feature selection on data streams[C] //Proc of the 24th ACM Int Conf on Information and Knowledge Management.newyork. New York, ACM, 2015: 1031-104
[19]Li Yun, Wu Zhongfu. Fuzzy feature selection based on min-max learning rule and extension matrix[J]. Pattern Recognition, 2008, 41(1): 217-226
[20]Lughofer E. On-line incremental feature weighting in evolving fuzzy classifiers[J]. Fuzzy Sets & Systems, 2011, 163(1): 1-23
[21]Du Lei, Song Qinbao, Jia Xiaolin. Detecting concept drift: An information entropy based method using an adaptive sliding window[J]. Intelligent Data Analysis, 2014, 18(3): 337-364
[22]Wang Ling, Meng Jianyao. The dynamic clustering algorithm of Bayesian adaptive resonance theory based on local distribution[J]. Control and Decision, 2018, 33(3): 471-478 (in Chinese)
(王玲, 孟建瑤. 基于局部分布的貝葉斯自適應(yīng)共振理論增量聚類算法[J]. 控制與決策, 2018, 33(3): 471-478)
[23]Comas D S, Meschino G J, Nowe A, et al. Discovering knowledge from data clustering using automatically-defined interval type-2 fuzzy predicates[J]. Expert Systems with Applications, 2016, 68(2): 136-150
[24]Ghazikhani A, Monsefi R, Yazdi H S. Online neural network model for non-stationary and imbalanced data stream classification[J]. International Journal of Machine Learning and Cybernetics, 2014, 5(1): 51-62
[25]Li Wermin, Han Jiawei, Pei Jian. CMAR: Accurate and efficient classification based on multiple class-association Rules[C] //Proc of 2001 IEEE Int Conf on Data Mining (ICDM). Piscataway, NJ: IEEE, 2001: 369-376
[26]Mu Yashuang, Liu Xiaodong, Yang Zhihao, et al. A parallel C4.5 decision tree algorithm based on MapReduce[J]. Concurrency and Computation, 2017, 29(6): 1-12
[27]Cui Yongfeng, Ma Xiangqian Li, Liu Zhijie. Application of improved BP neural network with correlation rules in network intrusion detection[J]. International Journal of Security and Its Applications, 2016, 10(4): 423-430
[28]Wang Lihuan, Guo Yonglong, Xin G. An asymmetric weighted SVR for construction final accounting prediction[J]. Journal of Information and Computional Science, 2014, 11(5): 1387-1394