張夢婷,杜建強,羅計根,聶 斌,熊旺平,劉 明,趙書含
江西中醫(yī)藥大學 計算機學院,南昌 330004
近年來,許多研究者對特征選擇進行了大量的研究。特征選擇是指從已有的M個特征(feature)中選擇N個特征(M>N),使得系統(tǒng)的特定指標最優(yōu)化,是從原始特征中選擇出一些最有效特征以降低數據集維度的過程,也是提高學習算法性能的一個重要手段。在機器學習[1]、圖像處理[2]、數據挖掘[3]、生物信息學[4]和自然語言[5]等領域有著廣泛的應用。特征選擇要達到最大精度和最小特征子集兩個目標,而單目標特征選擇算法易融入主觀偏好,從而影響特征選擇的質量。因此多目標優(yōu)化特征選擇成為比較新且常見的方法之一,已經通過多種多目標技術和算法對特征選擇進行了多項研究,亦成為眾多機器學習、數據挖掘等領域的研究熱點。
多目標優(yōu)化(multi-objective optimization algorithms,MOA)的概念的初次出現是在1881年經濟學領域,用于研究對平衡不同顧客要求的問題上。如今,多目標優(yōu)化被應用在各個領域,如在工程領域[6]、工業(yè)污染[7]以及在焊接上[8]等;MOA的概念是在某個問題中在需要達到多個目標時,由于存在目標間的內在沖突,一個目標的優(yōu)化可能會導致其他目標的劣化,因此很難出現唯一最優(yōu)解,取而代之的是在他們中間做出協(xié)調和折衷處理,使總體的目標盡可能的達到最優(yōu)。
在這個數據爆炸的時代,得到的數據來自各個領域,對凝煉特征質量的要求也越來越高。特征選擇旨在去除冗余和無關特征,為達到最大精度的同時要求特征子集個數最小。為此,研究者將特征選擇看作一個多目標優(yōu)化問題,從最初使用基于先驗的方法將多目標問題轉換成單目標問題,到現在使用不同的進化算法來求解,取得了一些成果。李郅琴等人[9]對特征選擇的方法進行綜述,介紹了特征選擇方法框架,描述了生成特征子集、評價準則兩個過程,并根據特征選擇和學習算法的不同結合方式對特征選擇算法分類,但未涉及到多目標特征選擇。Al-tashi等人[10]對多目標特征選擇問題的挑戰(zhàn)和問題進行系統(tǒng)的文獻綜述,并批判性地分析用于解決該問題的建議技術,但沒有對多目標特征選擇進行分類討論。本文對多目標特征選擇研究進行綜述,將其方法進行分類討論,并分析此研究當前存在的問題。
特征選擇(feature selection)是一個重要的數據預處理過程,常見的特征選擇方法大致分為三種:過濾式(filter)[11]、嵌入式(embedding)[12]和包裹式(wrapper)[13]。過濾式是先用特征選擇的過程對初始的特征進行篩選,然后用篩選后的特征進行模型的訓練,并不會與學習器進行交互也不考慮特征與特征之間的關系。雖然過濾式的可擴展性好且速度快,但準確性并不高。嵌入式是將特征選擇的過程與學習器的訓練過程融為一體,在學習器的訓練過程中,自動地進行了特征的選擇,但只能在特定的模型中使用。包裹式的使用最為廣泛,它的特征選擇考慮到具體的學習器,是根據學習器上的誤差來評價特征子集的優(yōu)劣,在子集的搜索方式上使用了隨機策略,考慮了特征與特征之間的關系,但是面對高維數據時計算量非常大。
特征選擇是一個NP-hard[14]組合優(yōu)化問題,假設一個n維數據集,可能存在2n的特征子集,仔細搜索這全部的特征子集顯然是不可能的。如今,各種搜索方法已被應用于特征選擇,如順序向前選擇(SFS)[15]、順序向后選擇(SBS)[15]等。然而這些方法存在局部搜索、計算量大以及嵌套效應等問題,而一些基于進化算法的元啟發(fā)式搜索[16]可以提高搜索效率和解的質量,因此進化算法被廣泛地應用于特征選擇。
特征選擇是許多分類和回歸任務中常見的關鍵問題,特征選擇有兩個彼此沖突的目標:特征子集最小化和性能最大化。雖然子集個數增加會提高準確率,但子集的個數過多時可能會導致過度擬合以及泛化能力差等問題。特征選擇方法傾向于使用最少數量的特征來提高算法(例如分類器)的學習性能,因此近年來使用多目標優(yōu)化方法來解決特征選擇的情況顯著增長。與單目標優(yōu)化方法相比,借助多目標優(yōu)化方法在特征選擇上可以更有效地探索搜索空間,并找出質量更高的特征子集。
單目標特征選擇,即采用單一的指標(如模型的精度或特征子集的個數)對特征子集進行評估,這種方法常專注于某一指標而忽略另一個。在實際研究中,模型預測的精準度和特征子集的數目都是特征選擇中的主要問題。因此,許多研究者試圖同時解決特征選擇的多個問題,并采用多目標優(yōu)化的方法來解決特征選擇問題,稱為多目標特征選擇。
基于元啟發(fā)式搜索的特征選擇問題可以根據目標的數量將優(yōu)化問題分為兩類:單目標和多目標優(yōu)化。單目標優(yōu)化的情況下,只有一個目標,任何兩個解都可以依據單一目標來比較其好壞,最后得出無可爭議的最優(yōu)解。而多目標優(yōu)化與傳統(tǒng)的單目標優(yōu)化相對,多目標優(yōu)化問題要解決的是使給定的多個目標函數盡可能同時達到最佳,不存在唯一的全局最優(yōu)解。多目標優(yōu)化的解通常是一組均衡解,即一組由眾多Pareto最優(yōu)解[17]組成的集合,其中Pareto解又稱非支配解或不受支配解,在有多個目標時,由于目標之間的沖突和無法比較的現象,在改進任何目標函數的同時,必然會削弱至少一個其他目標函數的解稱為Pareto解。
多目標優(yōu)化需要同時優(yōu)化兩個或者兩個以上的目標函數,且各目標函數之間相互沖突,不能顯式地平衡它們,即一個目標的優(yōu)化可能引起另一個目標的衰落,不能使每個目標函數達到最優(yōu)。多目標優(yōu)化的方法主要分為基于先驗[18]和基于后驗的方法[19]。在解決多目標的實際問題時,特征選擇將被視為最大化或最小化問題。如果目標數量為n,則一個標準的多目標優(yōu)化數學模型應該表示見公式(1)所示。多目標優(yōu)化方法旨在獲取一組非支配最優(yōu)解或特征子集。
2.1.1 基于先驗的方法
基于先驗的方法又稱傳統(tǒng)優(yōu)化算法,包括加權法[20]、約束法[21]和最小最大法[22]等方法。傳統(tǒng)的多目標優(yōu)化算法是通過分析、分解和替換將多目標問題轉為單目標問題再用單目標優(yōu)化技術進行求解,因而每次只能得到Pareto解集中的一個。
(1)加權法
加權法就是對多目標優(yōu)化問題中的N個目標按其重要程度賦以適當的權系數,其乘積和作為新的目標函數,再求最優(yōu)解。使用加權求和法求解特征選擇問題,如加權求和法可以將多目標優(yōu)化表示為:
(2)約束法
在1971年約束法被提出,其原理是將某個目標函數作為優(yōu)化目標,而約束其他目標函數的方法來求解多目標優(yōu)化問題。多目標優(yōu)化中的約束法的數學模型可表示為:
為了得到不同的Pareto最優(yōu)解,εi作為上界可以取不同的值,Xf則為解的集合。
(3)最大最小法
起源于博弈論的最小最大法是為了求解多目標問題而設計的,其原理是通過最小化各個目標函數值與預設目標值之間的最大偏移量來尋求問題的最優(yōu)解。其數學模型可以表示為:
基于先驗的方法的優(yōu)勢在于可以利用已有且成熟的單目標優(yōu)化技術來求解,有計算量小、速度快、有充分理論支撐等優(yōu)點,使其更適合于實際應用,但其要求決策者在不知道任何替代方案之前明確且準確地權衡不同的目標,導致該方式存在一些缺陷,如多個目標函數的單位不統(tǒng)一;分配的權值是否存在主觀性等。
2.1.2 基于后驗的方法
受自然界生物系統(tǒng)的啟發(fā),智能優(yōu)化法已成為多目標優(yōu)化領域的一個熱門話題。它以其全局搜索能力而聞名,因此廣泛應用于特征選擇。而大多數的智能優(yōu)化算法是基于后驗的方法來實現的,關鍵點是它們在優(yōu)化過程的每次迭代中操縱一組解決方案。換句話說,可以在一次運行中產生多個權衡解決方案,這使它們能夠在多目標優(yōu)化中顯示出良好的效果。智能優(yōu)化算法克服了線性加權等傳統(tǒng)方法受權值影響的缺點,有著快速的全局搜索能力且不依賴于先驗知識。
自Schaffer[23]首次將進化算法用于解決多目標優(yōu)化問題后,很多研究者不斷提出新的多目標進化算法,目前已有遺傳算法(GA)[24]、粒子群算法(PSO)[25]、蟻群算法(ACO)[26]等一系列智能優(yōu)化算法用來解決多目標優(yōu)化問題。近年來,使用智能優(yōu)化算法解決特征選擇問題的文獻顯著增多?;诤篁灥亩嗄繕藘?yōu)化方法也已被應用于處理現實世界的問題,例如顏景斌等人[27]采用基于NSGA-II算法的多目標優(yōu)化方法來解決SWISS整流器的性能問題;李琳等人[28]根據動態(tài)變化的外部環(huán)境調整面向服務軟件的部署方案,對傳統(tǒng)多目標蟻群算法進行改進,引入摒棄精英解策略以避免算法早熟收斂,提出一種求解面向服務軟件部署優(yōu)化問題的多目標蟻群算法。
基于后驗的方法通過進化算法的代與代之間維持由潛在解組成的種群來實現全局搜索,從而解決多目標優(yōu)化問題,是一類模擬生物進化機制而形成的全局性概率優(yōu)化搜索方法。但當目標是高維時,非支配個體在種群所占的比例隨著目標個數的增多而上升,部分個體變成非支配解,從而大大削弱了基于Pareto支配進行排序與選擇的效果,導致進化算法搜索能力下降。
多目標優(yōu)化問題的評價標準不同于單目標,單目標的評價直接取決于最終解的好壞,而想要驗證一個多目標優(yōu)化算法的好壞往往取決于一個解集的質量。多目標優(yōu)化算法主要有兩個評價標準:收斂性、多樣性,多樣性又包括解集分布的均勻性和廣泛性。多目標優(yōu)化解集方案的性能評估一直也是研究的熱點,最新文獻表明現如今有70多種性能指標[29],其最常用的性能指標有世代距離(GD)、最大分散度(MS)、SP、逆世代距離(IGD)、ε指標和超體積度量(HV)。其中,后三個性能指標能綜合考慮兩個評價標準。
(1)世代距離(generational distance,GD)
Veldhuizen和Lamont[30]在1999年提出了GD指標,它表示求出的最優(yōu)邊界PFknown和真正的最優(yōu)邊界PFture之間的間隔距離,該距離表示偏離真正邊界的程度。GD的值越大,偏離真正的最遠邊界越遠程度越高,收斂性就越差。GD的公式表示為:
其中,p表示目標維數,當p=2時為歐幾里德距離。n表示PFknown中點的個數。di表示目標空間上第i個解與PFture上相距最近的參考點之間的歐式距離。
(2)最大分散度(maximum spread,MS)
MS[31]是一個廣泛使用的分布性指標,用于衡量所得PFknown對PFture的覆蓋程度,它通過考慮每個目標的最大范圍來衡量解決方案的范圍。其中,aj和a′j表示兩個不同的目標,m為目標的個數,當m=2時,非支配解集的MS值是其兩個極值解的歐氏距離。它沒有考慮集合的收斂性,遠離帕累托前沿的解通常對MS值有很大貢獻,因此很多研究者對其進行了相應的改進。MS的數學公式表示為:
(3)SP(spacing metric)
SP是Schott[32]提出的性能指標,度量每個解到其他解的最小距離的標準差,是最受歡迎的分布性指標。SP值越小,說明解集分布的越均勻。但SP僅度量解集的均勻性,沒有考慮它的廣泛性。
其中,A=a1,a2,…,aN,dˉ是所有d1平均值,即ai與集合A/ai的L1范數距離。
(4)逆世代距離(inverted generational distance,IGD)
逆世代距離(IGD)[33]是世代距離的逆向映射,它表示問題真正的最優(yōu)邊界PFture到算法所求得的非支配解集PFknown的平均距離,如圖1所示,IGD計算的是圖中Reference Solutions到最近的Solutions的平均距離,即Pareto近似前沿上的每個參考點到解集中最近的解的平均距離。
圖1 IGD指標Fig.1 Inverted generational distance indicator
IGD的值越小,獲得的解集越好,它不僅能反應解集的收斂性,還能反應解集的均勻性和廣泛性。IGD的公式表示為:
其中,F*是PFture上均勻選取一定數目的個體,F為算法求得的最優(yōu)解集。mindis(x,F)表示F中的個體到個體x之間的最小歐幾里德距離。
(5)ε指標
ε指標是Zitzler等人[34]在2003年提出的,考慮了解集之間的最大差異,它給出了一個因子,在考慮所有目標的情況下,一個近似集比另一個更差。形式上,設A和B為兩個近似集,則ε(A,B)等于最小因子,使得對于B中的任何解,A中至少有一個解不會因考慮所有目標的因素而變差。ε指標有兩個版本加法ε+指標和乘法ε×指標,數學公式表示如下。兩個版本都是指標值越小越好,當ε+(A,B)≤0或ε×(A,B)≤1時意味著A弱支配B。
其中,m為目標的個數,a和b分別是A和B中的解,aj表示a的第j個目標。
(6)超體積度量(hypervolume,HV)
HV性能指標最早是由Zitzler等人[35]提出的,如圖2所示,它表示由解集中的個體(圖中Solutions)與參考點(圖中的Reference Solutions)在目標空間中所圍成的超立方體的體積(圖中的陰影部分)。HV是當前評價多目標優(yōu)化算法中可信度最高的指標,能同時衡量算法的收斂性和多樣性,但受參考點的影響比較大。它的評價方式與Pareto一致,如果一個解集S優(yōu)于另一個解集S1,那么解集S的HV指標也會大于解集S1的。
圖2 HV指標Fig.2 Hypervolume indicator
多目標問題具有多個目標函數,現實世界大多數的問題本質上都是多目標問題,特征選擇問題也被認為是其中之一。將特征選擇作為一項多目標任務進行研究,在這種情況下,選擇特征的準確性和數量的目標函數一起演變,這允許同時評估不同維度的特征集。多目標特征選擇的方法可以消除在處理基于適應度的探索和利用階段時觀察到的陷阱,在特征數量和性能兩個目標之間取得最佳平衡。
研究者起初使用傳統(tǒng)的優(yōu)化方式將兩個目標合并成一個目標進行特征選擇,如Chuang等人[36]使用加權求和法將特征數量和分類精度兩個目標合并為一個目標求解;Tran等人[37]將分類精度和距離兩個目標一起考慮。隨后,研究者試圖同時優(yōu)化特征選擇的兩個目標,將基于進化計算的特征選擇算法引入多目標優(yōu)化,如Got等人[38]提出了一種使用鯨魚優(yōu)化算法(WOA)的新型混合過濾器包裝的多目標特征選擇方法;Wang等人[39]研究了一種基于樣本縮減策略和進化算法的多目標特征選擇框架,將基于粒子更新模型的改進人工蜂群算法嵌入到框架中,提出了一種快速多目標進化特征選擇算法。根據特征選擇的評估措施不同,將多目標特征選擇分為基于過濾式的、基于包裹式的和基于混合式的三類。
基于過濾式的方法是使用信息理論準則來評估一組特征的優(yōu)度,通過性能度量選擇特征,再使用學習器進行訓練,所以基于過濾式的方法不依賴于學習器。過濾式的評價準則包括:信息度量、距離度量、依賴性度量以及一致性度量(只適用于分類)等。其中,信息度量和依賴性度量使用最為廣泛?;谶^濾式的多目標特征選擇通常需要優(yōu)化的矛盾目標為相關性、冗余和特征子集大小。下面對近些年基于過濾式的多目標特征選擇的研究進行綜述,過濾式中各種方法的對比見表1。
表1 基于過濾式多目標特征選擇Table 1 Filter based multi-objective feature selection
文獻[40]綜合考慮特征子集的稀疏性、分類能力和信息量等多個目標函數,提出一種基于子集評價多目標優(yōu)化的特征選擇框架,使用多目標粒子群算法(MOPSO)進行特征權值向量尋優(yōu),實現基于權值向量排序的特征選擇,將特征子集的信息量作為評價函數之一,使得該方法有較好的穩(wěn)定性且信息損失度低;文獻[41]采用互信息和基于增益比的熵作為濾波器評價指標,使用二元杜鵑優(yōu)化算法與非支配排序遺傳算法NSGAIII和NSGAII相結合,提出了兩種不同的基于多目標濾波器的特征選擇框架,來尋找具有最小錯誤率的更少特征,使用成對評估來衡量兩個特征之間的關系,不涉及相關性和冗余的復雜計算,故速度快且特征子集性能較好,過濾器更快擴展到大型數據集但缺乏良好的分類性能。文獻[42]提出了多目標相對判別準則(MORDC)的方法來平衡最小冗余特征和與目標類最大相關的特征使特征子集冗余度低,并采用多目標進化框架來搜索解決方案空間,計算效率快。文獻[43]提出了一種基于精英主義的多目標差分進化特征選擇算法(FAEMODE)的過濾方法,考慮了特征之間的線性和非線性依賴,以處理數據集的冗余和無關特征,這導致選擇一個特征子集,該子集對數據集的良好和穩(wěn)定分類具有很高的潛力且預測準確性高,但未考慮時間成本。文獻[44]基于非支配排序和擁擠距離思想以及二元粒子群(BPSO)開發(fā)了兩種新穎的多目標分類特征選擇框架,應用互信息和熵作為兩個不同的過濾器評估標準,得到一組使用較少特征的解,熵作為評價標準可以發(fā)現一組特征之間的多向相關性和冗余性,從而進一步提高分類性能且使用更少的特征,但由于更新機制失去了群的多樣性。文獻[45]首次對多目標粒子群算法(PSO)進行特征選擇的研究,考慮了兩種基于PSO的多目標特征選擇算法,即NSPSOFS和CMDPSOFS。前者將非支配排序的思想引入到PSO中,以解決特征選擇問題。后者將擁擠、突變和優(yōu)勢的思想應用于PSO,以搜索Pareto前沿解,CMDPSOFS采用不同的機制來維持領導者和群體的多樣性,使計算時間更少,但在NSPSOFS中快速丟失群多樣性的潛在局限性限制了其特征選擇的性能,故特征子集質量欠佳。
基于過濾式的方法獨立于學習算法,使用數據的統(tǒng)計特征進行評估。與基于包裹式方法相比計算成本更低,有效地消除無關和嘈雜的特征,但忽略了特征組合的影響。
基于包裹式的多目標特征選擇與基于過濾式的不同,前者會通過一些優(yōu)化算法來考慮特征之間的關系,需要用學習器來評估特征子集的優(yōu)劣?;诎降姆椒ㄖ杏靡栽u價特征的學習算法是多種多樣的,例如決策樹、神經網絡、貝葉斯分類器、近鄰法以及支持向量機等。其通常優(yōu)化的目標為最大化精度,同時最小化特征子集大小。目前,已經有許多研究者使用包裹式來做多目標特征選擇且取得了一些成果,本文對近幾年的基于包裹式的多目標特征選擇文獻進行綜述,具體方法之間的對比見表2。
表2 基于包裹式多目標特征選擇Table 2 Wrapper based multi-objective feature selection
文獻[46]提出一種改進的基于擁擠、變異和支配策略的多目標粒子群特征選擇(CMDPSOFS-II),引入了差分進化的變異和選擇方式,解決了之前均勻變異帶來的收斂速度慢的問題,更好地平衡了全局和局部搜索能力,在特征數相等時,CMDPSOFS-Ⅱ可以選出錯誤率更低的特征組合,特征子集的質量高,但未考慮計算成本。文獻[47]提出了一種基于森林優(yōu)化算法(FOA)的多目標特征選擇算法,使用了存檔、網格和基于區(qū)域的選擇概念,通過選擇較少的特征數量,在大多數情況下能夠減少分類錯誤,使用簡單的算子來產生新的解并用存檔來保存非支配解,故花費更少的計算時間,與高維數據集中的其他多目標方法相比,該算法無法選擇較少數量的特征。由于最初的多目標灰狼優(yōu)化器(MOGWO)不能直接用于解決本質上是離散的多目標特征選擇問題,文獻[48]提出了基于sigmoid傳遞函數的MOGWO的二進制版,且通過包裹式的人工神經網絡(ANN)來評估選定特征子集的分類性能,該算法參數較少,這對于大型數據集在時間消耗方面更有幫助,且適用于各類數據集,適用性高,但未考慮穩(wěn)定性。文獻[49]提出了一種基于多目標優(yōu)化的多標簽特征選擇算法(MMFS),通過改進具有兩個檔案的NSGAIII算法來提高它的多樣性和收斂性。該方法可以平衡多個目標,去除不相關和冗余特征且獲得滿意的分類結果,由于使用包裹式,計算成本較大。文獻[50]提出了多節(jié)優(yōu)化器(MVO)的二元多目標變體(MOMVO)來處理特征選擇任務。該方法基于三個宇宙學概念:白洞、黑洞和蟲洞。此外,針對標準MOMVO存在局部最優(yōu)停滯的問題,還提出了MOMVO的一種變體,該變體在更新中納入了個人最佳解決方案。與大多數進化的包裹式方法不同,所提出的基于MOMVO的方法將模型的準確性和維數的減少作為多目標優(yōu)化問題,由于傳統(tǒng)MOMVO的探索性和開發(fā)性優(yōu)勢,提高了分類精度,包裹式在選擇相關子集時可以使用標簽或依賴項,進而提高特征子集的質量,但計算時間長。文獻[51]為了避免包裹式方法通常會遇到的過度擬合問題,提出了一種基于多目標進化算法的特征選擇包裹式方法,精心設計了該方法中個體或潛在解的表示以及育種算子和目標函數,以選擇小部分具有良好泛化能力的特征,兩個目標函數旨在避免對群體中的每個個體應用交叉驗證評估,這將需要更多的計算時間,為了分析所提出的包裝方法的穩(wěn)定性,還提出了一種新的特征排序。文獻[52]介紹了一種用于信用評分中特征選擇的多目標利潤驅動框架,將預期最大利潤(EMP)和特征數量似為兩個適應度函數,以解決盈利能力和可理解性問題。使用遺傳算法NSGA-II執(zhí)行多目標優(yōu)化,提出的方法比傳統(tǒng)特征選擇策略更少的特征產生更高的預期利潤,但未考慮計算時間。文獻[53]提出了基于NSGA-II和MOPSO的兩種新方法來預測華法林劑量。與經典方法相比,多目標優(yōu)化方法具有更高的準確性,且通過實驗對比,使用多目標粒子群算法(MOPSO)有更高的精度和準確性,但未考慮時間復雜度。文獻[54]針對分類問題中缺失數據的問題,將可靠性作為特征選擇的第三個目標,提出了非支配排序遺傳算法III(NSGA-III)并采用平均插補法來處理缺失數據,有很好的可靠性。NSGA-III將個體與每個參考點相關聯(lián),并有效地選擇了與參考點相關性較小的個體,故有更好的性能,其與四種流行的多目標優(yōu)化算法相比,在IGD和HV方面都優(yōu)于其他方法,但未考慮計算成本。
基于包裹式的方法相對于過濾式的方法來說,找到的特征子集更優(yōu),但選出的特征通用性不強,且計算復雜度很高,特別是面對高維數據時需要更大的成本代價,算法的執(zhí)行時間很長。
結合過濾式和包裹式的優(yōu)點提出了混合式特征選擇方法,其應用過濾式技術來減少特征空間,再使用包裹式方法進行最終的特征選擇。如今,基于混合式的多目標特征選擇的應用不斷增多,尤其是在處理一些高維數據,同時利用過濾式的速度和包裹式的精度能有效實現高質量的特征子集。下面對基于混合式的多目標特征選擇的最新文獻進行綜述,具體對比見表3。
表3 基于混合式多目標特征選擇Table 3 Hybrid based multi-objective feature selection
文獻[55]利用自適應突變操作來擾動種群,避免粒子群算法陷入局部最優(yōu)的問題,以及利用互信息來表示數據間的依賴程度,提出了混合互信息和粒子群算法的多目標特征選擇的方法(HMIPSO),因此能夠很好地降低特征個數以及分類錯誤率。結合互信息和新的集合知識提出了一種局部搜索策略,刪除了不相關和冗余特征,篩選出的特征子集冗余度低,但未考慮時間復雜度問題;文獻[56]結合互信息和皮爾遜相關系數兩種評價準則提出一種慢性腎病預測的多目標特征選擇模型。在GWO的基礎上采用精英反向學習、非線性控制參數和聯(lián)想記憶策略三個改進算子來提高對慢性腎病的預測準確率,考慮了最大化特征數與類別之間的相關性以及最小化特征之間的依賴性使特征子集冗余度低,但該模型不適用于其他醫(yī)學臨床數據。文獻[57]針對進化算法特征選擇穩(wěn)定性問題,提出一種面向穩(wěn)定特征選擇的多目標蟻群優(yōu)化方法。采用信息增益、卡方檢驗和ReliefF三種特征排序法作為多目標蟻群優(yōu)化的穩(wěn)定性指導信息,聚合特征的費舍爾分值和最大信息系數值啟發(fā)式信息,很好地平衡了分類性能和穩(wěn)定性能,且穩(wěn)定性變化趨勢較為穩(wěn)定有著很好的魯棒性,但該方法未考慮篩選出特征子集的個數。文獻[58]對于高維數據的特征選擇問題,提出一種基于兩級粒子協(xié)作的特征選擇多目標優(yōu)化。同時考慮特征數量、分類錯誤率和距離度量三個目標,使用二進制粒子群優(yōu)化兩級粒子合作策略,有效地減少特征數量,將隨機生成的普通粒子和經過ReliefF過濾的粒子組合,保持快速收斂,加快了速度,雖然實現具有競爭力的分類精度,但NSGA-COPSO在平均分類精度方面略優(yōu)于MOEA/D-COPSO。文獻[59]充分利用filter法和wrapper法的優(yōu)點,提出了一種交互式過濾式-包裹式多目標進化算法。該方法采用引導和修復策略來選擇高質量的特征子集,準確性和所選特征數量方面優(yōu)于現有的現有技術,隨著實例數量的增加,算法中包裹式評估時間變得更長,這導致GR-MOEA的總運行時間變長,時間成本欠佳。文獻[60]提出了一種結合遺傳算法和局部搜索進行特征選擇的多目標混合方法。優(yōu)化兩個過濾式目標,即特征數量和互信息,以及一個與精度相對應的包裹式目標,以降低特征的維數并提高分類性能,平衡了全局和局部搜索獲得更好的性能,將過濾式和包裹式結合,保持分類性能并降低成本,但只考慮了epsilon指標,沒有使用其他質量指標,故有效性欠佳。文獻[61]為了實現最小的基因子集和最大化分類準確性兩個目標,提出了使用多目標斑點鬣狗優(yōu)化器(MOSHO)和薩爾普群算法(SSA)進行基因選擇的框架(C-HMOSHSSA),利用SSA和MOSHO的特性來促進其探索和利用能力,有較好的性能,在四個分類器上訓練后,結果顯示所提出的技術成功地識別了新的信息和生物相關基因集,且可以應用于特征選擇其他的問題領域,適用性高,穩(wěn)定性也是特征選擇的一大難題,但該方法未考慮穩(wěn)定性。
本文闡述了多目標優(yōu)化的方法和評價準則和特征選擇的本質,然后詳細分析了多目標優(yōu)化特征選擇的方法和區(qū)別。將特征選擇問題描述為多目標優(yōu)化問題有助于獲得一組最優(yōu)特征子集,以滿足決策者的各種需求。盡管各種多目標特征選擇的方法被提出,但仍然存在一些問題需要深入研究。
(1)在多目標優(yōu)化特征選擇中,基本是使用特征子集的個數和性能兩個目標。而在做特征選擇時往往有多個評價指標如穩(wěn)定性、復雜性等,且這些評價指標會影響最終解的選擇。因此,將多個評價指標同時作為優(yōu)化目標也具有一定的挑戰(zhàn)性。
(2)當優(yōu)化目標增多時,會一定程度上帶來決策選擇和復雜度等問題。因此,當優(yōu)化目標增多時如何解決其帶來的問題也有待研究。
(3)對于高維特征選擇問題,Pareto最優(yōu)解通常是稀疏的,大多數決策變量為零。而使用大多數現有的多目標進化算法解決此類問題是困難的。
(4)分類和回歸問題是機器學習的主要問題。目前大多數多目標優(yōu)化特征選擇都用于分類,很少用于回歸問題中,而現實問題中回歸依然很重要。因此,多目標特征選擇的回歸問題很值得研究。
(5)從進化算法的角度來講,目前已有遺傳算法(GA)、粒子群算法(PSO)、蟻群算法(ACO)等一系列算法用來解決多目標優(yōu)化問題,但用的比較多的還是遺傳算法和粒子群算法。隨著一些新興的進化算法的出現,未來還有更多的算法值得挖掘并應用在多目標特征選擇上。