李濤 ,李佳霖 ,阮寧 ,徐久成
(1.河南師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院,新鄉(xiāng),453007;2.河南師范大學(xué)軟件學(xué)院,新鄉(xiāng),453007;3.“智慧商務(wù)與物聯(lián)網(wǎng)技術(shù)”河南省工程實(shí)驗(yàn)室,新鄉(xiāng),453007)
隨著大數(shù)據(jù)技術(shù)的迅速發(fā)展,日益增加的海量高維數(shù)據(jù)[1-3]對(duì)傳統(tǒng)數(shù)據(jù)分析與處理方法提出了新的挑戰(zhàn).特征選擇[4-6]是一種重要的數(shù)據(jù)降維技術(shù),通過剔除數(shù)據(jù)集中的無關(guān)或冗余特征,形成一個(gè)結(jié)構(gòu)上更緊湊的特征子集,從而減少學(xué)習(xí)模型的訓(xùn)練時(shí)間并提高泛化能力.特征選擇方法在數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和生物信息學(xué)等領(lǐng)域得到廣泛應(yīng)用,取得了較好的成果.
常見的特征選擇方法可分為過濾式方法[7]、封裝式方法[8-10]和嵌入式方法[11]三大類.過濾式方法在未訓(xùn)練學(xué)習(xí)器的情況下評(píng)估特征子集,雖然其擴(kuò)展性強(qiáng)且計(jì)算成本低,但由于缺少學(xué)習(xí)器的訓(xùn)練學(xué)習(xí)導(dǎo)致分類性能較差.封裝式方法結(jié)合具體學(xué)習(xí)器的誤差來衡量候選特征子集,取得了較好的分類準(zhǔn)確性,但其需要計(jì)算特征間的交互關(guān)系,計(jì)算開銷較大.嵌入式的方法將特征選擇與學(xué)習(xí)器訓(xùn)練相結(jié)合,在學(xué)習(xí)算法的執(zhí)行過程中完成最優(yōu)特征子集的選擇.雖然上述三類特征選擇方法已有大量探索,但仍存在特征子集陷入局部最優(yōu)、關(guān)鍵特征選擇不準(zhǔn)確等問題.假設(shè)一個(gè)數(shù)據(jù)集的特征數(shù)為n,則存在2n-1(除去空集)種候選特征子集,采用窮舉搜索高維數(shù)據(jù)特征顯然不可行.針對(duì)高維數(shù)據(jù)特征選擇亟須解決的問題,一是由于維度高導(dǎo)致搜索空間巨大,需要減少評(píng)估候選特征子集的計(jì)算量;二是特征間存在復(fù)雜的互轉(zhuǎn)化關(guān)系,需要準(zhǔn)確識(shí)別與選擇關(guān)鍵特征來構(gòu)造全局最優(yōu)特征子集.
近年來,進(jìn)化計(jì)算方法(Evolutionary Computing Algorithms,EAs)因其強(qiáng)大的全局尋優(yōu)能力引起了研究者的廣泛關(guān)注,基于進(jìn)化計(jì)算的特征選擇方法可以提高全局最優(yōu)解的搜索效率,根據(jù)優(yōu)化目標(biāo)的不同可以分為基于單目標(biāo)的特征選擇優(yōu)化方法和基于多目標(biāo)的特征選擇優(yōu)化方法.雖然基于多目標(biāo)優(yōu)化的特征選擇方法一次運(yùn)行就能獲得多個(gè)解,但從獲得的Pareto 解集中正確選擇合理的唯一特征子集仍是難點(diǎn).比較經(jīng)典的多目標(biāo)優(yōu)化算法是NSGA-II[12-14],主要采用非支配排序與擁擠距離的思想來評(píng)估兩個(gè)優(yōu)化目標(biāo)上的個(gè)體,最后構(gòu)成Pareto 解集.近期,針對(duì)特征選擇問題,學(xué)者們也提出眾多有效的基于進(jìn)化計(jì)算的多目標(biāo)特征選擇方法.Xu et al[15]提出NSGA-Ⅱ與MOPSO 混合方法進(jìn)行多目標(biāo)特征選擇,雖然探索性強(qiáng),收斂性強(qiáng),還能避免陷入局部最優(yōu)的困境,但篩選的特征子集仍包含大量的冗余特征,且時(shí)間復(fù)雜度較高.Liu et al[16]提出基于高斯混合模型和改進(jìn)NSGA-Ⅱ算法的多目標(biāo)優(yōu)化方法,利用平均距離將整個(gè)種群劃分為若干子種群,再對(duì)各個(gè)子種群執(zhí)行選擇、交叉和變異操作.該方法能有效保持Pareto 最優(yōu)解集的多樣性,進(jìn)一步提高算法的收斂性,但忽略了特征之間的復(fù)雜相關(guān)性,增加了剔除關(guān)鍵特征的可能性,折中解較差.Zhang et al[17]提出一種改進(jìn)的NSGA-Ⅱ算法,引入余弦相似性,使下一代的種群個(gè)體向偏好方向聚集,然后根據(jù)預(yù)期的特征首選項(xiàng)來調(diào)整解決方案的設(shè)置方向,以此評(píng)估優(yōu)化算法的收斂性、解多樣性和偏好一致性,但其沒有針對(duì)獲得的Pareto解集進(jìn)行分析,無法獲取最優(yōu)個(gè)體.
上述基于NSGA-Ⅱ的改進(jìn)與優(yōu)化方法一定程度上改善了特征子集的分類性能,但NSGA-Ⅱ在處理高維特征選擇問題時(shí)仍存在不足.一是在設(shè)計(jì)進(jìn)化算子時(shí)沒有考慮自適應(yīng)性對(duì)特征子集選取的影響,多目標(biāo)進(jìn)化搜索的Pareto 解集質(zhì)量差.通常個(gè)體交叉和變異過程主要依賴個(gè)體適應(yīng)度,會(huì)錯(cuò)誤保留冗余特征或刪除相關(guān)特征,導(dǎo)致特征子集的分類性能不佳.二是Pareto 解集中缺少合理最優(yōu)解選擇策略.盡管多目標(biāo)優(yōu)化特征選擇方法提供了優(yōu)秀解決方案,但解決方案的選擇往往依賴決策者的主觀需求,缺少合理最優(yōu)解的選擇依據(jù),所以選擇的特征子集的可解釋性較差.
為了解決上述問題,本文提出一種基于自適應(yīng)環(huán)境因子熵權(quán)決策的多目標(biāo)特征選擇算法(Adaptive Environmental Factor Entropy Weight Decision-Making-Based Multi-ObjectiveFeature Selection Algorithm,AMFS),主要框架如圖1 所示.首先,根據(jù)特征關(guān)系設(shè)計(jì)環(huán)境因子,依據(jù)特征的重要性對(duì)候選特征進(jìn)行自適應(yīng)賦值;隨后,基于環(huán)境因子分別提出改進(jìn)的自適應(yīng)交叉算子和自適應(yīng)變異算子,并生成新的種群個(gè)體作為候選特征子集;最后,給出基于環(huán)境因子的熵權(quán)決策來選取最優(yōu)解.
圖1 本文提出的AMFS 算法的框架Fig.1 The framework of the proposed AMFS algorithm
鑒于過濾式和封裝式特征選擇方法的優(yōu)點(diǎn),相關(guān)學(xué)者研究兩者混合式特征選擇[18],并提出眾多基于多目標(biāo)優(yōu)化的特征選擇方法,在處理高維特征選擇時(shí)表現(xiàn)良好.這主要是由于過濾式階段能有效剔除大量無關(guān)特征及冗余特征,減少特征維度,縮小求解空間;封裝式階段結(jié)合具體優(yōu)化算法,依據(jù)目標(biāo)函數(shù)的優(yōu)化結(jié)果來判定特征子集的選擇,能獲取高精度的特征子集.
Zhang et al[19]提出自學(xué)習(xí)二差分進(jìn)化算法,用基于概率差的二元變異算子引導(dǎo)個(gè)體快速定位潛在的最優(yōu)區(qū)域,還提出一種新型凈化搜索算子來提高位于最優(yōu)區(qū)域精英個(gè)體的自學(xué)習(xí)能力.具有擁擠距離的高效非支配排序算子可以降低差分進(jìn)化中算子選擇的計(jì)算復(fù)雜度,大幅度縮短搜索時(shí)間,提升分類表現(xiàn),但在高維小樣本數(shù)據(jù)集中的效果不理想,不具有普適性.Zhang et al[20]提出基于成本的特征選擇多目標(biāo)粒子群優(yōu)化算法,采用概率的編碼技術(shù)和有效的混合算子,將擁擠距離、外部檔案和Pareto 支配關(guān)系應(yīng)用于粒子群算法,明顯縮減了特征子集的搜索空間,有效解決了約簡變量過多導(dǎo)致的局部最優(yōu)問題,但沒有考慮最優(yōu)全局解集的情況.孫哲人等[21]提出一個(gè)基于多樣性分類和距離回歸的進(jìn)化算法,把種群中的所有解作為訓(xùn)練樣本,并根據(jù)是否為最小相關(guān)解,把訓(xùn)練樣本分類為正負(fù)樣本,使模型學(xué)習(xí)到訓(xùn)練樣本中含有的分類信息.此外,它采用Kriging 作為局部回歸代理模型,其選擇種群中距離當(dāng)前候選解最近的解作為訓(xùn)練樣本,擬合訓(xùn)練樣本與理想點(diǎn)的距離,然后通過K-means 方法把候選解劃分為μ個(gè)簇,從每個(gè)簇中選擇一個(gè)用于真實(shí)評(píng)估的候選解.該方法在低維度特征空間取得了不錯(cuò)的效果,但隨著目標(biāo)數(shù)量的增加,目標(biāo)空間呈指數(shù)擴(kuò)大,算法效果不理想.Zhou et al[22]提出一種基于兩級(jí)粒子協(xié)作的多目標(biāo)優(yōu)化特征選擇策略來進(jìn)行高維數(shù)據(jù)的特征選擇,考慮了特征數(shù)量、分類錯(cuò)誤率和距離測量三個(gè)目標(biāo),將二進(jìn)制粒子群優(yōu)化與兩級(jí)粒子協(xié)作策略相結(jié)合,有效地減少了特征數(shù)量,還組合了隨機(jī)生成的普通粒子和ReliefF 過濾粒子來實(shí)現(xiàn)快速收斂.然而,該方法的平均分類精度效果不佳.Rashno et al[23]提出一種新型的多目標(biāo)粒子群優(yōu)化特征選擇方法,將特征向量解碼為粒子并在二維優(yōu)化空間中進(jìn)行排名,對(duì)粒子進(jìn)行排序,將優(yōu)化空間分成主導(dǎo)粒子帶與非主導(dǎo)粒子帶,通過數(shù)學(xué)與實(shí)驗(yàn)詳細(xì)解析了優(yōu)化空間中均勻與非均勻分布對(duì)粒子模型的影響,將粒子秩與特征秩運(yùn)用到迭代過程來更新粒子的速度與位置,找到多目標(biāo)優(yōu)化空間中最接近原點(diǎn)的最佳粒子.然而,該方法沒有解決優(yōu)勢粒子與非優(yōu)勢粒子之間粒子距離的優(yōu)化組合,所以得到的最佳粒子不一定是Pareto 解集中的最適解.Wang et al[24]提出基于樣本還原策略和進(jìn)化算法的多目標(biāo)特征選擇框架,該框架主要包含K-means 聚類的差分選擇方法和樣品利用策略,還在框架中嵌入了粒子更新模型的改進(jìn)人工蜂群算法.該方法雖然降低了計(jì)算成本,減少了進(jìn)化過程中使用的樣本量,縮短了進(jìn)化迭代的時(shí)間,但其在高維特征空間的應(yīng)用效果不佳.
2.1 NSGA-Ⅱ算法NSGA-Ⅱ是經(jīng)典的多目標(biāo)進(jìn)化算法,在處理現(xiàn)實(shí)應(yīng)用領(lǐng)域中的多目標(biāo)優(yōu)化問題時(shí)表現(xiàn)良好.其采用Pareto 支配關(guān)系和擁擠距離[25-27]機(jī)制來更新種群,并依據(jù)多個(gè)優(yōu)化目標(biāo)度量選擇多個(gè)折中解來構(gòu)成Pareto 前沿.
下面對(duì)NSGA-Ⅱ算法的重要概念和基本算子進(jìn)行描述.
2.1.1 Pareto 支配關(guān)系多目標(biāo)優(yōu)化問題[28-33]中Pareto 優(yōu)化解是最常用的優(yōu)化概念,其定義如下.
定義1Pareto 支配設(shè)兩個(gè)決策變量x1,x2∈Ω.x1Pareto 占優(yōu)x2,記作x1>x2,當(dāng)且僅當(dāng) ?i∈{1,2,…,n},fi(x1)≤fi(x2)∧?j∈{1,2,…,k},fj(x1)≤fj(x2),記作x1?x2.
定義2 Pareto 最優(yōu)解解x*∈Ω為解集Ω的Pareto 最優(yōu)解,當(dāng)且僅當(dāng){x|x?x*,x∈Ω}=Φ(Φ 為空集).
定義3 Pareto 最優(yōu)解集對(duì)于給定的多目標(biāo)優(yōu)化問題,設(shè)其定義域?yàn)棣福瑒tPareto 最優(yōu)解集X定義為X*={x∈Ω|??x'∈Ω,f(x') ?f(x)}.Pareto 最優(yōu)解集在函數(shù)空間上對(duì)應(yīng)的集合稱為Pareto 前沿[34-36],記作PF.
2.1.2 基本算子
2.1.2.1 非支配排序算子首先,對(duì)種群中的每個(gè)解p計(jì)算支配p的解的數(shù)量np和被p支配的解的集合Sp.由于第一層非支配層級(jí)上解的支配數(shù)記為0,對(duì)于每一個(gè)np=0 的解,訪問Sp中的成員q,并將其支配數(shù)減1,如果q的支配數(shù)為0,則將其放入一個(gè)列表Q中.因此,Q中包含了屬于第二層非支配層級(jí)的解.接著,對(duì)集合Q中的解重復(fù)這一過程,直到找到第三層非支配層級(jí).這個(gè)過程一直持續(xù)到找到所有的非支配層級(jí)為止.
2.1.2.2 擁擠度距離算子首先根據(jù)每個(gè)目標(biāo)函數(shù)的適應(yīng)度對(duì)種群中的個(gè)體進(jìn)行升序排序.然后,對(duì)于每個(gè)目標(biāo)函數(shù),其邊界解被分配一個(gè)無限的距離值,每個(gè)中間解也被分配一個(gè)距離值,該距離值等于兩個(gè)相鄰解差的絕對(duì)值,該過程在不同的目標(biāo)函數(shù)中重復(fù)進(jìn)行.因此,擁擠的距離值即為在每個(gè)目標(biāo)上的距離之和.
2.2 熵權(quán)TOPSIS 決策TOPSIS 根據(jù)優(yōu)化目標(biāo)與Lable 值之間的接近程度進(jìn)行排序,具有可觀、可靠的優(yōu)點(diǎn),但也存在權(quán)值法受決策者主觀影響的問題.熵權(quán)TOPSIS 將信息熵引入TOPSIS,利用信息熵計(jì)算得到TOPSIS 的權(quán)重,減小了主觀權(quán)重賦值帶來的偏差.下面給出熵權(quán)TOPSIS 決策的相關(guān)定義.
定義4 正則化矩陣根據(jù)解的個(gè)數(shù)m與優(yōu)化目標(biāo)的個(gè)數(shù)n確定相應(yīng)的決策矩陣X=(xij)m×n.rij表示第i個(gè)方案的第j個(gè)指標(biāo),i=1,2,…,m,j=1,2,…,n.對(duì)決策矩陣進(jìn)行正則化處理得到正則化矩陣R=(rij)m×n,其中,
定義5 熵值第j個(gè)指標(biāo)的熵值:
利用熵值計(jì)算第j個(gè)指標(biāo)的權(quán)重:
利用第j個(gè)指標(biāo)的權(quán)重wj對(duì)正則化結(jié)果rij進(jìn)行加權(quán),得到加權(quán)正則化后的結(jié)果λij=wjrij.
定義6 理想解理想解分正理想解和負(fù)理想解,正理想解取各指標(biāo)的最大值=max{λij},負(fù)理想解取各指標(biāo)的最小值=min{λij}.
定義7 解距決策值與正負(fù)理想解之間的解距可采用歐式距離計(jì)算,表示為:
定義8 相對(duì)貼近度相對(duì)貼近度ηi表示各待決策值與正理想解之間的貼近程度,表示為:
對(duì)每個(gè)解的相對(duì)貼近度,按從大到小的降序排序,選取具有相對(duì)貼近度最大值的解作為最適解.
為了解決Pareto 解集中缺少合理最優(yōu)解選擇策略的問題,提出一種基于環(huán)境因子的熵權(quán)決策,減少?zèng)Q策過程中決策者主觀因素的影響,增強(qiáng)合理最優(yōu)解的選擇依據(jù),豐富選擇的特征子集的可解釋性.針對(duì)多目標(biāo)進(jìn)化搜索到的Pareto 解集質(zhì)量差的問題,提出基于環(huán)境因子的自適應(yīng)算子,將個(gè)體交叉和變異過程依賴的個(gè)體適應(yīng)度作為自適應(yīng)依據(jù),刪除冗余特征,保留相關(guān)特征,增強(qiáng)特征子集的分類性能.
3.1 基于環(huán)境因子改進(jìn)的自適應(yīng)算子提出一種作用于環(huán)境因子下的交叉變異算子的自適應(yīng)算法環(huán)境因子,其形式化如式(1)所示:
對(duì)個(gè)體g在迭代過程中加入環(huán)境因子來控制整體適應(yīng)度,ng為訓(xùn)練樣本中個(gè)體g的出現(xiàn)數(shù)目,N為迭代次數(shù),fre(g)表示個(gè)體g在選擇、交叉、變異過程中出現(xiàn)的頻率.F(g)是訓(xùn)練樣本數(shù)據(jù)中的類型g與所有類型數(shù)據(jù)在全體數(shù)據(jù)中出現(xiàn)頻率總和之比,如式(2)所示:
3.1.1 環(huán)境因子下的交叉算子在進(jìn)化迭代中,隨著進(jìn)化迭代次數(shù)t的增加,遺傳可分為前期和后期.進(jìn)化前期個(gè)體的多樣性強(qiáng),需要快速找出較優(yōu)的個(gè)體;進(jìn)化后期的個(gè)體平均適應(yīng)度已高度靠近最佳適應(yīng)度,較大的交叉率可能會(huì)帶來收斂不穩(wěn)定性.當(dāng)個(gè)體適應(yīng)度較集中或較分散時(shí),視為進(jìn)化個(gè)體進(jìn)入高度集中或高度分散兩種極端情況,此時(shí)應(yīng)適當(dāng)調(diào)整交叉率.為此,改進(jìn)交叉率如式(3)所示:
其中,t為迭代次數(shù).隨著迭代的進(jìn)行,種群逐漸向種群中的最優(yōu)適應(yīng)度靠攏,交叉率隨著迭代而逐漸減小.(fmax-f')表示種群中個(gè)體最大適應(yīng)度和兩個(gè)交叉?zhèn)€體中適應(yīng)度較大的個(gè)體的適應(yīng)度之差,該項(xiàng)表示交叉?zhèn)€體在種群中的離散程度,兩者之差越大即表示交叉的兩個(gè)個(gè)體的適應(yīng)度越低,交叉率隨之增大,增加了引入優(yōu)質(zhì)樣本的概率.(fmax-farg)表示種群中個(gè)體最大適應(yīng)度和種群中所有個(gè)體的平均適應(yīng)度之差,其與(fmax-f') 的比值表示交叉的兩個(gè)個(gè)體的適應(yīng)度與種群平均適應(yīng)度的差距,差值越大,意味著這兩個(gè)個(gè)體越接近邊界位置,為了增加引入優(yōu)質(zhì)樣本的概率,交叉率需要隨之增大.越大的種群個(gè)數(shù)N意味著越豐富的種群適應(yīng)度,即有越大的可能含有優(yōu)質(zhì)解,故交叉率隨著種群數(shù)N的增大而減小.該環(huán)境下樣本的集中程度μ變大,意味著種群適應(yīng)度收斂程度變高,交叉率會(huì)隨之上升,增加引入優(yōu)質(zhì)解的概率.
3.1.2 環(huán)境因子下的變異算子隨著遺傳迭代次數(shù)t的增加,較大的變異率引入的新樣本的波動(dòng)會(huì)影響遺傳算法的收斂性,故變異率應(yīng)隨迭代次數(shù)增加給予適當(dāng)改變.個(gè)體適應(yīng)度較集中時(shí),往往意味著平均適應(yīng)度函數(shù)逼近一個(gè)極值,但無法確定其是否為最優(yōu)解,需對(duì)變異率進(jìn)行適當(dāng)調(diào)整,使其不易陷入局部最優(yōu).因此,修正變異率如式(4)所示:
與交叉率算子的設(shè)計(jì)過程相似,綜合考慮種群個(gè)數(shù)、樣本集中程度和迭代次數(shù)變化的影響,變異率隨著N的增大而減小,隨著μ的增加而增加,隨著迭代次數(shù)t的增加而減小.
3.2 基于環(huán)境因子熵權(quán)的Pareto 最適解選取本節(jié)提出基于環(huán)境因子賦權(quán)重,將AMFS 得到的Pareto 最適解集通過熵權(quán)TOPSIS 分析得出在此環(huán)境下的最適解,其中,設(shè)計(jì)的目標(biāo)函數(shù)f1為特征選擇率,目標(biāo)函數(shù)f2為特征相關(guān)系數(shù).目標(biāo)函數(shù)如式(5)所示:
其中,|Fs|為最終優(yōu)化特征個(gè)數(shù),|F0|為原始特征個(gè)數(shù),|Fτ|為所選特征子集,|Fl|為數(shù)據(jù)集的標(biāo)簽.
特征子集相關(guān)性最大化與特征選擇率最小化通常被視為特征子集的兩個(gè)優(yōu)化目標(biāo),值得注意的是,這兩個(gè)優(yōu)化目標(biāo)在大多數(shù)場景下存在相互沖突的情況,得到的序列值通常無法判定最優(yōu)情況,可以通過對(duì)序列個(gè)體引入環(huán)境因子μ并對(duì)該環(huán)境下的Pareto 解進(jìn)行信息熵權(quán)判斷來決策最適解.具體步驟如下:
Step 1.通過AMFS 得到的Pareto 序列構(gòu)成正則化矩陣:
最后,選取相對(duì)貼近度的最大值aμ=max{ηi},則aμ對(duì)應(yīng)的個(gè)體為所得最適解.
3.3 所提算法偽代碼描述基于以上分析,下面給出基于自適應(yīng)環(huán)境因子熵權(quán)決策的多目標(biāo)特征選擇的偽代碼.
設(shè)n和m分別為原始數(shù)據(jù)集中的樣本數(shù)和特征數(shù),N是總體的大小,M是目標(biāo)的數(shù)量,T是迭代次數(shù),n*為Pareto 解集個(gè)數(shù).第1~3 行計(jì)算每個(gè)特征的環(huán)境適應(yīng)度,使兩個(gè)優(yōu)化目標(biāo)能夠有效地衡量候選解決方案,其時(shí)間復(fù)雜度主要依賴于環(huán)境因子μ(g)的計(jì)算,時(shí)間復(fù)雜度為O(n×m).第4~6 行計(jì)算擁擠距離與非支配排序,其時(shí)間復(fù)雜度為O(NlgN×M).第8~11 行計(jì)算最適解,其時(shí)間復(fù)雜度為O(n*×M).因此,本文算法AMFS 的時(shí)間復(fù)雜度為:
3.4 所提算法的收斂性分析根據(jù)上述定義,F(xiàn)表示算法可以搜索到的個(gè)體空間,B(t)是算法第t次迭代的種群,A(t)為算法歸檔集,F(xiàn)*=Mf(F,? )為空間F的所有非支配解.下面給出本文算法AMFS 的收斂性分析.
定義9定義|A|表示集合A的元素個(gè)數(shù),定義δ(A,B)=|A|-|A∩B|.AMFS 算法以概率1收斂于 Pareto 最優(yōu)解集,當(dāng)t→∞ 時(shí),δ(A(t),F(xiàn)*)→0 的概率為1.
為了驗(yàn)證提出的算法的有效性,采用不同應(yīng)用領(lǐng)域中的六個(gè)高維數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),其中,最大特征數(shù)和最小特征數(shù)分別為60 和13,最大樣本數(shù)和最小樣本分別為2310 和178,數(shù)據(jù)集的具體信息如表1 所示.實(shí)驗(yàn)平臺(tái)為Core i7-10510U,2.30 GHz,16 GB,仿真算法均在Matlab R2016a中實(shí)現(xiàn).
表1 實(shí)驗(yàn)使用的數(shù)據(jù)集Table 1 Datasets used in experiments
為了證明提出的算法表現(xiàn)優(yōu)越,采用五種現(xiàn)有的多目標(biāo)特征選擇算法與AMFS 進(jìn)行比較,分別為NSGAFS[37],MOFSBDE[19],F(xiàn)SMOPSO[20],DCDREA[21]和NSGA-Ⅱ[12].算法的相關(guān)參數(shù)如表2 所示,其中,Nf表示特征的數(shù)量,所有比較算法均采用K近鄰(KNN)分類器,K設(shè)置為5.AMFS 的種群大小Pop=NS,迭代次數(shù)T=100.
表2 算法的參數(shù)設(shè)置Table 2 Algorithm parameter settings
4.1 AMFS 與不同EAs 特征選擇性能比較為了評(píng)估AMFS 的性能,從最佳分類精度和平均分類精度兩方面進(jìn)行度量,分別記為Best 和Avg.所有算法均獨(dú)立運(yùn)行10 次,所有對(duì)比算法的Best的值是Pareto 解集中距離原點(diǎn)歐幾里得距離最近的解,AMFS 的Best 值是采用基于環(huán)境因子熵權(quán)計(jì)算所得.另外,AD_Best 和AD_Avg 分別為對(duì)應(yīng)算法的Best 和Avg 的平均值.表3 展示了AMFS 與其他五個(gè)多目標(biāo)進(jìn)化算法的比較結(jié)果,表中黑體字表示所有算法中的最優(yōu)值.此外,采用t檢驗(yàn)來驗(yàn)證AMFS 的顯著性差異,表3 中Ttest_Best 和T-test_Avg 分別表示對(duì)應(yīng)的P,P<0.05 表示差異顯著,記作“+”,P>0.05 表示差異不顯著,記作“-”.
表3 AMFS 與五種多目標(biāo)進(jìn)化算法的性能比較Table 3 Performance of AMFS and other five multi-objective evolutionary algorithms
由表3 可見,AMFS 在各個(gè)數(shù)據(jù)集上均優(yōu)于NSGA-Ⅱ,這是由于環(huán)境因子加權(quán)的自適應(yīng)算子對(duì)全局搜索最優(yōu)解更具優(yōu)勢.在Ionosphere 數(shù)據(jù)集上,F(xiàn)SMOPSO 的Best 為100%,AMFS 的Best為99.82%,比FSMOPSO 低0.18%,但AMFS的Avg 比FSMOPSO 高1.10%.AMFS 僅在一個(gè)數(shù)據(jù)集上表現(xiàn)稍弱,在其他數(shù)據(jù)集上的精度都高于FSMOPSO.在Wine 數(shù)據(jù)集上,AMFS 的Best比NSGAFS 低,但和其他算法相比是最高的,而且其Avg 是最優(yōu)的.AMFS 和DCDREA 在各個(gè)數(shù)據(jù)集上的性能都比較接近,僅在個(gè)別數(shù)據(jù)集中可能存在因AMFS 篩選的特征子集包含冗余特征而劣于DCDREA 的情況,但整體來看,AMFS的AD_Best 與AD_Avg 均高于DCDREA.
綜上,AMFS 具有優(yōu)越的性能,其AD_Best和AD_Avg 分別為98.22%和97.11%,這得益于基于環(huán)境因子的自適應(yīng)交叉算子和自適應(yīng)變異算子可以挖掘更多的優(yōu)秀的候選個(gè)體.此外,t檢驗(yàn)的測試結(jié)果表明,AMFS 與NSGA-Ⅱ,MOFSBDE 和FSMOPSO 三種多目標(biāo)進(jìn)化算法相比,兩種指標(biāo)均有顯著差異,與NSGAFS 之間沒有顯著差距,與DCDREA 僅有一個(gè)指標(biāo)有顯著差異.證明AMFS 與現(xiàn)有的大多數(shù)多目標(biāo)特征選擇進(jìn)化算法相比,有明顯的競爭性.
4.2 AMFS 的HV 和SP 指標(biāo)的表現(xiàn)為了進(jìn)一步檢驗(yàn)多目標(biāo)特征選擇算法中的Pareto 解集,使用超體積(HV)和間距(SP)來分析不同多目標(biāo)特征算法的性能,其中,HV為算法得到的解集中的個(gè)體與目標(biāo)空間中的參考點(diǎn)圍成的超立方體的體積.由于AMFS,MOFSBDE,F(xiàn)SMOPSO,NSGAFS,NSGA-Ⅱ和DCDREA 采用兩個(gè)優(yōu)化目標(biāo),因此參考點(diǎn)設(shè)置為(1,1).HV越大,算法的整體性能越好.假設(shè)Pareto P1 的HV大于Pareto P2,表示P1 的多樣性和收斂性優(yōu)于P2.對(duì)于SP指標(biāo),它測量從每個(gè)解決方案到其他解決方案的最小距離的標(biāo)準(zhǔn)偏差,SP越小,解集越均勻.表4 和表5 展示了AMFS 和其他五種算法的HV和SP的比較結(jié)果,表中黑體字表示結(jié)果最優(yōu).
表4 AMFS 算法與五種多目標(biāo)特征選擇進(jìn)化算法的HV 的比較Table 4 HV of AMFS and other five multi-objective feature selection evolutionary algorithms
表5 AMFS 算法與五種多目標(biāo)特征選擇進(jìn)化算法的SP 的比較Table 5 SP of AMFS and other five multi-objective feature selection evolutionary algorithms
如表4 所示,AMFS 算法的HV遠(yuǎn)遠(yuǎn)大于FSMOPSO,NSGAFS,NSGA-Ⅱ.在Vowel 數(shù)據(jù)集上,F(xiàn)SMOPSO,NSGAFS,NSGA-Ⅱ的HV分別為0.6472,0.6109,0.6019,AMFS 的HV是0.9331,分別高0.2859,0.3222,0.3312.在Wine數(shù)據(jù)集上,MOFSBDE 的HV超過了AMFS,但AMFS 的HV整體上大于MOFSBDE.DCDREA與AMFS 的結(jié)果相近,甚至在Segmentation 數(shù)據(jù)集上,DCDREA 的HV超過了AMFS,但是AMFS 的HV在其他五個(gè)數(shù)據(jù)集上都大于DCDREA.t檢驗(yàn)的結(jié)果表明,AMFS 的HV明顯優(yōu)于大多數(shù)算法,證明AMFS 得到的Pareto 解集與其他算法相比,具有更好的分集和收斂性能.
如表5 所示,AMFS 的SP優(yōu)于FSMOPSO,MOFSBDE,NSGA-Ⅱ.在Wine 數(shù)據(jù)集上,NSGAFS 的SP為0.0021,比AMFS 略低了0.0052.類似地,在Ionosphere 與Segmentation 數(shù)據(jù)集上,DCDREA 的SP比AMFS 算法略低0.0008 和0.0006,但在其余四個(gè)數(shù)據(jù)集上,AMFS 的表現(xiàn)更優(yōu).t檢驗(yàn)的結(jié)果表明,AMFS 的SP明顯優(yōu)于大多數(shù)算法,證明由AMFS 獲得的Pareto 最優(yōu)解集具有良好的分布均勻性.
由以上分析可知,本文提出的AMFS 算法在高維數(shù)據(jù)集上能獲得分類精度更高的Pareto 解集并從中選取合理的唯一解,其主要原因:一是將進(jìn)化過程中的環(huán)境因子嵌入改進(jìn)的自適應(yīng)交叉和變異算子,有效地動(dòng)態(tài)監(jiān)測進(jìn)化個(gè)體中不同特征組合的性能表現(xiàn),避免了主觀因素對(duì)搜索特征子集的影響,以自適應(yīng)的方式獲得綜合性能較好的Pareto 前沿解;二是引入了環(huán)境因子熵權(quán),能在不同優(yōu)化目標(biāo)下計(jì)算信息熵權(quán),自動(dòng)判別Pareto 前沿中的最佳折中解,減少包含重要特征的進(jìn)化個(gè)體因被支配而錯(cuò)誤剔除的可能性,保證全局最優(yōu)解的搜索效率和精度.
表6 給出了AMFS 與五種對(duì)比算法的時(shí)間復(fù)雜度,由表可見,AMFS 略占優(yōu)勢.這是由于時(shí)間復(fù)雜度主要依賴于環(huán)境因子μ(g)的計(jì)算,其環(huán)境因子的自適應(yīng)算子在尋找全局最優(yōu)解時(shí)可加速收斂過程,總體時(shí)間復(fù)雜度略優(yōu)于其他五種多目標(biāo)特征選擇算法,但進(jìn)一步減少計(jì)算環(huán)境因子的時(shí)間開銷仍需繼續(xù)研究.
表6 AMFS 與五種多目標(biāo)特征選擇進(jìn)化算法的時(shí)間復(fù)雜度的比較Table 6 Time complexity of AMFS and other five multi-objective feature selection evolutionary algorithms
4.3 AMFS 與不同最適解選擇策略的性能比較為了檢驗(yàn)AMFS 選擇最適解的性能,進(jìn)行了消融實(shí)驗(yàn),采用TOPSIS、熵權(quán)TOPSIS(ETOPSIS)和基于環(huán)境因子熵權(quán)TOPSIS(BETOPSIS)來賦值權(quán)重,根據(jù)不同權(quán)重對(duì)同一實(shí)驗(yàn)結(jié)果進(jìn)行選擇,判斷三種方法選擇最適解的能力.使用的數(shù)據(jù)集為Vehicle,Pop設(shè)置為50,迭代次數(shù)T=100,權(quán)重設(shè)置如表7 所示.
表7 AMFS 算法消融實(shí)驗(yàn)權(quán)重設(shè)置Table 7 Weight settings for ablation experiments of AMFS algorithm
圖2a 為通過AMFS 獲得的Pareto 解集,圖2b為用三種不同的獲取權(quán)重指標(biāo)方法所選擇的最適解,其中青色解為Pareto 最優(yōu)解,紫色解為TOPSIS 選擇解,藍(lán)色解為熵權(quán)TOPSIS 選擇解,紅色解為基于環(huán)境因子熵權(quán)TOPSIS 選擇解.實(shí)驗(yàn)結(jié)果如表8 所示.由表可見,與TOPSIS 選出的結(jié)果相比,BETOPSIS 的特征相關(guān)系數(shù)僅升高0.2,但特征選擇率大幅度縮減了20%;和ETOPSIS 選出的結(jié)果相比,BETOPSIS 的特征相關(guān)系數(shù)降低0.5,特征選擇率升高15%.這是因?yàn)門OPSIS 權(quán)重是人為設(shè)置的,偏離值相對(duì)較大,且主觀因素占比較高;ETOPSIS 在TOPSIS 的基礎(chǔ)上去除了主觀因素,獲得的最適解相對(duì)較好;BETOPSIS 在ETOPSIS 的基礎(chǔ)上增加了對(duì)數(shù)據(jù)集特征依賴度的判定,選擇出的結(jié)果既消除了主觀因素,又增加了選擇權(quán)重的可解釋性,獲得的最適解最優(yōu).證明BETOPSIS 對(duì)選擇最適解有一定幅度的提升.
表8 AMFS 算法的消融實(shí)驗(yàn)結(jié)果Table 8 Ablation experimental results of AMFS
圖2 三種方法選擇Pareto 解集最適解Fig.2 Three methods for selecting the most suitable Pareto solution set
本文提出一種基于自適應(yīng)環(huán)境因子熵權(quán)決策的多目標(biāo)特征選擇算法,首先通過加權(quán)環(huán)境因子來自適應(yīng)地篩去不相關(guān)特征,以提供高質(zhì)量的候選特征子集空間;然后,將環(huán)境因子嵌入改進(jìn)的交叉算子和變異算子,加速最優(yōu)特征子集的自適應(yīng)搜索;最后,利用基于環(huán)境因子的熵權(quán)分析決策出Pareto 最優(yōu)解集中的最適解.實(shí)驗(yàn)結(jié)果表明,針對(duì)高維特征選擇問題,本文提出的AMFS 的分類精度表現(xiàn)較好.未來將關(guān)注多目標(biāo)優(yōu)化特征選擇搜索策略的高效性,研究低開銷的Pareto 求解算子,此外,特征子集的穩(wěn)定性分析是另一個(gè)值得考慮的研究方向.