亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于黏液菌覓食機(jī)制的特征選擇算法及其在文本情感識(shí)別中的應(yīng)用

2021-11-11 05:53:36徐濟(jì)惠顏晨陽(yáng)

南京理工大學(xué)學(xué)報(bào) 2021年5期

關(guān)鍵詞：特征

徐濟(jì)惠,顏晨陽(yáng)

(寧波城市職業(yè)技術(shù)學(xué)院信息與智能工程學(xué)院,浙江寧波 315211)

文本情感分析指的是從文本中提取情感信息,進(jìn)而對(duì)文本感情極性進(jìn)行分類。詞袋模型(Bag of words,BOW)結(jié)合各類機(jī)器學(xué)習(xí)分類算法是目前進(jìn)行文本情感分析的主要方法之一,但詞袋模型可能會(huì)生成維度極高、冗余度極大,甚至包含了許多噪聲的特征空間,將這些特征直接用于機(jī)器學(xué)習(xí)分類算法會(huì)造成“維度災(zāi)難”,且會(huì)造成數(shù)據(jù)處理中所謂GIGO(Garbage in,garbage out)[1]的后果,特征選擇正是解決這一問(wèn)題的有效工具。

特征選擇實(shí)際上是一類子集求解問(wèn)題(Sub set problem,SSP),且是一個(gè)NP-hard問(wèn)題[2]。常見(jiàn)的特征選擇方法可以分為三類[3]:(1)過(guò)濾方法(Filter),也即采用某種指標(biāo)計(jì)算對(duì)每個(gè)特征評(píng)分,由高到低選擇特征,特征選擇過(guò)程與后續(xù)分類模型無(wú)關(guān)。常見(jiàn)的有reliefF系列算法[4]、基于粗糙集理論(Rough set theory)[5]、相關(guān)系數(shù)(Correlation coefficient)[6]、互信息(Mutual information)[7],卡方檢驗(yàn)(Chi squared test)[8],信息增益(Information gain)[9],詞頻-逆文檔頻率(tf-idf)[10]等等的方法。(2)基于封裝器的方法(Wrapper),即在候選集合中搜索使用特定分類模型能夠獲得最好性能的特征子集,封裝器方法往往和具體啟發(fā)式搜索算法[11],尤其是一些集群仿生優(yōu)化算法[12,13]結(jié)合在一起,如進(jìn)化算法[14,15]、粒子群優(yōu)化算法[16,17]、蟻群優(yōu)化算法[18,19],以及其他各類啟發(fā)式算法[20-22]。(3)嵌入式方法(Embedded)。嵌入式選擇是將特征選擇過(guò)程與學(xué)習(xí)器訓(xùn)練過(guò)程融合為一體,兩者在同一個(gè)優(yōu)化過(guò)程中完成,即在學(xué)習(xí)器訓(xùn)練過(guò)程中自動(dòng)地進(jìn)行了特征選擇。最典型的就是基于L1正則化的學(xué)習(xí)方法,如LASSO[23]和l1-SVM[24]等。

本文將提出一種模仿黏液菌覓食決策的特征選擇算法(Slime-FS),這種算法大體上仍是一種封裝方法,但也有過(guò)濾方法的一些特點(diǎn)。在具體構(gòu)建和實(shí)現(xiàn)層面上,算法模仿了一種黏液菌(Slime mold)的覓食的動(dòng)力學(xué)過(guò)程,以期獲得冗余度更小和噪聲更少的特征子集。本文將闡述Slime-FS算法的框架和具體實(shí)現(xiàn),并將其應(yīng)用到了慕課評(píng)論文本情感分析中,在實(shí)驗(yàn)中與遺傳特征選擇算法、粒子群特征選擇算法和蟻群優(yōu)化特征選擇算法進(jìn)行了對(duì)比。

1 黏液菌啟發(fā)

研究表明,被認(rèn)為沒(méi)有任何智力的一些物種都擁有與環(huán)境交互并解決相對(duì)復(fù)雜問(wèn)題的能力[25]。其中最為特別的是一種稱為多頭絨泡菌(Physarum polycephalum)的黏液菌,這是一種介于原生動(dòng)物和真菌之間的多核單細(xì)胞生物,但卻擁有解決一些特定復(fù)雜問(wèn)題的能力,這些能力至少部分地源于其特殊的生理和運(yùn)動(dòng)覓食機(jī)制。多頭絨泡菌形態(tài)為網(wǎng)狀,網(wǎng)絡(luò)的管道由細(xì)胞質(zhì)流通構(gòu)成,覓食得到的營(yíng)養(yǎng)和生物化學(xué)信號(hào)可以通過(guò)這些管道進(jìn)行傳遞,同時(shí)這些細(xì)胞質(zhì)管道能夠形成偽足按照一定的規(guī)則感知并探索周邊環(huán)境。到目前為止,研究發(fā)現(xiàn)其至少擁有如下能力:迷宮尋徑[26]、路徑尋優(yōu)[27]、多目標(biāo)尋優(yōu)[28]、預(yù)測(cè)周期性事件[29]、構(gòu)建復(fù)雜網(wǎng)絡(luò)[30]、擁有外部記憶[31],甚至展現(xiàn)出了進(jìn)行探索利用權(quán)衡決策(Exploration-exploitation tradeoff)以獲得最大收益的能力[32]。其中本文最為感興趣的是Nakagaki、Fricker等所開(kāi)展的關(guān)于黏液菌構(gòu)建復(fù)雜網(wǎng)絡(luò)研究[30]。這項(xiàng)研究仿照日本東京周邊地理搭建了模型,將黏液菌置于東京位置展開(kāi)覓食,其他每一個(gè)城市則以一塊食物作為標(biāo)志,并以黏液菌不喜的燈光強(qiáng)度來(lái)模仿地形與障礙,黏液菌形態(tài)最終會(huì)收斂為“城市”間的網(wǎng)狀通道,且這一網(wǎng)絡(luò)與現(xiàn)實(shí)中東京周邊的鐵路網(wǎng)絡(luò)的效率、容錯(cuò)率和開(kāi)銷驚人地一致,如圖1所示[30]。

圖1 黏液菌網(wǎng)絡(luò)覓食進(jìn)化動(dòng)態(tài)模擬圖

圖1中t表示進(jìn)化時(shí)間,黏液菌最終收斂成為一個(gè)與東京周邊的鐵路網(wǎng)絡(luò)幾乎沒(méi)有差別的網(wǎng)絡(luò)。正是受該模型啟發(fā),本文將特征選擇這一最優(yōu)子集求解問(wèn)題轉(zhuǎn)化為求最優(yōu)子圖問(wèn)題。將候選特征集合中的特征視為一張無(wú)向完全圖中的頂點(diǎn),也是黏液菌食物所在,黏液菌在這張圖上通過(guò)各條邊按照一定規(guī)則來(lái)流通覓食,黏液菌最終收斂構(gòu)成一張完全子圖,該子圖上的所有頂點(diǎn)就是所求的特征子集,如圖2所示。

圖2 模仿黏液菌解覓食運(yùn)動(dòng)行為來(lái)決特征選擇問(wèn)題的示意圖

圖2中每個(gè)頂點(diǎn)都表示一個(gè)候選特征,也是黏液菌食物所在。所有頂點(diǎn)是候選特征集合,模擬黏液菌在該圖上運(yùn)動(dòng)覓食。如果設(shè)計(jì)規(guī)則合理,可預(yù)期與構(gòu)建交通網(wǎng)絡(luò)一樣,黏液菌形態(tài)最終將收斂成為一個(gè)子圖,該子圖上所有頂點(diǎn)即為被選擇的特征子集。本文將這種模型稱為基于黏液菌覓食決策的特征選擇算法(Slime-FS)。算法雖然受啟發(fā)于Nakagaki等提出的模型[33],在方法論層面上有所相似,但在算法的具體構(gòu)建和實(shí)現(xiàn)層面上卻大相徑庭。

2 算法構(gòu)建

2.1 問(wèn)題簡(jiǎn)述

2.2 算法框架

Slime-FS算法引入一個(gè)特征圖G,這個(gè)圖中每個(gè)頂點(diǎn)Vi(0

表1 Slime-FS算法框架

2.3 預(yù)處理

(1)分詞。本文選擇了“結(jié)巴中文分詞”[34]作為分詞工具。

(2)去除停用詞(Stop words)。利用中科院計(jì)算所中文自然語(yǔ)言處理開(kāi)放平臺(tái)發(fā)布的1 208個(gè)停用詞的中文停用詞表[35]。

(3)特征提取。使用Scikit-learn[36]中所提供的tf-idf特征權(quán)值計(jì)算來(lái)實(shí)現(xiàn):BOW模型中第i個(gè)詞(特征)的權(quán)值wi為語(yǔ)料庫(kù)所有文本向量中該詞(特征)的L2正則化的tf-idf值的平均,因此這個(gè)權(quán)值wi的范圍為wi∈[0,1)。算法設(shè)置了一個(gè)閾值t,所有權(quán)值低于t的詞(特征)都將被過(guò)濾掉。

(4)分類器確定。情感分類問(wèn)題的最終結(jié)果主要在于特征提取的質(zhì)量。但為了比較起見(jiàn),算法仍然使用了兩種不同的分類器:①支撐向量機(jī),采用的是LIBLINER[37]中的L2-regularized L2-loss SVC實(shí)現(xiàn);②樸素貝葉斯分類器,采用的是Scikit-learn[36]中的Multinomial Naive Bayes實(shí)現(xiàn)。

2.4 初始化

2.5 流量計(jì)算(flow)

首先算法為了方便起見(jiàn),引入一個(gè)虛擬頂點(diǎn)V0,這個(gè)是菌落覓食的起點(diǎn),那么過(guò)程flow(V,D)具體步驟如下:設(shè)Pk(t)為菌落k當(dāng)前已經(jīng)流經(jīng)的頂點(diǎn)集合,Duv為頂點(diǎn)Vu到頂點(diǎn)Vv的導(dǎo)通性,那么算法將概率P的按式(1)確定性選擇下一個(gè)頂點(diǎn)Vw

(1)

并且以概率1-P按照式(2)概率性地選擇下一個(gè)頂點(diǎn)Vw

(2)

式中:m為參數(shù),規(guī)定了菌落最多流經(jīng)的頂點(diǎn)數(shù)目,如果m=|S|,那么即表示上限即為所有待選頂點(diǎn)(特征)數(shù)目。

最直觀地,可以使用特征的tf-idf值作為算法中的特征Vv回報(bào)值Rv(Pk(t)),所有的特征if-idf值都已經(jīng)在預(yù)處理中計(jì)算完成了,因此計(jì)算開(kāi)銷為零,但tf-idf也不能特別有效地反映在Pk(t)構(gòu)建完成情況下,增加詞特征Vv所帶來(lái)得回報(bào)。因此,算法引入了粗糙集中的屬性依賴度(Attribute dependencies)概念,計(jì)算特征Vv(條件屬性)在Pk(t)(關(guān)系)下關(guān)于分類(決策屬性)的重要性(Significance)作為算法中的特征回報(bào)值Rv(Pk(t)),由于有指數(shù)復(fù)雜度,在預(yù)處理中計(jì)算好所有的特征回報(bào)值是不可行的,因此將實(shí)時(shí)計(jì)算特征回報(bào)值(可將緩存以備下次用到)。至于導(dǎo)通性Duv(t)將在下面一節(jié)中進(jìn)行詳細(xì)闡述,式(2)中的α是用于調(diào)節(jié)導(dǎo)通性與回報(bào)值重要性的參數(shù)。

如果菌落連續(xù)10次選擇的頂點(diǎn)獲得的短期回報(bào)值都小于流通回報(bào)閾值ε,這時(shí)菌落的本次流通就結(jié)束了?；蛟谌舾纱瘟魍ê?由于導(dǎo)通性的收斂,與剩余頂點(diǎn)相關(guān)的邊上的導(dǎo)通性都變成0了,菌落的本次流通自然也就結(jié)束了。

2.6 導(dǎo)通性計(jì)算(renew)

根據(jù)文獻(xiàn)[33]構(gòu)建的模型的假設(shè),黏液菌從頂點(diǎn)Vi到頂點(diǎn)Vj流的導(dǎo)通性在時(shí)間上和流量存在著如式(3)所示的關(guān)系,其中的f(Qij)是一個(gè)遞增的函數(shù),且f(0)=0,r是一個(gè)用于調(diào)節(jié)導(dǎo)通率的參數(shù),0

(3)

本文模型中也引入了這個(gè)假設(shè),由于本文的模型是離散的,因此獲得了如式(4)所示的關(guān)系

Dij(t)=f(Qij(t-1))-Dij(t-1)e-r

(4)

算法中f(Qij)定義如式(5)所示

(5)

2.7 算法時(shí)間復(fù)雜度分析

與算法時(shí)間復(fù)雜度相關(guān)的參數(shù)有:最大迭代次數(shù)I、菌落數(shù)n、特征數(shù)m和訓(xùn)練樣本樣例集合數(shù)目N。

表2 算法時(shí)間復(fù)雜度上限

從表2可知,如果使用重要性來(lái)計(jì)算特征回報(bào)值的話,理論上算法時(shí)間復(fù)雜度還是相當(dāng)高的,但本文前面提到過(guò)的樣本E為典型的稀疏矩陣,樣本向量的平均非零特征數(shù)一般要遠(yuǎn)遠(yuǎn)小于所有特征數(shù)量m,且在實(shí)際中也遠(yuǎn)遠(yuǎn)小于樣本數(shù)目N,因此算法的實(shí)際時(shí)間復(fù)雜度要遠(yuǎn)低于其理論值。因?yàn)閷?duì)課程的評(píng)論都不會(huì)很長(zhǎng),數(shù)據(jù)中文本平均包括21.0個(gè)有效詞,而樣本數(shù)要大2到3個(gè)數(shù)量級(jí)。

3 實(shí)驗(yàn)與結(jié)果

3.1 實(shí)驗(yàn)數(shù)據(jù)

原始語(yǔ)料庫(kù)來(lái)自于用Scrapy爬蟲[38]對(duì)中國(guó)大學(xué)慕課平臺(tái)中《Linux系統(tǒng)管理》等三門課程的歷史評(píng)論數(shù)據(jù)的爬取,并使用HTMLParser和正則表達(dá)式等工具對(duì)原始語(yǔ)料進(jìn)行了清洗,隨機(jī)抽取了其中一部分作為測(cè)試數(shù)據(jù),經(jīng)過(guò)人工情感標(biāo)注、分詞、去除停用詞和特征提取后(經(jīng)過(guò)調(diào)適,算法將特征提取的權(quán)值過(guò)濾閾值t設(shè)為0.6),對(duì)于實(shí)驗(yàn)中的語(yǔ)料庫(kù),可以過(guò)濾掉大約5/6左右的低權(quán)值特征。

測(cè)試數(shù)據(jù)集具體情況如表3所示。

表3 測(cè)試數(shù)據(jù)集

3.2 對(duì)比算法

主要的比較對(duì)象是啟發(fā)式(Metaheuristic)的封裝器算法。首先使用不帶特征選擇的SVM和NB算法作為比對(duì)基準(zhǔn),4個(gè)對(duì)比算法分別如下:Sklearn-genetic[39],scikit-learn包中的遺傳特征選擇模塊;Entropy Weighted Genetic Algorithm[40],一種使用特征信息增益作為啟發(fā)信息的遺傳特征選擇算法;Multi-Swarm PSO[17],一種多種群的粒子群特征選擇算法;Ant Colony Optimization[18],一種基于蟻群優(yōu)化的特征選擇算法。

3.3 實(shí)驗(yàn)參數(shù)

本算法的參數(shù)有:最大迭代次數(shù)I、菌落數(shù)n、流通確定性概率P,流通回報(bào)閾值ε,導(dǎo)通權(quán)值α,回報(bào)權(quán)值λ。在本文的實(shí)驗(yàn)中,本算法參數(shù)均設(shè)置如下:最大迭代次數(shù)I=100;菌落數(shù)n=20;流通確定性概率P=0.2;流通回報(bào)閾值ε:如果短期回報(bào)采用的是特征的L2正則化tf-idf均值的話,ε=0.65,如果短期回報(bào)采用的是特征在當(dāng)前已選頂點(diǎn)集合下關(guān)于分類的重要性的話,ε=0.001;導(dǎo)通率調(diào)整參數(shù)r=0.5;導(dǎo)通權(quán)值α=2;回報(bào)權(quán)值λ=0.4。

本文并沒(méi)有針對(duì)算法的參數(shù)進(jìn)行特別的優(yōu)化,只是根據(jù)若干次調(diào)試的經(jīng)驗(yàn)確定的較優(yōu)的值。

同時(shí),對(duì)照算法的各項(xiàng)參數(shù)設(shè)置都參考了各自文獻(xiàn)中的設(shè)定。

EWGA參數(shù)設(shè)置如下[15]:(1)迭代次數(shù)I=200;(2)種群大小population=50;(3)交叉率crossover0.6;(4)變異率mutation=0.01;(5)變異常數(shù) mutation operator constant=0.1。

Sklearn-genetic參數(shù)設(shè)置如下[39]:(1)迭代次數(shù)generation=50;(2)種群大小n_population=200;(3)交叉率crossover_proba=0.5;(4)變異率mutation_proba=0.2;(5)crossover_independent_proba=0.5;(6)mutation_independent_proba=0.05;(7)進(jìn)化到下一代的個(gè)體數(shù)目tournament_size=5。

MSPSO參數(shù)設(shè)置如下[17]:(1)種群數(shù)目T=5;(2)種群大小m=40;(3)迭代次數(shù)I=30;(4)慣性系數(shù)inertia coefficient=0.6893;(5)加速因子c1,c2=1.42964。

ACO參數(shù)設(shè)置如下[18]:(1)迭代次數(shù)I=50;(2)種群大小m=100;(3)信息素初始值τ0=1;(4)信息素與啟發(fā)信息相對(duì)權(quán)值α=1,β=0.1。

基準(zhǔn)算法和所有比對(duì)算法的分類器都使用到了前面提到的L2-regularized L2-loss SVC以及Multinomial Naive Bayes,其中SVC的懲罰系數(shù)C=0.8。各個(gè)算法使用的待選特征集合均為經(jīng)過(guò)預(yù)處理后的特征集合。對(duì)于所有的測(cè)試算法包括對(duì)比算法都在測(cè)試數(shù)據(jù)集上進(jìn)行了10重交叉校驗(yàn)(10-fold cross validation)。

3.4 結(jié)果與分析

本文將給出算法的試驗(yàn)結(jié)果并進(jìn)行簡(jiǎn)要分析。首先給出是采用不同短期回報(bào)計(jì)算方法,即分別采用特征L2正則化的tf-dif平均值和特征重要性作為短期回報(bào)值,和不同分類器(L2-regularized L2-loss SVC和Multinomial Naive Bayes)的Slime-FS算法實(shí)驗(yàn)結(jié)果。

圖3中虛線表示平均值(Mean),實(shí)線表示中位數(shù)(Median)。從圖3可以看到,采用何種分類器對(duì)于最終分類性能的影響并不大,sig+NB和sig+SVC無(wú)論是平均值、中值還是整體表現(xiàn)都極其接近,tfidf+NB和tfidf+SVC亦是如此。但是,采用何種短期回報(bào)值計(jì)算方法對(duì)最終性能會(huì)產(chǎn)生一定影響,可以明顯觀察到tf-idf一組算法在性能上要稍稍差于sig組的算法。

圖3 采用不同短期回報(bào)計(jì)算方法和不同分類器四類不同Slime-FS算法在10重交叉校驗(yàn)測(cè)試下的F1-measure值盒圖

圖4給出了4類SFS算法構(gòu)建的特征子集中特征的平均數(shù)目隨著迭代次數(shù)的變化。表4給出了4類SFS算法的平均執(zhí)行時(shí)間。從圖4中可以觀察到,4個(gè)算法選擇的特征平均數(shù)目最終都收斂在備選特征值的20%到35%之間,其中sig一組算法獲得的特征子集要稍稍小于tf-idf一組的算法。

圖4 4類不同Slime-FS算法在每次迭代中構(gòu)建的特征子集平均特征數(shù)(占備選集合特征總數(shù)百分比)

表4 4類不同Slime-FS算法10次10重交叉校驗(yàn)測(cè)試平均執(zhí)行時(shí)間

綜合來(lái)看,sig一組的算法顯然在本實(shí)驗(yàn)的數(shù)據(jù)集上能夠獲得性能更好且更加簡(jiǎn)潔的解。從表4中可以得知,算法性能上的提升是以計(jì)算復(fù)雜度提升為代價(jià)的,sig一組算法的 10次10重交叉校驗(yàn)測(cè)試平均執(zhí)行時(shí)間大約是tf-idf一組的算法的兩倍左右。

為了更加直觀展示算法對(duì)于情感表達(dá)特征的選擇能力,表5給出了Slime-FS(sig+SVC)在10重交叉校驗(yàn)測(cè)試中被選擇概率平均值最高的20個(gè)特征,從表中可以觀察到其中有12個(gè)特征(用#標(biāo)識(shí))本身就帶有明確的感情色彩。

表5 Slime-FS在10次10重交叉校驗(yàn)測(cè)試中被選擇概率平均值最高的20個(gè)特征

圖5給出的是Slime-FS與基準(zhǔn)算法NB、SVC,以及對(duì)比算法sklearn-genetic、EWGA、MSPSO和ACO 算法在10重交叉校驗(yàn)測(cè)試下的F1-measure值的盒圖。Slime-FS中的虛線表示均值(mean),實(shí)線表示中位值(median)?？梢杂^察到無(wú)論采用何種分類器,Slime-FS獲得的F1-Measure值無(wú)論是平均值、中值還是總體分布都要遠(yuǎn)遠(yuǎn)優(yōu)于基準(zhǔn)算法、EWGA和sklearn-genetic;同時(shí)也要明顯優(yōu)于ACO;在平均值上要略優(yōu)MSPSO,在中值和分布上仍明顯優(yōu)于MSPSO。

圖5 Slime-FS和基準(zhǔn)算法(NB、SVC)、sklearn-genetic、EWGA、MSPSO和ACO 算法分別使用兩種不同分類器在10重交叉校驗(yàn)測(cè)試下的F1-measure值盒圖

表6給出了各個(gè)算法(使用SVC作為分類器)在10次10重交叉校驗(yàn)測(cè)試中平均執(zhí)行時(shí)間和獲取特征子集中平均特征數(shù)(用占初始特征集的百分比來(lái)表示)?？捎^察到,在平均執(zhí)行時(shí)間上,Slime-FS要劣于MSPOS和ACO,與sklearn-genetic基本持平,好于EWGA。在選擇的特征子集大小上,Slime-FS要稍大于MSPOS,與ACO和sklearn-genetic基本持平,但小于EWGA。Slime-FS在產(chǎn)生特征子集分類性能指標(biāo)要優(yōu)于MSPOS,但產(chǎn)生特征子集要略大于MSPSO,且算法執(zhí)行時(shí)間更長(zhǎng),從降維(Dimension reduction)的角度來(lái)說(shuō),Slime-FS犧牲了一些算法時(shí)間性能作為代價(jià),選擇了更加合理的鑒別特征集合。在實(shí)際應(yīng)用問(wèn)題中,特征選擇往往是數(shù)據(jù)預(yù)處理中的一個(gè)部分,最終分類性能往往比時(shí)間性能更重要。因此,可以從某種程度上認(rèn)為Slime-FS的性能要優(yōu)于MSPOS。

表6 各個(gè)算法在10次10重交叉校驗(yàn)測(cè)試中平均執(zhí)行時(shí)間和獲取特征子集中平均特征數(shù)

綜合上面的對(duì)比測(cè)試結(jié)果可以合理地推斷,Slime-FS在綜合指標(biāo)上不僅優(yōu)于基準(zhǔn)、sklearn-genetic、EWGA和ACO算法,而且也略優(yōu)于MSPSO算法。

4 結(jié)束語(yǔ)

本文綜述了特征選擇問(wèn)題及當(dāng)前研究現(xiàn)狀,闡述了黏液菌覓食決策和原理,論文提出了黏液菌覓食決策應(yīng)當(dāng)如何與特征選擇問(wèn)題相結(jié)合,進(jìn)而在此基礎(chǔ)上提出一種黏液菌覓食決策的特征選擇算法Slime-FS,并將其應(yīng)用在慕課評(píng)論的情感識(shí)別問(wèn)題中。

論文闡述了算法及其參數(shù)設(shè)置,并用Slime-FS算法在某慕課平臺(tái)實(shí)際慕課評(píng)論數(shù)據(jù)集上與EWGA、sklearn-genetic、MSPSO和ACO算法對(duì)比測(cè)試,結(jié)果表明了Slime-FS算法所采用策略能夠指導(dǎo)算法對(duì)從候選特征集合中選擇一個(gè)合理的特征子集,在訓(xùn)練數(shù)據(jù)集上能夠獲得良好的分類性能。從分類性能、時(shí)間性能的對(duì)比來(lái)看,Slime-FS算法無(wú)疑很好地達(dá)成了對(duì)數(shù)據(jù)集降維、過(guò)濾冗余、無(wú)關(guān)特征的預(yù)期目標(biāo)。

當(dāng)然,Slime-FS算法只是受黏液菌覓食行為啟發(fā)的一個(gè)相對(duì)初步的特征選擇算法,算法的可用性和可靠性也無(wú)法同已經(jīng)大規(guī)模應(yīng)用于實(shí)踐中的成熟算法相比較。這個(gè)算法只是對(duì)于黏液菌覓食在特征選擇中應(yīng)用的初步探索。后續(xù)的研究中,一方面將對(duì)算法進(jìn)行完善,另一方面也將對(duì)黏液菌覓食行為仿生算法進(jìn)行進(jìn)一步探索,使其能夠應(yīng)用到其他問(wèn)題中去。