蔡瑞光,張德生,肖燕婷
(西安理工大學(xué)理學(xué)院,西安 710054)
(?通信作者電子郵箱2151577901@qq.com)
數(shù)據(jù)挖掘[1]是在大型數(shù)據(jù)存儲中自動發(fā)現(xiàn)有用信息的過程,分類屬于數(shù)據(jù)挖掘的四大任務(wù)之一。分類器能夠把數(shù)據(jù)集中的測試樣本映射到特定類別的分類函數(shù)或分類模型,已被廣泛應(yīng)用于文字以及人臉識別、醫(yī)學(xué)、文本分類、商務(wù)、圖像處理、自然語言理解、垃圾郵件識別等領(lǐng)域。
局部均值K近鄰(Local Mean-basedK-Nearest Neighbor,LMKNN)算法是文獻(xiàn)[2]提出的一種經(jīng)典的分類算法,其核心思想是先找到待分類樣本在訓(xùn)練集中每類樣本中的k個近鄰的局部均值點(diǎn),再將測試樣本分到離它最近的局部均值點(diǎn)所屬的類別。偽近鄰(Pseudo Nearest Neighbor rule for pattern classification,PNN)算法是文獻(xiàn)[3]提出的一種用偽最近鄰代替真正最近鄰的分類算法,首先找到待測樣本在每類訓(xùn)練樣本中的偽最近鄰,再將其分到距離測試樣本最近的偽最近鄰所屬于的類。局部均值偽最近鄰(Local Mean-based Pseudo Nearest Neighbor,LMPNN)算法[4]是將經(jīng)典的局部均值K近鄰(LMKNN)算法和偽最近鄰(PNN)算法相結(jié)合,充分利用了樣本的局部信息,降低了離群點(diǎn)對分類結(jié)果的影響。該算法的主要特點(diǎn)是簡單、快速且易于實(shí)現(xiàn),至今仍被廣泛地應(yīng)用。但該算法也有明顯的不足之處,參數(shù)的設(shè)置具有主觀敏感性,分類結(jié)果受k值的影響較大;將每個屬性值和類別均同等對待,忽略了每個屬性值和類別對分類結(jié)果的不同程度的影響。因此,確定最佳k值和屬性權(quán)重成為眾多學(xué)者的研究方向。
針對LMPNN 算法存在的不足之處,文獻(xiàn)[5]提出了基于局部均值與類均值的近鄰分類算法,該算法利用測試樣本對每個訓(xùn)練類中k個近鄰的局部均值的信息和整體均值的信息進(jìn)行預(yù)測分類。文獻(xiàn)[6]提出了基于局部均值表示的K近鄰分 類(Local Mean Representation-basedK-Nearest Neighbor classification,LMRKNN)算法,該算法首先尋找每個測試樣本在每類中的k個近鄰并用k個近鄰計算k個局部均值;其次,使用每類的k個局部均值線性表示測試樣本;最后,計算基于表示的距離作為測試樣本的分類決策函數(shù)。文獻(xiàn)[7]提出了基于加權(quán)均值表示的K近鄰分類(Weighted Local Mean Representation-basedK-Nearest Neighbor classification,WLMRKNN)算法,該算法充分利用k個近鄰的局部信息,并且賦予由k個近鄰計算的多局部均值不同的自適應(yīng)權(quán)重表示測試樣本,且WLMRKNN 是對LMRKNN 分類器權(quán)重的擴(kuò)展。文獻(xiàn)[8]提出了基于局部均值表示的調(diào)和近鄰分類(K-Harmonic Nearest Neighbor classification based on Local Mean Representation,LMRKHNN)算法,該算法計算測試樣本與每一個局部均值之間的距離,并用這些距離計算調(diào)和距離作為分類測試樣本的決策函數(shù)。文獻(xiàn)[9]提出了基于稀疏系數(shù)和殘差的k近鄰加權(quán)分類算法,該算法分別利用稀疏系數(shù)和殘差對距離度量進(jìn)行加權(quán),來充分考慮樣本的空間分布和屬性之間的相關(guān)程度。
上述幾種改進(jìn)算法雖然都具有較好的分類效果,但是仍然存在k值設(shè)置困難和類別權(quán)重仍然敏感的問題,本文將基于成功歷史記錄的自適應(yīng)參數(shù)差分進(jìn)化(Success-History based parameter Adaptation for Differential Evolution,SHADE)算法與LMPNN算法結(jié)合用于解決數(shù)據(jù)分類問題,提出參數(shù)獨(dú)立的加權(quán)局部均值偽近鄰分類(Parameter Independent Weighted Local Mean-based Pseudo Nearest Neighbor classification,PIW-LMPNN)算法。PIW-LMPNN 并未將特定類別的最優(yōu)權(quán)重和最優(yōu)值作為兩個獨(dú)立的問題,而是采用一種新穎的實(shí)值編碼方案——SHADE 算法將兩個優(yōu)化問題共軛為一個單目標(biāo)連續(xù)非凸優(yōu)化問題去解決。將新的分類算法在 15 個 UCI(UC Irvine machine learning)以 及 KEEL(Knowledge Extraction based on Evolutionary Learning)數(shù)據(jù)集上進(jìn)行測試,實(shí)驗(yàn)仿真結(jié)果表明,將SHADE 算法與LMPNN 算法結(jié)合能有效解決分類問題,其算法的穩(wěn)定性以及求解精度得到了明顯的提升。
在特征空間Rd中,假定訓(xùn)練集T=有L個類標(biāo)號ω1,ω2,…,ωL,并且是訓(xùn)練集中類別為ωj的訓(xùn)練樣本集合。N和Nj分別代表訓(xùn)練集T中樣本的個數(shù)和類別為ωj的訓(xùn)練集中樣本的個數(shù)。算法步驟如下:
步驟1 計算待測試樣本x到中樣本的歐氏距離:
步驟2 將類別ωj中的歐氏距離按升序排列,并取前k個近鄰
步驟3 計算待測試樣本x在類別ωj中前i個近鄰的局部均值向量:
步驟4 給每一類中的局部均值向量分配不同的權(quán)重。在ωj類中,第i個局部均值向量的權(quán)值為:
步驟5 計算每類ωj中的偽近鄰。
步驟6 預(yù)測待測樣本x的類標(biāo)號c。
例1 圖1中,是一個三類二維分類問題。測試樣本來自于第1 類樣本集。在表1 中,當(dāng)k=2,3,4 時,首先使用LMPNN分類器,測試實(shí)例在k為2 和4 時被誤分為第2 類,在k為3 時被正確分類。其次,在使用LMPNN 分類器之前,使用一組關(guān)于類別的特定權(quán)重時(如式(6)所示),測試實(shí)例均被正確分為第1 類。所以,LMPNN 分類器的性能依賴于預(yù)先設(shè)置的k值和屬性權(quán)重。
圖1 測試樣本與訓(xùn)練樣本Fig.1 Test samples and training samples
表1 不同k值下的偽近鄰分類Tab.1 Pseudo neighbor classification under different k values
差分進(jìn)化(Differential Evolution,DE)算法[10]是一種基于種群的全局搜索算法,許多實(shí)際問題利用DE 已得到有效解決。由于其算法結(jié)構(gòu)簡單易于執(zhí)行、控制參數(shù)少且有較強(qiáng)的搜索能力,差分進(jìn)化算法吸引了眾多學(xué)者的關(guān)注和研究。但是該算法的性能在很大程度上依賴于縮放比例因子F和交叉概率CR等參數(shù)的選擇。SHADE 算法[11]是DE 的最新變體,該算法是利用自適應(yīng)技術(shù)智能地計算F和CR的最優(yōu)值,在一定程度上彌補(bǔ)了DE算法的不足。
SHADE 是一種基于群智能的隨機(jī)優(yōu)化算法,具有種群內(nèi)信息共享以及記憶個體最優(yōu)解的優(yōu)點(diǎn),即通過種群內(nèi)個體間的競爭與合作來實(shí)現(xiàn)對優(yōu)化問題的求解,其本質(zhì)是一種基于實(shí)值編碼的貪婪遺傳算法[12]。首先隨機(jī)初始化種群Y0=[y1,0,y2,0,…,yN,0],N為種群規(guī)模。其 中,個 體yi,0=[yi,1,0,yi,2,0,…,yi,d,0]用于表示特征問題解,d為優(yōu)化問題的維數(shù)。算法的基本思想為:對當(dāng)前的種群進(jìn)行變異和交叉操作后,產(chǎn)生一個新的種群,其次運(yùn)用貪婪的思想對兩個種群進(jìn)行選擇,產(chǎn)生新的一代種群。具體而言,首先通過式(7)對每一個個體yi,g實(shí)施變異操作,得到與其相對應(yīng)的變異個體,即:
在變異策略DE/current-to-pbest/1 中,把被淘汰的個體存儲在一個集合A中,P表示當(dāng)代種群組成的集合。表 示隨機(jī)從當(dāng)代種群中適應(yīng)度靠前的N×p(p∈[0,1])個個體中選擇一個;yi,g和yr1,g是從集合P中隨機(jī)選擇的兩個個體是從種群和A合并后的集合中隨機(jī)選擇的一個個體;Fi為收縮因子。其次,利用式(8)對y i,g和變異個體vi,g實(shí)施交叉操作,生成個體ui,g,即:
其中:rand(j)為[0,1]的隨機(jī)數(shù);CRi為[0,1]的交叉因子;rnbr(i)為{1,2,…,d}的隨機(jī)變量。最后,運(yùn)用貪婪思想對個體進(jìn)行選擇,如式(9)所示,在個體ui,g和個體y i,g中保留較優(yōu)個體進(jìn)入下一代迭代。
其中f為適應(yīng)度函數(shù)。
交叉因子CRi和收縮因子Fi的計算式如下:
其中:randci(α,β)和randni(α,β)分別服從柯西分布和正態(tài)分布;(i=1,2,…,H)的初始值均為0.5,ri∈[1,H]。根據(jù)式(12)~(13)進(jìn)行更新:
將每一代SCR和SF的平均值都存儲在歷史矩陣MCR和MF中,并且保留了一組參數(shù)H,隨著搜索的進(jìn)行來指導(dǎo)控制參數(shù)的自適應(yīng)。因此,即使某個特定的SCR和SF中包含一組較差的值,也無法直接負(fù)面地影響已存儲在存儲器中的參數(shù)。此外,SHADE 算法使用較少的迭代次數(shù)相較經(jīng)典DE 算法產(chǎn)生了更好的結(jié)果,保留了全局搜索策略,并通過基于差分形式的變異操作和基于概率選擇的交叉操作引導(dǎo)種群進(jìn)化。
通過對LMPNN 的描述可知,該分類器對k值選擇仍然敏感,且對所有實(shí)例都使用一組相同的權(quán)重,均等地對待每一類中的每一個屬性,并未考慮每類中代表性屬性的影響,且忽略了利用有用的信息來區(qū)分特定的類別。為此,提出了參數(shù)獨(dú)立的加權(quán)局部均值偽近鄰分類(PIW-LMPNN)算法,無需人為設(shè)定參數(shù),可得到一組與類相關(guān)的最佳權(quán)重集,并同時通過優(yōu)化得到最優(yōu)k值。其基本思想為:對每類中的樣本施加特定類的屬性權(quán)重,引入了基于類的屬性加權(quán)方法,通過SHADE為每個類找到一組最佳權(quán)重,使每類代表性的屬性權(quán)重達(dá)到最高,同時將冗余的、嘈雜的屬性的權(quán)重降到最低;SHADE 同時可以經(jīng)過優(yōu)化得到最優(yōu)k值;最后運(yùn)用LMPNN 分類器預(yù)測測試樣本的類別。
引入目標(biāo)函數(shù)(14),通過SHADE 算法使其最小化,得到的參數(shù)值可以有效提高LMPNN算法的性能。
其中I是一個指示函數(shù),如式(15)所示:
目標(biāo)函數(shù)的域應(yīng)與分類器的參數(shù)空間的域相關(guān),表示為Z∈RD。h(·)是LMPNN 算法中的相異度度量。此外,z∈Z是e(·)的候選解,可以從中解出參數(shù)k和w的最佳選擇。接下來的任務(wù)是對z進(jìn)行編碼,由SHADE 進(jìn)行演化的同時計算得到k和w。z為D維向量,其中D=(L×d)+1,水平連接w的每一行并為k添加一個額外的單元格(如圖2 所示)。雖然能夠?qū)和k進(jìn)行同時編碼,但是z的這種表示形式不能直接用于實(shí)踐中的優(yōu)化,因?yàn)閣是一個實(shí)值矩陣,其每一行的取值都應(yīng)在0~1 的范圍內(nèi)。另一方面,k值是一個在1~的范圍內(nèi)的整數(shù)。在更新之后,通過從演化解z中提取w和k可以解決此問題。
圖2 通過SHADE算法優(yōu)化后的最佳權(quán)重和k值Fig.2 Optimal weights and k value after optimization of SHADE algorithm
所提出的PIW-LMPNN 分類器首先初始化N個解Z,其中(0 ≤z(f)≤1,?z∈Zandf=1,2,…,D),接下來對每一個參數(shù)進(jìn)行更新,在提取相應(yīng)的w和k后,通過計算e(·)進(jìn)行評估。對于w,更新和提取可以通過對每個權(quán)重集[z(rd-d+1),z(rd-d+2),…,z(rd)]進(jìn)行歸一化來完成,取值范圍為0~1。對于k,z(D)的取值范圍在ε~1,其中ε是一個非常小的正實(shí)數(shù)(對于z(D)≤0,取z( D)=ε;對于z(D)≥1,取z(D)=1;否則z(D)的取值保持不變)。如式(16)所示,修改后的z(D)乘以k的最大允許值并四舍五入到下一個整數(shù)。
種群通過SHADE 算法進(jìn)行更新。在SHADE 的每次迭代中,通過進(jìn)化生成新的解,找出當(dāng)前種群中使目標(biāo)函數(shù)最小化時對應(yīng)的w和k。將獲得的參數(shù)與訓(xùn)練集T一起使用,計算LMPNN 的分類誤差,當(dāng)其誤差小于相應(yīng)父代的誤差時,新解決方案才成為總體的一部分。最后將所得的全局最優(yōu)的w和k用于對測試樣本進(jìn)行分類。具體算法描述如算法1所示。
算法1 PIW-LMPNN算法。
輸入 訓(xùn)練集T,測試樣本x,H=100;
輸出 測試樣本x的類別c。
步驟1 在[0,1]隨機(jī)初始化種群Z=[ztj]N×D;
步驟2 利用SHADE 算法優(yōu)化目標(biāo)函數(shù)e(·),找出最優(yōu)的w*和k*;
步驟3 使用w*和k*以及式(17)去尋找測試樣本x在每類中的近鄰集合
步驟4 通過式(2)計算得到測試樣本x在每類中局部均值的集合
步驟5 通過式(3)~(4)計算測試樣本x在每類中的偽近鄰,以及測試樣本到偽近鄰的距離
步驟6 通過式(5)預(yù)測測試樣本x的類別c。
為了驗(yàn)證PIW-LMPNN 算法的分類性能,本文選取15 個常用數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn)。其中,數(shù)據(jù)集包含數(shù)據(jù)量為150~2 536,特征維數(shù)為4~73,類別數(shù)為2~11。表2 給出了二分類問題的混淆矩陣。其中:TP(True Positive)表示將正類預(yù)測為正類數(shù);TN(True Negative)表示將負(fù)類預(yù)測為負(fù)類數(shù);FP(False Positive)表示將負(fù)類數(shù)預(yù)測為正類數(shù);FN(False Negative)表示將正類數(shù)預(yù)測為負(fù)類數(shù)。表3 給出了本文實(shí)驗(yàn)數(shù)據(jù)的部分信息。
表2 分類結(jié)果混淆矩陣Tab.2 Confusion matrix of classification results
表3 數(shù)據(jù)集詳細(xì)信息Tab.3 Detailed information of datasets
以分類準(zhǔn)確率、綜合評價指標(biāo)以及非參數(shù)檢驗(yàn)——Wilcoxon 符號秩檢驗(yàn)、Friedman 秩方差檢驗(yàn)以及Hollander-Wolfe兩處理等作為評價指標(biāo)比較PIW-LMPNN和其他分類算法的性能。
4.1.1 分類準(zhǔn)確率
分類準(zhǔn)確率(Acc)的計算式如下:
TP和TN的值越大表明分類正確的樣本數(shù)越多,則分類準(zhǔn)確率越高[13]。
4.1.2 綜合評價指標(biāo)
綜合評價指標(biāo)(F-Measure)是精確率(Precision,P)和召回率(Recall,R)的加權(quán)調(diào)和平均,如式(20)所示。
其中:P是指正確判別為該類的樣本數(shù)與分類器實(shí)際判別屬于該類的樣本總數(shù)的比值,如式(21)所示;R是指正確判別為該類的樣本數(shù)與原樣本集中實(shí)際屬于該類的樣本總數(shù)的比值,如式(22)所示。
當(dāng)a=1時,F(xiàn)1=。F1是一種綜合考慮P與R的評價指標(biāo),具有較好的獨(dú)立性、時間無關(guān)性、可擴(kuò)展性和較低的計算復(fù)雜度。當(dāng)F1的值越大時,表示分類器越有效。
4.1.3 Wilcoxon符號秩檢驗(yàn)
兩配對樣本分布差異的非參數(shù)檢驗(yàn)是利用兩個配對樣本對樣本來自的兩個總體的分布是否存在顯著差異進(jìn)行檢驗(yàn)。Wilcoxon 符號秩檢驗(yàn)[14]的原假設(shè)是兩配對樣本來自的兩總體的分布無顯著差異,計算式如下:
其中,θi表示兩個對比算法在15 個數(shù)據(jù)集上的分類準(zhǔn)確率的差,將其差值的絕對值按升序排列,對應(yīng)的秩記為rank(θi),R+與R-分別表示正秩和與負(fù)秩和。將R=min(R+,R-)作為檢驗(yàn)統(tǒng)計量,顯著性水平α為0.05,在大樣本情況下可以使用正態(tài)近似:
計算得到Z值以后,查正態(tài)分布表對應(yīng)的概率p值,若概率p值小于顯著性水平α,則拒絕原假設(shè)。
4.1.4 Friedman秩方差檢驗(yàn)
Friedman秩方差檢驗(yàn)[15]是一種實(shí)現(xiàn)多個總體分布是否存在顯著差異的非參數(shù)檢驗(yàn)方法,適用于兩個因素的各種水平的組合都有一個觀測值的情況。假定第一個因子有k個水平,第二個因子有b個水平,因此一共有k×b個觀測值。設(shè)各總體的位置參數(shù)為θ1,θ2,…,θk,假設(shè)檢驗(yàn)問題為:
檢驗(yàn)統(tǒng)計量為:
Q值近似自由度為v=k-1 的χ2分布。若實(shí)測Q<,則不拒絕H0;反之,則接受H1。
4.1.5 Hollander-Wolfe兩處理比較
當(dāng)Friedman 秩方差檢驗(yàn)的分析結(jié)果有差異時,卻不能表明哪兩個分類器之間有差異顯著性。所以本文將運(yùn)用兩樣本(處理)間的比較[16],計算式如下:
其中,R·i和R·j分別為第i個和第j個樣本的秩和。有:
當(dāng)實(shí)測|Dij|≥時,表示兩樣本間有差異;反之則無差異。其中,α*=α/[k(k-1)],α為顯著性水平,為標(biāo)準(zhǔn)正態(tài)分布分位數(shù)。
實(shí)驗(yàn)基于Intel(R)Core(TM)i7-4700 CPU@3.60 GHz 環(huán)境,算法采用Matlab 和R 語言編程實(shí)現(xiàn)。將本文PIW-LMPNN算法與其他8 種分類算法進(jìn)行對比,表4 給出了9 種分類算法的準(zhǔn)確率和F1 值,表5 給出了PIW-LMPNN 算法與其他對比算法的Wilcoxon 符號秩檢驗(yàn),表6 給出了9 種分類算法的Friedman 檢驗(yàn)的平均等級,表7 給出了PIW-LMPNN 算法與8種對比算法的兩處理的Hollander-Wolfe計算。
表4 在不同數(shù)據(jù)集上分類準(zhǔn)確率、F1值及最優(yōu)k值Tab.4 Classification accuracy,F(xiàn)1 value and optimal k value on different datasets
表5 PIW-LMPNN與其他對比算法的Wilcoxon符號秩檢驗(yàn)結(jié)果Tab.5 Wilcoxon signed-rank test results of PIW-LMPNN and other comparison algorithms
表6 不同分類算法的Friedman檢驗(yàn)中的平均秩Tab.6 Average rank of different classification algorithms in Friedman test
表7 在α=0.05時兩處理的Hollander-Wolfe計算結(jié)果Tab.7 Hollander-Wolfe calculation results for pairwise processing when α=0.05
在本文的仿真實(shí)驗(yàn)中,KNN、FKNN(Fuzzy K Nearest Neighbor)、WKNN(distance-Weighted K-Nearest-Neighbor)、LMPNN[4]、LMKNN[2]、MLMNN(Multi-Local Means based Nearest Neighbor method)[17]、WRKNN(Weighted Representation-based K-Nearest Neighbor classification)和WLMRKNN 這8 種分類算法對k值均采用逐一驗(yàn)證的方法。具體設(shè)置如下:首先k的取值范圍為1~(n表示樣本數(shù)量);其次,重復(fù)5次m折交叉驗(yàn)證得到每個k值所對應(yīng)的平均準(zhǔn)確率,將平均準(zhǔn)確率最高時所對應(yīng)的k值選擇為最優(yōu)k值。根據(jù)文獻(xiàn)[11]可知,當(dāng)H的值取為100 時,目標(biāo)函數(shù)的最大評估次數(shù)(maximum number of Fitness Evaluations,F(xiàn)Es)為1000×d,在大多數(shù)數(shù)據(jù)集上取得了較好的效果。
在表4 中給出了PIW-LMPNN 算法和其他8 種分類算法在15 個數(shù)據(jù)集上的最優(yōu)k值、分類準(zhǔn)確率以及F1 值。由表4可見,PIW-LMPNN 在除band 數(shù)據(jù)集以外的14 個數(shù)據(jù)集上的分類準(zhǔn)確率均高于其他比較算法。band數(shù)據(jù)集在本文算法中的分類準(zhǔn)確率為70.49%,雖然低于WRKNN 和WLMRKNN 算法,但仍高于其余6 種算法的準(zhǔn)確率。除此之外,還可以看到PIW-LMPNN 算法在iris、wine、wdbc、vehi、seg 和der 這6 個數(shù)據(jù)集中的分類準(zhǔn)確率得到了明顯的提升。PIW-LMPNN 在15個數(shù)據(jù)集中獲得了最高的平均準(zhǔn)確率(如圖3 所示)。除此之外,由表4 可知,對于實(shí)驗(yàn)所選取的15 個數(shù)據(jù)集,在9 個算法中,14 個數(shù)據(jù)集的最好的F1 值都是由本文所提出的PIWLMPNN 算法得到的,也就是說,本文算法的精確率和召回率的綜合性能較好。整體而言,PIW-LMPNN 算法的整體性能優(yōu)于其他對比算法,所提算法的分類準(zhǔn)確率和F1值分別最大提高了約28個百分點(diǎn)和23.1個百分點(diǎn)。
圖3 不同分類算法的準(zhǔn)確率比較Fig.3 Accuracy comparison of different classification algorithms
表5 給出了本文算法與所有對比算法的Wilcoxon 符號秩檢驗(yàn)的結(jié)果。由表5 可知,R+的值遠(yuǎn)遠(yuǎn)大于R-的值,檢驗(yàn)統(tǒng)計量Z的值小于-1.96,概率p值均小于0.05。Wilcoxon 符號秩檢驗(yàn)結(jié)果表明,在顯著性水平α=0.05 的條件下,PIWLMPNN算法的分類性能明顯優(yōu)于其他對比算法。
在Friedman 秩方差分析法中,首先將表4 中的所有算法在每一個數(shù)據(jù)集上的分類準(zhǔn)確率進(jìn)行排序,排名越大,其分類結(jié)果越好。在表6 中列舉了每個分類算法的平均排序,PIWLMPNN 算法的平均排序Ri和其他對比算法的平均排序有較大的區(qū)別。實(shí)際測量Q=52.554 >=15.507,故接 受H1,認(rèn)為9個分類算法存在顯著差異。
Friedman 秩方差分析法已檢驗(yàn)出分類算法之間有差異,接下來將進(jìn)一步研究本文算法與每一個對比算法兩兩之間是否存在差異。由表7中9種分類算法性能比較結(jié)果可知,本文算法與其他8 種對比算法有顯著的差異。Friedman 秩方差分析和Hollander-Wolfe兩處理比較表明了本文算法和基于KNN的分類算法是不同的,并且PIW-LMPNN 算法的分類性能明顯優(yōu)于其他對比算法。
LMPNN 是一種有效的分類算法。在每一類中,能夠根據(jù)選取的k個近鄰計算得到測試樣本的偽近鄰,進(jìn)而通過決策函數(shù)預(yù)測測試樣本的類別。但是,該分類算法依賴于預(yù)先設(shè)置的k值,而且忽略了每個屬性對分類結(jié)果的不同的重要影響程度,將每個屬性同等對待。針對這些問題,本文提出了一種參數(shù)獨(dú)立的加權(quán)局部均值偽近鄰分類(PIW-LMPNN)算法。該算法將SHADE 算法和LMPNN 算法結(jié)合,首先對訓(xùn)練集樣本進(jìn)行優(yōu)化得到最佳k值和一組與類別相關(guān)的最佳權(quán)重,然后計算樣本間的距離時賦予每類的每個屬性不同的權(quán)重進(jìn)行分類。
在15 個實(shí)際數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的分類算法克服了LMPNN 算法對k值的敏感性和均等對待特征屬性的不足,且具有較強(qiáng)的泛化能力。下一步的主要工作是研究所提算法在復(fù)雜實(shí)際問題中的應(yīng)用。