劉悅婷 孫偉剛 張發(fā)菊
摘 要:針對(duì)不平衡數(shù)據(jù)集數(shù)據(jù)分布不均勻及邊界模糊的特點(diǎn),提出一種新的近鄰密度SVM(NNDSVM)不平衡數(shù)據(jù)集分類(lèi)算法。該算法先計(jì)算多數(shù)類(lèi)中每個(gè)樣本K近鄰范圍內(nèi)的密度值,依據(jù)該密度值分別選出邊界區(qū)域、靠近邊界區(qū)域的與少數(shù)類(lèi)數(shù)目相等的樣本與少數(shù)類(lèi)完成SVM初始分類(lèi);用所得的支持向量機(jī)和剩余的多數(shù)類(lèi)樣本對(duì)初始分類(lèi)器迭代優(yōu)化。人工數(shù)據(jù)集和UCI數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,與SVM、ALSMOTE-SVM和WSVM算法相比,本文算法分類(lèi)效果良好,能有效改進(jìn)SVM算法在分布不均勻及邊界模糊數(shù)據(jù)集上的分類(lèi)性能。
關(guān)鍵詞:支持向量機(jī);不平衡數(shù)據(jù)集;近鄰密度;分布不均勻;邊界區(qū)域
中圖分類(lèi)號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼: A