摘 要:為了解決不平衡數(shù)據(jù)集中少數(shù)類樣本分類精度較低的問(wèn)題,提出了一種處理不平衡數(shù)據(jù)集的ADASYN-WGAN方法。首先,采用ADASYN(adaptive synthetic sampling)算法生成少數(shù)類樣本,用這些生成樣本代替WGAN(wasserstein generative adversarial networks)中的隨機(jī)噪聲;其次,利用WGAN算法生成符合原始數(shù)據(jù)集分布規(guī)律的少數(shù)類樣本,構(gòu)建平衡數(shù)據(jù)集;然后,在6個(gè)公開(kāi)數(shù)據(jù)集上,采用隨機(jī)森林分類器對(duì)所提方法和4種過(guò)采樣算法得出的處理結(jié)果分別與原始數(shù)據(jù)集進(jìn)行對(duì)比;最后,通過(guò)F1-Score,G-mean和AUC等分類評(píng)估指標(biāo)的表現(xiàn)驗(yàn)證所提方法的有效性。結(jié)果表明:在對(duì)比實(shí)驗(yàn)中,經(jīng)過(guò)ADASYN-WGAN方法得到的平衡數(shù)據(jù)集在隨機(jī)森林分類器的十折交叉驗(yàn)證中,4個(gè)公開(kāi)數(shù)據(jù)集中的各項(xiàng)分類評(píng)估指標(biāo)值均達(dá)到最優(yōu),雖然另2個(gè)公開(kāi)數(shù)據(jù)集中的AUC值略低,但其F1-Score和G-mean取得了最高值。所提出的ADASYN-WGAN方法可生成高質(zhì)量的數(shù)據(jù)樣本,并可為解決不平衡數(shù)據(jù)集中少數(shù)類樣本的預(yù)測(cè)偏差問(wèn)題提供參考。
關(guān)鍵詞:數(shù)據(jù)處理;不平衡數(shù)據(jù);WGAN;ADASYN;過(guò)采樣方法;隨機(jī)森林
中圖分類號(hào):
TP399
文獻(xiàn)標(biāo)識(shí)碼:A
DOI: 10.7535/hbgykj.2024yx04007
Hybrid imbalanced data processing based on ADASYN and WGAN
ZHOU Wanzhen1,2, SHENG Yuanyuan1, ZHANG Yongqiang 1,2, MA Jinlong1,2
(1.School of Information Science and Engineering, Hebei University of Science and Technology, Shijiazhuang, Hebei 050018, China; 2.Hebei Technology Innovation Center of Intelligent IoT, Shijiazhuang, Hebei 050018, China)
Abstract:In order to solve the problem of low classification accuracy of minority class samples in imbalanced datasets, an ADASYN-WGAN method was proposed to deal with imbalanced datasets. Firstly, the minority class samples were generated using the ADASYN algorithm, and these generated samples were used to replace the random noise in the WGAN; Secondly, the minority class samples conforming to the distribution law of the original dataset were generated using the WGAN algorithm to construct the balanced dataset; Then, the processing results derived from the proposed method and the four over-sampling algorithms were compared with the original dataset using the random forest classifier on six public datasets, respectively. Finally, the effectiveness of the proposed method was verified by the performance of classification assessment indexes such as F1-Score, G-mean and AUC. The results show that in the comparison experiments, the balanced dataset obtained by the ADASYN-WGAN method achieves the optimal values of all classification assessment indexes in four public datasets in the ten-fold cross-validation of the random forest classifier, and the F1-Score and G-mean achieve the highest values in the other two public datasets, although the AUC values are slightly lower. The proposed ADASYN-WGAN method can generate high-quality data samples and provide reference for solving the problem of prediction bias for a few class samples in unbalanced datasets.
Keywords:data processing; imbalanced data; WGAN; ADASYN; oversampling method; random forest
不平衡數(shù)據(jù)指的是,在一個(gè)數(shù)據(jù)集中不同類別的樣本數(shù)量差異很大。例如,在二分類問(wèn)題中,一類的樣本數(shù)量遠(yuǎn)遠(yuǎn)多于另一類的樣本數(shù)量,這就導(dǎo)致數(shù)據(jù)分布不平衡。不平衡數(shù)據(jù)的現(xiàn)象廣泛存在于金融預(yù)測(cè)、氣象預(yù)測(cè)、網(wǎng)絡(luò)入侵檢測(cè)、醫(yī)療診斷等實(shí)際應(yīng)用中 [1-4]。對(duì)于決策樹、隨機(jī)森林、支持向量機(jī)等傳統(tǒng)的分類模型,由于不平衡數(shù)據(jù)集中多數(shù)類樣本數(shù)量遠(yuǎn)遠(yuǎn)多于少數(shù)類樣本數(shù)量,常導(dǎo)致模型在學(xué)習(xí)過(guò)程中更加傾向于學(xué)習(xí)多數(shù)類樣本的特征,從而使預(yù)測(cè)結(jié)果產(chǎn)生偏差。但實(shí)際上少數(shù)類樣本往往比多數(shù)類樣本更具有價(jià)值,因此樣本類別的誤判可能會(huì)造成嚴(yán)重的損失。比如在腫瘤檢測(cè)任務(wù)中,如果在一個(gè)數(shù)據(jù)集中腫瘤樣本的數(shù)量較少,無(wú)腫瘤樣本數(shù)量較多,模型可能會(huì)更容易將腫瘤預(yù)測(cè)結(jié)果判定為無(wú)腫瘤,從而導(dǎo)致誤診。因此,如何提高不平衡數(shù)據(jù)集中少數(shù)類樣本的分類精度具有重要的研究?jī)r(jià)值。
近年來(lái),國(guó)內(nèi)外學(xué)者提出了各種各樣的方法來(lái)解決不平衡數(shù)據(jù)集中少數(shù)類樣本分類精度較低的問(wèn)題。GEETHA等[5] 利用SMOTE(synthetic minority oversampling technique)過(guò)采樣算法處理醫(yī)療數(shù)據(jù)集中的不平衡,但該算法在合成新樣本時(shí)存在盲目性和邊緣化的問(wèn)題。雖然隨機(jī)欠采樣[6]是一種簡(jiǎn)單而有效的處理不平衡數(shù)據(jù)集的方法,但該方法通過(guò)在多數(shù)類樣本中隨機(jī)刪除一定數(shù)量的樣本來(lái)使剩余樣本的數(shù)量與少數(shù)類樣本數(shù)量相匹配,這可能導(dǎo)致刪去對(duì)分類具有重要價(jià)值的樣本。FU等[7] 采用自適應(yīng)綜合抽樣(adaptive synthetic sampling,ADASYN)算法來(lái)生成新樣本,該方法雖然考慮了少數(shù)類樣本與其最近鄰的多數(shù)類樣本之間的差距,但卻忽略了其他多數(shù)類樣本之間的差異,導(dǎo)致生成的新樣本缺乏足夠的多樣性。隨著人工智能的發(fā)展,深度學(xué)習(xí)處理不平衡數(shù)據(jù)集已廣泛應(yīng)用在各項(xiàng)研究中[8-10]。生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)最初被設(shè)計(jì)用于生成逼真的圖像,但由于其具有還原數(shù)據(jù)集分布特征的能力,因此被廣泛用于擴(kuò)增少數(shù)類樣本數(shù)據(jù),從而解決數(shù)據(jù)不平衡問(wèn)題[11]。LEE等[12]設(shè)計(jì)了基于GAN的不平衡數(shù)據(jù)入侵檢測(cè)系統(tǒng)。阿克弘等[13]將GAN的數(shù)據(jù)增強(qiáng)技術(shù)成功應(yīng)用于用戶數(shù)據(jù)重構(gòu)中。SHARMA等[14]提出了一種基于GAN和SMOTE的混合過(guò)采樣方法,但其中GAN模型存在訓(xùn)練不穩(wěn)定、梯度消失和模式崩潰等問(wèn)題 [15-16]?;赪asserstein距離的生成對(duì)抗網(wǎng)絡(luò)(wasserstein generative adversarial networks,WGAN)作為GAN的改進(jìn)算法,利用Wasserstein距離和其他改進(jìn)有效解決了GAN中存在的問(wèn)題,并保證算法模型能更好地學(xué)習(xí)整體數(shù)據(jù)分布特征[17]。LEE等[18]采用WGAN的數(shù)據(jù)增強(qiáng)方法有效構(gòu)建環(huán)境管理系統(tǒng)所需的大量數(shù)據(jù)。然而,WGAN算法在訓(xùn)練過(guò)程中,若少數(shù)類樣本的數(shù)量太少,生成器(generator,G)可能會(huì)陷入局部最優(yōu)解,導(dǎo)致生成的少數(shù)類樣本質(zhì)量較低,使得生成樣本缺乏多樣性和真實(shí)性。
為了解決上述問(wèn)題,提出一種ADASYN-WGAN方法來(lái)處理不平衡數(shù)據(jù)集。該方法利用ADASYN算法生成的少數(shù)類樣本代替隨機(jī)噪聲作為WGAN生成器的輸入,解決WGAN受限于原始少數(shù)類樣本問(wèn)題。同時(shí),通過(guò)WGAN訓(xùn)練生成符合原始數(shù)據(jù)集分布規(guī)律的少數(shù)類樣本,解決ADASYN算法只考慮少數(shù)類樣本與其最近鄰的多數(shù)類樣本之間的差距而導(dǎo)致生成的新樣本不夠多樣化的問(wèn)題。ADASYN-WGAN方法充分結(jié)合了ADASYN算法和WGAN算法2種獨(dú)立算法的優(yōu)勢(shì)并克服其各自缺陷,在這2種算法的協(xié)同作用下生成多樣化且符合原始數(shù)據(jù)分布規(guī)律的數(shù)據(jù),從而提高不平衡數(shù)據(jù)集中少數(shù)類樣本的分類精度。
1 ADASYN-WGAN方法的構(gòu)建及實(shí)現(xiàn)
1.1 ADASYN-WGAN方法的構(gòu)建
受博弈論的啟發(fā),GOODFELLOW等[19]提出了一種生成對(duì)抗網(wǎng)絡(luò)(GAN)的訓(xùn)練方法。GAN包括2個(gè)部分:生成器和判別器(discriminator,D)。生成器的任務(wù)是生成逼真的樣本,而判別器的任務(wù)是盡可能準(zhǔn)確地區(qū)分生成的樣本和真實(shí)樣本。在訓(xùn)練過(guò)程中,生成器與判別器形成了類似于博弈論零和博弈的動(dòng)態(tài)平衡,雙方性能此消彼長(zhǎng),相互競(jìng)爭(zhēng)提升。通過(guò)這種訓(xùn)練方式,GAN可以學(xué)習(xí)生成逼真的樣本數(shù)據(jù)。盡管GAN在生成新樣本方面表現(xiàn)良好,但它存在訓(xùn)練不穩(wěn)定、梯度消失和模式崩潰等問(wèn)題。WGAN的出現(xiàn)基本解決了原始GAN存在的多種問(wèn)題[20]。
在WGAN算法中,隨機(jī)噪聲作為生成器的輸入,用于產(chǎn)生“虛假”數(shù)據(jù),然后將生成的“虛假”數(shù)據(jù)和真實(shí)樣本數(shù)據(jù)合并成訓(xùn)練集進(jìn)行模型訓(xùn)練,最后通過(guò)生成器和判別器之間的對(duì)抗訓(xùn)練生成“以假亂真”的數(shù)據(jù)樣本。隨機(jī)噪聲作為生成器的輸入引入了一定的隨機(jī)性,使得生成器可以通過(guò)學(xué)習(xí)并利用噪聲中的特征來(lái)模擬真實(shí)數(shù)據(jù)的分布情況。然而,由于隨機(jī)噪聲是完全隨機(jī)的,可能導(dǎo)致生成的數(shù)據(jù)樣本不穩(wěn)定。同時(shí),隨機(jī)噪聲作為生成器的輸入可能使生成器更傾向于生成相似的樣本,從而導(dǎo)致生成的樣本缺乏多樣性。為了改進(jìn)這一問(wèn)題,使用ADASYN算法生成的少數(shù)類樣本代替隨機(jī)噪聲作為WGAN中生成器的輸入,有助于提高輸入樣本的質(zhì)量,從而產(chǎn)生多樣性且高質(zhì)量的數(shù)據(jù)樣本。ADASYN-WGAN方法結(jié)構(gòu)圖如圖1所示。
1.1.1 ADASYN算法
ADASYN算法具有自適應(yīng)生成合成樣本的能力[21]。該算法會(huì)根據(jù)每個(gè)少數(shù)類樣本周圍的多數(shù)類樣本數(shù)量動(dòng)態(tài)地調(diào)整生成樣本的數(shù)量,以確保生成的樣本更好地適應(yīng)少數(shù)類樣本的分布。這種自適應(yīng)性使得ADASYN算法能夠更精準(zhǔn)地生成合成樣本,有效地應(yīng)對(duì)不同類別之間的數(shù)據(jù)分布差異。
在訓(xùn)練集中,將ms和ml分別定義為少數(shù)類樣本的數(shù)量和多數(shù)類樣本的數(shù)量。在ADASYN-WGAN方法中,首先利用ADASYN算法生成新的少數(shù)類樣本ui。ADASYN算法步驟如下:1)計(jì)算要合成的樣本數(shù)量G1;2)對(duì)于每個(gè)少數(shù)類樣本xi,根據(jù)n維空間中的歐幾里得距離找到K近鄰,并計(jì)算K近鄰中多數(shù)類樣本的占比ri=Δi/K,(i=1,2,…, ms),Δi是K(xi)附近的大多數(shù)類的個(gè)數(shù),因此ri∈(0,1];3)對(duì)ri利用式(1)進(jìn)行標(biāo)準(zhǔn)化。
r^i=ri∑msi=1ri。(1)
利用式(2)計(jì)算每個(gè)樣本xi需要生成的合成樣本的個(gè)數(shù)gi:
gi=G1×r^i。(2)
由gi計(jì)算出少數(shù)類樣本需要生成的樣本數(shù),然后利用式(3)生成新合成的少數(shù)類樣本ui,從而實(shí)現(xiàn)數(shù)據(jù)平衡。
ui=xi+rand(0,1)xzi-xi,(3)
式中:ui表示新生成的少數(shù)類樣本;xi表示原始的少數(shù)類樣本;xzi表示隨機(jī)選出的近鄰樣本。
1.1.2 WGAN算法
WGAN引入了Wasserstein距離代替了原始GAN中使用的Jensen-Shannon散度,用它來(lái)衡量2個(gè)分布之間的距離。Wasserstein距離的獨(dú)特之處在于,即使在2個(gè)分布沒(méi)有重疊的情況下,它仍能表現(xiàn)2個(gè)分布之間的距離關(guān)系。因此,Wasserstein距離作為一種更可靠的度量,能夠在訓(xùn)練過(guò)程中指示每次迭代的優(yōu)化信息,促使生成器產(chǎn)生更高質(zhì)量的數(shù)據(jù),這使得WGAN成為一種更穩(wěn)定且有效的生成對(duì)抗網(wǎng)絡(luò)算法。
WGAN生成器和判別器的損失函數(shù)表達(dá)式分別如式(4)和式(5)所示。
minG-EzDGz,(4)
maxD∈ΩExDx-Ez1-DGz,(5)
式中:Ω表示1-Lipschitz函數(shù)的集合;Dx表示從真實(shí)數(shù)據(jù)樣本x得到的概率分布;Gz表示的是隨機(jī)噪聲z通過(guò)生成器生成的數(shù)據(jù);DGz表示的是生成數(shù)據(jù)被判別器認(rèn)為是真實(shí)數(shù)據(jù)的概率。
1.2 ADASYN-WGAN方法的實(shí)現(xiàn)
ADASYN-WGAN方法的具體實(shí)現(xiàn)步驟如下。
Step1:通過(guò)ADASYN算法生成新的少數(shù)類樣本ui。
Step2:定義初始化WGAN生成器和判別器的網(wǎng)絡(luò)結(jié)構(gòu)。
Step3:將ui作為WGAN生成器的輸入。
Step4:通過(guò)生成器生成一批假樣本S′。
Step5:將真實(shí)樣本和生成器生成的假樣本S′合為一個(gè)訓(xùn)練集,作為判別器的輸入。
Step6:訓(xùn)練判別器,使其能正確區(qū)分真實(shí)樣本和假樣本。
Step7:訓(xùn)練生成器,使其能夠生成更逼真的假樣本,以欺騙判別器。
重復(fù)Step4—Step7直至WGAN收斂,達(dá)到納什平衡,生成器生成的數(shù)據(jù)足以“以假亂真”。
ADASYN-WGAN方法的偽代碼如表1所示。
ADASYN-WGAN方法中,首先利用ADASYN算法生成的少數(shù)類樣本ui代替隨機(jī)噪聲z作為生成器的輸入,即在ADASYN-WGAN方法中,修改了WGAN算法的損失函數(shù)并將其與ADASYN相結(jié)合。更新后的生成器和判別器損失函數(shù)表達(dá)式分別如式(6)和式(7)所示:
minG-EuiDGui,(6)
maxD∈ΩExDx-Eui1-DGui,(7)
式中:Gui表示ui通過(guò)生成器生成的數(shù)據(jù);DGui表示生成數(shù)據(jù)被判別器認(rèn)為是真實(shí)數(shù)據(jù)的概率。
ADASYN-WGAN方法中,WGAN的生成器由多個(gè)隱藏層組成,并通過(guò)激活函數(shù)將輸出限制在合適的范圍內(nèi),以生成逼真的數(shù)據(jù)樣本。判別器接收真實(shí)數(shù)據(jù)和生成器生成的數(shù)據(jù),通過(guò)一系列神經(jīng)網(wǎng)絡(luò)層處理,使判別器輸出的是輸入數(shù)據(jù)為真實(shí)數(shù)據(jù)的概率。生成器的訓(xùn)練通過(guò)與一個(gè)判別器進(jìn)行對(duì)抗訓(xùn)練來(lái)完成,判別器的目標(biāo)是有效區(qū)分生成器生成的數(shù)據(jù)樣本和真實(shí)數(shù)據(jù)樣本。生成器通過(guò)不斷優(yōu)化參數(shù)來(lái)提高生成樣本的質(zhì)量,旨在欺騙判別器,這個(gè)過(guò)程一直持續(xù)到WGAN收斂,即判別器不能準(zhǔn)確辨別生成的樣本。一旦達(dá)到這個(gè)狀態(tài),生成器能夠生成大量符合真實(shí)數(shù)據(jù)分布規(guī)律的新樣本,從而將訓(xùn)練數(shù)據(jù)從不平衡狀態(tài)擴(kuò)展到平衡的狀態(tài)。
1.2.1 ADASYN-WGAN方法的生成器架構(gòu)
ADASYN-WGAN方法中,WGAN算法的生成器不再以隨機(jī)噪聲為輸入,而是采用由ADASYN算法生成的少數(shù)類樣本作為生成器的輸入,并包含4層全連接層。為了避免樣本振蕩和模型不穩(wěn)定,對(duì)生成器的輸入層和輸出層進(jìn)行了批量歸一化。在激活函數(shù)方面,采用ReLU作為隱藏層的激活函數(shù),Tanh作為輸出層的激活函數(shù),以促使更快的梯度變化,從而加速訓(xùn)練過(guò)程的收斂速度。ADASYN-WGAN方法的生成器結(jié)構(gòu)如圖2所示。
1.2.2 ADASYN-WGAN方法的判別器架構(gòu)
在ADASYN-WGAN方法中,判別器的輸入由生成的數(shù)據(jù)樣本和真實(shí)數(shù)據(jù)樣本組成,并經(jīng)過(guò)3個(gè)全連接層的處理。在神經(jīng)元的激活函數(shù)方面,采用了Leaky ReLU。ADASYN-WGAN方法的判別器結(jié)構(gòu)如圖3所示。
1.2.3 ADASYN-WGAN方法的損失函數(shù)
損失函數(shù)是評(píng)估神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)性能與真實(shí)目標(biāo)之間差距的關(guān)鍵指標(biāo),在ADASYN-WGAN方法中沒(méi)有使用常見(jiàn)的交叉損失函數(shù),而是選擇了Wasserstein距離作為訓(xùn)練時(shí)的損失函數(shù)。Wasserstein距離是一種用于度量2個(gè)概率分布之間差異的指標(biāo)。相比于傳統(tǒng)GAN中使用的Jensen-Shannon散度,Wasserstein距離具有更好的數(shù)學(xué)性質(zhì),有助于避免傳統(tǒng)GAN中的模式崩潰和梯度消失等問(wèn)題。Wasserstein距離使得算法模型能夠更準(zhǔn)確地衡量真實(shí)分布與生成分布之間的距離,為訓(xùn)練提供更穩(wěn)定的指導(dǎo)。
2 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
2.1 實(shí)驗(yàn)數(shù)據(jù)及設(shè)計(jì)
本文從KEEL和UCI數(shù)據(jù)庫(kù)中選取了6組不同的公開(kāi)數(shù)據(jù)集,具有不同的不平衡率(imbalance ratio, IR)(1.54~14.3),以評(píng)估ADASYN-WGAN方法的性能。首先,對(duì)原始數(shù)據(jù)集采用Enconder方法進(jìn)行數(shù)據(jù)標(biāo)簽數(shù)值化,接著進(jìn)行歸一化處理。然后,采用隨機(jī)森林分類器對(duì)經(jīng)過(guò)ADASYN-WGAN方法處理得到的平衡數(shù)據(jù)集進(jìn)行十折交叉驗(yàn)證實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果和SMOTE,GAN,ADASYN和WGAN算法采樣得到的結(jié)果分別與原始數(shù)據(jù)集進(jìn)行對(duì)比。在實(shí)驗(yàn)中,隨機(jī)森林分類器使用默認(rèn)參數(shù)。表2給出了6組公開(kāi)數(shù)據(jù)集的具體信息。
2.2 評(píng)估指標(biāo)
在傳統(tǒng)的分類問(wèn)題中,通常使用準(zhǔn)確性作為評(píng)估各種分類算法性能的主要指標(biāo)。然而在不平衡的數(shù)據(jù)集中,準(zhǔn)確性的度量存在一定問(wèn)題,因?yàn)槠鋬A向于多數(shù)類,將它作為評(píng)估指標(biāo)會(huì)導(dǎo)致少數(shù)類的錯(cuò)誤分類率明顯偏高。因此,在不平衡數(shù)據(jù)集的情況下,使用F1-Score,G-mean和AUC等作為評(píng)估指標(biāo)更為合適。為了更清晰地描述這些評(píng)估指標(biāo),需要用到混淆矩陣(如表3所示)。
F1-Score是衡量算法模型對(duì)少數(shù)類樣本分類性能的重要指標(biāo),在不平衡數(shù)據(jù)的分類評(píng)估中被廣泛采用。通常簡(jiǎn)寫為F1,其公式如式(8)所示:
F1=2×TPTP+FP×TPTP+FNTPTP+FP+TPTP+FN。(8)
G-mean綜合考慮了多數(shù)類樣本和少數(shù)類樣本的分類精度,僅當(dāng)2類的分類情況都表現(xiàn)良好時(shí),G-mean值才會(huì)增加,因此G-mean是整個(gè)數(shù)據(jù)集分類效果的有力度量。
G-mean公式如式(9)所示:
G-mean= TPTP+FN×TNTN+FP。(9)
本文使用AUC來(lái)說(shuō)明分類結(jié)果。AUC被定義為接受者操作特性曲線下的面積,而接受者操作特性曲線是通過(guò)繪制不同閾值設(shè)置下的靈敏度TP/(TP+FN)與特異性TN/(TN+FP)對(duì)比生成。AUC值越大,分類效果越好。
2.3 ADASYN-WGAN方法驗(yàn)證與結(jié)果分析
2.3.1 方法驗(yàn)證及可視化對(duì)比分析
ADASYN-WGAN方法中,在yeast1.7數(shù)據(jù)集上,生成器和判別器的訓(xùn)練損失函數(shù)值隨著訓(xùn)練次數(shù)增加的變化過(guò)程如圖4所示。
從圖4可以看出,隨著訓(xùn)練的進(jìn)行,判別器和生成器逐漸優(yōu)化以提高自身能力,損失函數(shù)值逐漸趨于穩(wěn)定,表明對(duì)抗網(wǎng)絡(luò)模型逐漸收斂。此時(shí)生成器的生成能力達(dá)到最大,即ADASYN-WGAN方法能夠生成與真實(shí)少數(shù)類數(shù)據(jù)分布規(guī)律相似的高質(zhì)量樣本,模型訓(xùn)練結(jié)束。
為了驗(yàn)證ADASYN-WGAN方法生成的數(shù)據(jù)樣本與原始數(shù)據(jù)集分布規(guī)律之間的相似性,首先對(duì)人工數(shù)據(jù)集進(jìn)行可視化驗(yàn)證,利用sklearn中的make_classification函數(shù)創(chuàng)建不平衡率為9、特征數(shù)為3的不平衡數(shù)據(jù)集,其中總樣本數(shù)量為450,生成的不平衡原始數(shù)據(jù)集的分布效果如圖5 a)所示。然后,對(duì)不同采樣算法生成的數(shù)據(jù)進(jìn)行可視化對(duì)比分析,如圖5 b)—f)所示。從圖中可以直觀地看到ADASYN-WGAN方法生成的少數(shù)類樣本更符合數(shù)據(jù)集分布規(guī)律,也不會(huì)因生成重疊部分的數(shù)據(jù)而導(dǎo)致分類器精度降低。
2.3.2 實(shí)驗(yàn)結(jié)果及分析
在6個(gè)公開(kāi)不平衡數(shù)據(jù)集中,采用隨機(jī)森林分類器對(duì)所提方法和已有的4種過(guò)采樣算法(SMOTE,GAN,ADASYN和WGAN)的采樣結(jié)果分別與原始數(shù)據(jù)集作對(duì)比。依據(jù)F1-Score,G-mean 和AUC等分類評(píng)估指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了評(píng)價(jià)。具體結(jié)果見(jiàn)表4—表6,各表中將各個(gè)評(píng)估指標(biāo)的最優(yōu)值用黑色粗體表示。
相較于隨機(jī)森林分類器在原始數(shù)據(jù)集上的分類結(jié)果,使用SMOTE,GAN,ADASYN和WGAN過(guò)采樣算法可以在不同程度上提高分類器在數(shù)據(jù)集上的分類性能。ADASYN-WGAN方法在名為glass6,ecoli1,ecoli2,yeast1.7的4個(gè)不平衡數(shù)據(jù)集上顯著提升了隨機(jī)森林分類器的分類性能,使得各項(xiàng)指標(biāo)值均達(dá)到最優(yōu)。
在penbased數(shù)據(jù)集上,與WGAN算法相比,ADASYN-WGAN方法的AUC值低0.000 905,而在realspambase數(shù)據(jù)集上,與GAN算法相比,ADASYN-WGAN方法的AUC值低0.000 501,總體上差距不大。但ADASYN-WGAN方法在這2個(gè)數(shù)據(jù)集上的F1-Score值和G-mean值達(dá)到最優(yōu),保證了分類精度。
通過(guò)上述分析可以看出,ADASYN-WGAN方法有效解決了不平衡數(shù)據(jù)集分類預(yù)測(cè)偏差的問(wèn)題,在F1-Score,G-mean,AUC這3個(gè)綜合性評(píng)估指標(biāo)上得到了較好的結(jié)果。
3 結(jié) 語(yǔ)
本文提出了通過(guò)ADASYN算法和WGAN算法的協(xié)同作用生成平衡數(shù)據(jù)集,來(lái)解決數(shù)據(jù)不平衡給分類器帶來(lái)的預(yù)測(cè)偏差問(wèn)題。在6個(gè)公開(kāi)數(shù)據(jù)集中,采用隨機(jī)森林分類器對(duì)所提方法以及SMOTE,GAN,ADASYN和WGAN等4種過(guò)采樣算法的處理結(jié)果分別與原始數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),得出以下結(jié)論。
1)從可視化對(duì)比分析可知,ADASYN-WGAN方法與4種過(guò)采樣算法相比生成的少數(shù)類樣本更符合原始數(shù)據(jù)集的分布規(guī)律,也不會(huì)因生成重疊部分的數(shù)據(jù)而導(dǎo)致分類器精度降低。
2)在6個(gè)公開(kāi)數(shù)據(jù)集中采用隨機(jī)森林分類器進(jìn)行十折交叉驗(yàn)證,通過(guò)對(duì)比實(shí)驗(yàn)分析可知,使用4種過(guò)采樣算法可以在不同程度上提高分類器在不平衡數(shù)據(jù)集上的分類性能,而使用ADASYN-WGAN方法可以大幅度提升隨機(jī)森林分類器的分類性能。
3)本文所提的ADASYN-WGAN方法解決了ADASYN算法在生成新樣本時(shí)忽視多數(shù)類樣本之間差異的問(wèn)題,從而避免了生成的新樣本缺乏多樣性的情況。同時(shí),該方法利用了WGAN算法解決了傳統(tǒng)GAN算法中存在的模式崩潰、梯度損失等問(wèn)題,并解決了WGAN算法生成樣本受限于原始少數(shù)類樣本的問(wèn)題。通過(guò)ADASYN-WGAN方法生成符合原始數(shù)據(jù)集分布規(guī)律的數(shù)據(jù),從而提高不平衡數(shù)據(jù)集中少數(shù)類樣本的分類精度。
但是,目前該方法在使用中可能會(huì)出現(xiàn)由ADASYN算法和WGAN算法結(jié)合使用而帶來(lái)的計(jì)算復(fù)雜度和訓(xùn)練時(shí)間增加問(wèn)題。因此,今后將在確保生成數(shù)據(jù)質(zhì)量的同時(shí)進(jìn)一步簡(jiǎn)化模型,以降低計(jì)算復(fù)雜度和縮短訓(xùn)練時(shí)間。
參考文獻(xiàn)/References:
[1]
AL-SHABI M.Credit card fraud detection using autoencoder model in unbalanced datasets[J].Journal of Advances in Mathematics and Computer Science,2019,33(5):1-16.
[2] PARSA A B,TAGHIPOUR H,DERRIBLE S,et al.Real-time accident detection:Coping with imbalanced data[J].Accident Analysis amp; Prevention,2019,129:202-210.
[3] ZHANG Hongpo,HUANG Lulu,WU C Q,et al.An effective convolutional neural network based on SMOTE and Gaussian mixture model for intrusion detection in imbalanced dataset[J].Computer Networks,2020,177:107315.
[4] XU Zhaozhao,SHEN Derong,NIE Tiezheng,et al.A cluster-based oversampling algorithm combining SMOTE and k-means for imbalanced medical data[J].Information Sciences,2021,572:574-589.
[5] GEETHA R,SIVASUBRAMANIAN S,KALIAPPAN M,et al.Cervical cancer identification with synthetic minority oversampling technique and PCA analysis using random forest classifier[J].Journal of Medical Systems,2019,43(9):286-305.
[6] 劉學(xué)文,王繼奎,楊正國(guó),等.密度峰值優(yōu)化的球簇劃分欠采樣不平衡數(shù)據(jù)分類算法[J].計(jì)算機(jī)應(yīng)用,2022,42(5):1455-1463.
LIU Xuewen,WANG Jikui,YANG Zhengguo,et al.Imbalanced data classification algorithm based on ball cluster partitioning and undersampling with density peak optimization[J].Journal of Computer Applications,2022,42(5):1455-1463.
[7] FU Yanfang,DU Yishuai,CAO Zijian,et al.A deep learning model for network intrusion detection with imbalanced data[J].Electronics,2022,11(6):898-910.
[8] LIU Jingmei,GAO Yuanbo,HU Fengjie.A fast network intrusion detection system using adaptive synthetic oversampling and LightGBM[J].Computers amp; Security,2021,106:102289-102304.
[9] YAN Yilin,CHEN Min,SHYU M L,et al.Deep learning for imbalanced multimedia data classification[C]//2015 IEEE International Symposium on Multimedia (ISM).Miami:IEEE,2015:483-488.
[10]KHAN S H,HAYAT M,BENNAMOUN M,et al.Cost-sensitive learning of deep feature representations from imbalanced data[J].IEEE Transactions on Neural Networks and Learning Systems,2018,29(8):3573-3587.
[11]張思杰,方翔,魏賦.基于GAN的少樣本視網(wǎng)膜血管分割研究[J].電子測(cè)量與儀器學(xué)報(bào),2021,35(11):132-142.
ZHANG Sijie,F(xiàn)ANG Xiang,WEI Fu.Research on retinal vascular segmentation based on GAN using few samples[J].Journal of Electronic Measurement and Instrumentation,2021,35(11):132-142.
[12]LEE J H,PARK K H.GAN-based imbalanced data intrusion detection system[J].Personal and Ubiquitous Computing,2021,25(1):121-128.
[13]阿克弘,胡曉東.基于GAN數(shù)據(jù)重構(gòu)的電信用戶流失預(yù)測(cè)方法[J].電信科學(xué),2023,39(3):135-142.
A Kehong,HU Xiaodong.GAN data reconstruction based prediction method of telecom subscriber loss[J].Telecommunications Science,2023,39(3):135-142.
[14]SHARMA A,SINGH P K,CHANDRA R,et al.SMOTified-GAN for class imbalanced pattern classification problems[J].IEEE Access,2022,10:30655-30665.
[15]WANG Zhengwei,SHE Qi,WARD T E.Generative adversarial networks in computer vision:A survey and taxonomy[J].ACM Computing Surveys,2021,54(2):3439723.https://doi.org/10.1145/3439723.
[16]朱曉慧,錢麗萍,傅偉.基于GAN的網(wǎng)絡(luò)安全數(shù)據(jù)增強(qiáng)研究綜述與展望[J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(11):288-296.
ZHU Xiaohui,QIAN Liping,F(xiàn)U Wei.Review and prospect of data enhancement in network security based on GAN[J].Computer Applications and Software,2022,39(11):288-296.
[17]PAN S J,YANG Qiang.A survey on transfer learning[J].IEEE Transactions on Knowledge and Data Engineering,2010,22(10):1345-1359.
[18]LEE S,KIM J,LEE G,et al.Prediction of aquatic ecosystem health indices through machine learning models using the WGAN-based data augmentation method[J].Sustainability,2021,13(18):10435-10454.
[19]GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et al.Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems.Montreal:MIT Press,2014,2:2672-2680.
[20]王志強(qiáng),于雪瑩,楊曉婧,等.基于WGAN和MCA-MobileNet的番茄葉片病害識(shí)別[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(5):244-252.
WANG Zhiqiang,YU Xueying,YANG Xiaojing,et al.Tomato leaf diseases recognition based on WGAN and MCA-MobileNet[J].Transactions of the Chinese Society for Agricultural Machinery,2023,54(5):244-252.
[21]HE Haibo,BAI Yang,GARCIA E A,et al.ADASYN:Adaptive synthetic sampling approach for imbalanced learning[C]//2008 IEEE International Joint Conference on Neural Networks(IEEE World Congress on Computational Intelligence).Hong Kong:IEEE,2008:1322-1328.