亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聯(lián)合遷移學習和強化學習的不平衡分類方法

        2022-10-17 13:53:10侯春萍華中華于笑辰王偉陽
        計算機工程與設計 2022年10期
        關鍵詞:分類效果模型

        侯春萍,華中華,楊 陽+,于笑辰,王偉陽,于 鑫

        (1.天津大學 電氣自動化與信息工程學院,天津 300072; 2.國家電網(wǎng)遼寧省電力有限公司 丹東供電公司,遼寧 丹東 118000)

        0 引 言

        在疾病診斷[1]、垃圾郵件檢測[2]和軟件缺陷檢測[3]等應用問題中,由于其異常樣本出現(xiàn)頻率低、總體數(shù)量少,數(shù)據(jù)集中的正常、異常樣本數(shù)量往往都是不平衡的。利用這種不平衡樣本對機器學習模型進行訓練,會導致模型在少數(shù)類樣本上產(chǎn)生極大的過擬合,訓練好的模型在少數(shù)類樣本上的識別性能不好,模型最終的分類準確率下降。因此,研究不平衡樣本的二分類問題,對少數(shù)類樣本的正確分類具有重要的意義。

        當前研究不平衡數(shù)據(jù)二分類問題的大多數(shù)方法主要是從模型和數(shù)據(jù)兩個層面對算法進行設計。模型層面方法的典型算法有代價敏感算法和集成算法。代價敏感算法以整體誤分類代價的最小化作為訓練目標,通過引入代價矩陣,賦予少數(shù)類樣本較大的權(quán)重,以降低分類器在少數(shù)類樣本上的錯誤率。文獻[4]提出的基于代價敏感的間隔分布學習機,利用成本敏感的間隔均值和懲罰項,以使高代價的樣本被錯誤分類的概率降低。Khan等[5]提出了代價敏感深度神經(jīng)網(wǎng)絡,該網(wǎng)絡同時優(yōu)化代價敏感因子和網(wǎng)絡參數(shù),以提高不平衡數(shù)據(jù)的分類效果。Alam等[6]將多數(shù)類樣本劃分為多個子集并分別進行訓練,然后集成所有的子分類器,提升了不平衡樣本的分類效果。模型層面的算法的特點是,不改變原始數(shù)據(jù)的分布,避免了合成或刪除樣本引進的誤差。但是,由于不同的數(shù)據(jù)集的不平衡度不同,各類樣本的重要程度不同,這類算法的優(yōu)化較為困難。

        數(shù)據(jù)層面的方法主要通過改變訓練集中多數(shù)類和少數(shù)類樣本的數(shù)量,減輕訓練過程中的過擬合現(xiàn)象,從而提升不平衡分類的效果。改變樣本數(shù)量的方式一般有兩種,一種是對多數(shù)類樣本進行下采樣,另一種是對少數(shù)類樣本進行上采樣。文獻[7]采用的合成少數(shù)類算法(synthetic minority over-sampling technique,SMOTE),在少數(shù)類樣本及其鄰近樣本之間進行線性插值,生成新的少數(shù)類樣本。文獻[8]提出了自適應合成采樣算法(adaptive synthetic sampling,ADASYN),根據(jù)數(shù)據(jù)分布情況為不同的少數(shù)類樣本生成不同數(shù)量的新樣本。Zhu等[9]在SMOTE算法的基礎上,提出了SMOM算法,該算法基于少數(shù)類樣本的K近鄰計算出選擇權(quán)重,進而控制該方向合成樣本的概率。文獻[10]提出的G-SMOTE算法,在選定的少數(shù)類樣本周圍生成樣本,一定程度上避免了SMOTE算法生成樣本的隨機性。文獻[11]提出的Hybrid Sampling算法,首先利用基于密度的聚類方法(density-based spatial clustering of applications with noise,DBSCAN)和K近鄰算法(K-nearest neighbor,KNN)剔除多數(shù)類中的模糊樣本,然后采用SMOTE算法對少數(shù)類樣本上采樣,達到平衡數(shù)據(jù)集的目的。Shi等[12]提出的SDS-SMOT算法,首先對原始數(shù)據(jù)集進行下采樣:丟棄遠離決策邊界的多數(shù)類樣本和噪聲樣本;然后采用SMOTE算法對少數(shù)類實樣本進行上采樣,使數(shù)據(jù)集基本平衡。Wu等[13]提出的基于SVM分類超平面的混合采樣算法,利用決策面計算少數(shù)類樣本的重要程度,并分別對多數(shù)類樣本和較為重要的少數(shù)類樣本進行下采樣和上采樣從而平衡數(shù)據(jù)集。數(shù)據(jù)層面的方法雖然能夠通過建立樣本平衡的數(shù)據(jù)集解決訓練中的過擬合問題,但是,下采樣方法在刪除噪聲的過程中可能會丟失多數(shù)類樣本關鍵信息,上采樣方法不能保證新增樣本對模型分類效果的貢獻程度,最終分類模型的性能嚴重依賴于特定的下采樣/上采樣方法。

        Kang等在文獻[14]中指出,不平衡的訓練數(shù)據(jù)集的樣本數(shù)量和樣本特征分布并不完全耦合,高質(zhì)量的類別表征是提高不平衡樣本分類效果的關鍵。但是由于樣本數(shù)量的不平衡度較大,高質(zhì)量的類別表征難以獲取。在基于上采樣方法實現(xiàn)的不平衡分類算法中,生成樣本雖然數(shù)量較多,但是樣本質(zhì)量參差不齊,部分生成樣本與多數(shù)類樣本的特征分布距離較近,反而容易降低少數(shù)類的類別表征質(zhì)量,使得分類更加困難。

        考慮到Al-Stouhi等[15]采用基于實例的遷移學習方法,對源域數(shù)據(jù)賦予不同的權(quán)重,提升少數(shù)類類別表征質(zhì)量,可以有效提升分類模型性能的情況,本文提出了一種聯(lián)合遷移學習和強化學習的不平衡樣本分類方法。所提模型采用少數(shù)類上采樣的方法,將生成樣本集看作源域,已有訓練集看作目標域,通過建立強化學習智能體,對源域知識進行捕獲并引入目標域中,來解決不平衡樣本少數(shù)類類別表征質(zhì)量差的問題。由于對生成樣本進行了篩選,本文提出的方法能夠克服傳統(tǒng)上采樣不平衡分類的算法中部分生成樣本質(zhì)量較差導致類別表征質(zhì)量較差的問題,在測試過程中,智能體能夠自動地將生成樣本集中有利于少數(shù)類表征強化的樣本挑選進訓練集,在降低訓練集中樣本不平衡度的同時,提升了少數(shù)類別的表征質(zhì)量,達到了提升不平衡樣本分類效果的目的。

        1 模型結(jié)構(gòu)

        設二分類不平衡數(shù)據(jù)集表示為X={xi|xi∈n,i=1,2,…n}, 多數(shù)類和少數(shù)類對應的樣本數(shù)量分別為m0,m1, 不平衡度為m0/m1。 采用SMOTE算法生成少數(shù)類樣本集Xg,Xg中的樣本數(shù)量為 |Xg|=m0-m1。 本文中將為生成樣本集Xg視為源域,用Ds表示;將當前訓練集Tt視為目標域,用Dt表示,在初始迭代時刻,即t=0時,當前訓練集即為原始不平衡樣本集,即T0=X。

        本文模型結(jié)構(gòu)由先驗知識獲取模塊、生成樣本選擇模塊和分類器模塊3部分組成,如圖1所示,這3個模塊依次串行連接,通過前兩個模塊的不斷迭代,訓練集不斷地從源域中引入有助于提升分類性能的樣本,提升最終分類器在不平衡樣本上的分類效果。整個模型的輸入是不平衡數(shù)據(jù)集X和生成樣本集Xg, 輸出為訓練好的目標域分類器Ctar。 首先,利用Tt對先驗知識獲取模塊中的源域分類器Csou進行預訓練,將Xg輸入訓練好的Csou, 獲取到生成樣本xi∈Xg的分類結(jié)果,并將其作為Ds先驗知識,用于向Dt傳遞。然后,生成樣本選擇模塊中的智能體Agent根據(jù)xi的分類結(jié)果,賦予xi一定權(quán)重,根據(jù)權(quán)重對其進行篩選,將權(quán)重大的xi添加進訓練集得到篩選后數(shù)據(jù)集Tt+1。通過反復迭代,對每一個生成樣本xi∈Xg進行篩選。最后,將Tt作為Ts, 并利用Ts訓練目標域分類器Ctar, 在測試集上驗證分類效果。本章節(jié)將分別對先驗知識獲取模塊、生成樣本選擇模塊和訓練分類器3部分進行詳細介紹。

        1.1 先驗知識獲取模塊

        先驗知識獲取模塊結(jié)構(gòu)如圖2所示,包含了一個源域分類器Csou。 在初始狀態(tài),Csou以T0作為訓練集進行預訓練,訓練結(jié)束后,對xi進行分類并得到結(jié)果。在每次迭代中,xi會不斷引入Tt(t=0,1,2…epoch), 訓練集的更新會導致Csou不斷更新。在每次迭代時,xi都能夠根據(jù)Csou的變化而輸出不同的分類結(jié)果,利用該結(jié)果可以計算當前樣本對分類問題的貢獻度r, 并將r作為先驗知識輸入到生成樣本模塊,當r較大時,表明當前樣本對分類問題的貢獻度較大,反之則較小。受到Lin等[16]的啟發(fā),為了緩解訓練初期樣本不平衡度過高引起的模型過擬合,采用Focal loss作為評價當前樣本貢獻度的損失計算函數(shù)。該模塊的訓練過程如算法1所示。

        算法1:先驗知識獲取算法

        輸入:當前狀態(tài)訓練集Tt, 當前狀態(tài)生成樣本集Xg, 生成樣本xi∈Xg。

        輸出:生成樣本xi的分類貢獻度r。

        步驟1 在當前狀態(tài)訓練集Tt上訓練Csou_t, 在集合Tt∪xi上訓練Csou_t+1;

        步驟2Csou_t在Xg上測試,并計算平均Focal loss,記為ave_Focallosst;Csou_t+1在Xg(〗xi} 上測試,并計算平均Focal loss,記為ave_Focallosst+1;

        步驟3 返回生成樣本xi的先驗知識r=ave_Focallosst-ave_Focallosst+1。

        1.2 生成樣本選擇模塊

        生成樣本選擇模塊包括一個強化學習智能體Agent,其功能是判斷是否將生成樣本xi∈Ds加入到Tt中,生成樣本選擇模塊在執(zhí)行中的流程如圖3所示。整個生成樣本選擇模塊的作用是,基于前序模塊輸出的先驗知識,判斷當前xi是否有助于提升不平衡分類的效果,并通過引入貢獻度大的xi, 提升訓練數(shù)據(jù)集Tt中的樣本量與多樣性。

        如圖3所示,在每一次迭代過程中,Agent執(zhí)行是否選擇xi的動作,并獲得對應的動作獎賞R。生成樣本選擇模塊在狀態(tài)(S)-動作(A)-狀態(tài)(S′)的迭代過程中學會對生成樣本的選擇策略。本文采用強化學習來解決這種不可微分的優(yōu)化問題。

        強化學習的智能體Agent采用“試錯”的方式與環(huán)境ENV交互,在環(huán)境的某一狀態(tài)下,Agent選擇一個動作執(zhí)行,環(huán)境狀態(tài)發(fā)生變化同時反饋一個獎勵信號,Agent根據(jù)獎勵信號和當前環(huán)境狀態(tài)再選擇下一個動作使受到正獎勵的概率增大。

        本文中Agent與ENV交互的過程可以近似看作用元組 描述的馬爾科夫決策過程(Markov decision process,MDP),其中狀態(tài)空間S∈n, 動作空間A∈{0,1}, 當動作a∈A被執(zhí)行時,ENV從當前狀態(tài)s∈S轉(zhuǎn)移到下一狀態(tài)s′∈S′, 同時Agent獲得動作獎賞R∈(-∞,+∞)。 設強化學習的ENV為訓練集Tt和C_sout, 生成樣本xi為當前狀態(tài)S,Agent采取動作at∈A, 獲得獎賞r∈R并轉(zhuǎn)換至下一狀態(tài)S′。 在本文中,獎賞r為生成樣本xi的先驗知識,即當前樣本對不平衡分類問題的貢獻度,r越大表示選擇該樣本的概率越高。

        在迭代結(jié)束后,不平衡數(shù)據(jù)集X和生成樣本集Xg經(jīng)過本模塊之后得到篩選后樣本集Ts。 本文利用強化學習算法DQN[17]來優(yōu)化生成樣本選擇模型,設Q網(wǎng)絡Qθ(st,at), 網(wǎng)絡參數(shù)為θ, 經(jīng)驗記憶M, 記憶容量為N, 衰減因子為γ。 利用強化學習智能體對樣本進行選擇的過程如算法2所示。

        算法2:生成樣本選擇算法

        輸入:不平衡數(shù)據(jù)集X, 生成樣本集Xg。

        輸出:篩選后樣本集Ts。

        步驟1 初始化Q網(wǎng)絡參數(shù)為θ, 目標Q網(wǎng)絡Q′參數(shù)θ′=θ, 經(jīng)驗記憶M, 篩選后樣本集Ts=?, 更新頻率C, 當前狀態(tài)st=st+1=xi∈Xg,Tt=X;

        步驟2 當前狀態(tài)st=st+1;

        步驟3 在Q網(wǎng)絡中輸入st, 得到所有動作的Q值。采用ε-貪婪算法在當前Q值輸出中選擇動作at;

        步驟4 執(zhí)行動作at, 并轉(zhuǎn)化至下一狀態(tài)st+1。 如果選擇加入當前生成樣本xi, 則

        Tt=Tt∪{xi},Xg=Xg(〗xi}

        (1)

        步驟5 計算動作回報rt=Information(xi,Tt);

        步驟6 保存記憶M=M∪{st,at,st+1,rt};

        yj=rj+γmaxa′Q′(s′j,a′j)

        (2)

        步驟8 使用如下均方差損失函數(shù)更新Q網(wǎng)絡參數(shù)θ

        (3)

        步驟9 每迭代C次,更新目標Q網(wǎng)絡參數(shù)θ′=θ;

        步驟10 重復步驟2至步驟9,直至迭代結(jié)束;

        步驟11 返回Ts=Tt。

        1.3 分類器訓練

        分類器訓練部分如圖4所示,包括一個目標域分類器Ctar, 通過Ctar的分類效果來評價本文模型在不平衡二分類問題上的性能。Ctar的輸入為生成樣本選擇模塊的輸出Ts,Ctar經(jīng)過訓練后,在測試集上檢驗分類效果。為了更好評價本文模型的性能,避免偶然性,采用多次測試的平均值作為實驗結(jié)果。

        2 數(shù)據(jù)集

        2.1 數(shù)據(jù)集描述

        為驗證本文算法有效性,本文從UCI數(shù)據(jù)庫中選擇了7組數(shù)據(jù)集page-blocks0、pima、segment0、vehicle1、yeast1、vowel0、wisconsin進行測試,其中少數(shù)類樣本的標簽為“1”,多數(shù)類樣本的標簽為“0”。各數(shù)據(jù)集信息見表1。

        表1 數(shù)據(jù)集信息

        從表1可以看出,在本文所選的數(shù)據(jù)集中,特征數(shù)最多為19,最少為8;不平衡度最高為21.74,最低為2.07。這些數(shù)據(jù)集之間的差距較大,分類難度不同,可以有效驗證本文模型的有效性和泛化性。

        2.2 評價指標

        對于不平衡數(shù)據(jù)分類問題,分類器將所有樣本都預測為多數(shù)類,就能夠達到較高的正確率,因此不能采用正確率作為評價指標。為了更好評價分類器的性能,本文基于表2所示的混淆矩陣計算了G_mean作為評價指標,G_mean的計算方式如下

        (4)

        G_mean同時考慮了少數(shù)類和多數(shù)類的準確率,其中,TP/(TP+FN) 稱作召回率Recall, 表示正確分類的正類個數(shù)占實際正類個數(shù)的比例;TN/(TN+FP) 稱作特異性Specificity, 表示正確分類的負類個數(shù)占實際負類個數(shù)的比例。G_mean是一個綜合的分類器性能指標,能夠更好評價分類器的分類效果。當分類器將所有的樣本都預測為正類或負類時,G_mean為0,只有當正類樣本和負類樣本的分類正確率同時較高時,G_mean才能取得較大值。

        表2 混淆矩陣

        3 實驗結(jié)果與分析

        3.1 實驗分析

        本文實驗設置如下:源域分類器Csou為支持向量機(support vector machines,SVM),目標域分類器Ctar為多層感知機(multi-layer perceptron,MLP)。實驗使用64位的Ubuntu16.04系統(tǒng),處理器型號為Intel(R) Core(TM) i7-7700K CPU @4.20 GHz,內(nèi)存8 G,顯卡型號為 GeForce GTX 1080Ti,顯存11 G。算法的實驗基于python語言和Pytorch深度學習框架。

        為了驗證本文所提算法的有效性,共選取了12種對比算法進行了驗證。對比算法包括SMOTE、RANDOM OS、ADANYS、Border SMOTE、SMOTE ENN、SMOTE TOMEK、RANDOM US、NEAR MISS、ENN、ALL KNN、OSS。所有對比算法的數(shù)據(jù)集設定與本文所提算法實驗保持一致,并同樣以相同的Ctar作為分類器,以G_mean作為評價指標。實驗對所有的方法分別執(zhí)行了10次,并對10次的結(jié)果取平均值作為算法最終結(jié)果,提升了實驗的可信度。

        按照上述設置在表1所列7個不平衡數(shù)據(jù)集上進行實驗,不同數(shù)據(jù)集上各算法的結(jié)果見表3。

        表3 各數(shù)據(jù)集上對比算法與本文算法的分類結(jié)果

        從表3中可以看出,與上采樣算法(SMOTE、RANDOM OS、ADANYS、Border SMOTE)、下采樣算法(RANDOM US、NEAR MISS、ENN、ALL KNN、OSS)和混合采樣算法(SMOTE ENN、SMOTE TOMEK)相比,本文算法在7個數(shù)據(jù)集上的平均值均高于其它對比算法,這一結(jié)果驗證了本文算法的有效性。在樣本特征數(shù)和不平衡度各不相同的數(shù)據(jù)集上均能有較好的分類結(jié)果,這表明了本文算法針對不同平衡度的數(shù)據(jù)集同樣具有較好的分類能力。

        統(tǒng)計發(fā)現(xiàn),本文算法分類效果與SMOTE算法的分類效果密切相關,例如在pima和vehicle1原始不平衡數(shù)據(jù)集上, 分別為0.6792,0.6732;采用SMOTE算法之后, 分別為0.6493,0.7099;采用本文算法后, 分別提高至0.7145,0.7409。在兩個原始不平衡數(shù)據(jù)上非常接近,但是由于SMOTE算法在pima數(shù)據(jù)集上效果較差,甚至降低了,導致本文算法的提升效果也較低。這是因為生成樣本的質(zhì)量對分類效果的影響,關于樣本生成算法的討論見3.5節(jié)。

        從表3中還可以看出,在不同數(shù)據(jù)集上,整體上各算法的性能呈現(xiàn)相同的趨勢,例如在segment0數(shù)據(jù)集上,由于該數(shù)據(jù)集樣本數(shù)較大,特征數(shù)量較多,分類難度較低,各算法的分類效果普遍較優(yōu),大多數(shù)算法的G_mean都可以達到0.98以上,而在vowel0數(shù)據(jù)集上,由于該數(shù)據(jù)集不平衡度很高,樣本數(shù)目較少,分類難度較大,各算法的分類效果都不盡如人意, 最高僅為0.6862。

        另外,在page-blocks0數(shù)據(jù)集上,Border SMOTE算法性能優(yōu)于SMOTE算法,但是在pima數(shù)據(jù)集上,SMOTE算法性能優(yōu)于Border SMOTE算法,這是因為相對于SMOTE算法,Border SMOTE算法更加注重對邊界樣本上采樣,pima數(shù)據(jù)集中樣本數(shù)量較少,邊界樣本的數(shù)量更少,影響了Border SMOTE算法的性能。在segment0數(shù)據(jù)集中,NEAR MISS算法的分類效果明顯低于其它算法,這是因為該數(shù)據(jù)集初始的類別表征質(zhì)量較好,采用基于KNN的下采樣方法來刪除多數(shù)類樣本,導致多數(shù)類樣本的關鍵信息丟失。

        3.2 先驗知識獲取方法的有效性分析

        為驗證本文模型利用不同類型的源域分類器Csou和目標域分類器Ctar來獲取先驗知識的有效性,首先在本文模型的基礎上將Csou改為與Ctar相同類型的MLP,其它結(jié)構(gòu)不變,修改后的模型記為R-Transfer,然后在表1所列7個不平衡數(shù)據(jù)集進行實驗,各數(shù)據(jù)集的評價指標G_mean如圖5所示。

        從圖5中可以看出,在所有數(shù)據(jù)集上,本文模型的分類效果都優(yōu)于R-Transfer模型,驗證了Csou和Ctar為不同類型的分類器的必要性:利用不同類型分類器之間的知識遷移,獲得的先驗知識更有利于生成樣本的篩選。

        3.3 生成樣本選擇方法的有效性分析

        為驗證本文模型利用強化學習算法對樣本進行篩選有效性,將本文模型改成非MDP過程,對本文模型進行如下修改:先驗知識模塊中Csou停止更新,將生成樣本選擇模塊中的Agent刪除,利用閾值截斷方法對生成樣本xi進行篩選,當r>0時選擇該樣本,否則丟棄該樣本。修改后模型記為R-RL,然后在表1所列7個不平衡數(shù)據(jù)集進行實驗,各數(shù)據(jù)集的評價指標G_mean如圖6所示。

        從圖6中可以看出,本文模型在所有數(shù)據(jù)集上的分類效果都優(yōu)于R-RL模型,驗證了本文模型采用強化學習算法進行樣本篩選的必要性:生成樣本選擇模塊利用強化學習算法,通過先驗知識獲取模塊得到當前生成樣本xi在當前訓練集Tt中的先驗知識,更有利于生成樣本的篩選。

        3.4 不同類型源域分類器對分類效果的影響分析

        為了比較不同類型源域分類器Csou對分類效果的影響,在本文模型的基礎上將Csou分別修改為樸素貝葉斯(Naive Bayes,NB)、自適應提升算法(adaptive boosting,AdaBoost)、決策樹(Decision Tree,DT)、邏輯回歸(logistic regression,LR)、梯度提升(gradient boosting,GB)、隨機森林(Random Forest,RF)、KNN。然后在表1所列7個不平衡數(shù)據(jù)集進行實驗,各數(shù)據(jù)集的評價指標G_mean見表4。

        表4 不同類型Csou分類結(jié)果

        從表4中可以看出,在各數(shù)據(jù)集上,與原始數(shù)據(jù)和未篩選樣本的SMOTE算法相比,更換不同類型Csou的本文模型總能取得較好的分類結(jié)果,驗證了本文模型的有效性。對于不同類型的Csou, 本文模型都能從Ds中獲取到先驗知識,并利用先驗知識對生成樣本進行篩選來平衡樣本特征分布,提升類別表征質(zhì)量,提高不平衡數(shù)據(jù)的分類效果。

        此外,表4還可以看出,在不同的數(shù)據(jù)集上,不同類型的Csou對分類結(jié)果的影響不同。例如,在pima數(shù)據(jù)集上,Csou為KNN時的分類效果比Csou為NB時的效果好,但是在page-blocks0上,Csou為KNN時的分類效果比Csou為NB時的效果差。在大多數(shù)數(shù)據(jù)集上,本文算法(Csou為MLP)能夠比Csou為其它類型分類器的分類效果好。

        3.5 不同樣本生成方法對分類效果的影響分析

        為了比較不同樣本生成方法對分類效果的影響,在表1所列7個數(shù)據(jù)集上,分別采取了ADANYS、Border SMOTE算法進行上采樣得到生成樣本集,用本文模型對生成樣本進行篩選并分類,分類效果見表5。

        表5 不同樣本生成方法分類結(jié)果

        由表5可以看出,在各數(shù)據(jù)集上,不同的樣本生成算法與本文模型相結(jié)合都能取得更優(yōu)的結(jié)果,驗證了本文模型具有較好的泛化能力。對于不同算法產(chǎn)生的生成樣本,本文模型都能利用Ds中的先驗知識,對其進行篩選來平衡樣本特征分布,提升類別表征質(zhì)量,提高不平衡數(shù)據(jù)的分類效果。

        此外,從表5中還可以發(fā)現(xiàn),分類效果與樣本生成算法密切相關,生成樣本的算法越好,生成樣本經(jīng)過本文模型后的分類效果越好。例如,在pima數(shù)據(jù)集上,SMOTE算法分類效果優(yōu)于ADASYN算法和Border SMOTE算法,G_mean為0.6493;經(jīng)過本文模型,對生成樣本篩選后,SMOTE算法的分類效果也較優(yōu),G_mean提高至0.7145。

        4 結(jié)束語

        本文對不平衡數(shù)據(jù)分類問題進行了研究,針對上采樣生成樣本的質(zhì)量參差不齊,少數(shù)類的類別表征不好的問題,提出了一種聯(lián)合遷移學習和強化學習的不平衡數(shù)據(jù)分類方法。所提模型采用少數(shù)類上采樣的方法,將生成樣本集看作源域,已有訓練集看作目標域,通過建立強化學習智能體,對源域知識進行捕獲并引入目標域中,來解決不平衡樣本少數(shù)類別表征質(zhì)量差的問題。在測試過程中,智能體能夠自動地將生成樣本集中有利于少數(shù)類表征強化的樣本挑選進訓練集,在篩選后的數(shù)據(jù)集中,兩類樣本特征分布之間的距離較大,數(shù)量較為平衡,容易獲得高質(zhì)量的類別表征。實驗結(jié)果表明,本文方法具有較好的泛化能力,可以有效提高分類器的在不平衡分類問題上的性能。未來的研究將面向多類別的不平衡分類問題,嘗試從多種源域分類器獲得先驗知識,進一步提高不平衡數(shù)據(jù)分類的效果。

        猜你喜歡
        分類效果模型
        一半模型
        按摩效果確有理論依據(jù)
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        分類討論求坐標
        迅速制造慢門虛化效果
        數(shù)據(jù)分析中的分類討論
        抓住“瞬間性”效果
        中華詩詞(2018年11期)2018-03-26 06:41:34
        教你一招:數(shù)的分類
        亚洲综合第一页中文字幕| 欧美xxxx新一区二区三区| 激情综合网缴情五月天| 国产毛片视频一区二区三区在线 | 无码av免费精品一区二区三区| 中文字幕一区二区三区亚洲| 友田真希中文字幕亚洲| 国产一区二区内射最近更新| 成人区视频| 日韩精品成人一区二区在线观看| 日本一区三区三区在线观看| 色综合色狠狠天天综合色| 国产一级做a爱免费观看| 国产精品亚洲婷婷99久久精品| 国产黄久色一区2区三区| 日本真人做人试看60分钟| 亚洲 欧美 综合 另类 中字| 亚洲免费观看一区二区三区| 熟女人妻在线中文字幕| 久久精品99久久香蕉国产| 宅男噜噜噜| 在线视频一区二区三区中文字幕| 一区二区三区高清在线观看视频| 小荡货奶真大水真多紧视频 | 一区二区人妻乳中文字幕| 色欲网天天无码av| 艳妇乳肉豪妇荡乳av无码福利 | 亚洲国产精品天堂久久久| 久久精品国产免费观看三人同眠 | 国产成人精品一区二区不卡| 爱情岛论坛亚洲永久入口口| 男女边吃奶边做边爱视频| 国产一区二区三区亚洲天堂 | 波多野结衣av一区二区全免费观看| 无码少妇一区二区三区| 久久精品国产亚洲AV古装片| 日本九州不卡久久精品一区| 中文 在线 日韩 亚洲 欧美| 亚洲AV无码久久久一区二不卡| 国产精品午夜高潮呻吟久久av | 插b内射18免费视频|