亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種針對異常點的自適應(yīng)回歸特征選擇方法

        2019-07-30 11:26:46郭亞慶王文劍蘇美紅
        計算機研究與發(fā)展 2019年8期
        關(guān)鍵詞:估計值特征選擇集上

        郭亞慶 王文劍 蘇美紅

        1(山西大學(xué)計算機與信息技術(shù)學(xué)院 太原 030006)2(計算智能與中文信息處理教育部重點實驗室(山西大學(xué)) 太原 030006)

        一些實際學(xué)習(xí)任務(wù)的數(shù)據(jù)集中常含有大量不相關(guān)特征和冗余特征,特征數(shù)目巨大,如基因組分析、文本分類和圖像檢索等,故會導(dǎo)致維數(shù)災(zāi)難和學(xué)習(xí)任務(wù)難度提高等問題,以至于學(xué)習(xí)效果不好或?qū)W得模型可解釋性差.此外,觀測某些特征代價昂貴,若這些特征為無關(guān)特征,則會造成大量不必要開銷.解決上述問題的一種有效途徑是特征選擇.特征選擇是將可以代表整體的含有關(guān)鍵性度量信息的部分特征挑選出來的過程,它使得后續(xù)學(xué)習(xí)過程僅需在一部分特征上構(gòu)建模型[1-2].另外,現(xiàn)有針對回歸問題的特征選擇方法,當(dāng)數(shù)據(jù)集含異常點時,對其敏感或自適應(yīng)能力不佳,導(dǎo)致特征選擇和學(xué)習(xí)效果較差.故如何自適應(yīng)地進行穩(wěn)健回歸特征選擇仍然是一個挑戰(zhàn)性的課題.

        針對分類問題的特征選擇方法已有很多,常用的方法可分為2類:一類為過濾式(如Relief(relevant features)、mRMR(max-relevancy, min-redundancy)和Relief-F等);另一類為包裹式(如LVM(Las Vegas wrapper)、SFFS(sequential floating forward selection)、SFS(sequential feature selection)和LRS(Plus-L-Minus-R search)等)[3-6].這些方法都是先對數(shù)據(jù)集進行特征選擇,再訓(xùn)練學(xué)習(xí)器,其中過濾式方法特征選擇過程與后續(xù)學(xué)習(xí)器無關(guān),導(dǎo)致最終學(xué)習(xí)器性能不好;包裹式方法雖然在選擇特征時考慮了學(xué)習(xí)器性能,但因為多次訓(xùn)練學(xué)習(xí)器造成了大量時間開銷.

        上述面向分類的特征選擇方法往往不能直接用于回歸問題或應(yīng)用后效果不好.目前針對回歸問題的特征選擇方法較少,其代表性方法分為兩大類:

        1) 先對數(shù)據(jù)集進行特征選擇,然后再訓(xùn)練學(xué)習(xí)器,如向前選擇法(forward-stepwise selection)、向后剔除法(backward-stepwise selection)和逐步篩選法(forward-stagewise regression)等,這些方法不僅具有分類特征選擇方法的某些缺點,還不適用于特征數(shù)目巨大和有相關(guān)特征的數(shù)據(jù)集,適用范圍較小,故并不常用[7].

        2) 將特征選擇過程與學(xué)習(xí)器訓(xùn)練過程融為一體同時完成,提高了最終學(xué)習(xí)器的性能,降低了開銷,其典型方法有LASSO[8]、LAD-LASSO(least absolute deviation)[9]、L1/2正則化[10]、嶺回歸(ridge regression)[11]、Elastic Net[12]、Group Lasso[13]、SCAD(smoothly clipped absolute deviation)[14]和MCP(minimax concave penalty)[15]等.其中嶺回歸因使用L2正則項而不易于獲得稀疏解;L1/2正則化的實現(xiàn)算法效率較低;Elastic Net適用于特征之間相關(guān)性較高的數(shù)據(jù)集;Group Lasso適用于協(xié)變量之間存在組結(jié)構(gòu)的回歸數(shù)據(jù)集;SCAD和MCP雖然降低了LASSO的泛化誤差,但正則項復(fù)雜,較難求解,故LASSO和LAD-LASSO這2種方法更為常用.LASSO可以較為準(zhǔn)確地完成特征選擇,并且計算快捷,故被廣泛使用.

        上述回歸特征選擇方法對異常點(數(shù)據(jù)集中與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對象)極其敏感,導(dǎo)致對于含有異常點的數(shù)據(jù)集,其穩(wěn)健性和稀疏性都有所下降.目前提出的穩(wěn)健回歸特征選擇方法不多且大多針對含有噪聲的數(shù)據(jù)集,如分位數(shù)回歸及其改進方法[16-18]和LAD-LASSO等,其中分位數(shù)回歸及其改進方法模型復(fù)雜.針對異常點的穩(wěn)健回歸估計方法有WLAD(weight least absolute deviation)[19]和LTS(least trimmed squares estimator)[20]等,在其基礎(chǔ)上WLAD-LASSO[19],LTS-LASSO[20],reweighted LTS-LASSO[20],WLAD-CATREG(categorical regres-sion model) adoptive elastic net[21]和WLAD-SCAD[22]等被相繼提出,這些方法增加了易于獲得稀疏解的正則項,可以同時完成特征選擇和學(xué)習(xí)器訓(xùn)練.其中LTS-LASSO通過將訓(xùn)練誤差較小的數(shù)據(jù)集子集作為訓(xùn)練集來降低異常點影響,但其時間開銷較大;其余針對異常點的回歸特征選擇方法通過給損失函數(shù)加權(quán)來提高其穩(wěn)健性,其中reweighted LTS-LASSO將LTS-LASSO求得的回歸系數(shù)作為參數(shù)初值,WLAD-LASSO,WLAD-CATREG和WLAD-SCAD根據(jù)數(shù)據(jù)集穩(wěn)健位置估計量、數(shù)據(jù)集散點估計量和各樣本的穩(wěn)健距離得樣本權(quán)重,上述通過加權(quán)來提高穩(wěn)健性的回歸特征選擇方法都是先計算好樣本損失函數(shù)權(quán)重,再進行特征選擇和學(xué)習(xí)器訓(xùn)練,樣本權(quán)重在整個算法執(zhí)行過程中固定不變,故它們無法在特征選擇和學(xué)習(xí)器訓(xùn)練過程中根據(jù)學(xué)習(xí)效果多次自主修改權(quán)重來進一步提高算法性能,算法自適應(yīng)能力不佳.此外,針對現(xiàn)有回歸特征選擇方法當(dāng)數(shù)據(jù)集含異常點時性能較差這一固有問題,近年來并沒有很好的研究成果.

        鑒于此,本文提出一種能不斷根據(jù)數(shù)據(jù)集和學(xué)習(xí)效果自主更新樣本權(quán)重的用于線性回歸的穩(wěn)健特征選擇方法AWLASSO(adaptive weight LASSO),其使用在[0,1]中連續(xù)變化的自適應(yīng)權(quán)重以更好地提高自適應(yīng)性.該方法將特征選擇與學(xué)習(xí)器訓(xùn)練過程融為一體同時完成,以提高學(xué)習(xí)器性能和降低模型復(fù)雜度.AWLASSO算法通過閾值確定樣本的損失函數(shù)權(quán)重;一方面可以使迭代過程總朝著較好的回歸系數(shù)估計值方向進行;另一方面能保證訓(xùn)練集含有足夠的樣本,同時可以排除異常點的影響.本文在構(gòu)造數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)上驗證了提出方法的有效性.

        1 預(yù)備知識

        為便于理解本文提出方法及與LASSO和LAD-LASSO進行比較,本節(jié)簡要介紹LASSO和LAD-LASSO.

        (1)

        其中,正則化參數(shù)λ>0.求解LASSO的方法有Homotopy[23]、LARS(Least Angle RegresSion)[24]、坐標(biāo)下降法[25-26]等.

        與LASSO方法相比,LAD-LASSO方法以絕對值誤差為損失函數(shù),其優(yōu)化目標(biāo)為

        (2)

        將其轉(zhuǎn)化成線性規(guī)劃問題即可求解[27].

        2 針對異常點的自適應(yīng)回歸特征選擇方法

        2.1 AWLASSO模型

        對于不含異常點的數(shù)據(jù)集,LASSO和LAD-LASSO方法都具有良好的性能,然而對于含有異常點的數(shù)據(jù)集,這2種方法沒有區(qū)別對待異常點,可能使得回歸系數(shù)估計值與真實回歸系數(shù)相差較大,導(dǎo)致特征選擇和學(xué)習(xí)器訓(xùn)練效果不好.此外,LASSO使用平方誤差作為損失函數(shù),相比LAD-LASSO以絕對值誤差為損失函數(shù),可能會使異常點的影響被放大,故其穩(wěn)健性和稀疏性被破壞更為嚴(yán)重.

        本文提出的AWLASSO首先根據(jù)更新后的回歸系數(shù)更新樣本誤差,并通過自適應(yīng)正則項將誤差大于當(dāng)前閾值的樣本的損失函數(shù)賦予較小權(quán)重,誤差小于閾值的樣本的損失函數(shù)賦予較大權(quán)重,再在更新了權(quán)重的加權(quán)損失函數(shù)下重新估計回歸系數(shù).通過不斷迭代上述過程,它每次在較優(yōu)樣本權(quán)重估計值下完成回歸系數(shù)估計,在較優(yōu)回歸系數(shù)估計值下完成樣本權(quán)重估計.多次自主修正權(quán)重后其在合適的加權(quán)損失函數(shù)下完成特征選擇和學(xué)習(xí)器訓(xùn)練.本文在第1次迭代時隨機挑選部分樣本作為訓(xùn)練集,該訓(xùn)練集可能含有異常點,故為防止異常點進入下一次迭代,在下一輪迭代中得到較好的回歸系數(shù)估計值,AWLASSO閾值初始值取較小值.在上述迭代過程中,閾值不斷增大,被誤判為異常點的樣本有機會重新進入訓(xùn)練集,以保證訓(xùn)練集含有足夠的樣本和保留多種樣本信息.相比閾值由大到小進行迭代,上述閾值選取方式,大量異常點進入訓(xùn)練集的可能性較小,不會出現(xiàn)即使減小閾值,由于各樣本誤差累積,仍無法對樣本損失函數(shù)準(zhǔn)確賦權(quán)重,最終得到偏差較大的回歸系數(shù)估計值的情況.AWLASSO當(dāng)達到最大閾值時迭代停止,此時它將誤差大于最大閾值,即學(xué)習(xí)代價較大,會嚴(yán)重影響學(xué)習(xí)效果的樣本視作異常點,令其損失函數(shù)權(quán)重為0,以降低異常點的影響.

        AWLASSO具體模型為

        (3)

        1) 更新樣本權(quán)重.首先根據(jù)當(dāng)前的回歸系數(shù)估計值更新各樣本誤差,然后更新自適應(yīng)正則化參數(shù),最后利用更新后的各參數(shù)和自適應(yīng)正則項更新樣本權(quán)重,此時,誤差大于當(dāng)前閾值的樣本的損失函數(shù)被賦予較小權(quán)重,誤差小于閾值的樣本的損失函數(shù)被賦予較大權(quán)重,并利用更新后的權(quán)重修正加權(quán)損失函數(shù).

        2) 更新回歸系數(shù).求解更新后的目標(biāo)函數(shù),即完成特征選擇和學(xué)習(xí)器訓(xùn)練,并反饋回歸系數(shù)估計值.

        AWLASSO算法多次迭代上述2個階段,不斷根據(jù)數(shù)據(jù)集和學(xué)習(xí)效果自主更新樣本權(quán)重.在上述迭代過程中,閾值不斷增大,當(dāng)達到最大閾值時迭代停止,此時AWLASSO將誤差大于最大閾值的樣本視作異常點,令其損失函數(shù)權(quán)重為0,以降低異常點的影響,提高算法性能.其在處理異常點時,不僅不需要較好地回歸系數(shù)參數(shù)初值,也不只依賴數(shù)據(jù)集,算法具有較好的自適應(yīng)能力.

        2.2 樣本權(quán)重確定

        (4)

        通過優(yōu)化

        可得自適應(yīng)向量各分量為

        (5)

        2.3 模型求解

        本文使用交替迭代方法求解AWLASSO模型,每次迭代先固定v求β,再固定β求v,直到獲得較為滿意的結(jié)果為止.固定v求β時,AWLASSO的優(yōu)化目標(biāo)為

        (6)

        與常規(guī)的LASSO相同,本文也選用坐標(biāo)下降法[25]求解該優(yōu)化目標(biāo),即:

        對βj求導(dǎo)得:

        (7)

        其中,βj∈[0,z)或(z,0],且當(dāng)z≠0時βj與λ有關(guān),當(dāng)λ值較大時,βj有可能成為0.

        在下次迭代過程中,通過式(5)更新v.

        2.4 算法描述

        求解AWLASSO的主要步驟如算法1所示.

        算法1.AWLASSO模型求解算法.

        輸入:訓(xùn)練集X∈Rn×p和Y∈Rn、自適應(yīng)參數(shù)初始值k0、自適應(yīng)參數(shù)終止值kend、正則化參數(shù)λ,且k0>kend,μ>1;

        輸出:回歸系數(shù)β.

        Step1. 初始化自適應(yīng)向量v為一個固定值(一般隨機令v一半分量為0,另一半分量為1),自適應(yīng)參數(shù)k=k0;

        Step2. 當(dāng)自適應(yīng)參數(shù)k>kend時,循環(huán)執(zhí)行以下步驟:

        Step2.1. 更新回歸系數(shù)β;

        Step2.3. 將各參數(shù)帶入式(5),更新v;

        3 實驗結(jié)果及分析

        3.1 數(shù)據(jù)集及評價指標(biāo)

        為驗證本文提出方法AWLASSO的有效性,分別在2個構(gòu)造數(shù)據(jù)集和4個標(biāo)準(zhǔn)數(shù)據(jù)集上進行實驗,并與LASSO和LAD-LASSO進行對比.

        Table 1 Artificial Datasets表1 構(gòu)造數(shù)據(jù)集

        Table 2 Benchmark Datasets表2 標(biāo)準(zhǔn)數(shù)據(jù)集

        Fig. 1 Feature selection results on D1圖1 在D1數(shù)據(jù)集上的特征選擇結(jié)果

        實驗中AWLASSO方法的參數(shù)γ=0.4,μ=1.2,k初始值為2.5,終止值為0.000 1.在構(gòu)造數(shù)據(jù)集上,實驗重復(fù)進行100次,取平均值作為最終結(jié)果.

        本文用平均平方誤差(MSE)作為評價算法穩(wěn)健性的性能指標(biāo),用MSE1表示回歸系數(shù)估計值β*與βtrue的差別,即:

        (8)

        用MSE2表示回歸系數(shù)估計值β*與βfalse的差別,即:

        (9)

        (10)

        其中,w表示實驗重復(fù)次數(shù),Yt表示第t次實驗得到的回歸向量預(yù)測值.如果某種方法的MSE1較小且MSE2較大或MSE3較小,說明該方法估計出的回歸系數(shù)與真實回歸系數(shù)相差較小,與干擾回歸系數(shù)相差較大,其穩(wěn)健性較好,反之穩(wěn)健性較差.同時本文用無關(guān)特征選擇正確個數(shù)的平均表現(xiàn)來評估這3種方法的稀疏性,其值越接近真實回歸系數(shù)含0總數(shù),對應(yīng)方法稀疏性越好,反之則越差.

        所有實驗用MATLABR2014a實現(xiàn).實驗環(huán)境為4 GB內(nèi)存,Intel?CoreTM2 Quad處理器,2.66 GHz,Windows10操作系統(tǒng).

        3.2 構(gòu)造數(shù)據(jù)集上的實驗結(jié)果

        3.2.1 特征選擇結(jié)果

        首先比較LASSO,LAD-LASSO和AWLASSO這3種方法特征選擇的結(jié)果.由于這3種方法在構(gòu)造數(shù)據(jù)集D1和D2上特征選擇結(jié)果基本一致,故本文只給出構(gòu)造數(shù)據(jù)集D1上的實驗結(jié)果.圖1為構(gòu)造數(shù)據(jù)集D1上的特征選擇結(jié)果,圖1(a)是選出無關(guān)特征的個數(shù)的平均結(jié)果,圖1(b)給出了無關(guān)特征選擇正確個數(shù)的平均結(jié)果與選出無關(guān)特征的個數(shù)的平均結(jié)果的比例r.在D1數(shù)據(jù)集上,真實回歸系數(shù)有4個分量為0,即有4個無關(guān)特征,故在圖1(a)中選出無關(guān)特征的個數(shù)的平均結(jié)果越接近4,對應(yīng)方法特征選擇效果越好.由于LASSO在各污染率下無關(guān)特征選擇正確個數(shù)的平均結(jié)果和選出無關(guān)特征的個數(shù)的平均結(jié)果皆為0,且LAD-LASSO和AWLASSO在各污染率下當(dāng)λ>25時,得到的回歸系數(shù)估計值各分量皆為0或極小的數(shù),方法失效,故未在圖1中給出上述實驗特征選擇結(jié)果.從圖1(a)中可以看出,在不同污染率下,LASSO和LAD-LASSO在不同λ值下選出無關(guān)特征的個數(shù)的平均結(jié)果都接近于0,嚴(yán)重偏離4;AWLASSO當(dāng)λ取值較小時接近于4.由于LAD-LASSO并未完成特征選擇,圖1(b)只給出AWLASSO方法的r,r值應(yīng)介于0到1之間.由圖1(b)可知AWLASSO方法當(dāng)選出無關(guān)特征的個數(shù)的平均結(jié)果接近于4時其r都接近于1,即它正確選出了無關(guān)特征,特征選擇結(jié)果較好,但它對參數(shù)λ較為敏感,當(dāng)λ值增大到一定程度后,其得到的回歸系數(shù)估計值各分量都為0,r=1/2,無法完成特征選擇.

        3.2.2 穩(wěn)健性比較

        本文還比較了3種方法的穩(wěn)健性.由于這3種方法在構(gòu)造數(shù)據(jù)集D1和D2上實驗結(jié)果基本一致,故本文只給出構(gòu)造數(shù)據(jù)集D2上的實驗結(jié)果.圖2是構(gòu)造數(shù)據(jù)集D2在不同污染率下MSE1和MSE2的比較結(jié)果,其中不含空心圓的曲線表示各方法的MSE1,含空心圓的曲線表示各方法的MSE2.從圖2中可以看出,在不同污染率下,無論是MSE1還是MSE2,LASSO方法都較大,說明其對含有異常點的數(shù)據(jù)處理能力較差.對于MSE1,AWLASSO方法在一定的λ值之下,都小于LAD-LASSO,當(dāng)λ值繼續(xù)增大時,LAD-LASSO的MSE1才減小至與AWLASSO的相同.對于MSE2,在絕大多數(shù)情況下AWLASSO要高于LAD-LASSO,當(dāng)λ大于一定值之后,2種方法的MSE2才相同.實驗結(jié)果表明,AWLASSO方法估計出的回歸系數(shù)都與回歸系數(shù)真實值相差較小(MSE1較小),與干擾回歸系數(shù)相差較大(MSE2較大),它不會像LAD-LASSO方法那樣受干擾回歸系數(shù)的影響,故AWLASSO方法的穩(wěn)健性更好.

        Fig. 2 Comparisons of MSE1 and MSE2 on D2圖2 3種方法在D2數(shù)據(jù)集上的MSE1和MSE2比較結(jié)果

        為了更好地說明AWLASSO方法與LAD-LASSO方法的穩(wěn)健性,通過對比圖2各分圖可得它們在構(gòu)造數(shù)據(jù)集D2上污染率取不同值時MSE1的比較結(jié)果.從中可以看出,當(dāng)其他參數(shù)取值相同時,LAD-LASSO方法對應(yīng)的MSE1隨著污染率的增大而顯著增大,AWLASSO方法對應(yīng)的MSE1并沒有隨著污染率的增大而顯著增大,而是一直處于某一值附近,其性能不會隨著數(shù)據(jù)集中被污染數(shù)據(jù)的增加而顯著變差,即AWLASSO方法相比LAD-LASSO方法更穩(wěn)健.

        在構(gòu)造數(shù)據(jù)集上的所有實驗結(jié)果表明:無論數(shù)據(jù)分布如何,異常點分布如何,AWLASSO都比LASSO和LAD-LASSO更穩(wěn)健更稀疏.

        3.3 標(biāo)準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果

        Table 3 Experiment Results of Three Methods on Benchmark Datasets表3 3種方法在標(biāo)準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果

        Note: “↓” represents the most robust method is the one having the lowestSE3.

        1) 原始數(shù)據(jù)集上的實驗結(jié)果

        由表3知,LASSO在上述標(biāo)準(zhǔn)數(shù)據(jù)集上的32個回歸系數(shù)估計值中有10個不含無關(guān)特征,LAD-LASSO的有16個不含無關(guān)特征,AWLASSO的有6個不含無關(guān)特征.AWLASSO在Eunite2001數(shù)據(jù)集上,當(dāng)λ=70時,選出了9個無關(guān)特征;在Housing數(shù)據(jù)集上,當(dāng)λ=80時,選出了9個無關(guān)特征;在Mpg數(shù)據(jù)集上,當(dāng)λ=50時,選出了5個無關(guān)特征;在Tiazines據(jù)集上,當(dāng)λ=30時,選出了58個無關(guān)特征,即其在各數(shù)據(jù)集上選出無關(guān)特征最多,且沒有將所有特征視作無關(guān)特征.在各數(shù)據(jù)集上,AWLASSO方法對參數(shù)λ較為敏感,它只在某些λ值下特征選擇效果好,學(xué)習(xí)器訓(xùn)練效果中等;LAD-LASSO方法在各λ值下學(xué)習(xí)器訓(xùn)練效果都好,但特征選擇效果都不好;LASSO方法在數(shù)據(jù)集Eunite2001,Housing和Triazines上,特征選擇和學(xué)習(xí)器訓(xùn)練效果都不好,但在數(shù)據(jù)集MPG上,當(dāng)參數(shù)λ取某些值時,其特征選擇和學(xué)習(xí)器訓(xùn)練效果較好.

        由于LASSO方法整體表現(xiàn)不穩(wěn)定,所以后邊實驗只比較了LAD-LASSO和AWLASSO方法的性能.表4給出了這2種方法在各自較優(yōu)參數(shù)范圍內(nèi)的實驗結(jié)果比較,“0”表示在較優(yōu)參數(shù)范圍內(nèi)求得的各回歸系數(shù)估計值無重疊無關(guān)特征.由表4知,當(dāng)參數(shù)λ在較優(yōu)參數(shù)范圍內(nèi)時,LAD-LASSO方法在4個數(shù)據(jù)集上都沒有重疊無關(guān)特征,它在各較優(yōu)參數(shù)λ下只有少數(shù)回歸系數(shù)估計值含有少量0分量,其選出的無關(guān)特征較少.AWLASSO在所有的數(shù)據(jù)集上都有大量重疊無關(guān)特征,其在較優(yōu)參數(shù)范圍內(nèi)得到的各回歸系數(shù)都含大量的0分量,它選出了大量無關(guān)特征且不會將所有特征視作無關(guān)特征.AWLASSO方法的最小SE3和最大SE3要稍大于LAD-LASSO方法的.故在標(biāo)準(zhǔn)數(shù)據(jù)集上AWLASSO沒有LAD-LASSO穩(wěn)健,但比LAD-LASSO稀疏.

        2) 含異常點數(shù)據(jù)集上的實驗結(jié)果

        Table 4 Experiment Results with Fitted Parameter λ on Benchmark Datasets表4 較優(yōu)參數(shù)λ下的標(biāo)準(zhǔn)數(shù)據(jù)集實驗結(jié)果

        由表5可知,在上述標(biāo)準(zhǔn)數(shù)據(jù)集上,LAD-LASSO在各θ下的50個回歸系數(shù)估計值都沒有重疊無關(guān)特征.它在各數(shù)據(jù)集上所有參數(shù)組合下的200個回歸系數(shù)估計值,在Eunite2001上有174個不含無關(guān)特征,有26個有無關(guān)特征但無重疊無關(guān)特征;在Housing數(shù)據(jù)集上有193個不含無關(guān)特征,有7個有無關(guān)特征但無重疊無關(guān)特征;在Triazines數(shù)據(jù)集上有75個不含無關(guān)特征,有125個有無關(guān)特征但無重疊無關(guān)特征;在MPG數(shù)據(jù)集上有197個不含無關(guān)特征,有3個有無關(guān)特征但無重疊無關(guān)特征.而AWLASSO只在MPG數(shù)據(jù)集上當(dāng)污染率θ=0.5時沒有重疊無關(guān)特征,剩余情況下,其皆有大量重疊無關(guān)特征,而且它重疊無關(guān)特征數(shù)小于數(shù)據(jù)集特征總數(shù),即AWLASSO沒有將所有特征視作無關(guān)特征.

        Table 5 Feature Selection Results on Benchmark Datasets with Outliers表5 含異常點的標(biāo)準(zhǔn)數(shù)據(jù)集特征選擇結(jié)果

        Fig. 3 Comparisons of MSE3 on benchmark datasets with outliers圖3 含異常點的標(biāo)準(zhǔn)數(shù)據(jù)集上MSE3的比較結(jié)果

        由圖3可知當(dāng)異常點含量為20%時,AWLASSO方法只在MPG數(shù)據(jù)集上MSE3比LAD-LASSO的小,但在Triazines數(shù)據(jù)集上兩者MSE3相差不大.當(dāng)異常點含量為30%~50%時,AWLASSO方法的MSE3要比LAD-LASSO的小很多,且它不會像LAD-LASSO那樣其MSE3隨著污染率的增大而顯著增大.在標(biāo)準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明當(dāng)數(shù)據(jù)集含異常點時,AWLASSO方法的特征選擇能力更強、穩(wěn)健性更好.

        3.4 高維數(shù)據(jù)集上的實驗結(jié)果

        為驗證AWLASSO方法在特征數(shù)量較多的數(shù)據(jù)集上的性能,本文構(gòu)造高維數(shù)據(jù)集D3和D4,其構(gòu)造方法與構(gòu)造數(shù)據(jù)集的構(gòu)造方法相同.高維數(shù)據(jù)集的真實回歸系數(shù)βtrue=(1,2.5,1.5,2,0,…,0)T,數(shù)據(jù)集如表6所示:

        Table 6 High Dimensional Datasets表6 高維數(shù)據(jù)集

        高維數(shù)據(jù)集上LASSO,LAD-LASSO和AWL-ASSO這3種方法特征選擇的結(jié)果如圖4所示.由于LASSO未完成特征選擇,故在圖中未給出其結(jié)果.由圖4(a)(b)可知,當(dāng)λ取合適值時,LAD-LASSO幾乎沒有選出無關(guān)特征,AWLASSO在D3和D4數(shù)據(jù)集上選出無關(guān)特征數(shù)目的均值接近于數(shù)據(jù)集所含無關(guān)特征總數(shù),且它正確選出了無關(guān)特征.

        圖5和圖6分別是3種模型在不同污染率下MSE1和MSE2的比較結(jié)果.從圖5和圖6中可以看出,在不同污染率下,相比LASSO和LAD-LASSO,絕大多數(shù)情況下AWLASSO方法MSE1都較小,MSE2都較大,且其對應(yīng)的MSE1并沒有隨著污染率的增大而顯著增大.高維數(shù)據(jù)集上的實驗結(jié)果表明,當(dāng)數(shù)據(jù)集含大量特征時,AWLASSO方法仍有較好的穩(wěn)健性和特征選擇能力.

        Fig. 4 Feature selection results on high dimensional data sets圖4 在高維數(shù)據(jù)集上的特征選擇結(jié)果

        Fig. 5 Comparisons of MSE1 and MSE2 on D3圖5 3種方法在D3數(shù)據(jù)集上的MSE1和MSE2比較結(jié)果

        Fig. 6 Comparisons of MSE1 and MSE2 on D4圖6 3種方法在D4數(shù)據(jù)集上的MSE1和MSE2比較結(jié)果

        4 結(jié) 語

        目前針對回歸問題的特征選擇方法研究較少,特別地,當(dāng)數(shù)據(jù)集含有異常點時,現(xiàn)有的特征選擇方法幾乎都不能很好地選出有效特征.本文提出的面向異常點的穩(wěn)健回歸特征選擇方法AWLASSO,通過自適應(yīng)正則項自主更新?lián)p失函數(shù)權(quán)重,進而迭代估計回歸系數(shù).AWLASSO的迭代過程總是朝著較好的回歸系數(shù)估計值方向進行,在迭代后期其訓(xùn)練集含有足夠的樣本,因而其獲得了較好的實驗結(jié)果.此外算法可以排除異常點的影響,故其能較好地同時完成特征選擇和學(xué)習(xí)器訓(xùn)練.與經(jīng)典的LASSO和LAD-LASSO相比,本文提出方法更穩(wěn)健、更稀疏,即使異常點含量較多該方法依然有效.然而該方法中的正則參數(shù)λ對方法性能有一定影響,如何進一步提高方法的穩(wěn)健性是我們未來的研究工作.

        猜你喜歡
        估計值特征選擇集上
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        一道樣本的數(shù)字特征與頻率分布直方圖的交匯問題
        統(tǒng)計信息
        2018年4月世界粗鋼產(chǎn)量表(續(xù))萬噸
        復(fù)扇形指標(biāo)集上的分布混沌
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        基于二元搭配詞的微博情感特征選擇
        計算機工程(2014年6期)2014-02-28 01:26:36
        亚洲是图一区二区视频| 国产成人久久精品一区二区三区| 亚洲av无码乱码国产麻豆| 亚洲日韩国产欧美一区二区三区| 中国老熟妇自拍hd发布| 亚洲国产一区在线二区三区| 无码国产精品一区二区免费式芒果| 精品一区二区三区老熟女少妇| 亚洲精品中文字幕视频色| 亚洲国产精品成人精品无码区在线| 按摩少妇高潮在线一区| 亚洲综合日韩一二三区| 精品精品国产自在97香蕉| 久久久久国产精品熟女影院| 人妻被猛烈进入中文字幕| 成人性生交c片免费看| 国产精品一区av在线| 久久理论片午夜琪琪电影网| 亚洲色欲色欲综合网站| 2021国内精品久久久久精免费| 手机在线免费看av网站| 久久精品久99精品免费| 国产午夜精品av一区二区麻豆| 国产无遮挡裸体免费视频 | 天天做天天添av国产亚洲| 久久www免费人成人片| 中文字幕在线久热精品| 女同视频网站一区二区| 亚洲综合自拍偷拍一区| 宅男66lu国产在线观看| 又黄又爽又色的视频| 亚洲αv在线精品糸列| 亚洲国产国语对白在线观看| 美国少妇性xxxx另类| 欲色天天网综合久久| 亚洲无线码一区在线观看| 亚洲av综合av国一区二区三区| 久久精品国产免费观看三人同眠| 四虎国产精品免费久久| 偷拍网日本一区二区三区| 青青草是针对华人绿色超碰|