亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GBDT 的個體收入水平預(yù)估*

        2020-06-09 06:17:52潘慶雯
        計算機與數(shù)字工程 2020年3期
        關(guān)鍵詞:分類特征模型

        譚 波 潘慶雯 程 雯

        (武漢郵電科學(xué)研究院 武漢 430074)

        1 引言

        個體收入水平評估任務(wù)常見于那些依賴于捐款而存在的非營利性組織。了解個體的收入情況可以幫助一個非營利性的機構(gòu)更好地了解他們要捐贈多少,或他們是否應(yīng)該接觸這些人。近年來,許多機器學(xué)習算法被用于個體收入水平的評估中,比如高斯樸素貝葉斯(GaussianNB)[1],支撐向量機(SVM)[2],決策樹(DecisionTree)等。決策樹模型對缺失值不敏感,易于實現(xiàn)和理解,數(shù)據(jù)預(yù)處理簡單[3],但在處理特征關(guān)聯(lián)性強的數(shù)據(jù)表現(xiàn)不好,如果有時間順序的數(shù)據(jù),需要大量的預(yù)處理,同時容易出現(xiàn)過擬合現(xiàn)象;支撐向量機在樣本數(shù)據(jù)較小時可以有效地處理高緯度[4]的數(shù)據(jù),由于只使用一部分子集進行模型訓(xùn)練,不需要太大內(nèi)存,但是當數(shù)據(jù)集中缺少較多數(shù)據(jù),模型對于數(shù)據(jù)缺失敏感。然而這些算法在數(shù)據(jù)缺省,數(shù)據(jù)樣本比例不均衡,數(shù)據(jù)集存在異常值的情況下,模型預(yù)測的準確率會受到影響。GBDT 通過將多個基學(xué)習器組合提升模型的預(yù)測性能。同時GBDT 可以處理混合類型的數(shù)據(jù)[5],也能處理非平衡數(shù)據(jù)和缺省數(shù)據(jù),通過選取適當?shù)膿p失函數(shù),可以提升模型在輸出空間存在異常值情況下的健壯性。在UCI 公開的人口普查數(shù)據(jù)集中,驗證了GBDT 在個體收入評估上的實用性和準確性。

        2 Boosting介紹

        GBDT屬于Boosting算法[6]的一種,這類算法的工作機制都比較類似,首先需要從初始的訓(xùn)練集中訓(xùn)練出一個基學(xué)習器,再根據(jù)基學(xué)習器的表現(xiàn)對樣本的權(quán)重進行調(diào)整,使得先前基學(xué)習器中的誤分類訓(xùn)練樣本在后續(xù)的訓(xùn)練中得到更多的關(guān)注,然后用調(diào)整后的樣本分布來訓(xùn)練下一個基學(xué)習器。經(jīng)過反復(fù)地進行這個過程,會產(chǎn)生指定個數(shù)為N個的基學(xué)習器,最終將這N 個基學(xué)習器進行加權(quán)結(jié)合,得到最終的模型。

        為了對回歸和分類問題進行非線性擬合,可以創(chuàng)建一種自適應(yīng)基函數(shù)模型,它有如下形式:是第 m 個基函數(shù)[7],該基函數(shù)形式可以通過輸入的數(shù)據(jù)確定。通常而言,基函數(shù)是參數(shù)化的,可以寫成其中vm是基函數(shù)自身的參數(shù),通過將表示整個參數(shù)集,這樣得到的模型參數(shù)就不再是線形化的。因此我們只能計算出估計值θ的局部最優(yōu)值,然而這樣的模型在性能方面通常比線形模型表現(xiàn)更好。

        Boosting 是一種貪心算法,用來擬合自適應(yīng)基模型,φm為基函數(shù)/弱學(xué)習器。通過將弱學(xué)習器循環(huán)作用于加權(quán)的數(shù)據(jù)中,每次循環(huán)后提高誤分樣本的分布概率,誤分樣本在訓(xùn)練集中所占權(quán)重增大,使得下一次循環(huán)弱學(xué)習器能集中對誤分樣本進行判斷。該弱學(xué)習器可以是任意分類器或者回歸器,但是通常使用CART 模型。在1998 年,Leo Breiman 提出在boosting中淺層的決策樹是最佳的弱學(xué)習器。這一觀點在2006 年Caruana 和Niculescu-Mizil 的實驗中通過將10 種不同分類器進行廣泛的試驗比較后得到證實的[9],同時該實驗通過ROC 曲線顯示提升決策樹在降低分類誤差和產(chǎn)生良好校準概率兩方面均表現(xiàn)最佳。

        Boosting最初是在計算機學(xué)習理論中推導(dǎo)出來的,主要解決二分類問題。將分類準確率高于0.5的學(xué)習器作為弱分類器。在訓(xùn)練集上,可以通過組合任意多個弱學(xué)習器進而獲得分類準確率性能的提升。1998 年,Breiman 提出 boosting 可以通過函數(shù)空間的梯度下降方式解釋的觀點,這一觀點通過Friedman在2000年得到進一步擴展,F(xiàn)riedman提出boosting是可用于處理各種各樣的損失函數(shù)包括魯棒回歸,泊松回歸等[10]。

        3 GBDT原理

        通過將boosting 方法推廣到更加一般的情況,可以得到梯度提升方法(grading boosting),當我們的目標是最小化公式(1):

        其中f=(f(x1),…,f(xN))是參數(shù),將通過梯度下降的方式得到最佳解。在第m步時,令gm是在f=fm-1時刻L(f)的梯度,如式(2):

        對fm進行更新,fm=fm-1-ρmgm,其中ρm是步長。以上就是函數(shù)式梯度下降。在當前形式中,該算法只是在N個數(shù)據(jù)點上優(yōu)化f,通過修改算法,將一個弱學(xué)習器近似為負梯度,如式(3)。

        整個算法流程可以總結(jié)如下:

        如果squared loss 作為該算法的損失函數(shù),那么可以得到L2Boosting,如果log-loss作為該算法的損失函數(shù),可以得到BinomialBoost。該算法相比LogitBoost 的優(yōu)勢在于,可以相對容易地能擴展到多分類的問題[11],同時該算法對于許多損失函數(shù)都適用。

        4 實驗結(jié)果分析

        該實驗將使用1994 年美國人口普查收集的數(shù)據(jù),數(shù)據(jù)集來自UCI機器學(xué)習知識庫。這個數(shù)據(jù)集是由 Ron Kohavi 和 Barry Becker 在發(fā)表文章“Scaling Up the Accuracy of Naive-Bayes Classifiers:A Decision-Tree Hybrid”之后捐贈的,這里探索的數(shù)據(jù)集相比于原有的數(shù)據(jù)集有一些小小的改變,比如說移除了特征“fnlwgt”以及一些遺失的或者是格式不正確的記錄。通過選用幾個監(jiān)督學(xué)習算法來準確建模被調(diào)查者的收入。然后根據(jù)初步結(jié)果從中選擇出最佳的候選算法,并進一步優(yōu)化該算法從而更好地建模這些數(shù)據(jù)。目標是建立一個能夠準確預(yù)測被調(diào)查者年收入是否超過50000 美元的模型。通過使用高斯樸素貝葉斯、隨機森林以及GBDT 方法,進行收入分類性能比較實驗。為了保證GBDT 的最佳分類預(yù)測性能,采取5 折交叉驗證方法。交叉驗證法可以提升訓(xùn)練樣本和測試樣本的多樣性,同時降低模型偏差。通過將數(shù)據(jù)集隨機劃分為同等規(guī)模的五份,輪流地將四份數(shù)據(jù)作為訓(xùn)練集,剩余一份作為驗證集。在訓(xùn)練集上得到訓(xùn)練的參數(shù),在驗證集上計算分類誤差。通過最小化分類誤差,得到模型的最佳參數(shù)。

        該實驗期望模型具有準確預(yù)測那些能夠年收入大于$50,000 的能力比模型具有高的查全率更重要,于是使用F-beta score 作為評價指標,這樣能夠同時考慮查準率和查全率如式(4)所示:

        尤其是,當β=0.5 的時候更多強調(diào)查準率,該指標稱為F0.5score。通過對多個模型的實驗結(jié)果比較如表1所示。

        表1 Naive-Bayes、Random Forest、GBDT模型結(jié)果

        由表1 中實驗數(shù)據(jù)可以看出,GBDT 模型有最佳的精度和F 得分結(jié)果,隨機森林[12]模型效果次之,樸素貝葉斯模型[13]效果最不佳。GBDT 唯一的缺點是模型需要更多的訓(xùn)練時間,但是在本文中,訓(xùn)練時間并不是問題,因為GBDT只需要9s左右的訓(xùn)練時間,訓(xùn)練時間在合理范圍內(nèi)。

        將GBDT 作為最佳的候選模型,利用網(wǎng)格搜索(GridSearchCV)方法進行模型調(diào)優(yōu)。在GBDT的提升過程中主要調(diào)整基分類器個數(shù),以及學(xué)習率;對每個樹基分類器調(diào)整最大深度和最小樣本分割數(shù)目;最后通過最小化學(xué)習率來提高模型健壯性。模型參數(shù)調(diào)優(yōu)完成后,在測試集上完成模型的評估。模型在測試集上效果如表2所示。

        表2 測試集上模型結(jié)果對比

        由表2 可以看出,經(jīng)過優(yōu)化的GBDT 模型比未優(yōu)化的模型在精確率方面提升了0.7%,在F-score方面提升了1.1%。而經(jīng)過優(yōu)化的GBDT 比基準水平在精確度上提高350.73%,在F-score 方面提升了大概256.26%。通過交叉驗證和網(wǎng)格搜索,得到的優(yōu)化后的模型準確率和F-score比基準預(yù)測器高的多,但是比未優(yōu)化的模型比,提升不大。因為GBDT 算法自適應(yīng)性已經(jīng)很強大了,增加弱學(xué)習器的數(shù)量并不能大幅度地提高算法的準確度和F-score。

        在數(shù)據(jù)上(比如這里使用的人口普查的數(shù)據(jù))使用監(jiān)督學(xué)習算法的一個重要的任務(wù)是決定哪些特征能夠提供最強的預(yù)測能力。專注于少量的有效特征和標簽之間的關(guān)系,能夠更加簡單地理解這些現(xiàn)象,這在很多情況下都是十分有用的。在本文的情境下期望選擇一小部分特征,這些特征能夠在預(yù)測被調(diào)查者是否年收入大于$50,000 這個問題上有很強的預(yù)測能力。通過提取五個用于預(yù)測被調(diào)查者年收入是否大于$50,000 最相關(guān)的特征信息。主成分特征如圖1所示。

        圖1 主成分特征

        可以看出年齡和工時這兩個特征對收入的影響最大,而學(xué)歷和職業(yè)反而不是影響收入的較大因素。通過觀察圖1 展示五個用于預(yù)測被調(diào)查者年收入是否大于$50,000 最相關(guān)的特征的可視化圖像,可以看到前五個最重要的特征貢獻了數(shù)據(jù)中所有特征中超過一半的重要性。這提示我們可以嘗試去減小特征空間,簡化模型需要學(xué)習的信息。通過使用更少的特征來訓(xùn)練,在評價指標的角度來看,本文的期望是訓(xùn)練和預(yù)測的時間會更少。最終將模型在只使用五個特征的數(shù)據(jù)上和使用所有的特征數(shù)據(jù)上的F-score 和Accuracy 進行比較,結(jié)果如表3全量特征與部分特征結(jié)果對比所示。

        表3 全量特征與部分特征結(jié)果對比

        通過表3 發(fā)現(xiàn)使用部分特征會導(dǎo)致Accuracy和F-score都略有下降。一般而言會考慮部分特征作為一種備選方案,可以看出精確度降低的并不多,而F-score 反映地是查準率/查全率的不同偏好。有些場景比如商品推薦系統(tǒng),更希望推薦內(nèi)容確實是用戶感興趣的,那么查準率更重要一些,那么需要的特征需要多一點。又比如逃犯信息檢索系統(tǒng)中,盡可能地少漏掉逃犯,那么查全率希望高一些。如果是第二種情況,那么適當?shù)臏p少點特征值相對影響較小。最后通過選擇已訓(xùn)練的GBDT模型在測試集上完成模型效果評估,在測試集上Accuracy是0.8648,F(xiàn)-score是0.7443。

        5 結(jié)語

        本文針對當前收入水平預(yù)估算法只應(yīng)用于某種類型單一且數(shù)據(jù)比例平衡的問題,提出基于Gradient Boosted Decision Tree(GBDT)的個體收入水平預(yù)估方法,實驗表明GBDT 算法相對工業(yè)常用隨機森林[14],樸素貝葉斯算法保持較高分類準確率[15],以及更好的穩(wěn)定性和普適性。

        猜你喜歡
        分類特征模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        国产欧美亚洲精品第一页| 女同中文字幕在线观看| 国内精品国产三级国产| 国产激情无码视频在线播放性色| 亚洲av无码一区二区三区四区| 动漫在线无码一区| 日日噜噜夜夜久久密挑| 国产亚洲一区二区在线观看| 麻豆精品国产精华精华液好用吗| 波多野结衣视频网址| 熟女少妇丰满一区二区| 免费的小黄片在线观看视频| 亚洲中文字幕无码中文字在线 | 日本天堂免费观看| 天天干夜夜操| 欧美日韩国产在线人成dvd| 小池里奈第一部av在线观看| 国产精品成人网站| 狠狠久久亚洲欧美专区| 国产免费人成视频在线观看播放| 91久久偷偷做嫩模影院| 少妇下面好紧好多水真爽播放| 国产欧美精品一区二区三区–老狼 | 亚洲色欲久久久久综合网| 五月天无码| 人妻经典中文字幕av| 大屁股人妻女教师撅着屁股| 国产精品亚洲综合久久婷婷| 熟女丝袜美腿亚洲一区二区三区| 国内久久婷婷六月综合欲色啪| 国产精品一区二区无线| 国内久久婷婷精品人双人| 亚洲综合小综合中文字幕| 热99re久久精品这里都是精品免费| 男人边吻奶边挵进去视频| 亚洲精品乱码久久久久久按摩高清| 久久久精品国产免费看| 粉嫩被粗大进进出出视频| 亚洲日韩精品欧美一区二区三区不卡 | 丝袜美腿精品福利在线视频| 久久午夜无码鲁丝片午夜精品|