亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        針對小規(guī)模數(shù)據(jù)集的多模型融合算法研究

        2020-04-15 02:58:44李春生
        計算機技術(shù)與發(fā)展 2020年2期
        關(guān)鍵詞:決策樹分類變量

        李春生,曹 琦,于 澍

        (東北石油大學(xué) 計算機與信息技術(shù)學(xué)院,黑龍江 大慶 163318)

        0 引 言

        機器學(xué)習(xí)作為人工智能的重要研究內(nèi)容,經(jīng)過半個世紀(jì)的發(fā)展,現(xiàn)今已和模式識別、數(shù)據(jù)挖掘、統(tǒng)計學(xué)習(xí)、計算機視覺、自然語言處理等多個領(lǐng)域相互影響、交織發(fā)展[1]。

        集成學(xué)習(xí)目前是機器學(xué)習(xí)領(lǐng)域中的一種研究方向。使用弱學(xué)習(xí)器通過多模型融合的思想可以極大提高準(zhǔn)確率。當(dāng)前集成學(xué)習(xí)(Bagging)主要使用弱學(xué)習(xí)器,且為同類模型,例如隨機森林使用多棵深度較淺的決策樹,在構(gòu)建Bagging集成的基礎(chǔ)上將決策樹作為基學(xué)習(xí)器[2],最終進(jìn)行投票獲得最終結(jié)果。文中嘗試使用多類強學(xué)習(xí)器進(jìn)行模型融合,并與單一強學(xué)習(xí)器進(jìn)行指標(biāo)對比。

        1 相關(guān)研究

        1.1 決策樹模型

        決策樹是一個有監(jiān)督的機器學(xué)習(xí)算法,常用于分類預(yù)測等諸多領(lǐng)域,由于其高效性、誤差小的優(yōu)點,在分類問題中得到了廣泛的應(yīng)用。在決策樹中,內(nèi)部分支節(jié)點表示一個條件屬性,而葉子節(jié)點表示一種決策屬性或分類結(jié)果[3-5]。決策樹是一個預(yù)測模型,其葉節(jié)點代表最終樣本分類,各屬性劃分代表分類規(guī)則。

        由于文中解決二分類問題,選用當(dāng)前較為流行的C4.5算法作為其中一種基類模型,C4.5算法是由J.Ross Quinlan開發(fā)并且用于決策樹的算法[6]。C4.5算法流程與ID3類似,相比ID3,將信息增益改為信息增益比,選擇信息增益比大的特征當(dāng)作決策樹的節(jié)點并不停遞歸構(gòu)建決策樹,同時設(shè)置閾值避免過擬合。主要公式如下:

        數(shù)據(jù)集S的信息熵:

        特征F對于數(shù)據(jù)集S的條件信息熵:

        特征F的信息增益:

        Gain(S,F)=H(S)-H(S/F)

        特征F對數(shù)據(jù)集S的分裂信息:

        特征F對數(shù)據(jù)集S的信息增益比[7]:

        1.2 邏輯回歸模型

        邏輯回歸(logistic regression)是一種可以用來分類的常用統(tǒng)計分析方法,并且可以得到概率型的預(yù)測結(jié)果,屬于一種概率型非線性回歸[8-10]。邏輯回歸是經(jīng)典的分類模型,它將模型拆分為線性部分和激活函數(shù),主要公式如下:

        假設(shè)x為輸入變量,W為權(quán)重矩陣,B為偏置,A為線性部分輸出,則線性部分函數(shù)為:

        A=Wx+B

        激活函數(shù)使用sigmoid函數(shù),將線性部分輸出A當(dāng)作sigmoid函數(shù)輸入值,y為預(yù)測結(jié)果:

        通過使用梯度下降或者mini-Batch梯度下降等算法完成對模型損失函數(shù)的迭代,最終給出權(quán)重W和偏置B。

        1.3 SVM模型

        文獻(xiàn)[11-15]指出支持向量機(support vector machines,SVM)是一種二分類模型,它的基本模型是定義在特征空間上的間隔最大的線性分類器,間隔最大使它有別于感知機。文中選用線性可分支持向量機,通過核函數(shù)與軟間隔最大化,學(xué)習(xí)得到分類決策函數(shù):

        其中K(x,xi)為正定核函數(shù),使用序列最小最優(yōu)化(sequential minimal optimization,SMO)算法實現(xiàn)支持向量機的優(yōu)化過程。SMO算法要解決的是凸二次規(guī)劃的對偶問題:

        SMO基本思路為選擇兩個變量,固定其他變量,針對這兩個變量構(gòu)建一個二次規(guī)劃問題,這時子問題可以極大提高算法的運算速度。SMO算法將原問題不斷分解為子問題并對子問題進(jìn)行求解,進(jìn)而達(dá)到求解原問題的目的。

        2 多模型融合算法

        2.1 基本思想

        多模型融合算法思想與Bagging集成學(xué)習(xí)算法思想類似,對比Bagging集成學(xué)習(xí)將弱學(xué)習(xí)器當(dāng)作基學(xué)習(xí)器,使用平均投票得出最終結(jié)果的方式。文中提出的多模型融合算法使用強學(xué)習(xí)器決策樹、邏輯回歸、SVM作為基學(xué)習(xí)器,并將基學(xué)習(xí)器輸出當(dāng)作下一階段的輸入,加入權(quán)重矩陣并使用最大似然估計迭代優(yōu)化參數(shù),計算出基學(xué)習(xí)器模型的輸出權(quán)重參數(shù),從而完成多模型融合過程。

        2.2 算法描述

        多模型融合算法共分為兩部分:基學(xué)習(xí)器訓(xùn)練、基學(xué)習(xí)器權(quán)重訓(xùn)練。

        第一部分:

        輸入:訓(xùn)練數(shù)據(jù)集T={(x1,y1),(x2,y2),…,(xN,yN)};各基學(xué)習(xí)器損失函數(shù){L(y,f(x))};基學(xué)習(xí)器集{b(χ;γ)};

        輸出:各基學(xué)習(xí)器模型{f(x)}。

        (1)初始化各f(x)。

        (2)針對各個基學(xué)習(xí)器極小化損失函數(shù):

        min(Loss(y,f(x)))

        (3)更新基學(xué)習(xí)器模型參數(shù)。

        (4)得到{f(x)}。

        第二部分:

        輸入:訓(xùn)練數(shù)據(jù)集合T={(x1,y1),(x2,y2),…,(xN,yN)};第一部分已經(jīng)訓(xùn)練完成的基學(xué)習(xí)器模型,MSE損失函數(shù);

        輸出:各基類學(xué)習(xí)器權(quán)重參數(shù)。

        (1)初始化權(quán)重矩陣W,初始化多模型融合函數(shù):

        fall(x)=w1×fLR(x)+w2×fTree(x)+w3×fsvm(x)

        (2)目標(biāo)函數(shù):

        (3)最終輸出各基學(xué)習(xí)器參數(shù)與對應(yīng)權(quán)重。

        3 實 驗

        3.1 數(shù)據(jù)分析

        文中使用泰坦尼克號之災(zāi)數(shù)據(jù)集驗證算法效果。泰坦尼克號之災(zāi)是Kaggle上經(jīng)典的二分類問題,造成海難失事的原因之一是乘客和機組人員沒有足夠的救生艇。盡管幸存下沉有一些運氣因素,但有些人比其他人更容易生存,比如女人,孩子和上流社會,通過分析數(shù)據(jù),使用機器學(xué)習(xí)模型,判斷乘客能否存活。通過最終結(jié)果表明,該數(shù)據(jù)集可以有效檢驗各模型性能對比情況。

        泰坦尼克號之災(zāi)數(shù)據(jù)集共有訓(xùn)練數(shù)據(jù)891條,有12列屬性,其中Cabin屬性由于缺失值占比過多,將屬性值轉(zhuǎn)化為有值(yes),無值(no),同時使用眾數(shù)補償Age中Null值。屬性信息如表1所示,訓(xùn)練數(shù)據(jù)如圖1所示。

        表1 屬性列表

        圖1 訓(xùn)練數(shù)據(jù)

        針對所有保留屬性創(chuàng)建與label變量的映射圖,直觀觀察變化關(guān)系,剔除無明顯相關(guān)關(guān)系的屬性,使用保留屬性建立特征集合,對離散特征進(jìn)行因子化,對連續(xù)特征進(jìn)行歸一化操作,最終生成特征變量,部分有效屬性與label對應(yīng)關(guān)系圖如圖2所示。在圖中可以明顯觀察出Age、Sex等變量與label相關(guān)性強,而變量Name、Ticket由于是隨機化數(shù)據(jù)從而導(dǎo)致與label無明顯關(guān)系。

        圖2 部分變量與Label對應(yīng)關(guān)系

        3.2 評價指標(biāo)

        評價模型指標(biāo)有多類,由于文中為二分類問題,所以選用精確率、召回率、準(zhǔn)確率、ROC評價模型性能。

        精確率(Precision)指的是模型輸出結(jié)果中判斷為正樣本的數(shù)據(jù)中真實為正樣本的比例。

        召回率(Recall)指的是有多少正樣本被準(zhǔn)確標(biāo)出。

        設(shè)模型輸出的正樣本集合為A,真正的正樣本集合為B,則有:

        準(zhǔn)確率(Accuracy)衡量的是分類正確的比例。假設(shè)是y^是模型輸出的預(yù)測label,y為樣本中正確的label,則準(zhǔn)確率為:

        ROC曲線是以假正率為橫坐標(biāo),真正率為縱坐標(biāo)的曲線圖。設(shè)模型預(yù)測的正樣本集合為A,真正的正樣本集合為B,所有樣本集合為C,則A與B的交集個數(shù)除以B的個數(shù)為真正率(true-positive rate),A與B交集的個數(shù)除以C減B的個數(shù)為假正率(false-positive rate)。AUC(area under curve)分?jǐn)?shù)是曲線下的面積,越大意味著分類器效果越好。

        3.3 實驗結(jié)果與分析

        在表2實驗數(shù)據(jù)指標(biāo)中列舉出各個模型在測試集中的評價指標(biāo),并增加神經(jīng)網(wǎng)絡(luò)與多模型融合進(jìn)行橫向?qū)Ρ龋ㄟ^對比得出,多模型融合算法在精確率、召回率、準(zhǔn)確率、AUC各個指標(biāo)上均有明顯提升。相對于神經(jīng)網(wǎng)絡(luò)這類深度學(xué)習(xí)模型,多模型融合算法更加適用于小規(guī)模數(shù)據(jù)集。

        表2 實驗數(shù)據(jù)指標(biāo)

        4 結(jié)束語

        在小規(guī)模數(shù)據(jù)集合中,多模型融合算法可以融合各個模型優(yōu)勢,對基學(xué)習(xí)器預(yù)測正確結(jié)果給予更大權(quán)值,對預(yù)測錯誤結(jié)果減小權(quán)值,通過數(shù)據(jù)累加,最終增大模型預(yù)測準(zhǔn)確率,同時提升模型各項指標(biāo)。相對于深度學(xué)習(xí)模型需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,多模型融合算法更加適用于小數(shù)據(jù)集。文中在特征選擇中并不完善,后續(xù)可以通過特征組合等方式進(jìn)行提升。

        猜你喜歡
        決策樹分類變量
        分類算一算
        抓住不變量解題
        也談分離變量
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        分類討論求坐標(biāo)
        決策樹和隨機森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于決策樹的出租車乘客出行目的識別
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        777米奇色8888狠狠俺去啦| 精品午夜中文字幕熟女| 成年网站在线91九色| 特黄aaaaaaaaa毛片免费视频| 野花在线无码视频在线播放| 91性视频| 亚洲乱码中文字幕第一页| 老熟妇乱子交视频一区| 日本50岁丰满熟妇xxxx| 久久频精品99香蕉国产| 国产一区二区在线观看av| 成年女人免费v片| 海角国精产品一区一区三区糖心| 色爱无码A V 综合区| 一区二区国产视频在线| 伦伦影院午夜理论片| 亚洲中文字幕无码久久| 国产精品98视频全部国产| 亚洲性日韩一区二区三区| 亚洲av无码国产精品色午夜字幕| aaaaa级少妇高潮大片免费看| 丰满人妻一区二区乱码中文电影网| 日本一区二区在线播放视频 | 久久久久久久97| 精品2021露脸国产偷人在视频| 蜜桃av一区在线观看| 日韩中文字幕版区一区二区三区| av无码天堂一区二区三区| 久久中文字幕久久久久| 成人水蜜桃视频在线观看| 97久久综合区小说区图片区| 日韩毛片在线| 一区两区三区视频在线观看| 97丨九色丨国产人妻熟女| 麻豆高清免费国产一区| 无码AV午夜福利一区| 亚洲日本人妻少妇中文字幕| 亚洲中文字幕久久精品无码喷水| 国产乱子伦精品免费女| 快射视频网站在线观看| 久久久www成人免费毛片|