亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Stacking集成學習的恒星/星系分類研究?

        2020-04-02 12:43:32張文輝王俊義林基明
        天文學報 2020年2期
        關鍵詞:分類模型

        李 超 張文輝 李 然 王俊義 林基明

        (1 桂林電子科技大學信息與通信工程學院桂林541004)

        (2 桂林電子科技大學認知無線電與信息處理教育部重點實驗室桂林541004)

        (3 桂林電子科技大學廣西云計算與大數(shù)據(jù)協(xié)同創(chuàng)新中心桂林541004)

        (4 桂林電子科技大學廣西高校云計算與復雜系統(tǒng)重點實驗室桂林541004)

        (5 桂林電子科技大學廣西無線寬帶通信與信號處理重點實驗室桂林541004)

        (6 廣西高校衛(wèi)星導航與位置感知重點實驗室桂林541004)

        1 引言

        2 算法理論

        2.1 Stacking集成學習算法

        Stacking集成學習[10]是一種異質(zhì)集成的策略.異質(zhì)集成是通過集成若干個不同類型的基分類器, 組合成一個強分類器, 以此來提升強分類器的泛化能力.Stacking集成學習算法采用兩層框架的結(jié)構(gòu), 如圖1所示.其訓練過程如下: 首先分別對多個基分類器進行訓練; 然后將多個基分類器的預測結(jié)果作為元分類器的輸入, 再次進行訓練.最終的集成算法會兼顧基分類器和元分類器的學習能力, 使得分類精度和準確率得到明顯提升.Stacking集成學習算法的效果好壞取決于兩個方面: 一個是基分類器的預測效果, 通常基分類器的預測效果越好, 集成學習模型的預測效果越好; 另一個是基分類器之間需要有一定的差異性, 因為每個模型的主要關注點不同, 這樣集成才能使每個基學習器充分發(fā)揮其優(yōu)點.試想, 如果基分類器的差異性較低, 那么每個基分類器的預測結(jié)果就會很相似, 那么這樣集成和單個分類器的預測基本沒有區(qū)別, 只會徒增模型的復雜度.

        圖1 基于Stacking的集成學習算法Fig.1 An ensemble learning algorithm based on Stacking

        2.2 支持向量機算法

        支持向量機(Support Vector Machine, SVM)是一種二類分類模型, 其基本模型是定義在特征空間上的間隔最大的線性分類器.線性可分SVM算法旨在找到一個可以完全劃分所有數(shù)據(jù)的超平面, 使得數(shù)據(jù)集中所有數(shù)據(jù)距離此超平面最遠, 即硬間隔(hard margin) SVM.當訓練數(shù)據(jù)近似線性可分時, SVM通過軟間隔(soft margin)最大化也可以學習到一個線性分類器, 也稱軟間隔SVM.隨著數(shù)據(jù)復雜程度的提高, 當訓練數(shù)據(jù)線性不可分時, 通過引入軟間隔最大化和核技巧, 學習到一個分類器, 即非線性SVM.非線性SVM可以將在原始特征空間中線性不可分的訓練樣本映射到一個高維的特征空間中,從而使得映射后的訓練樣本在高維特征空間中線性可分.本文使用的SVM算法采用的是徑向基函數(shù)(Radial Basis Function, RBF), 也稱高斯核函數(shù):

        其中u和v表示為兩個樣本向量, Z表示為RBF核函數(shù)的值, σ是一個自由參數(shù).

        2.3 隨機森林算法

        隨機森林(Random Forest, RF)是集成學習中Bagging思想的一種算法策略.Bagging思想是對訓練集進行隨機采樣, 產(chǎn)生出多個不同的訓練子集, 再對每個訓練子集訓練出一個基分類器, 預測結(jié)果通過多個基分類器取平均或者投票得出.這時的預測模型有望獲得較好的預測結(jié)果和較強的泛化能力.隨機森林是在將決策樹作為基學習器構(gòu)建Bagging集成算法的同時, 還引入了特征的隨機采樣, 進一步提升了模型的抗噪聲能力, 有效地防止了過擬合的發(fā)生.

        2.4 梯度提升樹算法

        梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)[11]是集成學習Boosting思想中的一種算法, 它同樣將決策樹作為基函數(shù).GBDT算法的核心在于每顆樹學習的是之前所有樹結(jié)論和的殘差.傳統(tǒng)的提升樹算法采用平方損失函數(shù), 可以直接計算殘差,但是缺點是僅能解決回歸問題.GBDT算法對其做了改進, 它每次在建立單個弱分類器時, 是在之前建立模型的損失函數(shù)的梯度下降方向(或稱負梯度值)來近似殘差.因此, 多種損失函數(shù)的選取, 不僅可以幫助GBDT算法有效地解決回歸問題, 同時也可以解決分類問題.GBDT算法的學習能力較強, 是如今機器學習領域非常重要的一個算法.

        2.5 XGBoost算法

        XGBoost(eXtreme Gradient Boosting)[12]是一種對GBDT做了改進的提升算法,在優(yōu)化時同時使用一階導數(shù)信息和二階導數(shù)信息.其模型如下所示:

        “師長話語”給人的感覺始終是一種嚴謹、拘束的狀態(tài)。在中國這樣的禮義之邦,適當?shù)膰烂C能夠樹立一定的威嚴,但面對現(xiàn)今普及化的大學教育,過于嚴肅的話語方式很難起到實質(zhì)性的教育效果。學生不會對大而空的套話、官話感興趣,他們所需要的是新時代勵志教育所注入的新的思維話語模式。

        其中L(t)表示為第t輪的目標函數(shù),表示為前t ?1棵樹的輸出值之和, 構(gòu)成前t ?1棵樹的預測值, ft表示為第t棵樹的模型, ft(xi)表示為第t棵樹的輸出結(jié)果,相加構(gòu)成最新的預測值.

        定義gi和hi:

        去掉常數(shù)項, 第t次迭代后的損失函數(shù)變?yōu)?

        定義Ij= {i|q(xi)=j}作為葉子節(jié)點j的實例集, 其中I表示節(jié)點劃分前的實例集, 根據(jù)(8)式得:

        對于固定了的決策樹的結(jié)構(gòu)q(xi), 可以計算得出葉子節(jié)點j的最優(yōu)權(quán)重w?j:

        (11)式作為衡量樹結(jié)構(gòu)質(zhì)量的指標, 可以用來計算樹結(jié)構(gòu)q的得分.同時, 需要使用貪心算法迭代地在每一個已有的葉子節(jié)點添加分支.假定IL和IR是劃分后左右子樹葉子節(jié)點的集合, 即I =IL∪IR, 則劃分后的損失函數(shù)如下:

        3 基于Stacking集成學習算法的訓練

        本文充分考慮了決定Stacking集成學習模型效果好壞的兩個方面: 一是選擇學習能力較強的基學習器; 二是充分考慮基學習器之間的差異性.SVM在解決非線性的中小規(guī)模數(shù)據(jù)集的分類和回歸中具有非常好的效果.RF和XGBoost分別是集成學習Bagging和Boosting中泛化能力和學習能力較強的算法.3種算法不僅有充分的理論支撐, 而且在科學研究中正扮演著重要的角色.第2層元學習器同樣選擇學習能力較強的GBDT算法, 用于對第1層基學習器的集成, 并且使用10×10折嵌套交叉驗證劃分數(shù)據(jù)的方式防止過擬合的發(fā)生.綜上所述, 本文基于Stacking集成學習的分類模型第1層基學習器選擇SVM、RF、XGBoost, 第2層元學習器選擇GBDT, 模型結(jié)構(gòu)如圖2所示.

        圖2 基于Stacking集成學習的恒星/星系分類模型Fig.2 A star/galaxy classification model based on the Stacking ensemble learning

        傳統(tǒng)的10折交叉驗證就是將原始數(shù)據(jù)劃分為10等分, 輪流將其中的9份作為訓練集,剩下1份作為測試集.本文采用10×10折嵌套交叉驗證的劃分方法, 即在每一個訓練集的內(nèi)部再做一次10折交叉驗證.

        基于Stacking集成學習框架的訓練流程如下:

        (1)對原始數(shù)據(jù)進行預處理并且按照10×10折嵌套交叉驗證的方式進行劃分;

        (2)使用劃分后的數(shù)據(jù)集分別對第1層基學習器中的SVM、RF、XGBoost 3種算法進行訓練, 并得到預測結(jié)果;

        (3)將第1層基學習器的預測結(jié)果拼接起來作為第2層元學習器GBDT的輸入, 再次進行訓練, 并得到最終的預測結(jié)果.

        4 實驗結(jié)果與分析

        4.1 數(shù)據(jù)集介紹

        完整的SDSS-DR7測光數(shù)據(jù)集見http://skyserver.sdss.org/dr7/en/, 根據(jù)星等值(modelMag)大小可以劃分為: 亮源星等集(14–19)、暗源星等集(19–21)、最暗源星等集(20.5–21).與SDSS-DR7恒星/星系亮源和暗源星等集數(shù)據(jù)相比, 最暗源星等集數(shù)據(jù)量規(guī)模較小, 數(shù)據(jù)測量困難, 分類準確率較低.因此本文采用的是SDSS-DR7恒星/星系最暗源星等數(shù)據(jù)集, 可直接使用簡單的SQL (Structured Query Language)語句從Skysever平臺獲取, 并且與文獻[4]特征參數(shù)保持一致.數(shù)據(jù)特征參數(shù)如表1所示.

        表1 用于SDSS-DR7恒星/星系分類的特征參數(shù)Table 1 The feature parameters for SDSS-DR7 star/galaxy classification

        4.2 參數(shù)設置

        基于Stacking集成學習模型通過將SVM、RF、XGBoost算法作為基學習器訓練,得到預測結(jié)果, 作為元學習器GBDT的輸入, 再次進行訓練, 得到最終預測結(jié)果.各個算法的主要參數(shù)設置如下: SVM算法模型采用RBF, gamma參數(shù)設置為1; RF算法模型采用計算屬性的基尼指數(shù)來選擇分裂節(jié)點, 決策樹的個數(shù)和深度分別為65和7; XGBoost算法模型的弱學習器數(shù)目設置為710, 學習速率設置為0.01, 樹的深度設置為6; GBDT算法模型的弱學習器數(shù)目設置為200, 學習速率設置為0.04, 樹的深度設置為3.

        4.3 實驗方法及模型對比

        為了能更好地評估基于Stacking集成學習模型在恒星/星系最暗源星等集分類上的性能, 本文對比了FT、SVM、RF、GBDT、XGBoost[13?14]、DBN、SDAE、DPDT等算法, 詳細的對比實驗結(jié)果如表2.同樣, 為了保證對比分類結(jié)果的有效性, 采用了與文獻[4]一致的分類性能衡量指標(CP), 即星系的分類正確率.其定義如(13)式所示:

        其中, Ngal?gal(m)δm代表星等值在區(qū)間內(nèi)的數(shù)據(jù)樣本中被正確分類為星系的數(shù)量,代表星等值在區(qū)間內(nèi)數(shù)據(jù)樣本中星系的總數(shù)量.本文僅使用modelMag在20.5–21之間的最暗源星等集.

        表2 SDSS-DR7星系分類正確率Table 2 The accuracy of SDSS-DR7 galaxy classification

        通過仿真實驗得出的表2可以看出, 對最暗源星等集, 基于Stacking集成學習模型的星系分類準確率要遠優(yōu)于FT, 提高了約10%的準確率.而與之前已經(jīng)研究過的SDAE、DPDT模型相比, 準確率提高了約7%–10%.與其他較為先進的DBN、SVM、RF、GBDT、XGBoost等算法相比, 也提高了約4%–13%的星系分類準確率.由此可見, 基于Stacking集成學習模型綜合了各個基分類器的優(yōu)點后, 并充分發(fā)揮了集成模型的性能,因此具有更強的泛化能力和更好的預測效果.

        5 結(jié)論

        本文通過使用SDSS-DR7測光數(shù)據(jù)集, 并且采用10×10折嵌套交叉驗證的方法, 研究了基于Stacking集成學習算法的恒星/星系的分類問題.最后通過對基分類器和元分類器參數(shù)調(diào)優(yōu), 基于星系分類準確率的評價指標, 與FT、SVM、RF、GBDT、XGBoost、DBN、SDAE、DPDT等模型進行對比.實驗結(jié)果表明, 基于Stacking集成學習模型在恒星/星系最暗源星等集上的分類效果要遠好于其他模型.因此, 該Stacking集成學習模型在天文學有非常高的應用價值.

        在下一步工作中, 將探討解決Stacking集成學習模型的算法復雜度問題.在中小規(guī)模數(shù)據(jù)集上, 該集成模型應用較好.但是, 遇到大規(guī)?;蛘叱笠?guī)模數(shù)據(jù)集, 勢必會大大增加集成模型的訓練時間.因此, 在未來的研究中, 會嘗試使用分布式的方法, 對基學習器并行訓練, 這樣不僅會使集成模型達到較高的精確度, 而且也會使得集成模型訓練起來有較高的效率.

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        亚洲av色香蕉第一区二区三区| 粉嫩极品国产在线观看免费一区| 国产在线视频一区二区天美蜜桃| 精品国产拍国产天天人| 国产人妻黑人一区二区三区| 国内精品一区视频在线播放| 国产精品国产三级国产an| 一本之道日本熟妇人妻| 中文字幕乱码高清完整版| 国产性猛交╳xxx乱大交| 亚洲A∨日韩Av最新在线| 高清不卡av一区二区| 国产人妻大战黑人20p| 人妻av一区二区三区精品| 久久精品国产久精国产69| 国产交换精品一区二区三区| 国产电影一区二区三区| 66lu国产在线观看| 中文字幕亚洲乱亚洲乱妇| 中文字幕午夜精品久久久| 在线视频夫妻内射| 欧美激情a∨在线视频播放| 久久与欧美视频| 成人av一区二区三区四区 | 国产AV边打电话边出轨| 61精品人妻一区二区三区蜜桃| 丰满少妇人妻久久精品| 在线不卡av片免费观看| 极品 在线 视频 大陆 国产| 日本一区二区三区在线 | 亚洲福利第一页在线观看| 国产自拍偷拍精品视频在线观看| 亚洲欧美aⅴ在线资源| 99精品国产兔费观看久久| 国产精品女丝袜白丝袜美腿| 强开少妇嫩苞又嫩又紧九色| 人妻在卧室被老板疯狂进入国产| 日本久久精品国产精品| 亚洲国产精品18久久久久久| 亚洲学生妹高清av| 亚洲制服无码一区二区三区|