亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CART模型的不純度函數(shù)在不同數(shù)據(jù)類型中的分類

        2018-06-15 06:46:50曹桃云
        統(tǒng)計(jì)與決策 2018年10期
        關(guān)鍵詞:數(shù)據(jù)類型純度向量

        曹桃云

        (廣州科技貿(mào)易職業(yè)學(xué)院 公教部,廣州 510442)

        1 問題的提出

        由Breiman等(1984)[1]提出的分類回歸樹(CART)模型,通過對預(yù)測變量X進(jìn)行分裂,遞歸拆分預(yù)測變量所在的空間,以達(dá)到增加反饋?zhàn)兞縔在每一個預(yù)測子空間的同質(zhì)性。通過遞歸拆分建立的分類回歸樹具有直觀的圖形展示、有效處理缺失數(shù)據(jù)、自動的變量選擇和容易解釋等特點(diǎn),因而被廣泛地應(yīng)用于生物學(xué)、醫(yī)學(xué)、經(jīng)濟(jì)學(xué)、金融學(xué)以及社會學(xué)等眾多學(xué)科領(lǐng)域中。作為一種重要的非參數(shù)統(tǒng)計(jì)方法,由于不需要對反饋?zhàn)兞縔進(jìn)行任何分布或特定關(guān)系的假設(shè),分類回歸樹得到了廣泛深入的研究和應(yīng)用,并發(fā)展成為探索復(fù)雜數(shù)據(jù)結(jié)構(gòu)中最靈活、直觀和強(qiáng)有力的數(shù)據(jù)分析工具之一。

        基于CART模型的組合方法隨機(jī)森林[2]和bagging[3]的出現(xiàn)克服了單棵樹模型的局限性:(1)樹結(jié)構(gòu)受微小數(shù)據(jù)的擾動變化大;(2)單棵樹不足以挖掘數(shù)據(jù)中蘊(yùn)含的豐富信息;尤其在預(yù)測變量X的維數(shù)高,樣本量小的情形下,組合方法的優(yōu)勢凸顯。在損失了樹模型部分解釋性的前提下,組合方法大大提高了模型的預(yù)測能力。隨機(jī)森林作為bagging方法的特例,具備的隨機(jī)抽樣和隨機(jī)選取分裂變量的候選值,樹模型之間的獨(dú)立性進(jìn)一步增強(qiáng),使得樹模型能從不同的角度刻畫數(shù)據(jù),泛化誤差的上界縮小。本文對基于樹模型的不純度函數(shù)在各種數(shù)據(jù)類型中的發(fā)展研究進(jìn)行了系統(tǒng)的梳理總結(jié),以進(jìn)一步發(fā)展樹模型,為數(shù)據(jù)分析和數(shù)據(jù)挖掘提供統(tǒng)一可行的非參數(shù)方法。

        2 不純度函數(shù)在反饋向量不同數(shù)據(jù)類型中的分類

        樹是由節(jié)點(diǎn)組成的,節(jié)點(diǎn)的性質(zhì)決定了樹的性質(zhì),同質(zhì)性高的節(jié)點(diǎn),分類樹的效果就理想。圖1展示了樹結(jié)構(gòu)與預(yù)測變量子空間的對應(yīng)圖:x1'x13分別表示年齡和飲酒量,圓圈和黑點(diǎn)表示兩種不同的結(jié)果。

        圖1 樹結(jié)構(gòu)展示圖[4]

        不純度函數(shù)是用來衡量節(jié)點(diǎn)同質(zhì)性的指標(biāo),以Y={0'1}為例,不純度函數(shù)i(τ)是p(Y =1|τ)的非負(fù)函數(shù),這里的τ表示節(jié)點(diǎn)(以下均代表此含義)。直觀的,如果不純度函數(shù)i(τ)=0意味著節(jié)點(diǎn)內(nèi)只有一種結(jié)果;如果意味著從節(jié)點(diǎn)內(nèi)隨機(jī)抽取樣本,等可能的得到0'1兩種結(jié)果。因此,i(τ)是樹模型中的重要指標(biāo)。

        給定觀測數(shù)據(jù)N個樣本,p是預(yù)測向量X的維數(shù),m是反饋向量Y的維數(shù)。下面從m=1、m≥2及Y的類型:離散型、連續(xù)型及關(guān)聯(lián)數(shù)據(jù)類型等對不純度函數(shù)進(jìn)行分類研究。

        2.1 反饋向量Y是離散型時(shí)的廣義熵

        m=1且Y={0'1},分類樹和隨機(jī)森林是常用的分析這類數(shù)據(jù)的樹模型方法,不純度函數(shù):i(τ)=-plnp-(1-表示在節(jié)點(diǎn)τ的條件概率,即Y=1的條件概率,1-p=p(Y =0|τ)表示在節(jié)點(diǎn)τ的條件概率即Y=0的條件概率,p(Y)表示隨機(jī)變量Y等于0或1的概率表示函數(shù)的期望。m=1且Y={c1'…'ck},這里的c1'…'ck為節(jié)點(diǎn)τ內(nèi)的k個類(k≥2),分類樹和隨機(jī)森林是常用的分析這類數(shù)據(jù)的樹模型方法,不純度函數(shù)為τ內(nèi)第cj個類的條件概

        率,p(Y)表示隨機(jī)變量Y等于c1'…'ck中某個類的概率,表示函數(shù)的期望。

        m=2且Yij={0'1},這里的i、j分別表示第i個樣本和Y的維數(shù),Zhang[5]最早提出基于樹模型分析這類數(shù)據(jù)的廣義熵不純度函數(shù)其中?是聯(lián)合概率分布中參數(shù)向量ψ'θ的極大似然估計(jì)表示參數(shù)向量ψ極大似然估計(jì)的轉(zhuǎn)置表示正則化常數(shù)。

        對于m≥2且Yij={c1'…'ck}的數(shù)據(jù),可以轉(zhuǎn)化為m=1且Y={0'1}的數(shù)據(jù)類型[4]。

        2.2 反饋向量Y是連續(xù)型時(shí)的廣義基尼均值差

        m=1且Y是連續(xù)型時(shí),分析這類數(shù)據(jù)常用的非參數(shù)方法有回歸樹和隨機(jī)森林,不純度函數(shù)yˉ(τ))2,m 和 yˉ(τ)分別表示 τ的樣本和 τ內(nèi)反饋?zhàn)兞?y 的樣本均值。

        m≥2且Y是連續(xù)型時(shí),分析這類數(shù)據(jù)可以選用的非參數(shù)方法有多元回歸樹[6,7]和基于E-距離的多元bagging[8],其中文獻(xiàn)[8]中的不純度函數(shù)廣義基尼均值差具有更廣泛的意義表示τ內(nèi)的樣本數(shù),‖·‖表示歐幾里得范數(shù),α∈(0'2),特別注意的是Ym'Yj都是向量。當(dāng)m退化為1時(shí),廣義基尼均值差和m=1時(shí)的不純度函數(shù)是等價(jià)的[8];當(dāng)m≥2時(shí),廣義基尼均值差和多元回歸樹中的距離均值的平方和是等價(jià)的[8]。

        2.3 反饋向量Y是其他情形

        (1)縱向數(shù)據(jù)

        縱向數(shù)據(jù)是一類特殊的數(shù)據(jù)類型,是指一系列試驗(yàn)個體隨著時(shí)間的演變進(jìn)行跟蹤測量得到的數(shù)據(jù),出現(xiàn)在生物學(xué)、醫(yī)學(xué)、社會學(xué)等眾多領(lǐng)域中。觀測到的數(shù)據(jù)為:(yij' xij'tij)'j=1'…'mi,i=1'…'n,這里的i表示第i個樣本,j表示第 j次觀測,是和樣本i有關(guān)的,反饋?zhàn)兞縴ij是在時(shí)間tij觀測到的。圖2展示了縱向數(shù)據(jù)的特點(diǎn)。

        圖2中的左圖表示所有觀測值的閱讀能力散點(diǎn)圖,右圖表示跟蹤每個個體兩個不同年齡的閱讀能力圖,隨著年齡的增長,閱讀能力呈現(xiàn)明顯上升的趨勢。

        由于反饋?zhàn)兞恐g的特殊關(guān)聯(lián)性,使得縱向數(shù)據(jù)分析成為數(shù)據(jù)分析中的難點(diǎn)問題。Segal(1992)[10]首次提出運(yùn)用樹模型對縱向數(shù)據(jù)進(jìn)行分析。不純度函數(shù)這里的 θτ是依賴于 τ的參數(shù)向量,ψ(θτ)是節(jié)點(diǎn) τ內(nèi)的協(xié)方差矩陣,ψ-1(θτ)表示協(xié)方差矩陣的逆矩陣。Loh等(2013)[11]提出卡方檢驗(yàn)挑選分裂變量的樹模型方法,適用于隨機(jī)時(shí)間點(diǎn)的縱向數(shù)據(jù)分析。

        圖2 閱讀能力對比圖[9]

        (2)刪失數(shù)據(jù)

        刪失數(shù)據(jù)是生存分析中常見的數(shù)據(jù)類型,是指由于種種原因,所采集的數(shù)據(jù)中許多應(yīng)該采集而未能采集,應(yīng)提交而未在一些時(shí)點(diǎn)上提交造成的數(shù)據(jù)不完全。生存樹是分析此類數(shù)據(jù)的樹模型方法。其中的不純度函數(shù)i(τ)=這里的 Sτ代表 τ的Kaplan-Meier曲線?表示三種可能的同質(zhì)性節(jié)點(diǎn)和Sτ最好的匹配,dp(')是兩種生存函數(shù)之間的一種離散度量,設(shè)F1和F2是兩個分布函數(shù)min{t:Fi(t)≥u},i=1'2。

        基于對數(shù)秩的隨機(jī)生存森林的出現(xiàn),提高了生存樹的預(yù)測能力。和其他方法相比,隨著噪音變量的增加隨機(jī)生存森林具有明顯的預(yù)測優(yōu)勢,但會受到刪失率的限制。

        (3)反饋?zhàn)兞縔={0'1}的醫(yī)療數(shù)據(jù)類型

        精準(zhǔn)醫(yī)療中,觀測數(shù)據(jù)這里的 Ti表示第i個樣本的治療方案,第i個樣本的反饋?zhàn)兞縔i={0'1},Yi=1表示在治療方案下病情出現(xiàn)好轉(zhuǎn),第i個樣本的預(yù)測向量 Xi={Xi1'Xi2'…'Xip},Tsai等(2016)[12]首次提出修改分類樹方法分析精準(zhǔn)醫(yī)療數(shù)據(jù),以最大化兩種治療方案結(jié)果差的平方作為樹模型中τ的度量函數(shù)[12]DIFF(τ)=(p (Y=1|T=A'τ)-p(Y =1|T=B'(τ))2,這里的T)=A'B表示兩種治療,如A藥或B藥,p Y=1|T=A'τ'p(Y =1|T=B'τ)分別表示節(jié)點(diǎn)τ中的樣本在A、B藥作用下,病人病情好轉(zhuǎn)的條件概率。條件概率差的平方越大,意味著兩種治療的結(jié)果出現(xiàn)較大的差異,有利于病人選擇最適合自己的醫(yī)療方案,達(dá)到精準(zhǔn)醫(yī)療的目的。

        3 總結(jié)

        作為一種非參數(shù)統(tǒng)計(jì)方法,基于分類回歸樹模型,一直獲得廣泛應(yīng)用并被拓展到各種數(shù)據(jù)類型中。不純度函數(shù)在樹模型的生成過程中起著重要作用。本文通過對不同數(shù)據(jù)類型的梳理,將不純度函數(shù)歸為:廣義熵(反饋向量Y是離散型時(shí))、廣義基尼均值差(反饋向量Y是連續(xù)型時(shí))、最小二乘度量(縱向數(shù)據(jù))、度量函數(shù)DIFF()τ(精準(zhǔn)醫(yī)療應(yīng)用)等,以期對不純度函數(shù)在樹模型的實(shí)證應(yīng)用中提供參考。

        [1]Breiman L,Friedman J,Stone C,Olshen R.Classification and Regression Trees[M].New York:CRC Press,1984.

        [2]Breiman.Random Forests[J].Machine Learning,2001,(45).

        [3]Breiman L.Bagging Predictors[J].Machine Learning,1996,(24).

        [4]Zhang H,Burton H.Recursive Partitioning and Applications[M].New York:Springer,2010.

        [5]Zhang H P.Classification Trees for Multiple Binary Responses[J].JASA,1998,(93).

        [6]Glenn De’Ath.Multivariate Regression Trees:A New Technique for Modeling Speciesenvironment Relationships[J].Ecology,2002,(83).

        [7]Larsen D R,Speckman P L.Multivariate Regression Trees for Analysis of Abundance Data[J].Biometrics,2004,(60).

        [8]Cao T Y,Wang X Q,Zhang H P.Energy Bagging Tree[J].Statistics and Its Interface,2016,(9).

        [9]Peter X,Song K.Correlated Data Analysis:Modeling,Analytics,and Applications[M].Canada:Springer,2007.

        [10]Segal M R.Tree-Structured Methods for Longitudinal Data[J].JASA,1992,(87).

        [11]Loh W Y,Zheng W,et al.Regression trees for Longitudinal and Multiresponse Data[J].The Annals of Applied Statistics,2013,(7).

        [12]Tsai W M,Zhang H P,et.al.A Modified Classification Tree Method for Personalized Medicine Decisions[J].Statistics and its interface,2016,(9).

        猜你喜歡
        數(shù)據(jù)類型純度向量
        向量的分解
        退火工藝對WTi10靶材組織及純度的影響
        詳談Java中的基本數(shù)據(jù)類型與引用數(shù)據(jù)類型
        聚焦“向量與三角”創(chuàng)新題
        如何理解數(shù)據(jù)結(jié)構(gòu)中的抽象數(shù)據(jù)類型
        色彩的純度
        童話世界(2017年29期)2017-12-16 07:59:32
        間接滴定法測定氯化銅晶體的純度
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        對氯水楊酸的純度測定
        国产激情小视频在线观看| 天天狠狠综合精品视频一二三区| 亚洲色图综合免费视频| av网站在线观看二区| 色熟妇人妻久久中文字幕| 成人午夜视频精品一区| 国产成人av一区二区三区无码| 久久HEZYO色综合| 色婷婷久久综合中文蜜桃| 亚洲精品天天影视综合网| 亚洲中文字幕无码永久在线| 在线偷窥制服另类| 日本精品一级二区三级| 亚洲sm另类一区二区三区| 国产av无码专区亚洲av| 免费a级毛片无码a∨免费| 五月婷婷开心五月激情| 亚洲视频在线观看| 性夜夜春夜夜爽aa片a| 久草精品手机视频在线观看| 在线免费看91免费版.| 国产精品久久久久9999赢消| 亚洲男人天堂网站| 国产一区二区av男人| 黄片视频免费在线观看国产| 中文成人无字幕乱码精品区| 99久久国产亚洲综合精品| 免费观看一区二区三区视频| 呦系列视频一区二区三区| 欧美最猛黑人xxxxx猛交| 精品久久免费一区二区三区四区| 国产女主播一区二区久久| 亚洲日产一线二线三线精华液| 午夜免费福利在线观看| 免费在线av一区二区| 亚洲综合另类小说色区| 色婷婷久久一区二区三区麻豆| 天天澡天天揉揉AV无码人妻斩 | 一二区成人影院电影网| 亚洲AV无码一区二区三区人| 免费啪啪av人妻一区二区|