亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于CART模型的不純度函數(shù)在不同數(shù)據(jù)類型中的分類

2018-06-15 06:46:50曹桃云

統(tǒng)計(jì)與決策 2018年10期

曹桃云

（廣州科技貿(mào)易職業(yè)學(xué)院公教部，廣州 510442）

1 問題的提出

由Breiman等（1984）[1]提出的分類回歸樹（CART）模型，通過對預(yù)測變量X進(jìn)行分裂，遞歸拆分預(yù)測變量所在的空間，以達(dá)到增加反饋?zhàn)兞縔在每一個預(yù)測子空間的同質(zhì)性。通過遞歸拆分建立的分類回歸樹具有直觀的圖形展示、有效處理缺失數(shù)據(jù)、自動的變量選擇和容易解釋等特點(diǎn)，因而被廣泛地應(yīng)用于生物學(xué)、醫(yī)學(xué)、經(jīng)濟(jì)學(xué)、金融學(xué)以及社會學(xué)等眾多學(xué)科領(lǐng)域中。作為一種重要的非參數(shù)統(tǒng)計(jì)方法，由于不需要對反饋?zhàn)兞縔進(jìn)行任何分布或特定關(guān)系的假設(shè)，分類回歸樹得到了廣泛深入的研究和應(yīng)用，并發(fā)展成為探索復(fù)雜數(shù)據(jù)結(jié)構(gòu)中最靈活、直觀和強(qiáng)有力的數(shù)據(jù)分析工具之一。

基于CART模型的組合方法隨機(jī)森林[2]和bagging[3]的出現(xiàn)克服了單棵樹模型的局限性：（1）樹結(jié)構(gòu)受微小數(shù)據(jù)的擾動變化大；（2）單棵樹不足以挖掘數(shù)據(jù)中蘊(yùn)含的豐富信息；尤其在預(yù)測變量X的維數(shù)高，樣本量小的情形下，組合方法的優(yōu)勢凸顯。在損失了樹模型部分解釋性的前提下，組合方法大大提高了模型的預(yù)測能力。隨機(jī)森林作為bagging方法的特例，具備的隨機(jī)抽樣和隨機(jī)選取分裂變量的候選值，樹模型之間的獨(dú)立性進(jìn)一步增強(qiáng)，使得樹模型能從不同的角度刻畫數(shù)據(jù)，泛化誤差的上界縮小。本文對基于樹模型的不純度函數(shù)在各種數(shù)據(jù)類型中的發(fā)展研究進(jìn)行了系統(tǒng)的梳理總結(jié)，以進(jìn)一步發(fā)展樹模型，為數(shù)據(jù)分析和數(shù)據(jù)挖掘提供統(tǒng)一可行的非參數(shù)方法。

2 不純度函數(shù)在反饋向量不同數(shù)據(jù)類型中的分類

樹是由節(jié)點(diǎn)組成的，節(jié)點(diǎn)的性質(zhì)決定了樹的性質(zhì)，同質(zhì)性高的節(jié)點(diǎn)，分類樹的效果就理想。圖1展示了樹結(jié)構(gòu)與預(yù)測變量子空間的對應(yīng)圖：x1'x13分別表示年齡和飲酒量，圓圈和黑點(diǎn)表示兩種不同的結(jié)果。

圖1 樹結(jié)構(gòu)展示圖[4]

不純度函數(shù)是用來衡量節(jié)點(diǎn)同質(zhì)性的指標(biāo)，以Y={0'1}為例，不純度函數(shù)i(τ)是p(Y =1|τ)的非負(fù)函數(shù)，這里的τ表示節(jié)點(diǎn)（以下均代表此含義）。直觀的，如果不純度函數(shù)i(τ)=0意味著節(jié)點(diǎn)內(nèi)只有一種結(jié)果；如果意味著從節(jié)點(diǎn)內(nèi)隨機(jī)抽取樣本，等可能的得到0'1兩種結(jié)果。因此，i(τ)是樹模型中的重要指標(biāo)。

給定觀測數(shù)據(jù)N個樣本，p是預(yù)測向量X的維數(shù)，m是反饋向量Y的維數(shù)。下面從m=1、m≥2及Y的類型：離散型、連續(xù)型及關(guān)聯(lián)數(shù)據(jù)類型等對不純度函數(shù)進(jìn)行分類研究。

2.1 反饋向量Y是離散型時(shí)的廣義熵

m=1且Y={0'1}，分類樹和隨機(jī)森林是常用的分析這類數(shù)據(jù)的樹模型方法，不純度函數(shù)：i(τ)=-plnp-(1-表示在節(jié)點(diǎn)τ的條件概率，即Y=1的條件概率，1-p=p(Y =0|τ)表示在節(jié)點(diǎn)τ的條件概率即Y=0的條件概率，p(Y)表示隨機(jī)變量Y等于0或1的概率表示函數(shù)的期望。m=1且Y={c1'…'ck}，這里的c1'…'ck為節(jié)點(diǎn)τ內(nèi)的k個類（k≥2），分類樹和隨機(jī)森林是常用的分析這類數(shù)據(jù)的樹模型方法，不純度函數(shù)為τ內(nèi)第cj個類的條件概

率，p(Y)表示隨機(jī)變量Y等于c1'…'ck中某個類的概率，表示函數(shù)的期望。

m=2且Yij={0'1}，這里的i、j分別表示第i個樣本和Y的維數(shù)，Zhang[5]最早提出基于樹模型分析這類數(shù)據(jù)的廣義熵不純度函數(shù)其中?是聯(lián)合概率分布中參數(shù)向量ψ'θ的極大似然估計(jì)表示參數(shù)向量ψ極大似然估計(jì)的轉(zhuǎn)置表示正則化常數(shù)。

對于m≥2且Yij={c1'…'ck}的數(shù)據(jù)，可以轉(zhuǎn)化為m=1且Y={0'1}的數(shù)據(jù)類型[4]。

2.2 反饋向量Y是連續(xù)型時(shí)的廣義基尼均值差

m=1且Y是連續(xù)型時(shí)，分析這類數(shù)據(jù)常用的非參數(shù)方法有回歸樹和隨機(jī)森林，不純度函數(shù)yˉ(τ))2，m 和 yˉ(τ)分別表示 τ的樣本和 τ內(nèi)反饋?zhàn)兞?y 的樣本均值。

m≥2且Y是連續(xù)型時(shí)，分析這類數(shù)據(jù)可以選用的非參數(shù)方法有多元回歸樹[6，7]和基于E-距離的多元bagging[8]，其中文獻(xiàn)[8]中的不純度函數(shù)廣義基尼均值差具有更廣泛的意義表示τ內(nèi)的樣本數(shù)，‖·‖表示歐幾里得范數(shù)，α∈(0'2)，特別注意的是Ym'Yj都是向量。當(dāng)m退化為1時(shí)，廣義基尼均值差和m=1時(shí)的不純度函數(shù)是等價(jià)的[8]；當(dāng)m≥2時(shí)，廣義基尼均值差和多元回歸樹中的距離均值的平方和是等價(jià)的[8]。

2.3 反饋向量Y是其他情形

（1）縱向數(shù)據(jù)

縱向數(shù)據(jù)是一類特殊的數(shù)據(jù)類型，是指一系列試驗(yàn)個體隨著時(shí)間的演變進(jìn)行跟蹤測量得到的數(shù)據(jù)，出現(xiàn)在生物學(xué)、醫(yī)學(xué)、社會學(xué)等眾多領(lǐng)域中。觀測到的數(shù)據(jù)為：(yij' xij'tij)'j=1'…'mi,i=1'…'n，這里的i表示第i個樣本，j表示第 j次觀測，是和樣本i有關(guān)的，反饋?zhàn)兞縴ij是在時(shí)間tij觀測到的。圖2展示了縱向數(shù)據(jù)的特點(diǎn)。

圖2中的左圖表示所有觀測值的閱讀能力散點(diǎn)圖，右圖表示跟蹤每個個體兩個不同年齡的閱讀能力圖，隨著年齡的增長，閱讀能力呈現(xiàn)明顯上升的趨勢。

由于反饋?zhàn)兞恐g的特殊關(guān)聯(lián)性，使得縱向數(shù)據(jù)分析成為數(shù)據(jù)分析中的難點(diǎn)問題。Segal(1992)[10]首次提出運(yùn)用樹模型對縱向數(shù)據(jù)進(jìn)行分析。不純度函數(shù)這里的 θτ是依賴于 τ的參數(shù)向量，ψ(θτ)是節(jié)點(diǎn) τ內(nèi)的協(xié)方差矩陣，ψ-1(θτ)表示協(xié)方差矩陣的逆矩陣。Loh等（2013）[11]提出卡方檢驗(yàn)挑選分裂變量的樹模型方法，適用于隨機(jī)時(shí)間點(diǎn)的縱向數(shù)據(jù)分析。

圖2 閱讀能力對比圖[9]

（2）刪失數(shù)據(jù)

刪失數(shù)據(jù)是生存分析中常見的數(shù)據(jù)類型，是指由于種種原因，所采集的數(shù)據(jù)中許多應(yīng)該采集而未能采集，應(yīng)提交而未在一些時(shí)點(diǎn)上提交造成的數(shù)據(jù)不完全。生存樹是分析此類數(shù)據(jù)的樹模型方法。其中的不純度函數(shù)i(τ)=這里的 Sτ代表 τ的Kaplan-Meier曲線?表示三種可能的同質(zhì)性節(jié)點(diǎn)和Sτ最好的匹配，dp(')是兩種生存函數(shù)之間的一種離散度量，設(shè)F1和F2是兩個分布函數(shù)min{t:Fi(t)≥u}，i=1'2。

基于對數(shù)秩的隨機(jī)生存森林的出現(xiàn)，提高了生存樹的預(yù)測能力。和其他方法相比，隨著噪音變量的增加隨機(jī)生存森林具有明顯的預(yù)測優(yōu)勢，但會受到刪失率的限制。

（3）反饋?zhàn)兞縔={0'1}的醫(yī)療數(shù)據(jù)類型

精準(zhǔn)醫(yī)療中，觀測數(shù)據(jù)這里的 Ti表示第i個樣本的治療方案，第i個樣本的反饋?zhàn)兞縔i={0'1}，Yi=1表示在治療方案下病情出現(xiàn)好轉(zhuǎn)，第i個樣本的預(yù)測向量 Xi={Xi1'Xi2'…'Xip}，Tsai等（2016）[12]首次提出修改分類樹方法分析精準(zhǔn)醫(yī)療數(shù)據(jù)，以最大化兩種治療方案結(jié)果差的平方作為樹模型中τ的度量函數(shù)[12]DIFF(τ)=(p (Y=1|T=A'τ)-p(Y =1|T=B'(τ))2，這里的T)=A'B表示兩種治療，如A藥或B藥，p Y=1|T=A'τ'p(Y =1|T=B'τ)分別表示節(jié)點(diǎn)τ中的樣本在A、B藥作用下，病人病情好轉(zhuǎn)的條件概率。條件概率差的平方越大，意味著兩種治療的結(jié)果出現(xiàn)較大的差異，有利于病人選擇最適合自己的醫(yī)療方案，達(dá)到精準(zhǔn)醫(yī)療的目的。

3 總結(jié)

作為一種非參數(shù)統(tǒng)計(jì)方法，基于分類回歸樹模型，一直獲得廣泛應(yīng)用并被拓展到各種數(shù)據(jù)類型中。不純度函數(shù)在樹模型的生成過程中起著重要作用。本文通過對不同數(shù)據(jù)類型的梳理，將不純度函數(shù)歸為：廣義熵（反饋向量Y是離散型時(shí)）、廣義基尼均值差（反饋向量Y是連續(xù)型時(shí)）、最小二乘度量（縱向數(shù)據(jù)）、度量函數(shù)DIFF()τ（精準(zhǔn)醫(yī)療應(yīng)用）等，以期對不純度函數(shù)在樹模型的實(shí)證應(yīng)用中提供參考。

[1]Breiman L,Friedman J,Stone C,Olshen R.Classification and Regression Trees[M].New York：CRC Press，1984.

[2]Breiman.Random Forests[J].Machine Learning,2001,(45).

[3]Breiman L.Bagging Predictors[J].Machine Learning,1996,(24).

[4]Zhang H,Burton H.Recursive Partitioning and Applications[M].New York:Springer,2010.

[5]Zhang H P.Classification Trees for Multiple Binary Responses[J].JASA,1998,(93).

[6]Glenn De’Ath.Multivariate Regression Trees:A New Technique for Modeling Speciesenvironment Relationships[J].Ecology，2002,(83).

[7]Larsen D R,Speckman P L.Multivariate Regression Trees for Analysis of Abundance Data[J].Biometrics，2004,(60).

[8]Cao T Y，Wang X Q，Zhang H P.Energy Bagging Tree[J].Statistics and Its Interface,2016,(9).

[9]Peter X，Song K.Correlated Data Analysis:Modeling,Analytics,and Applications[M].Canada：Springer,2007.

[10]Segal M R.Tree-Structured Methods for Longitudinal Data[J].JASA,1992,(87).

[11]Loh W Y,Zheng W,et al.Regression trees for Longitudinal and Multiresponse Data[J].The Annals of Applied Statistics,2013,(7).

[12]Tsai W M,Zhang H P，et.al.A Modified Classification Tree Method for Personalized Medicine Decisions[J].Statistics and its interface,2016,(9).