曹桃云
(廣州科技貿(mào)易職業(yè)學(xué)院 公教部,廣州 510442)
由Breiman等(1984)[1]提出的分類回歸樹(CART)模型,通過對預(yù)測變量X進(jìn)行分裂,遞歸拆分預(yù)測變量所在的空間,以達(dá)到增加反饋?zhàn)兞縔在每一個預(yù)測子空間的同質(zhì)性。通過遞歸拆分建立的分類回歸樹具有直觀的圖形展示、有效處理缺失數(shù)據(jù)、自動的變量選擇和容易解釋等特點(diǎn),因而被廣泛地應(yīng)用于生物學(xué)、醫(yī)學(xué)、經(jīng)濟(jì)學(xué)、金融學(xué)以及社會學(xué)等眾多學(xué)科領(lǐng)域中。作為一種重要的非參數(shù)統(tǒng)計(jì)方法,由于不需要對反饋?zhàn)兞縔進(jìn)行任何分布或特定關(guān)系的假設(shè),分類回歸樹得到了廣泛深入的研究和應(yīng)用,并發(fā)展成為探索復(fù)雜數(shù)據(jù)結(jié)構(gòu)中最靈活、直觀和強(qiáng)有力的數(shù)據(jù)分析工具之一。
基于CART模型的組合方法隨機(jī)森林[2]和bagging[3]的出現(xiàn)克服了單棵樹模型的局限性:(1)樹結(jié)構(gòu)受微小數(shù)據(jù)的擾動變化大;(2)單棵樹不足以挖掘數(shù)據(jù)中蘊(yùn)含的豐富信息;尤其在預(yù)測變量X的維數(shù)高,樣本量小的情形下,組合方法的優(yōu)勢凸顯。在損失了樹模型部分解釋性的前提下,組合方法大大提高了模型的預(yù)測能力。隨機(jī)森林作為bagging方法的特例,具備的隨機(jī)抽樣和隨機(jī)選取分裂變量的候選值,樹模型之間的獨(dú)立性進(jìn)一步增強(qiáng),使得樹模型能從不同的角度刻畫數(shù)據(jù),泛化誤差的上界縮小。本文對基于樹模型的不純度函數(shù)在各種數(shù)據(jù)類型中的發(fā)展研究進(jìn)行了系統(tǒng)的梳理總結(jié),以進(jìn)一步發(fā)展樹模型,為數(shù)據(jù)分析和數(shù)據(jù)挖掘提供統(tǒng)一可行的非參數(shù)方法。
樹是由節(jié)點(diǎn)組成的,節(jié)點(diǎn)的性質(zhì)決定了樹的性質(zhì),同質(zhì)性高的節(jié)點(diǎn),分類樹的效果就理想。圖1展示了樹結(jié)構(gòu)與預(yù)測變量子空間的對應(yīng)圖:x1'x13分別表示年齡和飲酒量,圓圈和黑點(diǎn)表示兩種不同的結(jié)果。
圖1 樹結(jié)構(gòu)展示圖[4]
不純度函數(shù)是用來衡量節(jié)點(diǎn)同質(zhì)性的指標(biāo),以Y={0'1}為例,不純度函數(shù)i(τ)是p(Y =1|τ)的非負(fù)函數(shù),這里的τ表示節(jié)點(diǎn)(以下均代表此含義)。直觀的,如果不純度函數(shù)i(τ)=0意味著節(jié)點(diǎn)內(nèi)只有一種結(jié)果;如果意味著從節(jié)點(diǎn)內(nèi)隨機(jī)抽取樣本,等可能的得到0'1兩種結(jié)果。因此,i(τ)是樹模型中的重要指標(biāo)。
給定觀測數(shù)據(jù)N個樣本,p是預(yù)測向量X的維數(shù),m是反饋向量Y的維數(shù)。下面從m=1、m≥2及Y的類型:離散型、連續(xù)型及關(guān)聯(lián)數(shù)據(jù)類型等對不純度函數(shù)進(jìn)行分類研究。
m=1且Y={0'1},分類樹和隨機(jī)森林是常用的分析這類數(shù)據(jù)的樹模型方法,不純度函數(shù):i(τ)=-plnp-(1-表示在節(jié)點(diǎn)τ的條件概率,即Y=1的條件概率,1-p=p(Y =0|τ)表示在節(jié)點(diǎn)τ的條件概率即Y=0的條件概率,p(Y)表示隨機(jī)變量Y等于0或1的概率表示函數(shù)的期望。m=1且Y={c1'…'ck},這里的c1'…'ck為節(jié)點(diǎn)τ內(nèi)的k個類(k≥2),分類樹和隨機(jī)森林是常用的分析這類數(shù)據(jù)的樹模型方法,不純度函數(shù)為τ內(nèi)第cj個類的條件概
率,p(Y)表示隨機(jī)變量Y等于c1'…'ck中某個類的概率,表示函數(shù)的期望。
m=2且Yij={0'1},這里的i、j分別表示第i個樣本和Y的維數(shù),Zhang[5]最早提出基于樹模型分析這類數(shù)據(jù)的廣義熵不純度函數(shù)其中?是聯(lián)合概率分布中參數(shù)向量ψ'θ的極大似然估計(jì)表示參數(shù)向量ψ極大似然估計(jì)的轉(zhuǎn)置表示正則化常數(shù)。
對于m≥2且Yij={c1'…'ck}的數(shù)據(jù),可以轉(zhuǎn)化為m=1且Y={0'1}的數(shù)據(jù)類型[4]。
m=1且Y是連續(xù)型時(shí),分析這類數(shù)據(jù)常用的非參數(shù)方法有回歸樹和隨機(jī)森林,不純度函數(shù)yˉ(τ))2,m 和 yˉ(τ)分別表示 τ的樣本和 τ內(nèi)反饋?zhàn)兞?y 的樣本均值。
m≥2且Y是連續(xù)型時(shí),分析這類數(shù)據(jù)可以選用的非參數(shù)方法有多元回歸樹[6,7]和基于E-距離的多元bagging[8],其中文獻(xiàn)[8]中的不純度函數(shù)廣義基尼均值差具有更廣泛的意義表示τ內(nèi)的樣本數(shù),‖·‖表示歐幾里得范數(shù),α∈(0'2),特別注意的是Ym'Yj都是向量。當(dāng)m退化為1時(shí),廣義基尼均值差和m=1時(shí)的不純度函數(shù)是等價(jià)的[8];當(dāng)m≥2時(shí),廣義基尼均值差和多元回歸樹中的距離均值的平方和是等價(jià)的[8]。
(1)縱向數(shù)據(jù)
縱向數(shù)據(jù)是一類特殊的數(shù)據(jù)類型,是指一系列試驗(yàn)個體隨著時(shí)間的演變進(jìn)行跟蹤測量得到的數(shù)據(jù),出現(xiàn)在生物學(xué)、醫(yī)學(xué)、社會學(xué)等眾多領(lǐng)域中。觀測到的數(shù)據(jù)為:(yij' xij'tij)'j=1'…'mi,i=1'…'n,這里的i表示第i個樣本,j表示第 j次觀測,是和樣本i有關(guān)的,反饋?zhàn)兞縴ij是在時(shí)間tij觀測到的。圖2展示了縱向數(shù)據(jù)的特點(diǎn)。
圖2中的左圖表示所有觀測值的閱讀能力散點(diǎn)圖,右圖表示跟蹤每個個體兩個不同年齡的閱讀能力圖,隨著年齡的增長,閱讀能力呈現(xiàn)明顯上升的趨勢。
由于反饋?zhàn)兞恐g的特殊關(guān)聯(lián)性,使得縱向數(shù)據(jù)分析成為數(shù)據(jù)分析中的難點(diǎn)問題。Segal(1992)[10]首次提出運(yùn)用樹模型對縱向數(shù)據(jù)進(jìn)行分析。不純度函數(shù)這里的 θτ是依賴于 τ的參數(shù)向量,ψ(θτ)是節(jié)點(diǎn) τ內(nèi)的協(xié)方差矩陣,ψ-1(θτ)表示協(xié)方差矩陣的逆矩陣。Loh等(2013)[11]提出卡方檢驗(yàn)挑選分裂變量的樹模型方法,適用于隨機(jī)時(shí)間點(diǎn)的縱向數(shù)據(jù)分析。
圖2 閱讀能力對比圖[9]
(2)刪失數(shù)據(jù)
刪失數(shù)據(jù)是生存分析中常見的數(shù)據(jù)類型,是指由于種種原因,所采集的數(shù)據(jù)中許多應(yīng)該采集而未能采集,應(yīng)提交而未在一些時(shí)點(diǎn)上提交造成的數(shù)據(jù)不完全。生存樹是分析此類數(shù)據(jù)的樹模型方法。其中的不純度函數(shù)i(τ)=這里的 Sτ代表 τ的Kaplan-Meier曲線?表示三種可能的同質(zhì)性節(jié)點(diǎn)和Sτ最好的匹配,dp(')是兩種生存函數(shù)之間的一種離散度量,設(shè)F1和F2是兩個分布函數(shù)min{t:Fi(t)≥u},i=1'2。
基于對數(shù)秩的隨機(jī)生存森林的出現(xiàn),提高了生存樹的預(yù)測能力。和其他方法相比,隨著噪音變量的增加隨機(jī)生存森林具有明顯的預(yù)測優(yōu)勢,但會受到刪失率的限制。
(3)反饋?zhàn)兞縔={0'1}的醫(yī)療數(shù)據(jù)類型
精準(zhǔn)醫(yī)療中,觀測數(shù)據(jù)這里的 Ti表示第i個樣本的治療方案,第i個樣本的反饋?zhàn)兞縔i={0'1},Yi=1表示在治療方案下病情出現(xiàn)好轉(zhuǎn),第i個樣本的預(yù)測向量 Xi={Xi1'Xi2'…'Xip},Tsai等(2016)[12]首次提出修改分類樹方法分析精準(zhǔn)醫(yī)療數(shù)據(jù),以最大化兩種治療方案結(jié)果差的平方作為樹模型中τ的度量函數(shù)[12]DIFF(τ)=(p (Y=1|T=A'τ)-p(Y =1|T=B'(τ))2,這里的T)=A'B表示兩種治療,如A藥或B藥,p Y=1|T=A'τ'p(Y =1|T=B'τ)分別表示節(jié)點(diǎn)τ中的樣本在A、B藥作用下,病人病情好轉(zhuǎn)的條件概率。條件概率差的平方越大,意味著兩種治療的結(jié)果出現(xiàn)較大的差異,有利于病人選擇最適合自己的醫(yī)療方案,達(dá)到精準(zhǔn)醫(yī)療的目的。
作為一種非參數(shù)統(tǒng)計(jì)方法,基于分類回歸樹模型,一直獲得廣泛應(yīng)用并被拓展到各種數(shù)據(jù)類型中。不純度函數(shù)在樹模型的生成過程中起著重要作用。本文通過對不同數(shù)據(jù)類型的梳理,將不純度函數(shù)歸為:廣義熵(反饋向量Y是離散型時(shí))、廣義基尼均值差(反饋向量Y是連續(xù)型時(shí))、最小二乘度量(縱向數(shù)據(jù))、度量函數(shù)DIFF()τ(精準(zhǔn)醫(yī)療應(yīng)用)等,以期對不純度函數(shù)在樹模型的實(shí)證應(yīng)用中提供參考。
[1]Breiman L,Friedman J,Stone C,Olshen R.Classification and Regression Trees[M].New York:CRC Press,1984.
[2]Breiman.Random Forests[J].Machine Learning,2001,(45).
[3]Breiman L.Bagging Predictors[J].Machine Learning,1996,(24).
[4]Zhang H,Burton H.Recursive Partitioning and Applications[M].New York:Springer,2010.
[5]Zhang H P.Classification Trees for Multiple Binary Responses[J].JASA,1998,(93).
[6]Glenn De’Ath.Multivariate Regression Trees:A New Technique for Modeling Speciesenvironment Relationships[J].Ecology,2002,(83).
[7]Larsen D R,Speckman P L.Multivariate Regression Trees for Analysis of Abundance Data[J].Biometrics,2004,(60).
[8]Cao T Y,Wang X Q,Zhang H P.Energy Bagging Tree[J].Statistics and Its Interface,2016,(9).
[9]Peter X,Song K.Correlated Data Analysis:Modeling,Analytics,and Applications[M].Canada:Springer,2007.
[10]Segal M R.Tree-Structured Methods for Longitudinal Data[J].JASA,1992,(87).
[11]Loh W Y,Zheng W,et al.Regression trees for Longitudinal and Multiresponse Data[J].The Annals of Applied Statistics,2013,(7).
[12]Tsai W M,Zhang H P,et.al.A Modified Classification Tree Method for Personalized Medicine Decisions[J].Statistics and its interface,2016,(9).