武君
摘 要:本文使用風(fēng)投企業(yè)風(fēng)險識別案例,用四種決策樹算法,對比了提取主成分前后算法精度的變化。結(jié)果表明,提取主要成分后,四種算法中只有C5.0算法的精度獲得了提高,而其他三種算法提取主成分后的精度反而有所下降,并且C5.0算法在未提取主成分時的精度已高于其他三種算法,可見在風(fēng)險識別案例中先提取主成分再使用C5.0算法后精度較其他三種算法高。
關(guān)鍵詞:風(fēng)險識別;主成分分析;決策樹算法
0 引言
數(shù)據(jù)挖掘中比較熱門的就是分類算法的研究,而決策樹算法是分類算法中最重要的。常見的決策樹算法有四種:CART、C5.0、CHAID和QUEST。每種算法針對不同的數(shù)據(jù)類型,精度也不同。如何提升算法的預(yù)測精度,是許多學(xué)者都嘗試解決的問題。有些使用集成學(xué)習(xí)算法,如boosting,Bagging,如趙敏等(2007)[1]研究Adaboost算法在決策樹中的應(yīng)用,劉余霞等(2012)[2]使用Bagging集成學(xué)習(xí)研究字符識別,李詒靖等(2016)[3]使用boosting算法解決分類問題。有些將決策樹和其他模型結(jié)合在一起,如顧雨等(2010)[4]、張俊深等(2016)[5],都是將多種方法用于分類和預(yù)測。另一種提高精度的方法是在數(shù)據(jù)分析前將主成分分析法引入,先提取主要成分,然后做決策樹分析。本文基于創(chuàng)業(yè)企業(yè)風(fēng)險識別數(shù)據(jù),從實證方面研究主成分分析對決策樹算法精度的影響。
1 理論基礎(chǔ)
1.1 CART算法
CART算法即分類與回歸樹,它包含了分類樹和回歸樹,分類樹用于目標(biāo)變量是分類型的,回歸樹用于目標(biāo)變量是連續(xù)型的。CART的生長是二叉樹,如果目標(biāo)變量是分類型,則以Gini系數(shù)來確認(rèn)分割點,如果目標(biāo)變量是數(shù)值型,則以方差來確認(rèn)分割點。
1.2 C5.0算法
C5.0是經(jīng)典的決策樹模型算法之一,可生成多分支的決策樹,目標(biāo)變量為分類型變量,使用C5.0算法可以生成決策樹或者規(guī)則集。
1.3 CHAID算法
CHAID算法其核心思想是根據(jù)給定的目標(biāo)變量和解釋變量對樣本進(jìn)行最優(yōu)分割。利用卡方自動交互檢測法可以快速、有效地挖掘出主要影響因素,它不僅可以處理非線性和高度相關(guān)的數(shù)據(jù),而且還可以將缺失值考慮在內(nèi)。
1.4 QUEST算法
QUEST算法是二叉樹算法。它通過將判別坐標(biāo)分配給預(yù)測變量類別,將分類變量轉(zhuǎn)換為連續(xù)變量,然后利用二次判別分析QDA來確定分割點。QUEST樹算法的一個優(yōu)點是它是無偏的,不像CART算法那樣偏向于選擇允許更多分裂的分裂變量以及缺失值更多的分裂變量。
2 實證分析
2.1 數(shù)據(jù)來源及描述
本文研究數(shù)據(jù)來自某風(fēng)投公司提供的所投資創(chuàng)業(yè)企業(yè)數(shù)據(jù)。風(fēng)險投資是風(fēng)投公司為創(chuàng)業(yè)企業(yè)提供的投資服務(wù),一段時期后,創(chuàng)業(yè)企業(yè)將面臨成功或失敗兩種可能,風(fēng)投企業(yè)進(jìn)行的風(fēng)險識別是將創(chuàng)業(yè)成功與否的離散變量作為因變量,企業(yè)創(chuàng)業(yè)因素作為自變量,進(jìn)行決策樹分析判斷,進(jìn)而研究創(chuàng)業(yè)成功與否的影響因素。
2.1.1 指標(biāo)匯總
對風(fēng)投公司提供的數(shù)據(jù)脫敏、預(yù)處理后,整理指標(biāo)如下表。
2.1.2 基本描述
剔除缺失值、無效數(shù)據(jù)后,得樣本總量209,正樣本99,負(fù)樣本110。
2.2 主成分提取
2.2.1 KMO檢驗
對數(shù)據(jù)計算KMO檢驗得到如下結(jié)果。
2.2.2 提取主成分
主要成分解釋總方差表如下表。
根據(jù)結(jié)果提取數(shù)據(jù)10個主要成分,主要成分占原始信息的69.830%。
2.3 實證結(jié)果對比
首先對未提取主成分的原始數(shù)據(jù)分別做CART、C5.0、CHAID和QUEST的決策樹運算,再對提取了主成分的數(shù)據(jù)進(jìn)行上述四種決策樹算法,其結(jié)果對比
如下。
分析結(jié)果可得:
第一,與未提取主成分相比,提取主成分后四種算法中,只有C5.0算法的精度獲得了提高;而其他三種算法,提取主成分后的精度反而有所下降。
第二,從上述8個結(jié)果中可以看出,C5.0算法在未提取主成分時的精度已高于其他三種算法,可見在該案例中先提取主成分再使用C5.0算法后精度較其他三種算法高。
3 結(jié)論
本文使用風(fēng)投企業(yè)投資成功與否案例,利用四種決策樹算法,對比了提取主成分前后,算法精度的變化。結(jié)果表明,提取主要成分后,四種算法中只有C5.0算法的精度獲得了提高,而其他三種算法提取主成分后的精度反而有所下降,并且C5.0算法在未提取主成分時的精度已高于其他三種算法,可見在該案例中先提取主成分再使用C5.0算法后精度較其他三種算法高。
參考文獻(xiàn):
[1]趙敏,陳恩紅,宋睿.基于集成學(xué)習(xí)的Adaboost演化決策樹算法[J].計算機應(yīng)用與軟件,2007(03):1-2+21.
[2]劉余霞,呂虹,胡濤,孫小虎.基于Bagging集成學(xué)習(xí)的字符識別方法[J].計算機工程與應(yīng)用,2012,48(33):194-196+211.
[3]李詒靖,郭海湘,李亞楠,劉曉.一種基于Boosting的集成學(xué)習(xí)算法在不均衡數(shù)據(jù)中的分類[J].系統(tǒng)工程理論與實踐,2016,36(01): 189-199.
[4]顧雨,徐廣軍,夏訓(xùn)峰,席北斗,周素霞.基于最優(yōu)組合預(yù)測模型的中國工業(yè)固體廢物產(chǎn)生量預(yù)測[J].環(huán)境污染與防治,2010,32(05): 89-91+109.
[5]張俊深,袁程煒.基于BP神經(jīng)網(wǎng)絡(luò)與修正GM(1,1)模型的能源消費組合預(yù)測[J].統(tǒng)計與決策,2016(05):90-93.
[6]劉敏,趙璟,薛偉賢.“一帶一路”產(chǎn)能合作與發(fā)展中國家全球價值鏈地位提升[J].國際經(jīng)貿(mào)探索,2018,34(08):49-62.