【摘要】決策樹作為數(shù)據(jù)挖掘技術(shù)中一種重要的分類研究方法,其出色的數(shù)據(jù)分析效率、直觀易懂的結(jié)果展示,倍受廣大用戶的青睞。在此過程中,往往需要借助一些數(shù)據(jù)挖掘工具如:SAS的Enterprise Miner。本文對(duì)基于SAS的決策樹方法的行業(yè)應(yīng)用進(jìn)行綜述。
【關(guān)鍵詞】SAS 數(shù)據(jù)挖掘 決策樹
一、前言
隨著科學(xué)技術(shù)飛速的發(fā)展,在各個(gè)領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),如人類對(duì)太空的探索,銀行每天的巨額交易數(shù)據(jù)。怎么樣從這大量數(shù)據(jù)中挖掘有價(jià)值的信息,成為了巨大的挑戰(zhàn),數(shù)據(jù)挖掘就是在這種情況下應(yīng)運(yùn)而生的。
在數(shù)據(jù)挖掘的過程中,往往需要借助一些數(shù)理統(tǒng)計(jì)分析工具。SAS工具具有完備的數(shù)據(jù)訪問、管理、分析、呈現(xiàn)及應(yīng)用開發(fā)功能,并能運(yùn)用統(tǒng)計(jì)分析、時(shí)間序列、運(yùn)籌決策等科學(xué)方法進(jìn)行質(zhì)量控制、財(cái)務(wù)管理、生產(chǎn)優(yōu)化、風(fēng)險(xiǎn)管理、市場(chǎng)調(diào)查和預(yù)測(cè)。
二、相關(guān)知識(shí)
(一)SAS/EM數(shù)據(jù)挖掘方法論
SAS/EM是SAS軟件包中的一個(gè)組件,是一個(gè)圖形化界面、菜單驅(qū)動(dòng)的、拖拉式操作、對(duì)用戶非常友好且功能強(qiáng)大的數(shù)據(jù)挖掘集成環(huán)境。SAS的數(shù)據(jù)挖掘方法論是SEMMA,其包括5個(gè)步驟:Sample(數(shù)據(jù)抽樣)、Explore(數(shù)據(jù)探索)、Modify(數(shù)據(jù)修改)、Model(建立模型)、Assess(模型評(píng)估)。
(二)決策樹原理及相關(guān)算法
決策樹(Decision Tree)是一種主要解決實(shí)際應(yīng)用中分類問題的數(shù)據(jù)挖掘方法。其基本思路是找出最有分辨能力的屬性,把數(shù)據(jù)劃分為許多子集(對(duì)應(yīng)樹的一個(gè)分枝),構(gòu)成一個(gè)分枝過程,然后對(duì)每一子集遞歸調(diào)用分枝過程,直到所有子集包含同一類型的數(shù)據(jù)。
目前比較流行的決策樹算法主要有C4.5、CART、CHAID,其中較常用的C4.5算法是通過SAS/EM工具,根據(jù)數(shù)據(jù)的特點(diǎn)建立相應(yīng)的函數(shù)來盡可能地正確分類所有的觀察。
從表2.1我們可以看出:所列出的軟件盡管都具有決策樹功能,但各個(gè)軟件所采用的算法又各有所側(cè)重,以便其在同類軟件的比較和競(jìng)爭(zhēng)中具有一定的優(yōu)勢(shì)。通過上面的比較來看Enterprise Miner、Mine Set擁有較為全面的決策樹算法。
三、國(guó)內(nèi)外文獻(xiàn)綜述
(一)醫(yī)療衛(wèi)生領(lǐng)域
數(shù)據(jù)挖掘是近年來剛剛興起的一門新技術(shù),國(guó)外已有不少成功應(yīng)用的案例,但其在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用尚處于起步階段。
侯曉智(2004)[1]運(yùn)用數(shù)據(jù)挖掘工具SAS Enterprise Miner,利用決策樹技術(shù)建立模型,研究了數(shù)據(jù)挖掘在肝膽惡性腫瘤單病種醫(yī)療費(fèi)用方面的應(yīng)用。朱寶(2012)[2]利用SAS9.1進(jìn)行決策樹分析,構(gòu)建病例組合模型,找到控制重點(diǎn),為今后制定醫(yī)療費(fèi)用控制政策提供依據(jù)。陳龍(2014)[3]利用SAS軟件的決策樹模型,對(duì)高血壓患者住院費(fèi)用進(jìn)行DRGs分組的方法學(xué)探索,得出在當(dāng)?shù)剡M(jìn)行DRGs的相關(guān)研究總體上可行的結(jié)論。
(二)客戶流失問題
客戶流失,指某企業(yè)現(xiàn)有的客戶中止繼續(xù)購(gòu)買其商品或服務(wù),轉(zhuǎn)而購(gòu)買其競(jìng)爭(zhēng)對(duì)手的商品或服務(wù)。據(jù)統(tǒng)計(jì)電信運(yùn)營(yíng)商每年高達(dá)35%~50%的客戶流失,造成約數(shù)百億美元的經(jīng)濟(jì)損失;而獲取1位新客戶的成本是保留1位老客戶的5~6倍。因此,國(guó)內(nèi)外學(xué)者對(duì)客戶流失問題展開了大量研究。
Chiu-Ping Wei(2002)[4]開發(fā)了以決策樹方法為基礎(chǔ)、可以在合同水平上識(shí)別潛在流失者的分類組合預(yù)測(cè)技術(shù);熊國(guó)民(2014)[5]以分析決策樹等理論和分類為原則,運(yùn)用SAS9.2進(jìn)行Logistic 逐步回歸運(yùn)算,得出流失概率值,從中選取部分客戶為預(yù)測(cè)流失概率值較大的作為最終流失客戶。毛躍霖(2015)[6]通過研究客戶流失預(yù)測(cè)算法在其他行業(yè)中的應(yīng)用情況,創(chuàng)新的設(shè)計(jì)了決策樹與LOGISTIC回歸模型相結(jié)合的方法對(duì)汽車服務(wù)企業(yè)進(jìn)行建模,在SAS挖掘平臺(tái)下建立了流失預(yù)測(cè)模型。
(三)銀行客戶信用評(píng)分問題
信用評(píng)分法將借款人的特征進(jìn)行量化,形成一套指標(biāo)體系,克服了主觀隨意性的風(fēng)險(xiǎn)。現(xiàn)代信用評(píng)分廣泛運(yùn)用統(tǒng)計(jì)學(xué)、運(yùn)籌學(xué)、決策樹、神經(jīng)網(wǎng)絡(luò)等技術(shù),不斷提高信用評(píng)分的精度。
在國(guó)外學(xué)者的研究中,Makowski(1985)第一次將決策樹算法應(yīng)用于個(gè)人信用評(píng)分。近來,Lee等(2006)運(yùn)用決策樹技術(shù)研究最小化信用風(fēng)險(xiǎn)問題。
國(guó)內(nèi)對(duì)信用評(píng)分的研究也經(jīng)歷了從定性到定性和定量相結(jié)合的過程。姜明輝(2003)[7]較早引入決策樹技術(shù)應(yīng)用于個(gè)人信用評(píng)估。趙靜嫻等(2009)[8]把神經(jīng)網(wǎng)絡(luò)技術(shù)和決策樹方法相結(jié)合,提高了信用評(píng)估的效率和客觀性。
隨著農(nóng)村金融的重要性日益突出,在信用風(fēng)險(xiǎn)評(píng)估的研究中,以農(nóng)戶小額信用貸款為研究對(duì)象的居多。蔡麗艷等(2011)[9]把決策樹算法引入到農(nóng)戶小額貸款信用風(fēng)險(xiǎn)評(píng)估中,構(gòu)建評(píng)估模型并對(duì)信用評(píng)估模型進(jìn)行實(shí)證。沈術(shù)(2013)[10]運(yùn)用決策樹算法,利用SAS Enterprise Miner,采用“SEMMA”方法,將傳統(tǒng)信用評(píng)級(jí)的定量指標(biāo)由占比不到70%提高到94%,大大提升了農(nóng)戶信用評(píng)級(jí)的精確度。
四、總結(jié)與思考
基于SAS的決策樹分析方法的實(shí)際應(yīng)用于醫(yī)療衛(wèi)生領(lǐng)域,以及解決關(guān)于客戶流失、產(chǎn)品的精確營(yíng)銷、銀行客戶信用評(píng)分等問題有很光明的前途。但綜其全文,不難發(fā)現(xiàn)還有以下地方需要進(jìn)一步的完善:
(1)決策樹算法有待進(jìn)一步改進(jìn)。比如充分利用領(lǐng)域知識(shí)去除無關(guān)數(shù)據(jù),或者利用領(lǐng)域知識(shí)進(jìn)一步精煉所發(fā)現(xiàn)的模式,從而設(shè)計(jì)出更理想的知識(shí)算法,提高數(shù)據(jù)挖掘的效率。
(2)分類模型有待進(jìn)一步研究。在應(yīng)用領(lǐng)域的數(shù)據(jù)庫中,數(shù)據(jù)大多數(shù)是隨時(shí)間變化的。一般所建的模型僅僅依據(jù)當(dāng)前數(shù)據(jù)進(jìn)行預(yù)測(cè),并不能從時(shí)間維度上預(yù)測(cè)一些重要的變化趨勢(shì),這一步需要運(yùn)用時(shí)間序列挖掘算法,因此值得我們進(jìn)一步的研究。
(3)挖掘結(jié)果的提取。在對(duì)模型結(jié)果提取規(guī)則的時(shí)候,因?qū)I(yè)務(wù)知識(shí)不熟悉,對(duì)挖掘結(jié)果的提取不能很好的完成。如果能提高系統(tǒng)對(duì)知識(shí)自動(dòng)評(píng)估的能力,盡可能采用圖形表示、有向非循環(huán)圖結(jié)構(gòu)的規(guī)則、自然語言生成以及數(shù)據(jù)和知識(shí)的可視化技術(shù),提高挖掘的可理解性,自然對(duì)結(jié)果的提取也就相應(yīng)提高了。
參考文獻(xiàn)
[1]侯曉智.基于數(shù)據(jù)挖掘技術(shù)的上海市肝膽腫瘤病例住院費(fèi)用研究[D].第二軍醫(yī)大學(xué),2004,7.
[2]朱寶.天津市糖尿病患者住院費(fèi)用及病例組合研究[D].天津醫(yī)科大學(xué),2012.
[3]陳龍.石河子地區(qū)高血壓患者DRGs分組研究[D].石河子大學(xué),2014.
[4]Wei C P,Chiu IT.Turning telecommunications call details to churn prediction:a data mining approach[J].Expert Systems with Applications,2002,23:103-112.
[5]熊國(guó)民.基于SVM的商業(yè)銀行客戶流失預(yù)測(cè)[D].鄭州大學(xué),2014,4.
[6]毛躍霖.汽車服務(wù)企業(yè)客戶流失預(yù)測(cè)模型的分析與應(yīng)用[D].東華大學(xué),2015.
[7]姜明輝,姜磊,王雅林.線性判別式分析在個(gè)人信用評(píng)估中的應(yīng)用[J].管理觀察,2003,(1):200-203.
[8]趙靜嫻,杜子平.基于神經(jīng)網(wǎng)絡(luò)和決策樹相結(jié)合的信用風(fēng)險(xiǎn)評(píng)估模型研究[J].北京理工大學(xué)學(xué)報(bào),2009,(1):76-79.
[9]蔡麗艷,馮憲彬,丁蕊.基于決策樹的農(nóng)戶小額貸款信用評(píng)估模型研究[J].安徽農(nóng)業(yè)科學(xué),2011,(02):1215-1217.
[10]沈術(shù).決策樹算法在農(nóng)村信用社農(nóng)戶信用評(píng)級(jí)中的應(yīng)用[D].湖南大學(xué),2013,10.
作者簡(jiǎn)介:王拓榮(1991-),女,漢族,河南新鄉(xiāng)人,就讀于首都經(jīng)濟(jì)貿(mào)易大學(xué),研究方向:業(yè)務(wù)流程管理、數(shù)據(jù)挖掘。endprint