亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SAS的決策樹方法應(yīng)用綜述

        2017-11-15 21:21:44王拓榮
        時(shí)代金融 2017年29期
        關(guān)鍵詞:決策樹數(shù)據(jù)挖掘

        【摘要】決策樹作為數(shù)據(jù)挖掘技術(shù)中一種重要的分類研究方法,其出色的數(shù)據(jù)分析效率、直觀易懂的結(jié)果展示,倍受廣大用戶的青睞。在此過程中,往往需要借助一些數(shù)據(jù)挖掘工具如:SAS的Enterprise Miner。本文對(duì)基于SAS的決策樹方法的行業(yè)應(yīng)用進(jìn)行綜述。

        【關(guān)鍵詞】SAS 數(shù)據(jù)挖掘 決策樹

        一、前言

        隨著科學(xué)技術(shù)飛速的發(fā)展,在各個(gè)領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),如人類對(duì)太空的探索,銀行每天的巨額交易數(shù)據(jù)。怎么樣從這大量數(shù)據(jù)中挖掘有價(jià)值的信息,成為了巨大的挑戰(zhàn),數(shù)據(jù)挖掘就是在這種情況下應(yīng)運(yùn)而生的。

        在數(shù)據(jù)挖掘的過程中,往往需要借助一些數(shù)理統(tǒng)計(jì)分析工具。SAS工具具有完備的數(shù)據(jù)訪問、管理、分析、呈現(xiàn)及應(yīng)用開發(fā)功能,并能運(yùn)用統(tǒng)計(jì)分析、時(shí)間序列、運(yùn)籌決策等科學(xué)方法進(jìn)行質(zhì)量控制、財(cái)務(wù)管理、生產(chǎn)優(yōu)化、風(fēng)險(xiǎn)管理、市場(chǎng)調(diào)查和預(yù)測(cè)。

        二、相關(guān)知識(shí)

        (一)SAS/EM數(shù)據(jù)挖掘方法論

        SAS/EM是SAS軟件包中的一個(gè)組件,是一個(gè)圖形化界面、菜單驅(qū)動(dòng)的、拖拉式操作、對(duì)用戶非常友好且功能強(qiáng)大的數(shù)據(jù)挖掘集成環(huán)境。SAS的數(shù)據(jù)挖掘方法論是SEMMA,其包括5個(gè)步驟:Sample(數(shù)據(jù)抽樣)、Explore(數(shù)據(jù)探索)、Modify(數(shù)據(jù)修改)、Model(建立模型)、Assess(模型評(píng)估)。

        (二)決策樹原理及相關(guān)算法

        決策樹(Decision Tree)是一種主要解決實(shí)際應(yīng)用中分類問題的數(shù)據(jù)挖掘方法。其基本思路是找出最有分辨能力的屬性,把數(shù)據(jù)劃分為許多子集(對(duì)應(yīng)樹的一個(gè)分枝),構(gòu)成一個(gè)分枝過程,然后對(duì)每一子集遞歸調(diào)用分枝過程,直到所有子集包含同一類型的數(shù)據(jù)。

        目前比較流行的決策樹算法主要有C4.5、CART、CHAID,其中較常用的C4.5算法是通過SAS/EM工具,根據(jù)數(shù)據(jù)的特點(diǎn)建立相應(yīng)的函數(shù)來盡可能地正確分類所有的觀察。

        從表2.1我們可以看出:所列出的軟件盡管都具有決策樹功能,但各個(gè)軟件所采用的算法又各有所側(cè)重,以便其在同類軟件的比較和競(jìng)爭(zhēng)中具有一定的優(yōu)勢(shì)。通過上面的比較來看Enterprise Miner、Mine Set擁有較為全面的決策樹算法。

        三、國(guó)內(nèi)外文獻(xiàn)綜述

        (一)醫(yī)療衛(wèi)生領(lǐng)域

        數(shù)據(jù)挖掘是近年來剛剛興起的一門新技術(shù),國(guó)外已有不少成功應(yīng)用的案例,但其在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用尚處于起步階段。

        侯曉智(2004)[1]運(yùn)用數(shù)據(jù)挖掘工具SAS Enterprise Miner,利用決策樹技術(shù)建立模型,研究了數(shù)據(jù)挖掘在肝膽惡性腫瘤單病種醫(yī)療費(fèi)用方面的應(yīng)用。朱寶(2012)[2]利用SAS9.1進(jìn)行決策樹分析,構(gòu)建病例組合模型,找到控制重點(diǎn),為今后制定醫(yī)療費(fèi)用控制政策提供依據(jù)。陳龍(2014)[3]利用SAS軟件的決策樹模型,對(duì)高血壓患者住院費(fèi)用進(jìn)行DRGs分組的方法學(xué)探索,得出在當(dāng)?shù)剡M(jìn)行DRGs的相關(guān)研究總體上可行的結(jié)論。

        (二)客戶流失問題

        客戶流失,指某企業(yè)現(xiàn)有的客戶中止繼續(xù)購(gòu)買其商品或服務(wù),轉(zhuǎn)而購(gòu)買其競(jìng)爭(zhēng)對(duì)手的商品或服務(wù)。據(jù)統(tǒng)計(jì)電信運(yùn)營(yíng)商每年高達(dá)35%~50%的客戶流失,造成約數(shù)百億美元的經(jīng)濟(jì)損失;而獲取1位新客戶的成本是保留1位老客戶的5~6倍。因此,國(guó)內(nèi)外學(xué)者對(duì)客戶流失問題展開了大量研究。

        Chiu-Ping Wei(2002)[4]開發(fā)了以決策樹方法為基礎(chǔ)、可以在合同水平上識(shí)別潛在流失者的分類組合預(yù)測(cè)技術(shù);熊國(guó)民(2014)[5]以分析決策樹等理論和分類為原則,運(yùn)用SAS9.2進(jìn)行Logistic 逐步回歸運(yùn)算,得出流失概率值,從中選取部分客戶為預(yù)測(cè)流失概率值較大的作為最終流失客戶。毛躍霖(2015)[6]通過研究客戶流失預(yù)測(cè)算法在其他行業(yè)中的應(yīng)用情況,創(chuàng)新的設(shè)計(jì)了決策樹與LOGISTIC回歸模型相結(jié)合的方法對(duì)汽車服務(wù)企業(yè)進(jìn)行建模,在SAS挖掘平臺(tái)下建立了流失預(yù)測(cè)模型。

        (三)銀行客戶信用評(píng)分問題

        信用評(píng)分法將借款人的特征進(jìn)行量化,形成一套指標(biāo)體系,克服了主觀隨意性的風(fēng)險(xiǎn)。現(xiàn)代信用評(píng)分廣泛運(yùn)用統(tǒng)計(jì)學(xué)、運(yùn)籌學(xué)、決策樹、神經(jīng)網(wǎng)絡(luò)等技術(shù),不斷提高信用評(píng)分的精度。

        在國(guó)外學(xué)者的研究中,Makowski(1985)第一次將決策樹算法應(yīng)用于個(gè)人信用評(píng)分。近來,Lee等(2006)運(yùn)用決策樹技術(shù)研究最小化信用風(fēng)險(xiǎn)問題。

        國(guó)內(nèi)對(duì)信用評(píng)分的研究也經(jīng)歷了從定性到定性和定量相結(jié)合的過程。姜明輝(2003)[7]較早引入決策樹技術(shù)應(yīng)用于個(gè)人信用評(píng)估。趙靜嫻等(2009)[8]把神經(jīng)網(wǎng)絡(luò)技術(shù)和決策樹方法相結(jié)合,提高了信用評(píng)估的效率和客觀性。

        隨著農(nóng)村金融的重要性日益突出,在信用風(fēng)險(xiǎn)評(píng)估的研究中,以農(nóng)戶小額信用貸款為研究對(duì)象的居多。蔡麗艷等(2011)[9]把決策樹算法引入到農(nóng)戶小額貸款信用風(fēng)險(xiǎn)評(píng)估中,構(gòu)建評(píng)估模型并對(duì)信用評(píng)估模型進(jìn)行實(shí)證。沈術(shù)(2013)[10]運(yùn)用決策樹算法,利用SAS Enterprise Miner,采用“SEMMA”方法,將傳統(tǒng)信用評(píng)級(jí)的定量指標(biāo)由占比不到70%提高到94%,大大提升了農(nóng)戶信用評(píng)級(jí)的精確度。

        四、總結(jié)與思考

        基于SAS的決策樹分析方法的實(shí)際應(yīng)用于醫(yī)療衛(wèi)生領(lǐng)域,以及解決關(guān)于客戶流失、產(chǎn)品的精確營(yíng)銷、銀行客戶信用評(píng)分等問題有很光明的前途。但綜其全文,不難發(fā)現(xiàn)還有以下地方需要進(jìn)一步的完善:

        (1)決策樹算法有待進(jìn)一步改進(jìn)。比如充分利用領(lǐng)域知識(shí)去除無關(guān)數(shù)據(jù),或者利用領(lǐng)域知識(shí)進(jìn)一步精煉所發(fā)現(xiàn)的模式,從而設(shè)計(jì)出更理想的知識(shí)算法,提高數(shù)據(jù)挖掘的效率。

        (2)分類模型有待進(jìn)一步研究。在應(yīng)用領(lǐng)域的數(shù)據(jù)庫中,數(shù)據(jù)大多數(shù)是隨時(shí)間變化的。一般所建的模型僅僅依據(jù)當(dāng)前數(shù)據(jù)進(jìn)行預(yù)測(cè),并不能從時(shí)間維度上預(yù)測(cè)一些重要的變化趨勢(shì),這一步需要運(yùn)用時(shí)間序列挖掘算法,因此值得我們進(jìn)一步的研究。

        (3)挖掘結(jié)果的提取。在對(duì)模型結(jié)果提取規(guī)則的時(shí)候,因?qū)I(yè)務(wù)知識(shí)不熟悉,對(duì)挖掘結(jié)果的提取不能很好的完成。如果能提高系統(tǒng)對(duì)知識(shí)自動(dòng)評(píng)估的能力,盡可能采用圖形表示、有向非循環(huán)圖結(jié)構(gòu)的規(guī)則、自然語言生成以及數(shù)據(jù)和知識(shí)的可視化技術(shù),提高挖掘的可理解性,自然對(duì)結(jié)果的提取也就相應(yīng)提高了。

        參考文獻(xiàn)

        [1]侯曉智.基于數(shù)據(jù)挖掘技術(shù)的上海市肝膽腫瘤病例住院費(fèi)用研究[D].第二軍醫(yī)大學(xué),2004,7.

        [2]朱寶.天津市糖尿病患者住院費(fèi)用及病例組合研究[D].天津醫(yī)科大學(xué),2012.

        [3]陳龍.石河子地區(qū)高血壓患者DRGs分組研究[D].石河子大學(xué),2014.

        [4]Wei C P,Chiu IT.Turning telecommunications call details to churn prediction:a data mining approach[J].Expert Systems with Applications,2002,23:103-112.

        [5]熊國(guó)民.基于SVM的商業(yè)銀行客戶流失預(yù)測(cè)[D].鄭州大學(xué),2014,4.

        [6]毛躍霖.汽車服務(wù)企業(yè)客戶流失預(yù)測(cè)模型的分析與應(yīng)用[D].東華大學(xué),2015.

        [7]姜明輝,姜磊,王雅林.線性判別式分析在個(gè)人信用評(píng)估中的應(yīng)用[J].管理觀察,2003,(1):200-203.

        [8]趙靜嫻,杜子平.基于神經(jīng)網(wǎng)絡(luò)和決策樹相結(jié)合的信用風(fēng)險(xiǎn)評(píng)估模型研究[J].北京理工大學(xué)學(xué)報(bào),2009,(1):76-79.

        [9]蔡麗艷,馮憲彬,丁蕊.基于決策樹的農(nóng)戶小額貸款信用評(píng)估模型研究[J].安徽農(nóng)業(yè)科學(xué),2011,(02):1215-1217.

        [10]沈術(shù).決策樹算法在農(nóng)村信用社農(nóng)戶信用評(píng)級(jí)中的應(yīng)用[D].湖南大學(xué),2013,10.

        作者簡(jiǎn)介:王拓榮(1991-),女,漢族,河南新鄉(xiāng)人,就讀于首都經(jīng)濟(jì)貿(mào)易大學(xué),研究方向:業(yè)務(wù)流程管理、數(shù)據(jù)挖掘。endprint

        猜你喜歡
        決策樹數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于改進(jìn)決策樹的故障診斷方法研究
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        基于決策樹的出租車乘客出行目的識(shí)別
        基于決策樹的復(fù)雜電網(wǎng)多諧波源監(jiān)管
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        亚洲国产综合人成综合网站| 国产欧美日韩在线观看一区二区三区| 久久久调教亚洲| 福利视频偷拍一区二区| 国产精品久久久久一区二区三区| 先锋影音最新色资源站| 亚洲综合五月天欧美| 北岛玲亚洲一区二区三区| 久久精品国产亚洲av超清| 四虎影视免费永久在线观看| 国产99re在线观看只有精品| 极品少妇被后入内射视| 91精品国产色综合久久| 久久精品人妻无码一区二区三区| 99久久精品免费看国产情侣| 亚洲中文字幕av一区二区三区人| 青青草成人免费在线观看视频| 国产一区二区三区在线电影| 国内少妇人妻丰满av| 99热久久只有这里是精品| 上海熟女av黑人在线播放| 久久久久久人妻一区精品| 精品无码AV无码免费专区| 亚洲一区二区三区视频免费| 日韩av无码社区一区二区三区| 成人片黄网站色大片免费观看cn | 搞黄色很刺激的网站二区| 亚洲精品无码不卡在线播he| 亚洲老妇色熟女老太| 99免费视频精品| 国产一区二区三区色哟哟| 色综合视频一区中文字幕| 精品人妻无码中文字幕在线| av一区二区三区有码| 国产果冻豆传媒麻婆精东| 人妻在卧室被老板疯狂进入国产| 日本经典中文字幕人妻| 激情五月婷婷一区二区| 亚洲熟少妇在线播放999| 无码区a∨视频体验区30秒| 国产精品一区av在线|