亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于C4.5算法的民航客戶價值細分研究

        2014-07-13 03:37:18張勁松
        西安航空學院學報 2014年5期
        關鍵詞:剪枝細分決策樹

        張勁松,江 波

        (1. 中國民用航空飛行學院 空中交通管理學院,四川 廣漢 618307;2.中國民用航空飛行學院 研究生處,四川 廣漢 618307)

        1 概述

        近年來,我國民航業(yè)發(fā)展迅速,面臨的市場競爭也越發(fā)激烈,尤其是隨著高鐵的開通和運營,民航運輸受到了巨大沖擊。為了應對行業(yè)內外的競爭,航空公司除了采取降低票價、完善管理等手段外,加強市場細分,對不同航線市場進行針對性的營銷,也逐漸成為了航空公司的關注重點。在眾多的市場細分標準中,以客戶盈利能力為主要依據(jù)的客戶價值細分,體現(xiàn)了以客戶價值為中心的差異化營銷思想,有助于企業(yè)營銷資源的優(yōu)化、價值客戶的保持和利潤的最大化,因此,客戶價值細分在金融、電信等行業(yè)得到了大量應用。

        目前,關于旅客價值的市場細分在民航領域已有研究,但仍處于起步階段:周虹等人[1]利用自組織神經網絡,對旅客進行盈利能力細分,但其把累計票價花費作為價值旅客標準的正確性有待考量,如一個經常購買打折機票的旅客,雖然票價花費較多,但其對公司的價值卻低于購買高價票的商務旅客[2];演克武等人[3]利用決策樹ID3算法對民航旅客進行價值細分,但ID3算法無法處理連續(xù)性的數(shù)值,當旅客的行為屬性較多時,決策樹的生成效果就會不好;Liu Jiale, Du Huiying[4]在AHP確定權重的基礎上建立RFM模型,并對民航旅客價值細分,但該方法考慮的旅客的行為特征較少,并且利用AHP確定權重對主觀經驗的依賴較重,容易受到研究者主觀看法的影響。因此,本文在前人研究的基礎上,擬采用決策樹C4.5算法對民航旅客進行價值細分,以挖掘出購買航空公司公務艙、頭等艙和高折扣經濟艙機票的那部分為公司創(chuàng)造高價值的旅客的行為特征[5-6],為航空公司提升營銷效果,優(yōu)化旅客管理提供參考。

        2 決策樹C4.5算法

        決策樹方法的本質是貪心算法,它從一個無一定規(guī)則的實例集中通過一個由上到下、分而治之的過程歸納出一組利用樹形結構表示的分類規(guī)則,決策樹算法在眾多的分類方法中以其分類準確率高、規(guī)則提取簡單、可以顯示重要的決策屬性而在各行業(yè)中廣泛應用[7]。

        在民航旅客價值細分中,由于各旅客行為屬性的重要程度存在差異,利用決策樹歸納分析,可以體現(xiàn)各旅客行為屬性的重要程度,可更直觀的了解價值旅客的重點特征。

        決策樹C4.5算法是Quinlan[8]在1993年針對決策樹ID3算法提出的改進算法,它以信息增益率代替ID3算法的信息增益量作為屬性的選擇標準,劃分時以信息增益率最大的屬性作為分裂節(jié)點,克服了ID3算法偏向選擇屬性取值多的屬性等缺點,并且能離散化處理連續(xù)屬性。

        假定S為旅客行為數(shù)據(jù)訓練樣本集,有n個類別Xi(i=1,……,n),pi為訓練集S中的樣本屬于Xi的概率,選擇屬性A作為分裂節(jié)點,屬性A根據(jù)訓練數(shù)據(jù)集測試有m個不同的輸出,并將S劃分為m個子集Sj(j=1,2,…m)。則其信息增益率用公式表示為

        (1)

        其中,SplitHA(S)為將信息增益規(guī)范化的分裂信息,用公式表示為

        (2)

        Gain(A)為信息增益,用公式表示為

        Gain(A)=H(S)-HA(S)

        (3)

        上式中:H(S)為S的熵,即訓練集S中,分類所需的期望信息;HA(S)是將S劃分為m個子集Sj(j=1,2,…,m)后,訓練集再分類所需的信息量。

        C4.5算法會通過剪枝避免過度擬合數(shù)據(jù)和生成的樹過于龐大,剪枝后的決策樹復雜度低,分類速度也更快。

        3 基于C4.5算法的旅客價值細分建模

        3.1 運算平臺和數(shù)據(jù)準備

        本文采用的分析工具為Weka3.6,它是一種非商業(yè)化的基于Java語言的開源機器學習和數(shù)據(jù)挖掘軟件,利用該平臺可實現(xiàn)決策樹、樸素貝葉斯、支持向量機等多種分類方法。實驗平臺為一臺普通的PC機,運行Windows7系統(tǒng),處理器為Intel(R) Core(TM)i5-3210M CPU, 頻率為2.5GHZ,運行內存2GB。數(shù)據(jù)來源為對國內某大型機場航站樓旅客調查問卷,在對原始數(shù)據(jù)集進行數(shù)據(jù)清理、數(shù)據(jù)變換后,得到有效樣本3244個。為了減少非必要屬性為分類結果的影響,提高機器學習算法的性能,降低決策樹的復雜度,首先利用Weka軟件Preprocess選項中的Attribute Selection進行分類器特征篩選(evaluator選擇 Information Gain Attribute Eval,search 為Ranker,搜索參數(shù)為默認值),根據(jù)信息增益值排序后選取年收入(Annual income)、地面交通方式(Traffic)、是否常旅客(FQT)、購買途徑(Purchase)、是否現(xiàn)金支付(Cash)、購票提前時間(Time)、旅客等級(Rank) 7個旅客特征作為研究類別,旅客數(shù)據(jù)統(tǒng)計如表1所示。

        表1 旅客數(shù)據(jù)統(tǒng)計表

        在旅客特征中,購票提前時間是連續(xù)屬性,其它類別均為離散屬性。年收入分為≤5萬、5~10萬、≥10萬三類,常旅客和現(xiàn)金支付均分為是(Y)、否(N)兩類,購買途徑分為直銷(Direct)和代理(Agency)兩類,直銷包括航空公司的網站、售票處和電話銷售,代理包括代理商網站、售票處和電話銷售,旅客地面交通方式分為私家車(Car)、公交/地鐵(Bus)、出租車(Taxi)三種類。旅客細分的目標類別為旅客等級,其分為價值旅客(VIP)、普通旅客(COM)兩類,價值旅客是指機票為頭等艙、公務艙和8折以上經濟艙的旅客,其它機票類型旅客為普通旅客。

        3.2 模型構建

        用決策樹C4.5算法對旅客價值細分建模的思想是:

        (1)對訓練集進行訓練:假設S為旅客行為數(shù)據(jù)訓練集,把gainration(A)最大的值作為分裂節(jié)點,按此標準把S分為m個子集,如果第j個子集Sj具有同樣的類別,那么該節(jié)點就會停止分裂并成為C4.5決策樹的葉子結點,采用同樣的方法對于不滿足條件的其它子集依次遞歸構建樹,直到所有的子集所含的元組都屬于一個類別。

        (2)決策樹剪枝:采用后剪枝方法對生成的初始決策樹剪枝,在剪枝過程中采用悲觀估計彌補生成決策樹時的樂觀偏差。

        (3)根據(jù)決策樹根節(jié)點到樹葉的每一條路徑提取的分類規(guī)則,形成旅客價值細分規(guī)則集,將規(guī)則集提供給用戶,把用戶可行的細分規(guī)則存入數(shù)據(jù)庫,結合需要指導旅客細分工作。

        對數(shù)據(jù)集進行訓練時,為了降低樹的尺寸并獲得較高的準備率,通過對算法的驗證和評價,對confidence Factor (剪枝過程中的置信因子,值越小剪枝越多,默認值為0.25) 取0.1,其它的參數(shù)均取默認值,最后得到的決策樹如圖1。

        圖1 旅客價值細分決策樹

        3.3結果評價

        決策樹是C4.5算法對數(shù)據(jù)歸納分析后得到的執(zhí)行結果,對生成決策樹的評估和分析直接關系到決策樹分類的價值。對選定的分類器測試主要有三種測試模式:

        一是根據(jù)用來訓練的實例的效果來評價;

        二是將數(shù)據(jù)集取出一定的百分比用來測試,根據(jù)這些實例的效果對結果進行評價;

        三是采用K-折交叉驗證的方法,將數(shù)據(jù)集分為K個樣本,取K-1樣本為訓練集,余下的一份為驗證集,交叉驗證重復K次,根據(jù)K次驗證結果對結果進行評價?;跇颖緮?shù)量和三種模式的評價效果,本文采用的測試方法是十折交叉驗證,結果顯示,總體的分類準確率較高,具體的分類結果見表2。

        從旅客價值細分決策樹中可以看出:旅客所選擇的第一個選擇屬性是購票提前時間,說明購票提前時間早是價值旅客的第一個主要特征,這與購票時間越晚機票價格越高的平常經驗相吻合。其后的主要特征有年收入、是否常旅客等,在高收入人群中購票提前時間≤7天的旅客最可能是價值旅客,在中低收入人群中,旅客是否為價值旅客的主要影響特征為是否為常旅客,是航空公司常旅客的客戶最有可能是航空公司的價值客戶,這也從側面反映出航空公司把常旅客群體作為營銷的重點的必要性。

        從決策樹中還可以看出,中高收入群體中價值旅客驗證正確率更高,低收入旅客群體為航空公司價值旅客的比例較小。在得到分類效果良好的決策樹模型之后,找出價值旅客的顯著特征,航空公司可以根據(jù)該分類模型預測價值客戶比例較高的旅客群體,并對該群體進行針對性營銷,以提升營銷效果,減少營銷資源的浪費。

        4 與其它分類算法的比較

        在分類模型的評價指標中,常用準確率、召回率、精確度三個指標識別分類結果,準確率反映了正確預測的樣本數(shù)在預測樣本總數(shù)中的比例,精確率反映了被分類器判定的正例中真正的正例樣本的比重,召回率反映了被正確判定的正例占總的正例的比重,其中準確率是應用最為廣泛的指標,代表了分類器對全體樣本的判定能力[9-10]。限于收集的樣本數(shù)量,如果把樣本按比例訓練和測試,結果可能具有一定的偶然性,因此本文均采用十折交叉驗證對各類算法進行評價。根據(jù)旅客行為特征統(tǒng)計數(shù)據(jù)利用五種常用的分類算法分別建模,得到和C4.5算法的對比結果如表3所示。

        表2 C4.5決策樹分類結果

        表3 五種分類算法實驗結果比較

        由表3可知,在5種常用的分類算法中,C4.5算法的分類準確率、召回率、精確率都是最高的,在建模時間上雖低于樸素貝葉斯分類法和K最近鄰分類法,但仍具有較快的分類速度。綜合各方面考慮,C4.5算法在旅客價值細分上具有相對理想的分類效果。

        5 結語

        為了應對行業(yè)內外的市場競爭,數(shù)據(jù)挖掘在航空公司市場營銷中發(fā)揮著越來越重要的作用。本文在對機場旅客調查數(shù)據(jù)分析的基礎上,通過決策樹C4.5算法對民航旅客進行價值細分,采用十折交叉驗證對生成的決策樹進行驗證,結果顯示決策樹C4.5算法分類正確率達85.2343%,在與常用的分類方法綜合對比分析后,表明利用C4.5算法進行旅客價值細分具有較好的分類效果。對決策樹的分析可以得出,提前購票時間短、年收入高是航空公司價值客戶的主要特征,其后涉及到的主要特征是是否常旅客、地面交通方式等,在中低收入旅客群體中,常旅客群體更易是航空公司的價值旅客,在營銷中應重點關注。

        [1] 周虹,許俐.自組織人工神經網絡在民航旅客盈利能力細分中應用[J].交通運輸工程學報, 2003, 3(4): 78-81.

        [2] 諶波, A航空公司常旅客計劃研究[D].成都:電子科技大學, 2007.

        [3] 演克武,張磊,孫強. 決策樹分類法中ID3算法在航空市場客戶價值細分中的應用[J].商業(yè)研究, 2008, (3): 24-29.

        [4] Liu Jiale,Du Huiying.Study on Airline Customer Value Evaluation Based on RFM Model[C]//Proc. of the 2010 International Conference on Computer Design and Applications.S. I: IEEE Press,2010:278-281.

        [5] 潘玲玲.基于旅客行為的航空旅客細分模型研究及其實現(xiàn)[D].南京:南京航空航天大學, 2011.

        [6] 朱津川.細分客源, 把握國航在成都航空市場的利潤點[J].江蘇航空, 2007(4): 17-19.

        [7] 程克非, 程蕾, 黃永東.基于J48決策樹算法的水質評價方法[J].計算機工程, 2012, 38(11): 264-267.

        [8] Quinlan J R. C4.5:Programs for Machine Learning[M].San Mateo: Morgan Kaufman Publisher, 1993:17-42.

        [9] 張宏莉, 魯剛.分類不平衡協(xié)議流的機器學習算法評估與比較[J].軟件學報, 2012,23(6): 1500-1516.

        [10] 徐鵬,林森.基于C4.5決策樹的流量分類方法[J].軟件學報, 2009, 20(10): 2692-2704.

        猜你喜歡
        剪枝細分決策樹
        人到晚年宜“剪枝”
        基于YOLOv4-Tiny模型剪枝算法
        深耕環(huán)保細分領域,維爾利為環(huán)保注入新動力
        華人時刊(2020年23期)2020-04-13 06:04:12
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機森林方法在管理決策中的應用
        電子制作(2018年16期)2018-09-26 03:27:06
        剪枝
        天津詩人(2017年2期)2017-03-16 03:09:39
        基于決策樹的出租車乘客出行目的識別
        1~7月,我國貨車各細分市場均有增長
        專用汽車(2016年9期)2016-03-01 04:17:02
        整體低迷難掩細分市場亮點
        專用汽車(2015年2期)2015-03-01 04:05:42
        基于肺癌CT的決策樹模型在肺癌診斷中的應用
        日韩一卡2卡3卡4卡新区亚洲| 特级黄色大片性久久久| 五月开心婷婷六月综合| 成人性生交大片免费| 高清在线亚洲中文精品视频| 国产女主播强伦视频网站| 狂插美女流出白浆视频在线观看| 日韩日韩日韩日韩日韩日韩| 小sao货水好多真紧h视频| 亚洲欧洲日产国码久在线| 国内偷拍精品一区二区| 国产乱人对白| 丰满人妻妇伦又伦精品国产| 波多吉野一区二区三区av| av狼人婷婷久久亚洲综合| 国产91在线精品观看| 亚洲国产精品无码久久一区二区 | 国模无码视频专区一区| 亚洲一区二区三区精品久久| 老鸭窝视频在线观看| 亚洲中文字幕无码久久| 国产一区二区三区4区| 精品婷婷国产综合久久| 亚洲精品国产精品国自产| 国产精品一区二区久久精品| 国产av91在线播放| 后入丝袜美腿在线观看| 国产高潮刺激叫喊视频| 性一交一乱一伦一视频一二三区| 久久久精品少妇—二区| 曰韩无码无遮挡a级毛片| 亚洲国产成人精品无码区在线观看 | 国产成人综合亚洲精品| 天堂AV无码AV毛片毛| 亚洲国产免费不卡视频| 国产网红主播无码精品| 精品乱子伦一区二区三区| 成人亚洲av网站在线看| 初尝人妻少妇中文字幕| 欧美做受视频播放| 在线一区二区三区免费视频观看 |