張勁松,江 波
(1. 中國民用航空飛行學院 空中交通管理學院,四川 廣漢 618307;2.中國民用航空飛行學院 研究生處,四川 廣漢 618307)
近年來,我國民航業(yè)發(fā)展迅速,面臨的市場競爭也越發(fā)激烈,尤其是隨著高鐵的開通和運營,民航運輸受到了巨大沖擊。為了應對行業(yè)內外的競爭,航空公司除了采取降低票價、完善管理等手段外,加強市場細分,對不同航線市場進行針對性的營銷,也逐漸成為了航空公司的關注重點。在眾多的市場細分標準中,以客戶盈利能力為主要依據(jù)的客戶價值細分,體現(xiàn)了以客戶價值為中心的差異化營銷思想,有助于企業(yè)營銷資源的優(yōu)化、價值客戶的保持和利潤的最大化,因此,客戶價值細分在金融、電信等行業(yè)得到了大量應用。
目前,關于旅客價值的市場細分在民航領域已有研究,但仍處于起步階段:周虹等人[1]利用自組織神經網絡,對旅客進行盈利能力細分,但其把累計票價花費作為價值旅客標準的正確性有待考量,如一個經常購買打折機票的旅客,雖然票價花費較多,但其對公司的價值卻低于購買高價票的商務旅客[2];演克武等人[3]利用決策樹ID3算法對民航旅客進行價值細分,但ID3算法無法處理連續(xù)性的數(shù)值,當旅客的行為屬性較多時,決策樹的生成效果就會不好;Liu Jiale, Du Huiying[4]在AHP確定權重的基礎上建立RFM模型,并對民航旅客價值細分,但該方法考慮的旅客的行為特征較少,并且利用AHP確定權重對主觀經驗的依賴較重,容易受到研究者主觀看法的影響。因此,本文在前人研究的基礎上,擬采用決策樹C4.5算法對民航旅客進行價值細分,以挖掘出購買航空公司公務艙、頭等艙和高折扣經濟艙機票的那部分為公司創(chuàng)造高價值的旅客的行為特征[5-6],為航空公司提升營銷效果,優(yōu)化旅客管理提供參考。
決策樹方法的本質是貪心算法,它從一個無一定規(guī)則的實例集中通過一個由上到下、分而治之的過程歸納出一組利用樹形結構表示的分類規(guī)則,決策樹算法在眾多的分類方法中以其分類準確率高、規(guī)則提取簡單、可以顯示重要的決策屬性而在各行業(yè)中廣泛應用[7]。
在民航旅客價值細分中,由于各旅客行為屬性的重要程度存在差異,利用決策樹歸納分析,可以體現(xiàn)各旅客行為屬性的重要程度,可更直觀的了解價值旅客的重點特征。
決策樹C4.5算法是Quinlan[8]在1993年針對決策樹ID3算法提出的改進算法,它以信息增益率代替ID3算法的信息增益量作為屬性的選擇標準,劃分時以信息增益率最大的屬性作為分裂節(jié)點,克服了ID3算法偏向選擇屬性取值多的屬性等缺點,并且能離散化處理連續(xù)屬性。
假定S為旅客行為數(shù)據(jù)訓練樣本集,有n個類別Xi(i=1,……,n),pi為訓練集S中的樣本屬于Xi的概率,選擇屬性A作為分裂節(jié)點,屬性A根據(jù)訓練數(shù)據(jù)集測試有m個不同的輸出,并將S劃分為m個子集Sj(j=1,2,…m)。則其信息增益率用公式表示為
(1)
其中,SplitHA(S)為將信息增益規(guī)范化的分裂信息,用公式表示為
(2)
Gain(A)為信息增益,用公式表示為
Gain(A)=H(S)-HA(S)
(3)
上式中:H(S)為S的熵,即訓練集S中,分類所需的期望信息;HA(S)是將S劃分為m個子集Sj(j=1,2,…,m)后,訓練集再分類所需的信息量。
C4.5算法會通過剪枝避免過度擬合數(shù)據(jù)和生成的樹過于龐大,剪枝后的決策樹復雜度低,分類速度也更快。
本文采用的分析工具為Weka3.6,它是一種非商業(yè)化的基于Java語言的開源機器學習和數(shù)據(jù)挖掘軟件,利用該平臺可實現(xiàn)決策樹、樸素貝葉斯、支持向量機等多種分類方法。實驗平臺為一臺普通的PC機,運行Windows7系統(tǒng),處理器為Intel(R) Core(TM)i5-3210M CPU, 頻率為2.5GHZ,運行內存2GB。數(shù)據(jù)來源為對國內某大型機場航站樓旅客調查問卷,在對原始數(shù)據(jù)集進行數(shù)據(jù)清理、數(shù)據(jù)變換后,得到有效樣本3244個。為了減少非必要屬性為分類結果的影響,提高機器學習算法的性能,降低決策樹的復雜度,首先利用Weka軟件Preprocess選項中的Attribute Selection進行分類器特征篩選(evaluator選擇 Information Gain Attribute Eval,search 為Ranker,搜索參數(shù)為默認值),根據(jù)信息增益值排序后選取年收入(Annual income)、地面交通方式(Traffic)、是否常旅客(FQT)、購買途徑(Purchase)、是否現(xiàn)金支付(Cash)、購票提前時間(Time)、旅客等級(Rank) 7個旅客特征作為研究類別,旅客數(shù)據(jù)統(tǒng)計如表1所示。
表1 旅客數(shù)據(jù)統(tǒng)計表
在旅客特征中,購票提前時間是連續(xù)屬性,其它類別均為離散屬性。年收入分為≤5萬、5~10萬、≥10萬三類,常旅客和現(xiàn)金支付均分為是(Y)、否(N)兩類,購買途徑分為直銷(Direct)和代理(Agency)兩類,直銷包括航空公司的網站、售票處和電話銷售,代理包括代理商網站、售票處和電話銷售,旅客地面交通方式分為私家車(Car)、公交/地鐵(Bus)、出租車(Taxi)三種類。旅客細分的目標類別為旅客等級,其分為價值旅客(VIP)、普通旅客(COM)兩類,價值旅客是指機票為頭等艙、公務艙和8折以上經濟艙的旅客,其它機票類型旅客為普通旅客。
用決策樹C4.5算法對旅客價值細分建模的思想是:
(1)對訓練集進行訓練:假設S為旅客行為數(shù)據(jù)訓練集,把gainration(A)最大的值作為分裂節(jié)點,按此標準把S分為m個子集,如果第j個子集Sj具有同樣的類別,那么該節(jié)點就會停止分裂并成為C4.5決策樹的葉子結點,采用同樣的方法對于不滿足條件的其它子集依次遞歸構建樹,直到所有的子集所含的元組都屬于一個類別。
(2)決策樹剪枝:采用后剪枝方法對生成的初始決策樹剪枝,在剪枝過程中采用悲觀估計彌補生成決策樹時的樂觀偏差。
(3)根據(jù)決策樹根節(jié)點到樹葉的每一條路徑提取的分類規(guī)則,形成旅客價值細分規(guī)則集,將規(guī)則集提供給用戶,把用戶可行的細分規(guī)則存入數(shù)據(jù)庫,結合需要指導旅客細分工作。
對數(shù)據(jù)集進行訓練時,為了降低樹的尺寸并獲得較高的準備率,通過對算法的驗證和評價,對confidence Factor (剪枝過程中的置信因子,值越小剪枝越多,默認值為0.25) 取0.1,其它的參數(shù)均取默認值,最后得到的決策樹如圖1。
圖1 旅客價值細分決策樹
3.3結果評價
決策樹是C4.5算法對數(shù)據(jù)歸納分析后得到的執(zhí)行結果,對生成決策樹的評估和分析直接關系到決策樹分類的價值。對選定的分類器測試主要有三種測試模式:
一是根據(jù)用來訓練的實例的效果來評價;
二是將數(shù)據(jù)集取出一定的百分比用來測試,根據(jù)這些實例的效果對結果進行評價;
三是采用K-折交叉驗證的方法,將數(shù)據(jù)集分為K個樣本,取K-1樣本為訓練集,余下的一份為驗證集,交叉驗證重復K次,根據(jù)K次驗證結果對結果進行評價?;跇颖緮?shù)量和三種模式的評價效果,本文采用的測試方法是十折交叉驗證,結果顯示,總體的分類準確率較高,具體的分類結果見表2。
從旅客價值細分決策樹中可以看出:旅客所選擇的第一個選擇屬性是購票提前時間,說明購票提前時間早是價值旅客的第一個主要特征,這與購票時間越晚機票價格越高的平常經驗相吻合。其后的主要特征有年收入、是否常旅客等,在高收入人群中購票提前時間≤7天的旅客最可能是價值旅客,在中低收入人群中,旅客是否為價值旅客的主要影響特征為是否為常旅客,是航空公司常旅客的客戶最有可能是航空公司的價值客戶,這也從側面反映出航空公司把常旅客群體作為營銷的重點的必要性。
從決策樹中還可以看出,中高收入群體中價值旅客驗證正確率更高,低收入旅客群體為航空公司價值旅客的比例較小。在得到分類效果良好的決策樹模型之后,找出價值旅客的顯著特征,航空公司可以根據(jù)該分類模型預測價值客戶比例較高的旅客群體,并對該群體進行針對性營銷,以提升營銷效果,減少營銷資源的浪費。
在分類模型的評價指標中,常用準確率、召回率、精確度三個指標識別分類結果,準確率反映了正確預測的樣本數(shù)在預測樣本總數(shù)中的比例,精確率反映了被分類器判定的正例中真正的正例樣本的比重,召回率反映了被正確判定的正例占總的正例的比重,其中準確率是應用最為廣泛的指標,代表了分類器對全體樣本的判定能力[9-10]。限于收集的樣本數(shù)量,如果把樣本按比例訓練和測試,結果可能具有一定的偶然性,因此本文均采用十折交叉驗證對各類算法進行評價。根據(jù)旅客行為特征統(tǒng)計數(shù)據(jù)利用五種常用的分類算法分別建模,得到和C4.5算法的對比結果如表3所示。
表2 C4.5決策樹分類結果
表3 五種分類算法實驗結果比較
由表3可知,在5種常用的分類算法中,C4.5算法的分類準確率、召回率、精確率都是最高的,在建模時間上雖低于樸素貝葉斯分類法和K最近鄰分類法,但仍具有較快的分類速度。綜合各方面考慮,C4.5算法在旅客價值細分上具有相對理想的分類效果。
為了應對行業(yè)內外的市場競爭,數(shù)據(jù)挖掘在航空公司市場營銷中發(fā)揮著越來越重要的作用。本文在對機場旅客調查數(shù)據(jù)分析的基礎上,通過決策樹C4.5算法對民航旅客進行價值細分,采用十折交叉驗證對生成的決策樹進行驗證,結果顯示決策樹C4.5算法分類正確率達85.2343%,在與常用的分類方法綜合對比分析后,表明利用C4.5算法進行旅客價值細分具有較好的分類效果。對決策樹的分析可以得出,提前購票時間短、年收入高是航空公司價值客戶的主要特征,其后涉及到的主要特征是是否常旅客、地面交通方式等,在中低收入旅客群體中,常旅客群體更易是航空公司的價值旅客,在營銷中應重點關注。
[1] 周虹,許俐.自組織人工神經網絡在民航旅客盈利能力細分中應用[J].交通運輸工程學報, 2003, 3(4): 78-81.
[2] 諶波, A航空公司常旅客計劃研究[D].成都:電子科技大學, 2007.
[3] 演克武,張磊,孫強. 決策樹分類法中ID3算法在航空市場客戶價值細分中的應用[J].商業(yè)研究, 2008, (3): 24-29.
[4] Liu Jiale,Du Huiying.Study on Airline Customer Value Evaluation Based on RFM Model[C]//Proc. of the 2010 International Conference on Computer Design and Applications.S. I: IEEE Press,2010:278-281.
[5] 潘玲玲.基于旅客行為的航空旅客細分模型研究及其實現(xiàn)[D].南京:南京航空航天大學, 2011.
[6] 朱津川.細分客源, 把握國航在成都航空市場的利潤點[J].江蘇航空, 2007(4): 17-19.
[7] 程克非, 程蕾, 黃永東.基于J48決策樹算法的水質評價方法[J].計算機工程, 2012, 38(11): 264-267.
[8] Quinlan J R. C4.5:Programs for Machine Learning[M].San Mateo: Morgan Kaufman Publisher, 1993:17-42.
[9] 張宏莉, 魯剛.分類不平衡協(xié)議流的機器學習算法評估與比較[J].軟件學報, 2012,23(6): 1500-1516.
[10] 徐鵬,林森.基于C4.5決策樹的流量分類方法[J].軟件學報, 2009, 20(10): 2692-2704.