姚雨虹,楊小兵
(中國(guó)計(jì)量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)
隨著信息社會(huì)的蓬勃發(fā)展,人們的出行需求隨之增加,從而給航空業(yè)帶來(lái)了很多機(jī)遇。乘機(jī)需求的增加也給航空業(yè)帶來(lái)了弊端。面對(duì)不同的區(qū)域多樣化的市場(chǎng)需求,各個(gè)航空公司面臨巨大的競(jìng)爭(zhēng)壓力,航空公司所產(chǎn)生的客戶數(shù)據(jù)是非常多的。工作人員無(wú)法從海量的數(shù)據(jù)中快速定位新的客戶類別,不能及時(shí)識(shí)別高價(jià)值客戶和潛在有價(jià)值的客戶。此時(shí)急需新的數(shù)據(jù)處理技術(shù)定位精準(zhǔn)的客戶,以保持行業(yè)競(jìng)爭(zhēng)的優(yōu)勢(shì)。
在眾多客戶關(guān)系管理的模型分析中,RFM模型分析是比較受歡迎的分析方法。Arthur Hughes研究所在1994年提出RFM模型,其中R、F、M分別表示為近度(Recency)、頻率(Frequency)、金額(Monetary)3個(gè)變量[1]。R表示用戶在最近的一次購(gòu)買時(shí)間,時(shí)間越近,該用戶也越可能有反應(yīng)購(gòu)買去產(chǎn)品或體驗(yàn)服務(wù)。F表示用戶在一段時(shí)間內(nèi)的購(gòu)買次數(shù),次數(shù)越多,該用戶也越可能有反應(yīng)購(gòu)買去產(chǎn)品或體驗(yàn)服務(wù)。M表示一段時(shí)間內(nèi)用戶購(gòu)買的金額,金額越大,對(duì)企業(yè)帶來(lái)的利益也越大。
孫瑛等[2]使用RFM模型建立了客戶價(jià)值計(jì)量模型。楊彬?qū)崿F(xiàn)了雙階段客戶關(guān)聯(lián)分類[3],包志強(qiáng)等[4]建立RFA模型,對(duì)百度外賣客戶進(jìn)行細(xì)分;曾小青改進(jìn)RFM指標(biāo),建立多指標(biāo)客戶細(xì)分模型[5]。國(guó)外研究有BAECKE等[6]運(yùn)用RFM模型在短時(shí)間內(nèi)提高公司利潤(rùn);DURSUNA[7]運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)酒店客戶進(jìn)行客戶價(jià)值評(píng)估,并提出針對(duì)RFM指標(biāo)進(jìn)行改進(jìn)。因?yàn)樵趥鹘y(tǒng)的RFM模型中,F(xiàn)和M之間存在強(qiáng)線性關(guān)系,在航空業(yè)中,相同的消費(fèi)金額(M)的不同客戶對(duì)航空業(yè)的價(jià)值也是不同的,且RFM模型的特征只有3維,所以傳統(tǒng)的RFM模型對(duì)航空業(yè)不能達(dá)到理想的效果,會(huì)影響最終客戶價(jià)值預(yù)測(cè)的準(zhǔn)確性。權(quán)明富等[8]從客戶全生命周期的角度出發(fā),開發(fā)出一套最終客戶價(jià)值評(píng)估指標(biāo)體系,即從客戶當(dāng)前價(jià)值和潛在價(jià)值角度,劃分出不同的客戶類別。本文在RFM模型的基礎(chǔ)上提出了多維度全面性的航空公司客戶預(yù)測(cè)價(jià)值的指標(biāo)體系。
在分類算法方面,隨機(jī)森林算法的預(yù)測(cè)準(zhǔn)確率較高,在各個(gè)領(lǐng)域應(yīng)用廣泛。在醫(yī)學(xué)領(lǐng)域,楊云等研究隨機(jī)森林算法提高胎兒先天性心臟病診斷質(zhì)量的方法[9],ZOLBANIN等[10]在考慮并發(fā)癌癥的情況下,運(yùn)用隨機(jī)森林基礎(chǔ)算法提高預(yù)測(cè)準(zhǔn)確性;王斌等[11]研究在預(yù)測(cè)重癥手足口病具有較大的價(jià)值。在客戶管理領(lǐng)域,丁君美等[12]改進(jìn)隨機(jī)森林算法將其應(yīng)用于電信業(yè)客戶流失預(yù)測(cè)中,于曉紅等[13]將隨機(jī)森林算法運(yùn)用在P2P網(wǎng)貸信用風(fēng)險(xiǎn)樣本中。在服務(wù)業(yè)領(lǐng)域,隨機(jī)森林算法應(yīng)用也廣泛,楊森彬[14]將隨機(jī)森林算法與線性回歸算法結(jié)合,預(yù)測(cè)餐飲客流量,提高預(yù)測(cè)準(zhǔn)確率。
近些年來(lái),相當(dāng)多數(shù)量的學(xué)者在航空領(lǐng)域進(jìn)行了研究,但是存在模型單一、數(shù)據(jù)清洗方式粗暴、預(yù)測(cè)性能較低等問(wèn)題。傳統(tǒng)的客戶價(jià)值評(píng)估模型針對(duì)數(shù)據(jù)預(yù)處理方面的研究較少,F(xiàn)arshidAbdi等[15]在保險(xiǎn)行業(yè)運(yùn)用LOF算法對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗以提高分類準(zhǔn)確性。本文在數(shù)據(jù)清洗方面進(jìn)行改進(jìn),提出采用KNN算法、LOF算法、孤立森林算法等多種數(shù)據(jù)清洗方法得到多個(gè)數(shù)據(jù)集。為提高預(yù)測(cè)模型的準(zhǔn)確性,本文又在指標(biāo)權(quán)重方面有所改進(jìn),從某航空公司客戶全生命周期維度出發(fā),選擇合適的當(dāng)前價(jià)值指標(biāo)和潛在價(jià)值指標(biāo),多重迭代指標(biāo)權(quán)重改變其指標(biāo)權(quán)重,采用DBSCAN算法對(duì)客戶進(jìn)行聚類,分為價(jià)值不同的5個(gè)類別。最后階段將隨機(jī)森林算法應(yīng)用到客戶等級(jí)預(yù)測(cè)中,根據(jù)隨機(jī)森林預(yù)測(cè)性能作為最終評(píng)價(jià)指標(biāo),確定最終選擇數(shù)據(jù)集對(duì)應(yīng)的數(shù)據(jù)清洗方法和對(duì)應(yīng)的指標(biāo)權(quán)重,構(gòu)建最終預(yù)測(cè)客戶等級(jí)的評(píng)估模型。根據(jù)準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、ROC曲線等性能評(píng)價(jià)方法,與傳統(tǒng)模型進(jìn)行對(duì)比,體現(xiàn)出本文預(yù)測(cè)模型的優(yōu)勢(shì)。
1.1.1 K-近鄰(KNN)缺失值處理
KNN缺失值處理,先利用KNN算法計(jì)算缺失值臨近的K個(gè)數(shù)據(jù),缺失值的值為選擇的臨近K個(gè)數(shù)據(jù)的均值。
1.1.2 局部異常因子算法(LOF算法)
LOF算法是基于密度的的經(jīng)典算法,其最主要的地方是關(guān)于數(shù)據(jù)點(diǎn)密度的刻畫。其算法的本質(zhì)是檢測(cè)一個(gè)數(shù)據(jù)點(diǎn)的異常程度并不能看它的絕對(duì)局部密度,而是看它與周圍鄰近點(diǎn)的相對(duì)密度。
整個(gè)算法涉及到4個(gè)概念,K-近鄰距離是指在距離數(shù)據(jù)點(diǎn)x最近的幾個(gè)點(diǎn)中,第K個(gè)最近的點(diǎn)與x之間的距離。
x(k)表示的是訓(xùn)練樣本x(i)中距離x第k近的樣本。從x到x′可達(dá)距離是指從x到的直線距離為||x-x′||。若x′比x(k)距離x更近,那么可達(dá)距離為||x-x(k)||,對(duì)應(yīng)的公式為
RDk(x,x′)=max(||x-x(k)||,||x-x′||)。
(1)
局部可達(dá)密度是指從x(i)到x的可達(dá)距離平均值的倒數(shù),對(duì)應(yīng)的公式為
(2)
LOFk(x)是x(i)的局部可達(dá)密度的平均值與x的局部密度的比。LOF(x)的值與x成正比關(guān)系,LOF(x)越大,x的異常度也會(huì)隨之變大。當(dāng)x(i)周圍的密度比較高而x周圍的密度比較低,則局部異常因子就會(huì)比較大,這時(shí)x會(huì)被當(dāng)作異常值處理。對(duì)應(yīng)的公式為
(3)
1.1.3 孤立森林(IsolationForest)算法
孤立森林是一個(gè)基于Ensemble的快速異常檢測(cè)方法,該算法的目的是從所有數(shù)據(jù)中尋找異常值,具有較高的精確度。
1)首先從所有數(shù)據(jù)中隨機(jī)選擇m個(gè)點(diǎn)作為根節(jié)點(diǎn);2)再隨機(jī)指定一個(gè)屬性,在當(dāng)前節(jié)點(diǎn)中隨機(jī)生成該屬性的一個(gè)閾值p;3)以點(diǎn)p生成一個(gè)超平面,當(dāng)數(shù)值的屬性值大于閾值,則將該數(shù)值劃分到超平面的右側(cè),反之將數(shù)值劃分到超平面的左側(cè);4)重復(fù)以上步驟,當(dāng)孩子節(jié)點(diǎn)達(dá)到限定高度或者孩子節(jié)點(diǎn)只有一個(gè)數(shù)據(jù)則停止劃分。
生成t顆iTree樹組合成孤立森林,對(duì)于數(shù)量x,首先遍歷每一顆iTree,計(jì)算x最終落在每一顆iTree的樹的高度,最后用每顆樹的高度平均值來(lái)判斷該數(shù)據(jù)是否異常,低于每個(gè)數(shù)值的高度平均值的數(shù)值為異常值。
具有噪聲的基于密度的聚類方法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)是基于密度的聚類算法,與文獻(xiàn)[16]采用的K-Means算法相比,DBSCAN算法對(duì)初始值不敏感,不容易陷于局部最優(yōu),不用輸入類別K,不僅僅局限于處理凸樣本集,還可發(fā)現(xiàn)任意形狀的聚類簇。DBSCAN算法主要步驟如下:
1)判斷輸入對(duì)象是否為核心對(duì)象;
2)找出核心對(duì)象的E領(lǐng)域內(nèi)所有的密度可達(dá)點(diǎn);
3)所有的輸入對(duì)象都判斷完成;
4)重復(fù)①至③步驟,直到所有核心對(duì)象的E領(lǐng)域內(nèi)所有密度可達(dá)點(diǎn)都找到最大密度相連對(duì)象集合;
5)所有的核心對(duì)象的E領(lǐng)域都遍歷完成。
隨機(jī)森林(Random Forest)算法是決策樹預(yù)測(cè)器的組合,每棵樹的生成都依賴于一個(gè)獨(dú)立采樣的隨機(jī)向量值,這些隨機(jī)向量具有相同的分布,每棵樹獨(dú)立運(yùn)算得到分類結(jié)果,然后投票得到最后的分類結(jié)果。
隨機(jī)森林的主要步驟是:1)從樣本集中用Bootstrap策略隨機(jī)抽取n個(gè)樣本;2)從所有的屬性中隨機(jī)抽取K個(gè)屬性,并通過(guò)計(jì)算每個(gè)節(jié)點(diǎn)的信息增益(或者基尼不純度),選擇每個(gè)節(jié)點(diǎn)的最優(yōu)屬性作為最佳節(jié)點(diǎn);3)重復(fù)以上步驟建立m顆決策樹組成隨機(jī)森林;4)生成的m顆決策樹對(duì)其數(shù)據(jù)進(jìn)行分類,然后通過(guò)投票的方式?jīng)Q定數(shù)據(jù)所屬的類別。
本文數(shù)據(jù)為某航空公司2015-04-01至2017-03-31的客戶信息,數(shù)據(jù)集有44維特征和62 988個(gè)數(shù)據(jù),但是并不是所有的變量和數(shù)據(jù)都用于此研究。通過(guò)總結(jié)航空公司的客戶消費(fèi)屬性,結(jié)合前人研究的結(jié)果,在文獻(xiàn)[16]選擇5個(gè)指標(biāo)的基礎(chǔ)上(L-客戶關(guān)系,R-消費(fèi)時(shí)間間隔,F(xiàn)-飛行次數(shù),M-飛行總里程數(shù),C-飛行折扣率),構(gòu)建適用于航空公司的預(yù)測(cè)客戶等級(jí)模型,將當(dāng)前價(jià)值和潛在價(jià)值作為客戶價(jià)值衡量的兩個(gè)要素(當(dāng)前價(jià)值即為客戶本身的消費(fèi)為航空公司帶來(lái)的當(dāng)前利潤(rùn),潛在價(jià)值是對(duì)未來(lái)的預(yù)期,客戶將來(lái)給航空公司帶來(lái)的利潤(rùn))大致可以分為7個(gè)變量。其中類別編號(hào)為D、R、F為當(dāng)前價(jià)值,類別編號(hào)為L(zhǎng)、P、G、A為潛在價(jià)值??蛻粝M(fèi)能力變量是指客戶平均消費(fèi)金額,平均消費(fèi)金額越高說(shuō)明該客戶給航空公司帶來(lái)的利潤(rùn)越高,如表1。
表1 價(jià)值指標(biāo)選擇Table 1 Value indicator selection
實(shí)際選取的數(shù)據(jù)源可能因?yàn)閿?shù)據(jù)采樣的失誤、樣本忘記被填寫等方式造成一個(gè)值或多個(gè)值缺失。數(shù)據(jù)源也有可能因?yàn)閿?shù)據(jù)輸入錯(cuò)誤、度量方法對(duì)于某些特征不適用、抽樣異常等方式造成數(shù)據(jù)異常。所以在訓(xùn)練一個(gè)模型之前需要進(jìn)行數(shù)據(jù)清洗,通過(guò)數(shù)據(jù)清洗的方式以提高數(shù)據(jù)質(zhì)量,挖掘出有用的數(shù)據(jù)。常見的數(shù)據(jù)缺失值處理方式有刪除缺失值法、以同一指標(biāo)的計(jì)算結(jié)果(均值、中位數(shù)、眾數(shù)等)填充缺失值法、KNN算法、貝葉斯算法等。常見的數(shù)據(jù)異常值處理方式有LOF算法、孤立森林算法、刪除異常值法、以同一指標(biāo)的計(jì)算結(jié)果(均值、中位數(shù)、眾數(shù)等)填充異常值法等。
本文實(shí)驗(yàn)采用KNN算法對(duì)數(shù)據(jù)進(jìn)行缺失值處理,并使用LOF算法和孤立森林算法對(duì)每條數(shù)據(jù)進(jìn)行檢測(cè),發(fā)現(xiàn)異常值將其刪除。通過(guò)三種不同的數(shù)理清洗方式獲得三組不同的數(shù)據(jù)集。
為了提高預(yù)測(cè)模型的準(zhǔn)確性,本文針對(duì)指標(biāo)權(quán)重方面進(jìn)行改進(jìn),如圖1。改進(jìn)算法如下:
1)賦予當(dāng)前價(jià)值指標(biāo)權(quán)重0.1;
2)賦予潛在價(jià)值指標(biāo)權(quán)重0.1;
3)數(shù)據(jù)集中每個(gè)數(shù)據(jù)當(dāng)前價(jià)值指標(biāo)對(duì)應(yīng)的值乘以對(duì)應(yīng)權(quán)重,潛在價(jià)值指標(biāo)對(duì)應(yīng)的值乘以對(duì)應(yīng)的權(quán)重,形成新的數(shù)據(jù)集;
4)使用DBSCAN算法給每個(gè)數(shù)據(jù)打上類別標(biāo)簽;
5)使用隨機(jī)森林算法計(jì)算預(yù)測(cè)的準(zhǔn)確率,如果計(jì)算出的預(yù)測(cè)準(zhǔn)確率比之前的最高準(zhǔn)確率高,則該準(zhǔn)確率替換為最新的最高準(zhǔn)確率;
6)跳轉(zhuǎn)到2),重復(fù)步驟3)~5),直到潛在價(jià)值權(quán)重值為1,則跳轉(zhuǎn)到1);
7)重復(fù)步驟2)~5),直到當(dāng)前價(jià)值指標(biāo)權(quán)重為1,經(jīng)過(guò)對(duì)比得出最高準(zhǔn)確率對(duì)應(yīng)的指標(biāo)權(quán)重。
圖1 指標(biāo)加權(quán)的局部最優(yōu)預(yù)測(cè)模型Figure 1 Index-weighted local optimal prediction model
本文通過(guò)三種不同數(shù)據(jù)清洗方法生成三組不同的數(shù)據(jù)集經(jīng)過(guò)圖1的流程分別求出局部最高準(zhǔn)確率對(duì)應(yīng)的預(yù)測(cè)模型1,2,3,最后比較模型1,2,3得出最終的客戶價(jià)值預(yù)測(cè)模型。如圖2。
圖2 最終客戶價(jià)值預(yù)測(cè)模型Figure 2 Final customer value forecasting model
本文使用的分類評(píng)價(jià)標(biāo)準(zhǔn)是準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、ROC曲線面積。精確率用來(lái)評(píng)價(jià)實(shí)為某類客戶的檢測(cè)結(jié)果,如某類客戶中有多少是被實(shí)際檢測(cè)正確的;召回率是指正確被檢索的客戶占應(yīng)該被檢索到的客戶的客戶比例;準(zhǔn)確率是所有的樣本中被預(yù)測(cè)正確的樣本的比率,由精確率和召回率決定,包括了總體的準(zhǔn)確率;精確率、召回率、準(zhǔn)確率越大,說(shuō)明分類效果越好;ROC曲線的x軸為假正例率(FPR),y軸為真正例率(TPR),真正例率是指在實(shí)際為正例的樣本中,被正確判斷為正例之比率,所以真正例率越高越好,假正例率越低越好,曲線距離左上角越近證明分類器效果越好。
(4)
(5)
(6)
(7)
(8)
如式(4)~(8),其中TP為真正類,F(xiàn)P為假正類,F(xiàn)N為假負(fù)類,TN為真負(fù)類。
為了證明本文的可行性,以Inter-Core i7 2.6Ghz為硬件環(huán)境,Python3為實(shí)驗(yàn)平臺(tái),通過(guò)檢驗(yàn)變量選擇的準(zhǔn)確率、精確率、召回率和ROC曲線面積值,評(píng)估該預(yù)測(cè)客戶等級(jí)模型的性能。
本文采用DBSCAN聚類算法將客戶分為5個(gè)聚類,運(yùn)用隨機(jī)森林算法預(yù)測(cè)客戶價(jià)值等級(jí),采用客戶關(guān)系長(zhǎng)度關(guān)系、消費(fèi)時(shí)間間隔、飛行次數(shù)、飛行折扣率、客戶消費(fèi)能力、會(huì)員級(jí)別、客戶年齡作為自變量,客戶等級(jí)作為因變量,針對(duì)不同的數(shù)據(jù)集,將本文提及方法建立的模型1,2,3和文獻(xiàn)[16]方法建立的模型進(jìn)行對(duì)比,在62 988個(gè)數(shù)據(jù)中,隨機(jī)抽取7/10(44 092)作為測(cè)試集,剩下的3/10(18 896)作為驗(yàn)證集。
表2是3種數(shù)據(jù)清洗方法對(duì)應(yīng)的數(shù)據(jù)集和文獻(xiàn)[16]對(duì)應(yīng)的數(shù)據(jù)集基于隨機(jī)森林算法的預(yù)測(cè)客戶價(jià)值模型的預(yù)測(cè)結(jié)果。從表2可得,4個(gè)預(yù)測(cè)模型的精確率分別為99.665%、99.515%、99.383%、97.944%,準(zhǔn)確率分別為99.653%、99.433%、99.328%、98.361%,召回率分別為99.493%、99.311%、99.226%、97.725%,3個(gè)數(shù)值均以從大到小排序呈現(xiàn)。比較以上模型,驗(yàn)證了本實(shí)驗(yàn)設(shè)計(jì)的模型均比文獻(xiàn)[16]實(shí)驗(yàn)?zāi)P皖A(yù)測(cè)準(zhǔn)確率要高。根據(jù)表2實(shí)驗(yàn)結(jié)果所得,模型3基于隨機(jī)森林的預(yù)測(cè)準(zhǔn)確率最高,所以本文選取模型3為最終的預(yù)測(cè)模型。
表2 不同清洗方法的預(yù)測(cè)模型和文獻(xiàn)[16]模型對(duì)比Table 2 Comparison result between the prediction models for different cleaning methods and the reference model
圖3是本文實(shí)驗(yàn)建立的不同模型與文獻(xiàn)[16]實(shí)驗(yàn)?zāi)P蛯?duì)應(yīng)的ROC曲線和AUC的值,ROC曲線不會(huì)受到樣本的影響,分類效果相對(duì)穩(wěn)定。AUC是ROC曲線所圍住的面積,AUC越大,則分類效果越好。AUC為1表示為最佳的分類器,AUC為0.5是最差的分類器。從圖3可以看出本文提出的模型AUC的值更大,預(yù)測(cè)的效果更好。
圖3 不同清洗方法的預(yù)測(cè)模型和文獻(xiàn)[16]模型ROC曲線圖對(duì)比Figure 3 Comparison of ROC curve between prediction model of different cleaning methods and the reference model
綜上所得,最終客戶價(jià)值預(yù)測(cè)模型為模型3,模型3的準(zhǔn)確率、精確率、召回率、AUC比文獻(xiàn)[16]高,因此本文設(shè)計(jì)的實(shí)驗(yàn)預(yù)測(cè)效果更佳。
圖4以混淆矩陣的形式表示模型3的性能,可以直觀地描述模型3的預(yù)測(cè)性能,其中每一行顯示真實(shí)值的性能,每一列是預(yù)測(cè)值的性能。在6 508名實(shí)際為類別0客戶中,有6 493名被預(yù)測(cè)為類別0客戶,預(yù)測(cè)的精確率為99.769%;4 772名實(shí)際為類別1客戶中,有4 746名被預(yù)測(cè)為類別1客戶,預(yù)測(cè)的精確率為99.455%;4 679名實(shí)際為類別2客戶中,有4 675名被預(yù)測(cè)為類別2客戶,預(yù)測(cè)的精確率為99.915%;837名實(shí)際為類別3客戶中,有823名被預(yù)測(cè)為類別3客戶,預(yù)測(cè)的精確率為98.327%;211名實(shí)際為類別4客戶中,有211名被預(yù)測(cè)為類別4客戶,預(yù)測(cè)的精確率為100%。
圖4 模型2混淆矩陣結(jié)果圖Figure 4 Model 2 confusion matrix result graph
對(duì)于一個(gè)新用戶可輸入用戶信息至模型3,可以快速判斷用戶類別。輸入消費(fèi)時(shí)間間隔、飛行次數(shù)、飛行折扣率、客戶消費(fèi)能力、會(huì)員級(jí)別、客戶年齡、客戶關(guān)系長(zhǎng)度關(guān)系的信息,通過(guò)隨機(jī)森林算法直接求得預(yù)測(cè)管理結(jié)果。具體的部分客戶價(jià)值分析結(jié)果如表3。
表3 具體的客戶價(jià)值預(yù)測(cè)分析結(jié)果Table 3 Specific customer value prediction analysis results
根據(jù)上述的實(shí)驗(yàn)結(jié)果,我們可以得到以下結(jié)論:
1)針對(duì)現(xiàn)有客戶信息,改變當(dāng)前價(jià)值和潛在價(jià)值指標(biāo)的權(quán)重可以有效地提高隨機(jī)森林預(yù)測(cè)的準(zhǔn)確率;
2)模型3以KNN森林處理缺失值,孤立森林算法處理異常值,當(dāng)前價(jià)值指標(biāo)和潛在價(jià)值指標(biāo)的權(quán)重分別為0.1,0.4,并通過(guò)隨機(jī)森林森林建立的預(yù)測(cè)客戶價(jià)值模型。輸入一個(gè)新用戶信息可以準(zhǔn)確定位該客戶價(jià)值,預(yù)測(cè)效果較好,對(duì)航空公司的預(yù)測(cè)管理具有一定的適應(yīng)性。
本文從客戶全生命周期角度建立的模型,有效改進(jìn)了RFM模型的缺點(diǎn)。通過(guò)不同的數(shù)據(jù)清洗方法,同時(shí)修改客戶價(jià)值指標(biāo)的權(quán)重,并結(jié)合隨機(jī)森林算法,為航空公司評(píng)估哪些有可能成為他們的客戶提供新的思路。
本文以航空公司客戶信息為例,從企業(yè)的角度出發(fā),分析不同類別的客戶給企業(yè)帶來(lái)利潤(rùn)。采取差異化營(yíng)銷策略,重視高價(jià)值客戶,挽留潛在價(jià)值客戶,拋棄低價(jià)值客戶,節(jié)約企業(yè)花費(fèi)成本,提高客戶滿意度。