摘 要:隨著移動互聯(lián)網(wǎng)的發(fā)展,電信運營商的傳統(tǒng)語音和短信收入快速下降,同時流量價值也不斷向云端結合的OTT服務商轉移,擠壓運營商收入增長空間。文章通過研究電信運營商大數(shù)據(jù)能力優(yōu)勢及精準營銷需求,基于logistic回歸模型,提出了電信運營商流量經(jīng)營的大數(shù)據(jù)精準營銷應用,有效提升客戶的滿意度,快速提高運營商效益。
關鍵詞:logistic回歸模型;大數(shù)據(jù)應用;運營商;流量經(jīng)營
隨著移動互聯(lián)網(wǎng)的發(fā)展,流量已成為客戶的核心需求,能否順利從以“話務量”為中心的經(jīng)營轉向“流量經(jīng)營”轉型,能否通過流量經(jīng)營提升公司的價值,已成為運營商戰(zhàn)略轉型的關鍵。移動互聯(lián)網(wǎng)時代的流量經(jīng)營與語音和寬帶業(yè)務的經(jīng)營有很大不同:客戶使用的終端多樣性,流量承載的內容性豐富,客戶流量使用行為的數(shù)據(jù)的復雜性,僅通過傳統(tǒng)的“暴力營銷”極易引起客戶的反感和投訴?;趌ogistic回歸模型的大數(shù)據(jù)精準營銷應用將有效解決提升客戶滿意度及運營商效益提升問題。
1 基于logistic回歸模型的大數(shù)據(jù)精準營銷應用的解決方案
1.1 基本思路
根據(jù)用戶的特征,判別哪些是誘發(fā)用戶訂購流量包的因素,使用logistic回歸分析出其影響權重,從而預測哪些用戶是潛在的訂購用戶。
1.2 logistic模型
根據(jù)樣本數(shù)據(jù)可以通過最似然估計法計算出模型參數(shù)。
1.3 抽取數(shù)據(jù)
抽取五大類11子項數(shù)據(jù)作為分析顆粒度。
1.4 數(shù)據(jù)描述
本模型使用部分流量包訂購數(shù)據(jù),它有94455個樣本觀測,每個觀測包括12個變量:
用戶號碼(phone)、使用流量(current_flow)、套餐類型(taocan_type)、終端類型(os)、用戶類型(utype)、訂購狀態(tài)(order)、套餐消耗比(main_rate)、日均使用流量(avg_day_flow)、閑時消耗比(free_rate)、活躍度(day_log_count)、APP個數(shù)(client_count)和潛力值(big_client_pv)。
1.4.1 觀測樣本套餐劃分情況:
3G套餐包括A/B/C/iPhone/wopai,占比為36%;2G套餐根據(jù)流量分為流量卡(占比28%)和非流量卡(占比35%)。
1.4.2 觀測樣本終端情況
Android操作系統(tǒng)用戶占比達51%,iOS操作系統(tǒng)用戶占比為9%。
1.4.3觀測樣本流量使用情況
把觀測樣本用戶使用流量劃分成8個區(qū)間,對流量需求旺盛用戶開展流量包營銷非常必要。(圖3)
1.4.4 觀測樣本流量飽和度情況
極大部分用戶都出現(xiàn)了流量超套行為,占一半用戶以上,進行合適的流量包推送很在必要。(圖4)
2 基于logistic回歸模型的大數(shù)據(jù)精準營銷應用的模型建立
2.1 數(shù)據(jù)
隨機抽取80%的數(shù)據(jù)(75564條)建立一個logistic模型,再用余下20%的數(shù)據(jù)(18891條)進行預測。
2.2 方法
多元logistic模型,使用stepwise選擇變量。
2.3 變量
涉及多個分類變量-用戶類型、終端類型和套餐類型,設置啞變量處理,并設置相應的參照水平-3G用戶、Andriod終端和A套餐。
2.4 影響因素參數(shù)估計
2.4.1 整體顯著性檢驗
假設:H0:b1=b2=…=bn=0;H1:b1,b2,…bn不全為0。
檢驗的結果如下所示:從表4中可以看到p-value<0.0001,拒絕原假設,說明回歸系數(shù)對模型有顯著性的影響,這個模型整體上比空模型更顯著。
2.4.2 參數(shù)估計
從表5中可以看到9個因素的回歸系數(shù)都通過了Wald Chi-Square檢驗,說明各系數(shù)在統(tǒng)計上是顯著的。
2.5 模型結論
閑時消耗率、終端類型、套餐類型為此模型中誘發(fā)訂購行為的最重要的三個因素。(表6)
2.6 參數(shù)意義
回歸的系數(shù)給出了概率的對數(shù)變化一個單位對應的預測變量的增加。OR比是取冪的系數(shù),可以解釋為乘法概率增加一單位預測變量的變化。3G用戶相對于2G用戶:訂購概率的對數(shù)增加1.7443;訂購的概率相對不訂購的概率增加0.175。Current_flow增加1M:訂購概率的對數(shù)增加0.00116;訂購的概率相對不訂購的概率增加1.001。(表7)
2.7 模型描述
預測模型:
3 基于logistic回歸模型的大數(shù)據(jù)精準營銷應用監(jiān)測及實施案例
(1)對 18891個用戶數(shù)據(jù)進行預測,ROC曲線如下:
·訂購覆蓋率Sensitivity=正確預測到的訂購數(shù)/實際訂購總數(shù)
·未訂覆蓋率Specificity=正確預測到的未訂數(shù)/實際未訂總數(shù)
·ROC曲線是在不同閾值下,Sensitivity和1-Specificity 的組合。隨著閾值的減小(更多的用戶就會被認為訂購),Sensitivity和1-Specificity 也相應增加。
·ROC曲線與45度線偏離越大,AUC值越大,模型的效果就越好。
·閾值e=0.5時, Sensitivity=75.24%
Specificity=87.14%
設檢驗數(shù)據(jù)中訂購的比率為p,預測結果中訂購的比率為Depth,命中率PV+=正確預測到的訂購數(shù)/預測訂購總數(shù),提升值Lift=PV+/p,Lift圖表示不同閾值下Lift和Depth的軌跡。用來衡量:與不利用模型相比,模型的預測能力“變好”了多少。Lift值越大,模型的運行結果越好。
圖5,在depth為1之前,lift一直保持較高的(大于1的)數(shù)值,表明此模型分類效果良好。
(2)預測檢驗-混淆矩陣:
對18891個用戶數(shù)據(jù)進行預測,設e=0.5,結果如下:
4 結束語
該模型的應用極大提高了目標用戶營銷成功率,較運用前營銷成功率提升50%,用戶投訴率降低60%,效果顯著?;趌ogistic回歸模型大數(shù)據(jù)分析,匹配流量用戶特征,科學分析用戶需求點,達到公司與用戶雙贏。
參考文獻
[1]安·A.奧康奈爾,定序因變量的logistic回歸模型/格致方法定量研究系列[M].北京:清華大學出版社,2009.
[2](美)梅納德.應用logistic回歸分析(第二版)[M].李俊秀,譯.格致出版社,2012.
[3]顧芳,劉旭峰,左超.大數(shù)據(jù)背景下運營商移動互聯(lián)網(wǎng)發(fā)展策略研究[J].郵電設計技術,2012.
[4]童曉渝,張云勇,房秉毅,等.大數(shù)據(jù)時代電信運營商的機遇[J].通信信息技術,2013.