侯興政
摘要:電信行業(yè)用戶數(shù)據(jù)量呈現(xiàn)指數(shù)型增加,傳統(tǒng)分析挖掘技術(shù)已經(jīng)不能勝任如此龐大的工作。為此,引入大數(shù)據(jù)平臺(tái)組件Spark進(jìn)行大數(shù)據(jù)分析,進(jìn)而提升分析挖掘的效率。電信用戶的流失造成了運(yùn)營商經(jīng)濟(jì)利潤嚴(yán)重下滑,利用隨機(jī)森林算法構(gòu)建預(yù)警模型,挽留可能流失用戶,保證運(yùn)營商的市場份額。
關(guān)鍵詞:流失預(yù)警;Spark技術(shù);隨機(jī)森林算法
中圖分類號:TPl81
文獻(xiàn)識(shí)別碼:A
文章編號:1001-828X(2016)036-000369-01
隨著通信技術(shù)的迅猛發(fā)展和手機(jī)的普及應(yīng)用,電信行業(yè)應(yīng)用系統(tǒng)的規(guī)模迅速擴(kuò)大,行業(yè)內(nèi)應(yīng)用所產(chǎn)生的數(shù)據(jù)量則呈現(xiàn)爆炸性增長趨勢,因此尋求有效的大數(shù)據(jù)處理技術(shù)、方法和手段已經(jīng)成為現(xiàn)實(shí)世界的迫切需求。中國移動(dòng)一個(gè)省的電話通聯(lián)記錄數(shù)據(jù)每月可達(dá)0.5PB~1PB,不少專家預(yù)測全世界數(shù)據(jù)量未來10年將增長40余倍,年均增長保持在40%左右。
電信行業(yè)的海量數(shù)據(jù)為數(shù)據(jù)挖掘技術(shù)提供了發(fā)揮自己獨(dú)特作用的機(jī)會(huì),目前也已經(jīng)存在廣泛的場景應(yīng)用,尤其是對于行業(yè)客戶流失的預(yù)警分析。如何減少客戶流失,提高客戶的挽留率,已經(jīng)是電信業(yè)的當(dāng)務(wù)之急??蛻袅魇ьA(yù)測是基于歷史數(shù)據(jù),對已流失的用戶進(jìn)行分析,找出這些流失用戶的行為特征,對現(xiàn)有用戶挖掘預(yù)測出可能流失的部分,并有針對性地采取相應(yīng)的挽流政策。為提高海量數(shù)據(jù)進(jìn)行分類預(yù)測的運(yùn)行效率,我們引入大數(shù)據(jù)平臺(tái)的spark組件。spark是基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架,基于內(nèi)存計(jì)算,提高了在大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理的實(shí)時(shí)性,同時(shí)保證了高容錯(cuò)性和高可伸縮性,spark是MapReduce的替代方案,而且兼容HDFS、Hive等分布式存儲(chǔ)層,融入Hadoop的生態(tài)系統(tǒng),并彌補(bǔ)MapReduce的不足。如今,Spark分析技術(shù)已經(jīng)被騰訊、雅虎、淘寶、優(yōu)酷土豆等大型互聯(lián)網(wǎng)公司廣泛使用。
首先,我們將流失用戶定義為上一月分出賬繳費(fèi),而本月未出賬繳費(fèi)的用戶。構(gòu)建用戶流失預(yù)警模型,需要結(jié)合業(yè)務(wù)知識(shí)進(jìn)行字段的選取,并加大時(shí)間跨度,捕捉更加細(xì)節(jié)的變化,分析用戶的使用情況的細(xì)微波動(dòng)。選取的字段有標(biāo)識(shí)用戶唯一性的用戶編號、分類類型的標(biāo)志是否流失、是否為融合業(yè)務(wù)用戶、VIP會(huì)員級別編號、在網(wǎng)時(shí)長、資費(fèi)產(chǎn)品、是否參與合約計(jì)劃、發(fā)展渠道的類型、每月費(fèi)用均值、費(fèi)用波動(dòng)、本地語音通話均值、本地語音通話波動(dòng)情況長途語音通話均值、長途語音通話波動(dòng)、漫游語音通話均值、漫游通話波動(dòng)、通話次數(shù)均值、通話次數(shù)波動(dòng)、流量使用均值、流量使用波動(dòng)、繳費(fèi)金額均值、繳費(fèi)金額波動(dòng)、近三月是否有過欠費(fèi)行為、語音飽和度、流量飽和度;同時(shí),通過不斷改變模型的參數(shù),調(diào)優(yōu)分類預(yù)測模型效果,以達(dá)到最高的精確率。最終,將預(yù)測數(shù)據(jù)分配給客戶服務(wù)部門,整合銷售服務(wù)資源,根據(jù)客戶的需求,設(shè)計(jì)個(gè)性化的營銷策略,快速反應(yīng),以此達(dá)到召回流失客戶,挽留流失概率高的客戶,實(shí)現(xiàn)對客戶的守護(hù)。
構(gòu)建模型選用的分類預(yù)測算法為隨機(jī)森林,它是組合分類器(ensemble)的一種,組合分類器作為一種復(fù)合模型,由多個(gè)分類器組合而成。首先,個(gè)體分類器進(jìn)行投票。然后,組合分類器基于投票返回類標(biāo)號預(yù)測結(jié)果,進(jìn)行最終判別,因此組合分類器往往比個(gè)體分類器更加準(zhǔn)確。隨機(jī)森林內(nèi)的每個(gè)個(gè)體分類器都是一顆決策樹,構(gòu)造決策樹時(shí),每個(gè)結(jié)點(diǎn)隨機(jī)選擇F個(gè)屬性作為該結(jié)點(diǎn)劃分的候選屬性。每一棵樹都依賴于獨(dú)立抽樣,并在森林中所有樹具有相同分布的隨機(jī)向量的值。分類時(shí),每棵樹都進(jìn)行投票,隨機(jī)森林返回最終得票數(shù)最多的預(yù)測類別。對于每次迭代使用有放回抽樣,這樣使得某些元組在抽取的樣本中重復(fù)出現(xiàn)或者未出現(xiàn),這樣就保證了樹的多樣性。隨機(jī)森林算法對錯(cuò)誤和離群點(diǎn)的表現(xiàn)出很好的魯棒性。隨著森林中決策樹的數(shù)目增長,森林的泛化誤差會(huì)收斂,這樣就不存在過擬合問題。在數(shù)據(jù)處理過程中,往往會(huì)遇到數(shù)據(jù)不平衡問題,即感興趣的一類只有少量數(shù)據(jù)。提高類不平衡數(shù)據(jù)分類準(zhǔn)確率的方法有過抽樣和欠抽樣。其中,過抽樣是復(fù)制稀有類的元組,而欠抽樣則是隨機(jī)地刪除多數(shù)類別。
對于分類模型所構(gòu)建的結(jié)果,我們可以通過幾個(gè)評價(jià)度量指標(biāo)進(jìn)行衡量。首先,引入混淆矩陣,真正例TP是正確分類的正元組,真負(fù)例TN是正確分類的負(fù)元組,假正例FP是錯(cuò)誤標(biāo)記為正元組的負(fù)元組,假負(fù)例FN是錯(cuò)誤標(biāo)記為負(fù)元組的正元組。分類的準(zhǔn)確率是被正確分類的元組所占的百分比,但是準(zhǔn)確率存在著弊端,在處理不平衡數(shù)據(jù)時(shí),往往會(huì)給出錯(cuò)誤的效果,為此,我們使用召回率和精確率:
召回率,也稱覆蓋率:被正確預(yù)測的正例在整個(gè)正例的比例;
精確率,也稱命中率:被預(yù)測為正例中真正是正例的比例;
并且,精確率與召回率是一對逆關(guān)系,往往需要降低一個(gè)為代價(jià)而提高另一個(gè)。
實(shí)例數(shù)據(jù)結(jié)果如下:
原始數(shù)據(jù)
訓(xùn)練集:2月份數(shù)據(jù)總數(shù):244.2082萬(不流失=229.7690萬;流失=14.5563萬)
測試集:3月份數(shù)據(jù)總數(shù):250.9384萬(不流失=234.7360萬;流失=16.2024萬)
準(zhǔn)確率:88.8%覆蓋率:90.45%命中率:97.42%
結(jié)合電信行業(yè)的業(yè)務(wù)知識(shí),應(yīng)用挖掘理論建立起來一套科學(xué)的、完整的客戶流失指標(biāo)體系,有較高的預(yù)警效果,希望能將流失預(yù)測技術(shù)實(shí)際應(yīng)用于電信行業(yè),分析和預(yù)測客戶的消費(fèi)行為特征,從而為建立用戶離網(wǎng)和欠費(fèi)預(yù)警機(jī)制提供客觀的、可靠的數(shù)據(jù)支撐,為制定更好的客戶服務(wù)策略提供決策支持。