張晴晴,張 濤,韓玉輝,程新洲,王云云,高 潔(中國(guó)聯(lián)通研究院,北京 100048)
在整體收入增速放緩、公眾市場(chǎng)飽和的大背景下,各大運(yùn)營(yíng)商均在探索如何在公眾市場(chǎng)實(shí)現(xiàn)存量客戶(hù)價(jià)值運(yùn)營(yíng),同時(shí)對(duì)增量客戶(hù)進(jìn)行有效挖掘。其中發(fā)展融合業(yè)務(wù)用戶(hù)便成為運(yùn)營(yíng)商加固維穩(wěn)存量客戶(hù),同時(shí)有效挖掘增量客戶(hù)的有效利器。所謂融合業(yè)務(wù),是運(yùn)營(yíng)商根據(jù)其業(yè)務(wù)特點(diǎn)將多類(lèi)產(chǎn)品進(jìn)行捆綁銷(xiāo)售,常見(jiàn)的捆綁策略為將固網(wǎng)產(chǎn)品、移動(dòng)網(wǎng)產(chǎn)品和IPTV 等產(chǎn)品進(jìn)行融合,通過(guò)各類(lèi)融合套餐產(chǎn)品的創(chuàng)新性設(shè)計(jì)可實(shí)現(xiàn)客戶(hù)價(jià)值提升,同時(shí)提升客戶(hù)滿(mǎn)意度。融合產(chǎn)品將是勢(shì)不可擋的大趨勢(shì),未來(lái)運(yùn)營(yíng)商的產(chǎn)品將隨著業(yè)務(wù)邊界不斷擴(kuò)展向深度融合和廣度覆蓋方向轉(zhuǎn)變,故對(duì)于融合用戶(hù)的發(fā)展和挖掘?qū)⑹俏磥?lái)運(yùn)營(yíng)商客戶(hù)運(yùn)營(yíng)的一項(xiàng)重要工作。
中國(guó)聯(lián)通對(duì)于融合捆綁的策略相對(duì)于友商起步較晚,雖然也有固移套餐、主副卡(親情卡)等產(chǎn)品,但整體融合力度稍弱,所以對(duì)于融合用戶(hù)發(fā)展的市場(chǎng)空間較大。尤其在攜號(hào)轉(zhuǎn)網(wǎng)服務(wù)全面開(kāi)放后,大力發(fā)展融合業(yè)務(wù)將有助于中國(guó)聯(lián)通加固維穩(wěn)存量客戶(hù),同時(shí)也有助于實(shí)現(xiàn)異網(wǎng)拉新。本文基于移動(dòng)網(wǎng)絡(luò)大數(shù)據(jù)和寬帶網(wǎng)絡(luò)大數(shù)據(jù)的聯(lián)合分析,針對(duì)單移用戶(hù)的移動(dòng)網(wǎng)絡(luò)業(yè)務(wù)行為特征,構(gòu)建機(jī)器學(xué)習(xí)模型識(shí)別其真實(shí)用寬帶狀態(tài),并推送給市場(chǎng)前端進(jìn)行精準(zhǔn)營(yíng)銷(xiāo),促進(jìn)用戶(hù)進(jìn)行固移融合套餐產(chǎn)品的遷轉(zhuǎn)。中國(guó)聯(lián)通各省分公司可以根據(jù)自身資源稟賦和用戶(hù)規(guī)模占比,分別采取不同的固移用戶(hù)發(fā)展策略。
為了實(shí)現(xiàn)對(duì)單移用戶(hù)中潛在寬帶用戶(hù)的精準(zhǔn)識(shí)別,本文基于移動(dòng)網(wǎng)絡(luò)大數(shù)據(jù)和寬帶網(wǎng)絡(luò)大數(shù)據(jù)的聯(lián)合分析,構(gòu)建了潛在寬帶用戶(hù)識(shí)別的方法體系架構(gòu),如圖1所示。
圖1 潛在寬帶用戶(hù)識(shí)別流程
該框架由2 部分組成:線(xiàn)下訓(xùn)練部分和市場(chǎng)推送部分。
a)線(xiàn)下訓(xùn)練部分。主要目的是利用現(xiàn)有的歷史數(shù)據(jù)得到理想的分類(lèi)模型,并將訓(xùn)練好的穩(wěn)定魯棒模型用于現(xiàn)網(wǎng)數(shù)據(jù)識(shí)別,得到潛在寬帶用戶(hù)列表。
b)市場(chǎng)推送部分。將模型得到的后臺(tái)結(jié)果推送到市場(chǎng)前端進(jìn)行精準(zhǔn)營(yíng)銷(xiāo),市場(chǎng)前端通過(guò)不同觸點(diǎn)觸達(dá)用戶(hù)并進(jìn)行融合產(chǎn)品營(yíng)銷(xiāo)。由于最終用戶(hù)是否成功辦理轉(zhuǎn)化會(huì)涉及各類(lèi)原因,故前端在接觸客戶(hù)時(shí)要分別記錄模型預(yù)測(cè)準(zhǔn)確率以及辦理意向率,并將結(jié)果反饋給線(xiàn)下訓(xùn)練模型,從而實(shí)現(xiàn)模型的迭代訓(xùn)練。
首先進(jìn)行數(shù)據(jù)準(zhǔn)備,構(gòu)造模型訓(xùn)練所需的正負(fù)樣本集合。根據(jù)BSS 端用戶(hù)的簽約信息,收集有寬帶業(yè)務(wù)和無(wú)寬帶業(yè)務(wù)用戶(hù)的歷史OSS數(shù)據(jù)和BSS數(shù)據(jù)。對(duì)于無(wú)寬帶業(yè)務(wù)用戶(hù),僅通過(guò)套餐簽約識(shí)別會(huì)出現(xiàn)不準(zhǔn)確的情況,要結(jié)合家庭關(guān)系庫(kù)以及OSS 用戶(hù)行為特征來(lái)進(jìn)行準(zhǔn)確識(shí)別,為模型訓(xùn)練打好數(shù)據(jù)基礎(chǔ)。另外在數(shù)據(jù)準(zhǔn)備過(guò)程中的另一個(gè)挑戰(zhàn)是正負(fù)樣本不均衡,會(huì)導(dǎo)致模型過(guò)擬合問(wèn)題,所以在數(shù)據(jù)準(zhǔn)備階段要盡可能多的收集正負(fù)樣本集合。
特征工程是提高機(jī)器學(xué)習(xí)模型表現(xiàn)和準(zhǔn)確性的重要步驟。對(duì)于潛在寬帶用戶(hù)識(shí)別問(wèn)題,基于對(duì)業(yè)務(wù)目標(biāo)的理解以及手中掌握的數(shù)據(jù),構(gòu)造特征集合。本文在進(jìn)行特征選擇時(shí),會(huì)通過(guò)可視化的方式,比較有寬帶用戶(hù)和無(wú)寬帶用戶(hù)在各個(gè)特征上的差異性,將有明顯區(qū)分性的特征加入到特征集合中。圖2展示了有寬帶用戶(hù)和非寬帶用戶(hù)的小時(shí)流量使用對(duì)比,可以看到有寬帶用戶(hù)的夜間流量使用有明顯的下降特征。圖3 展示了有寬帶用戶(hù)和非寬帶用戶(hù)在白天(8:00-18:00)的流量與夜晚流量(19:00-24:00)的流量對(duì)比,可以發(fā)現(xiàn)無(wú)寬帶用戶(hù)無(wú)論在白天還是晚上的流量總體消耗都更多,尤其在夜晚會(huì)更加明顯,無(wú)寬帶用戶(hù)與有寬帶用戶(hù)夜晚流量比值為1.6 倍,要大于二者白天流量比值的1.2 倍。其他特征的構(gòu)造方法類(lèi)似,這里不再贅述,最終形成的部分用戶(hù)特征總結(jié)如表1 所示,分別構(gòu)造了O域特征與B域特征共約40個(gè)特征。
表1 O域與B域特征工程表
圖2 有寬帶用戶(hù)和無(wú)寬帶用戶(hù)的小時(shí)流量對(duì)比
圖3 有寬帶用戶(hù)和無(wú)寬帶用戶(hù)白天和夜晚流量對(duì)比
對(duì)于模型訓(xùn)練部分,由于訓(xùn)練集合正負(fù)樣本的不平衡特性,選擇具有類(lèi)權(quán)重參數(shù)的Class Weighted eXtreme Gradient Boosting(XGBoost)作為模型來(lái)進(jìn)行模型訓(xùn)練。對(duì)于分類(lèi)中不同樣本數(shù)量的類(lèi)別,分別賦予不同權(quán)重的方法,具體操作是設(shè)置類(lèi)樣本權(quán)重反比于類(lèi)樣本數(shù)量。XGBoost的最小化目標(biāo)函數(shù)公式如下:
式(1)和(2)分為2 個(gè)部分,第1 部分為損失函數(shù),第2 部分為正則化參數(shù)。對(duì)于XGBoost,在模型訓(xùn)練時(shí),可通過(guò)調(diào)節(jié)參數(shù)‘scale_pos_weight’值來(lái)平衡正負(fù)權(quán)重。
在模型評(píng)估時(shí),應(yīng)選擇與業(yè)務(wù)問(wèn)題相匹配的評(píng)估方法。本文中的潛在用戶(hù)挖掘問(wèn)題是二分類(lèi)問(wèn)題,對(duì)于二分類(lèi)模型,可采用多種不同的評(píng)估方式,如AUC(Area Under Roc Curve)、F1 值、查準(zhǔn)率(Precision)、查全率(Recall)等。為了體現(xiàn)模型預(yù)測(cè)的準(zhǔn)確性,將實(shí)例分為正類(lèi)(Positive/+)或負(fù)類(lèi)(Negative/-),對(duì)于模型是否預(yù)測(cè)正確,可形成混淆矩陣,基于得到的混淆矩陣結(jié)果可計(jì)算F1值、查準(zhǔn)率和查全率。三者的計(jì)算公式如下:
根據(jù)交叉驗(yàn)證模型在測(cè)試集上的表現(xiàn),得到模型評(píng)價(jià)指標(biāo)結(jié)果:Precision 為51%,Recall為36.8%,F(xiàn)1值為42.4%。圖4 顯示了Roc 曲線(xiàn)結(jié)果,AUC 值為0.648。同時(shí)為了驗(yàn)證模型的泛化能力,繪制了學(xué)習(xí)曲線(xiàn),學(xué)習(xí)曲線(xiàn)是將訓(xùn)練集誤差和交叉驗(yàn)證集誤差在不同樣本點(diǎn)數(shù)量下的誤差進(jìn)行對(duì)比,從圖5 的學(xué)習(xí)曲線(xiàn)結(jié)果來(lái)看,模型具備較好的泛化能力。
圖4 潛在寬帶用戶(hù)識(shí)別Roc曲線(xiàn)
圖5 潛在寬帶用戶(hù)模型學(xué)習(xí)曲線(xiàn)
將形成的潛在用戶(hù)列表推送到市場(chǎng)前端開(kāi)展各種形式的觸達(dá)及融合產(chǎn)品推廣活動(dòng),在觸達(dá)過(guò)程中記錄用戶(hù)真實(shí)寬帶狀態(tài),以此作為2 種方法的直接驗(yàn)證指標(biāo)。圖6 為驗(yàn)證效果。由結(jié)果可以看出,命中到的真實(shí)無(wú)寬帶用戶(hù)及有寬帶用戶(hù)比例均高于隨機(jī)組,說(shuō)明方法是有效的,能夠?qū)ΜF(xiàn)網(wǎng)中用戶(hù)的真實(shí)狀態(tài)進(jìn)行更有效的判斷。
圖6 模型識(shí)別方法現(xiàn)網(wǎng)驗(yàn)證效果
運(yùn)營(yíng)商發(fā)展融合業(yè)務(wù)用戶(hù)是勢(shì)不可擋的大趨勢(shì)。本文基于移動(dòng)網(wǎng)絡(luò)大數(shù)據(jù)和寬帶網(wǎng)絡(luò)大數(shù)據(jù)的聯(lián)合分析,提出基于模型的潛在固移融合目標(biāo)用戶(hù)挖掘方法體系可以顯著提高目標(biāo)用戶(hù)的識(shí)別率,同時(shí)將結(jié)果推送到市場(chǎng)前端進(jìn)行精準(zhǔn)營(yíng)銷(xiāo),促進(jìn)用戶(hù)進(jìn)行固移融合套餐產(chǎn)品的遷轉(zhuǎn)?,F(xiàn)網(wǎng)實(shí)際驗(yàn)證的結(jié)果表明,運(yùn)用本文提出的方法發(fā)展固移融合用戶(hù),不僅可以提升單用戶(hù)ARPU 值,也有助于提高用戶(hù)體驗(yàn)和用戶(hù)忠誠(chéng)度。在后續(xù)的研究中,根據(jù)市場(chǎng)前端的反饋,將對(duì)算法進(jìn)行不斷迭代,進(jìn)一步提升整體模型的精準(zhǔn)性。