隨著國家5G 新基建時(shí)代的來臨,5G 移動用戶規(guī)模發(fā)展帶來的高流量高收益成為當(dāng)下及今后運(yùn)營商收入的主要來源。運(yùn)營商移動網(wǎng)絡(luò)5G 用戶傳統(tǒng)營銷方式較為粗放,主要體現(xiàn)在5G用戶營銷策略和定位不夠清晰;5G 用戶目標(biāo)缺乏針對性;營銷成功與否和5G營銷人員的營銷水平相關(guān);事前沒對用戶進(jìn)行有效的篩選,營銷成功率低;已有的傳統(tǒng)網(wǎng)絡(luò)用戶遷轉(zhuǎn)到5G過程中形成的歷史數(shù)據(jù)沒有得到利用。如何規(guī)避上述問題,精準(zhǔn)有效地推動傳統(tǒng)移動網(wǎng)絡(luò)用戶向5G轉(zhuǎn)化成為業(yè)界研究的熱點(diǎn)方向。作為電信運(yùn)營商的優(yōu)勢之一,多年的包含日常運(yùn)營過程中形成的B 域和O 域的大數(shù)據(jù)集可以用來對5G用戶進(jìn)行畫像,通過大數(shù)據(jù)手段充分挖掘這些數(shù)據(jù)中包含的用戶基礎(chǔ)信息、用戶消費(fèi)信息、用戶上網(wǎng)行為偏好和用戶網(wǎng)絡(luò)感知等能夠?yàn)?G用戶智能營銷開辟新的方向的信息。
作為人工智能的重要組成部分,機(jī)器學(xué)習(xí)技術(shù)是國家發(fā)展戰(zhàn)略重點(diǎn)扶持的目標(biāo)[1],也是當(dāng)下各行業(yè)關(guān)注的焦點(diǎn)。為了推動傳統(tǒng)5G用戶營銷方式的數(shù)字化,提升網(wǎng)優(yōu)專業(yè)5G市場支撐智能化水平,有必要對基于機(jī)器學(xué)習(xí)算法的潛在5G用戶預(yù)測進(jìn)行研究。
移動網(wǎng)絡(luò)傳統(tǒng)用戶營銷方法存在諸多短板,比如營銷策略模糊、目標(biāo)用戶存在盲目性、營銷成效與人員水平相關(guān)等。
受到長期傳統(tǒng)標(biāo)準(zhǔn)化大生產(chǎn)經(jīng)驗(yàn)的影響,運(yùn)營商在制定5G用戶營銷策略時(shí)往往是一刀切,對所有用戶采用統(tǒng)一的口徑和指標(biāo)做營銷宣傳,沒有考慮用戶個(gè)體差異性;但實(shí)際上5G敏感用戶始終比不敏感用戶容易發(fā)展,對2 類用戶不加區(qū)分地采用相同營銷手段容易造成參差不齊的營銷結(jié)果。
由于5G用戶營銷數(shù)據(jù)的局限性和分析方法不當(dāng),運(yùn)營商在發(fā)展5G用戶時(shí)沒能形成5G用戶特征評估體系,未能對5G 用戶進(jìn)行精準(zhǔn)畫像,導(dǎo)致常規(guī)方法評估出來的目標(biāo)用戶與實(shí)際營銷結(jié)果偏差較大,浪費(fèi)不必要的人力物力。
在現(xiàn)場營銷或代理商營銷場景中,營銷人員只能通過個(gè)人主觀判斷該用戶是否是潛在5G用戶,缺乏客觀的評估手段,不同營銷水平的人員營銷結(jié)果千差萬別,判斷能力不強(qiáng)的人員消耗了不必要的時(shí)間在5G不敏感用戶上,降低了營銷效率。
隨著5G網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,運(yùn)營商越來越需要進(jìn)行精準(zhǔn)的5G 用戶營銷來拉動收入。影響傳統(tǒng)移動網(wǎng)絡(luò)用戶轉(zhuǎn)化為5G用戶的因素很多,其中用戶基本屬性、用戶消費(fèi)信息、用戶上網(wǎng)行為偏好和用戶網(wǎng)絡(luò)感知是影響用戶轉(zhuǎn)化為5G用戶的最核心因素,充分挖掘這些數(shù)據(jù)有利于指導(dǎo)5G用戶營銷。
本文通過利用GBDT 機(jī)器學(xué)習(xí)算法學(xué)習(xí)5G 用戶正負(fù)樣本歷史上的B 域出賬數(shù)據(jù)和O 域網(wǎng)絡(luò)數(shù)據(jù),建立5G 用戶分類預(yù)測模型預(yù)測出傳統(tǒng)移動網(wǎng)絡(luò)用戶是否是潛在5G 用戶。該模型可在5G 用戶營銷支撐、5G網(wǎng)絡(luò)感知保障等網(wǎng)優(yōu)日常工作中起到積極作用。
GBDT 分類算法屬于集成學(xué)習(xí)中的Boosting 方法。Boosting 方法使用多個(gè)弱基分類器,訓(xùn)練基分類器時(shí)采用串行的方式,每個(gè)基分類器之間有依賴,它的基本思路是將基分類器一個(gè)個(gè)疊加,每個(gè)基分類器在訓(xùn)練的時(shí)候,對前一個(gè)基分類器分錯(cuò)的樣本,給予更高的權(quán)重。測試時(shí),根據(jù)各個(gè)分類器的結(jié)果加權(quán)得到最終結(jié)果。GBDT 的原理就是所有弱分類器的結(jié)果相加等于預(yù)測值,然后下一個(gè)弱分類器去擬合誤差函數(shù)對預(yù)測值的殘差(殘差就是預(yù)測值與真實(shí)值之間的誤差),其中弱分類器的表現(xiàn)形式就是各棵決策樹。該算法具體原理如下[2]:
假設(shè)輸入訓(xùn)練集樣本D={(x1,y1),(x2,y2),…,(xm,ym)},最大迭代次數(shù)T,損失函數(shù)L(y,f(x))=log(1+exp(-yf(x))),其中y∈{-1,+1}。輸出是強(qiáng)學(xué)習(xí)器f(x)。
b)對迭代次數(shù)t=1,2,…,T,有:
(a)對樣本i=1,2,…,m計(jì)算負(fù)梯度誤差:
(b)利用(xi,rti)(i=1,2,…,m),擬合一棵CART 回歸樹,得到第t棵回歸樹,其對應(yīng)的葉子節(jié)點(diǎn)區(qū)域?yàn)镽tj(j=1,2,…,J),其中J為回歸樹t的葉子節(jié)點(diǎn)個(gè)數(shù)。
(c)對葉子區(qū)域j=1,2,…,J,計(jì)算最佳負(fù)梯度擬合值:
c)得到強(qiáng)學(xué)習(xí)器f(x)的表達(dá)式:
2.2.1 樣本的采集
提取某省聯(lián)通2020 年3 月份5G 用戶46 170 個(gè)和等量的非5G 用戶生成正負(fù)樣本標(biāo)簽,5G 用戶作為正樣本標(biāo)記為1,非5G 用戶作為負(fù)樣本標(biāo)記為0。樣本字段都是用戶在傳統(tǒng)網(wǎng)絡(luò)(3G/4G)用戶時(shí)的歷史數(shù)據(jù),這些原始字段包含B 域的用戶基礎(chǔ)信息和用戶消費(fèi)信息、O 域的用戶上網(wǎng)行為和用戶網(wǎng)絡(luò)感知KQI 指標(biāo)(見表1)。
表1 5G用戶正負(fù)樣本原始字段
這些原始字段中,用戶基礎(chǔ)信息使用2019 年8 月份的當(dāng)月數(shù)據(jù)(2019年8月份開始5G 放號);用戶消費(fèi)信息使用當(dāng)月及前3 個(gè)月的數(shù)據(jù);用戶上網(wǎng)行為使用當(dāng)月數(shù)據(jù),其中最大使用APP 指的是當(dāng)月用戶產(chǎn)生最大流量的APP;用戶網(wǎng)絡(luò)感知KQI 指標(biāo)是用戶當(dāng)月每天流量最高的10 個(gè)小區(qū)的KQI 指標(biāo)值匯總,形成每天的KQI指標(biāo)字段。
2.2.2 樣本劃分為訓(xùn)練集和測試集
機(jī)器學(xué)習(xí)一般將樣本劃分為訓(xùn)練集和測試集,訓(xùn)練集用于模型訓(xùn)練,測試集用于測試模型性能。本文利用scikit-learn 的train_test_split()函數(shù)將樣本劃分為訓(xùn)練集和測試集,其中參數(shù)測試集比例test_size 取0.2,即訓(xùn)練集和測試集比例為8∶2。
數(shù)據(jù)預(yù)處理主要是檢查每個(gè)特征是否有缺失值或非法字符,對不合理的值進(jìn)行校正替換,對類別值過多的高基數(shù)類別特征進(jìn)行降基處理,類別特征不平衡字段需重新歸并。檢查樣本數(shù)據(jù)發(fā)現(xiàn),數(shù)值型特征的用戶消費(fèi)信息存在缺失值,比如語音通話時(shí)長、流量字段;類別型特征的性別、終端廠家等字段存在缺失值,對這些列調(diào)用scikit-learn 的SimpleImputer 對象進(jìn)行均值填充;有609 個(gè)類別特征套餐名稱值和204個(gè)終端廠家值存在高基數(shù)問題,需要降基處理,這里根據(jù)特征的分布情況使用pandas 的分箱操作cut()方法對高基數(shù)特征進(jìn)行分段編碼[3];歸屬地(市)、最大APP 協(xié)議大類存在特征取值不均衡問題,對比例較低的類別值重新歸并。
特征工程是機(jī)器學(xué)習(xí)過程的重要環(huán)節(jié),樣本特征的好壞決定了機(jī)器學(xué)習(xí)性能的上限,而模型只是逼近這個(gè)上限而已。特征工程的主要內(nèi)容包括特征構(gòu)造、特征抽取和特征選擇[4]。本文的原始特征包括B 域的用戶基礎(chǔ)信息和用戶消費(fèi)信息、O 域的用戶上網(wǎng)行為和用戶網(wǎng)絡(luò)感知KQI 指標(biāo)共100 多個(gè)維度。為了滿足特征選擇的需要,在此先進(jìn)行特征構(gòu)造和特征抽取,最后進(jìn)行特征選擇,避免過高的特征維數(shù)導(dǎo)致模型過擬合。
2.4.1 特征構(gòu)造
原始字段中的入網(wǎng)時(shí)間是Object 類別特征,無法進(jìn)行數(shù)值計(jì)算提取有效信息。本文通過設(shè)置一個(gè)標(biāo)桿時(shí)間2020 年12 月來構(gòu)造用戶從入網(wǎng)到標(biāo)桿時(shí)間的在網(wǎng)月數(shù)特征。
2.4.2 特征抽取
(2)工作態(tài)度要絕對認(rèn)真,遇到問題要考慮全面。對試驗(yàn)過程中出現(xiàn)的任何可疑之處都不能放過,分析考慮問題要周密細(xì)心,抓住關(guān)鍵點(diǎn)。對于變壓器而言,若分接開關(guān)接觸不良,經(jīng)受不起短路電流的沖擊而發(fā)生故障,極有可能將變壓器線圈燒損,其后果是十分嚴(yán)重的。通過認(rèn)真分析,找到了問題所在,并進(jìn)行了有針對性的工作,順利完成了該缺陷的處理。
用戶網(wǎng)絡(luò)感知KQI 共一個(gè)月(30 天)的數(shù)據(jù),每天有頁面響應(yīng)成功率、視頻流媒體初始播放成功率、視頻流媒體有效下載速率3 個(gè)指標(biāo),總計(jì)有90 個(gè)維度的特征。數(shù)據(jù)特征維度太高,首先會導(dǎo)致計(jì)算很麻煩,其次增加了問題的復(fù)雜程度,分析起來也不方便。但盲目減少數(shù)據(jù)的特征會損失數(shù)據(jù)包含的關(guān)鍵信息,容易導(dǎo)致模型預(yù)測性能下降。主成分分析(PCA——Principal Component Analysis)降維方法,既減少了需要分析的指標(biāo),又盡可能多地保持了原來數(shù)據(jù)的信息。本文使用scikit-learn 的PCA 估計(jì)器對KQI 數(shù)據(jù)進(jìn)行降維,由于不確定具體變換的合適維數(shù),就取PCA 的n_components 參數(shù)為0.95,即變換后的結(jié)果保留95%的原始信息,計(jì)算后維數(shù)降至67。將67 維的PCA 分量與目標(biāo)列做相關(guān)性分析,最相關(guān)的是第1 個(gè)分量kqi_data_pca_0相關(guān)系數(shù)0.14,后續(xù)只采納該分量進(jìn)行訓(xùn)練。
2.4.3 特征/目標(biāo)相關(guān)性分析
特征選擇不僅具有減少特征數(shù)量(降維)、減少過擬合、提高模型泛化能力等優(yōu)點(diǎn),而且還可以使模型獲得更好的解釋性,增強(qiáng)對特征和特征、特征和目標(biāo)之間關(guān)系的理解,加快模型的訓(xùn)練速度獲得更好的預(yù)測性能。此處采用pandas的相關(guān)系數(shù)計(jì)算函數(shù)corr()來分析特征和目標(biāo)間的相關(guān)性(見表2)。
表2 部分特征和目標(biāo)間的相關(guān)系數(shù)值
由于部分特征間的相關(guān)性過高,將造成特征間的多重共線性,影響模型效果,這里剔除相關(guān)系數(shù)大于0.8的特征,保留與目標(biāo)相關(guān)性最大的特征。
2.5.1 基于交叉驗(yàn)證的分類預(yù)測模型選擇
機(jī)器學(xué)習(xí)中常用的分類預(yù)測模型有邏輯回歸、KNN、樸素貝葉斯、隨機(jī)森林、GBDT和XGBoost等。這里分別使用這些模型進(jìn)行5 折交叉驗(yàn)證打分,評估標(biāo)準(zhǔn)為正確率accuracy,選出最好的模型。實(shí)驗(yàn)結(jié)果表明,最佳模型為GBDT,平均cross_val_score 得分最高為0.814(見圖1)。后續(xù)就使用GBDT 模型進(jìn)行建模訓(xùn)練。
圖1 基于交叉驗(yàn)證的分類模型選擇
2.5.2 基于隨機(jī)搜索的GBDT模型超參數(shù)優(yōu)化
GBDT 模型的超參數(shù)分2 類:第1 類是Boosting 框架的重要參數(shù),調(diào)節(jié)模型中boosting 的操作,主要包括n_estimators、learning_rate 和subsample,第2 類是弱學(xué)習(xí)器即CART 回歸樹的重要參數(shù),調(diào)節(jié)模型中每個(gè)決策樹的性質(zhì),主要包括max_depth、min_samples_split、min_samples_leaf和max_features等[5]。
learning_rate=[0.005,0.01,0.05,0.1]
n_estimators=[100,400,800,1000]
subsample=[0.5,0.6,0.7,0.8]
min_samples_split=[500,700,900,1100]
min_samples_leaf=[100,200,300,400]
max_depth=[5,10,15,20]
max_features=[13,20,27,34]
最終搜索得到的最佳超參數(shù)組合是:{'subsample':0.6,'n_estimators':400,'min_samples_split':1100,'min_samples_leaf':300,'max_features':13,'max_depth':5,'learning_rate':0.01}。在測試集上進(jìn)行評估,分類正確率acurracy為0.808,召回率0.632。
2.5.3 基于GBDT分類模型的潛在5G用戶預(yù)測
運(yùn)營商可根據(jù)5G 用戶GBDT 分類模型特征字段采集數(shù)據(jù),構(gòu)成樣本輸入模型對潛在5G 用戶進(jìn)行預(yù)測。實(shí)驗(yàn)結(jié)果表明,現(xiàn)網(wǎng)5G 用戶預(yù)測命中率為71%,即真實(shí)5G用戶中有71%被模型預(yù)測出來。
從2020年4月份開始收集某市聯(lián)通全網(wǎng)3G/4G用戶的B 域和O 域數(shù)據(jù)進(jìn)行5G 用戶預(yù)測,將預(yù)測出的5G 用戶清單交市場部進(jìn)行5G 精準(zhǔn)營銷。市場部反饋營銷結(jié)果及建議給項(xiàng)目組,項(xiàng)目組人員根據(jù)實(shí)際結(jié)果修正訓(xùn)練數(shù)據(jù)的特征,重新進(jìn)行樣本建模學(xué)習(xí),整個(gè)流程不斷閉環(huán)迭代開發(fā),提高預(yù)測的命中率(見圖2)。
圖2 5G用戶預(yù)測項(xiàng)目運(yùn)行環(huán)節(jié)流程
2020 年4 月前按每月營銷目標(biāo)人數(shù)6 萬計(jì)算,平均每月營銷成功的5G 用戶數(shù)約為3 335 人,占營銷用戶總數(shù)的5.56%,即營銷成功率為5.56%;在開始使用5G 用戶預(yù)測模型后,平均每月營銷成功的5G 用戶數(shù)約為14 659 人,營銷成功率提升至24.43%,每月多發(fā)展5G 用戶11 324 人(見圖3)。按每用戶月平均ARPU值50 元計(jì)算,2020 年4 月份、5 月份、6 月份3 個(gè)月共增加收入339萬元。
圖3 使用5G用戶預(yù)測模型前后用戶數(shù)增長情況
5G 用戶傳統(tǒng)營銷方式存在諸多痛點(diǎn),人工標(biāo)準(zhǔn)化營銷費(fèi)時(shí)費(fèi)力。通過引入機(jī)器學(xué)習(xí)算法學(xué)習(xí)5G 用戶正負(fù)樣本歷史出賬數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù),建立分類預(yù)測模型,可精準(zhǔn)預(yù)測全網(wǎng)潛在的5G用戶,解決了5G時(shí)代用戶規(guī)模發(fā)展的困境,極大程度地提高了5G用戶營銷的成功率。