李權(quán)
引言:本文對(duì)3G時(shí)代用戶(hù)的細(xì)分方法和3G目標(biāo)市場(chǎng)的定位作了初步的研究,提出了3G時(shí)代客戶(hù)識(shí)別數(shù)據(jù)挖掘模型,并采用BP神經(jīng)網(wǎng)絡(luò)和決策樹(shù)對(duì)該模型進(jìn)行驗(yàn)證,最后研究了3G目標(biāo)市場(chǎng)定位考慮的要素和初步的建議。
一、3G用戶(hù)細(xì)分體系架構(gòu)
用戶(hù)細(xì)分是3G業(yè)務(wù)開(kāi)發(fā)及市場(chǎng)營(yíng)銷(xiāo)的基礎(chǔ),用戶(hù)細(xì)分能夠使差異化成為可能,使運(yùn)營(yíng)商提供的3G產(chǎn)品和服務(wù)能夠更有針對(duì)性。3G用戶(hù)細(xì)分方法的選擇直接決定了相關(guān)用戶(hù)細(xì)分結(jié)果的準(zhǔn)確性及實(shí)用性。對(duì)于3G用戶(hù)細(xì)分的體系搭建的思路是: 采用3 個(gè)緯度進(jìn)行用戶(hù)的細(xì)分,首先按照用戶(hù)價(jià)值緯度進(jìn)行用戶(hù)細(xì)分,然后再結(jié)合消費(fèi)行為緯度和消費(fèi)心理緯度細(xì)分用戶(hù)群。在3G用戶(hù)細(xì)分的體系架構(gòu)中,3個(gè)緯度的用戶(hù)細(xì)分依據(jù)、方法及應(yīng)用價(jià)值如表1 所示。
二、客戶(hù)識(shí)別分類(lèi)模型
(一)數(shù)據(jù)抽取
本案例數(shù)據(jù)來(lái)源于某電信運(yùn)營(yíng)公司,該數(shù)據(jù)總量為26000條。每一條對(duì)應(yīng)一個(gè)客戶(hù)近六個(gè)月的統(tǒng)計(jì)信息。其中已知分類(lèi)(2G、3G)的為18000條,未知分類(lèi)8000 條。其中包括客戶(hù)年齡,月平均消費(fèi)額,月平均通話(huà)時(shí)長(zhǎng)等屬性250 個(gè)(包括客戶(hù)類(lèi)型)。本例利用26000條已知分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi)模型的建立,隨機(jī)抽取訓(xùn)練數(shù)據(jù)10000條,測(cè)試數(shù)據(jù)8000條。
(二)數(shù)據(jù)預(yù)處理
上述采集的數(shù)據(jù)有數(shù)據(jù)多、數(shù)據(jù)取值范圍廣和數(shù)據(jù)取值類(lèi)型多樣的特點(diǎn),因此必須在建模前對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,如采集的樣本數(shù)據(jù)存在一些屬性值缺省或空值,如果不做處理,將直接影響后續(xù)算法的挖掘效果,嚴(yán)重時(shí)甚至得到錯(cuò)誤的結(jié)果。數(shù)據(jù)預(yù)處理包含數(shù)據(jù)清洗、屬性篩選、數(shù)據(jù)平衡、數(shù)據(jù)歸一化和離散化五個(gè)步驟。數(shù)據(jù)清洗分為類(lèi)型轉(zhuǎn)換和缺失數(shù)據(jù)填補(bǔ)兩部分;屬性篩選分為人工篩選和通過(guò)相關(guān)系數(shù)分析實(shí)現(xiàn)屬性選擇兩部分;由于作為訓(xùn)練的18000條數(shù)據(jù)只有少數(shù)是3G用戶(hù),這樣會(huì)導(dǎo)致模型輸出結(jié)果偏向判別為2G 客戶(hù),因此必須通過(guò)數(shù)據(jù)平衡實(shí)現(xiàn)2、3G用戶(hù)數(shù)量達(dá)到1:1;為了提高BP 神經(jīng)網(wǎng)絡(luò)的性能,需要對(duì)數(shù)據(jù)進(jìn)行歸一化;對(duì)于決策樹(shù)算法,需要對(duì)數(shù)據(jù)進(jìn)行離散化,否則生產(chǎn)的決策樹(shù)將會(huì)過(guò)于茂盛,以至于無(wú)法分析。
三、客戶(hù)數(shù)據(jù)分類(lèi)識(shí)別過(guò)程
本文分別采用BP 神經(jīng)網(wǎng)絡(luò)和決策樹(shù)進(jìn)行建模,實(shí)現(xiàn)對(duì)3G 客戶(hù)的分類(lèi)識(shí)別。本案例運(yùn)用TipDM 數(shù)據(jù)挖掘在線(xiàn)建模平臺(tái)中的性分析進(jìn)行數(shù)據(jù)探索,再運(yùn)用BP 神經(jīng)網(wǎng)絡(luò)和C4.5 決策樹(shù)進(jìn)行客戶(hù)識(shí)別。(一)模型輸入。本案例中,模型數(shù)據(jù)涉及客戶(hù)年齡、月平均通話(huà)時(shí)長(zhǎng)和月平均消費(fèi)額等240多個(gè)屬性(包含客戶(hù)類(lèi)型),模型輸入需將客戶(hù)識(shí)別樣本屬性表導(dǎo)入建模平臺(tái)中即可。(二)仿真識(shí)別過(guò)程。建模仿真過(guò)程說(shuō)明如下:1.登錄TipDM 平臺(tái),在方案管理頁(yè)面中,新建方案或者打開(kāi)一個(gè)已建方案;2.切換到數(shù)據(jù)管理頁(yè)面,上傳經(jīng)預(yù)處理后的專(zhuān)家樣本數(shù)據(jù)文件;3.選擇相關(guān)性分析功能,導(dǎo)入樣本數(shù)據(jù)進(jìn)行相關(guān)性分析;4.分別選擇BP 神經(jīng)網(wǎng)絡(luò)算法和C4.5 決策樹(shù)算法,進(jìn)行模型構(gòu)建;5.對(duì)比BP 神經(jīng)網(wǎng)絡(luò)和C4.5 決策樹(shù)的建模結(jié)果,并選擇最優(yōu)算法;6.用最優(yōu)法對(duì)測(cè)試樣本進(jìn)行3G 客戶(hù)識(shí)別。(三)仿真結(jié)果分析。1.基于BP 神經(jīng)網(wǎng)絡(luò)的模型構(gòu)建。由于神經(jīng)網(wǎng)絡(luò)算法輸出結(jié)果受到訓(xùn)練次數(shù)影響,并伴隨一定的隨機(jī)性,多次實(shí)驗(yàn)得到的分類(lèi)正確率如下表所示。
四、總結(jié)與建議
決策樹(shù)與BP神經(jīng)網(wǎng)絡(luò)對(duì)于3G客戶(hù)的識(shí)別正確率都接近80%,說(shuō)明本用例建立的分類(lèi)模型對(duì)3G客戶(hù)的敏感度比較高,基本能識(shí)別出3G用戶(hù),能達(dá)到預(yù)期目標(biāo)。但是只看3G客戶(hù)的識(shí)別正確率是不科學(xué)的,還要看2G 客戶(hù)的識(shí)別正確率和總體識(shí)別正確率。從總體正確率看,BP 神經(jīng)網(wǎng)絡(luò)的正確率仍然比決策樹(shù)高近10%,BP神經(jīng)網(wǎng)絡(luò)無(wú)論是總體性能還是對(duì)局部分類(lèi)的敏感度都表現(xiàn)不錯(cuò),而決策樹(shù)分類(lèi)模型性能還有待提高。
雖然本例的客戶(hù)識(shí)別未能達(dá)到百分百地準(zhǔn)確,但從另外一個(gè)角度看,一味追求正確率并沒(méi)有太多意義。因?yàn)楸緛?lái)運(yùn)營(yíng)商對(duì)各個(gè)用戶(hù)的類(lèi)別就已經(jīng)作了登記,反而,我們或許能從客戶(hù)的誤識(shí)別中獲得更多信息。
本來(lái)是2G客戶(hù),但被識(shí)別為3G客戶(hù)的用戶(hù)很有可能就是因?yàn)樗母黜?xiàng)屬性與3G客戶(hù)的相似,如月均網(wǎng)絡(luò)游戲游流量比較大,月均消費(fèi)額較高,說(shuō)明這部分人客戶(hù)是有機(jī)會(huì)被發(fā)展成3G客戶(hù),電信運(yùn)營(yíng)商應(yīng)對(duì)這批客戶(hù)大力推銷(xiāo)3G應(yīng)用;而部分3G客戶(hù)被識(shí)別為2G客戶(hù),很有可能是因?yàn)閷?duì)目前的3G資費(fèi)或3G服務(wù)不滿(mǎn)意的客戶(hù),他們對(duì)3G應(yīng)用并不感興趣,因此和3G用戶(hù)的特征不相符,這部分客戶(hù)很有可能在未來(lái)幾個(gè)月內(nèi)會(huì)流失,所以,電信運(yùn)營(yíng)商應(yīng)更加關(guān)注這批客戶(hù)的情況,爭(zhēng)取減少客戶(hù)的離網(wǎng)率。
(作者單位:山西移動(dòng)通信有限公司朔州分公司)