王雪瓊,熊珺潔,姚曉輝
(中國電信股份有限公司上海研究院,上海 200122)
基于大數(shù)據(jù)挖掘的終端換機(jī)模型
王雪瓊,熊珺潔,姚曉輝
(中國電信股份有限公司上海研究院,上海 200122)
目前,移動終端已成為運(yùn)營商維系用戶、拓展市場的戰(zhàn)略重心,提升移動終端銷量、擴(kuò)大終端規(guī)模是各運(yùn)營商的工作重點(diǎn)。基于數(shù)據(jù)挖掘技術(shù),從用戶屬性、終端使用信息、終端搜索訪問信息等維度出發(fā),挖掘海量用戶行為數(shù)據(jù)價值,建立終端換機(jī)模型,具體包括基于決策樹算法的用戶換機(jī)傾向識別模型和基于聚類算法的終端推薦模型,助力移動終端精準(zhǔn)營銷。
移動終端營銷;數(shù)據(jù)挖掘;決策樹;聚類算法
移動互聯(lián)網(wǎng)時代,OTT業(yè)務(wù)迅猛發(fā)展,中國移動、中國電信和中國聯(lián)通三大運(yùn)營商長期賴以依存的語音和短信業(yè)務(wù)受到OTT應(yīng)用的嚴(yán)重侵蝕,2015年語音業(yè)務(wù)收入在移動通信業(yè)務(wù)收入占比37.97%,比2014年下降12.7個百分點(diǎn)。為了應(yīng)對移動互聯(lián)網(wǎng)的沖擊,各大運(yùn)營商將流量經(jīng)營作為工作重點(diǎn),力圖構(gòu)建智能管道,尋求以流量和增值服務(wù)帶動收入增長的模式。另一方面,電信市場出現(xiàn)一種協(xié)同競爭的新局面——“端管云”,即手機(jī)終端、通信傳輸終端、云計(jì)算中心??梢娮鳛镺TT應(yīng)用載體的移動終端已成為各大運(yùn)營商競相爭奪的利潤高地。
雖然運(yùn)營商希望通過移動終端市場突破流量經(jīng)營的瓶頸,但是通信市場已趨于飽和,工業(yè)和信息化部通信運(yùn)營業(yè)統(tǒng)計(jì)公報(bào)顯示,2015年移動電話用戶總數(shù)達(dá)13.06億戶,移動電話用戶普及率達(dá)95.5部/百人,已經(jīng)不能通過大量增加新用戶來拉動電信收入的增長。當(dāng)前形勢下,運(yùn)營商應(yīng)該更多地關(guān)注存量用戶的移動終端使用情況,將終端銷售與高價值用戶的維系和拓展相結(jié)合。
隨著用戶數(shù)據(jù)量的激增,傳統(tǒng)的數(shù)據(jù)分析方法和營銷方式受到巨大的挑戰(zhàn),急需引入大數(shù)據(jù)挖掘技術(shù)對海量數(shù)據(jù)進(jìn)行深度挖掘,探索用戶消費(fèi)行為數(shù)據(jù)的潛在價值,支撐終端精準(zhǔn)營銷。
目前,大數(shù)據(jù)挖掘技術(shù)在電信業(yè)務(wù)應(yīng)用方面的研究主要有:
[1]提出將大數(shù)據(jù)挖掘技術(shù)應(yīng)用到電信運(yùn)營商終端營銷上,但是沒有給出具體的建模方法;
·參考文獻(xiàn)[2]基于售前終端營銷和售后終端能力分析兩大功能模塊,構(gòu)建支撐市場部和終端廠商的終端分析體系;
·參考文獻(xiàn)[3]利用大數(shù)據(jù)挖掘技術(shù)剖析用戶離網(wǎng)原因,確定目標(biāo)用戶群,進(jìn)而針對潛在離網(wǎng)用戶提出合理的營銷政策和建議;
·參考文獻(xiàn)[4]基于Hadoop大數(shù)據(jù)架構(gòu)采集電信運(yùn)營商網(wǎng)絡(luò)側(cè)的數(shù)據(jù),并對海量數(shù)據(jù)進(jìn)行加工分析,挖掘掩藏于其中的用戶行為特征,構(gòu)建用戶行為分析模型,展現(xiàn)了用戶行為分析系統(tǒng)的設(shè)計(jì)思路與實(shí)現(xiàn)方法;
·參考文獻(xiàn)[5]基于統(tǒng)計(jì)分析和數(shù)據(jù)挖掘技術(shù),針對手機(jī)垃圾短信治理效果不佳等問題設(shè)計(jì)了垃圾短信過濾系統(tǒng)。該系統(tǒng)根據(jù)實(shí)時獲取的垃圾短信自動生成過濾規(guī)則,在短信轉(zhuǎn)發(fā)階段進(jìn)行過濾。
本文總結(jié)了數(shù)據(jù)處理的主要方法,并基于大數(shù)據(jù)挖掘技術(shù),多角度綜合分析了用戶的消費(fèi)行為數(shù)據(jù)、移動DPI數(shù)據(jù)和終端使用數(shù)據(jù),詳細(xì)闡述了數(shù)據(jù)處理、模型構(gòu)建以及模型評估的具體過程,實(shí)現(xiàn)以下功能:
·基于決策樹算法構(gòu)建用戶換機(jī)傾向識別模型,有效預(yù)測未來兩個月內(nèi)最有可能更換終端的目標(biāo)用戶;
·基于聚類算法分別構(gòu)建用戶流量—價值九宮格、終端價格—性能九宮格,實(shí)現(xiàn)用戶業(yè)務(wù)價值和終端的標(biāo)簽細(xì)化;
·根據(jù)業(yè)務(wù)價值和終端細(xì)化標(biāo)簽結(jié)果,為目標(biāo)用戶匹配合適的終端,引導(dǎo)營銷策略。
數(shù)據(jù)挖掘一般指利用算法搜索隱藏于海量數(shù)據(jù)中的重要信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn) (cross-industry standard process for data mining,CRISP-DM)將一個完整的數(shù)據(jù)挖掘項(xiàng)目周期分為業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評估和部署6個階段。圖1中的箭頭指出了各個階段之間最重要和頻繁的關(guān)聯(lián)依賴,圖形的外圈表達(dá)了數(shù)據(jù)挖掘本身的循環(huán)特性。
圖1 CRISP-DM標(biāo)準(zhǔn)
2.1 數(shù)據(jù)處理
數(shù)據(jù)質(zhì)量對數(shù)據(jù)挖掘結(jié)果有至關(guān)重要的影響,在數(shù)據(jù)挖掘項(xiàng)目中,接近60%的時間和精力用來熟悉、處理和轉(zhuǎn)換數(shù)據(jù),最大限度保證數(shù)據(jù)的可用性。
(1)數(shù)據(jù)抽樣
若數(shù)據(jù)全集規(guī)模太大,針對數(shù)據(jù)全集進(jìn)行分析建模會消耗較多時間,有時過大的數(shù)據(jù)量會導(dǎo)致軟件運(yùn)行時崩潰。而采用合理的數(shù)據(jù)抽樣,會明顯降低這些負(fù)面影響且不會影響建模效果。在抽樣時要確保輸入變量的值域、分布,輸出變量的值域、分布與數(shù)據(jù)全集的保持一致。另一種是預(yù)測小概率事件時的抽樣,將在第3.6節(jié)介紹。
(2)數(shù)據(jù)審核
在獲取數(shù)據(jù)后對數(shù)據(jù)進(jìn)行一致性檢查。一致性檢查是指根據(jù)每個變量的合理取值范圍和相互關(guān)系,檢查數(shù)據(jù)是否合乎要求,發(fā)現(xiàn)超出正常范圍、邏輯上不合理或者相互矛盾的數(shù)據(jù)。進(jìn)一步,統(tǒng)計(jì)缺失值、異常值比例,評估數(shù)據(jù)可用性。最后處理缺失值和異常值。
(3)數(shù)據(jù)轉(zhuǎn)換
根據(jù)采用轉(zhuǎn)換的邏輯和目的的不同,數(shù)據(jù)轉(zhuǎn)換可分為4類:產(chǎn)生衍生變量,通過對原始數(shù)據(jù)進(jìn)行簡單、適當(dāng)?shù)臄?shù)學(xué)公式推導(dǎo),產(chǎn)生更加有業(yè)務(wù)意義的新變量;連續(xù)數(shù)據(jù)的離散化,為了降低變量的復(fù)雜性,提升預(yù)測能力,可以利用分箱變換將連續(xù)型變量轉(zhuǎn)換成名義型變量 (例如年齡變量,每10歲構(gòu)成一個年齡組,可以有效簡化數(shù)據(jù));改善變量的分布,針對不對稱分布的變量,運(yùn)用各種數(shù)學(xué)變換將其分布呈現(xiàn)(或近似)正態(tài)分布;數(shù)據(jù)標(biāo)準(zhǔn)化,該變換的主要目的是將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個小的區(qū)間范圍內(nèi),消除量綱的影響,使其有平等分析和比較的基礎(chǔ)。
(4)篩選有效的輸入變量
過多的輸入變量會帶來干擾和過擬合等問題,導(dǎo)致模型穩(wěn)定性下降,因此要遵循少而精的原則。主要方法有:結(jié)合業(yè)務(wù)經(jīng)驗(yàn)進(jìn)行篩選,很多情況下可以根據(jù)業(yè)務(wù)專家的商業(yè)敏感性有效縮小自變量的考察范圍;計(jì)算變量間的相關(guān)系數(shù)(如皮爾遜相關(guān)系數(shù)),若兩個變量間的相關(guān)系數(shù)大于或等于0.6,說明兩個變量間存在中度以上線性關(guān)系,建模時只需保留一個。
2.2 樣本說明
模型總是在某一樣本基礎(chǔ)上建立的,將最大限度反映該樣本的“核心行為”,但由于樣本抽樣的隨機(jī)性,無法確定該模型在其他樣本上的表現(xiàn)。為了能更好地評判模型效果,需將建模數(shù)據(jù)分為訓(xùn)練集和測試集,通常訓(xùn)練集與測試集樣本比例為1∶1。訓(xùn)練集用于建立模型,包含實(shí)際目標(biāo)值為1的正樣本與實(shí)際目標(biāo)值為0的負(fù)樣本。測試集用于評估模型效果,包含實(shí)際目標(biāo)值為1的正樣本與實(shí)際目標(biāo)值為0的負(fù)樣本。模型應(yīng)用數(shù)據(jù)是指用于預(yù)測的數(shù)據(jù),該部分?jǐn)?shù)據(jù)沒有目標(biāo)值,將其作用到構(gòu)建好的模型上,得到實(shí)際預(yù)測用戶名單。樣本說明如圖2所示。
本文從中國電信某省公司本地網(wǎng)中抽取50萬戶用戶的數(shù)據(jù)進(jìn)行挖掘分析,首先根據(jù)用戶歷史行為數(shù)據(jù)構(gòu)建換機(jī)傾向識別模型,識別出2016年9月和10月份有換機(jī)傾向的用戶;再根據(jù)用戶現(xiàn)用終端和消費(fèi)行為信息構(gòu)建終端推薦模型,為用戶推薦合適的終端,實(shí)現(xiàn)終端的精準(zhǔn)營銷。本文結(jié)合SPSSModeler軟件詳細(xì)闡述模型構(gòu)建過程。
3.1 模型輸入
首先確定寬表的數(shù)據(jù)窗口、觀察月份、目標(biāo)日期(數(shù)據(jù)窗口的最后一天)。本文的數(shù)據(jù)窗口選取2016年4月、5月和6月,觀察月份選取2016年7月和8月。選取的變量維度如下。
(1)用戶基本屬性維度
用戶唯一標(biāo)識、地市編碼、年齡、性別、在網(wǎng)時長、客戶渠道、是否合約用戶、合約到期時間等。
(2)終端使用信息維度
現(xiàn)用終端上市日期,現(xiàn)用終端主屏幕尺寸,現(xiàn)用和歷史終端價格、品牌、類型、終端注冊時間,追溯至n-3款。
(3)用戶消費(fèi)行為信息維度
用戶的ARPU(average revenue per user,每用戶平均收入)值和流量使用量。
(4)終端搜索訪問信息(移動DPI數(shù)據(jù))維度
視頻、音樂、游戲、地圖、打車和網(wǎng)購App使用次數(shù),視頻、音樂、游戲、地圖、打車和網(wǎng)購App流量使用量等。
3.2 數(shù)據(jù)審核
全面審核樣本數(shù)據(jù),利用SPSSModeler軟件中的數(shù)據(jù)審核節(jié)點(diǎn)查看各變量的最小值、最大值、平均值、標(biāo)準(zhǔn)差,異常值、離群值的個數(shù)以及缺失值的比例,評估數(shù)據(jù)的可用性,如圖3所示。將離群值和缺失值進(jìn)行強(qiáng)制轉(zhuǎn)換,用最接近的正常值進(jìn)行替換。圖3顯示合約到期時間缺失值占70%,這主要是由于只有29%左右的用戶辦理合約套餐,在建模時這個字段可以不作為輸入變量,但可以計(jì)算剩余協(xié)議時長,剩余協(xié)議時長小于6個月的用戶優(yōu)先營銷。
3.3 生成衍生變量
(1)換機(jī)標(biāo)識
將在觀察月份內(nèi)更換終端的用戶標(biāo)識為1,作為建模的正樣本,否則標(biāo)識為0,作為負(fù)樣本。根據(jù)現(xiàn)用終端注冊時間確認(rèn)用戶在觀察月份內(nèi)是否換機(jī)。
圖2 樣本說明
圖3 數(shù)據(jù)審核結(jié)果
(2)現(xiàn)用終端持機(jī)時長和歷史平均持機(jī)時長
根據(jù)目標(biāo)日期和現(xiàn)用終端注冊時間計(jì)算現(xiàn)用終端持機(jī)時長,根據(jù)現(xiàn)用終端注冊時間、歷史前一終端注冊時間、歷史前二終端注冊時間分別計(jì)算歷史前一終端持機(jī)時長、歷史前二終端持機(jī)時長,利用歷史前一終端持機(jī)時長和歷史前二終端持機(jī)時長計(jì)算歷史平均持機(jī)時長;進(jìn)一步生成衍生變量是否達(dá)到換機(jī)周期,若現(xiàn)用終端持機(jī)時長大于歷史平均持機(jī)時長,則取值為1,否則取值為0。
(3)剩余協(xié)議時長
根據(jù)目標(biāo)日期和合約到期時間計(jì)算剩余協(xié)議時長,以月為單位。
(4)ARPU和流量的平均值及趨勢
通常選取用戶3個月的行為數(shù)據(jù)進(jìn)行分析,首先分別計(jì)算2016年4月、5月和6月ARPU均值和流量均值。但均值不能衡量用戶消費(fèi)能力的變化,進(jìn)一步計(jì)算兩個趨勢變量,分別刻畫用戶消費(fèi)能力的變化趨勢及活躍程度。若用戶6月的ARPU(流量)大于或等于ARPU(流量)平均值,則取值為1,否則取值為-1。
(5)應(yīng)用訪問總次數(shù)和總流量
本文選取了6種App 3個月的使用次數(shù)和流量使用量,共36個字段,字段過多不能直接用于建模,要生成兩個能衡量用戶上網(wǎng)偏好的變量。計(jì)算6個App 3個月訪問次數(shù)的總和得到應(yīng)用訪問總次數(shù),同理得到應(yīng)用訪問總流量。
(6)品牌忠誠度
利用每個用戶現(xiàn)用和歷史終端品牌分4機(jī)忠誠、3機(jī)忠誠和2機(jī)忠誠計(jì)算忠誠品牌,考察用戶是否對某個品牌終端有偏好。若有忠誠品牌,品牌忠誠度變量取值為1,否則取值為0。
3.4 變量離散化
現(xiàn)用終端價格、在網(wǎng)時長、年齡等字段都是連續(xù)型變量,為了降低變量的復(fù)雜性,可以利用SPSSModeler軟件中的分箱節(jié)點(diǎn)對變量進(jìn)行離散化。該節(jié)點(diǎn)提供多種分箱方法,如固定寬度、分位數(shù)、等級、最優(yōu)等方法,本文應(yīng)用分位數(shù)方法,將現(xiàn)用終端持機(jī)時長、歷史平均持機(jī)時長、現(xiàn)用終端價格、在網(wǎng)時長、應(yīng)用訪問總流量、應(yīng)用訪問總次數(shù)、年齡、ARPU均值、流量均值進(jìn)行離散化。
3.5 變量篩選
經(jīng)過數(shù)據(jù)預(yù)處理,可以用于建模的變量有性別,品牌忠誠度,ARPU趨勢,流量趨勢,是否達(dá)到換機(jī)周期,主屏幕尺寸,離散化的現(xiàn)用終端持機(jī)時長、歷史平均持機(jī)時長、現(xiàn)用終端價格、在網(wǎng)時長、應(yīng)用訪問總流量、應(yīng)用訪問總次數(shù)、年齡、ARPU均值、流量均值,本文利用SPSSModeler中的特征選擇節(jié)點(diǎn),計(jì)算每個變量的重要性,篩選出13個重要建模變量,剔除品牌忠誠度和離散化的歷史平均持機(jī)時長,結(jié)果如圖4所示。
圖4 變量選擇結(jié)果
3.6 模型構(gòu)建
在建模前需用SPSSModeler中的分區(qū)節(jié)點(diǎn)將建模樣本分為訓(xùn)練集和測試集,占比為1∶1。數(shù)據(jù)審核發(fā)現(xiàn)本文選取的樣本中只有15%的用戶換機(jī),由于模型總是力爭使錯誤率最小化,若直接在這種分布上建立分類模型,所得的模型會偏向占比較高的非換機(jī)用戶,對該部分用戶的預(yù)測精度較高,但不能有效識別出換機(jī)用戶,因此在訓(xùn)練集上要對樣本進(jìn)行平衡,使得換機(jī)用戶與非換機(jī)用戶的比例為1∶1。
用于分類模型的算法主要有決策樹C5.0、決策樹CHAID、神經(jīng)網(wǎng)絡(luò)等,如何從眾多的算法中選取最合適的構(gòu)建模型是一個難點(diǎn)。SPSSModeler中的自動分類器節(jié)點(diǎn)利用整體精確性和增益等指標(biāo)衡量各個算法的優(yōu)劣。綜合考慮增益和總體精確性兩個指標(biāo)發(fā)現(xiàn)決策樹CHAID算法比較理想,如圖5所示,故選取決策樹CHAID算法進(jìn)一步精準(zhǔn)建模。CHAID模型給出預(yù)測變量的重要性排序,圖6顯示ARPU趨勢,流量趨勢,離散化的在用終端持機(jī)時長、終端價格、應(yīng)用訪問總次數(shù)和主屏幕尺寸這些變量對模型構(gòu)建起關(guān)鍵作用。
圖5 自動分類器結(jié)果
圖6 CHAID模型運(yùn)行結(jié)果
3.7 模型評估
對建立好的模型做進(jìn)一步的評估和優(yōu)化,有兩種常用的方法。
(1)SPSSModeler中的分析節(jié)點(diǎn)
該節(jié)點(diǎn)分別給出模型在訓(xùn)練集和測試集上的正確率,對模型的準(zhǔn)確性給出整體描述。將分析節(jié)點(diǎn)作用到CHAID模型上,圖7顯示測試集的正確率為73%,訓(xùn)練集上的正確率為81%。
圖7 分析節(jié)點(diǎn)結(jié)果
(2)在測試集上計(jì)算命中率和覆蓋率
命中率反映模型輸出的預(yù)測目標(biāo)對執(zhí)行效率的提升情況,計(jì)算式為預(yù)測成功換機(jī)/預(yù)測換機(jī);覆蓋率反映模型輸出的預(yù)測目標(biāo)在實(shí)際換機(jī)人群中的覆蓋情況,計(jì)算式為預(yù)測成功換機(jī)/實(shí)際換機(jī)。針對本例,預(yù)測換機(jī)人數(shù)為54 182人,實(shí)際換機(jī)人數(shù)為37 099,預(yù)測中實(shí)際換機(jī)人數(shù)為22 767人,計(jì)算命中率為42.1%,比原始濃度(15%)提升2.8倍,覆蓋率為61.3%。。
3.8 模型優(yōu)化
模型測試集的正確率只有73%,需要對模型做進(jìn)一步的優(yōu)化。重新審視建模過程,發(fā)現(xiàn)將現(xiàn)用終端持機(jī)時長、歷史終端持機(jī)時長、現(xiàn)用終端價格、在網(wǎng)時長、應(yīng)用訪問總流量、應(yīng)用訪問總次數(shù)、年齡、ARPU均值、流量均值進(jìn)行離散化時都用的是分位數(shù)法,沒有考慮各變量與目標(biāo)變量(換機(jī)標(biāo)識)間的關(guān)系,因此在離散化時應(yīng)選取綜合考慮目標(biāo)變量的最優(yōu)法進(jìn)行分箱。調(diào)整后繼續(xù)運(yùn)行自動分類器節(jié)點(diǎn),如圖8所示。結(jié)合增益和總體精確性兩個指標(biāo)綜合考慮,選取決策樹CHAID算法進(jìn)一步精準(zhǔn)建模,結(jié)果如圖9、圖10所示。
圖11顯示訓(xùn)練集和測試集的正確率均超過94%,預(yù)測換機(jī)人數(shù)為45 628人,實(shí)際換機(jī)人數(shù)為37 099人,預(yù)測中實(shí)際換機(jī)人數(shù)為35 002人,計(jì)算命中率為76.7%,比原始濃度(15%)提升5倍,覆蓋率為94.3%,模型效果提升明顯。
圖8 自動分類器運(yùn)行結(jié)果
圖9 CHAID模型運(yùn)行結(jié)果
圖10 CHAID模型運(yùn)行結(jié)果
圖11 分析節(jié)點(diǎn)結(jié)果
本模型利用全網(wǎng)終端價格和性能的聚類細(xì)分特征,構(gòu)建終端價格—性能九宮格,并結(jié)合高換機(jī)傾向用戶的終端九宮格標(biāo)簽和價值標(biāo)簽為其推薦合適的終端。本模型的數(shù)據(jù)處理與換機(jī)傾向識別模型類似,這里不再贅述。
4.1 模型輸入
用戶基本屬性維度:用戶唯一標(biāo)識、地市、是否合約用戶、合約到期時間。
終端使用信息維度:現(xiàn)用終端價格,現(xiàn)用終端型號,現(xiàn)用終端上市日期,現(xiàn)用和歷史終端品牌、類型,追溯至n-3款等。
用戶消費(fèi)行為信息維度:用戶的ARPU值和流量使用量。
全網(wǎng)終端信息:全網(wǎng)終端主屏幕尺寸(screen_size)、屏幕分辨率(resolution)、電池容量(battery)、主攝像頭(camera)、RAM和AP主頻(CPU)。
4.2 終端九宮格構(gòu)建
終端九宮格是將在售和已退市(但仍有人使用)的所有終端按性能和價格分別聚為高中低3類,為每款終端賦予九宮格標(biāo)簽。根據(jù)終端型號,關(guān)聯(lián)出目標(biāo)用戶終端的九宮格標(biāo)簽。
(1)構(gòu)建終端數(shù)據(jù)庫
利用集團(tuán)終端自注冊信息獲取全網(wǎng)用戶在用終端/歷史終端的性能、價格、上市時間等信息。若部分終端的價格和性能信息缺失,可通過網(wǎng)絡(luò)爬蟲工具獲?。蝗艚K端自注冊信息覆蓋的終端型號不全,也需通過網(wǎng)絡(luò)爬蟲工具獲取該部分終端的價格和性能信息。
(2)終端價格聚類
先剔除極端值,再利用k-means算法將終端聚為3類,分別為高價格、中價格和低價格,再將剔除掉的極大值歸入高價格類中,極小值歸入低價格類中,結(jié)果如圖12所示。
(3)終端性能聚類
選取最能反映終端性能的主屏幕尺寸、屏幕分辨率、電池容量、主攝像頭、RAM和AP主頻6個指標(biāo),利用k-means算法將終端聚為高性能、中等性能和低性能3類,結(jié)果如圖13所示。
圖12 價格聚類
圖13 性能聚類
(4)構(gòu)建終端九宮格
利用k-means算法,為每一個終端輸出兩類標(biāo)簽,分別是價格標(biāo)簽(高價格、中價格、低價格)和性能標(biāo)簽(高性能、中等性能、低性能)。通過兩兩組合得到如圖14所示的9個標(biāo)簽,即每一個終端的最后標(biāo)簽是9宮格內(nèi)的數(shù)字。將部分終端歸入九宮格內(nèi),結(jié)果如圖15所示。
4.3 用戶價值標(biāo)簽
體現(xiàn)用戶價值的指標(biāo)有ARPU值、流量使用量(flux)和語音計(jì)費(fèi)時長等,但高性能終端對語音計(jì)費(fèi)時長提升不大,對流量使用量提升較大,進(jìn)而提升ARPU值。因此在構(gòu)建用戶價值九宮格時,不考慮語音計(jì)費(fèi)時長,利用k-means算法分別對用戶ARPU值和流量進(jìn)行聚類,處理方法與終端價格聚類相同,結(jié)果如圖16所示。
4.4 用戶—終端標(biāo)簽分析
根據(jù)終端型號關(guān)聯(lián)目標(biāo)用戶的終端九宮格標(biāo)簽,分析這些用戶的終端和價值信息,可以看出:
·大量用戶屬于低流量、低ARPU值,并且使用低價格低性能終端(第9類);
圖14 終端的9個標(biāo)簽
·第5、第6類終端用戶中,中高流量、中高ARPU值的用戶可以優(yōu)先進(jìn)行終端引導(dǎo)升級;
·使用第1類終端,且高ARPU值的用戶為高價值用戶,需要關(guān)懷,可向其推薦高檔終端,引導(dǎo)其換機(jī)。
4.5 終端推薦遷轉(zhuǎn)路徑
基于兩個原則設(shè)計(jì)遷轉(zhuǎn)路徑。一是終端性能維度遷移,用戶在花銷變化不大(同價格段)的基礎(chǔ)上,更愿意購買性能升級的終端;二是終端價格維度遷移,高ARPU用戶消費(fèi)水平較高,可向其推薦高價格終端。根據(jù)上述原則,結(jié)合用戶的價值標(biāo)簽設(shè)計(jì)簽轉(zhuǎn)路徑如圖17所示。本文假定要營銷的目標(biāo)終端九宮格標(biāo)簽為1、2、5、6,故遷轉(zhuǎn)路徑的目標(biāo)只包含這4個格子。
4.6 目標(biāo)終端推薦
首先確定具有換機(jī)傾向用戶的現(xiàn)用終端九宮格標(biāo)簽,再結(jié)合用戶的價值標(biāo)簽按照圖17所示的簽轉(zhuǎn)路徑確定該用戶最適合的終端九宮格標(biāo)簽,應(yīng)向其優(yōu)先推薦該格內(nèi)的目標(biāo)終端。營銷時還要考慮以下兩點(diǎn):
·品牌忠誠度。若用戶有忠誠品牌,則優(yōu)先推薦該品牌終端;
·剩余協(xié)議時長。優(yōu)先向剩余協(xié)議時長小于6個月的用戶推薦終端。
圖15 終端九宮格示例
本文根據(jù)筆者日常工作的實(shí)踐經(jīng)驗(yàn)總結(jié)了數(shù)據(jù)預(yù)處理的相關(guān)方法,并基于中國電信某省公司本地網(wǎng)50萬戶用戶的終端信息和行為數(shù)據(jù),詳細(xì)闡述了用戶換機(jī)傾向識別模型和終端推薦模型的構(gòu)建、評估過程。首先利用換機(jī)傾向識別模型預(yù)測出2016年9月和10月具有換機(jī)傾向的用戶,再結(jié)合終端推薦模型給出的這些用戶的現(xiàn)用終端九宮格標(biāo)簽、用戶價值標(biāo)簽,待營銷的目標(biāo)終端九宮格標(biāo)簽和終端遷轉(zhuǎn)路徑向其推薦合適的終端。
圖16 ARPU聚類和流量聚類
圖17 遷轉(zhuǎn)路徑
參考文獻(xiàn):
[1]鄧逸斌,朱克雋.大數(shù)據(jù)挖掘助力電信運(yùn)營商終端營銷[J].中國新通信,2013,43(23):43-44. DENG Y B,ZHU K J.Terminal marketing promotion based on big data[J].China New Telecommunications,2013,43(23): 43-44.
[2]張勇.基于大數(shù)據(jù)挖掘的客戶換機(jī)傾向評估模型研究 [J].數(shù)字通信世界,2016,144(7). ZHANG Y.Terminal replaced inclination evaluated based on big data[J].Digital Communication World,2016,144(7).
[3]趙一平.運(yùn)用數(shù)據(jù)挖掘技術(shù)控制手機(jī)客戶離網(wǎng)淺析 [J].統(tǒng)計(jì)科學(xué)與實(shí)踐,2013(10):46-47. ZHAO Y P.Analysis of customer churn based on big data[J]. Zhejiang Statistics,2013(10):46-47.
[4]谷紅勛,楊珂.基于大數(shù)據(jù)的移動用戶行為分析系統(tǒng)與應(yīng)用案例[J].電信科學(xué),2016,32(3):139-146. GU H X,YANG K.Mobile user behavior analysis system and applications based on big data[J].Telecommunications Science, 2016,32(3):139-146.
[5]沈超,黃衛(wèi)東.數(shù)據(jù)挖掘在垃圾短信過濾中的應(yīng)用 [J].電子科技大學(xué)學(xué)報(bào),2009,38(s1):21-24. SHEN C,HUANG W D.Application of data mining in short message spam filtering[J].Journal of University of Electronic Science and Technology of China,2009,38(s1):21-24.
王雪瓊(1987-),女,中國電信股份有限公司上海研究院助理工程師,主要研究方向?yàn)閿?shù)據(jù)分析、數(shù)據(jù)挖掘與建模。
熊珺潔(1983-),女,中國電信股份有限公司上海研究院工程師,主要研究方向?yàn)榇髷?shù)據(jù)分析與建模、無線網(wǎng)絡(luò)的可靠性。
姚曉輝(1979-),男,中國電信股份有限公司上海研究院工程師,大數(shù)據(jù)領(lǐng)域首席技術(shù)支撐,主要研究方向?yàn)閿?shù)據(jù)規(guī)劃、數(shù)據(jù)挖掘、信息管理。
Terminal replacement model based on big data mining
WANG Xueqiong,XIONG Junjie,YAO Xiaohui
Shanghai Research Institute of China Telecom Co.,Ltd.,Shanghai 200122,China
In order to incrementally capture,retain and grow the subscriber bases,mobile operators must more effectively maximize the utilization of big data.Promoting the sale of mobile terminals was one of the focus of the operator’s business currently.By mining the big data of consumer behaviors,including consumers’attributes, mobile terminal information and DPI data,replacing inclination distinguished model was built based on decision tree and recommending model was built based on clustering algorithm to identify target customers.
mobile terminal recommendation,data mining,decision tree,clustering algorithm
F274
A
10.11959/j.issn.1000-0801.2016314
2016-12-02;
2016-12-10