任小強(qiáng),楊玉忠,張仁軒,王曉龍
(中國移動通信集團(tuán)甘肅有限公司蘭州分公司,蘭州 730030)
中國移動一直致力于推薦移動光寬帶建設(shè),將“寬帶中國”戰(zhàn)略落實(shí),更是多次響應(yīng)國家提速降費(fèi),將優(yōu)質(zhì)服務(wù)帶去千家萬戶。近年來,寬帶業(yè)務(wù)保持著快速發(fā)展,從全年數(shù)據(jù)看,2017年,中國移動的寬帶用戶已經(jīng)接近1.13億,移動寬帶用戶凈增3 506.3萬,平均每個月接近300萬,相比4G業(yè)務(wù),中國移動寬帶業(yè)務(wù)還有很大市場空間,如何通過營銷模式和策略的轉(zhuǎn)變,搶占市場份額是一個新的挑戰(zhàn)。未來營銷已經(jīng)與大數(shù)據(jù)分析的發(fā)展密不可分,誰掌握了更為先進(jìn)的大數(shù)據(jù)分析方法,并與營銷策略有效結(jié)合,誰就能搶占更多的市場份額。在這一背景下,營銷專家菲利普·科特勒在2005年底提出精準(zhǔn)營銷(Precision Marketing)的概念,針對大數(shù)據(jù)的精準(zhǔn)營銷研究方面,文獻(xiàn)[1-4]分別將大數(shù)據(jù)分析應(yīng)用到電視綜藝節(jié)目營銷、情報(bào)領(lǐng)域、移動通信網(wǎng)絡(luò)規(guī)劃等領(lǐng)域中,取得了相應(yīng)的效果。目前針對大數(shù)據(jù)下的精準(zhǔn)營銷模式缺乏系統(tǒng)性和應(yīng)用研究不夠深入,而且運(yùn)營商目前的營銷模式多為傳統(tǒng)模式,對目標(biāo)客戶的把握不準(zhǔn)確,造成營銷效率較低、成本和人員投入較大等問題。本文通過對運(yùn)營商大數(shù)據(jù)的概念和特點(diǎn)進(jìn)行總結(jié),應(yīng)用大數(shù)據(jù)挖掘算法將精準(zhǔn)營銷模式運(yùn)用在移動寬帶業(yè)務(wù)營銷中,以中國移動某地區(qū)寬帶業(yè)務(wù)為例進(jìn)行了驗(yàn)證。
大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合,業(yè)界通常用4個 V(即 Volume、Variety、Value、Velocity)來概括大數(shù)據(jù)的特征。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存儲系統(tǒng)。大數(shù)據(jù)分析并不是簡單的數(shù)據(jù)采編,更多需要一些算法技巧,比如分類算法、聚類算法、關(guān)聯(lián)規(guī)則等,相關(guān)經(jīng)典算法如表1所示,下面對本文應(yīng)用算法的思想簡單介紹。
表1 大數(shù)據(jù)分析相關(guān)算法
寬帶業(yè)務(wù)精準(zhǔn)營銷中,用戶留存是很重要的一部分,但顧客流失走向我們是無法控制的,只能通過預(yù)測,這時就需要運(yùn)用到分類模型。分類算法屬于預(yù)測性模型,根據(jù)過去數(shù)據(jù)、分析來預(yù)測將來一段時間的行為過程。分類學(xué)習(xí)方法所使用的數(shù)據(jù)集稱為訓(xùn)練集,訓(xùn)練集中每一個個體都有明確的類別,通過訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出來的特征,為每一個類找到一種準(zhǔn)確的描述或者模型分類算法有Logistic回歸,神經(jīng)網(wǎng)絡(luò)、貝葉斯分類器、SVM等算法。
聚類分析算法以相似性為基礎(chǔ),在一個聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性,主要是按照樣本、數(shù)據(jù)自身的屬性去歸類,用數(shù)學(xué)方法根據(jù)相似性或差異性指標(biāo),定量確定樣本親疏關(guān)系。核心聚類算法為K-means,主要思想為最小化所有樣本到所屬類別中心的歐式距離和,采用迭代的方式實(shí)現(xiàn)收斂,給定樣本數(shù)據(jù):
K-means算法的步驟如下:
(1)選取k個聚類中心點(diǎn),分別為:
(2)求出樣本i到類別中心的歐式距離,然后選擇距離最小的類別 :
(3)根據(jù)類別j中所有樣本特征和占類別j中樣本個數(shù)的比例求解每一類別的中心:
(4)不斷重復(fù)步驟2、3,直到所有樣本到其類別中心的歐式距離平方和J(c,μ)收斂。
關(guān)聯(lián)規(guī)則是從大量數(shù)據(jù)中發(fā)現(xiàn)樣本之間有趣的關(guān)聯(lián)和關(guān)系,從而為用戶需求有目的推送各種業(yè)務(wù)。關(guān)聯(lián)分析主要用“支持度”(Support)和“置性度”(Confidence)兩個概念衡量事物之間的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則A→B的支持度Support=P(AB),指的是事件A和事件B同時發(fā)生的概率。置信度Confidence=P(B|A)=P(AB)/P(A),指的是發(fā)生事件A的基礎(chǔ)上發(fā)生事件B的概率。此外關(guān)聯(lián)分析還有期望可信度(Expected Confidence)和作用度(Lift)等概念,期望可信度(Expected Cconfidence)和作用度(Lift),期望可信度描述了在沒有任何條件影響時,物品集B在所有事務(wù)中出現(xiàn)的概率有多大,作用度描述物品集A的出現(xiàn)對物品集B的出現(xiàn)有多大的影響。
運(yùn)營商數(shù)據(jù)一般都具有復(fù)雜性、相關(guān)性、冗余性和大規(guī)模等特性,如果將大量數(shù)據(jù)直接進(jìn)行分析,數(shù)據(jù)本身的特性導(dǎo)致分析方法的效率降低,通常需要耗費(fèi)大量的時間,從而使數(shù)據(jù)分析任務(wù)變的不可行和不現(xiàn)實(shí),此外由于數(shù)據(jù)中包含大量噪聲,數(shù)據(jù)分析基數(shù)增大的同時準(zhǔn)確度和可靠性都有所下降。因此在數(shù)據(jù)分析之前,先采用合理有效的方法對復(fù)雜數(shù)據(jù)的屬性進(jìn)行必要的簡約和壓縮,在盡量保留數(shù)據(jù)相關(guān)屬性的前提下,降低數(shù)據(jù)復(fù)雜性,刪除不必要的數(shù)據(jù)噪聲,是對大規(guī)模復(fù)雜數(shù)據(jù)進(jìn)行分析的前提條件之一。
常見的屬性約簡的算法有主成分分析法、因子分析法、非負(fù)矩陣因子分解NMF法等算法。這里以主成分分析算法為例,簡單介紹算法的主要思想和流程,便于在寬帶精準(zhǔn)營銷流程中對數(shù)據(jù)屬性的約簡。假設(shè)待分析數(shù)據(jù)為N個K維數(shù)據(jù),主要成分分析(PCA,又稱Karhunen-Loeve或K-L方法)即搜索q個最能代表數(shù)據(jù)的k-維正交向量,這里q≤k。這樣將K維數(shù)據(jù)空間壓縮為q維數(shù)據(jù)空間。
(1)將X1、X1、X2、X3…Xn構(gòu)成的M矩陣標(biāo)準(zhǔn)化,記為Mb,計(jì)算Mb的相關(guān)系數(shù)矩,記為R。
(2)對于相關(guān)矩陣R,采用雅克比行列式方法求得特征方程[R-λI]的P個非負(fù)特征根:
λi對應(yīng)的特征向量記為vi= (vi1,vi2,…vip),i= 1,2,…p并且滿足下式:
(3)選擇ω個主要屬性,使得ω這個核心屬性的方差占全部屬性總方差的比例:
并使所選ω個核心屬性盡可能多的保留原來P個特征的信息。
(1)數(shù)據(jù)集描述及約束條件:寬帶精準(zhǔn)營銷的目標(biāo)客戶與約束條件密切相關(guān),故應(yīng)在具體的邊界條件下進(jìn)行研究。這里邊界條件選為月均消費(fèi)58元以上,一年內(nèi)無欠費(fèi)信息,入網(wǎng)時間1年以上,4G流量月均2G以上,年齡45年以下的數(shù)據(jù)進(jìn)行分析。
(2)寬帶小區(qū)GIS信息:寬帶綜合資源管理系統(tǒng)詳細(xì)記錄了移動寬帶已經(jīng)接入的居民小區(qū)的名稱、數(shù)量、經(jīng)緯度、小區(qū)規(guī)模、入住率、是否驗(yàn)收等信息。如果居民小區(qū)在“綜合資源管理系統(tǒng)”中標(biāo)記已驗(yàn)收的寬帶接入?yún)^(qū)域,則表明該小區(qū)的客戶可以安裝中國移動的寬帶。
(3)用戶常住小區(qū)定位:在通信行業(yè)內(nèi)客戶住宅小區(qū)的定位方法和模型有多種多樣,常用的基于GPS和基站定位技術(shù)確定用戶常住小區(qū)信息。首先,通過同一基站下面的通話用戶來進(jìn)行一個粗略的位置確定,即劃分同一小區(qū)用戶時,先統(tǒng)計(jì)覆蓋該小區(qū)的網(wǎng)絡(luò)基站,然后統(tǒng)計(jì)在該網(wǎng)絡(luò)基站下面經(jīng)常通話的用戶則判定為該小區(qū)用戶,最后收集各住宅小區(qū)的物業(yè)電話、小區(qū)社區(qū)醫(yī)院等具有公共性質(zhì)的小區(qū)屬性電話,結(jié)合只有同一小區(qū)用戶才會撥打小區(qū)內(nèi)同一屬性電話的現(xiàn)實(shí)場景對該技術(shù)進(jìn)行多次修正定位該用戶的常住小區(qū)。
(4)用戶是否辦理寬帶:這是寬帶能否做到精準(zhǔn)營銷的一個最主要的問題,也是精準(zhǔn)營銷當(dāng)中面臨的一個最主要的難點(diǎn)問題。為此常用的就是采用排除法,采用VLAN標(biāo)識識別用戶產(chǎn)生的數(shù)據(jù)流量,首先排除中國移動寬帶的用戶,然后將采用4G流量和競爭對手的寬帶業(yè)務(wù)的用戶進(jìn)行分組,分別采用不同方法處理數(shù)據(jù)。系統(tǒng)再自動對應(yīng)出該客戶一般交往圈的數(shù)據(jù),取出這些已安裝寬帶的用戶交往概率在50%以上客戶作為該客戶的家屬,精準(zhǔn)營銷時要剔除掉目標(biāo)客戶的親屬。
(5)目標(biāo)客戶:基于大數(shù)據(jù)對用戶手機(jī)上網(wǎng)信令和日志數(shù)據(jù)進(jìn)行深度分析,從多個維度分析出用戶不同時間段、不同位置的上網(wǎng)行為,識別出用戶的流量使用偏好,進(jìn)而識別出不同用戶群的手機(jī)的時段上網(wǎng)偏好、位置偏好、應(yīng)用偏好等,比如客戶夜間流量較高,夜間存在游戲、視頻、IPTV類等重度流量使用的用戶。
(6)利用互聯(lián)網(wǎng)爬蟲技術(shù)找到搬家公司的電話號碼,根據(jù)用戶交往圈數(shù)據(jù),根據(jù)大數(shù)據(jù)分析算法對數(shù)據(jù)進(jìn)行聚類、相關(guān)和分類運(yùn)算。
這里為了說明問題,以中國移動某地區(qū)的10 000用戶數(shù)據(jù)作為研究樣本,首先利用約束條件剔除1 000用戶,選擇用戶年齡、入網(wǎng)時間、月均消費(fèi)、月均流量、終端類型、網(wǎng)絡(luò)制式、騰訊產(chǎn)品流量、上網(wǎng)特征和行為特征、月均短信條數(shù)、訂購業(yè)務(wù)量、積分、是否登錄CRM系統(tǒng)以及登錄次數(shù)等多個屬性,利用主成分分析法進(jìn)行上述屬性約簡,表2是應(yīng)用該算法得到的屬性分析表。
表2 用戶屬性權(quán)重分析表
表2中共列出13個屬性權(quán)重百分比和累積權(quán)重百分比,通過表2看到,6個屬性累積權(quán)重已經(jīng)超過80%,這里稱為核心要素,其它權(quán)重較少的稱為輔助要素。這樣將13個屬性壓縮為前6個屬性,達(dá)到減少屬性的目的,簡化數(shù)據(jù)的分析、運(yùn)算和處理。
通過數(shù)據(jù)屬性選擇、按照約束條件去除不完整數(shù)據(jù)來實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理,然后利用K-means算法進(jìn)行聚類。k-means聚類算法的基本思想是一般預(yù)先設(shè)定需要聚類的個數(shù)k,k一般取值5-13之間,且為整數(shù),然后根據(jù)統(tǒng)計(jì)量將數(shù)據(jù)集劃分到這k個簇中,將簇的均值作為簇中心,不斷通過迭代算法使其收斂,最后選擇合適的分類用戶當(dāng)做目標(biāo),得到結(jié)果如表3所示。
分析表中各個用戶類的特征:A類用戶為高價值用戶,以流量業(yè)務(wù)為主(多為不限流量套餐用戶),月均短信較少,通話時長較長,次數(shù)較少,入網(wǎng)時間較短,多為青年用戶;B、C類用戶為中價值用戶,流量業(yè)務(wù)和語音業(yè)務(wù)較為平衡,入網(wǎng)時間較長,這兩類用戶為精準(zhǔn)營銷的目標(biāo)用戶;D、E類用戶多為老用戶,多數(shù)仍以早期業(yè)務(wù)(短信)為主,消費(fèi)水平較低,入網(wǎng)時間最長,數(shù)據(jù)流量和通話時長都較少。
表3 用戶屬性的類別區(qū)間
關(guān)聯(lián)分析是在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其它信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu),即描述數(shù)據(jù)庫中不同數(shù)據(jù)項(xiàng)之間所存在關(guān)系的規(guī)則。關(guān)聯(lián)分析主要利用互聯(lián)網(wǎng)爬蟲技術(shù)找到注冊游戲及視頻賬戶、撥打搬家公司電話、撥打售樓公司電話、夜間存在游戲、視頻、IPTV類等高流量用戶,進(jìn)行相關(guān)性分析。如通過用戶上網(wǎng)日志,找到夜間(21:00點(diǎn)后至次日早上6:00前)每月有3次以上訪問騰訊APP的用戶,此用戶我們定義為潛在目標(biāo)客戶。
圖1 精準(zhǔn)營銷目標(biāo)用戶的提取
將上述按照約束條件刪選出的數(shù)據(jù)樣本,根據(jù)基于大數(shù)據(jù)寬帶精準(zhǔn)營銷業(yè)務(wù)的基本流程,按照約束條件、常住小區(qū)、是否覆蓋、是否辦理、關(guān)聯(lián)分析和聚類分析等過程,最后找到目標(biāo)用戶2 227,占比22%。具體如圖1所示,針對這些目標(biāo)用戶進(jìn)行精準(zhǔn)營銷,采用短信推送、外呼等手段進(jìn)行營銷,客戶有意向辦理1 536,最后成功辦理寬帶1 336戶,營銷成功率87%,與傳統(tǒng)營銷模式相比,節(jié)約了大量人力成本,對未來業(yè)務(wù)營銷具有一定的參考意義。
[1] 任錦鸞, 李濤, 李波. 基于大數(shù)據(jù)的電視綜藝節(jié)目精準(zhǔn)營銷[J].現(xiàn)代傳播, 2015,37(5):95-98.
[2] 王浩宇, 孫啟明, 胡凱. 信令大數(shù)據(jù)技術(shù)在精準(zhǔn)營銷中的應(yīng)用[J]. 北京郵電大學(xué)學(xué)報(bào)(社會科學(xué)版), 2016,18(4):70-76.
[3] 張春磊, 楊小牛. 大數(shù)據(jù)分析(BDA)及其在情報(bào)領(lǐng)域的應(yīng)用[J].中國電子科學(xué)研究院學(xué)報(bào), 2013,8(1):18-22.
[4] 李梅, 杜翠鳳, 沈文明. 基于大數(shù)據(jù)分析的移動通信網(wǎng)絡(luò)規(guī)劃方法[J]. 移動通信,2015(10):22-27.