路 瑋,李軼群,李佳俊,王蘊(yùn)實(shí)
(中國(guó)聯(lián)通網(wǎng)絡(luò)技術(shù)研究院,北京 100048)
隨著移動(dòng)互聯(lián)網(wǎng)終端不斷增加,目前中國(guó)聯(lián)通有將近3億移動(dòng)業(yè)務(wù)用戶,假設(shè)用戶兩年換一次手機(jī),則平均每年有1.5億用戶換機(jī)量[1],所以換機(jī)市場(chǎng)份額巨大。引入大數(shù)據(jù)挖掘技術(shù)對(duì)海量的換機(jī)數(shù)據(jù)進(jìn)行深度挖掘,分析潛在用戶的換機(jī)需求,例如用戶喜歡的終端品牌型號(hào)、心理價(jià)位、品牌忠實(shí)度等。通過(guò)對(duì)用戶換機(jī)大數(shù)據(jù)分析,構(gòu)建換機(jī)模型,挖掘出用戶換機(jī)信息,不僅有利于擴(kuò)大用戶市場(chǎng)增加經(jīng)濟(jì)效益,同時(shí)還為所在省份提供現(xiàn)網(wǎng)用戶終端使用情況,為網(wǎng)絡(luò)規(guī)劃部署作出參考,推動(dòng)終端和網(wǎng)絡(luò)之間協(xié)調(diào)發(fā)展。
隨著全球及國(guó)內(nèi)移動(dòng)終端產(chǎn)業(yè)鏈發(fā)展[2],終端對(duì)網(wǎng)絡(luò)功能實(shí)現(xiàn)影響力越來(lái)越大,所以從網(wǎng)絡(luò)側(cè)對(duì)終端業(yè)務(wù)進(jìn)行數(shù)據(jù)分析十分必要[3]。數(shù)據(jù)來(lái)源包括從省份提取的每月全網(wǎng)出賬用戶終端數(shù)據(jù),體現(xiàn)用戶行為信息;終端TAC庫(kù),體現(xiàn)終端基本屬性信息;終端價(jià)格表信息,體現(xiàn)終端價(jià)格基本信息。通過(guò)上千萬(wàn)條數(shù)據(jù)記錄及幾十個(gè)屬性指標(biāo)[4],展現(xiàn)出用戶換機(jī)行為特性。各數(shù)據(jù)表的關(guān)聯(lián)關(guān)系如圖1所示。
(1)省份原始數(shù)據(jù)是提取省份每月出賬的終端數(shù)據(jù),包括終端的歸屬地市、終端移動(dòng)設(shè)備國(guó)際識(shí)別碼(International Mobile Equipment Identity,IMEI)、用戶編號(hào)、國(guó)際移動(dòng)用戶標(biāo)識(shí)(International Mobile Subscriber Identity,IMSI)、登錄過(guò)4G網(wǎng)絡(luò)附著標(biāo)識(shí)、3G網(wǎng)絡(luò)使用標(biāo)識(shí)等基本字段信息,其中IMEI設(shè)定為主鍵。
(2)換機(jī)用戶關(guān)聯(lián)數(shù)據(jù)表是將換機(jī)前后終端數(shù)據(jù)信息整合到一張表中[5],在數(shù)據(jù)整合過(guò)程中過(guò)濾掉冗余字段,保留有效字段,其中IMEI_pre、TAC_pre表示為換機(jī)前終端的IMEI和TAC信息,IMEI_cur、TAC_cur表示為換機(jī)后終端的IMEI和TAC信息。由于各個(gè)終端數(shù)據(jù)表中關(guān)鍵字段不匹配,有的提供TAC信息,有的提供IMSI信息,為了統(tǒng)一處理,需要將TAC信息和IMSI信息進(jìn)行轉(zhuǎn)化,新增TAC字段信息,從IMEI號(hào)中提取前7位號(hào)碼轉(zhuǎn)化TAC字段。其中IMEI設(shè)定為主鍵。
(3)終端庫(kù)表是終端關(guān)鍵數(shù)據(jù)信息,包括終端TAC號(hào)、終端名稱、終端ID、廠家名稱、廠家ID、網(wǎng)絡(luò)類型、創(chuàng)建時(shí)間、更新時(shí)間等基本字段信息。其中TAC號(hào)設(shè)定為主鍵。
(4)終端價(jià)格表是定義不同終端價(jià)格檔位基本信息,包括終端ID、終端型號(hào)、廠家編碼、廠家名稱,以及終端價(jià)格檔位等字段信息。其中終端ID設(shè)為主鍵。數(shù)據(jù)表中將終端價(jià)格檔位分為A~E檔,價(jià)格上差額1 000 元一個(gè)檔位,其中大于等于3 500 為A檔,小于1 000 為E檔,如表1所示。
圖1 終端數(shù)據(jù)關(guān)聯(lián)圖
表1 終端價(jià)格檔位表
(5)終端價(jià)格關(guān)聯(lián)表是將終端庫(kù)表和終端價(jià)格表進(jìn)行關(guān)聯(lián),按關(guān)鍵字段終端ID進(jìn)行數(shù)據(jù)合并,將相同終端ID號(hào)的終端型號(hào)、價(jià)格檔位、終端TAC號(hào)合并為一個(gè)表。其中設(shè)TAC號(hào)為主鍵。
(6)TAC庫(kù)數(shù)據(jù)是終端的基本數(shù)據(jù),包括TAC號(hào)、終端品牌(Marketing Name)、終端廠商(Manufacturer)、支持的頻段(Bands)、2G標(biāo)識(shí)、3G標(biāo)識(shí)、4G標(biāo)識(shí)、雙卡、設(shè)備類型等基本字段信息。其中設(shè)TAC號(hào)為主鍵。
(7)終端換機(jī)關(guān)聯(lián)表是將終端價(jià)格關(guān)聯(lián)表、換機(jī)用戶關(guān)聯(lián)數(shù)據(jù)表、TAC庫(kù)表進(jìn)行關(guān)聯(lián)[6-7],按換機(jī)前TAC號(hào)和換機(jī)后TAC號(hào)為關(guān)鍵字進(jìn)行合并,包含換機(jī)標(biāo)識(shí),換機(jī)前Marketing_Name_pre、Manufacturer_pre、2G標(biāo)識(shí)_pre、3G標(biāo)識(shí)_pre、4G標(biāo)識(shí)_pre、終端檔位_pre,換機(jī)后Marketing_Name_cur、Manufacturer_cur、2G標(biāo)識(shí)_cur、3G標(biāo)識(shí)_cur、4G標(biāo)識(shí)_cur、終端檔位_cur等基本字段信息。換機(jī)是對(duì)比同一用戶IMSI號(hào)下不同IMEI號(hào)的終端信息,如果IMEI_pre=IMEI_cur,則表示沒(méi)有換機(jī),換機(jī)標(biāo)識(shí)為0;如果IMEI_pre≠IMEI_cur,則表示用戶換機(jī),換機(jī)標(biāo)識(shí)為1。其中設(shè)IMSI號(hào)為主鍵。
IBM SPSS Modeler具有豐富的數(shù)據(jù)挖掘算法,支持?jǐn)?shù)據(jù)庫(kù)之間的數(shù)據(jù)與模型交換。在數(shù)據(jù)分析時(shí)通過(guò)數(shù)據(jù)收集、預(yù)處理、模型建立、模型評(píng)估等環(huán)節(jié),通過(guò)若干節(jié)點(diǎn),建立一條或多條數(shù)據(jù)流,調(diào)整和修改數(shù)據(jù)流中的節(jié)點(diǎn)和參數(shù),完成整個(gè)數(shù)據(jù)分析任務(wù)[8]。采用SPSS Modeler進(jìn)行數(shù)據(jù)處理,基礎(chǔ)數(shù)據(jù)流的建立和完善是數(shù)據(jù)業(yè)務(wù)分析的基礎(chǔ)和支撐,可以滿足不同省份的統(tǒng)一業(yè)務(wù)的需求分析。根據(jù)數(shù)據(jù)業(yè)務(wù)數(shù)據(jù)源分析,建立業(yè)務(wù)挖掘模型[9]。終端數(shù)據(jù)流處理過(guò)程如圖2所示。
圖2 終端數(shù)據(jù)流處理過(guò)程框架
圖3 數(shù)據(jù)節(jié)點(diǎn)審核統(tǒng)計(jì)
在數(shù)據(jù)準(zhǔn)備階段,讀取省份當(dāng)月出賬的終端原始數(shù)據(jù)、上個(gè)月的出賬終端原始數(shù)據(jù)、TAC庫(kù)數(shù)據(jù)以及終端價(jià)格檔位數(shù)據(jù)等數(shù)據(jù)信息。瀏覽數(shù)據(jù)內(nèi)容,對(duì)數(shù)據(jù)進(jìn)行過(guò)濾、確認(rèn)字段存儲(chǔ)類型、讀取數(shù)據(jù)的變量類型等參數(shù)設(shè)置,例如將IMSI號(hào)和IMEI號(hào)存儲(chǔ)類型從字符串變更為整數(shù)。通過(guò)過(guò)濾選項(xiàng)卡修改變量名稱,將上個(gè)月的數(shù)據(jù)表中的IMEI變量名稱改為IMEI_pre,當(dāng)月的數(shù)據(jù)表中的IMEI變量變更為IMEI_cur。通過(guò)數(shù)據(jù)審核可以觀察出統(tǒng)計(jì)數(shù)據(jù)中的異常數(shù)據(jù)、極端數(shù)據(jù)[10]。
對(duì)于異常數(shù)據(jù)需要在數(shù)據(jù)預(yù)處理階段進(jìn)行修改或刪除。在數(shù)據(jù)預(yù)處理階段,為了提取有效數(shù)據(jù)的價(jià)值,需要提前將缺失和異常數(shù)據(jù)處理干凈,對(duì)數(shù)據(jù)進(jìn)行一系列的清洗、轉(zhuǎn)化、加載等[11]。在省份當(dāng)月出賬的終端原始數(shù)據(jù)里只有IMEI碼信息,沒(méi)有TAC碼信息,為了同TAC庫(kù)進(jìn)行對(duì)比分析,需要根據(jù)IMEI信息派生出TAC碼。TAC碼是IMEI碼前六位數(shù)字,代表終端型號(hào)。利用函數(shù)intof(‘IMEI號(hào)’/1000000)將IMEI值轉(zhuǎn)化為TAC值,通過(guò)TAC標(biāo)識(shí),與TAC庫(kù)進(jìn)行對(duì)比,可以獲得終端基本信息。IMEI是終端唯一識(shí)別碼,對(duì)于換機(jī)業(yè)務(wù)來(lái)說(shuō)關(guān)注終端換機(jī)前和換機(jī)后終端IMEI對(duì)比至關(guān)重要,所以將終端IMEI號(hào)作為主鍵,唯一標(biāo)識(shí)數(shù)據(jù)表中的每條記錄[12]。在數(shù)據(jù)處理過(guò)程中需要將原始數(shù)據(jù)的字段類型進(jìn)行調(diào)整,將IMSI、IMEI字段從實(shí)數(shù)或字符串變更為整數(shù),類型為連續(xù)型。同時(shí)過(guò)濾參數(shù)字段,保留IMEI號(hào)、IMSI號(hào)有效字段,剔出用戶編碼等信息。通過(guò)對(duì)原始數(shù)據(jù)轉(zhuǎn)化、過(guò)濾、類型變更、匹配合并等初步處理,可以將數(shù)據(jù)轉(zhuǎn)化為有效數(shù)據(jù)。由省份當(dāng)月原始數(shù)據(jù)表和上個(gè)月原始數(shù)據(jù)表合成換機(jī)用戶關(guān)聯(lián)數(shù)據(jù)表,以IMSI標(biāo)識(shí)為主鍵,用IMSI關(guān)鍵字段進(jìn)行合并,并對(duì)IMEI進(jìn)行去重,保留終端唯一性,IMEI_pre、TAC_pre表示為換機(jī)前終端的IMEI和TAC信息,IMEI_cur、TAC_cur表示為換機(jī)后終端的IMEI和TAC信息。終端庫(kù)和終端價(jià)格表的對(duì)比合并生成終端價(jià)格關(guān)聯(lián)表,通過(guò)終端ID關(guān)鍵字段,生成以TAC為主鍵,包含終端ID、價(jià)格檔位、終端類型等字段的數(shù)據(jù)表。TAC庫(kù)中標(biāo)明了終端的屬性,包括該終端品牌、終端型號(hào)、支持2G/3G/4G頻段情況、設(shè)備類型、是否是雙卡等信息。用戶終端TAC號(hào)同TAC庫(kù)中TAC號(hào)進(jìn)行匹配可以查出用戶終端包含的屬性,顯示出用戶終端的頻段支持情況。在合并時(shí)使用TAC號(hào)作為關(guān)鍵字。將TAC庫(kù)表、換機(jī)用戶關(guān)聯(lián)數(shù)據(jù)表、終端價(jià)格關(guān)聯(lián)表3張表以換機(jī)前TAC_pre為合并字段,生成換機(jī)前終端型號(hào)、終端品牌、終端支持2G/3G/4G情況、終端檔位信息;以換機(jī)后TAC_cur為合并字段,生成換機(jī)后終端信號(hào)、終端品牌、終端支持2G/3G/4G情況、終端檔位信息[13]。
模型建立,生成數(shù)據(jù)流;將分析出的結(jié)果匯總,通過(guò)表或圖形展現(xiàn)出來(lái)[14]。
通過(guò)換機(jī)業(yè)務(wù)模型[15]對(duì)省份連續(xù)2個(gè)月的出賬1 200 萬(wàn)條的終端數(shù)據(jù)進(jìn)行分析。本文從換機(jī)前后品牌占比、用戶換機(jī)忠誠(chéng)度、換機(jī)后價(jià)格檔位等幾個(gè)方面進(jìn)行深入分析。分析結(jié)果如圖4所示。
圖4 換機(jī)前后品牌TOP10占比統(tǒng)計(jì)情況
換機(jī)前后TOP5品牌均為蘋果、華為、VIVO、魅族、OPPO,其中蘋果換機(jī)減少2.62%,華為換機(jī)減少2.65%, VIVO換機(jī)減少1%,小米換機(jī)增加2.26%,魅族換機(jī)增加1.57%,OPPO換機(jī)增加1.47%[16]。如圖5所示。
圖5 終端品牌變更統(tǒng)計(jì)
分析可見,蘋果、魅族、OPPO換機(jī)后繼續(xù)使用同款終端品牌占比相對(duì)較高,基本在60%~68%左右,華為、VIVO繼續(xù)使用同款終端品牌占比45%,說(shuō)明用戶對(duì)TOP5的終端品牌忠誠(chéng)度比較高。
如圖6所示,A檔價(jià)格檔位在≥3 500占8.71%,B檔價(jià)格檔在[2 500,3 500)占比26.59%,C檔價(jià)格檔在[1 500,2 500]占比14.5%,D檔價(jià)格檔在[1 000,1 500)占比28.96%,E檔價(jià)格檔在(0,1 000)占比21.24%。
圖6 終端價(jià)格檔位百分比
如圖7所示,統(tǒng)計(jì)終端各檔位前5位的品牌型號(hào),其中:
在A檔價(jià)格中,蘋果占27.37%,華為占22.32%,VIVO占19.56%,三星占9.29%,小米占5.5%;
在B檔價(jià)格中,蘋果占29.91%,VIVO占21.63%, 魅族占14.77%,小米占8.49%,華為占7.34%;
在C檔價(jià)格中,VIVO占24.27%, 魅族占16.18%,三星占13.94%,小米占13.21%,華為占10.05%;
在D檔價(jià)格中,VIVO占21.09%, 華為占13.24%,OPPO占5.87%,小米占4.58%,魅族占3.2%;
在E檔價(jià)格中,VIVO占19.76%,魅族占13.36%,OPPO占8.61%,小米占5.55%,華為占5.25%。
從價(jià)格上可以看出,蘋果在高端終端占比較大,VIVO在各個(gè)檔位均是最受歡迎的品牌。
本文根據(jù)用戶換機(jī)業(yè)務(wù)需求通過(guò)大數(shù)據(jù)分析構(gòu)建一個(gè)終端換機(jī)模型,利用省份出賬的終端數(shù)據(jù)統(tǒng)計(jì)出用戶換機(jī)忠誠(chéng)度、終端價(jià)格檔位占比、終端品牌等信息,挖掘出用戶的潛在的偏愛喜好,找出影響用戶換機(jī)行為的關(guān)鍵因素,對(duì)提升市場(chǎng)營(yíng)銷有很大幫助。
圖7 終端數(shù)據(jù)流處理過(guò)程框架