亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于R語言的運(yùn)營商4G用戶流失預(yù)警模型研究

        2017-07-06 11:36:58曾國文趙寶峰王波
        移動(dòng)通信 2017年10期
        關(guān)鍵詞:漫游通話異地

        曾國文 趙寶峰 王波

        【摘 要】為了減少運(yùn)營商核心資源的流失,降低4G用戶流失率,通過采用與大數(shù)據(jù)技術(shù)緊密結(jié)合的R語言技術(shù),從消費(fèi)異動(dòng)、競爭對手影響、不正常沉默和長期異地漫游等維度設(shè)計(jì)建模指標(biāo),基于邏輯回歸分析搭建了4G用戶流失預(yù)警模型,并通過卡方檢驗(yàn)和ROC分析等方法驗(yàn)證了模型的正確性。該模型預(yù)測效果明顯,可以很好地對4G用戶的狀態(tài)進(jìn)行精準(zhǔn)定位,以達(dá)到對4G用戶的保有。

        【關(guān)鍵詞】4G用戶 流失預(yù)警模型 R語言 邏輯回歸

        1 引言

        隨著數(shù)據(jù)通信與多媒體業(yè)務(wù)的發(fā)展,第四代移動(dòng)通信(4G)快速興起,為移動(dòng)通信用戶提供了“高速對話”,通信運(yùn)營商全業(yè)務(wù)經(jīng)營已成趨勢,這也加劇了市場競爭,為了獲得更多的市場占有率,運(yùn)營商想方設(shè)法降低用戶流失率,以減少用戶離網(wǎng)現(xiàn)象的發(fā)生。研究表明,若一個(gè)公司的用戶流失率降低5%,則利潤將會(huì)增加25%~85%[1]。企業(yè)往往獲得一位新用戶的費(fèi)用是比較高的,但是挽留一位用戶有時(shí)僅僅只需要一個(gè)電話或者策略[2]。因此,運(yùn)營商需對用戶屬性進(jìn)行精準(zhǔn)定位,試圖挽留存在流失傾向的用戶資源[3]。4G用戶資源儼然已成為運(yùn)營商核心資源,如何通過建立數(shù)據(jù)挖掘模型進(jìn)行4G用戶流失預(yù)警,對有流失傾向的用戶進(jìn)行精準(zhǔn)定位是當(dāng)前重要課題。本文通過對用戶流失歷史情況進(jìn)行統(tǒng)計(jì)分析,歸納出用戶流失的共有特性,設(shè)計(jì)建模指標(biāo),搭建4G用戶流失預(yù)警模型并提出相應(yīng)的挽留政策,最終目的是降低用戶流失率[4]。

        2 建模技術(shù)及模型選擇

        2.1 建模技術(shù)選擇

        R語言一直是統(tǒng)計(jì)學(xué)家的經(jīng)典工具,它是一種開源軟件編程語言與操作環(huán)境,主要用于統(tǒng)計(jì)分析、繪圖、數(shù)據(jù)挖掘。R語言具有豐富的統(tǒng)計(jì)方法,擁有強(qiáng)大的統(tǒng)計(jì)功能,是一套完整的數(shù)據(jù)處理、計(jì)算和制圖軟件系統(tǒng),提供數(shù)學(xué)計(jì)算的環(huán)境,用戶能夠靈活地在其中進(jìn)行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計(jì)計(jì)算方法。

        此外,大數(shù)據(jù)處理是潮流和趨勢。當(dāng)前出現(xiàn)了以Hadoop家族為代表的用于開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái),重點(diǎn)是全量數(shù)據(jù)分析,而R語言的重點(diǎn)則是樣本數(shù)據(jù)分析,這兩種技術(shù)結(jié)合在一起剛好取長補(bǔ)短。因此,本文采用R語言作為數(shù)據(jù)建模語言,后續(xù)的建模過程均基于R語言開展。

        2.2 模型選擇

        用戶流失即企業(yè)原有用戶不想或不再使用該企業(yè)的服務(wù)[5]。用戶流失的原因多種多樣,如:Kenveney通過對消費(fèi)品用戶流失原因進(jìn)行分析,將用戶流失類型分為價(jià)格流失型、產(chǎn)品流失型、服務(wù)流失型、技術(shù)流失型、便利流失型等;Madden、Savage和Coble以澳大利亞ISP市場不同的移動(dòng)用戶消費(fèi)行為為研究對象,提出定價(jià)、不方便性、核心服務(wù)失敗、服務(wù)接觸失敗、服務(wù)失敗的反應(yīng)、競爭對手、道德問題等因素影響用戶流失意愿[6]。

        邏輯回歸分析方法[7]是數(shù)據(jù)挖掘技術(shù)中的分類方法,也是基于統(tǒng)計(jì)理論的識(shí)別技術(shù)。其主要目的是進(jìn)行分類,同時(shí)預(yù)估事件發(fā)生的概率,優(yōu)點(diǎn)是能處理二值因變量,不需滿足其他多變量技術(shù)所要求的假設(shè),可進(jìn)行模型精確度和擬合優(yōu)度的檢驗(yàn)以便評估模型的預(yù)測力等。

        本文采用了邏輯回歸技術(shù)來搭建4G用戶流失預(yù)警模型。從運(yùn)營商的角度來看,用戶狀態(tài)可分為在網(wǎng)和離網(wǎng)。其中,在網(wǎng)為依然使用運(yùn)營商為其提供的服務(wù);離網(wǎng)為不再使用,也即是流失。判斷用戶狀態(tài)屬于一個(gè)典型的二分類變量問題時(shí),可采用邏輯回歸分析來處理。邏輯回歸模型公式如下[8]:

        (1)

        由于邏輯回歸模型是非線性模型,所以就少了像線性模型那樣的約束,如自變量與因變量需具有線性關(guān)系等。其實(shí)邏輯回歸本質(zhì)上是線性回歸的一種,只是邏輯回歸中的因變量是未知的類別變量取某一個(gè)值的概率[9]。邏輯回歸是一個(gè)被邏輯方程歸一化后的線性回歸,事實(shí)上以上模型公式只需進(jìn)行l(wèi)og it變換即可變換成線性形式,公式如下:

        log it (2)

        4G用戶流失預(yù)警模型設(shè)計(jì)流程如圖1所示:

        3 用戶流失預(yù)警模型構(gòu)建

        3.1 分析思路

        本文將搭建4G用戶流失預(yù)警模型,其研究過程主要實(shí)現(xiàn)以下目標(biāo):

        (1)定義4G用戶的消費(fèi)異動(dòng)、不正常沉默、呼轉(zhuǎn)競爭對手、異地漫游這4類流失類型的口徑,完成建模指標(biāo)的設(shè)計(jì);

        (2)搭建4G用戶流失預(yù)警模型;

        (3)對模型進(jìn)行評估驗(yàn)證。

        建模過程:該業(yè)務(wù)問題是一個(gè)二元預(yù)測問題(是否流失),并且與之相關(guān)的數(shù)據(jù)大都是數(shù)值型的數(shù)據(jù),適合采用邏輯回歸的方法來建模。

        3.2 建模指標(biāo)設(shè)計(jì)與分析

        通過對已流失4G用戶進(jìn)行觀察、統(tǒng)計(jì)和分析,發(fā)現(xiàn)在用戶流失之前可能會(huì)出現(xiàn)以下方面的情況,可圍繞這些情況進(jìn)行建模指標(biāo)的選?。?/p>

        (1)消費(fèi)異動(dòng):與歷史消費(fèi)水平相比,突然出現(xiàn)消費(fèi)異常波動(dòng),一般通信行業(yè)選取ARPU(Average Revenue Per User,每用戶平均收入)值作為衡量用戶消費(fèi)水平的指標(biāo),因此設(shè)計(jì)建模指標(biāo)包括近三個(gè)月ARPU標(biāo)準(zhǔn)差、(本月ARPU-前三均值)/前三均值;

        (2)競爭對手影響:用戶日常聯(lián)系的主要通信圈子外網(wǎng)占比增加,網(wǎng)外通話占比增加,受競爭對手客服的影響或者有呼轉(zhuǎn)到競爭對手的情況,因此設(shè)計(jì)建模指標(biāo)包括本月網(wǎng)內(nèi)通話次數(shù)占比、本月網(wǎng)外通話時(shí)長占比、本月網(wǎng)外主叫次數(shù)占比、本月競爭對手客服主被叫通話次數(shù)、本月呼轉(zhuǎn)競爭對手次數(shù);

        (3)不正常沉默:通信行為出現(xiàn)突然減少乃至不正常沉默,從通話時(shí)長、通話次數(shù)和4G流量的使用情況綜合考量,因此設(shè)計(jì)建模指標(biāo)包括(本月通話時(shí)長-前三均值)/前三均值、最近三個(gè)月MOU(Minutes Of Usage,平均每戶每月通話時(shí)間)值標(biāo)準(zhǔn)差、(本月通話次數(shù)-前三均值)/前三均值、前三月通話次數(shù)均值/本月通話次數(shù)、最近三個(gè)月聯(lián)系次數(shù)標(biāo)準(zhǔn)差、本月4G流量;

        (4)長期異地漫游:若用戶近期經(jīng)常在異地漫游,則有可能該用戶主要生活在異地,并有可能換號,因此設(shè)計(jì)建模指標(biāo)包括(本月異地漫游通話次數(shù)/本月通話總次數(shù))-(異地漫游通話次數(shù)前三均值/通話總次數(shù)前三均值)、(本月異地漫游通話次數(shù)/本月通話總次數(shù))-(上月異地漫游通話次數(shù)/上月通話總次數(shù))、本月異地漫游通話次數(shù)、上月異地漫游通話次數(shù);

        (5)其他:統(tǒng)計(jì)分析還發(fā)現(xiàn)流失用戶與入網(wǎng)時(shí)長關(guān)系緊密,入網(wǎng)時(shí)長越長,流失的可能性就越小,因此把入網(wǎng)時(shí)長也作為建模指標(biāo)。

        3.3 數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)探索

        (1)數(shù)據(jù)準(zhǔn)備

        從廣東移動(dòng)某分公司經(jīng)營分析數(shù)據(jù)集市,通過ETL獲取上述建模指標(biāo)所需數(shù)據(jù)源,數(shù)據(jù)提取的口徑完全參照該運(yùn)營商市場部門日常工作需求。如提取2015年涉及上述指標(biāo)所需的在網(wǎng)和離網(wǎng)4G用戶消費(fèi)及通信行為基礎(chǔ)數(shù)據(jù)集,總樣本數(shù)為559 185,其中選取訓(xùn)練集和測試集比例為6:4。

        將所有基礎(chǔ)數(shù)據(jù)集從數(shù)據(jù)集市導(dǎo)出到R語言建模環(huán)境,在該建模環(huán)境對數(shù)據(jù)進(jìn)行預(yù)處理,采用統(tǒng)計(jì)方法計(jì)算生成數(shù)據(jù)建模指標(biāo)。因變量為用戶是否流失,也即該字段判斷用戶是在網(wǎng)還是已經(jīng)離網(wǎng);自變量為用戶消費(fèi)通信行為各指標(biāo)字段。

        (2)數(shù)據(jù)探索

        在對基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)探索的過程中,發(fā)現(xiàn)存在缺失值,因此利用R語言函數(shù)進(jìn)行缺失值分析。繪制缺失值統(tǒng)計(jì)圖如圖2所示:

        考慮到缺失值或異常值對統(tǒng)計(jì)分析結(jié)果和建模結(jié)果會(huì)產(chǎn)生不利影響,因此直接剔除缺失的數(shù)據(jù)和消費(fèi)波動(dòng)很大的數(shù)據(jù)。

        進(jìn)行建模指標(biāo)的相關(guān)性分析時(shí),部分指標(biāo)的相關(guān)性分析結(jié)果如圖3所示:

        回歸分析一般假設(shè)建模變量之間都是獨(dú)立不相關(guān)的,如果有任何兩個(gè)變量存在強(qiáng)相關(guān)性,則只需保留其中一個(gè)而刪除其余變量[9]。將建模指標(biāo)中存在明顯相關(guān)的指標(biāo)進(jìn)行篩選剔除,使得所有自變量都不顯著相關(guān),避免自變量之間存在很強(qiáng)的共線性而導(dǎo)致模型效果不好。

        采用箱線圖、直方圖、分析曲線等統(tǒng)計(jì)圖表技術(shù)對各建模指標(biāo)數(shù)據(jù)進(jìn)行分散分布情況分析,發(fā)現(xiàn)異常指標(biāo),尋找奇異值,并進(jìn)一步進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換,以確保建模數(shù)據(jù)的有效性。

        3.4 數(shù)據(jù)建模與模型評估

        (1)數(shù)據(jù)建模

        本文研究過程中將樣本數(shù)據(jù)按0.6、0.4的比例分為訓(xùn)練集和測試集,進(jìn)行數(shù)據(jù)建模分析的時(shí)間窗口設(shè)置如圖4所示:

        采用R語言邏輯回歸函數(shù)對已經(jīng)完成數(shù)據(jù)清洗和轉(zhuǎn)換的訓(xùn)練集數(shù)據(jù)建模指標(biāo)進(jìn)行邏輯回歸建模,經(jīng)過反復(fù)多次的建模指標(biāo)分析,剔除掉P-Value值小于0.05的指標(biāo),再用評估函數(shù)對模型結(jié)果進(jìn)行初步評估,具體如圖5所示:

        從上述評估結(jié)果可以發(fā)現(xiàn),所有變量的P值均小于0.05,這說明通過了顯著性檢驗(yàn)。至此,已完成了基于R語言搭建的通信運(yùn)營商4G用戶流失預(yù)警模型,下面需要對模型進(jìn)行深入評估。

        (2)模型評估

        先對模型進(jìn)行卡方檢驗(yàn),檢驗(yàn)結(jié)果如圖6所示:

        隨著變量從第一個(gè)到最后一個(gè)逐個(gè)加入模型,模型最終通過顯著性檢驗(yàn),這說明由上述這些變量組成的模型是有意義且正確的。

        采用ROC曲線(Receiver Operating Characteristic Curve,受試者工作特征曲線)分析方法這樣一種可視化的方法來衡量模型的優(yōu)劣。該曲線的橫坐標(biāo)、縱坐標(biāo)分別表示1-反例的覆蓋率和正例的覆蓋率。采用R語言專有函數(shù)包計(jì)算ROC曲線各項(xiàng)結(jié)果值,并用繪圖函數(shù)繪制圖形,具體如圖7所示。

        ROC分析思想來源于統(tǒng)計(jì)學(xué)的決策理論,ROC曲線越凸則說明判斷模型價(jià)值越高,并可以通過計(jì)算ROC曲線下的面積做定量分析,面積越接近1,表明模型效果越好[10]。

        圖7中,AUC即為ROC曲線和y=x直線之間的面積,模型的優(yōu)劣是通過該面積大小來判斷的,而對于一般情況而言,AUC大于0.7就能夠說明模型是比較合理的。上述結(jié)果中,AUC為0.86,這表明本文研究中建立的模型是合理的。

        使用已建好的模型計(jì)算測試數(shù)據(jù)集流失概率,取流失概率大于0.5的用戶預(yù)測其潛在流失,再與實(shí)際情況比較得到命中率為pv=74%,而在隨機(jī)的方式下抽取出正類的比例為k=10%,從而可得pv/k=7.4,預(yù)測效果提升了7.4倍,同時(shí)計(jì)算模型的整體準(zhǔn)確率達(dá)到了91.4%,因此本文研究搭建的模型效果是明顯的,模型預(yù)測的準(zhǔn)確率也能達(dá)到較高水平,可從消費(fèi)異動(dòng)、競爭對手影響、不正常沉默和長期異地漫游等維度指標(biāo)建模準(zhǔn)確地預(yù)測用戶是否潛在流失。

        4 結(jié)論

        本文采用能夠很好地結(jié)合大數(shù)據(jù)技術(shù)的R語言來建模,并從消費(fèi)異動(dòng)、競爭對手影響、不正常沉默和長期異地漫游等維度創(chuàng)新性地設(shè)計(jì)建模指標(biāo),最終成功搭建了4G用戶流失預(yù)警模型。通過卡方檢驗(yàn)和ROC曲線驗(yàn)證了模型是正確的、合理的,計(jì)算提升值提升了7.4倍,且計(jì)算模型的整體準(zhǔn)確率達(dá)到了91.4%,這表明模型預(yù)測效果是明顯的,從而驗(yàn)證了本文研究的模型有助于對有流失傾向的用戶進(jìn)行精準(zhǔn)定位,以便及時(shí)地進(jìn)行預(yù)警挽留,達(dá)到對核心資源的保有。

        參考文獻(xiàn):

        [1] 方紅. 讀者流失預(yù)警模型及其在公共圖書情報(bào)機(jī)構(gòu)中的應(yīng)用[J]. 黑龍江科技信息, 2007(4): 103.

        [2] 嚴(yán)偉. 如何防范客戶流失[J]. 企業(yè)管理, 2003(6): 52-54.

        [3] 林明輝. 基于BP網(wǎng)絡(luò)的通訊行業(yè)客戶流失預(yù)警模型研究[J]. 陜西學(xué)前師范學(xué)院學(xué)報(bào), 2016,32(3): 146-149.

        [4] 顧光同,王力賓,費(fèi)宇. 電信客戶流失預(yù)警規(guī)則及其信度測定實(shí)證研究——以云南電信為例[J]. 云南財(cái)經(jīng)大學(xué)學(xué)報(bào), 2010,26(6): 94-98.

        [5] 肖水清. 基于CRM探討電信業(yè)的客戶流失問題[J]. 現(xiàn)代計(jì)算機(jī), 2006(1): 57-59.

        [6] SY Hung, DC Yen, HY Wang. Applying data mining to telecom churn management[J]. Expert Systems with Applications, 2006,31(3): 515-524.

        [7] 施朝健,張明銘. Logistic回歸模型分析[J]. 計(jì)算機(jī)輔助工程, 2005,14(3): 74-78.

        [8] 付杰,方芳,嚴(yán)克文. 基于Logistic回歸的通信業(yè)客戶流失預(yù)測與挽留研究[J]. 鄂州大學(xué)學(xué)報(bào), 2015,22(6): 110-112.

        [9] 任康,李剛. Logistic回歸模型在判別分析中的應(yīng)用[J]. 統(tǒng)計(jì)與信息論壇, 2007,22(6): 71-73.

        [10] 萬柏坤,薛召軍,李佳,等. 應(yīng)用ROC曲線優(yōu)選模式分類算法[J]. 自然科學(xué)進(jìn)展, 2006,16(11): 1511-1516.

        猜你喜歡
        漫游通話異地
        《戊戌元日與友人通話》
        中華詩詞(2018年5期)2018-11-22 06:46:08
        霹靂漫游堂
        NASA漫游記
        推進(jìn)醫(yī)保異地結(jié)算 穩(wěn)字當(dāng)先
        低成本視頻通話APP
        如何開拓異地市場?
        你適不適合異地戀
        文苑(2015年10期)2015-10-09 11:21:50
        破除異地結(jié)算的地方抵制
        2013年11月通信業(yè)主要指標(biāo)完成情況(一)
        2013年3月通信業(yè)主要指標(biāo)完成情況(一)
        国产综合无码一区二区色蜜蜜| 国产精品一区二区夜色不卡| 国产av大片在线观看| 国产三级视频一区二区| 久久蜜桃资源一区二区| 手机福利视频| 国产精品 视频一区 二区三区| 亚洲va成无码人在线观看 | 一区二区三区夜夜久久| 人妻久久一区二区三区蜜桃| 国产莉萝无码av在线播放| 精品视频入口| 美腿丝袜一区在线观看| 草草影院ccyy国产日本欧美| 精品无码久久久久成人漫画| 亚洲tv精品一区二区三区| 女人天堂av免费在线| 丁香五月亚洲综合在线| 精品人妻系列无码人妻免费视频| аⅴ天堂一区视频在线观看 | 伊人久久精品久久亚洲一区| 人妻无码中文专区久久综合| 99在线无码精品秘 人口| 精品亚洲国产日韩av一二三四区| 成年女人vr免费视频| 国模精品无码一区二区二区| 男女性搞视频网站免费| 久久久精品国产亚洲av网深田 | 亚洲欧美激情精品一区二区| 亚洲欧洲日产国码久在线观看| 国产91九色视频在线播放| 最新中文字幕人妻少妇| 国产女主播喷水视频在线观看| 亚洲人成网站久久久综合| 久草中文在线这里只有精品| 强奷乱码中文字幕| 久久av无码精品一区二区三区| 人妻精品久久久一区二区| 国产精品免费无遮挡无码永久视频| 亚洲精品国产精品国自产观看| 国产在线观看网址不卡一区|