亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機(jī)器學(xué)習(xí)在運(yùn)營商用戶流失預(yù)警中的運(yùn)用

        2018-05-03 10:01:26劉穎慧崔羽飛
        信息通信技術(shù) 2018年1期
        關(guān)鍵詞:決策樹分類客戶

        趙 慧 劉穎慧 崔羽飛 張 第

        中國聯(lián)通研究院北京10032

        引言

        我國通信行業(yè)經(jīng)過近二十年的發(fā)展,現(xiàn)在基本呈現(xiàn)三足鼎立的局勢。各企業(yè)競爭日趨激烈,各大運(yùn)營商都面臨著客戶狀態(tài)不穩(wěn)定,客戶生命周期縮短等問題。

        移動通信行業(yè)的現(xiàn)有企業(yè)中,一般情況下客戶月流失率在3%左右,如果靜態(tài)計(jì)算,所有客戶會在2~3年內(nèi)全部流失。

        2017年我國的移動電話普及率首次突破102.5部/百人,在一個如此成熟和飽和的市場中,開拓新用戶的難度可想而知。從傳統(tǒng)意義上來講,移動通信行業(yè)保留舊客戶利潤率為開發(fā)一位新客戶的16倍,尤其對于剩余客戶市場日漸稀疏的移動通信市場來說,減少客戶流失就意味著用更少的成本減少利潤的流失,這點(diǎn)已經(jīng)為運(yùn)營商所廣為接受。由此可見客戶保持的重要性,也就是說保留舊客戶比開發(fā)、吸收新客戶更重要,如何提前識別高風(fēng)險流失客戶更是首先需要解決的問題,成為通信企業(yè)越來越關(guān)注的焦點(diǎn)。

        之所以將機(jī)器學(xué)習(xí)應(yīng)用于運(yùn)營商用戶離網(wǎng)分析,是因?yàn)闄C(jī)器學(xué)習(xí)是一種基于數(shù)據(jù)的自主學(xué)習(xí)方法,相較于傳統(tǒng)的用戶維挽,機(jī)器學(xué)習(xí)可以提高效率、提高準(zhǔn)確性、降低成本。

        按照不同的應(yīng)用類型,機(jī)器學(xué)習(xí)分類算法對用戶是否離網(wǎng)預(yù)測水平的量化評價指標(biāo)包括準(zhǔn)確率、召回率、精確率、F1得分等。為了實(shí)現(xiàn)優(yōu)秀的分類預(yù)測效果,眾多的分類算法被提出,并在業(yè)界使用。其中一類方法非常特殊,我們稱為多模型融合算法。融合算法是將多個推薦算法通過特定的方式進(jìn)行組合,融合在機(jī)器學(xué)習(xí)中扮演著極為重要的作用,本文結(jié)合聯(lián)通青海用戶離網(wǎng)預(yù)測的實(shí)踐經(jīng)驗(yàn)為大家系統(tǒng)性地介紹。

        相較于傳統(tǒng)成本高、準(zhǔn)確率低的客戶維挽方法,本文建立的客戶流失預(yù)警模型是使用機(jī)器學(xué)習(xí)分類算法和模型融合手段,整合客戶歷史海量數(shù)據(jù),通過對客戶基本狀態(tài)屬性與歷史行為屬性等數(shù)據(jù)進(jìn)行深入分析,提煉出已流失客戶在流失前具有的特征,建立流失預(yù)警模型。具體來說是通過對用戶的流量、通話、短信、資費(fèi)等信息,使用用戶三個月為周期的數(shù)據(jù)進(jìn)行模型訓(xùn)練,運(yùn)用機(jī)器學(xué)習(xí)技術(shù),使用決策樹、隨機(jī)森林、邏輯回歸等算法對多個模型結(jié)果進(jìn)行模型融合,提高預(yù)測精度,對客戶下下個月是否流失進(jìn)行預(yù)測。

        本模型不僅僅給出客戶流失預(yù)測的名單,同時給出用戶流失的可能性得分,以及影響用戶是否流失的最重要的指標(biāo)排名,幫助企業(yè)提前識別高風(fēng)險流失客戶,顯著提高企業(yè)的市場競爭力。

        1 機(jī)器學(xué)習(xí)理論

        根據(jù)文獻(xiàn)[1]可知機(jī)器學(xué)習(xí)有很多方法,大體上可以分為監(jiān)督學(xué)習(xí)(Supervised Learning)、無監(jiān)督學(xué)習(xí)(Unsupervised Learning)、半監(jiān)督學(xué)習(xí)(Semi-Supervised Learning)、強(qiáng)化學(xué)習(xí)(Reinforcement Learning)等。下面對各類學(xué)習(xí)做一簡單概述。

        1.1 監(jiān)督式學(xué)習(xí)

        監(jiān)督式學(xué)習(xí)算法訓(xùn)練的數(shù)據(jù)含有兩大部分,一部分是含有很多特征的預(yù)測變量,一部分是有一個標(biāo)簽或是目標(biāo)的目標(biāo)變量。通過這些變量搭建一個模型,對于一個已知的預(yù)測變量值,我們可以得到對應(yīng)的目標(biāo)變量值。重復(fù)訓(xùn)練這個模型,直到它能在訓(xùn)練數(shù)據(jù)集上達(dá)到預(yù)定的準(zhǔn)確度。屬于監(jiān)督式學(xué)習(xí)的算法有:回歸模型、決策樹、隨機(jī)森林、K鄰近算法、邏輯回歸等。

        用戶流失預(yù)警本質(zhì)上是監(jiān)督式學(xué)習(xí)中的分類模型,包含目標(biāo)變量即用戶是否流失的標(biāo)簽,同時含有自變量也就是我們使用的流量、短信、語音等相關(guān)預(yù)測變量字段。通過這些變量搭建用戶流失預(yù)警模型,對于已知的用戶是否流失標(biāo)簽,得到對應(yīng)的流失預(yù)測,重復(fù)訓(xùn)練用戶流失模型,直到它在我們指定的模型評估指標(biāo)上達(dá)到最優(yōu)狀態(tài)。因此我們需要使用分類算法,本文選用邏輯回歸、決策樹、隨機(jī)森林這三個分類模型。下面介紹本文使用的三個機(jī)器學(xué)習(xí)分類算法理論以及各自的優(yōu)缺點(diǎn)。

        1)邏輯回歸模型是由以下條件概率分布模型表示的分類模型,可以用于二分類或多類分類,概率分布如下。

        這里,x為輸入特征,w為相應(yīng)特征對應(yīng)的權(quán)重。

        邏輯回歸模型源于邏輯斯蒂分布,其分布函數(shù)F(x)是s型函數(shù)。邏輯回歸模型是由輸入的線性函數(shù)表示的輸出的對數(shù)概率模型。

        邏輯回歸模型一般采用極大似然估計(jì),或正則化的極大似然估計(jì),可以形式化為無約束最優(yōu)化問題。求解該最優(yōu)化問題的算法有梯度下降法、擬牛頓法等。

        邏輯回歸的優(yōu)點(diǎn):①便利的觀測樣本概率分?jǐn)?shù);②對邏輯回歸而言,多重共線性并不是問題,它可以結(jié)合L2正則化來解決;③邏輯回歸廣泛應(yīng)用于工業(yè)問題上。

        邏輯回歸的缺點(diǎn):①當(dāng)特征空間很大時,邏輯回歸的性能不是很好;②不能很好地處理大量多類特征或變量;③對于非線性特征,需要進(jìn)行轉(zhuǎn)換;④依賴于全部的數(shù)據(jù)。

        如果想繼續(xù)了解邏輯回歸與其他算法,比如樸素貝葉斯、Adaboost等的關(guān)系,可以參見文獻(xiàn) [2]、[3]。

        2)分類決策樹模型是表示基于特征對實(shí)例進(jìn)行分類的樹形結(jié)構(gòu)。決策樹可以轉(zhuǎn)換成一個if—then規(guī)則的集合,也可以看作是定義在特征空間劃分上的類的條件概率分布。

        決策樹學(xué)習(xí)旨在構(gòu)建一個與訓(xùn)練數(shù)據(jù)擬合很好,并且復(fù)雜度小的決策樹。因?yàn)閺目赡艿臎Q策樹中直接選取最優(yōu)決策樹是NP完全問題。現(xiàn)實(shí)中學(xué)習(xí)次優(yōu)的決策樹。

        決策樹學(xué)習(xí)算法包括3部分:特征選擇、樹的生成和樹的剪枝。常用的算法有ID3、C4.5和CART。

        特征選擇的目的在于選取對訓(xùn)練數(shù)據(jù)能夠分類的特征。特征選擇的關(guān)鍵是準(zhǔn)則。常用的準(zhǔn)則如下。

        ①樣本集合D對于特征A的信息增益(ID3)。

        其中,H(D)是數(shù)據(jù)集D的熵,H(Di)是數(shù)據(jù)集Di的熵,是數(shù)據(jù)集D對特征A的條件熵,Di是D中特征A取第i個值的樣本子集,Ck是D屬于第k類的樣本子集,n為特征A取值的個數(shù),k是類的個數(shù)。關(guān)于ID3算法可見文獻(xiàn)[4]。

        ②樣本集合D對特征A的信息增益比(C4.5)。

        其中,g(D,A)是信息增益,HA(D)是D關(guān)于特征A的值的熵。關(guān)于C4.5算法可見文獻(xiàn)[5]。

        ③樣本集合D的基尼指數(shù)(CART)。

        特征A條件下集合D的基尼指數(shù):

        關(guān)于CART算法可見文獻(xiàn)[6]、[7]。

        ④決策樹的生成。通常使用信息增益最大、信息增益比最大或基尼指數(shù)最小作為特征選擇的準(zhǔn)則。決策樹的生成往往通過計(jì)算信息增益或其他指標(biāo),從根節(jié)點(diǎn)開始,遞歸地產(chǎn)生決策樹。這相當(dāng)于用信息增益或其他準(zhǔn)則不斷地選取局部最優(yōu)的特征,或?qū)⒂?xùn)練集分割為能夠基本正確分類的子集。

        ⑤決策樹的剪枝。由于生成的決策樹存在過擬合問題,需要對它進(jìn)行剪枝,以簡化學(xué)到的決策樹。往往從已生成的樹上剪掉一些葉節(jié)點(diǎn)或葉節(jié)點(diǎn)以上的子樹,并將其父結(jié)點(diǎn)或根結(jié)點(diǎn)作為新的葉結(jié)點(diǎn)。

        決策樹的優(yōu)點(diǎn):①直觀的決策規(guī)則;②可以處理非線性特征;③考慮了變量之間的相互作用。

        決策樹的缺點(diǎn):①直觀的決策規(guī)則;②訓(xùn)練集上的效果易高度優(yōu)于測試集,即過擬合。

        3)隨機(jī)森林。單模型分類方法模型往往精度不高,容易出現(xiàn)過擬合問題,因此很多學(xué)者往往通過組合多個單分類模型來提高預(yù)測精度,這些方法稱為分類器組合方法。隨機(jī)森林是為了解決單個決策樹模型過擬合問題而提出的算法。隨機(jī)森林是一種統(tǒng)計(jì)學(xué)習(xí)理論,它利用bootstrap重抽樣方法從原始樣本中抽取多個樣本,然后對每個bootstrap樣本進(jìn)行決策樹建模,然后組合成多棵決策樹進(jìn)行預(yù)測,并通過投票得到最終預(yù)測結(jié)果,分類公式如下。

        其中,H(x)表示隨機(jī)森林分類結(jié)果,hi(x)是單個決策樹分類結(jié)果,Y表示分類目標(biāo),I(.)為示性函數(shù),通過投票策略max完成最終分類。

        隨機(jī)森林的優(yōu)點(diǎn):①對于很多類別,它可以產(chǎn)生高準(zhǔn)確度的分類器;②它可以處理大規(guī)模的數(shù)據(jù)輸入;③可以在決定類別時,順便評估變量的重要性;④對于有缺失值的情況,它仍能維持較高的準(zhǔn)確度;⑤對于不平衡的分類數(shù)據(jù),它可以平衡誤差。

        隨機(jī)森林的缺點(diǎn):①隨機(jī)森林被證明在某些噪聲較大的分類或回歸問題上會過擬合;②對于有不同級別的屬性的數(shù)據(jù),級別劃分較多的屬性會對隨機(jī)森林產(chǎn)生更大的影響,所以隨機(jī)森林在這種數(shù)據(jù)上產(chǎn)出的屬性權(quán)值是不可信的。

        關(guān)于隨機(jī)森林算法可見文獻(xiàn)[2]。

        1.2 無監(jiān)督式學(xué)習(xí)

        與監(jiān)督式學(xué)習(xí)不同的是,無監(jiān)督式學(xué)習(xí)是學(xué)習(xí)數(shù)據(jù)集上有用的結(jié)構(gòu)性質(zhì)。通常學(xué)習(xí)數(shù)據(jù)集的概率分布、密度估計(jì)等。屬于無監(jiān)督式學(xué)習(xí)的算法有:關(guān)聯(lián)規(guī)則、K-means聚類算法等。

        1.3 強(qiáng)化學(xué)習(xí)

        這個算法可以訓(xùn)練程序做出某一決定。程序在某一情況下嘗試所有的可能行動,記錄不同行動的結(jié)果并試著找出最好的一次嘗試來做決定。屬于這一類算法的有馬爾可夫決策過程。

        1.4 模型融合

        用戶流失預(yù)警模型面對的應(yīng)用場景往往存在非常大的差異。例如新/老用戶、高/低價值客戶等等,這些不同的用戶屬性中,不同的機(jī)器學(xué)習(xí)分類算法往往都存在著不同的適用群體,不存在一個機(jī)器學(xué)習(xí)分類算法在所有情況下都勝過其他的算法。所以融合方法的思想就自然而然出現(xiàn)了,即充分運(yùn)用不同機(jī)器學(xué)習(xí)分類算法的優(yōu)勢,取長補(bǔ)短,組合形成一個強(qiáng)大的用戶流失預(yù)警框架,俗話說“三個臭皮匠頂個諸葛亮”;因此,模型融合可以增強(qiáng)預(yù)測的精度和泛化能力。劣勢就是重計(jì)算造成了時間的損失,并且存在好壞不一的結(jié)合可能不如單個分類器效果好的風(fēng)險,因此我們在模型融合之前,對模型使用Grid Search方法進(jìn)行了單個模型最優(yōu)參數(shù)的選擇,保證模型融合之前的單個分類器預(yù)測結(jié)果是最優(yōu)的。常用的模型融合方法有統(tǒng)一融合(Voting)、堆融合(Stacking)等。本文對3個基礎(chǔ)模型采取投票制的方法,投票多者確定為最終的分類。

        1.5 網(wǎng)格搜索

        網(wǎng)格搜索(Grid Search)實(shí)際上就是暴力搜索, 它存在的意義就是自動調(diào)參,只要把參數(shù)輸進(jìn)去,就能給出最優(yōu)化的結(jié)果和參數(shù)。首先為想要調(diào)參的參數(shù)設(shè)定一組候選值,然后網(wǎng)格搜索會窮舉各種參數(shù)組合,通過調(diào)節(jié)每一個參數(shù)來跟蹤評分結(jié)果,實(shí)際上,該過程代替了進(jìn)行參數(shù)搜索時的for循環(huán)過程。根據(jù)設(shè)定的評分機(jī)制找到最好的那一組設(shè)置,即尋找最優(yōu)超參數(shù)的算法。此外采用基于網(wǎng)格搜索的交叉驗(yàn)證法來選擇模型參數(shù),避免了參數(shù)選擇的盲目性和隨意性。

        2 實(shí)例建模

        主要介紹用戶流失預(yù)警模型的生產(chǎn)系統(tǒng)布置反饋流程、模型輸入字段屬性及用戶群確定、模型的具體實(shí)施流程,同時給出部分模型測試結(jié)果。

        本模型以聯(lián)通青海省4G用戶數(shù)據(jù)為實(shí)例進(jìn)行模型訓(xùn)練,得到最優(yōu)模型參數(shù),用于未來月份的用戶是否流失的預(yù)測,給出流失清單、流失可能性得分、影響流失的重要因子。模型可用于用戶維系、模型校驗(yàn)、模型優(yōu)化等具體的場景

        2.1 生產(chǎn)系統(tǒng)布署

        模型從產(chǎn)生到生產(chǎn)系統(tǒng)落地應(yīng)用主要分為8個步驟,分別為:確定目標(biāo)用戶群、模型預(yù)測、給出流失清單(得分、是否流失、重要指標(biāo))、用戶維系、維系結(jié)果反饋、效果總結(jié)對比、模型的進(jìn)一步優(yōu)化、模型效果進(jìn)一步校驗(yàn),通過優(yōu)化和校驗(yàn)再進(jìn)一步指導(dǎo)模型的預(yù)測,提高模型預(yù)測精度。

        2.2 建模主要階段、步驟

        數(shù)據(jù)準(zhǔn)備的最終目的是形成寬表。關(guān)于寬表的細(xì)節(jié)表述請見文獻(xiàn)[8]。寬表把流失預(yù)測可能使用到的各種屬性都集成到了每月一張的表中,極大地方便了后面的流失預(yù)測工作。此外,在寬表中要添加一個重要屬性,那就是是否流失。0為繼續(xù)保持在網(wǎng),1為預(yù)測為流失。這個屬性的取值要根據(jù)之前在需求分析中約定的預(yù)測時間點(diǎn)來確定。

        寬表中包括了用戶流失預(yù)警模型所需的部分字段,主要包括用戶的基本資料、用戶的行為屬性、根據(jù)原始屬性產(chǎn)出的衍生指標(biāo)以及我們的目標(biāo)字段也就是用戶當(dāng)月是否流失的標(biāo)識,如表1所示。

        表1 寬表

        以聯(lián)通青海省4G用戶的基本資料、用戶產(chǎn)生的語音、流量、短信、資費(fèi)等相關(guān)字段為依托的整個模型建設(shè)流程如圖2所示,可以看出整個建模部分的流程主要分為6大部分,分別為:數(shù)據(jù)初步處理核查、數(shù)據(jù)清洗預(yù)處理、樣本分割CV采樣、模型庫建立、網(wǎng)格搜索參數(shù)調(diào)優(yōu)、最后的結(jié)果輸出。

        圖2 模型建設(shè)流程圖

        其中第1部分我們首先遍歷整個數(shù)據(jù)庫表,初步整理及過濾掉無關(guān)重復(fù)的字段,定義并且轉(zhuǎn)換模型所需要的數(shù)據(jù)類型及編碼使得數(shù)據(jù)便于理解,同時會對數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,查看其眾數(shù)、中位數(shù)、均值、缺失值等基本信息;第2部分對數(shù)據(jù)做清洗預(yù)處理,基于第1部分得到的關(guān)于數(shù)據(jù)的初步描述過濾掉一些異常的字段因子,同時使用基于均值、中位數(shù)等方法對缺失值進(jìn)行填充或者剔除,對部分連續(xù)性數(shù)據(jù)進(jìn)行中心標(biāo)準(zhǔn)化或者離散化處理,這個時候會對字段基于相關(guān)系數(shù)、Lasso等方法進(jìn)行二次選擇,同時劃分用戶群;緊接著第3部分對篩選出來的數(shù)據(jù)基于交叉驗(yàn)證方法進(jìn)行采樣劃分,劃分的比例為7∶3,其中70%用于訓(xùn)練,30%用于測試;第4、5部分基于劃分出來的訓(xùn)練集進(jìn)行模型庫的建立,本文建立邏輯回歸、決策樹、隨機(jī)森林算法模型,基于全搜索方法建立充分參數(shù)的模型庫,在模型庫中基于Grid Search方法尋找到與訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)都表現(xiàn)良好的充分匹配的模型最優(yōu)參數(shù),進(jìn)而得到各個算法的最優(yōu)模型,這個時候?qū)θ齻€最優(yōu)模型進(jìn)行保存;第6部分對我們要預(yù)測的數(shù)據(jù)進(jìn)行模型調(diào)用,這個時候可以得到三個最優(yōu)模型關(guān)于要預(yù)測的數(shù)據(jù)的輸出結(jié)果,主要包括流失的概率、是否流失標(biāo)簽、模型的重要性因子,基于模型的輸出結(jié)果我們對三個模型進(jìn)行結(jié)果的融合,主要包括對流失概率進(jìn)行均值處理,對是否流失進(jìn)行投票處理,同時基于隨機(jī)森林得到的模型重要性因子進(jìn)行從高到低排名,我們?nèi)∽钪匾?個因子作為輸出,最后輸出的結(jié)果包括用戶的唯一標(biāo)識、用戶是否流失的標(biāo)簽、用戶流失的可能性得分、用戶在流失的最重要5個因子字段對應(yīng)的數(shù)值,具體形式見表2。

        表2 模型輸出結(jié)果

        本用戶流失預(yù)警模型也可以嘗試使用其他的分類算法,具體的細(xì)節(jié)可以學(xué)習(xí)文獻(xiàn)[2]。

        2.3 預(yù)測結(jié)果

        在流失預(yù)警模型輸入用戶對應(yīng)于寬表的相關(guān)字段數(shù)據(jù),對用戶是否在一定時間內(nèi)流失進(jìn)行預(yù)測判斷,模型同時輸出用戶的流失可能性得分以及導(dǎo)致用戶流失的重要性因子。

        表3是邏輯回歸、決策樹、隨機(jī)森林基于聯(lián)通青海4G用戶2017年5、6、7月份數(shù)據(jù)預(yù)測9月份數(shù)據(jù)得到的測試集上的結(jié)果??梢钥闯瞿P偷念A(yù)測指標(biāo)效果從整體來說是令人滿意的,其中邏輯回歸效果差一點(diǎn)、決策樹效果中等、隨機(jī)森林預(yù)測效果最好??梢娒總€算法都有自己獨(dú)有的特點(diǎn),為了達(dá)到“三個臭皮匠頂個諸葛亮”的效果,也為了模型結(jié)果的穩(wěn)定性,我們最后使用了模型融合方法,對三個算法的預(yù)測結(jié)果進(jìn)行了融合,從融合結(jié)果來看,它比單個算法的效果要好。

        表3 默認(rèn)模型預(yù)測效果評估關(guān)鍵指標(biāo)

        表4是基于2017年5、6、7月份數(shù)據(jù)使用網(wǎng)格搜索方法調(diào)優(yōu)后預(yù)測9月份數(shù)據(jù)得到的測試集上的結(jié)果??梢钥闯鋈齻€算法的各個指標(biāo)都有了比較明顯的提升,最后模型融合的各個指標(biāo)也相對提升了。說明網(wǎng)格搜索方法不僅節(jié)省了尋找模型最優(yōu)參數(shù)的時間,同時與模型融合可以自動把模型預(yù)測效果提升,盡可能得到我們理想中的結(jié)果。

        表4 網(wǎng)格搜索模型預(yù)測效果評估關(guān)鍵指標(biāo)

        3 建議

        本文從運(yùn)營商所面臨的用戶流失場景出發(fā),結(jié)合實(shí)際情況分析了當(dāng)前用戶流失的現(xiàn)狀,傳統(tǒng)用戶維挽的缺點(diǎn),給出了使用機(jī)器學(xué)習(xí)算法建立用戶流失預(yù)警模型對用戶進(jìn)行維挽的優(yōu)勢。介紹了文章使用的機(jī)器學(xué)習(xí)算法的相關(guān)理論、優(yōu)缺點(diǎn)。給出了用戶流失預(yù)警模型的實(shí)現(xiàn)框架,在實(shí)例建模部分給出了預(yù)測青海省相關(guān)用戶流失的結(jié)果以及結(jié)果對比分析。

        數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限而已,從模型結(jié)果來看,我們的預(yù)測效果還可以,但是如果想進(jìn)一步提升預(yù)測的各個指標(biāo),可以參考從模型和算法方向給出的相關(guān)建議。

        3.1 模型調(diào)優(yōu)方向

        1)依據(jù)前期模型理解與實(shí)操經(jīng)驗(yàn),改進(jìn)前期模型存在問題。①進(jìn)一步增加可能提高模型相應(yīng)預(yù)測指標(biāo)的字段,比如和用戶各種費(fèi)用相關(guān)的字段。②提高模型輸入數(shù)據(jù)的品質(zhì),比如進(jìn)一步增加特征提取,基于業(yè)務(wù)增加復(fù)合指標(biāo)。③提高模型調(diào)優(yōu)速度,比如基于業(yè)務(wù)經(jīng)驗(yàn)進(jìn)行相關(guān)參數(shù)的設(shè)定等。④進(jìn)一步優(yōu)化數(shù)據(jù)預(yù)處理方式:如不同的因子基于其特點(diǎn),采用不同的方式進(jìn)行數(shù)據(jù)清洗、中心化標(biāo)準(zhǔn)化、離散化;根據(jù)用戶的特點(diǎn)采用聚類方式對用戶進(jìn)行進(jìn)一步的劃分;嘗試更多的分類算法或者深度學(xué)習(xí)算法進(jìn)行模型的不同方式的融合;不同的用戶群,可采用不同的抽樣比例進(jìn)行分層抽樣等等。

        2)可以收集或者使用更多可用的原始數(shù)據(jù),提取特征,優(yōu)化模型,提高模型預(yù)測相關(guān)的指標(biāo)。如用戶累計(jì)欠費(fèi)金額、累計(jì)充值次數(shù)、累計(jì)投訴次數(shù)等等。

        3)緊密結(jié)合業(yè)務(wù),結(jié)合實(shí)際的生產(chǎn)經(jīng)驗(yàn)、更多期的數(shù)據(jù)反饋等,進(jìn)一步提高模型的預(yù)測結(jié)果。

        3.2 算法使用方向

        現(xiàn)在深度學(xué)習(xí)在各個領(lǐng)域已經(jīng)取得了比較優(yōu)秀的結(jié)果,后續(xù)可以使用lstm等深度學(xué)習(xí)算法嘗試預(yù)測用戶是否流失。

        [1]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012

        [2]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016

        [3]Michael Collins,Robert E Schapire,Yoram Singer.Logistic regression,AdaBoost and Bregman distances[J].Machine Learning,2002,48(1-3):253-285

        [4]Podgorelec V,Zorman M.Decision Tree Learning[J].2017,2:1751-1754

        [5]金田重郎,Quinlan J R.C4.5 Programs for Machine Learning[J].Journal of Japanese Society for Artificial Intelligence,1995,5:475-476

        [6]Breiman L,Friedman J H,Olshen R A,et al.Classification And Regression Trees[M].Wadsworth International Group,1984:17–23

        [7]Ripley Brian D.Pattern Recognition and Neural Networks:Tree-structured Classifiers[M].Cambridge:Cambridge University Press,1996:233-234

        [8]連建勇,李磊,陸勇.基于數(shù)據(jù)挖掘的電信客戶流失預(yù)測模型研究[D].廣州:中山大學(xué),2008

        猜你喜歡
        決策樹分類客戶
        分類算一算
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        分類討論求坐標(biāo)
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        數(shù)據(jù)分析中的分類討論
        為什么你總是被客戶拒絕?
        教你一招:數(shù)的分類
        如何有效跟進(jìn)客戶?
        基于決策樹的出租車乘客出行目的識別
        做個不打擾客戶的保鏢
        山東青年(2016年2期)2016-02-28 14:25:41
        无码国产一区二区色欲| 国产成人精品无码一区二区老年人 | 免费a级毛片在线播放不收费| 成人免费看片又大又黄| 午夜毛片午夜女人喷潮视频| 日本一区不卡高清在线观看 | 亚洲精品无码不卡av| 毛片av在线播放亚洲av网站| 人妻丰满精品一区二区| 久久综合九色欧美综合狠狠| 99精品一区二区三区无码吞精| 97人妻碰免费视频| 国产激情免费观看视频| 亚洲成av人片一区二区密柚| 一本一道久久a久久精品综合| 久久国产综合精品欧美| 日本一区二区三区激视频| 精品香蕉一区二区三区| 久久人人妻人人做人人爽| 国产三级精品美女三级| 久草中文在线这里只有精品| 亚洲女同一区二区| 亚洲日韩欧美国产高清αv| 黄色av三级在线免费观看| 亚洲综合日韩一二三区| 波多野42部无码喷潮| 麻豆五月婷婷| 色偷偷亚洲精品一区二区 | 日韩AV无码一区二区三| 中文字幕人妻在线少妇完整版 | 天堂а√在线最新版中文在线| 伊人网在线视频观看| 亚洲精品在线观看自拍| 国产av精品一区二区三| 欧美成a人片在线观看久| 久久久久国产精品四虎| 很黄很色的女同视频一区二区| 国产精品你懂的在线播放| 日本久久久免费高清| 一道本加勒比在线观看| 性饥渴的农村熟妇|