亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度神經(jīng)網(wǎng)絡(luò)的客戶(hù)流失預(yù)測(cè)模型

        2019-09-28 01:25:12馬文斌夏國(guó)恩
        關(guān)鍵詞:特征選擇神經(jīng)網(wǎng)絡(luò)深度

        馬文斌,夏國(guó)恩

        (廣西財(cái)經(jīng)學(xué)院 工商管理學(xué)院,廣西 南寧 530003)

        1 概 述

        流失客戶(hù)通常是指在一定時(shí)期內(nèi)終止使用企業(yè)的服務(wù)或產(chǎn)品的客戶(hù)??蛻?hù)流失是企業(yè)面臨的一個(gè)重要問(wèn)題,也是學(xué)術(shù)界研究的熱點(diǎn)。高流失率代表企業(yè)產(chǎn)品的市場(chǎng)份額的減少,客戶(hù)流失率的降低則意味著企業(yè)效益的提高。同時(shí),企業(yè)獲取新客戶(hù)的成本也是保留老客戶(hù)成本的數(shù)倍。為及時(shí)發(fā)現(xiàn)流失客戶(hù),減少客戶(hù)流失量,研究者借助機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘算法,構(gòu)建了大量的客戶(hù)流失預(yù)測(cè)模型。表現(xiàn)好的流失預(yù)測(cè)模型對(duì)于最小化流失率非常重要,因?yàn)榭梢詾槟切┎粷M(mǎn)意的特定客戶(hù)提供個(gè)性化的促銷(xiāo)或優(yōu)惠活動(dòng),以此來(lái)挽留將要流失的客戶(hù)。國(guó)內(nèi)外企業(yè)為了深入了解客戶(hù)行為,尋找影響客戶(hù)流失的關(guān)鍵因素,通過(guò)開(kāi)展數(shù)據(jù)挖掘競(jìng)賽的形式來(lái)發(fā)現(xiàn)優(yōu)秀的客戶(hù)流失預(yù)測(cè)解決方案。例如,法國(guó)電信運(yùn)營(yíng)商O(píng)range在KDD Cup 2009中提供了大量客戶(hù)行為數(shù)據(jù),供參賽者分析預(yù)測(cè);KDD Cup 2015使用由學(xué)堂在線(xiàn)提供的用戶(hù)在線(xiàn)學(xué)習(xí)行為數(shù)據(jù),預(yù)測(cè)用戶(hù)的流失率;攜程也在2016年開(kāi)展了客戶(hù)流失概率預(yù)測(cè)競(jìng)賽;WSDM Cup 2018則要求參賽者預(yù)測(cè)KKBOX的訂閱用戶(hù)的流失情況。

        經(jīng)過(guò)多年對(duì)客戶(hù)流失預(yù)測(cè)的研究,取得了較為顯著的成果,客戶(hù)流失中的數(shù)據(jù)不平衡、預(yù)測(cè)方法的選擇等問(wèn)題也得到了有效解決。在目前的研究中,研究者將客戶(hù)流失預(yù)測(cè)視為一種分類(lèi)問(wèn)題,因此有監(jiān)督學(xué)習(xí)算法大量地應(yīng)用于客戶(hù)流失預(yù)測(cè),并取得了不錯(cuò)的效果。根據(jù)使用方法的不同,客戶(hù)流失預(yù)測(cè)研究主要可分為五個(gè)方面。一是基于統(tǒng)計(jì)學(xué)的研究,具有代表性的方法是聚類(lèi)算法、回歸分析等。姜曉娟等[1]針對(duì)客戶(hù)數(shù)據(jù)的類(lèi)別不平衡、大規(guī)模等問(wèn)題,在聚類(lèi)算法基礎(chǔ)上設(shè)置不同權(quán)重參數(shù),實(shí)驗(yàn)表明該算法具有較好的預(yù)測(cè)效果?;诮y(tǒng)計(jì)學(xué)方法的流失預(yù)測(cè)模型的優(yōu)勢(shì)是具有較強(qiáng)的可解釋性,不足之處在于在大數(shù)據(jù)背景下,數(shù)據(jù)往往呈現(xiàn)高維、非線(xiàn)性、非正太分布等特點(diǎn),此類(lèi)方法的泛化能力得不到有效的保證。

        二是基于人工智能理論的研究。此類(lèi)研究的代表性方法是人工神經(jīng)網(wǎng)絡(luò)。李洋[2]通過(guò)分析客戶(hù)群特征、服務(wù)屬性和客戶(hù)消費(fèi)數(shù)據(jù),對(duì)比不同的預(yù)測(cè)模型,驗(yàn)證了神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的有效性。Kasiran Z等[3]結(jié)合增強(qiáng)學(xué)習(xí)算法與循環(huán)神經(jīng)網(wǎng)絡(luò),預(yù)測(cè)移動(dòng)手機(jī)用戶(hù)的流失情況。馮鑫等[4]結(jié)合神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理,利用客戶(hù)消費(fèi)評(píng)論信息,預(yù)測(cè)客戶(hù)是否會(huì)流失,并給出影響客戶(hù)流失的主要指標(biāo)。人工神經(jīng)網(wǎng)絡(luò)模擬人腦處理信息的結(jié)構(gòu),能夠處理較復(fù)雜的數(shù)據(jù),但可解釋性較低,且容易產(chǎn)生過(guò)擬合問(wèn)題。

        三是基于統(tǒng)計(jì)學(xué)習(xí)理論的研究。統(tǒng)計(jì)學(xué)習(xí)理論主要是構(gòu)建給定數(shù)據(jù)的概率統(tǒng)計(jì)模型,并對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè),樸素貝葉斯算法、決策樹(shù)、支持向量機(jī)等都屬于常用的方法。Kirui C等[5]利用樸素貝葉斯、貝葉斯網(wǎng)絡(luò)兩種概率模型預(yù)測(cè)客戶(hù)流失。尹婷等[6]結(jié)合決策樹(shù)與貝葉斯分類(lèi)算法,彌補(bǔ)了決策樹(shù)算法的缺點(diǎn)。盛昭瀚等[7]給出一種加權(quán)熵的ID3算法解決客戶(hù)流失預(yù)測(cè)問(wèn)題。張宇等[8]使用C5.0算法預(yù)測(cè)郵政短信業(yè)務(wù)的客戶(hù)流失情況。夏國(guó)恩等[9]通過(guò)與多種預(yù)測(cè)算法的比較,驗(yàn)證了支持向量機(jī)的預(yù)測(cè)有效性。王觀(guān)玉等[10]結(jié)合主成分分析與支持向量機(jī),降低數(shù)據(jù)的冗余性,提高了預(yù)測(cè)效果。Chen Zhenyu等[11]給出一種分層多核支持向量機(jī),融合特征選擇過(guò)程,在多個(gè)數(shù)據(jù)集上有較好的預(yù)測(cè)結(jié)果。趙琨等[12]利用雙子支持向量機(jī)分析信用卡用戶(hù)的流失情況。支持向量機(jī)基于VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,具有較強(qiáng)的泛化能力,但可解釋性較低,在小樣本的情況下表現(xiàn)優(yōu)異,但隨著數(shù)據(jù)規(guī)模的增大,支持向量機(jī)已不能在有效的時(shí)間內(nèi)完成計(jì)算任務(wù)。

        四是基于集成學(xué)習(xí)理論的研究。集成學(xué)習(xí)方法通過(guò)集成多種方法的優(yōu)勢(shì),提高預(yù)測(cè)性能。子算法的選擇、子算法預(yù)測(cè)結(jié)果的集成等問(wèn)題是集成學(xué)習(xí)方面的研究熱點(diǎn)。羅彬等[13]通過(guò)使用聚類(lèi)算法分組樣本集,然后利用不同的算法分別在樣本子集上構(gòu)建預(yù)測(cè)模型,最后基于成本敏感性,利用人工魚(yú)群算法集成子模型的結(jié)果,實(shí)驗(yàn)表明提出的集成方法優(yōu)于單個(gè)預(yù)測(cè)模型的預(yù)測(cè)性能。Coussement K等[14]利用集成學(xué)習(xí)方法預(yù)測(cè)在線(xiàn)客戶(hù)的流失情況。

        五是基于社會(huì)網(wǎng)絡(luò)分析的研究。社會(huì)網(wǎng)絡(luò)是一種較為新穎的客戶(hù)流失預(yù)測(cè)方法,使用社會(huì)網(wǎng)絡(luò)發(fā)現(xiàn)潛在流失客戶(hù)的假設(shè)前提是與流失客戶(hù)存在于同一社區(qū)內(nèi)或存在關(guān)聯(lián)關(guān)系的客戶(hù)更容易流失。Phadke C等[15]基于客戶(hù)的呼叫網(wǎng)絡(luò),給出一個(gè)度量客戶(hù)間社會(huì)聯(lián)系強(qiáng)度的公式,并利用影響擴(kuò)散模型計(jì)算流失客戶(hù)的凈積累影響,最后在真實(shí)的移動(dòng)客戶(hù)數(shù)據(jù)上驗(yàn)證了使用社會(huì)網(wǎng)絡(luò)分析預(yù)測(cè)客戶(hù)流失的有效性。Verbeke W等[16]在關(guān)系分類(lèi)模型中引入非馬爾可夫網(wǎng)絡(luò),并融合關(guān)系分類(lèi)模型與非關(guān)系分類(lèi)模型,構(gòu)建了流失預(yù)測(cè)模型。黃婉秋[17]基于RFM模型和時(shí)間序列分析法,結(jié)合社區(qū)發(fā)現(xiàn)、獨(dú)立級(jí)聯(lián)模型進(jìn)行客戶(hù)流失分析,并在零售客戶(hù)數(shù)據(jù)上驗(yàn)證了基于社會(huì)網(wǎng)絡(luò)方法的有效性。

        上述客戶(hù)流失預(yù)測(cè)研究中使用的方法,預(yù)測(cè)效果依賴(lài)于特征處理的好壞,需要花費(fèi)大量的時(shí)間與精力在特征工程上,隨著客戶(hù)數(shù)據(jù)的快速增長(zhǎng),在大數(shù)據(jù)情況下,人工特征工程已不能有效地獲取高質(zhì)量特征。但是深度學(xué)習(xí)通過(guò)模擬人腦多層、逐級(jí)地抽取信息特征,能夠自動(dòng)學(xué)習(xí)到可以較好地表示數(shù)據(jù)集的特征,借助深度學(xué)習(xí),構(gòu)建預(yù)測(cè)模型時(shí),將不再依賴(lài)于特征選擇。目前深度學(xué)習(xí)在客戶(hù)流失預(yù)測(cè)方面的研究成果還較少,為探究深度學(xué)習(xí)在客戶(hù)流失預(yù)測(cè)中的應(yīng)用,文中構(gòu)建了包含3隱層的深度神經(jīng)網(wǎng)絡(luò)模型,并在電信客戶(hù)數(shù)據(jù)集上與經(jīng)過(guò)特征選擇的Logistic回歸、決策樹(shù)等預(yù)測(cè)模型作對(duì)比,從而驗(yàn)證深度神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)效果。

        2 深度學(xué)習(xí)簡(jiǎn)介

        人工神經(jīng)網(wǎng)絡(luò)是客戶(hù)流失預(yù)測(cè)中常用的一種算法,而深度學(xué)習(xí)是人工神經(jīng)網(wǎng)絡(luò)的延伸和發(fā)展,是一種擁有多隱層的人工神經(jīng)網(wǎng)絡(luò)算法,通過(guò)模擬人腦多層、逐級(jí)地抽取信息特征,最終獲得能夠較好地表示輸入數(shù)據(jù)的特征[18]。2006年,Hinton等提出的深度置信網(wǎng)絡(luò)(DBN)是當(dāng)前深度學(xué)習(xí)算法的框架,打破了深層神經(jīng)網(wǎng)絡(luò)難以有效訓(xùn)練的僵局[19]。支持向量機(jī)、隱馬爾可夫模型、感知機(jī)等都是典型的淺層學(xué)習(xí)算法,與淺層學(xué)習(xí)算法相比,深度學(xué)習(xí)在網(wǎng)絡(luò)表達(dá)復(fù)雜目標(biāo)函數(shù)的能力、網(wǎng)絡(luò)結(jié)構(gòu)的計(jì)算復(fù)雜度、仿生學(xué)角度、信息共享等方面更具有優(yōu)勢(shì)[20]。

        根據(jù)構(gòu)造深度學(xué)習(xí)模型時(shí)采用的結(jié)構(gòu)、學(xué)習(xí)算法等因素,深度學(xué)習(xí)可分為3類(lèi):生成深度結(jié)構(gòu)、判別深度結(jié)構(gòu)、混合深層結(jié)構(gòu)[19]。生成深度結(jié)構(gòu)的代表是深度置信網(wǎng)絡(luò);判別深度結(jié)構(gòu)的代表模型是卷積神經(jīng)網(wǎng)絡(luò);混合深層結(jié)構(gòu)則是結(jié)合生成深度結(jié)構(gòu)和判別深度結(jié)構(gòu)來(lái)實(shí)現(xiàn)模式分類(lèi)的一類(lèi)深層結(jié)構(gòu)。

        目前,借助于大數(shù)據(jù),深度學(xué)習(xí)在許多領(lǐng)域的表現(xiàn)都優(yōu)于淺層模型。根據(jù)數(shù)據(jù)類(lèi)型的不同,深度學(xué)習(xí)主要應(yīng)用在如下領(lǐng)域:一是圖像識(shí)別,常用的算法是卷積神經(jīng)網(wǎng)絡(luò)或改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò);二是語(yǔ)音識(shí)別,常用的算法是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)或改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò);三是自然語(yǔ)言處理,由于自然語(yǔ)言的復(fù)雜性,雖然深度學(xué)習(xí)在自然語(yǔ)言處理上取得了一定的進(jìn)展,但是并沒(méi)有在圖像、語(yǔ)音上的成果顯著。

        3 基于深度學(xué)習(xí)的客戶(hù)流失預(yù)測(cè)模型

        經(jīng)典的客戶(hù)流失預(yù)測(cè)模型結(jié)構(gòu)見(jiàn)圖1。由圖1可以看出,經(jīng)典的客戶(hù)流失預(yù)測(cè)模型主要包含數(shù)據(jù)預(yù)處理、屬性選擇、特征選擇、流失預(yù)測(cè)、結(jié)果評(píng)價(jià)等階段。屬性選擇和特征選擇主要是為了減小原始數(shù)據(jù)中存在的主觀(guān)性,降低數(shù)據(jù)“噪聲”,達(dá)到約簡(jiǎn)數(shù)據(jù)維度,而不損失或較少損失數(shù)據(jù)信息的目的。特征選擇主要是指從數(shù)據(jù)集的所有特征中,利用某種度量方法,篩選出分類(lèi)預(yù)測(cè)效果最好的一組特征子集,常用的特征選擇方法有互信息、Fisher比率、ReliefF等。當(dāng)數(shù)據(jù)維度較大時(shí),組合篩選出最優(yōu)特征子集,需要花費(fèi)大量的時(shí)間。

        圖1 經(jīng)典客戶(hù)流失預(yù)測(cè)模型結(jié)構(gòu)

        基于深度學(xué)習(xí)的客戶(hù)流失預(yù)測(cè)模型如圖2所示。由圖2可知,經(jīng)典客戶(hù)流失預(yù)測(cè)模型與基于深度學(xué)習(xí)的客戶(hù)流失預(yù)測(cè)模型最大的區(qū)別是在特征處理方面。特征工程需要一定的領(lǐng)域知識(shí),且費(fèi)時(shí)費(fèi)力,最后選擇的特征子集也不一定具有較好的預(yù)測(cè)結(jié)果。在基于深度學(xué)習(xí)的客戶(hù)流失預(yù)測(cè)模型中,深度學(xué)習(xí)算法可以自主逐層地進(jìn)行特征處理,沒(méi)有屬性選擇、特征選擇等特征工程階段,節(jié)省了時(shí)間成本,且能夠獲得更為準(zhǔn)確刻畫(huà)數(shù)據(jù)信息的特征子集。

        圖2 基于深度學(xué)習(xí)的客戶(hù)流失預(yù)測(cè)模型結(jié)構(gòu)

        基于深度學(xué)習(xí)的預(yù)測(cè)模型結(jié)構(gòu)的預(yù)測(cè)過(guò)程是:多來(lái)源收集客戶(hù)行為數(shù)據(jù),確定初始屬性集;對(duì)數(shù)據(jù)進(jìn)行缺失值處理、異常值處理、峰度轉(zhuǎn)換、標(biāo)準(zhǔn)化等預(yù)處理工作;將準(zhǔn)備好的數(shù)據(jù)集輸入深度學(xué)習(xí)算法,逐層學(xué)習(xí)數(shù)據(jù)特征,訓(xùn)練預(yù)測(cè)模型;評(píng)價(jià)預(yù)測(cè)結(jié)果,采用常用的精確率、召回率等評(píng)價(jià)指標(biāo),評(píng)價(jià)預(yù)測(cè)模型的性能。

        目前,常用的深度學(xué)習(xí)框架包括TensorFlow、Caffe、Keras、PyTorch、CNTK等。其中,Caffe采用配置文件定義網(wǎng)絡(luò)結(jié)構(gòu),容易使用,且支持python接口,僅需要少量的代碼構(gòu)建預(yù)測(cè)模型,訓(xùn)練速度較快。因此,文中基于Caffe框架,研究深度學(xué)習(xí)算法在網(wǎng)絡(luò)客戶(hù)流失預(yù)測(cè)中的應(yīng)用,通過(guò)參考現(xiàn)有深度學(xué)習(xí)算法模型,調(diào)整隱層以及各層的參數(shù),構(gòu)建了包含3個(gè)隱層的深度神經(jīng)網(wǎng)絡(luò)模型,如圖3所示。Caffe中每一個(gè)網(wǎng)絡(luò)模塊都是一個(gè)層,文中構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)模型使用了數(shù)據(jù)層、全連接層、DropOut層、損失層等。這里對(duì)各層進(jìn)行描述。

        圖3 深度神經(jīng)網(wǎng)絡(luò)模型

        數(shù)據(jù)層:Caffe不直接處理原始數(shù)據(jù),需要由處理程序轉(zhuǎn)換為Caffe支持的數(shù)據(jù)格式。目前,Caffe支持HDF5、LMDB等多種數(shù)據(jù)格式,文中構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)使用HDF5格式。數(shù)據(jù)層定義4D的輸入(1,1,1,87),表示一次輸入一個(gè)數(shù)據(jù),數(shù)據(jù)大小是(1,87)。

        全連接層:全連接層的每個(gè)節(jié)點(diǎn)與相鄰層的所有節(jié)點(diǎn)都有連接。文中構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)的隱層是三個(gè)全連接層的堆疊,可看作是對(duì)輸入數(shù)據(jù)逐層地提取信息,最后學(xué)習(xí)到較好的數(shù)據(jù)特征。全連接層的神經(jīng)元數(shù)目分別是87、50、50,損失層的神經(jīng)元數(shù)目則是2個(gè)。為加快收斂速度,全連接層的激活函數(shù)采用ReLU(rectified linear unit)。ReLU函數(shù)(式1)是一種非飽和激活函數(shù),Sigmoid、Tanh等飽和激活函數(shù)存在嚴(yán)重的梯度消失問(wèn)題,訓(xùn)練收斂速度較慢。

        (1)

        DropOut層:為了防止訓(xùn)練網(wǎng)絡(luò)時(shí)產(chǎn)生過(guò)擬合現(xiàn)象,提高模型泛化能力,文中構(gòu)建的網(wǎng)絡(luò)中使用了DropOut。DropOut是一種參數(shù)正則化方法,在訓(xùn)練網(wǎng)絡(luò)過(guò)程中,按照一定的概率從網(wǎng)絡(luò)中暫時(shí)丟棄部分節(jié)點(diǎn),減少特征之間的相互作用,能夠有效防止過(guò)擬合,提高模型健壯性。文中構(gòu)建的網(wǎng)絡(luò)中全連接層的丟棄率分別是0.5、0.4、0.3。

        損失層:損失函數(shù)度量網(wǎng)絡(luò)輸出的好壞,通過(guò)最小化損失,訓(xùn)練得到較好的網(wǎng)絡(luò)。Caffe中定義了多種損失函數(shù),如EuclideanLoss、HingeLoss、SoftmaxLoss等,由于客戶(hù)流失預(yù)測(cè)是一種二類(lèi)分類(lèi)問(wèn)題,因此采用SigmoidCrossEntropyLoss。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 數(shù)據(jù)集

        客戶(hù)流失預(yù)測(cè)是在客戶(hù)的歷史行為數(shù)據(jù)上提取、選擇客戶(hù)特征,并運(yùn)用分類(lèi)預(yù)測(cè)算法建立預(yù)測(cè)模型,預(yù)測(cè)客戶(hù)未來(lái)的狀態(tài)。文中實(shí)驗(yàn)所用的電信客戶(hù)行為數(shù)據(jù)來(lái)源于美國(guó)DUKE大學(xué),其中訓(xùn)練集共100 000個(gè)樣本,包含流失客戶(hù)49 562個(gè),非流失客戶(hù)50 438個(gè),兩類(lèi)客戶(hù)的比例基本為1∶1;測(cè)試集共51 306個(gè)樣本,包含流失客戶(hù)924個(gè),非流失客戶(hù)49 514個(gè),客戶(hù)流失率為1.8%,數(shù)據(jù)類(lèi)別嚴(yán)重不平衡。原始數(shù)據(jù)中部分屬性存在缺失的情況,通過(guò)刪除缺失率過(guò)高的屬性以及填充缺失率較低的屬性,共取得87個(gè)初始屬性指標(biāo)。

        4.2 預(yù)測(cè)算法和模型評(píng)價(jià)

        實(shí)驗(yàn)分別采用Logistic回歸、樸素貝葉斯和決策樹(shù)3種常用算法構(gòu)建預(yù)測(cè)模型,與深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型進(jìn)行對(duì)比,并從精確率、召回率、準(zhǔn)確率、提升系數(shù)和F1值5個(gè)方面評(píng)價(jià)模型預(yù)測(cè)結(jié)果。由表1可知,精確率=A/(A+C);召回率=A/(A+B);準(zhǔn)確率=(A+D)/(A+B+C+D);提升系數(shù)=精確度/測(cè)試集的客戶(hù)流失率;F1=(2*精確率*召回率)/(精確率+召回率)。

        表1 混淆矩陣

        4.3 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)所用的Logistic回歸、樸素貝葉斯和決策樹(shù)等算法的實(shí)現(xiàn)主要使用基于Python的機(jī)器學(xué)習(xí)庫(kù)Scikit-Learn。數(shù)據(jù)預(yù)處理主要使用Pandas數(shù)據(jù)分析庫(kù)。實(shí)驗(yàn)所用電腦的內(nèi)存是16 G,處理器是Intel(R) Xeon(R) CPU E5-1603 v3,操作系統(tǒng)為Win7 64位。支持向量機(jī)也是客戶(hù)流失預(yù)測(cè)中常用的方法,但是在現(xiàn)有的硬件條件下,在實(shí)驗(yàn)所用的數(shù)據(jù)集上,支持向量機(jī)不能在有效時(shí)間內(nèi)計(jì)算出結(jié)果,因此沒(méi)有選擇支持向量機(jī)作為對(duì)比算法。

        4.4 實(shí)驗(yàn)結(jié)果分析

        深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果與網(wǎng)絡(luò)的學(xué)習(xí)率相關(guān),實(shí)驗(yàn)通過(guò)設(shè)定步長(zhǎng)和搜索范圍,經(jīng)過(guò)多次對(duì)比,確定了預(yù)測(cè)效果較好的學(xué)習(xí)率為0.002。不同模型的預(yù)測(cè)結(jié)果如表2所示。

        表2 不同模型的預(yù)測(cè)結(jié)果

        由表2可知,深度神經(jīng)網(wǎng)絡(luò)(DNN)具有較好的預(yù)測(cè)結(jié)果。對(duì)比數(shù)據(jù)發(fā)現(xiàn):在精確率上,DNN的結(jié)果相對(duì)較好,分別比Logistic回歸等三種算法高出0.1%、0.33%、0.15%。精確率表示預(yù)測(cè)為流失客戶(hù)的樣本中的正確率,DNN的精確率最高,表明在預(yù)測(cè)為流失客戶(hù)的樣本集中,DNN預(yù)測(cè)正確的比例相對(duì)更高;在召回率上,DNN的結(jié)果低于其他三種算法,說(shuō)明DNN在實(shí)際流失的樣本集中,預(yù)測(cè)正確的比例較低;在準(zhǔn)確率上,DNN的表現(xiàn)也優(yōu)于其他三種算法,說(shuō)明DNN預(yù)測(cè)正確的流失樣本與非流失樣本的數(shù)量更多;在提升系數(shù)上,DNN的表現(xiàn)同樣優(yōu)于其他三種算法,提升效果明顯;在F1值上,DNN的結(jié)果同樣優(yōu)于其他三種算法,F(xiàn)1值是精確率和召回率的一種加權(quán)平均,DNN的精確率比其他算法高,召回率比其他算法低,但F1值最高,同時(shí)測(cè)試數(shù)據(jù)具有嚴(yán)重的類(lèi)別不平衡性,說(shuō)明DNN的綜合性能更優(yōu)。

        樸素貝葉斯模型的召回率高達(dá)0.826 8,但精確度、F1值在四個(gè)預(yù)測(cè)模型中最低,說(shuō)明樸素貝葉斯模型預(yù)測(cè)錯(cuò)誤的非流失客戶(hù)更多,模型的整體性能不高。整體而言,與經(jīng)過(guò)特征選擇的Logistic回歸等模型相比,DNN具有較好的預(yù)測(cè)效果。

        5 結(jié)束語(yǔ)

        客戶(hù)流失預(yù)測(cè)是一個(gè)不斷發(fā)展的問(wèn)題,過(guò)去的研究成果解決了客戶(hù)流失預(yù)測(cè)領(lǐng)域的一些重要問(wèn)題,但隨著大數(shù)據(jù)時(shí)代的來(lái)臨,客戶(hù)流失預(yù)測(cè)出現(xiàn)了新的特點(diǎn),例如數(shù)據(jù)的超大規(guī)模、更高的復(fù)雜性等,對(duì)經(jīng)典的預(yù)測(cè)方法提出了挑戰(zhàn),需要新的方法來(lái)應(yīng)對(duì)變化。深度學(xué)習(xí)在處理大數(shù)據(jù)方面具有很大的優(yōu)勢(shì),在圖像、語(yǔ)音、自然語(yǔ)言處理等領(lǐng)域取得了較為顯著的成果,但在客戶(hù)流失預(yù)測(cè)方面的研究較少。為探究深度學(xué)習(xí)在客戶(hù)流失預(yù)測(cè)上的效果,構(gòu)造了包含3個(gè)隱層的深度神經(jīng)網(wǎng)絡(luò),并在某電信客戶(hù)數(shù)據(jù)集上與Logistic回歸、決策樹(shù)等常用預(yù)測(cè)算法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,與經(jīng)過(guò)特征選擇的Logistic回歸等模型相比,構(gòu)造的深度神經(jīng)模型擁有較好的預(yù)測(cè)效果。由于條件所限,未能構(gòu)建擁有更多隱層的深度神經(jīng)網(wǎng)絡(luò)模型,也未能在更大規(guī)模的數(shù)據(jù)集上驗(yàn)證深度神經(jīng)網(wǎng)絡(luò)的有效性。下一步,將探究更深層神經(jīng)網(wǎng)絡(luò)的性能以及卷積神經(jīng)網(wǎng)絡(luò)等經(jīng)典模型在網(wǎng)絡(luò)客戶(hù)流失預(yù)測(cè)上的應(yīng)用,并搜集更大規(guī)模的數(shù)據(jù)用于分析預(yù)測(cè)大數(shù)據(jù)環(huán)境下的客戶(hù)流失問(wèn)題。

        猜你喜歡
        特征選擇神經(jīng)網(wǎng)絡(luò)深度
        深度理解一元一次方程
        神經(jīng)網(wǎng)絡(luò)抑制無(wú)線(xiàn)通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        深度觀(guān)察
        深度觀(guān)察
        深度觀(guān)察
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        百合av一区二区三区| 日本激情网站中文字幕| 又黄又爽又色视频| 国产在线观看无码免费视频| 久久99精品国产99久久6男男| 欧美日韩一线| 日韩一区二区三区天堂| 亚洲中文字幕九色日本| 呦系列视频一区二区三区| 无遮无挡爽爽免费毛片| 中文人妻无码一区二区三区信息| 宅男久久精品国产亚洲av麻豆| 国内精品毛片av在线播放| 色翁荡息又大又硬又粗视频| 在线成人一区二区| 精精国产xxxx视频在线| 久久精品国产亚洲av热九九热| 国产性感午夜天堂av| 国产精品久久久久久| 国产成人久久精品激情| 二区久久国产乱子伦免费精品| 精品国精品自拍自在线| 国产精品亚洲二区在线看| 久久久亚洲精品一区二区三区| 人人妻人人澡人人爽人人精品| 色窝窝手在线视频| 一区二区三区极品少妇| 国产精品无码素人福利| 成人黄色网址| 污污污国产免费网站| 91久久精品一区二区三区大全| 性高朝久久久久久久3小时| 人人妻人人妻人人片av| 国产日本在线视频| 一区二区亚洲熟女偷拍| 久久综合99re88久久爱| 中文字幕一区二区三区日韩精品| 日本视频一区二区三区免费观看 | 国产中文字幕乱码在线| 日韩人妻大奶子生活片| 亚洲深深色噜噜狠狠网站|