亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于譜回歸特征降維的客戶流失預(yù)測①

        2021-10-11 06:46:22李國祥蔣怡琳馬文斌夏國恩
        計算機系統(tǒng)應(yīng)用 2021年9期
        關(guān)鍵詞:降維分類器投影

        李國祥,蔣怡琳,馬文斌,夏國恩

        1(廣西財經(jīng)學(xué)院 教務(wù)處,南寧 530003)

        2(廣西師范大學(xué) 廣西多源信息挖掘與安全重點實驗室,桂林 541004)

        流失客戶通常是指在一定時期內(nèi)終止使用企業(yè)的服務(wù)或產(chǎn)品的客戶,其預(yù)測水平是衡量客戶保持策略有效性和客戶關(guān)系管理智能化程度的重要標(biāo)志.目前對于客戶流失的研究對象主要集中在傳統(tǒng)的電信客戶流失預(yù)測和網(wǎng)絡(luò)客戶流失預(yù)測兩個方面,研究方法上主要是從特征向量選擇和分類器優(yōu)化兩個角度構(gòu)建客戶流失預(yù)測模型.

        在特征選擇方面,文獻[1]針對于高維度的樣本特征屬性,定義了屬性滿意度和屬性集滿意度,通過滿意度函數(shù)來開展高維特征屬性的選擇.文獻[2]基于原始特征引入網(wǎng)絡(luò)客戶價值特征和情感特征,增加了客戶流失預(yù)測的新的客戶特征屬性.文獻[3]以網(wǎng)絡(luò)客戶的在線評論信息為依據(jù),通過技術(shù)性的情感分析將其表示為積極與消極情感并作為客戶流失預(yù)測新屬性.文獻[4]針對電信數(shù)據(jù)集中存在的特征維度過高問題,結(jié)合過濾式特征選擇和嵌入式特征選擇方法的優(yōu)點,提出了一種基于Fisher 比率和預(yù)測風(fēng)險準(zhǔn)則的分步特征提取方法.

        在分類器優(yōu)化方面,文獻[5]利用分類回歸樹算法和自適應(yīng)Boosting 算法作為分類算法,生成通信企業(yè)的離網(wǎng)客戶的預(yù)測模型.文獻[6]改進隨機森林中生成每棵樹時節(jié)點劃分的方法,形成新的隨機森林分類模型.文獻[7]將深度學(xué)習(xí)引入到客戶流失預(yù)測中,構(gòu)造了基于深度神經(jīng)網(wǎng)絡(luò)的流失預(yù)測模型.文獻[8]通過改進粒子群算法優(yōu)化支持向量機分類器.文獻[9]區(qū)分邊界樣本和非邊界樣本,分別采用K 近鄰分類法與支持向量機作為分類器.

        上述兩類方法在不同數(shù)據(jù)集上都取得了較好的預(yù)測效果,但隨著信息管理技術(shù)在客戶關(guān)系管理中的廣泛應(yīng)用,客戶的屬性維度和記錄數(shù)大規(guī)模增長,原始實驗中數(shù)據(jù)樣本體量偏小,對于預(yù)測結(jié)果科學(xué)性的解釋問題日益凸顯,文獻[3]使用京東運營商手機卡用戶的在線評論作為數(shù)據(jù)源,將評論星級、會員等級、點贊數(shù)作為特征屬性,采集樣本共10 000 余條;文獻[1]使用兩個數(shù)據(jù)集,第1 個數(shù)據(jù)集通過在UCI 中隨機抽樣,獲得3333 個訓(xùn)練樣本和1667 個測試樣本,第2 個數(shù)據(jù)以國內(nèi)某電信公司對小靈通客戶拆機停號來定義客戶流失,建立1474 個訓(xùn)練樣本,966 個測試樣本;文獻[8] 選取UCI 最常用的8 個數(shù)據(jù)集,每個樣本集150~1500不等;文獻[6]以某電信公司2013年9月至2014年2月在網(wǎng)和離網(wǎng)的客戶樣本作為研究對象,樣本數(shù)量共計7913 個;文獻[5]選取了15 個可能影響客戶流失的屬性,在18 萬條數(shù)據(jù)中,在網(wǎng)數(shù)據(jù)和離網(wǎng)數(shù)據(jù)分別隨機抽取3000 條數(shù)據(jù),形成研究樣本.由此可見,當(dāng)前客戶流失預(yù)測研究的數(shù)據(jù)源大部分為小數(shù)據(jù)集或者大樣本集的抽樣,且特征維度較低.隨著大數(shù)據(jù)技術(shù)的發(fā)展,小樣本的抽樣數(shù)據(jù)集已經(jīng)不能滿足對于預(yù)測的需要,大樣本的高維度數(shù)據(jù)計算將成為必然.

        大樣本的高維度數(shù)據(jù)計算核心算法包括早期的主成分分析(Principal Component Analysis,PCA)[10],線性判別分析(Linear Discriminant Analysis,LDA)等,這類算法理論基礎(chǔ)堅實,且易于執(zhí)行,很多學(xué)者通過使用核技巧,將這些線性特征提取算法擴展到核領(lǐng)域,如核獨立主成分分析[11].另一類非線性特征提取技術(shù)是流行學(xué)習(xí)方法,例如,局部保持投影(Locality Preserving Projection,LPP)[12]、局部線性嵌入(Locally Linear Embedding,LLE)[13]等,文獻[14] 中Zhai 等人在LPP的基礎(chǔ)上提出了一種改進的局部保持投影.局部保持投影(LPP)不但具有簡單、快捷等優(yōu)點,同時可以考慮到整體數(shù)據(jù)空間;此外,LPP 算法最大程度保持了數(shù)據(jù)的局部結(jié)構(gòu),因此在低維空間中表示的最近鄰搜索極大可能與高維空間中產(chǎn)生的結(jié)果類似.所以,LPP 算法在數(shù)據(jù)降維領(lǐng)域有相當(dāng)高的實用性.雖然LPP 算法實用性較強,但是卻有一個不可避免的缺點:在算法的優(yōu)化過程中包含一個稠密矩陣分解計算.這是一個非常消耗時間和計算資源的計算過程,而譜回歸(Spectral Regression,SR)[12]將學(xué)習(xí)嵌入函數(shù)的方式轉(zhuǎn)化為一個回歸框架,避免了稠密矩陣分解這一計算過程,同時提高了優(yōu)化的效果.因此本文提出基于譜回歸的特征降維更適合大樣本高維度數(shù)據(jù)的計算.

        針對以上問題,本文以網(wǎng)絡(luò)客戶數(shù)據(jù)集和傳統(tǒng)電信客戶數(shù)據(jù)集為研究對象,從特征向量提取的角度,提出基于譜回歸局部保留投影的客戶屬性降維算法,并從特征選擇和分類器優(yōu)化方面與不同的方法做了對比,實驗證明了算法的有效性.

        1 基于譜回歸的特征降維

        基于譜回歸的特征降維算法是針對流行結(jié)構(gòu)圖嵌入式的典型降維算法,通過特征提取來構(gòu)造一個能揭示數(shù)據(jù)流行的結(jié)構(gòu)圖,其結(jié)構(gòu)圖的表示方式為一個投影矩陣,實現(xiàn)將高維數(shù)據(jù)特征投影到低維子空間中,以保持高維空間中數(shù)據(jù)間的鄰近結(jié)構(gòu),達到降維的目的.在該算法模型中,每個頂點都是一個樣本點,兩個樣本點之間的邊權(quán)重采用K 近鄰法計算兩個樣本點之間的鄰接程度,因此對數(shù)據(jù)的完整性保持較好.

        1.1 局部保形投影

        局部保形投影算法(LPP)應(yīng)該被視為PCA的替代方法.PCA是一種經(jīng)典的線性技術(shù),他沿著最大方差的方向投影數(shù)據(jù).當(dāng)高維數(shù)據(jù)位于嵌入外圍空間的低維流形上時,通過求流行上 Laplace Beltrami 算子特征函數(shù)的最優(yōu)特征逼近,得到局部保持投影.因此,LPP具有許多非線性技術(shù)的數(shù)據(jù)表示特征.

        局部保形投影算法,屬于將圖嵌入子空間的學(xué)習(xí)算法,其目的是用低維向量表示高維空間中圖的節(jié)點.通過求解一個投影矩陣A將空間樣本節(jié)點投影到低維空間從而實現(xiàn)降維.圖中任意兩節(jié)點之間的關(guān)聯(lián)性用最近鄰圖模型表示,因此較好的保留了子空間中節(jié)點局部的結(jié)構(gòu),實現(xiàn)了局部降維.

        假設(shè)構(gòu)建一個無向加權(quán)圖Graph 有m個節(jié)點,第i個節(jié)點用xi表示,任意兩個節(jié)點之間采用K 近鄰法定義是否關(guān)聯(lián).選擇與xi鄰近的k個節(jié)點作為xi的鄰近點,若xj在xi的k個鄰近點中或者xi在xj的k個鄰近點中,則xi與xj相連;反之,則不相連.

        根據(jù)上述鄰接圖計算權(quán)值.矩陣W表示權(quán)值矩陣,則兩節(jié)點xi與xj之間的權(quán)值為Wij,若xi與xj在相互的鄰近域中,則Wij為非0 值,反之,Wij為0.用徑向基函數(shù)計算任意兩節(jié)點的權(quán)值,則權(quán)值矩陣Wij可定義為:

        最后,對其做特征分解.假設(shè)總節(jié)點數(shù)即樣本集為m,樣本集矩陣X=[x1,x2,···,xm],矩陣X通過投影到低維空間的矩陣Y=[y1,y2,···,ym],定義線性函數(shù)yi=f(xi)=aTxi,表示高維空間向量xi通過投影向量a投影到低維空間向量yi.為保持圖中節(jié)點的局部結(jié)構(gòu),鄰近點xi與xj投影后得到的yi與yj仍需保持鄰近,則需滿足下列準(zhǔn)則函數(shù)值最小:

        因線性函數(shù)yi=f(xi)=aTxi,則式(2)可變換為:

        其中,D為n×n的對角陣,即權(quán)重矩陣Wij每列的和為對角矩陣D對角線上的元素.L=D-W,L稱為拉普拉斯矩陣.為了在投影后數(shù)據(jù)最密集的地方建立坐標(biāo)軸,需對Y進行一定的約束:YTDY=1即aTXLXTa=1;則式(3)可變換為:

        用拉格朗日乘數(shù)法將式(4)轉(zhuǎn)化為求解下列方程的最大特征向量a:

        其中,λ為拉格朗日乘數(shù).

        LPP 算法實現(xiàn)降維的同時保留了數(shù)據(jù)節(jié)點間的局部空間結(jié)構(gòu),具有較好的局部判別能力;與傳統(tǒng)的線性降維方法相比,該算法能保持?jǐn)?shù)據(jù)的流行結(jié)構(gòu),克服了非線性方法難以獲得新樣本低維投影的缺點.但是LPP 算法也存在自身的缺陷,在求解大規(guī)模特征值問題時會導(dǎo)致計算量較大,計算時間較長.算法只注重數(shù)據(jù)的局部結(jié)構(gòu),而未考慮到數(shù)據(jù)樣本的類別,另外在噪聲影響下算法不能獲得較理想的結(jié)果,因此算法的魯棒性較差.

        1.2 基于譜回歸的特征降維

        為了克服局部保形投影算法計算稠密矩陣的特征值問題,引入譜回歸(Spectral Regression,SR)方法用回歸模型處理特征函數(shù),先將特征函數(shù)根據(jù)圖譜理論進行圖的譜分析,再將數(shù)據(jù)放入回歸模型中處理.其特征降維的優(yōu)良特性使得在眾多領(lǐng)域中得到了廣泛應(yīng)用[15].

        在定義線性函數(shù)yi=f(xi)=aTxi求解投影向量a時,投影向量a可能會無解,譜回歸算法通過最小二乘算法尋找與投影向量a的最佳函數(shù)匹配,使求得的數(shù)據(jù)與實際向量a之間的誤差的平方和為最小,最大程度逼近投影向量a.

        通過對式(6)求偏導(dǎo)可得:

        當(dāng)正則化參數(shù) α無限趨向于0 時,式(8)的正則解即為特征問題(式(5))的最大特征向量解.

        2 實驗

        本文在網(wǎng)絡(luò)客戶和電信客戶兩個大樣本數(shù)據(jù)集上進行實證研究,預(yù)測流程如圖1所示,采用F1 值、精確率、召回率、準(zhǔn)確率等指標(biāo)評價模型預(yù)測結(jié)果,具體參見表1.實驗所用電腦的內(nèi)存是16 GB,處理器是Intel(R) Xeon(R) CPU E5-1603 v3,操作系統(tǒng)為Win7 64 位,實驗環(huán)境為Matlab 2018a.

        表1 混淆矩陣

        圖1 運動目標(biāo)誤判效果

        2.1 某電子商務(wù)網(wǎng)站網(wǎng)絡(luò)客戶數(shù)據(jù)

        該數(shù)據(jù)集來源于某電子商務(wù)網(wǎng)站.采用過抽樣和隨機抽樣形成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,以自然年度為周期共得到訓(xùn)練樣本20 006 個,測試樣本8574 個.其中訓(xùn)練集中流失客戶10 002 個,非流失客戶10 004個.測試集中非流失客戶856 個,流失客戶7718 個.非流失客戶與流失客戶的比例基本為1:9,主要包括客戶首次購買時間、客戶關(guān)系長度、客戶消費新鮮度、客戶消費頻度、客戶消費金額、客戶對商品的評分、客戶評論情感共7 個屬性特征[2].這里我們從不同特征約簡算法和分類器兩個層面進行對比.特征約簡算法則包括KPCA、PCA,分類器包括原始線性核SVM、優(yōu)化SVM 算法(網(wǎng)格算法,遺傳算法,種群優(yōu)化算法)和DBN (深度置信網(wǎng)絡(luò)),其中KPCA,PCA,SR-LPP的約簡維度統(tǒng)一設(shè)置為3,DBN 設(shè)置為3 層隱藏層,每層30 節(jié)點.鑒于企業(yè)獲取新客戶的成本是保留老客戶成本的數(shù)倍,將流失客戶判別為非流失客戶稱為導(dǎo)致嚴(yán)重后果的第一類錯誤(FN)[1],將非流失客戶判別為流失客戶稱為第二類錯誤(FP).對于企業(yè)而言,模型導(dǎo)致的第二類錯誤會增加客戶保持成本,而犯第一類錯誤則將面臨著客戶流失的巨大風(fēng)險,因此在該實驗中添加導(dǎo)致嚴(yán)重后果的第一類錯誤發(fā)生率作為輔助評價指標(biāo).

        實驗結(jié)果混淆矩陣如圖2所示(其中0 代表了非流失類,1 代表了流失類).基于譜回歸的預(yù)測方法在精確率、召回率、準(zhǔn)確率等方面都優(yōu)于其他方法.且第一類錯誤的發(fā)生概率僅為1.7%.在分類器優(yōu)化的方法中,基于遺傳算法(GA)和種群算法(PSO)優(yōu)化的SVM,并不能顯著提高客戶流失預(yù)測效果,相比與非優(yōu)化SVM各項指標(biāo)基本持平,但第一類錯誤發(fā)生率在35%左右,略高于非尋優(yōu)SVM的32%,SVM+Grid 預(yù)測效果則更不理想.而DBN 分類器在非流失客戶與流失客戶明顯不平衡的測試集中,全部將測試集判斷為非流失客戶.在特征約簡方法中,除了KPCA 外,PCA和本文的SRLPP 都在不同程度上提高了客戶流失預(yù)測效果,其中SVM+SR-LPP 綜合Precision、Recall、Accuracy和第一類錯誤率4 個指標(biāo)較其他方法最優(yōu),也在一定程度上說明特征層面的選擇優(yōu)化更為重要.

        圖2 不同算法的結(jié)果混淆矩陣對比

        2.2 電信客戶數(shù)據(jù)

        電信客戶數(shù)據(jù)采用高維度、大樣本的美國DUKE大學(xué)電信客戶行為數(shù)據(jù).數(shù)據(jù)樣本共計151 306 個,其中訓(xùn)練集共100 000 個樣本,包含流失客戶49 562 個,非流失客戶50 438 個,兩類客戶的比例基本為1:1;測試集共51 306 個樣本,包含流失客戶924 個,非流失客戶49 514 個,客戶流失率為1.8%,數(shù)據(jù)類別嚴(yán)重不平衡.其屬性值包含產(chǎn)品特征、客戶方案、客戶信息3 大類,共計87 個初始屬性指標(biāo).鑒于數(shù)據(jù)樣本大、維度高,SVM 分類器的參數(shù)尋優(yōu)已無法在實驗計算機有效時間內(nèi)的求出結(jié)果,這里重點進行特征選擇和約簡算法的對比,采用PCA、KPCA、MCFS[16]、SRLPP算法分別在1-87 維度之間做了比對,分類器統(tǒng)一使用線性SVM.

        通過圖3-圖5可見,降維或選擇后的特征在一定程度上優(yōu)于全部特征作為SVM 輸入的預(yù)測方法,全部特征雖然包含的信息量大,但不同屬性數(shù)據(jù)間交叉、重合所產(chǎn)生的信息冗余也容易引起不同類別的誤判,這種特征本質(zhì)的混淆在上述不同分類器并沒有得到良好的解決.在特征降維和選擇的算法中,KPCA對于不同維度穩(wěn)定性較差,在不平衡數(shù)據(jù)中容易將測試集全部預(yù)測為流失或非流失,從而造成大部分實驗召回率非0 即1,使得F1和精確度指標(biāo)失去意義.同時核函數(shù)方法需要對核矩陣計算和特征分解來完成高維空間的映射,對于大樣本數(shù)據(jù)時間復(fù)雜度高.傳統(tǒng)PCA 降維,雖然沒有優(yōu)異的預(yù)測效果,但計算簡單,結(jié)果穩(wěn)定,不失為一種有效的特征降維方法.作為特征選擇方法代表的MCFS 三項指標(biāo)都略低于其他方法,說明每一維度的特征都具有一定隱含的語義,對于單純維度的剔除難以滿足分類的需要.SRLPP 方法則3 項指標(biāo)較為穩(wěn)定,能夠?qū)Σ煌S度特征進行有效的融合,在87 個維度的約簡中,大概率的高于其他方法.

        圖3 F1 指標(biāo)值

        圖4 Precision 指標(biāo)值

        圖5 Recall 指標(biāo)值

        我們求取不同維度下的各方法的均值和標(biāo)準(zhǔn)差,如表2所示,其中KPCA 平均精度最高,但是其各指標(biāo)值偏離程度較大,尤其是召回率標(biāo)準(zhǔn)差達0.44是PCA方法的4 倍,因此表現(xiàn)出圖4中連續(xù)的大波峰和波谷.MCFS 則綜合表現(xiàn)一般,不如全部特征輸入SVM的預(yù)測效果.SRLPP 平均精度僅次于KPCA,其他指標(biāo)在4 種特征降維方法中相對最優(yōu),整體表現(xiàn)穩(wěn)定.

        表2 不同維度下各方法指標(biāo)均值與標(biāo)準(zhǔn)差

        3 結(jié)論與展望

        隨著互聯(lián)網(wǎng)+的廣泛應(yīng)用,無論是客戶數(shù)量還是屬性的數(shù)據(jù)體量都在指數(shù)式增長,且呈現(xiàn)出數(shù)據(jù)類型嚴(yán)重不平衡的特點,傳統(tǒng)抽樣已經(jīng)不能滿足預(yù)測結(jié)果的解釋性要求,本文針對于高維度多屬性的大規(guī)??蛻袅魇ьA(yù)測,利用基于譜回歸的流形降維建立可區(qū)分性的低維特征空間,使用線性支持向量機分類,相比于參數(shù)優(yōu)化的分類器和不同的特征降維方法,預(yù)測效果有了不同程度的提高.

        猜你喜歡
        降維分類器投影
        Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
        解變分不等式的一種二次投影算法
        基于最大相關(guān)熵的簇稀疏仿射投影算法
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        找投影
        找投影
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        青青草免费手机直播视频| 97超级碰碰人妻中文字幕| 国产福利片无码区在线观看| 日本熟妇高潮爽视频在线观看| 狂插美女流出白浆视频在线观看| 亚洲人成欧美中文字幕| 久久久亚洲色| 白白色发布在线播放国产| 在线免费观看毛视频亚洲精品| 亚洲 小说区 图片区 都市| 亚洲av无码av男人的天堂| 国产欧美精品一区二区三区, | 青青草成人免费播放视频| 国产精品亚洲av三区亚洲| 亚洲熟女乱色综合亚洲av| 亚洲日本欧美产综合在线| 国产一区二区精品久久呦| 美女下蹲露大唇无遮挡| 亚洲午夜福利在线视频| 热久久网站| 日本岛国视频在线观看一区二区| 国产一区二区视频免费在线观看| 无码人妻久久一区二区三区免费| 免费人成黄页网站在线观看国产| 丰满人妻一区二区三区免费| 91成人自拍国语对白| 久久亚洲国产成人精品性色| 亚洲VA不卡一区| 国产在线视频一区二区三| 久久aaaa片一区二区| 最近中文字幕mv在线资源| 国产三级精品美女三级| 亚洲天堂av在线免费观看| 精品人妻少妇嫩草av无码专区| 久久精品国产亚洲av电影| 一本一道久久a久久精品综合蜜桃| 国产免费人成视频网站在线18| 亚洲午夜福利在线视频| 午夜无码一区二区三区在线| 国产女主播大秀在线观看| 热99re久久精品这里都是精品免费|