亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于差異度的不均衡電信客戶數(shù)據(jù)分類方法

        2017-06-27 08:10:42郭娜娜
        計算機應(yīng)用 2017年4期
        關(guān)鍵詞:原型分類樣本

        王 林,郭娜娜

        西安理工大學(xué) 自動化與信息工程學(xué)院, 西安 710048)(*通信作者電子郵箱1352214125@qq.com)

        基于差異度的不均衡電信客戶數(shù)據(jù)分類方法

        王 林,郭娜娜*

        西安理工大學(xué) 自動化與信息工程學(xué)院, 西安 710048)(*通信作者電子郵箱1352214125@qq.com)

        針對傳統(tǒng)分類技術(shù)對不均衡電信客戶數(shù)據(jù)集中流失客戶識別能力不足的問題,提出一種基于差異度的改進型不均衡數(shù)據(jù)分類(IDBC)算法。該算法在基于差異度分類(DBC)算法的基礎(chǔ)上改進了原型選擇策略。在原型選擇階段,利用改進型的樣本子集優(yōu)化方法從整體數(shù)據(jù)集中選擇最具參考價值的原型集,從而避免了隨機選擇所帶來的不確定性;在分類階段,分別利用訓(xùn)練集和原型集、測試集和原型集樣本之間的差異性構(gòu)建相應(yīng)的特征空間,進而采用傳統(tǒng)的分類預(yù)測算法對映射到相應(yīng)特征空間內(nèi)的差異度數(shù)據(jù)集進行學(xué)習(xí)。最后選用了UCI數(shù)據(jù)庫中的電信客戶數(shù)據(jù)集和另外6個普通的不均衡數(shù)據(jù)集對該算法進行驗證,相對于傳統(tǒng)基于特征的不均衡數(shù)據(jù)分類算法,DBC算法對稀有類的識別率平均提高了8.3%,IDBC算法對稀有類的識別率平均提高了11.3%。實驗結(jié)果表明,所提IDBC算法不受類別分布的影響,而且對不均衡數(shù)據(jù)集中稀有類的識別能力優(yōu)于已有的先進分類技術(shù)。

        客戶流失預(yù)測;不均衡數(shù)據(jù)分類;樣本子集優(yōu)化;原型選擇;差異度轉(zhuǎn)化

        0 引言

        電信客戶流失預(yù)測所對應(yīng)的數(shù)據(jù)集是典型的不均衡數(shù)據(jù)集,因為在所有的電信客戶中有流失發(fā)生的客戶畢竟是少數(shù),大多數(shù)客戶還是穩(wěn)定存在的,而流失客戶才是企業(yè)關(guān)注的焦點。傳統(tǒng)的機器學(xué)習(xí)算法以整體預(yù)測精度為訓(xùn)練目標(biāo),這樣就導(dǎo)致多數(shù)類預(yù)測精度高,而少數(shù)類預(yù)測精度相對較低[1]。因此,數(shù)據(jù)的不均衡性成為影響客戶流失預(yù)測精度的主要障礙,研究如何解決客戶流失預(yù)測中面臨的數(shù)據(jù)不均衡問題就變得越來越重要。

        針對客戶流失預(yù)測中的數(shù)據(jù)不均衡問題,國內(nèi)外學(xué)者主要進行了以下兩方面的研究:

        1)修正偏斜的數(shù)據(jù)分布,采用重采樣或者構(gòu)建新樣本的方法實現(xiàn)數(shù)據(jù)均衡化處理。針對重采樣過程中有用樣本信息丟失的問題,文獻[2]提出了兩種欠采樣的改進算法EasyEnsemble和BalanceCascade,結(jié)果表明改進的欠采樣方法能夠有效地均衡數(shù)據(jù)分布,同時提高少數(shù)類樣本的分類準(zhǔn)確率;文獻[3]采用基于聚類的欠采樣方法來提取多數(shù)類的聚類邊界,并結(jié)合支持向量機(Support Vector Machine, SVM)分類算法構(gòu)建流失預(yù)測模型,結(jié)果表明該方法能夠保留有用的多數(shù)類樣本信息,均衡數(shù)據(jù)分布并擴大決策邊界,進而提高SVM算法對少數(shù)類樣本的識別能力;針對樣本合成過程中所帶來的數(shù)據(jù)噪聲干擾以及模型過擬合問題,文獻[4]提出一種基于錯分的混合采樣算法,有效地解決了合成少數(shù)類過采樣技術(shù)(Synthetic Minority Over-sampling Technique, SMOTE)中存在的數(shù)據(jù)噪聲干擾問題,同時克服了盲目采樣和不合理采樣所帶來的樣本空間重疊問題;文獻[5]提出一種基于單邊選擇鏈和樣本分布密度融合的不均衡數(shù)據(jù)處理方法,有效地解決了SMOTE采樣算法所帶來的過擬合問題,同時提升了分類模型對少數(shù)類樣本的分類性能。

        2)改進分類算法,采用組合分類方法或代價敏感分析。文獻[6]將基于粒子群優(yōu)化的欠采樣方法與組合分類技術(shù)相結(jié)合來構(gòu)建流失預(yù)測模型,結(jié)果表明該組合預(yù)測模型對流失客戶的識別能力明顯優(yōu)于單一的預(yù)測技術(shù);文獻[7]采用了基于分割聚類分層抽樣邏輯回歸預(yù)測模型,該模型從失衡數(shù)據(jù)集的重采樣和預(yù)測算法的改進兩個方面同時入手,改善了數(shù)據(jù)失衡對預(yù)測所造成的影響;文獻[8]將客戶生命價值作為隨機森林中節(jié)點劃分的準(zhǔn)則,不僅消除了不均衡數(shù)據(jù)對預(yù)測結(jié)果的影響,而且提高了對有流失傾向的高價值客戶預(yù)測的準(zhǔn)確率;文獻[9]將代價敏感學(xué)習(xí)理論與隨機森林分類算法相融合,采用加權(quán)隨機森林分類算法來解決電信客戶流失預(yù)測中的不均衡數(shù)據(jù)分類問題;針對客戶流失數(shù)據(jù)集的非均衡問題和錯分代價的差異性問題,文獻[10]將代價敏感學(xué)習(xí)應(yīng)用于加權(quán)支持向量機,結(jié)果表明該方法在精確度、命中率、覆蓋率和提升度方面均有所改善。

        雖然上述研究對客戶流失預(yù)測具有一定的貢獻,但是研究的焦點一直圍繞如何消除不均衡數(shù)據(jù)分布對分類預(yù)測結(jié)果的影響,而文獻[11-12]表明偏斜的數(shù)據(jù)分布并不是影響傳統(tǒng)分類算法對稀有類識別的唯一因素,特征和類標(biāo)簽之間的關(guān)聯(lián)性同樣對不均衡數(shù)據(jù)的分類結(jié)果有重要影響,然而許多研究往往忽略了特征對類標(biāo)簽的識別能力。文獻[13]表明傳統(tǒng)的特征選擇僅僅實現(xiàn)了特征降維,并不能提高特征對類標(biāo)簽的識別能力。文獻[14-16]采用了一種差異度表示方法來處理不均衡數(shù)據(jù)的分類問題,該方法利用樣本之間的差異性來捕獲數(shù)據(jù)集的結(jié)構(gòu)特性和統(tǒng)計特性,并借助樣本間的差異度來構(gòu)建新的特征空間,即差異度空間,結(jié)果表明在新的特征空間內(nèi),樣本的類標(biāo)簽更容易得到識別。故差異度表示方法為電信客戶流失預(yù)測中的不均衡數(shù)據(jù)分類問題提供了一種新的解決思路。

        不受類別分布的影響是差異度表示方法的一大優(yōu)勢,可彌補已有不均衡數(shù)據(jù)分類方法的不足,然而,若直接將該方法應(yīng)用于實際的電信客戶流失預(yù)測,將會出現(xiàn)以下兩大弊端:1)電信客戶數(shù)據(jù)集中存在大量冗余或無關(guān)的特征屬性,可能會對原型選擇形成干擾,進而影響差異度轉(zhuǎn)化的有效性;2)基于隨機選擇的原型選擇方法并不能確保所選擇的原型集是最優(yōu)的。

        為解決上述問題,本文提出一種基于差異度的改進型不均衡數(shù)據(jù)分類(Improved Dissimilarity-Based imbalanced data Classification, IDBC)方法來預(yù)測電信客戶的流失趨勢。針對冗余屬性對差異度表示方法的影響,本文在構(gòu)建分類模型之前,采用基于關(guān)聯(lián)的特征選擇(Correlation-based Feature Selection, CFS)算法對原始數(shù)據(jù)集進行特征選擇;針對隨機選擇方法在原型選擇過程中所帶來的不確定性和復(fù)雜度高的弊端,本文采用改進型的樣本子集優(yōu)化(Improved Sample Subset Optimization, ISSO)技術(shù)來選擇原型集。

        1 差異度表示方法

        1.1 差異度表示

        傳統(tǒng)的分類技術(shù)是根據(jù)特征與類標(biāo)簽之間的關(guān)聯(lián)性來決定對象的類別歸屬。在原始特征空間內(nèi),不同對象在同一特征空間內(nèi)可能會有相同的類標(biāo)簽,同樣,當(dāng)特征空間的結(jié)構(gòu)發(fā)生變化時,隸屬不同類別的對象可能會由相同的特征向量所表示。因此,僅利用特征與類標(biāo)簽之間的關(guān)聯(lián)性來判斷對象的類別歸屬是遠(yuǎn)遠(yuǎn)不夠的。在差異度表示方法中,假定歸屬同一類別的對象之間具有很強的相似性;反之,具有極大的差異性,以能夠顯著刻畫類標(biāo)簽的代表性對象實例為參考目標(biāo),利用其余對象與代表性對象之間的差異度來構(gòu)建新的特征空間,即差異度空間。差異度表示方法借助對象之間的差異性來確定對象的類標(biāo)簽,以差異度代替特征屬性,從而克服了類重疊的弊端。

        差異度表示的基本思想:

        (1)

        其中:x∈T;dis(·)表示距離函數(shù);[·]T表示矩陣的轉(zhuǎn)置。

        進而利用訓(xùn)練集中的任意對象和原型集中所有對象之間的差異性,確定該對象的類別歸屬,證明如下:

        ?xj∈T,p1,p2∈R,Label(p1)=c1,Label(p2)=c2,若dis(xj,p1)>dis(xj,p2),則Label(xj)=c2。

        該差異度表示方法僅借助對象實例之間的差異性來確定對象的類別歸屬,不需要考慮特征屬性對類標(biāo)簽的影響,而且忽略了類別分布對分類結(jié)果的影響,從而避免了傳統(tǒng)分類器在不均衡數(shù)據(jù)分類過程中失效。

        1.2 基于樣本子集優(yōu)化的原型選擇

        在差異度表示方法中,原型集代表了一類對類標(biāo)簽具有顯著識別能力的有用樣本子集,作為差異度轉(zhuǎn)化過程中的參考數(shù)據(jù)集。隨機選擇是一種最簡單的原型選擇方法,即從訓(xùn)練集中隨機選取部分樣本實例作為原型集;但是隨機選擇方法所存在的不確定性可能會導(dǎo)致所獲取的原型集缺乏參考價值,從而影響差異度轉(zhuǎn)化的有效性[13]2。文獻[17]曾采用樣本子集優(yōu)化(SampleSubsetOptimization,SSO)方法從多數(shù)類樣本集中選擇有用的樣本實例,所選取的樣本實例代表了整個多數(shù)類樣本集的統(tǒng)計特性。本文利用該優(yōu)化思想,以整個訓(xùn)練集(既包含多數(shù)類樣本,也包含少數(shù)類樣本)為研究對象,采用改進型的樣本子集優(yōu)化技術(shù)進行原型選擇。

        改進型的樣本子集優(yōu)化(ISSO)技術(shù)通過最小化訓(xùn)練數(shù)據(jù)集交叉驗證過程中的期望誤差來選擇一個有效的訓(xùn)練樣本子集。k折交叉驗證的期望誤差定義如式(2)所示:

        (2)

        在樣本子集優(yōu)化過程中,采用粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法[18]選取最優(yōu)的訓(xùn)練子集。假定訓(xùn)練集中含有n個樣本實例,即T={x1,x2,…,xn},粒子群中含有L個粒子,即Z={m1,m2,…,mL},采用一個指示函數(shù)集M={Ix1,Ix2,…,Ixn}編碼對應(yīng)粒子。在每一維中,若第j個樣本實例xj被選中,則指示函數(shù)Ixj=1;否則Ixj=0。在優(yōu)化過程中,由于指示函數(shù)采用二進制離散編碼的方式進行表示,但是粒子群算法通常是對連續(xù)值進行優(yōu)化,故使用sigmoid(·)函數(shù)對式(3)中所求得的連續(xù)速度值進行離散化處理。粒子的速度和位置更新如式(3)~(5)所示:

        vi, j(t+1)=wvi, j(t)+c1f1(pbesti, j-posi, j(t))+c2f2(gbesti, j-posi, j(t))

        (3)

        (4)

        (5)

        1.3 差異度轉(zhuǎn)化

        2 基于差異度的電信客戶流失預(yù)測模型

        2.1 模型方案設(shè)計

        基于差異度的電信客戶流失預(yù)測模型的具體方案設(shè)計如圖1所示。

        圖1 基于差異度的電信客戶流失預(yù)測模型框圖

        模型構(gòu)建主要包括兩個階段:訓(xùn)練階段和測試階段。在模型訓(xùn)練階段,主要進行特征選擇、原型選擇、差異度轉(zhuǎn)化和分類器訓(xùn)練;在模型測試階段,主要利用測試樣本對訓(xùn)練所得的分類器的有效性進行檢驗。具體過程如下:

        1)模型訓(xùn)練。

        a)特征選擇。利用基于關(guān)聯(lián)的特征選擇(CFS)算法對電信客戶數(shù)據(jù)集中的特征空間進行降維,剔除冗余或無關(guān)的特征屬性,保證原型選擇的有效進行。

        b)原型選擇。采用改進型的樣本子集優(yōu)化技術(shù)(ISSO)從訓(xùn)練數(shù)據(jù)集中選取有代表性的樣本子集,作為差異度轉(zhuǎn)化中的參考集。

        c)差異度轉(zhuǎn)化。計算訓(xùn)練數(shù)據(jù)集與原型集之間的差異度,并利用訓(xùn)練樣本實例與原型集之間的差異度來重新定義訓(xùn)練樣本實例的描述方式,取代已有的基于特征屬性的樣本實例描述方法。

        d)分類器訓(xùn)練。由于差異度表示方法與類別分布無關(guān),故在類別分布不均衡的數(shù)據(jù)分類問題中失效的分類算法仍可運用于電信客戶流失預(yù)測的分類建模。本文采用的分類算法有樸素貝葉斯(NativeBayes,NB)、邏輯回歸(LogisticRegression,LR)、k近鄰(k-Nearnest Neighbors, kNN)、決策樹(J48)和隨機森林(Random Forest, RF)。

        2)模型測試。

        a)數(shù)據(jù)約簡。利用模型訓(xùn)練過程中所得的特征子集,對測試數(shù)據(jù)集進行屬性約簡。

        b)差異度轉(zhuǎn)化。利用模型訓(xùn)練過程中所得的原型集,將約簡后的測試數(shù)據(jù)集映射到差異度空間,形成差異度測試集。

        c)分類器評估與應(yīng)用。利用差異度測試集對訓(xùn)練所得的分類器進行測試,獲取分類評價指標(biāo),預(yù)測流失結(jié)果。

        2.2 模型評價標(biāo)準(zhǔn)

        受試者工作特征曲線下的面積(Area Under ROC Curve, AUC)表示受試者工作特征曲線(Receiver Operating Characteristic Curve, ROC)與坐標(biāo)軸所圍的面積,該曲線的橫坐標(biāo)代表假正率(False Positive Rate, FPR),縱坐標(biāo)代表真正率(True Positive Rate, TPR)。通常情況下,AUC是一種用來評估不均衡數(shù)據(jù)分類預(yù)測性能的重要指標(biāo)。理想情況下,要求真正率盡可能高,假正率盡可能低。因此,AUC值越大,代表分類模型的分類性能越優(yōu)。TPR、FPR的定義如式(7)、(8)所示:

        (7)

        (8)

        3 實驗分析

        3.1 實驗數(shù)據(jù)

        本文選取UCI機器學(xué)習(xí)數(shù)據(jù)庫中的電信客戶流失數(shù)據(jù)集(Churn_data)和另外6個普通的不均衡數(shù)據(jù)集(abalone9-18、ecoliIM、ecoliIMU、ecoliOM、yeastCYT-POX、glassNM)對所提出的基于差異度的改進型不均衡數(shù)據(jù)分類算法的有效性進行驗證。Churn_data數(shù)據(jù)集的詳細(xì)信息如表1~2所示,另外6個類別分布不均衡的UCI數(shù)據(jù)集的數(shù)據(jù)描述如表3所示。

        表1 UCI電信客戶數(shù)據(jù)集(Churn_data)的客戶屬性描述

        表2 Churn_data電信客戶數(shù)據(jù)集的數(shù)據(jù)描述

        表3 UCI中其他六個不均衡數(shù)據(jù)集的數(shù)據(jù)描述

        3.2 實驗結(jié)果及分析

        為評估本文算法在解決不均衡數(shù)據(jù)分類問題時的有效性,在Eclipse開發(fā)環(huán)境下,利用數(shù)據(jù)挖掘工具Weka進行了相應(yīng)的實驗,并對實驗結(jié)果進行了詳細(xì)的分析。實驗分為兩個部分。

        實驗1 基于UCI電信客戶數(shù)據(jù)集,借助樸素貝葉斯(NB)、邏輯回歸(LR)、k近鄰(kNN)、決策樹(J48)和隨機森林(RF)五種分類算法,分別運用已有的不均衡數(shù)據(jù)處理方法,例如隨機過采樣(Random Over-Sampling, ROS)、隨機欠采樣(Random Under-Sampling, RUS)、合成少數(shù)類的過采樣(SMOTE)、提升(Boosting)、裝袋(Bagging)、代價敏感分析算法(MetaCost)和原差異度分類(Dissimilarity-Based Classification, DBC)方法、改進型的差異度分類(IDBC)方法,以及在特征選擇基礎(chǔ)上實現(xiàn)的改進型差異度分類(Improved Classification based on Feature Selection and Dissimilarity, FS-IDBC)方法對該數(shù)據(jù)集進行訓(xùn)練和測試,比較分類評價指標(biāo)AUC,實驗結(jié)果如表4所示。

        通過分析表4的實驗數(shù)據(jù),可以分析得出以下結(jié)論:

        1)在不同的分類算法下,基于差異度的不均衡數(shù)據(jù)處理(DBC)方法的分類評價指標(biāo)AUC值均高于已有的不均衡數(shù)據(jù)處理方法的AUC值。說明差異度表示是一種有效的不均衡數(shù)據(jù)處理方法,能夠避免傳統(tǒng)分類算法在不均衡數(shù)據(jù)分類過程中失效。

        2)通過分析不同的兩種原型選擇方法的實驗結(jié)果,并在同一分類算法下以已有不平衡處理方法中最優(yōu)方法所獲取的分類評估指標(biāo)AUC值為參考對象,依次計算IDBC方法、DBC方法相對于最優(yōu)方法在識別率方面的提升度,同時進一步綜合上述五種分類算法下識別率的提升度,以識別率的平均提升度為衡量標(biāo)準(zhǔn),計算結(jié)果表明:當(dāng)采用基于隨機選擇的原型選擇(Prototype Selection based on Random Selection, RS-PS)方法進行原型選擇時,DBC方法對流失客戶的識別率要比已有的不平衡處理方法中最優(yōu)算法的識別率平均提高了大約8.3%;然而,當(dāng)采用基于改進型的樣本子集優(yōu)化的原型選擇(Prototype Selection based on Improved Sample Subset Optimization, ISSO-PS)方法進行原型選擇時,IDBC方法對流失客戶的識別率平均提高了大約11.3%。比較結(jié)果表明基于改進型的樣本子集優(yōu)化的原型選擇方法能夠通過分析樣本在分類過程中的作用,進而選出與類標(biāo)簽緊密相關(guān)的核心樣本子集。因此,基于改進型樣本子集優(yōu)化的原型選擇方法對分類結(jié)果更有利。

        3)通過比較特征選擇前后IDBC算法的分類結(jié)果,分析可得:雖然基于改進型樣本子集優(yōu)化的差異度分類方法是一種高效的不均衡數(shù)據(jù)分類方法,但是電信客戶數(shù)據(jù)集中所存在的冗余、無關(guān)的客戶屬性不僅會增加模型構(gòu)建過程中的復(fù)雜度,而且會對原型選擇造成干擾,致使所選擇的原型集缺乏參考價值。因此,在特征選擇的基礎(chǔ)上,采用IDBC方法將有助于提高傳統(tǒng)分類算法對不均衡電信客戶數(shù)據(jù)分類預(yù)測的準(zhǔn)確率。

        實驗2 基于6個普通的UCI不均衡數(shù)據(jù)集(abalone9-18、ecoliIM、ecoliIMU、ecoliOM、 yeastCYT-POX、glassNM),借助樸素貝葉斯(NB)、邏輯回歸(LR)、k近鄰(kNN)、決策樹(J48)和隨機森林(RF)五種分類算法,分別運用已有的不均衡數(shù)據(jù)處理方法ROS、RUS、SMOTE、Boosting、Bagging、MeataCost和改進型的差異度分類方法(IDBC)在上述6個不均衡數(shù)據(jù)集上訓(xùn)練分類模型,并對訓(xùn)練所得模型的有效性進行檢驗,比較分類評價指標(biāo)AUC,如表5所示。

        通過分析表5中的實驗結(jié)果,可以得出結(jié)論:差異度表示方法不僅可以解決電信客戶流失預(yù)測中的不均衡數(shù)據(jù)分類問題,而且適用于其他不同領(lǐng)域的不均衡數(shù)據(jù)分類研究。同時通過比較所有的不均衡數(shù)據(jù)處理方法,發(fā)現(xiàn)組合分類技術(shù)和代價敏感學(xué)習(xí)的分類效果優(yōu)于一般的重采樣方法,而遜色于改進型的差異度分類方法。

        表4 基于Churn_data數(shù)據(jù)集的不均衡數(shù)據(jù)處理方法的分類評價指標(biāo)(AUC)

        表5 基于UCI其他六個數(shù)據(jù)集的不均衡數(shù)據(jù)處理方法的分類評價指標(biāo)(AUC)

        4 結(jié)語

        本文針對電信客戶流失預(yù)測中存在的不均衡數(shù)據(jù)分類問題以及差異度分類方法在不均衡數(shù)據(jù)分類中的局限性,提出將特征選擇、樣本子集優(yōu)化以及差異度分類方法相結(jié)合來解決電信客戶流失預(yù)測問題。通過對基于差異度的改進型不均衡數(shù)據(jù)分類(IDBC)算法進行實證分析,可以得出以下幾點結(jié)論:1)差異度分類方法能夠消除類別分布對預(yù)測結(jié)果的影響,對流失客戶的預(yù)測性能優(yōu)于已有的流失預(yù)測方法;2)相對于隨機選擇的結(jié)果,樣本子集優(yōu)化所選擇的原型集更具有參考價值,對流失客戶的識別更有利;3)在構(gòu)建分類模型之前,對原始電信客戶數(shù)據(jù)集進行特征選擇,不僅能夠消除冗余,降低計算復(fù)雜度,而且確保了原型選擇的有效性;4)差異度表示方法適用于解決不均衡數(shù)據(jù)的分類問題。但是,本文提出的改進型差異度分類算法目前僅僅適用于解決不均衡數(shù)據(jù)的二分類問題,并不適用于解決多類別的數(shù)據(jù)分類問題。因此,探索差異度分類方法在多類別數(shù)據(jù)分類問題中的應(yīng)用將成為下一階段的研究目標(biāo)。

        References)

        [1] 曹鵬, 李博, 栗偉, 等. 基于粒子群優(yōu)化的不均衡數(shù)據(jù)學(xué)習(xí)[J]. 計算機應(yīng)用, 2013, 33(3): 789-792.(CAO P, LI B, LI W, et al. Imbalanced data learning based on particle swarm optimization[J]. Journal of Computer Applications, 2013, 33(3): 789-792.)

        [2] LIU X, WU J, ZHOU Z. Exploratory under-sampling for class-imbalance learning [J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B, 2009, 39(2): 539-550.

        [3] LI P, YU X, SUN B, et al. Telecom customer churn prediction based on imbalanced data re-sampling method[C]// Proceedings of the 2013 International Conference on Measurement, Information and Control. Piscataway, NJ: IEEE, 2013: 229-233.

        [4] 古平, 歐陽源遊. 基于混合采樣的非平衡數(shù)據(jù)集分類研究[J]. 計算機應(yīng)用研究, 2015, 32(2): 379-381.(GU P, OUYANG Y Y. Classification research for unbalanced data based on mixed-sampling [J]. Application Research of Computers, 2015, 32(2): 379-381.)

        [5] 翟云, 王樹鵬, 馬楠, 等. 基于單邊選擇鏈和樣本分布密度融合機制的非平衡數(shù)據(jù)挖掘方法[J]. 電子學(xué)報, 2014, 42(7): 1311-1319.(ZHAI Y, WANG S P, MA N, et al. A data mining method for imbalanced datasets based on one-sided link and distribution density of instances [J]. Acta Electronica Sinica, 2014, 42(7): 1311-1319.)

        [6] IDRIS A, KHAN A. Churn prediction system for telecom using filter-wrapper and ensemble classification [J/OL]. The Computer Journal, 2016 [2016- 06- 01]. http://comjnl.oxfordjournals.org/content/early/2016/05/27/comjnl.bxv123.abstract.

        [7] LI P, LI S B, BI T T, et al. Telecom customer churn prediction method based on cluster stratified sampling logistic regression [C]// Proceedings of the 2014 International Conference on Software Intelligence Technologies and Applications & International Conference on Frontiers of Internet of Things. London, UK: IET, 2014: 282-287.

        [8] 丁君美, 劉貴全, 李慧. 改進隨機森林算法在電信業(yè)客戶流失預(yù)測中的應(yīng)用[J]. 模式識別與人工智能, 2015,28(11): 1041-1049.(DING J M, LIU G Q, LI H. The application of improved random forest in the telecom customer churn prediction [J]. Pattern Recognition and Artificial Intelligence, 2015,28(11): 1041-1049.)

        [9] EFFENDY V, BAIZAL Z K A. Handling imbalanced data in customer churn prediction using combined sampling and weighted random forest[C]// Proceedings of the 2014 2nd International Conference on Information and Communication Technology. Piscataway, NJ: IEEE, 2014: 325-330.

        [10] 蔣國瑞, 司學(xué)峰. 基于代價敏感SVM的電信客戶流失預(yù)測研究[J]. 計算機應(yīng)用研究, 2009, 26(2): 521-523.(JIANG G R, SI X F. Study of telecom customer churn prediction based on cost sensitive SVM [J]. Application Research of Computers, 2009, 26(2): 521-523.)

        [11] JAPKOWICZ N, STEPHEN S. The class imbalance problem: a systematic study [J]. Intelligent Data Analysis, 2002, 6(5): 429-449.

        [12] ELLOUMI M, ZOMAYA A Y, YANG P, et al. Stability of feature selection algorithms and ensemble feature selection methods in bioinformatics [EB/OL]. [2016- 03- 10]. http://onlinelibrary.wiley.com/doi/10.1002/9781118617151.ch14/summary.

        [13] ZHANG X, SONG Q, WANG G, et al. A dissimilarity-based imbalance data classification algorithm [J]. Applied Intelligence, 2015, 42(3): 544-565.

        [14] PEKALSKA E, DUIN R P W. Dissimilarity representations allow for building good classifiers [J]. Pattern Recognition Letters, 2002, 23(8): 943-956.

        [15] PEKALSKA E, DUIN R P W, PACLIK P. Prototype selection for dissimilarity-based classifiers [J]. Pattern Recognition, 2006, 39(2): 189-208.

        [16] DUIN R P W, PEKALSKA E. The dissimilarity representation for pattern recognition: a tutorial[EB/OL]. [2016- 03- 10]. http://homepage.tudelft.nl/a9p19/presentations/DisRep_Tutorial_doc.pdf.

        [17] YANG P Y, YOO P D, FERNANDO J, et al. Sample subset optimization techniques for imbalanced and ensemble learning problems in bioinformatics applications [J]. IEEE Transactions on Cybernetics, 2014, 44(3): 445-455.

        [18] KENNEDY J, EBERHART R. Particle swarm optimization[C]// Proceedings of the 1995 IEEE International Conference on Neural Networks. Piscataway, NJ: IEEE, 1995: 1942-1948.

        This work is partially supported by National Natural Science Foundation of China (61405157).

        WANG Lin, born in 1962, Ph. D., professor. His research interests include wireless sensor network, community detection of complex network, big data, data mining.

        GUO Nana, born in 1992, M. S. candidate. Her research interests include big data, data mining.

        Imbalanced telecom customer data classification method based on dissimilarity

        WANG Lin, GUO Nana*

        (College of Automation and Information Engineering, Xi’an University of Technology, Xi’an Shaanxi 710048, China)

        It is difficult for conventional classification technology to discriminate churn customers in the context of imbalanced telecom customer dataset, therefore, an Improved Dissimilarity-Based imbalanced data Classification (IDBC) algorithm was proposed by introducing an improved prototype selection strategy to Dissimilarity-Based Classification (DBC) algorithm. In prototype selection stage, the improved sample subset optimization method was adopted to select the most valuable prototype set from the whole dataset, thus avoiding the uncertainties caused by the random selection; in classification stage, new feature space was constructed via dissimilarity between samples from train set and prototype set, and samples from test set and prototype set, and then dissimilarity-based datasets mapped into corresponding feature space were learnt with conventional classification algorithms. Finally, the telecom customer dataset and other six ordinary imbalanced datasets from UCI database were selected to test the performance of IDBC. Compared with the traditional imbalanced data classification algorithm based on features, the recognition rate of DBC algorithm for rare class was improved by 8.3% on average, and the recognition rate of IDBC algorithm for raw class was increased by 11.3%. The experimental results show that the IDBC algorithm is not affected by the category distribution, and the discriminative ability of IDBC algorithm outperforms existing state-of-the-art approaches.

        customer churn prediction; imbalanced data classification; Sample Subset Optimization (SSO); prototype selection; dissimilarity transformation

        2016- 09- 05;

        2016- 12- 26。 基金項目:國家自然科學(xué)基金資助項目(61405157)。

        王林(1962—),男,江蘇東臺人,教授,博士,主要研究方向:無線傳感器網(wǎng)絡(luò)、復(fù)雜網(wǎng)絡(luò)社團發(fā)現(xiàn)、大數(shù)據(jù)、數(shù)據(jù)挖掘; 郭娜娜(1992—),女,河南三門峽人,碩士研究生,主要研究方向:大數(shù)據(jù)、數(shù)據(jù)挖掘。

        1001- 9081(2017)04- 1032- 06

        10.11772/j.issn.1001- 9081.2017.04.1032

        TP301.6

        A

        猜你喜歡
        原型分類樣本
        分類算一算
        用樣本估計總體復(fù)習(xí)點撥
        包裹的一切
        分類討論求坐標(biāo)
        《哈姆雷特》的《圣經(jīng)》敘事原型考證
        推動醫(yī)改的“直銷樣本”
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        隨機微分方程的樣本Lyapunov二次型估計
        論《西藏隱秘歲月》的原型復(fù)現(xiàn)
        色婷婷久久综合中文蜜桃| 十八禁视频网站在线观看| 国产女主播精品大秀系列| ā片在线观看免费观看| 天天狠狠综合精品视频一二三区| 人妻少妇喷水意淫诱惑| 一区二区在线视频免费蜜桃| av鲁丝一区鲁丝二区鲁丝三区| 欧美日韩一区二区综合| 久久久久欧洲AV成人无码国产| 日韩精品欧美激情国产一区| 青青草视频在线观看精品在线| 伊人久久精品无码二区麻豆| 236宅宅理论片免费 | 久久精品国产免费观看99| 一本之道加勒比在线观看| 亚洲成熟女人毛毛耸耸多| 99久久精品费精品国产一区二区| 91久久国产自产拍夜夜嗨| 国产一区二区三区18p| 成人欧美一区二区三区在线观看| 国产mv在线天堂mv免费观看| 一区二区三区在线视频免费观看 | 亚洲国产精一区二区三区性色| 日本国产一区二区在线观看| 国产精品无码av无码| 久久久久亚洲av无码a片软件| 噜噜噜色97| 风韵人妻丰满熟妇老熟女视频| www射我里面在线观看| 精品 无码 国产观看| 国产黄色三级三级三级看三级| 亚洲美女毛多水多免费视频| 国产真实乱对白精彩久久老熟妇女| 国产欧美久久久另类精品 | 久久综合精品国产丝袜长腿| 精品亚洲国产成人蜜臀av| 又大又粗又爽18禁免费看| 91天堂素人精品系列全集亚洲| 国产剧情亚洲一区二区三区| 国产又黄又硬又粗|