亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合采樣和Stacking集成的電信用戶網(wǎng)別預(yù)測

        2019-11-25 05:34:42盧光躍閆真光呂少卿
        關(guān)鍵詞:分類用戶

        盧光躍, 閆真光, 呂少卿, 吳 洋

        (西安郵電大學(xué) 陜西省信息通信網(wǎng)絡(luò)及安全重點(diǎn)實(shí)驗(yàn)室, 陜西 西安 710121)

        電信用戶網(wǎng)別更換是指原有使用電信運(yùn)營商2G、3G網(wǎng)絡(luò)服務(wù)的用戶遷移至該運(yùn)營商的4G網(wǎng)絡(luò)。電信用戶網(wǎng)別更換是一種非契約關(guān)系下的用戶遷移。在非契約關(guān)系下,用戶發(fā)生遷移網(wǎng)絡(luò)行為甚至離網(wǎng)行為很難被電信運(yùn)營商所知,而利用數(shù)據(jù)挖掘模型,則可準(zhǔn)確識(shí)別即將換網(wǎng)的潛在目標(biāo)用戶,對其進(jìn)行針對性的勸轉(zhuǎn)分流。

        電信業(yè)務(wù)預(yù)測本質(zhì)上屬于監(jiān)督學(xué)習(xí)的分類任務(wù),但真實(shí)電信用戶數(shù)據(jù)集中的分類問題,如用戶欠費(fèi)、用戶離網(wǎng)以及用戶網(wǎng)別更換等問題都是不平衡比例較大的分類問題?,F(xiàn)有的決策樹、隨機(jī)森林和支持向量機(jī)等分類器算法,通常在均衡數(shù)據(jù)集上具有良好的分類效果[1],而對不平衡數(shù)據(jù)進(jìn)行預(yù)測時(shí),會(huì)偏向多數(shù)類樣本而忽略少數(shù)類樣本的預(yù)測性能,導(dǎo)致分類器算法對少數(shù)類樣本預(yù)測精度遠(yuǎn)小于對多數(shù)類樣本預(yù)測精度[2-3]。

        目前,處理不平衡數(shù)據(jù)集有數(shù)據(jù)層面和算法層面[4]兩種解決途徑。算法層面主要是對分類器算法進(jìn)行改善以適應(yīng)不平衡數(shù)據(jù),但這樣會(huì)增加算法開銷[5-7]。數(shù)據(jù)層面方法主要使用過采樣和欠采樣技術(shù)對原始數(shù)據(jù)進(jìn)行均衡處理[8]。人工合成少數(shù)類過采樣方法(synthetic minority oversampling technique,SMOTE)[9]通過對少數(shù)類樣本的插值進(jìn)行數(shù)據(jù)擴(kuò)充,可應(yīng)用于各不平衡子集,結(jié)合隨機(jī)森林分類器實(shí)現(xiàn)分類預(yù)測[10];或者給少數(shù)類邊界樣本更高的支持度,從而根據(jù)支持度較高的樣本進(jìn)行SMOTE采樣,以避免過采樣的盲目性[11]。欠采樣技術(shù)則是對多數(shù)類采樣,自動(dòng)聚類欠采樣(automatic clustering under-sampling,ACUS)通過帶有樣本權(quán)值的聚類,選擇每個(gè)簇中權(quán)值較高的多數(shù)類樣本和全部少數(shù)類樣本,構(gòu)建平衡數(shù)據(jù)集提高分類器算法精度[12];基于遺傳算法的欠采樣方法(under-sampling method using genetic algorithm,GAUS)通過遺傳算法進(jìn)行多數(shù)類樣本選擇,并且使用分類器性能作為遺傳算法的適應(yīng)函數(shù)以避免分類邊界的失真[13]。但是,單獨(dú)采用欠采樣或者過采樣方法,都會(huì)發(fā)生關(guān)鍵數(shù)據(jù)丟失或模型過擬合的問題。

        基于具有噪聲的密度聚類欠采樣方法(density-based spatial clustering of applications with noise,DBSCAN)[14]不必事先指定簇?cái)?shù)目,并對噪聲數(shù)據(jù)不敏感,根據(jù)數(shù)據(jù)中元素密度進(jìn)行數(shù)據(jù)集聚類,便能夠分析出任意空間形狀。因此,本文擬基于DBSCAN與SMOTE相結(jié)合的混合采樣方法(DS-HS),對電信用戶數(shù)據(jù)集進(jìn)行均衡處理,并利用Stacking集成學(xué)習(xí)算法訓(xùn)練得出分類結(jié)果,從而建立網(wǎng)別預(yù)測模型,識(shí)別潛在的網(wǎng)別更換用戶。

        1 電信用戶網(wǎng)別更換預(yù)測模型的建立

        電信用戶數(shù)據(jù)包括脫敏后用戶標(biāo)識(shí)、用戶入網(wǎng)齡、用戶性別、用戶年齡、月使用流量、月通話時(shí)長和使用網(wǎng)別等12維屬性。其中數(shù)值類型屬性可以直接使用,性別屬性需通過one-hot編碼后使用。確定電信用戶數(shù)據(jù)集的網(wǎng)別更換標(biāo)簽,便可利用混合采樣方法對電信用戶數(shù)據(jù)集進(jìn)行均衡處理,再通過Stacking集成學(xué)習(xí)算法訓(xùn)練分類預(yù)測模型,從而完成網(wǎng)別更換的分類預(yù)測。

        1.1 網(wǎng)別更換標(biāo)簽的生成

        將電信用戶前10個(gè)月的使用數(shù)據(jù)作為歷史數(shù)據(jù),后2個(gè)月的用戶信息生成用戶換網(wǎng)標(biāo)簽,0表示網(wǎng)別未發(fā)生改變,1表示網(wǎng)別改變。電信用戶數(shù)據(jù)集中始終使用4G網(wǎng)絡(luò)的用戶占數(shù)據(jù)集多數(shù),為多數(shù)類樣本,對應(yīng)標(biāo)簽為0;電信用戶數(shù)據(jù)集中2G、3G網(wǎng)絡(luò)遷移至4G網(wǎng)絡(luò)的用戶占數(shù)據(jù)集少數(shù),為少數(shù)類樣本,對應(yīng)標(biāo)簽為1。

        1.2 DBSCAN聚類欠采樣

        設(shè)多數(shù)類樣本鄰域半徑為ε,鄰域半徑內(nèi)包含最少樣本點(diǎn)個(gè)數(shù)為Mp。若某一多數(shù)類樣本的ε領(lǐng)域內(nèi)樣本點(diǎn)個(gè)數(shù)大于Mp,則為核心用戶點(diǎn);若小于Mp且在其余核心用戶點(diǎn)鄰域半徑內(nèi),則為邊界樣本點(diǎn);余下樣本點(diǎn)屬于噪聲樣本。

        將DBSCAN聚類過程遍歷多數(shù)類樣本集,并設(shè)置ε=0.8、Mp=15實(shí)現(xiàn)樣本標(biāo)識(shí)。若某一多數(shù)類樣本點(diǎn)被標(biāo)識(shí)為核心用戶點(diǎn),則創(chuàng)建包含該樣本點(diǎn)的新簇C,并將其鄰域內(nèi)全部樣本對象放入簇C的候選集中。若候選集中樣本對象還未屬于其他簇,則檢查候選樣本鄰域內(nèi)是否包含至少M(fèi)p個(gè)樣本點(diǎn),滿足則添加至簇C;遍歷檢查候選集中樣本并擴(kuò)展簇C。循環(huán)檢查每次加入簇C中的候選集,直至簇C中再無新樣本點(diǎn)加入,即簇C完成聚類。從剩余多數(shù)類樣本集合中隨機(jī)選擇未被標(biāo)識(shí)的樣本點(diǎn),根據(jù)上述過程繼續(xù)聚類,直至所有樣本點(diǎn)遍歷完畢,最終完成多數(shù)類樣本集合的DBSCAN聚類。

        利用DBSCAN聚類實(shí)現(xiàn)電信用戶多數(shù)類樣本集合的簇集合劃分,剔除所有噪聲樣本點(diǎn),選擇各簇中的核心樣本點(diǎn)提升欠采樣效果。

        1.3 SMOTE過采樣

        SMOTE過采樣通過啟發(fā)式方法合成少數(shù)類樣本,避免對少數(shù)類樣本的反復(fù)選擇,使用插值生成新的少數(shù)類樣本,從而避免分類器模型的過擬合[12]。過采樣方法步驟如下。

        步驟1設(shè)少數(shù)類樣本集合

        D={x1,x2,…,xM},

        其中xM表示第M個(gè)樣本,初始化過采樣率為N。

        步驟2利用歐式距離計(jì)算所有少數(shù)類樣本與樣本xM的距離,得到k個(gè)最近鄰樣本。

        步驟3根據(jù)過采樣率N,從k個(gè)最近鄰樣本中隨機(jī)選擇P個(gè)樣本。假設(shè)最近鄰樣本為xp,[0,1]區(qū)間內(nèi)的隨機(jī)數(shù)為ω,則新合成的少數(shù)類樣本可表示為

        x′=xM+ω(xp-xM)。

        (1)

        步驟4依次選擇少數(shù)類樣本集合中每一個(gè)樣本并確定其最近鄰樣本,再根據(jù)式(1)生成新樣本,最終實(shí)現(xiàn)全體少數(shù)類樣本的過采樣。

        對于電信用戶數(shù)據(jù)集生成標(biāo)簽后的兩類樣本集合,并行使用過采樣和欠采樣構(gòu)建平衡數(shù)據(jù)集。多數(shù)類樣本采樣率為N=1/10,即使用DBSCAN聚類欠采樣,選擇原多數(shù)類樣本總數(shù)的1/10樣本;少數(shù)類樣本則根據(jù)采樣完成后全體多數(shù)類樣本總數(shù)設(shè)定過采樣率,利用SMOTE過采樣插值生成新少數(shù)類樣本,從而完成數(shù)據(jù)集均衡過程。

        1.4 Stacking集成學(xué)習(xí)訓(xùn)練模型

        Stacking(Stacked generalization)也稱堆疊算法[15],是一種基分類器集成學(xué)習(xí)方法,可以整合多個(gè)異質(zhì)基分類器,從而根據(jù)不同基分類器的預(yù)測差異性保證整合后的最終預(yù)測結(jié)果[16]。

        將混合采樣均衡后的電信用戶數(shù)據(jù)集輸入至兩層Stacking集成學(xué)習(xí)結(jié)構(gòu),第一層學(xué)習(xí)結(jié)構(gòu)由決策樹、隨機(jī)森林和Adboost等3個(gè)異質(zhì)分類器組成,第二層學(xué)習(xí)結(jié)構(gòu)則由單個(gè)邏輯回歸分類器構(gòu)成。具體網(wǎng)別預(yù)測模型訓(xùn)練過程如下。

        步驟1輸入均衡數(shù)據(jù)集I,劃分為訓(xùn)練集Itrain和測試集Itest,設(shè)置交叉驗(yàn)證折數(shù)為10折。

        步驟2第一層學(xué)習(xí),將訓(xùn)練集Itrain按照交叉驗(yàn)證折數(shù)劃分10份,挑選其中9份不相交樣本集用于異質(zhì)分類器訓(xùn)練,訓(xùn)練所得分類器對剩余1份樣本集和Itest集合預(yù)測,獲得網(wǎng)別更換標(biāo)簽;重復(fù)上述過程10次,獲得Itrain全部樣本分類預(yù)測結(jié)果和全部異質(zhì)分類器對Itest的10次預(yù)測結(jié)果。

        步驟3第一層3個(gè)分類器對Itrain的全部分類預(yù)測標(biāo)簽和其原始網(wǎng)別更換標(biāo)簽構(gòu)成第二層學(xué)習(xí)訓(xùn)練集,對Itest的10次預(yù)測結(jié)果求平均后標(biāo)簽值和其原始類標(biāo)簽構(gòu)成第二層學(xué)習(xí)測試集。

        步驟4第二層學(xué)習(xí)。將步驟3中訓(xùn)練數(shù)據(jù)輸入第二層分類器,并完成第二層測試集數(shù)據(jù)的預(yù)測,實(shí)現(xiàn)電信用戶數(shù)據(jù)集網(wǎng)別更換預(yù)測。

        構(gòu)建電信用戶網(wǎng)別更換預(yù)測模型的流程如圖1所示。

        圖1 電信用戶網(wǎng)別更換預(yù)測模型構(gòu)建流程

        2 實(shí)驗(yàn)分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)集描述

        實(shí)驗(yàn)數(shù)據(jù)集分別為Crowd sourced Mapping、Winequality-White和Wilt等3個(gè)不平衡的UCI數(shù)據(jù)集[17]及脫敏電信用戶數(shù)據(jù)集,如表1所示。將均衡后的數(shù)據(jù)集中75%樣本為訓(xùn)練數(shù)據(jù),剩余25%為測試數(shù)據(jù)進(jìn)行訓(xùn)練。

        2.2 不同采樣方法的性能比較

        根據(jù)不平衡電信數(shù)據(jù)集分類評價(jià)指標(biāo)[18],即少數(shù)類樣本檢測精度TPR、多數(shù)類樣本檢測精度TNR和整體預(yù)測性能的評價(jià)指標(biāo)Gm,分別驗(yàn)證隨機(jī)混合采樣方法、ACUS欠采樣方法、DE-NHS采樣方法[19]和DS-HS采樣方法處理不平衡電信用戶數(shù)據(jù)集的均衡性能,對比結(jié)果如表2所示。由表2可以看出,DS-HS采樣方法預(yù)測網(wǎng)別更換用戶的精度為86.1%,預(yù)測未更換網(wǎng)別用戶的精度為85.5%,整體預(yù)測性能為85.9%,均高于隨機(jī)混合采樣、ACUS和DE-NHS方法,具有較好的數(shù)據(jù)集均衡性能。

        2.3 不同分類算法的性能比較

        采用DS-HS采樣方法,將均衡后數(shù)據(jù)集分別輸入至Stacking、Adaboost和使用投票法代替原Stacking二層分類器的分類算法,進(jìn)而對比預(yù)測結(jié)果,如表3所示。從表3可見,Stacking分類算法預(yù)測少數(shù)類樣本性能和整體預(yù)測精度性能均優(yōu)于Adaboost和Stacking二層投票分類算法。

        表1 數(shù)據(jù)集信息描述

        表2 不同采樣方法的均衡性能對比

        表3 不同分類算法仿真結(jié)果對比

        3 結(jié)語

        基于混合采樣和Stacking集成學(xué)習(xí)的電信用戶網(wǎng)別預(yù)測模型,根據(jù)歷史用戶數(shù)據(jù)生成網(wǎng)別更換標(biāo)簽,結(jié)合DBSCAN聚類欠采樣去除樣本集中噪聲樣本和SMOTE過采樣插值生成新樣本的混合采樣方法,完成了數(shù)據(jù)集均衡處理。通過Stacking集成學(xué)習(xí)算法訓(xùn)練分類預(yù)測模型,從而完成了網(wǎng)別更換的分類預(yù)測。實(shí)驗(yàn)結(jié)果表明,該模型比隨機(jī)混合采樣、ACUS和DE-NHS采樣方法預(yù)測準(zhǔn)確率高,具有較好的數(shù)據(jù)集均衡性能,同時(shí)與Adaboost和Stacking二層投票分類算法相比,能夠更好識(shí)別潛在的網(wǎng)別更換用戶。

        猜你喜歡
        分類用戶
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        給塑料分分類吧
        Camera360:拍出5億用戶
        亚洲高清在线不卡中文字幕网| 9久久婷婷国产综合精品性色 | 国产麻豆剧果冻传媒一区| 乱码丰满人妻一二三区| 欧美一区二区三区红桃小说| 国产极品美女高潮抽搐免费网站| 国产成人精品午夜福利| 久久精品免费无码区| 中文字幕一区二区三区日韩网| 国产av区亚洲av毛片| 国产视频一区2区三区| 国产乱码一区二区三区精品| 性无码一区二区三区在线观看| 内地老熟女老少配视频| 人妻少妇被猛烈进入中文字幕| 久久久久亚洲av无码网站| 亚洲av无码av在线播放| 亚洲是图一区二区视频| 日本福利视频免费久久久| 中文字幕在线亚洲精品一区| 白白色发布的在线视频| 99久久无色码中文字幕人妻蜜柚| 国产乱子伦农村xxxx| 免费特级毛片| 亚洲欧洲久久久精品| 一区二区三区四区四色av| 亚洲精品中文字幕不卡| 人妻精品在线手机观看| 欧美狠狠入鲁的视频777色 | 久久精品国产久精国产爱| 欧美另类人妖| 在线精品免费观看| 日本高清视频在线一区二区三区| 国产精品美女主播一区二区| 久久99热国产精品综合| 一本大道无码人妻精品专区| 久久精品人人做人人爽| 欧美日韩国产色综合一二三四| 妺妺窝人体色www聚色窝| 亚洲图文一区二区三区四区 | 日韩精品有码在线视频|