簡(jiǎn)宋全,李青海,黃心蕊,秦于欽
(廣東精點(diǎn)數(shù)據(jù)科技股份有限公司,廣州510630)
基于One Class SVM的電信用戶流失情況研究
簡(jiǎn)宋全,李青海,黃心蕊,秦于欽
(廣東精點(diǎn)數(shù)據(jù)科技股份有限公司,廣州510630)
在對(duì)數(shù)據(jù)進(jìn)行分類的過程中,如何用機(jī)器學(xué)習(xí)的方法使數(shù)據(jù)分類更加準(zhǔn)確一直是研究的重點(diǎn)。在對(duì)電信用戶流失情況的研究中,通??梢员容^容易對(duì)流失用戶進(jìn)行標(biāo)記,但是還未流失用戶并不代表用戶不會(huì)流失,所以并不能作為準(zhǔn)確的2分類負(fù)樣本,用One Class SVM提取未知樣本中密度較高的部分作為真負(fù)樣本,將源數(shù)據(jù)分為正樣本,負(fù)樣本與未知樣本三部分,方便以后研究。
用戶是企業(yè)獲取利潤(rùn)的直接來源,因此對(duì)用戶進(jìn)行分析,可以使企業(yè)在市場(chǎng)中更具競(jìng)爭(zhēng)力,生產(chǎn)出更符合市場(chǎng)要求的產(chǎn)品。在對(duì)電信的用戶群進(jìn)行分析時(shí),通過對(duì)流失的用戶群進(jìn)行分析,可以使企業(yè)做出的決策更符合市場(chǎng)規(guī)律。在對(duì)用戶群進(jìn)行分類時(shí),往往是將用戶群分為已流失的和未流失的兩種,然而在實(shí)際的用戶群分類中,通??梢源_定已流失的用戶群,可是未流失的部分并不代表未來不會(huì)流失,因此很難直接確定用戶群是否流失,為了解決這個(gè)問題,在分類中,我們采用One Class SVM對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,重新構(gòu)建分類特征,從未確定特征中提取出真負(fù)樣本,構(gòu)建模型,最終找出可能流失的用戶群。
One Class SVM是SVM算法中的一個(gè)分支,在機(jī)器學(xué)習(xí)領(lǐng)域,支持向量SVM(Support Vector Machine)是一個(gè)有監(jiān)督的學(xué)習(xí)模型,通常用來進(jìn)行模式識(shí)別,分類,以及回歸分析。
SVM的主要思想主要是:在線性可分情況下直接進(jìn)行分箱,在線性不可分的情況,通過非線性映射把輸入空間的低維線性不可分的樣本轉(zhuǎn)化為輸出空間的高維特征空間使其線性可分,再對(duì)高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析。SVM是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。
在SVM中,我們通過核函數(shù)將一組數(shù)據(jù)分為兩類,由于核函數(shù)的確定只與特征空間中的向量的點(diǎn)積有關(guān)(所有這些向量間的距離),因此,不需要對(duì)空間進(jìn)行顯式投影,只需要用核函數(shù)K來分類,這就是運(yùn)用核函數(shù)展開定理的技巧,它使SVM可以分析非線性可分離數(shù)據(jù)的強(qiáng)大功能。特征空間F可以是無限維度的,因此,分離數(shù)據(jù)的超平面可能非常復(fù)雜,在我們的計(jì)算中,運(yùn)用核函數(shù)的展開定理,則可以避免這種復(fù)雜性。
在一般情況下,核函數(shù)可以是線性的,多項(xiàng)式的,S形的,高斯型的,在本文中使用的核函數(shù)是RBF One Class SVM算法是用來檢測(cè)新的數(shù)據(jù)是否屬于原始數(shù)據(jù)的一種算法,通過提供常規(guī)的訓(xùn)練數(shù)據(jù),創(chuàng)建一個(gè)(具有代表性的)數(shù)據(jù)模型。形象地說,它就是構(gòu)造一個(gè)高維超球,把數(shù)據(jù)包起來,盡可能收緊,又盡可能不受外界影響。如果新遇到的數(shù)據(jù)與訓(xùn)練數(shù)據(jù)區(qū)別較大,在這個(gè)模型中就將他定義為類別外的數(shù)據(jù)。當(dāng)出現(xiàn)一個(gè)分類問題時(shí),只有一種類型的樣本,或有兩種類型樣本,但其中一類型樣本數(shù)目遠(yuǎn)少于另一類樣本數(shù)目時(shí),此時(shí)采用二分類器,由于正負(fù)樣本不均衡,可能造成分類器過雨偏向數(shù)目多的樣本類別,因此可以考慮使用One Class SVM進(jìn)行分類。
(1)在對(duì)電信用戶群進(jìn)行分析的過程中,將用戶群分為兩類,正樣本數(shù)據(jù)是已經(jīng)流失的用戶群,負(fù)樣本數(shù)據(jù)是未確定是否流失的用戶群,該樣本中的一部分可能在下個(gè)時(shí)段變成正樣本。
(2)用one class SVM的方式對(duì)負(fù)樣本進(jìn)行訓(xùn)練,得出負(fù)樣本特征較為密集的部分,定義這些部分的負(fù)樣本為真負(fù)樣本,再以同樣的思路對(duì)正樣本進(jìn)行訓(xùn)練,對(duì)正樣本的訓(xùn)練的目的在于去除正樣本中的一些離群噪聲點(diǎn),從而得到真正的正樣本。
(3)通過計(jì)算可以從結(jié)果中可以發(fā)現(xiàn),正樣本中總共1502個(gè)目標(biāo),計(jì)算后后出現(xiàn)了362個(gè)離群點(diǎn),負(fù)樣本中17048個(gè)目標(biāo),計(jì)算后出現(xiàn)5670個(gè)離群點(diǎn),且兩個(gè)計(jì)算后的高密度群互不相交,可以從此處看出其二維分布應(yīng)該如下圖所示:
圖1
其具體根據(jù)算法計(jì)算后的分類邊界應(yīng)該如下圖所示:
圖2
故利用該分類邊界將原始數(shù)據(jù)重新劃分為3類,真正類,未知類,真負(fù)類:
圖3
(4)利用該方式將得到的真正樣本與真負(fù)樣本進(jìn)行一般分類器的訓(xùn)練,就可以提取未知樣本中的真正樣本與真負(fù)樣本,對(duì)未知樣本部分進(jìn)行分類。
該方式可以較好的解決負(fù)樣本不確定的問題,利用密度較高的樣本的情況來判斷其離群點(diǎn)情況,得到結(jié)果后,只采用特征較為明顯的正負(fù)樣本進(jìn)行分類器的訓(xùn)練,防止了離群點(diǎn)和不明確點(diǎn)對(duì)模型的影響。
但是該方法存在一定的缺點(diǎn),由于使用該方法得出的正負(fù)樣本由于特征較為明確,也就是說在二維圖中兩種樣本距離較為分散,因此可能有多種分類方式都能將樣本進(jìn)行分類,使得分類器的泛化能力減弱如概念圖所示:
圖4
所以采用該方式進(jìn)行特征工程后的數(shù)據(jù)建議采用泛化能力較為強(qiáng)的模型,例如隨機(jī)森林等;同樣也可以采用三分類器進(jìn)行分類,將離群點(diǎn)作為第三分類進(jìn)行訓(xùn)練。
[1]劉文,吳陳.一種新的中文文本分類算法——One Class SVM-KNN算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012(05)
[2]張彬.基于One-class SVM的人臉識(shí)別研究[J].江南大學(xué),2016(02)
[3]黃謙,王震,韋韜,陳昱.基于One-class SVM的實(shí)時(shí)入侵檢測(cè)系統(tǒng)[J].計(jì)算機(jī)工程,2006(08)
簡(jiǎn)宋全(1971-),男,廣東廣州人,碩士研究生,工程師,研究方向?yàn)闄C(jī)器學(xué)習(xí)算法
李青海(1980-),男,廣東廣州人,碩士研究生,工程師,研究方向?yàn)闄C(jī)器學(xué)習(xí)算法
黃心蕊(1994-),女,福建三明人,本科,助理工程師,研究方向?yàn)闄C(jī)器學(xué)習(xí)算法
秦于欽(1993-),男,廣東廣州人,本科,助理工程師,研究方向?yàn)闄C(jī)器學(xué)習(xí)算法
2017-07-27
2017-09-25
Machine Learning;One Class SVM
Research on Telecom User Churn Based on One Class SVM
JIAN Song-quan,LI Qing-hai,HUANG Xin-rui,QIN Yu-qin
(Guangdong Fine Point Data Polytron Technologies Inc,Guangzhou 510630)
It's an emphasis to make data classification more accurate in classifying data,when we do research in the loss of telecom users.It's easier to mark the loss of users,but the users not yet lost don't mean that the user does not leak,when studying telecom user loss.So it's not an ac?curate classification of 2 negative samples,uses One Class SVM to extract the unknown sample density higher part as a true negative sam?ple,the source data is divided into positive samples and negative samples with unknown samples of three parts,for the future study.
機(jī)器學(xué)習(xí);One Class SVM
天河區(qū)科技計(jì)劃項(xiàng)目(No.201502YH019)
1007-1423(2017)29-0032-03
10.3969/j.issn.1007-1423.2017.29.008