肖 進,劉瀟瀟,謝 玲,劉敦虎,黃 靜
(1.四川大學商學院,四川 成都 610064;2.成都信息工程學院管理學院,四川 成都 610225; 3.四川大學公共管理學院,四川 成都 610064)
隨著大數(shù)據(jù)時代的來臨,企業(yè)掌握的客戶數(shù)據(jù)越來越多,一些企業(yè)開始利用數(shù)據(jù)庫營銷(Database Marketing)來避免傳統(tǒng)營銷中存在的低效率,高成本等弊端,用以從海量客戶數(shù)據(jù)中快速挖掘出客戶多樣化和個性化的需求。作為數(shù)據(jù)庫營銷中最重要的問題之一,目標客戶選擇建模用于從潛在客戶中識別出企業(yè)的目標客戶,即對企業(yè)營銷手段最可能做出響應(yīng)的客戶,從而幫助企業(yè)制定營銷戰(zhàn)略。
目標客戶選擇建模實質(zhì)上是屬于客戶分類的范疇[1],即將客戶分為兩類:對企業(yè)產(chǎn)品的營銷宣傳活動(如發(fā)送郵件或者短信等)做出響應(yīng),進而購買產(chǎn)品的客戶和不響應(yīng)的客戶。目前,常用的目標客戶選擇模型主要包括人工神經(jīng)網(wǎng)絡(luò)[2](Artificial Neural Networks, ANN)、遺傳算法[3](Genetic Algorithm,GA)、數(shù)據(jù)分組處理(Group Method of Data Handling,GMDH)神經(jīng)元網(wǎng)絡(luò)[4]和支持向量機[5-6](Support Vector Machine, SVM)等。許多現(xiàn)實的客戶數(shù)據(jù)的類別分布往往是高度不平衡的,即會對企業(yè)的營銷活動做出響應(yīng)的客戶比不響應(yīng)的客戶少很多[7]。在這種情況下,上述傳統(tǒng)的分類模型可能會將所有的客戶預測為不響應(yīng)的客戶,難以取得令人滿意的目標客戶選擇性能。為了解決這一問題,目前常用的方法是重抽樣技術(shù)(如隨機向上抽樣和隨機向下抽樣)來平衡訓練集的類別分布,再訓練分類模型。
上述研究對目標客戶選擇建模都做出了重要貢獻,但通過仔細分析,還存在以下不足:1)重抽樣技術(shù)存在缺陷。隨機向上抽樣將導致少數(shù)類中重復樣本太多,而隨機向下抽樣得到的結(jié)果就是最終的訓練集樣本數(shù)量往往很少,它們均可能會影響目標客戶選擇建模的性能。2)目前,國內(nèi)外關(guān)于目標客戶選擇的研究大都采用監(jiān)督式分類建模的研究范式[8],即僅使用原始含類別標簽的訓練集來訓練分類模型,進而預測新的客戶樣本的類別。而實際上,企業(yè)往往只針對少量客戶進行營銷宣傳活動,并賦予響應(yīng)或不響應(yīng)的類別標簽。而剩下大量未進行營銷宣傳的客戶,則無法標記它們的類別[9]。此時,如果仍然采用監(jiān)督式客戶分類建模研究范式,通常都會由于訓練樣本個數(shù)太少而造成過擬合,反而導致模型性能的下降[10]。實際上,無類別標簽的客戶數(shù)據(jù)也可為構(gòu)建模型提供有用信息[9]。因此,如何有效地使用大量沒有類別標簽的數(shù)據(jù)提高模型的學習性能,是目標客戶選擇建模中亟待解決的問題。
事實上,在目標客戶選擇領(lǐng)域,不同類別客戶的錯分代價相差很大,如果把一個不響應(yīng)的客戶誤分成響應(yīng)的客戶給企業(yè)造成的損失僅僅是很少的郵寄相關(guān)宣傳資料的營銷費用,而如果把一個響應(yīng)的客戶誤分成不響應(yīng)的客戶,那么企業(yè)就不會對該客戶郵寄宣傳資料,從而失去該客戶因購買了產(chǎn)品或服務(wù)而給企業(yè)帶來的利潤。代價敏感學習(Cost Sensitive Learning,CSL)恰好能夠很好地處理這種分類問題[11],它在訓練模型時為少數(shù)類樣本賦予比多數(shù)類樣本更高的錯分代價,從而讓模型更多地關(guān)注少數(shù)類樣本。如Xiao Jin等[12]利用代價敏感學習機制,提出了動態(tài)集成客戶分類模型,實驗分析表明該模型分類的正確率更高。
為了解決第二個問題,近年來在機器學習領(lǐng)域發(fā)展起來的半監(jiān)督學習(Semi-supervised Learning,SSL)為我們提供了一種很好的思路[13],其主要思想是研究如何綜合使用有、無類別標簽的樣本來提高模型的學習性能。目前已有將半監(jiān)督學習用于目標客戶選擇的研究[14],但已有的研究都只是構(gòu)建了單一的半監(jiān)督分類模型來進行目標客戶選擇。由于在現(xiàn)實中用于目標客戶選擇建模的數(shù)據(jù)往往包含了大量噪聲,大大增加了分類難度。因此,單一分類模型難以實現(xiàn)在整個樣本空間上的準確分類。若能夠?qū)⒍鄠€單一模型進行組合,即引入多分類器集成技術(shù)(Multiple Classifiers Ensemble, MCE)[15],讓每個分類器都能在各自的優(yōu)勢空間中發(fā)揮作用,進而提高模型的目標客戶選擇性能。
本文將CSL,SSL以及MCE中的隨機子空間方法(Random Subspace,RSS)相結(jié)合,構(gòu)建了代價敏感的目標客戶選擇半監(jiān)督集成模型(Cost-sensitive Semi-supervised Ensemble Model, CSSE)。該模型融合了CSL,SSL和MCE的優(yōu)勢,既能夠較好地處理類別不平衡的數(shù)據(jù),也能夠?qū)o類別標簽樣本中包含的大量信息加以利用,同時還能利用集成方法RSS進一步提高模型的目標客戶選擇性能。在CoIL預測競賽的目標客戶選擇數(shù)據(jù)集上進行實證分析,結(jié)果表明,與兩種監(jiān)督式集成模型、兩種單一的半監(jiān)督式模型以及兩種半監(jiān)督式集成模型相比,本文提出的CSSE模型具有更好的目標客戶選擇性能。
對于CSL的研究最早可以追溯到1984年Breiman等[16]提出的代價敏感學習研究框架。針對二分類問題,代價敏感學習技術(shù)的研究集中在以下兩個方面[17]:(1)根據(jù)樣本的不同錯分代價來改變正類和負類占總樣本數(shù)的比例來構(gòu)建類別平衡的樣本集,然后應(yīng)用分類模型進行建模;(2)在不改變訓練集的基礎(chǔ)上,改造分類模型的內(nèi)部結(jié)構(gòu),即改造分類模型的目標函數(shù)使其成為代價敏感的分類模型。由于該方法考慮了不同類型錯分代價不同的情況,并基于最小化總體誤分代價的原理來設(shè)計分類模型,進而能更好的適應(yīng)目標客戶選擇問題。這其中代表性的方法就是代價敏感的SVM。
SVM是Cortes和Vapnik于1995年首先提出的,目前是機器學習領(lǐng)域的研究熱點之一[18-19]。SVM的核心思想是通過某種事先選擇的非線性映射(核函數(shù))將輸入向量映射到一個高維特征空間,該算法的目標是在這個空間里構(gòu)建最優(yōu)分類超平面,使正負兩類樣本之間有最大的間隔。
圖1 支持向量機原理圖
s.t.yi(wxi+b)-1+ξi≥0,ξi≥0i=1,2,…,n
(1)
s.t.yi(k(w,xi)+b)≥1-ξiξi≥0,i=1,2,…,n
(2)
分類問題是數(shù)據(jù)挖掘領(lǐng)域的基本研究問題,傳統(tǒng)的分類學習常常使用單一分類模型來預測類別標簽。由于現(xiàn)實中用于分類建模的數(shù)據(jù)往往包含大量噪聲,單一的分類模型很難將全部樣本正確分類。而MCE則是將多個分類器的分類結(jié)果通過某種方式集成起來,得到最終的分類結(jié)果。作為MCE中常用的模型之一,RSS[20]的基本思想是隨機抽取特征子集形成不同的特征子空間,經(jīng)過映射得到若干個訓練子集,從而構(gòu)造出不同的基本分類器。RSS一方面能夠降低原始數(shù)據(jù)集特征空間的維數(shù),另一方面由于每次抽取的特征子集不同因而映射形成的訓練子集也不同,很大程度上增加了用于集成的基本分類器之間的多樣性,有利于提高集成的效果。葉云龍等[21]提出了一種基于RSS的多分類器集成算法,實證分析發(fā)現(xiàn)該算法不僅優(yōu)于單一分類器的分類性能,而且一定程度上優(yōu)于Bagging算法。
半監(jiān)督學習最早由Shahshahani和Landgrebe[22]在1994年提出,目前已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域的一個研究熱點,并逐步形成自身的理論體系。半監(jiān)督分類的基本思想就是綜合利用少量有類別標簽的樣本和無類別標簽的樣本所提供的信息來建立分類模型,并利用該模型來預測新的樣本的類別。它與監(jiān)督式分類方法最大的區(qū)別在于,構(gòu)建分類模型時加入了無類別標簽的樣本,而無類別標簽樣本中也包含了很多有用信息,因此半監(jiān)督分類可望構(gòu)建出更加準確的分類模型。目前,國內(nèi)外學者提出了很多半監(jiān)督分類模型,如王嬌等[23]將RSS與半監(jiān)督學習相結(jié)合,構(gòu)造了基于RSS的半監(jiān)督協(xié)同訓練模型(RASCO),Hady和Schwenker[24]在模型中引入了協(xié)同訓練的思想,構(gòu)建了基于Bagging的半監(jiān)督協(xié)同訓練模型(CoBag),隨后蘇艷等[25]又提出了基于動態(tài)RSS的半監(jiān)督協(xié)同訓練模型(DRSCO),Li Yiyang等[26]在建模過程中利用K-近鄰分類方法來提高對無類別標簽數(shù)據(jù)集選擇性標記的準確度,構(gòu)建了基于Bagging的半監(jiān)督集成模型(Semi-Bagging)。
已有的目標客戶選擇模型多采用重抽樣方法來解決數(shù)據(jù)集類別分布不平衡的問題,但是忽略了正負類樣本錯分代價相差很大的情況。同時,已有的研究大都采用監(jiān)督式學習的研究范式,無法綜合使用有、無類別標簽的樣本來提高模型的學習性能。此外,從少量幾篇基于SSL的目標客戶選擇建模的研究來看,他們都構(gòu)建的單一半監(jiān)督分類模型。為了彌補這些不足,本文將CSL,SSL以及MCE中的RSS相結(jié)合,構(gòu)建了代價敏感的目標客戶選擇半監(jiān)督集成模型(Cost-sensitive Semi-supervised Ensemble Model, CSSE)。該模型融合了CSL,SSL和MCE的優(yōu)勢,既能夠較好地處理類別不平衡的數(shù)據(jù),也能夠?qū)o類別標簽樣本中包含的大量信息加以利用,同時還能利用集成方法RSS進一步提高模型的目標客戶選擇性能。
由于L一般包含的樣本比較少,導致難以訓練出分類性能很高的分類模型,使得CSSE模型在訓練過程中可能會錯誤標記U中的一部分樣本,如果將其加入到L中,無疑是人為地引入了更多的噪聲,反而會降低模型的分類性能。因此,對U中樣本的選擇性標記是非常重要的,有利于取得更好的分類性能。為了達到這一目的,本文使用概率輸出值Probi1作為衡量是否將樣本加入L的指標,并針對正負類樣本設(shè)置不同的閾值。
在現(xiàn)實的目標客戶選擇問題中,用于建模的客戶數(shù)據(jù)往往存在類別高度不平衡的問題,若采用傳統(tǒng)方法建模會造成大量正類樣本不能被識別。常用的解決方法是對原始不平衡數(shù)據(jù)集采用重抽樣的方法,如隨機向上抽樣和隨機向下抽樣。區(qū)別于以上針對數(shù)據(jù)樣本的方法,本文使用Davenport[11]提出的代價敏感的SVM作為CSSE的基本分類模型。我們可以在訓練模型階段調(diào)整SVM中的參數(shù)設(shè)置,增加損失函數(shù)C的值,賦予正類樣本和負類樣本不同的權(quán)重(W1,W2),同時選擇合適的核函數(shù)t在克服數(shù)據(jù)類別不平衡的同時,提高正類樣本識別的準確度。
輸入:初始有類別標簽訓練集L,其樣本個數(shù)為n,無類別標簽數(shù)據(jù)集U,其樣本個數(shù)為m,測試集Test,其樣本個數(shù)為p,訓練得到的基本分類模型的個數(shù)N,每次迭代中選擇性標記正類和負類樣本時選取的標記閾值θ1和θ2,U中選擇性標記的樣本的百分比k。
輸出:測試集Test上的N個基本分類模型的集成分類結(jié)果。
初始化:L′=L,Q=Φ,s=1。
步驟1. 計算選擇性標記樣本集Q與U的樣本百分比b=size(Q)/m,size是用來計算Q中樣本個數(shù)的函數(shù),若b>k,轉(zhuǎn)到步驟4;
步驟3. 分別使用三個分類模型來預測U中全部樣本的類別標簽,并將預測一致的樣本放置在候選集Uj中。若Uj為空,轉(zhuǎn)到步驟2,否則從Uj中根據(jù)正負樣本比例選取Probi1大于θ1的正類樣本和Probi1小于θ2的負類樣本添加到L’中,同時也將它們添加到Q中并從U中剔除;
步驟4. 使用隨機子空間法(RSS)在L′上抽取一個特征子集,并映射得到訓練子集,使用代價敏感的SVM訓練得到一個基本分類模型Cs;
步驟5. 若s 步驟6. 使用N個基本分類模型分別對測試集Test中的樣本進行分類得到分類結(jié)果R1,R2,…,RN; 步驟 7. 使用多數(shù)投票法集成N個基本分類模型的分類結(jié)果R1,R2,…,RN得到最終的分類結(jié)果。 圖2 CSSE模型的流程圖 為了分析本文提出的CSSE模型的目標客戶選擇性能,我們運用2000年的CoIL預測競賽[27](CoIL2000數(shù)據(jù)集)中Benchmark保險公司推銷大篷車保險的真實數(shù)據(jù)來進行實證分析。該數(shù)據(jù)集包含9822個樣本,每個客戶樣本包含86個變量,其中1~85個變量是描述客戶信息的特征變量,第86個變量是響應(yīng)變量,表示客戶所屬的類別標簽,該數(shù)據(jù)集將全部客戶劃分為會對企業(yè)營銷活動做出響應(yīng)的少數(shù)類客戶(正類)和不會做出響應(yīng)的多數(shù)類客戶(負類),且正負類樣本比例為1∶7.55,由此可知該數(shù)據(jù)集屬于類別分布不平衡數(shù)據(jù)集。 為了進行實驗分析,我們從數(shù)據(jù)集中隨機抽取30%的樣本作為測試集Test,然后將剩余70%的樣本按照從1∶1、1∶2、1∶3、1∶4到1∶5的比例分為初始有類別標簽訓練集L和無類別標簽數(shù)據(jù)集U,并且要保證L,Test,U中正負類樣本的比例與原始數(shù)據(jù)集相同。 由于本文所使用的數(shù)據(jù)集的維度較高(包含85個屬性),可能存在特征冗余的問題,而特征選擇一方面有助于建立更易解釋、具有更好泛化能力的目標客戶選擇模型,另一方面使用降維后的數(shù)據(jù)也可減少計算時間,從而降低時間成本。Kim等[28]首先將GA與ANN相結(jié)合對數(shù)據(jù)進行降維處理,然后訓練ANN模型選擇目標客戶,并在與本文相同的數(shù)據(jù)集上進行實證分析。本文首先采取Fisher Score算法[29]在訓練集L上進行特征選擇。首先分別計算每個特征的得分,然后根據(jù)特征的得分從高到低進行排序,最后選取排在前面30%的特征來構(gòu)建目標客戶選擇模型。 本文提出的模型運用了林智仁教授開發(fā)設(shè)計的libsvm工具箱,同時為了訓練代價敏感的SVM,需要在建模階段調(diào)整模型的參數(shù)使得模型在運行時發(fā)揮出最優(yōu)分類性能。經(jīng)過反復實驗,對于初始標記訓練集L的最優(yōu)參數(shù)設(shè)置為:懲罰系數(shù)C=100,正類樣本懲罰系數(shù)的加權(quán)值W1=100,負類樣本懲罰系數(shù)加權(quán)值W2=10,t=2(核函數(shù)類型選擇RBF核函數(shù))。在CSSE模型中,θ1,θ2,N和k是四個重要參數(shù),經(jīng)過反復實驗,當我們?nèi)ˇ?=1,θ2=-1,N=40,k=60%,此時模型能夠取得較好的目標客戶選擇性能。 為了分析本文提出的CSSE模型的目標客戶選擇性能,將CSSE模型的性能與下面六種目標客戶選擇模型進行了比較:1)Ho[20]提出的監(jiān)督式集成模型(Random Subspace, RSS);2)Breiman[30]提出的監(jiān)督式集成模型Bagging;3)王嬌等[23]提出的基于RSS的單一半監(jiān)督協(xié)同訓練模型RASCO;4)蘇艷等[25]提出的基于動態(tài)RSS的單一半監(jiān)督協(xié)同訓練模型DRSCO;5)Hady和Schwenker[24]提出的基于Bagging的半監(jiān)督集成協(xié)同訓練模型CoBag;6)Li Yiyang等[26]提出的半監(jiān)督式集成模型Semi-Bagging。對于這六種對比模型,我們選擇傳統(tǒng)的SVM作為基本分類算法,且基本分類器個數(shù)與CSSE模型中設(shè)置一樣,N=40。值得一提的是,這六種模型都沒有考慮類別分布不平衡對模型性能的影響,因此考慮到比較的公平性,本研究采用隨機向上抽樣來平衡數(shù)據(jù)集的類別分布,再構(gòu)建相應(yīng)的模型。此外,在RASCO模型中,有一個重要參數(shù)q,表示模型在每次循環(huán)中標記的樣本個數(shù),而在CoBag模型中也有一個重要參數(shù)θ,表示該模型在每次循環(huán)中標記的樣本個數(shù)。通過反復實驗,并以AUC值作為評價標準,我們發(fā)現(xiàn)當q=100,θ=200時,兩個對比模型均可取得最優(yōu)性能。 最后,每一種方法的分類結(jié)果均是取10次實驗結(jié)果的平均值,所有實驗均是在MATLABR2010b軟件平臺上編程實現(xiàn)。 為了對目標客戶選擇模型的性能進行評估,本文采用四個評價指標: (1)AUC準則 由于現(xiàn)實的目標客戶選擇數(shù)據(jù)集的類別分布都是高度不平衡的,正負類樣本比例差距較大,此時若選擇總體分類精度作為評價指標并不太實用,而ROC(Receiver Operating Characteristic)曲線恰好能夠很好地評價面向類別不平衡的分類模型的性能。為了更好的說明ROC曲線,我們首先引入目標客戶選擇混淆矩陣,如表1所示。其中,TP表示正確分類的正類樣本個數(shù),F(xiàn)N代表實際為正類預測為負類的樣本個數(shù),F(xiàn)P指實際為負類預測為正類的樣本個數(shù),TN表示正確分類的負類樣本個數(shù)。針對兩類問題的ROC曲線是一個真正率——偽正率圖,其中橫坐標表示偽正率=FP/(FP+TN)×100%,縱坐標表示真正率=TP/(TP+FN)×100%。由于直接比較不同模型的ROC曲線比較困難,因此使用AUC(Area Under the ROC Curve)值來評價模型性能。 表1 目標客戶選擇混淆矩陣 (2)命中率 在現(xiàn)實的目標客戶選擇中,企業(yè)最關(guān)注的是會對企業(yè)營銷行為做出響應(yīng)的客戶,因此命中率[4]是一個常用的評價指標。首先使用模型預測得到測試集中所有客戶做出響應(yīng)的概率,然后依據(jù)概率將其從大到小進行排序,最后選擇前面r%的客戶作為目標客戶。命中率的計算公式如下: (3) 其中,N表示所有潛在的目標客戶數(shù),即測試集中樣本個數(shù),Nr表示根據(jù)模型選擇的目標客戶數(shù),Nr(y=1)表示選擇的目標客戶中真正會響應(yīng)的客戶數(shù)。 (3)提升圖(Lift Chart) 提升指數(shù)衡量的是與不利用模型相比,當我們使用目標客戶選擇模型時,對潛在客戶的正確預測能力“提升”了多少。本文所使用的數(shù)據(jù)集的客戶響應(yīng)率是6%,即在不使用模型時目標客戶的命中率是6%,那么當我們選取r%的客戶作為目標客戶時,提升指數(shù)lift=Hit rate/6%。提升圖[9]的橫軸表示將客戶依據(jù)預測出的響應(yīng)概率從大到小排序后抽取的客戶比例,縱軸表示的是與之對應(yīng)的提升指數(shù)(lift)。顯然,提升指數(shù)越大表明模型的目標客戶選擇性能越好。 (4)洛倫茲曲線(Lorenz Curve) 作為另一個常用于評價目標客戶選擇模型性能的準則,洛倫茲曲線[4]能夠線性直觀的展示出各個模型的比較結(jié)果。它的橫軸表示選出的目標客戶占所有客戶數(shù)的比例r%,縱軸表示選擇比例為r%時與之對應(yīng)的累計命中率。圖中的對角線僅表示在不同比例下隨機選取的目標客戶對應(yīng)的累計命中率,并不涉及任何模型的使用。當洛倫茲曲線越凸向左上角,即與對角線圍成的面積越大,則說明該模型的目標客戶選擇性能越好。 4.4.1 模型的AUC值比較 圖3展示了本文提出的CSSE模型與其它六種模型在CoIL2000上的AUC值,其中橫坐標表示U和L中的樣本比例從1∶1變化到5∶1。仔細分析圖3,我們可以得到以下結(jié)論: 圖3 七種模型在不同比例下的AUC值 (1)CSSE模型在五種不同比例下均具有最大的AUC值,因此,CSSE模型的整體目標客戶選擇性能要優(yōu)于其他六種模型。六種對比模型均采用隨機向上抽樣的方法來平衡數(shù)據(jù)集類別分布,但它們的AUC值均低于CSSE模型,這說明與這六種模型相比,本文提出的代價敏感的目標客戶選擇半監(jiān)督集成模型CSSE可以更有效地解決目標客戶選擇數(shù)據(jù)集中存在的類別分布不平衡問題。AUC 值通常被用于評價模型在類別分布不平衡數(shù)據(jù)集上的總體分類性能,CSSE模型在該評價指標上表現(xiàn)優(yōu)異,這也說明了和已有的模型相比,CSSE模型將CSL,SSL和RSS方法進行融合確實具有更好的整體性能。 (2)在七種模型中,CSSE、DRSCO、CoBag、RASCO以及Semi-Bagging模型都屬于半監(jiān)督分類模型,而RSS和Bagging模型屬于監(jiān)督式分類模型。從圖中可以看出大多數(shù)半監(jiān)督分類模型如CSSE、DRSCO和CoBag的AUC值均大于兩種監(jiān)督式分類模型RSS和Bagging。然而,也有一些半監(jiān)督分類模型的目標客戶選擇性能比較差,如RASCO模型和兩種監(jiān)督式分類模型的AUC值不相上下,而Semi-Bagging模型的AUC值更是低于兩種監(jiān)督式分類模型的AUC值。這表明,在多數(shù)情況下從大量無類別標簽的數(shù)據(jù)集中選擇性標記一部分樣本加入到訓練集中,確實能夠提高目標客戶選擇的性能。但是如果模型的選擇性標記的機制不夠合理,導致大量被錯誤標記類別的樣本加入到訓練集中,從而很難提高模型的性能,有時甚至會損害模型的目標客戶選擇性能; (3)隨著U和L中的樣本比例不斷增大,半監(jiān)督分類模型中的CSSE、DRSCO和CoBag的AUC值雖然存在較小波動,但總體上保持較高水平并優(yōu)于監(jiān)督式分類模型RSS和Bagging,因為后面兩種模型的AUC值大體上呈現(xiàn)出逐漸減小的趨勢。特別地,本文提出的CSSE模型,當U和L中的比例不斷增大時,它的AUC值與監(jiān)督式分類模型的AUC值的差距在逐漸變大。這表明,當數(shù)據(jù)集包含大量無類別標簽的樣本時,相比于傳統(tǒng)的監(jiān)督式分類模型,本文提出的半監(jiān)督分類模型CSSE更具優(yōu)勢。 4.4.2 模型的命中率比較 圖4給出了本文提出的CSSE模型和其他六種對比模型的命中率,其中,(a)~(e)分別表示U和L中的樣本比例從1∶1變化到5∶1的結(jié)果,同時,在每個子圖中,我們還給出了目標客戶選擇比例(r%)從10%增加到50%時,各個模型的命中率比較。 根據(jù)圖4,我們可以得出以下結(jié)論: (1)當U和L中的樣本比例從1∶1增加到5∶1時,CSSE模型的命中率在各種不同的目標客戶選擇比例時均大于其他模型,這說明CSSE模型的目標客戶選擇性能是優(yōu)于對比模型的; (2)在每個子圖中,隨著目標客戶選擇比例的增加,各個模型的命中率雖然存在一些波動,但是總體上均表現(xiàn)出逐漸下降的趨勢。分析其原因,可能是因為我們是根據(jù)每個模型預測得到的測試集中所有客戶做出響應(yīng)的概率從大到小進行排序,最后選擇前面r%的客戶作為目標客戶。因此,目標客戶選擇比例越小,就越可能選中那些真正的響應(yīng)客戶,命中率自然相對就越高; (3)大多數(shù)半監(jiān)督式集成模型的命中率要高于2種監(jiān)督式集成模型,而且隨著U和L中的樣本比 圖4 七種模型命中率的比較 例增大,半監(jiān)督模型的命中率仍能保持在較高水平,而RSS和Bagging的命中率值則呈下降趨勢,這說明當數(shù)據(jù)集包含大量無類別標簽的樣本時,半監(jiān)督分類模型具有明顯優(yōu)勢。分析其原因,可能是因為監(jiān)督式模型只使用少量有類別標簽的數(shù)據(jù)集L來建模,而半監(jiān)督分類模型則能夠同時使用L和大量無類別標簽數(shù)據(jù)集U中的樣本來建模。 4.4.3 模型的提升圖比較分析 圖5展示了CSSE模型和其他六種模型的提升指數(shù),其中,(a)~(e)分別表示U和L中的樣本比例從1∶1變化到5∶1的結(jié)果。同時,在每個子圖中,我們還給出了目標客戶選擇比例(r%)從10%增加到100%時,各個模型的提升指數(shù)的比較。 仔細分析圖5,我們能夠得出與4.4.2小節(jié)類似的結(jié)論: (1)當U和L中的樣本比例從1∶1增加到5∶1時,CSSE模型的提升指數(shù)在不同的目標客戶選擇比例時均明顯大于其他模型的,這說明該模型具有最好的目標客戶選擇性能; (2)在每個子圖中,隨著目標客戶選擇比例的增加,各個模型的提升指數(shù)雖然存在一些波動,但是總體上均表現(xiàn)出逐漸下降的趨勢; (3)大多數(shù)半監(jiān)督式集成模型的提升指數(shù)要高于2種監(jiān)督式集成模型,而且隨著U和L中的樣本比例增大,半監(jiān)督模型的優(yōu)勢更加明顯。 4.4.4 模型的洛倫茲曲線比較 由于篇幅所限,我們僅給出了U和L中的樣本的比例為5∶1時七種不同分類模型的洛倫茲曲線,見圖6。從圖中可以看出,當目標客戶選擇比例為10%、20%和30%時,CSSE模型的洛倫茲曲線均在其他模型的曲線上方,此時CSSE模型的累計命中率明顯高于其他六種模型。在現(xiàn)實企業(yè)的目標客戶選擇問題中,企業(yè)的潛在客戶通常很多,但由于營銷預算的限制,我們往往只能選擇排在前面的很小一部分的客戶作為目標客戶,從而向他們郵寄宣傳資料,即目標客戶選擇的比例通常比較小。因此,與其它模型相比,本文提出的CSSE模型可望在現(xiàn)實企業(yè)的目標客戶選擇中取得更好的性能。 近年來,數(shù)據(jù)庫營銷成為客戶關(guān)系管理領(lǐng)域的研究熱點。而目標客戶選擇是數(shù)據(jù)庫營銷的重中之重,它能幫助企業(yè)提高客戶響應(yīng)率,增強核心競爭力,同時節(jié)約大量營銷成本。在現(xiàn)實的目標客戶選擇建模中,往往只能獲取少量有類別標簽的樣本,而剩下的大量樣本都無法獲取類別標簽。已有研究大都使用監(jiān)督式建模研究范式,僅在少量有類別標簽 圖5 七種模型的提升指數(shù)比較 圖6 七種模型的洛倫茲曲線比較 樣本集L上建模,很難取得令人滿意的效果。為解決這一問題,本文引入SSL技術(shù),將其與CSL和多分類器集成中的RSS方法相結(jié)合,提出了代價敏感的目標客戶選擇半監(jiān)督集成模型CSSE。該模型使用代價敏感的SVM來解決目標客戶選擇建模中樣本數(shù)據(jù)類別分布不平衡問題,還能夠同時使用有、無類別標簽的客戶樣本來建模。進一步地,該模型利用RSS方法訓練一系列基本分類模型,并通過集成得到最終的分類結(jié)果。為了分析本文提出的CSSE模型在目標客戶選擇方面的性能,本文在某保險公司目標客戶選擇數(shù)據(jù)集上進行實證分析,同時將其與兩種監(jiān)督式集成模型、兩種單一的半監(jiān)督模型以及兩種半監(jiān)督集成模型相比較。我們選取AUC值、命中率、提升圖和洛倫茲曲線作為模型評價準則。實驗結(jié)果表明,CSSE模型具有更好的目標客戶選擇性能。4 實證分析
4.1 數(shù)據(jù)集描述
4.2 實驗設(shè)置
4.3 模型性能的評價準則
4.4 模型性能比較分析
5 結(jié)語