代價(jià)敏感的目標(biāo)客戶選擇半監(jiān)督集成模型研究

2018-11-23 05:44:58劉瀟瀟劉敦虎

中國管理科學(xué) 2018年11期

肖進(jìn)，劉瀟瀟，謝玲，劉敦虎，黃靜

(1.四川大學(xué)商學(xué)院，四川成都 610064；2.成都信息工程學(xué)院管理學(xué)院，四川成都 610225； 3.四川大學(xué)公共管理學(xué)院，四川成都 610064)

1 引言

隨著大數(shù)據(jù)時(shí)代的來臨，企業(yè)掌握的客戶數(shù)據(jù)越來越多，一些企業(yè)開始利用數(shù)據(jù)庫營銷(Database Marketing)來避免傳統(tǒng)營銷中存在的低效率，高成本等弊端，用以從海量客戶數(shù)據(jù)中快速挖掘出客戶多樣化和個(gè)性化的需求。作為數(shù)據(jù)庫營銷中最重要的問題之一，目標(biāo)客戶選擇建模用于從潛在客戶中識(shí)別出企業(yè)的目標(biāo)客戶，即對企業(yè)營銷手段最可能做出響應(yīng)的客戶，從而幫助企業(yè)制定營銷戰(zhàn)略。

目標(biāo)客戶選擇建模實(shí)質(zhì)上是屬于客戶分類的范疇[1]，即將客戶分為兩類：對企業(yè)產(chǎn)品的營銷宣傳活動(dòng)(如發(fā)送郵件或者短信等)做出響應(yīng)，進(jìn)而購買產(chǎn)品的客戶和不響應(yīng)的客戶。目前，常用的目標(biāo)客戶選擇模型主要包括人工神經(jīng)網(wǎng)絡(luò)[2](Artificial Neural Networks, ANN)、遺傳算法[3](Genetic Algorithm，GA)、數(shù)據(jù)分組處理(Group Method of Data Handling,GMDH)神經(jīng)元網(wǎng)絡(luò)[4]和支持向量機(jī)[5-6](Support Vector Machine, SVM)等。許多現(xiàn)實(shí)的客戶數(shù)據(jù)的類別分布往往是高度不平衡的，即會(huì)對企業(yè)的營銷活動(dòng)做出響應(yīng)的客戶比不響應(yīng)的客戶少很多[7]。在這種情況下，上述傳統(tǒng)的分類模型可能會(huì)將所有的客戶預(yù)測為不響應(yīng)的客戶，難以取得令人滿意的目標(biāo)客戶選擇性能。為了解決這一問題，目前常用的方法是重抽樣技術(shù)(如隨機(jī)向上抽樣和隨機(jī)向下抽樣)來平衡訓(xùn)練集的類別分布，再訓(xùn)練分類模型。

上述研究對目標(biāo)客戶選擇建模都做出了重要貢獻(xiàn)，但通過仔細(xì)分析，還存在以下不足：1)重抽樣技術(shù)存在缺陷。隨機(jī)向上抽樣將導(dǎo)致少數(shù)類中重復(fù)樣本太多，而隨機(jī)向下抽樣得到的結(jié)果就是最終的訓(xùn)練集樣本數(shù)量往往很少，它們均可能會(huì)影響目標(biāo)客戶選擇建模的性能。2)目前，國內(nèi)外關(guān)于目標(biāo)客戶選擇的研究大都采用監(jiān)督式分類建模的研究范式[8]，即僅使用原始含類別標(biāo)簽的訓(xùn)練集來訓(xùn)練分類模型，進(jìn)而預(yù)測新的客戶樣本的類別。而實(shí)際上，企業(yè)往往只針對少量客戶進(jìn)行營銷宣傳活動(dòng)，并賦予響應(yīng)或不響應(yīng)的類別標(biāo)簽。而剩下大量未進(jìn)行營銷宣傳的客戶，則無法標(biāo)記它們的類別[9]。此時(shí)，如果仍然采用監(jiān)督式客戶分類建模研究范式，通常都會(huì)由于訓(xùn)練樣本個(gè)數(shù)太少而造成過擬合，反而導(dǎo)致模型性能的下降[10]。實(shí)際上，無類別標(biāo)簽的客戶數(shù)據(jù)也可為構(gòu)建模型提供有用信息[9]。因此，如何有效地使用大量沒有類別標(biāo)簽的數(shù)據(jù)提高模型的學(xué)習(xí)性能，是目標(biāo)客戶選擇建模中亟待解決的問題。

事實(shí)上，在目標(biāo)客戶選擇領(lǐng)域，不同類別客戶的錯(cuò)分代價(jià)相差很大，如果把一個(gè)不響應(yīng)的客戶誤分成響應(yīng)的客戶給企業(yè)造成的損失僅僅是很少的郵寄相關(guān)宣傳資料的營銷費(fèi)用，而如果把一個(gè)響應(yīng)的客戶誤分成不響應(yīng)的客戶，那么企業(yè)就不會(huì)對該客戶郵寄宣傳資料，從而失去該客戶因購買了產(chǎn)品或服務(wù)而給企業(yè)帶來的利潤。代價(jià)敏感學(xué)習(xí)(Cost Sensitive Learning，CSL)恰好能夠很好地處理這種分類問題[11]，它在訓(xùn)練模型時(shí)為少數(shù)類樣本賦予比多數(shù)類樣本更高的錯(cuò)分代價(jià)，從而讓模型更多地關(guān)注少數(shù)類樣本。如Xiao Jin等[12]利用代價(jià)敏感學(xué)習(xí)機(jī)制，提出了動(dòng)態(tài)集成客戶分類模型，實(shí)驗(yàn)分析表明該模型分類的正確率更高。

為了解決第二個(gè)問題，近年來在機(jī)器學(xué)習(xí)領(lǐng)域發(fā)展起來的半監(jiān)督學(xué)習(xí)(Semi-supervised Learning，SSL)為我們提供了一種很好的思路[13]，其主要思想是研究如何綜合使用有、無類別標(biāo)簽的樣本來提高模型的學(xué)習(xí)性能。目前已有將半監(jiān)督學(xué)習(xí)用于目標(biāo)客戶選擇的研究[14]，但已有的研究都只是構(gòu)建了單一的半監(jiān)督分類模型來進(jìn)行目標(biāo)客戶選擇。由于在現(xiàn)實(shí)中用于目標(biāo)客戶選擇建模的數(shù)據(jù)往往包含了大量噪聲，大大增加了分類難度。因此，單一分類模型難以實(shí)現(xiàn)在整個(gè)樣本空間上的準(zhǔn)確分類。若能夠?qū)⒍鄠€(gè)單一模型進(jìn)行組合，即引入多分類器集成技術(shù)(Multiple Classifiers Ensemble, MCE)[15]，讓每個(gè)分類器都能在各自的優(yōu)勢空間中發(fā)揮作用，進(jìn)而提高模型的目標(biāo)客戶選擇性能。

本文將CSL，SSL以及MCE中的隨機(jī)子空間方法(Random Subspace，RSS)相結(jié)合，構(gòu)建了代價(jià)敏感的目標(biāo)客戶選擇半監(jiān)督集成模型(Cost-sensitive Semi-supervised Ensemble Model, CSSE)。該模型融合了CSL，SSL和MCE的優(yōu)勢，既能夠較好地處理類別不平衡的數(shù)據(jù)，也能夠?qū)o類別標(biāo)簽樣本中包含的大量信息加以利用，同時(shí)還能利用集成方法RSS進(jìn)一步提高模型的目標(biāo)客戶選擇性能。在CoIL預(yù)測競賽的目標(biāo)客戶選擇數(shù)據(jù)集上進(jìn)行實(shí)證分析，結(jié)果表明，與兩種監(jiān)督式集成模型、兩種單一的半監(jiān)督式模型以及兩種半監(jiān)督式集成模型相比，本文提出的CSSE模型具有更好的目標(biāo)客戶選擇性能。

2 相關(guān)理論介紹

2.1 代價(jià)敏感學(xué)習(xí)

對于CSL的研究最早可以追溯到1984年Breiman等[16]提出的代價(jià)敏感學(xué)習(xí)研究框架。針對二分類問題，代價(jià)敏感學(xué)習(xí)技術(shù)的研究集中在以下兩個(gè)方面[17]：(1)根據(jù)樣本的不同錯(cuò)分代價(jià)來改變正類和負(fù)類占總樣本數(shù)的比例來構(gòu)建類別平衡的樣本集，然后應(yīng)用分類模型進(jìn)行建模；(2)在不改變訓(xùn)練集的基礎(chǔ)上，改造分類模型的內(nèi)部結(jié)構(gòu)，即改造分類模型的目標(biāo)函數(shù)使其成為代價(jià)敏感的分類模型。由于該方法考慮了不同類型錯(cuò)分代價(jià)不同的情況，并基于最小化總體誤分代價(jià)的原理來設(shè)計(jì)分類模型，進(jìn)而能更好的適應(yīng)目標(biāo)客戶選擇問題。這其中代表性的方法就是代價(jià)敏感的SVM。

SVM是Cortes和Vapnik于1995年首先提出的，目前是機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一[18-19]。SVM的核心思想是通過某種事先選擇的非線性映射(核函數(shù))將輸入向量映射到一個(gè)高維特征空間，該算法的目標(biāo)是在這個(gè)空間里構(gòu)建最優(yōu)分類超平面，使正負(fù)兩類樣本之間有最大的間隔。

圖1 支持向量機(jī)原理圖

s.t.yi(wxi+b)-1+ξi≥0,ξi≥0i=1,2,…,n

(1)

s.t.yi(k(w,xi)+b)≥1-ξiξi≥0,i=1,2,…,n

(2)

2.2 RSS多分類器集成模型

分類問題是數(shù)據(jù)挖掘領(lǐng)域的基本研究問題，傳統(tǒng)的分類學(xué)習(xí)常常使用單一分類模型來預(yù)測類別標(biāo)簽。由于現(xiàn)實(shí)中用于分類建模的數(shù)據(jù)往往包含大量噪聲，單一的分類模型很難將全部樣本正確分類。而MCE則是將多個(gè)分類器的分類結(jié)果通過某種方式集成起來，得到最終的分類結(jié)果。作為MCE中常用的模型之一，RSS[20]的基本思想是隨機(jī)抽取特征子集形成不同的特征子空間，經(jīng)過映射得到若干個(gè)訓(xùn)練子集，從而構(gòu)造出不同的基本分類器。RSS一方面能夠降低原始數(shù)據(jù)集特征空間的維數(shù)，另一方面由于每次抽取的特征子集不同因而映射形成的訓(xùn)練子集也不同，很大程度上增加了用于集成的基本分類器之間的多樣性，有利于提高集成的效果。葉云龍等[21]提出了一種基于RSS的多分類器集成算法，實(shí)證分析發(fā)現(xiàn)該算法不僅優(yōu)于單一分類器的分類性能，而且一定程度上優(yōu)于Bagging算法。

2.3 半監(jiān)督分類

半監(jiān)督學(xué)習(xí)最早由Shahshahani和Landgrebe[22]在1994年提出，目前已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究熱點(diǎn)，并逐步形成自身的理論體系。半監(jiān)督分類的基本思想就是綜合利用少量有類別標(biāo)簽的樣本和無類別標(biāo)簽的樣本所提供的信息來建立分類模型，并利用該模型來預(yù)測新的樣本的類別。它與監(jiān)督式分類方法最大的區(qū)別在于，構(gòu)建分類模型時(shí)加入了無類別標(biāo)簽的樣本，而無類別標(biāo)簽樣本中也包含了很多有用信息，因此半監(jiān)督分類可望構(gòu)建出更加準(zhǔn)確的分類模型。目前，國內(nèi)外學(xué)者提出了很多半監(jiān)督分類模型，如王嬌等[23]將RSS與半監(jiān)督學(xué)習(xí)相結(jié)合，構(gòu)造了基于RSS的半監(jiān)督協(xié)同訓(xùn)練模型(RASCO)，Hady和Schwenker[24]在模型中引入了協(xié)同訓(xùn)練的思想，構(gòu)建了基于Bagging的半監(jiān)督協(xié)同訓(xùn)練模型(CoBag)，隨后蘇艷等[25]又提出了基于動(dòng)態(tài)RSS的半監(jiān)督協(xié)同訓(xùn)練模型(DRSCO)，Li Yiyang等[26]在建模過程中利用K-近鄰分類方法來提高對無類別標(biāo)簽數(shù)據(jù)集選擇性標(biāo)記的準(zhǔn)確度，構(gòu)建了基于Bagging的半監(jiān)督集成模型(Semi-Bagging)。

3 CSSE模型

3.1 建模的基本思路

已有的目標(biāo)客戶選擇模型多采用重抽樣方法來解決數(shù)據(jù)集類別分布不平衡的問題，但是忽略了正負(fù)類樣本錯(cuò)分代價(jià)相差很大的情況。同時(shí)，已有的研究大都采用監(jiān)督式學(xué)習(xí)的研究范式，無法綜合使用有、無類別標(biāo)簽的樣本來提高模型的學(xué)習(xí)性能。此外，從少量幾篇基于SSL的目標(biāo)客戶選擇建模的研究來看，他們都構(gòu)建的單一半監(jiān)督分類模型。為了彌補(bǔ)這些不足，本文將CSL，SSL以及MCE中的RSS相結(jié)合，構(gòu)建了代價(jià)敏感的目標(biāo)客戶選擇半監(jiān)督集成模型(Cost-sensitive Semi-supervised Ensemble Model, CSSE)。該模型融合了CSL，SSL和MCE的優(yōu)勢，既能夠較好地處理類別不平衡的數(shù)據(jù)，也能夠?qū)o類別標(biāo)簽樣本中包含的大量信息加以利用，同時(shí)還能利用集成方法RSS進(jìn)一步提高模型的目標(biāo)客戶選擇性能。

3.2 對U中樣本的選擇性標(biāo)記

由于L一般包含的樣本比較少，導(dǎo)致難以訓(xùn)練出分類性能很高的分類模型，使得CSSE模型在訓(xùn)練過程中可能會(huì)錯(cuò)誤標(biāo)記U中的一部分樣本，如果將其加入到L中，無疑是人為地引入了更多的噪聲，反而會(huì)降低模型的分類性能。因此，對U中樣本的選擇性標(biāo)記是非常重要的，有利于取得更好的分類性能。為了達(dá)到這一目的，本文使用概率輸出值Probi1作為衡量是否將樣本加入L的指標(biāo)，并針對正負(fù)類樣本設(shè)置不同的閾值。

3.3 對類別不平衡數(shù)據(jù)的處理

在現(xiàn)實(shí)的目標(biāo)客戶選擇問題中，用于建模的客戶數(shù)據(jù)往往存在類別高度不平衡的問題，若采用傳統(tǒng)方法建模會(huì)造成大量正類樣本不能被識(shí)別。常用的解決方法是對原始不平衡數(shù)據(jù)集采用重抽樣的方法，如隨機(jī)向上抽樣和隨機(jī)向下抽樣。區(qū)別于以上針對數(shù)據(jù)樣本的方法，本文使用Davenport[11]提出的代價(jià)敏感的SVM作為CSSE的基本分類模型。我們可以在訓(xùn)練模型階段調(diào)整SVM中的參數(shù)設(shè)置，增加損失函數(shù)C的值，賦予正類樣本和負(fù)類樣本不同的權(quán)重(W1，W2)，同時(shí)選擇合適的核函數(shù)t在克服數(shù)據(jù)類別不平衡的同時(shí)，提高正類樣本識(shí)別的準(zhǔn)確度。

3.4 詳細(xì)建模步驟

輸入：初始有類別標(biāo)簽訓(xùn)練集L，其樣本個(gè)數(shù)為n，無類別標(biāo)簽數(shù)據(jù)集U，其樣本個(gè)數(shù)為m，測試集Test，其樣本個(gè)數(shù)為p，訓(xùn)練得到的基本分類模型的個(gè)數(shù)N，每次迭代中選擇性標(biāo)記正類和負(fù)類樣本時(shí)選取的標(biāo)記閾值θ1和θ2，U中選擇性標(biāo)記的樣本的百分比k。

輸出：測試集Test上的N個(gè)基本分類模型的集成分類結(jié)果。

初始化：L′=L，Q=Φ，s=1。

步驟1. 計(jì)算選擇性標(biāo)記樣本集Q與U的樣本百分比b=size(Q)/m，size是用來計(jì)算Q中樣本個(gè)數(shù)的函數(shù)，若b>k，轉(zhuǎn)到步驟4；

步驟3. 分別使用三個(gè)分類模型來預(yù)測U中全部樣本的類別標(biāo)簽，并將預(yù)測一致的樣本放置在候選集Uj中。若Uj為空，轉(zhuǎn)到步驟2，否則從Uj中根據(jù)正負(fù)樣本比例選取Probi1大于θ1的正類樣本和Probi1小于θ2的負(fù)類樣本添加到L’中，同時(shí)也將它們添加到Q中并從U中剔除；

步驟4. 使用隨機(jī)子空間法(RSS)在L′上抽取一個(gè)特征子集，并映射得到訓(xùn)練子集，使用代價(jià)敏感的SVM訓(xùn)練得到一個(gè)基本分類模型Cs；

步驟5. 若s

步驟6. 使用N個(gè)基本分類模型分別對測試集Test中的樣本進(jìn)行分類得到分類結(jié)果R1,R2,…,RN；

步驟 7. 使用多數(shù)投票法集成N個(gè)基本分類模型的分類結(jié)果R1,R2,…,RN得到最終的分類結(jié)果。

圖2 CSSE模型的流程圖

4 實(shí)證分析

4.1 數(shù)據(jù)集描述

為了分析本文提出的CSSE模型的目標(biāo)客戶選擇性能，我們運(yùn)用2000年的CoIL預(yù)測競賽[27](CoIL2000數(shù)據(jù)集)中Benchmark保險(xiǎn)公司推銷大篷車保險(xiǎn)的真實(shí)數(shù)據(jù)來進(jìn)行實(shí)證分析。該數(shù)據(jù)集包含9822個(gè)樣本，每個(gè)客戶樣本包含86個(gè)變量，其中1～85個(gè)變量是描述客戶信息的特征變量，第86個(gè)變量是響應(yīng)變量，表示客戶所屬的類別標(biāo)簽，該數(shù)據(jù)集將全部客戶劃分為會(huì)對企業(yè)營銷活動(dòng)做出響應(yīng)的少數(shù)類客戶(正類)和不會(huì)做出響應(yīng)的多數(shù)類客戶(負(fù)類)，且正負(fù)類樣本比例為1∶7.55，由此可知該數(shù)據(jù)集屬于類別分布不平衡數(shù)據(jù)集。

4.2 實(shí)驗(yàn)設(shè)置

為了進(jìn)行實(shí)驗(yàn)分析，我們從數(shù)據(jù)集中隨機(jī)抽取30%的樣本作為測試集Test，然后將剩余70%的樣本按照從1∶1、1∶2、1∶3、1∶4到1∶5的比例分為初始有類別標(biāo)簽訓(xùn)練集L和無類別標(biāo)簽數(shù)據(jù)集U，并且要保證L，Test，U中正負(fù)類樣本的比例與原始數(shù)據(jù)集相同。

由于本文所使用的數(shù)據(jù)集的維度較高(包含85個(gè)屬性)，可能存在特征冗余的問題，而特征選擇一方面有助于建立更易解釋、具有更好泛化能力的目標(biāo)客戶選擇模型，另一方面使用降維后的數(shù)據(jù)也可減少計(jì)算時(shí)間，從而降低時(shí)間成本。Kim等[28]首先將GA與ANN相結(jié)合對數(shù)據(jù)進(jìn)行降維處理，然后訓(xùn)練ANN模型選擇目標(biāo)客戶，并在與本文相同的數(shù)據(jù)集上進(jìn)行實(shí)證分析。本文首先采取Fisher Score算法[29]在訓(xùn)練集L上進(jìn)行特征選擇。首先分別計(jì)算每個(gè)特征的得分，然后根據(jù)特征的得分從高到低進(jìn)行排序，最后選取排在前面30%的特征來構(gòu)建目標(biāo)客戶選擇模型。

本文提出的模型運(yùn)用了林智仁教授開發(fā)設(shè)計(jì)的libsvm工具箱，同時(shí)為了訓(xùn)練代價(jià)敏感的SVM，需要在建模階段調(diào)整模型的參數(shù)使得模型在運(yùn)行時(shí)發(fā)揮出最優(yōu)分類性能。經(jīng)過反復(fù)實(shí)驗(yàn)，對于初始標(biāo)記訓(xùn)練集L的最優(yōu)參數(shù)設(shè)置為：懲罰系數(shù)C=100，正類樣本懲罰系數(shù)的加權(quán)值W1=100，負(fù)類樣本懲罰系數(shù)加權(quán)值W2=10，t=2(核函數(shù)類型選擇RBF核函數(shù))。在CSSE模型中，θ1,θ2，N和k是四個(gè)重要參數(shù)，經(jīng)過反復(fù)實(shí)驗(yàn)，當(dāng)我們?nèi)ˇ?=1,θ2=-1，N=40,k=60%，此時(shí)模型能夠取得較好的目標(biāo)客戶選擇性能。

為了分析本文提出的CSSE模型的目標(biāo)客戶選擇性能，將CSSE模型的性能與下面六種目標(biāo)客戶選擇模型進(jìn)行了比較：1)Ho[20]提出的監(jiān)督式集成模型(Random Subspace, RSS)；2)Breiman[30]提出的監(jiān)督式集成模型Bagging；3)王嬌等[23]提出的基于RSS的單一半監(jiān)督協(xié)同訓(xùn)練模型RASCO；4)蘇艷等[25]提出的基于動(dòng)態(tài)RSS的單一半監(jiān)督協(xié)同訓(xùn)練模型DRSCO；5)Hady和Schwenker[24]提出的基于Bagging的半監(jiān)督集成協(xié)同訓(xùn)練模型CoBag；6)Li Yiyang等[26]提出的半監(jiān)督式集成模型Semi-Bagging。對于這六種對比模型，我們選擇傳統(tǒng)的SVM作為基本分類算法，且基本分類器個(gè)數(shù)與CSSE模型中設(shè)置一樣，N=40。值得一提的是，這六種模型都沒有考慮類別分布不平衡對模型性能的影響，因此考慮到比較的公平性，本研究采用隨機(jī)向上抽樣來平衡數(shù)據(jù)集的類別分布，再構(gòu)建相應(yīng)的模型。此外，在RASCO模型中，有一個(gè)重要參數(shù)q，表示模型在每次循環(huán)中標(biāo)記的樣本個(gè)數(shù)，而在CoBag模型中也有一個(gè)重要參數(shù)θ，表示該模型在每次循環(huán)中標(biāo)記的樣本個(gè)數(shù)。通過反復(fù)實(shí)驗(yàn)，并以AUC值作為評價(jià)標(biāo)準(zhǔn)，我們發(fā)現(xiàn)當(dāng)q=100，θ=200時(shí)，兩個(gè)對比模型均可取得最優(yōu)性能。

最后，每一種方法的分類結(jié)果均是取10次實(shí)驗(yàn)結(jié)果的平均值，所有實(shí)驗(yàn)均是在MATLABR2010b軟件平臺(tái)上編程實(shí)現(xiàn)。

4.3 模型性能的評價(jià)準(zhǔn)則

為了對目標(biāo)客戶選擇模型的性能進(jìn)行評估，本文采用四個(gè)評價(jià)指標(biāo)：

(1)AUC準(zhǔn)則

由于現(xiàn)實(shí)的目標(biāo)客戶選擇數(shù)據(jù)集的類別分布都是高度不平衡的，正負(fù)類樣本比例差距較大，此時(shí)若選擇總體分類精度作為評價(jià)指標(biāo)并不太實(shí)用，而ROC(Receiver Operating Characteristic)曲線恰好能夠很好地評價(jià)面向類別不平衡的分類模型的性能。為了更好的說明ROC曲線，我們首先引入目標(biāo)客戶選擇混淆矩陣，如表1所示。其中，TP表示正確分類的正類樣本個(gè)數(shù)，F(xiàn)N代表實(shí)際為正類預(yù)測為負(fù)類的樣本個(gè)數(shù)，F(xiàn)P指實(shí)際為負(fù)類預(yù)測為正類的樣本個(gè)數(shù)，TN表示正確分類的負(fù)類樣本個(gè)數(shù)。針對兩類問題的ROC曲線是一個(gè)真正率——偽正率圖，其中橫坐標(biāo)表示偽正率=FP/(FP+TN)×100%，縱坐標(biāo)表示真正率=TP/(TP+FN)×100%。由于直接比較不同模型的ROC曲線比較困難，因此使用AUC(Area Under the ROC Curve)值來評價(jià)模型性能。

表1 目標(biāo)客戶選擇混淆矩陣

(2)命中率

在現(xiàn)實(shí)的目標(biāo)客戶選擇中，企業(yè)最關(guān)注的是會(huì)對企業(yè)營銷行為做出響應(yīng)的客戶，因此命中率[4]是一個(gè)常用的評價(jià)指標(biāo)。首先使用模型預(yù)測得到測試集中所有客戶做出響應(yīng)的概率，然后依據(jù)概率將其從大到小進(jìn)行排序，最后選擇前面r%的客戶作為目標(biāo)客戶。命中率的計(jì)算公式如下：

(3)

其中，N表示所有潛在的目標(biāo)客戶數(shù)，即測試集中樣本個(gè)數(shù)，Nr表示根據(jù)模型選擇的目標(biāo)客戶數(shù)，Nr(y=1)表示選擇的目標(biāo)客戶中真正會(huì)響應(yīng)的客戶數(shù)。

(3)提升圖(Lift Chart)

提升指數(shù)衡量的是與不利用模型相比，當(dāng)我們使用目標(biāo)客戶選擇模型時(shí)，對潛在客戶的正確預(yù)測能力“提升”了多少。本文所使用的數(shù)據(jù)集的客戶響應(yīng)率是6%，即在不使用模型時(shí)目標(biāo)客戶的命中率是6%，那么當(dāng)我們選取r%的客戶作為目標(biāo)客戶時(shí)，提升指數(shù)lift=Hit rate/6%。提升圖[9]的橫軸表示將客戶依據(jù)預(yù)測出的響應(yīng)概率從大到小排序后抽取的客戶比例，縱軸表示的是與之對應(yīng)的提升指數(shù)(lift)。顯然，提升指數(shù)越大表明模型的目標(biāo)客戶選擇性能越好。

(4)洛倫茲曲線(Lorenz Curve)

作為另一個(gè)常用于評價(jià)目標(biāo)客戶選擇模型性能的準(zhǔn)則，洛倫茲曲線[4]能夠線性直觀的展示出各個(gè)模型的比較結(jié)果。它的橫軸表示選出的目標(biāo)客戶占所有客戶數(shù)的比例r%，縱軸表示選擇比例為r%時(shí)與之對應(yīng)的累計(jì)命中率。圖中的對角線僅表示在不同比例下隨機(jī)選取的目標(biāo)客戶對應(yīng)的累計(jì)命中率，并不涉及任何模型的使用。當(dāng)洛倫茲曲線越凸向左上角，即與對角線圍成的面積越大，則說明該模型的目標(biāo)客戶選擇性能越好。

4.4 模型性能比較分析

4.4.1 模型的AUC值比較

圖3展示了本文提出的CSSE模型與其它六種模型在CoIL2000上的AUC值，其中橫坐標(biāo)表示U和L中的樣本比例從1∶1變化到5∶1。仔細(xì)分析圖3，我們可以得到以下結(jié)論：

圖3 七種模型在不同比例下的AUC值

(1)CSSE模型在五種不同比例下均具有最大的AUC值，因此，CSSE模型的整體目標(biāo)客戶選擇性能要優(yōu)于其他六種模型。六種對比模型均采用隨機(jī)向上抽樣的方法來平衡數(shù)據(jù)集類別分布，但它們的AUC值均低于CSSE模型，這說明與這六種模型相比，本文提出的代價(jià)敏感的目標(biāo)客戶選擇半監(jiān)督集成模型CSSE可以更有效地解決目標(biāo)客戶選擇數(shù)據(jù)集中存在的類別分布不平衡問題。AUC 值通常被用于評價(jià)模型在類別分布不平衡數(shù)據(jù)集上的總體分類性能，CSSE模型在該評價(jià)指標(biāo)上表現(xiàn)優(yōu)異，這也說明了和已有的模型相比，CSSE模型將CSL，SSL和RSS方法進(jìn)行融合確實(shí)具有更好的整體性能。

(2)在七種模型中，CSSE、DRSCO、CoBag、RASCO以及Semi-Bagging模型都屬于半監(jiān)督分類模型，而RSS和Bagging模型屬于監(jiān)督式分類模型。從圖中可以看出大多數(shù)半監(jiān)督分類模型如CSSE、DRSCO和CoBag的AUC值均大于兩種監(jiān)督式分類模型RSS和Bagging。然而，也有一些半監(jiān)督分類模型的目標(biāo)客戶選擇性能比較差，如RASCO模型和兩種監(jiān)督式分類模型的AUC值不相上下，而Semi-Bagging模型的AUC值更是低于兩種監(jiān)督式分類模型的AUC值。這表明，在多數(shù)情況下從大量無類別標(biāo)簽的數(shù)據(jù)集中選擇性標(biāo)記一部分樣本加入到訓(xùn)練集中，確實(shí)能夠提高目標(biāo)客戶選擇的性能。但是如果模型的選擇性標(biāo)記的機(jī)制不夠合理，導(dǎo)致大量被錯(cuò)誤標(biāo)記類別的樣本加入到訓(xùn)練集中，從而很難提高模型的性能，有時(shí)甚至?xí)p害模型的目標(biāo)客戶選擇性能；

(3)隨著U和L中的樣本比例不斷增大，半監(jiān)督分類模型中的CSSE、DRSCO和CoBag的AUC值雖然存在較小波動(dòng)，但總體上保持較高水平并優(yōu)于監(jiān)督式分類模型RSS和Bagging，因?yàn)楹竺鎯煞N模型的AUC值大體上呈現(xiàn)出逐漸減小的趨勢。特別地，本文提出的CSSE模型，當(dāng)U和L中的比例不斷增大時(shí)，它的AUC值與監(jiān)督式分類模型的AUC值的差距在逐漸變大。這表明，當(dāng)數(shù)據(jù)集包含大量無類別標(biāo)簽的樣本時(shí)，相比于傳統(tǒng)的監(jiān)督式分類模型，本文提出的半監(jiān)督分類模型CSSE更具優(yōu)勢。

4.4.2 模型的命中率比較

圖4給出了本文提出的CSSE模型和其他六種對比模型的命中率，其中，(a)～(e)分別表示U和L中的樣本比例從1∶1變化到5∶1的結(jié)果，同時(shí)，在每個(gè)子圖中，我們還給出了目標(biāo)客戶選擇比例(r%)從10%增加到50%時(shí)，各個(gè)模型的命中率比較。

根據(jù)圖4，我們可以得出以下結(jié)論：

(1)當(dāng)U和L中的樣本比例從1∶1增加到5∶1時(shí)，CSSE模型的命中率在各種不同的目標(biāo)客戶選擇比例時(shí)均大于其他模型，這說明CSSE模型的目標(biāo)客戶選擇性能是優(yōu)于對比模型的；

(2)在每個(gè)子圖中，隨著目標(biāo)客戶選擇比例的增加，各個(gè)模型的命中率雖然存在一些波動(dòng)，但是總體上均表現(xiàn)出逐漸下降的趨勢。分析其原因，可能是因?yàn)槲覀兪歉鶕?jù)每個(gè)模型預(yù)測得到的測試集中所有客戶做出響應(yīng)的概率從大到小進(jìn)行排序，最后選擇前面r%的客戶作為目標(biāo)客戶。因此，目標(biāo)客戶選擇比例越小，就越可能選中那些真正的響應(yīng)客戶，命中率自然相對就越高；

(3)大多數(shù)半監(jiān)督式集成模型的命中率要高于2種監(jiān)督式集成模型，而且隨著U和L中的樣本比

圖4 七種模型命中率的比較

例增大，半監(jiān)督模型的命中率仍能保持在較高水平，而RSS和Bagging的命中率值則呈下降趨勢，這說明當(dāng)數(shù)據(jù)集包含大量無類別標(biāo)簽的樣本時(shí)，半監(jiān)督分類模型具有明顯優(yōu)勢。分析其原因，可能是因?yàn)楸O(jiān)督式模型只使用少量有類別標(biāo)簽的數(shù)據(jù)集L來建模，而半監(jiān)督分類模型則能夠同時(shí)使用L和大量無類別標(biāo)簽數(shù)據(jù)集U中的樣本來建模。

4.4.3 模型的提升圖比較分析

圖5展示了CSSE模型和其他六種模型的提升指數(shù)，其中，(a)～(e)分別表示U和L中的樣本比例從1∶1變化到5∶1的結(jié)果。同時(shí)，在每個(gè)子圖中，我們還給出了目標(biāo)客戶選擇比例(r%)從10%增加到100%時(shí)，各個(gè)模型的提升指數(shù)的比較。

仔細(xì)分析圖5，我們能夠得出與4.4.2小節(jié)類似的結(jié)論：

(1)當(dāng)U和L中的樣本比例從1∶1增加到5∶1時(shí)，CSSE模型的提升指數(shù)在不同的目標(biāo)客戶選擇比例時(shí)均明顯大于其他模型的，這說明該模型具有最好的目標(biāo)客戶選擇性能；

(2)在每個(gè)子圖中，隨著目標(biāo)客戶選擇比例的增加，各個(gè)模型的提升指數(shù)雖然存在一些波動(dòng)，但是總體上均表現(xiàn)出逐漸下降的趨勢；

(3)大多數(shù)半監(jiān)督式集成模型的提升指數(shù)要高于2種監(jiān)督式集成模型，而且隨著U和L中的樣本比例增大，半監(jiān)督模型的優(yōu)勢更加明顯。

4.4.4 模型的洛倫茲曲線比較

由于篇幅所限，我們僅給出了U和L中的樣本的比例為5∶1時(shí)七種不同分類模型的洛倫茲曲線，見圖6。從圖中可以看出，當(dāng)目標(biāo)客戶選擇比例為10%、20%和30%時(shí)，CSSE模型的洛倫茲曲線均在其他模型的曲線上方，此時(shí)CSSE模型的累計(jì)命中率明顯高于其他六種模型。在現(xiàn)實(shí)企業(yè)的目標(biāo)客戶選擇問題中，企業(yè)的潛在客戶通常很多，但由于營銷預(yù)算的限制，我們往往只能選擇排在前面的很小一部分的客戶作為目標(biāo)客戶，從而向他們郵寄宣傳資料，即目標(biāo)客戶選擇的比例通常比較小。因此，與其它模型相比，本文提出的CSSE模型可望在現(xiàn)實(shí)企業(yè)的目標(biāo)客戶選擇中取得更好的性能。

5 結(jié)語

近年來，數(shù)據(jù)庫營銷成為客戶關(guān)系管理領(lǐng)域的研究熱點(diǎn)。而目標(biāo)客戶選擇是數(shù)據(jù)庫營銷的重中之重，它能幫助企業(yè)提高客戶響應(yīng)率，增強(qiáng)核心競爭力，同時(shí)節(jié)約大量營銷成本。在現(xiàn)實(shí)的目標(biāo)客戶選擇建模中，往往只能獲取少量有類別標(biāo)簽的樣本，而剩下的大量樣本都無法獲取類別標(biāo)簽。已有研究大都使用監(jiān)督式建模研究范式，僅在少量有類別標(biāo)簽

圖5 七種模型的提升指數(shù)比較

圖6 七種模型的洛倫茲曲線比較

樣本集L上建模，很難取得令人滿意的效果。為解決這一問題，本文引入SSL技術(shù)，將其與CSL和多分類器集成中的RSS方法相結(jié)合，提出了代價(jià)敏感的目標(biāo)客戶選擇半監(jiān)督集成模型CSSE。該模型使用代價(jià)敏感的SVM來解決目標(biāo)客戶選擇建模中樣本數(shù)據(jù)類別分布不平衡問題，還能夠同時(shí)使用有、無類別標(biāo)簽的客戶樣本來建模。進(jìn)一步地，該模型利用RSS方法訓(xùn)練一系列基本分類模型，并通過集成得到最終的分類結(jié)果。為了分析本文提出的CSSE模型在目標(biāo)客戶選擇方面的性能，本文在某保險(xiǎn)公司目標(biāo)客戶選擇數(shù)據(jù)集上進(jìn)行實(shí)證分析，同時(shí)將其與兩種監(jiān)督式集成模型、兩種單一的半監(jiān)督模型以及兩種半監(jiān)督集成模型相比較。我們選取AUC值、命中率、提升圖和洛倫茲曲線作為模型評價(jià)準(zhǔn)則。實(shí)驗(yàn)結(jié)果表明，CSSE模型具有更好的目標(biāo)客戶選擇性能。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放