[摘 要]移動(dòng)通信領(lǐng)域中的客戶信息挖掘是數(shù)據(jù)挖掘和商務(wù)智能領(lǐng)域中典型應(yīng)用之一,具有較高研究意義和商業(yè)應(yīng)用價(jià)值。在基于決策樹的數(shù)據(jù)分類算法基礎(chǔ)上,采用相異度計(jì)算原理進(jìn)行分類,重點(diǎn)對(duì)移動(dòng)通信客戶是否可能成長(zhǎng)為高價(jià)值客戶的分類進(jìn)行了研究。測(cè)試結(jié)果表明,本文所提出的組合分類方法是完全可行的。
[關(guān)鍵詞]數(shù)據(jù)挖掘 多分類器 決策樹 聚類算法
引言
數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,其對(duì)大規(guī)模數(shù)據(jù)的強(qiáng)大處理能力在許多領(lǐng)域都有著廣泛的應(yīng)用。本文主要介紹數(shù)據(jù)挖掘技術(shù)在移動(dòng)通信領(lǐng)域中的一個(gè)應(yīng)用,主要任務(wù)是如何根據(jù)一個(gè)剛剛?cè)刖W(wǎng)3個(gè)月的用戶屬性特征,預(yù)測(cè)其是否有可能發(fā)展成為移動(dòng)通信公司的高價(jià)值客戶,以便有針對(duì)性地利用較小的客戶維護(hù)成本對(duì)客戶提前進(jìn)行高效的維護(hù)。
本文首先采用了決策樹分類方法來對(duì)數(shù)據(jù)進(jìn)行分類,以利用不同訓(xùn)練集生成的決策樹共同對(duì)已知分類的測(cè)試集進(jìn)行分類,并結(jié)合樣本數(shù)據(jù)本身的特征采用相異度算法對(duì)不確定的樣本進(jìn)行再次分類。測(cè)試結(jié)果表明,本文所提出的方法是完全可行的。
一、決策分類及相異度算法
1. 決策樹分類算法基本原理。數(shù)據(jù)分類是數(shù)據(jù)挖掘中的一個(gè)基本問題,它通??煞譃閮蓚€(gè)階段:建模階段和評(píng)測(cè)階段。建模階段的主要任務(wù)是通過分析訓(xùn)練集中樣本的特征,構(gòu)建一個(gè)預(yù)測(cè)模型。這是整個(gè)分類過程中最為關(guān)鍵核心的部分,建模方法的好壞對(duì)分類效果起到了決定性的影響,在數(shù)據(jù)挖掘的幾個(gè)主要分類技術(shù)通常有:決策樹、Bayesian 模型、神經(jīng)網(wǎng)絡(luò)模型等。
決策樹(Decision tree,也稱判定樹)是一個(gè)類似于流程圖的樹結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出,而每個(gè)樹葉節(jié)點(diǎn)代表類或類分布。決策樹容易轉(zhuǎn)換成分類規(guī)則,路徑由根節(jié)點(diǎn)到存放該樣本預(yù)測(cè)的葉節(jié)點(diǎn)。
在樹的每個(gè)節(jié)點(diǎn)上使用信息增益度量選擇測(cè)試屬性。設(shè)S是s個(gè)數(shù)據(jù)樣本的集合。假定類標(biāo)號(hào)屬性具有m個(gè)不同值,定義m個(gè)不同類Ci(i=1,…,m)。設(shè)si是類Ci中的樣本數(shù)。對(duì)一個(gè)給定的樣本分類所需的期望信息由下式給出:
其中,pi是任意樣本屬于Ci的概率,并用si/s估計(jì)。
設(shè)屬性A具有v個(gè)不同值{ a1, a2,…, av },可以用屬性A將S劃分為v個(gè)子集{ S1, S2,…, Sv };其中,Sj包含S中這樣一些樣本,它們?cè)贏上具有值aj。如果A選作測(cè)試屬性(即最好的分裂屬性),則這些子集對(duì)應(yīng)于由包含集合S的節(jié)點(diǎn)生長(zhǎng)出來的分枝。
2.聚類算法中相異度計(jì)算原理。聚類算法的基本思想是:所研究的對(duì)象中每個(gè)個(gè)體之間存在著程度不同的相似性(親疏關(guān)系),于是,根據(jù)眾多單位的多個(gè)觀測(cè)指標(biāo),找出能夠度量各單位之間相似程度的統(tǒng)計(jì)量,以此作為劃分類型的根據(jù),把一些相似程度較大的單位聚合為一類,把另外一些彼此相似程度較大的單位又聚合在另一類,關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到把所有單位都聚合完畢。然后把不同的類型一一劃分出來,形成一個(gè)由小到大的分類系統(tǒng)。最后再把整個(gè)分類系統(tǒng)畫成一張圖,用它把所有單位間的親疏關(guān)系表示出來。該方法是聚類中最常用、最基本的方法,稱為系統(tǒng)聚類法。
二、測(cè)試模型中的分類算法
本文測(cè)試中的分類算法可分為數(shù)據(jù)預(yù)處理、模型構(gòu)建及模型測(cè)試分析這三個(gè)階段。
1.數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理階段的主要任務(wù)是:首先對(duì)數(shù)據(jù)進(jìn)行抽取,然后對(duì)從數(shù)據(jù)庫中提取得到的原始數(shù)據(jù)進(jìn)行整理,使其滿足數(shù)據(jù)挖掘的具體要求。其主要工作包括:對(duì)數(shù)據(jù)的轉(zhuǎn)換和整合、抽樣、隨機(jī)化、缺失值的處理、離散化處理等。通過對(duì)樣本的分析可以發(fā)現(xiàn)在近百個(gè)屬性中有許多屬性無論對(duì)于Y 或N 都是0(或基本上全是1),換句話說,某些屬性變量對(duì)于結(jié)果的預(yù)測(cè)是無用的,因此在測(cè)試時(shí)通過數(shù)據(jù)預(yù)處理可以去掉這些無用的屬性,可以明顯提高決策樹的構(gòu)建效率。測(cè)試中通過這樣的預(yù)處理,候選屬性只剩下20個(gè)左右。
2. 模型構(gòu)建。構(gòu)建決策樹階段采用了第二節(jié)所介紹的決策樹構(gòu)建算法,另外,在本文測(cè)試中,最終的分類算法并不是依據(jù)一棵決策樹,而是有多棵(10棵)不同的決策樹同時(shí)對(duì)同一已知的測(cè)試集進(jìn)行分類。具體做法如下:(1)將11萬個(gè)號(hào)碼分成10組,每組為10萬個(gè)號(hào)碼,例如,第k組由第(k+0,k+1,k+2, k+3,…, k+99999)個(gè)號(hào)碼組成。(2)根據(jù)這10個(gè)組分別構(gòu)建了10棵決策樹預(yù)測(cè)模型,再將這10棵決策樹分別對(duì)待測(cè)樣本進(jìn)行分類預(yù)測(cè)。(3)只有當(dāng)這多棵決策樹對(duì)某個(gè)號(hào)碼的測(cè)試得到同樣的結(jié)果時(shí),才把其作為分類結(jié)果的最終判斷,由此分離出相對(duì)準(zhǔn)確的預(yù)測(cè)類型,否則需要對(duì)該樣本進(jìn)行再次分類。
3.模型測(cè)試分析。本文測(cè)試的環(huán)境是基于Win2000操作系統(tǒng)的PC機(jī),CPU:Petiumn 4處理器,內(nèi)存768M,硬盤容量40G,測(cè)試軟件工具:Oracle8i數(shù)據(jù)庫、Clementine8.1、SPSS等數(shù)據(jù)挖掘軟件工具。
本文測(cè)試中采用了10棵決策樹聯(lián)合分類方法和基于相異度的再次分類。10棵決策樹分別對(duì)11萬個(gè)樣本進(jìn)行測(cè)試,并根據(jù)不確定的號(hào)碼與已知分類進(jìn)行相似度匹配,而對(duì)于把這10 棵決策樹對(duì)相同的原訓(xùn)練集進(jìn)行分類,對(duì)于不一致結(jié)果采用服從多數(shù)的方法,正確率為85.41%(可能是由于過度匹配所造成的,很有可能造成模型適用度過小的現(xiàn)象)。把這10 棵決策樹同時(shí)對(duì)原訓(xùn)練集(11萬個(gè)樣例)進(jìn)行分類,對(duì)于不一致結(jié)果采用基于相異度的算法進(jìn)行再次分類方法,正確率為83.10%。若修改為只對(duì)占多數(shù)的樣例進(jìn)行再次分類的話,正確率為85.41%。
三、分析和討論
引入基于相異度的再次分類方法,主要目的是減小由于樣本數(shù)量差異所造成的決策偏差。由于在決策樹算法中,當(dāng)沒有新的屬性可用來劃分當(dāng)前的數(shù)據(jù)集時(shí),將把占多數(shù)的類型作為該葉節(jié)點(diǎn)的類型,這樣某一個(gè)樣例很多的類型可能會(huì)對(duì)決策樹產(chǎn)生誤導(dǎo),造成偏差。盡管正確率似乎有所下降,但這種現(xiàn)象主要是由于測(cè)試集與決策樹過于匹配造成的。在面對(duì)新的測(cè)試樣例時(shí),這種使用相異度算法的再次分類還是有必要的。
結(jié)束語
本文針對(duì)傳統(tǒng)的單一分類方法存在的不足,將組合分類算法成功地應(yīng)用于移動(dòng)通信客戶信息挖掘?qū)嵺`中,特別是采用決策樹分類及相異度測(cè)算相結(jié)合的方法對(duì)不確定事務(wù)進(jìn)行再次分類。測(cè)試結(jié)果表明,本文所提出的組合分類算法在移動(dòng)通信客戶信息挖掘領(lǐng)域是完全可行的,具有較好的實(shí)用價(jià)值。
參考文獻(xiàn):
[1] Jiawei Han ,Micheline Kamber. Data Mining: concepts and techniques [M], Morgan Kaufman, 2000.
[2] Daniel Barbara. Using Self-Similarity to Cluster Large Data Sets [J]. Data Mining and Knowledge Discovery, 2003, 7:123~152
[3] Dharmendra S. Modha, W. Scott Spangler. Feature Weighting. k-Means Clustering [J]. Machine Learning, 2003, 52:217~237