亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多分類器的移動(dòng)通信客戶信息挖掘

2010-12-31 00:00:00錢慧如徐從富

商場(chǎng)現(xiàn)代化 2010年10期

[摘要]移動(dòng)通信領(lǐng)域中的客戶信息挖掘是數(shù)據(jù)挖掘和商務(wù)智能領(lǐng)域中典型應(yīng)用之一，具有較高研究意義和商業(yè)應(yīng)用價(jià)值。在基于決策樹的數(shù)據(jù)分類算法基礎(chǔ)上，采用相異度計(jì)算原理進(jìn)行分類，重點(diǎn)對(duì)移動(dòng)通信客戶是否可能成長(zhǎng)為高價(jià)值客戶的分類進(jìn)行了研究。測(cè)試結(jié)果表明，本文所提出的組合分類方法是完全可行的。

[關(guān)鍵詞]數(shù)據(jù)挖掘多分類器決策樹聚類算法

引言

數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科，其對(duì)大規(guī)模數(shù)據(jù)的強(qiáng)大處理能力在許多領(lǐng)域都有著廣泛的應(yīng)用。本文主要介紹數(shù)據(jù)挖掘技術(shù)在移動(dòng)通信領(lǐng)域中的一個(gè)應(yīng)用，主要任務(wù)是如何根據(jù)一個(gè)剛剛?cè)刖W(wǎng)3個(gè)月的用戶屬性特征，預(yù)測(cè)其是否有可能發(fā)展成為移動(dòng)通信公司的高價(jià)值客戶，以便有針對(duì)性地利用較小的客戶維護(hù)成本對(duì)客戶提前進(jìn)行高效的維護(hù)。

本文首先采用了決策樹分類方法來對(duì)數(shù)據(jù)進(jìn)行分類，以利用不同訓(xùn)練集生成的決策樹共同對(duì)已知分類的測(cè)試集進(jìn)行分類，并結(jié)合樣本數(shù)據(jù)本身的特征采用相異度算法對(duì)不確定的樣本進(jìn)行再次分類。測(cè)試結(jié)果表明，本文所提出的方法是完全可行的。

一、決策分類及相異度算法

1. 決策樹分類算法基本原理。數(shù)據(jù)分類是數(shù)據(jù)挖掘中的一個(gè)基本問題，它通?？煞譃閮蓚€(gè)階段:建模階段和評(píng)測(cè)階段。建模階段的主要任務(wù)是通過分析訓(xùn)練集中樣本的特征，構(gòu)建一個(gè)預(yù)測(cè)模型。這是整個(gè)分類過程中最為關(guān)鍵核心的部分，建模方法的好壞對(duì)分類效果起到了決定性的影響，在數(shù)據(jù)挖掘的幾個(gè)主要分類技術(shù)通常有:決策樹、Bayesian 模型、神經(jīng)網(wǎng)絡(luò)模型等。

決策樹(Decision tree，也稱判定樹)是一個(gè)類似于流程圖的樹結(jié)構(gòu)，其中每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試，每個(gè)分枝代表一個(gè)測(cè)試輸出，而每個(gè)樹葉節(jié)點(diǎn)代表類或類分布。決策樹容易轉(zhuǎn)換成分類規(guī)則，路徑由根節(jié)點(diǎn)到存放該樣本預(yù)測(cè)的葉節(jié)點(diǎn)。

在樹的每個(gè)節(jié)點(diǎn)上使用信息增益度量選擇測(cè)試屬性。設(shè)S是s個(gè)數(shù)據(jù)樣本的集合。假定類標(biāo)號(hào)屬性具有m個(gè)不同值，定義m個(gè)不同類Ci(i=1，…，m)。設(shè)si是類Ci中的樣本數(shù)。對(duì)一個(gè)給定的樣本分類所需的期望信息由下式給出:

其中，pi是任意樣本屬于Ci的概率，并用si/s估計(jì)。

設(shè)屬性A具有v個(gè)不同值{ a1， a2，…， av }，可以用屬性A將S劃分為v個(gè)子集{ S1， S2，…， Sv };其中，Sj包含S中這樣一些樣本，它們?cè)贏上具有值aj。如果A選作測(cè)試屬性(即最好的分裂屬性)，則這些子集對(duì)應(yīng)于由包含集合S的節(jié)點(diǎn)生長(zhǎng)出來的分枝。

2.聚類算法中相異度計(jì)算原理。聚類算法的基本思想是:所研究的對(duì)象中每個(gè)個(gè)體之間存在著程度不同的相似性(親疏關(guān)系)，于是，根據(jù)眾多單位的多個(gè)觀測(cè)指標(biāo)，找出能夠度量各單位之間相似程度的統(tǒng)計(jì)量，以此作為劃分類型的根據(jù)，把一些相似程度較大的單位聚合為一類，把另外一些彼此相似程度較大的單位又聚合在另一類，關(guān)系密切的聚合到一個(gè)小的分類單位，關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位，直到把所有單位都聚合完畢。然后把不同的類型一一劃分出來，形成一個(gè)由小到大的分類系統(tǒng)。最后再把整個(gè)分類系統(tǒng)畫成一張圖，用它把所有單位間的親疏關(guān)系表示出來。該方法是聚類中最常用、最基本的方法，稱為系統(tǒng)聚類法。

二、測(cè)試模型中的分類算法

本文測(cè)試中的分類算法可分為數(shù)據(jù)預(yù)處理、模型構(gòu)建及模型測(cè)試分析這三個(gè)階段。

1.數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理階段的主要任務(wù)是:首先對(duì)數(shù)據(jù)進(jìn)行抽取，然后對(duì)從數(shù)據(jù)庫中提取得到的原始數(shù)據(jù)進(jìn)行整理，使其滿足數(shù)據(jù)挖掘的具體要求。其主要工作包括:對(duì)數(shù)據(jù)的轉(zhuǎn)換和整合、抽樣、隨機(jī)化、缺失值的處理、離散化處理等。通過對(duì)樣本的分析可以發(fā)現(xiàn)在近百個(gè)屬性中有許多屬性無論對(duì)于Y 或N 都是0(或基本上全是1)，換句話說，某些屬性變量對(duì)于結(jié)果的預(yù)測(cè)是無用的，因此在測(cè)試時(shí)通過數(shù)據(jù)預(yù)處理可以去掉這些無用的屬性，可以明顯提高決策樹的構(gòu)建效率。測(cè)試中通過這樣的預(yù)處理，候選屬性只剩下20個(gè)左右。

2. 模型構(gòu)建。構(gòu)建決策樹階段采用了第二節(jié)所介紹的決策樹構(gòu)建算法，另外，在本文測(cè)試中，最終的分類算法并不是依據(jù)一棵決策樹，而是有多棵(10棵)不同的決策樹同時(shí)對(duì)同一已知的測(cè)試集進(jìn)行分類。具體做法如下:(1)將11萬個(gè)號(hào)碼分成10組，每組為10萬個(gè)號(hào)碼，例如，第k組由第(k+0，k+1，k+2， k+3，…， k+99999)個(gè)號(hào)碼組成。(2)根據(jù)這10個(gè)組分別構(gòu)建了10棵決策樹預(yù)測(cè)模型，再將這10棵決策樹分別對(duì)待測(cè)樣本進(jìn)行分類預(yù)測(cè)。(3)只有當(dāng)這多棵決策樹對(duì)某個(gè)號(hào)碼的測(cè)試得到同樣的結(jié)果時(shí)，才把其作為分類結(jié)果的最終判斷，由此分離出相對(duì)準(zhǔn)確的預(yù)測(cè)類型，否則需要對(duì)該樣本進(jìn)行再次分類。

3.模型測(cè)試分析。本文測(cè)試的環(huán)境是基于Win2000操作系統(tǒng)的PC機(jī)，CPU:Petiumn 4處理器，內(nèi)存768M，硬盤容量40G，測(cè)試軟件工具:Oracle8i數(shù)據(jù)庫、Clementine8.1、SPSS等數(shù)據(jù)挖掘軟件工具。

本文測(cè)試中采用了10棵決策樹聯(lián)合分類方法和基于相異度的再次分類。10棵決策樹分別對(duì)11萬個(gè)樣本進(jìn)行測(cè)試，并根據(jù)不確定的號(hào)碼與已知分類進(jìn)行相似度匹配，而對(duì)于把這10 棵決策樹對(duì)相同的原訓(xùn)練集進(jìn)行分類，對(duì)于不一致結(jié)果采用服從多數(shù)的方法，正確率為85.41%(可能是由于過度匹配所造成的，很有可能造成模型適用度過小的現(xiàn)象)。把這10 棵決策樹同時(shí)對(duì)原訓(xùn)練集(11萬個(gè)樣例)進(jìn)行分類，對(duì)于不一致結(jié)果采用基于相異度的算法進(jìn)行再次分類方法，正確率為83.10%。若修改為只對(duì)占多數(shù)的樣例進(jìn)行再次分類的話，正確率為85.41%。

三、分析和討論

引入基于相異度的再次分類方法，主要目的是減小由于樣本數(shù)量差異所造成的決策偏差。由于在決策樹算法中，當(dāng)沒有新的屬性可用來劃分當(dāng)前的數(shù)據(jù)集時(shí)，將把占多數(shù)的類型作為該葉節(jié)點(diǎn)的類型，這樣某一個(gè)樣例很多的類型可能會(huì)對(duì)決策樹產(chǎn)生誤導(dǎo)，造成偏差。盡管正確率似乎有所下降，但這種現(xiàn)象主要是由于測(cè)試集與決策樹過于匹配造成的。在面對(duì)新的測(cè)試樣例時(shí)，這種使用相異度算法的再次分類還是有必要的。

結(jié)束語

本文針對(duì)傳統(tǒng)的單一分類方法存在的不足，將組合分類算法成功地應(yīng)用于移動(dòng)通信客戶信息挖掘?qū)嵺`中，特別是采用決策樹分類及相異度測(cè)算相結(jié)合的方法對(duì)不確定事務(wù)進(jìn)行再次分類。測(cè)試結(jié)果表明，本文所提出的組合分類算法在移動(dòng)通信客戶信息挖掘領(lǐng)域是完全可行的，具有較好的實(shí)用價(jià)值。

參考文獻(xiàn):

[1] Jiawei Han ，Micheline Kamber. Data Mining: concepts and techniques [M]， Morgan Kaufman， 2000.

[2] Daniel Barbara. Using Self-Similarity to Cluster Large Data Sets [J]. Data Mining and Knowledge Discovery， 2003， 7:123～152

[3] Dharmendra S. Modha， W. Scott Spangler. Feature Weighting. k-Means Clustering [J]. Machine Learning， 2003， 52:217～237

商場(chǎng)現(xiàn)代化2010年10期

商場(chǎng)現(xiàn)代化的其它文章: 中國(guó)傳統(tǒng)道德與商科院校學(xué)生的素質(zhì)教育; 加強(qiáng)粵港生產(chǎn)性服務(wù)業(yè)合作探討; 我國(guó)家族企業(yè)發(fā)展歷史與制度變遷; 薪酬管理對(duì)雇主品牌構(gòu)建\\維護(hù)和保持的影響機(jī)制探討; 山東溫泉資源特征與產(chǎn)業(yè)布局構(gòu)想; 淺析非貨幣性資產(chǎn)交換中公允價(jià)值的運(yùn)用