亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多分類器的移動(dòng)通信客戶信息挖掘

        2010-12-31 00:00:00錢慧如徐從富
        商場(chǎng)現(xiàn)代化 2010年10期

        [摘 要]移動(dòng)通信領(lǐng)域中的客戶信息挖掘是數(shù)據(jù)挖掘和商務(wù)智能領(lǐng)域中典型應(yīng)用之一,具有較高研究意義和商業(yè)應(yīng)用價(jià)值。在基于決策樹的數(shù)據(jù)分類算法基礎(chǔ)上,采用相異度計(jì)算原理進(jìn)行分類,重點(diǎn)對(duì)移動(dòng)通信客戶是否可能成長(zhǎng)為高價(jià)值客戶的分類進(jìn)行了研究。測(cè)試結(jié)果表明,本文所提出的組合分類方法是完全可行的。

        [關(guān)鍵詞]數(shù)據(jù)挖掘 多分類器 決策樹 聚類算法

        引言

        數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,其對(duì)大規(guī)模數(shù)據(jù)的強(qiáng)大處理能力在許多領(lǐng)域都有著廣泛的應(yīng)用。本文主要介紹數(shù)據(jù)挖掘技術(shù)在移動(dòng)通信領(lǐng)域中的一個(gè)應(yīng)用,主要任務(wù)是如何根據(jù)一個(gè)剛剛?cè)刖W(wǎng)3個(gè)月的用戶屬性特征,預(yù)測(cè)其是否有可能發(fā)展成為移動(dòng)通信公司的高價(jià)值客戶,以便有針對(duì)性地利用較小的客戶維護(hù)成本對(duì)客戶提前進(jìn)行高效的維護(hù)。

        本文首先采用了決策樹分類方法來對(duì)數(shù)據(jù)進(jìn)行分類,以利用不同訓(xùn)練集生成的決策樹共同對(duì)已知分類的測(cè)試集進(jìn)行分類,并結(jié)合樣本數(shù)據(jù)本身的特征采用相異度算法對(duì)不確定的樣本進(jìn)行再次分類。測(cè)試結(jié)果表明,本文所提出的方法是完全可行的。

        一、決策分類及相異度算法

        1. 決策樹分類算法基本原理。數(shù)據(jù)分類是數(shù)據(jù)挖掘中的一個(gè)基本問題,它通??煞譃閮蓚€(gè)階段:建模階段和評(píng)測(cè)階段。建模階段的主要任務(wù)是通過分析訓(xùn)練集中樣本的特征,構(gòu)建一個(gè)預(yù)測(cè)模型。這是整個(gè)分類過程中最為關(guān)鍵核心的部分,建模方法的好壞對(duì)分類效果起到了決定性的影響,在數(shù)據(jù)挖掘的幾個(gè)主要分類技術(shù)通常有:決策樹、Bayesian 模型、神經(jīng)網(wǎng)絡(luò)模型等。

        決策樹(Decision tree,也稱判定樹)是一個(gè)類似于流程圖的樹結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出,而每個(gè)樹葉節(jié)點(diǎn)代表類或類分布。決策樹容易轉(zhuǎn)換成分類規(guī)則,路徑由根節(jié)點(diǎn)到存放該樣本預(yù)測(cè)的葉節(jié)點(diǎn)。

        在樹的每個(gè)節(jié)點(diǎn)上使用信息增益度量選擇測(cè)試屬性。設(shè)S是s個(gè)數(shù)據(jù)樣本的集合。假定類標(biāo)號(hào)屬性具有m個(gè)不同值,定義m個(gè)不同類Ci(i=1,…,m)。設(shè)si是類Ci中的樣本數(shù)。對(duì)一個(gè)給定的樣本分類所需的期望信息由下式給出:

        其中,pi是任意樣本屬于Ci的概率,并用si/s估計(jì)。

        設(shè)屬性A具有v個(gè)不同值{ a1, a2,…, av },可以用屬性A將S劃分為v個(gè)子集{ S1, S2,…, Sv };其中,Sj包含S中這樣一些樣本,它們?cè)贏上具有值aj。如果A選作測(cè)試屬性(即最好的分裂屬性),則這些子集對(duì)應(yīng)于由包含集合S的節(jié)點(diǎn)生長(zhǎng)出來的分枝。

        2.聚類算法中相異度計(jì)算原理。聚類算法的基本思想是:所研究的對(duì)象中每個(gè)個(gè)體之間存在著程度不同的相似性(親疏關(guān)系),于是,根據(jù)眾多單位的多個(gè)觀測(cè)指標(biāo),找出能夠度量各單位之間相似程度的統(tǒng)計(jì)量,以此作為劃分類型的根據(jù),把一些相似程度較大的單位聚合為一類,把另外一些彼此相似程度較大的單位又聚合在另一類,關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到把所有單位都聚合完畢。然后把不同的類型一一劃分出來,形成一個(gè)由小到大的分類系統(tǒng)。最后再把整個(gè)分類系統(tǒng)畫成一張圖,用它把所有單位間的親疏關(guān)系表示出來。該方法是聚類中最常用、最基本的方法,稱為系統(tǒng)聚類法。

        二、測(cè)試模型中的分類算法

        本文測(cè)試中的分類算法可分為數(shù)據(jù)預(yù)處理、模型構(gòu)建及模型測(cè)試分析這三個(gè)階段。

        1.數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理階段的主要任務(wù)是:首先對(duì)數(shù)據(jù)進(jìn)行抽取,然后對(duì)從數(shù)據(jù)庫中提取得到的原始數(shù)據(jù)進(jìn)行整理,使其滿足數(shù)據(jù)挖掘的具體要求。其主要工作包括:對(duì)數(shù)據(jù)的轉(zhuǎn)換和整合、抽樣、隨機(jī)化、缺失值的處理、離散化處理等。通過對(duì)樣本的分析可以發(fā)現(xiàn)在近百個(gè)屬性中有許多屬性無論對(duì)于Y 或N 都是0(或基本上全是1),換句話說,某些屬性變量對(duì)于結(jié)果的預(yù)測(cè)是無用的,因此在測(cè)試時(shí)通過數(shù)據(jù)預(yù)處理可以去掉這些無用的屬性,可以明顯提高決策樹的構(gòu)建效率。測(cè)試中通過這樣的預(yù)處理,候選屬性只剩下20個(gè)左右。

        2. 模型構(gòu)建。構(gòu)建決策樹階段采用了第二節(jié)所介紹的決策樹構(gòu)建算法,另外,在本文測(cè)試中,最終的分類算法并不是依據(jù)一棵決策樹,而是有多棵(10棵)不同的決策樹同時(shí)對(duì)同一已知的測(cè)試集進(jìn)行分類。具體做法如下:(1)將11萬個(gè)號(hào)碼分成10組,每組為10萬個(gè)號(hào)碼,例如,第k組由第(k+0,k+1,k+2, k+3,…, k+99999)個(gè)號(hào)碼組成。(2)根據(jù)這10個(gè)組分別構(gòu)建了10棵決策樹預(yù)測(cè)模型,再將這10棵決策樹分別對(duì)待測(cè)樣本進(jìn)行分類預(yù)測(cè)。(3)只有當(dāng)這多棵決策樹對(duì)某個(gè)號(hào)碼的測(cè)試得到同樣的結(jié)果時(shí),才把其作為分類結(jié)果的最終判斷,由此分離出相對(duì)準(zhǔn)確的預(yù)測(cè)類型,否則需要對(duì)該樣本進(jìn)行再次分類。

        3.模型測(cè)試分析。本文測(cè)試的環(huán)境是基于Win2000操作系統(tǒng)的PC機(jī),CPU:Petiumn 4處理器,內(nèi)存768M,硬盤容量40G,測(cè)試軟件工具:Oracle8i數(shù)據(jù)庫、Clementine8.1、SPSS等數(shù)據(jù)挖掘軟件工具。

        本文測(cè)試中采用了10棵決策樹聯(lián)合分類方法和基于相異度的再次分類。10棵決策樹分別對(duì)11萬個(gè)樣本進(jìn)行測(cè)試,并根據(jù)不確定的號(hào)碼與已知分類進(jìn)行相似度匹配,而對(duì)于把這10 棵決策樹對(duì)相同的原訓(xùn)練集進(jìn)行分類,對(duì)于不一致結(jié)果采用服從多數(shù)的方法,正確率為85.41%(可能是由于過度匹配所造成的,很有可能造成模型適用度過小的現(xiàn)象)。把這10 棵決策樹同時(shí)對(duì)原訓(xùn)練集(11萬個(gè)樣例)進(jìn)行分類,對(duì)于不一致結(jié)果采用基于相異度的算法進(jìn)行再次分類方法,正確率為83.10%。若修改為只對(duì)占多數(shù)的樣例進(jìn)行再次分類的話,正確率為85.41%。

        三、分析和討論

        引入基于相異度的再次分類方法,主要目的是減小由于樣本數(shù)量差異所造成的決策偏差。由于在決策樹算法中,當(dāng)沒有新的屬性可用來劃分當(dāng)前的數(shù)據(jù)集時(shí),將把占多數(shù)的類型作為該葉節(jié)點(diǎn)的類型,這樣某一個(gè)樣例很多的類型可能會(huì)對(duì)決策樹產(chǎn)生誤導(dǎo),造成偏差。盡管正確率似乎有所下降,但這種現(xiàn)象主要是由于測(cè)試集與決策樹過于匹配造成的。在面對(duì)新的測(cè)試樣例時(shí),這種使用相異度算法的再次分類還是有必要的。

        結(jié)束語

        本文針對(duì)傳統(tǒng)的單一分類方法存在的不足,將組合分類算法成功地應(yīng)用于移動(dòng)通信客戶信息挖掘?qū)嵺`中,特別是采用決策樹分類及相異度測(cè)算相結(jié)合的方法對(duì)不確定事務(wù)進(jìn)行再次分類。測(cè)試結(jié)果表明,本文所提出的組合分類算法在移動(dòng)通信客戶信息挖掘領(lǐng)域是完全可行的,具有較好的實(shí)用價(jià)值。

        參考文獻(xiàn):

        [1] Jiawei Han ,Micheline Kamber. Data Mining: concepts and techniques [M], Morgan Kaufman, 2000.

        [2] Daniel Barbara. Using Self-Similarity to Cluster Large Data Sets [J]. Data Mining and Knowledge Discovery, 2003, 7:123~152

        [3] Dharmendra S. Modha, W. Scott Spangler. Feature Weighting. k-Means Clustering [J]. Machine Learning, 2003, 52:217~237

        手机色在线| 卡一卡二卡三无人区| 一个人在线观看免费视频www| 美女一级毛片免费观看97| 亚洲成人免费久久av| 国产在线一区二区三区四区| а天堂中文在线官网| 国产最新地址| 国产乱老熟视频乱老熟女1| 91九色成人蝌蚪首页| 视频女同久久久一区二区| 欧洲熟妇色xxxx欧美老妇软件| wwww亚洲熟妇久久久久| japanese无码中文字幕| 亚洲成人av一区二区麻豆蜜桃| 美丽小蜜桃1一3在线观看| 又粗又硬又大又爽免费视频播放| 日本黄页网站免费观看| 欧美视频九九一区二区| 97久久久一区二区少妇| 人妻少妇精品视频一区二区三区l| 亚洲精品无码高潮喷水a片软| 日本高清一区二区三区水蜜桃 | 久久久久亚洲AV片无码乐播| 99久久婷婷国产精品综合网站 | 蜜臀av999无码精品国产专区| 国自产偷精品不卡在线| 麻美由真中文字幕人妻| 国产不卡在线视频观看| 日本公与熄乱理在线播放| 国产亚洲欧美精品一区| 性感人妻一区二区三区| 偷拍一区二区三区四区| av无码国产在线看免费网站| 人妻无码人妻有码中文字幕| 中文字幕在线观看国产双飞高清| 久久精品国产亚洲av试看| 精品人妻大屁股白浆无码| 国产精品美女久久久浪潮av| 亚洲天堂中文字幕君一二三四| 天堂久久一区二区三区|