亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

決策樹技術(shù)在網(wǎng)上書店系統(tǒng)中的應(yīng)用

2008-12-31 00:00:00楊瓊

商場現(xiàn)代化 2008年25期

[摘要] 數(shù)據(jù)挖掘技術(shù)是在大量的數(shù)據(jù)中發(fā)現(xiàn)未知知識(shí)的數(shù)據(jù)分析技術(shù)，利用數(shù)據(jù)挖掘技術(shù)分析客戶數(shù)據(jù)，發(fā)現(xiàn)其中的規(guī)律，從而為商務(wù)決策提供依據(jù)。本文對決策樹技術(shù)進(jìn)行了相關(guān)分析，并應(yīng)用于網(wǎng)上書店系統(tǒng)，實(shí)現(xiàn)對客戶數(shù)據(jù)的挖掘。

[關(guān)鍵詞] ID3算法決策樹數(shù)據(jù)挖掘網(wǎng)上書店

目前，據(jù)《電腦商情報(bào)》通過最近的調(diào)查研究得出的結(jié)果顯示，截至去年6月，我國的網(wǎng)上書店數(shù)量已經(jīng)達(dá)到300家以上，比前年同期增長25.8%。同行之間的競爭日益激烈，特別是客戶是商家爭奪的焦點(diǎn)。

網(wǎng)上書店的業(yè)務(wù)系統(tǒng)每天都要產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù)，這些業(yè)務(wù)數(shù)據(jù)記錄了各類客戶在網(wǎng)上書店相關(guān)業(yè)務(wù)的信息和客戶的基本信息，這些數(shù)據(jù)用數(shù)據(jù)庫保存起來。在競爭日益激烈的知識(shí)經(jīng)濟(jì)環(huán)境下，數(shù)據(jù)庫不再只是用于查詢、輸出報(bào)表等一般的用途，還要在眾多的數(shù)據(jù)中挖掘出有用的知識(shí)以便作為決策支持。這些數(shù)據(jù)中的一部分是需要經(jīng)過一番分析形成知識(shí)后才能被決策所利用。數(shù)據(jù)挖掘技術(shù)在網(wǎng)上購書系統(tǒng)中起著重要作用，使用數(shù)據(jù)挖掘技術(shù)進(jìn)行訂單數(shù)據(jù)的挖掘，通過決策樹技術(shù)得到客戶進(jìn)行分析，發(fā)現(xiàn)客戶所處的生命周期，針對處于不同客戶生命周期的客戶，采取個(gè)性化的策略，實(shí)現(xiàn)向其推薦書籍和客戶保持，提高客戶滿意度，進(jìn)而建立忠誠度。從而實(shí)現(xiàn)客戶的保持，防止客戶流失。

一、決策樹技術(shù)基本概述

決策樹基本思想是：選取一個(gè)最能區(qū)分不同類別樣本的屬性，讓其作為樹根，并把訓(xùn)練樣本集分為相應(yīng)的幾塊，接下來再依次在每一塊樣本集中選出區(qū)分度最大的屬性，作為樹的第二層結(jié)點(diǎn)。依此類推，直到所有的葉結(jié)點(diǎn)都只包含一類樣本時(shí)終止，這樣構(gòu)建起來的一棵樹就稱作決策樹。然后進(jìn)行驗(yàn)證，就可得出結(jié)果。因此在分析客戶流失情況時(shí)，將己有的客戶信息的統(tǒng)計(jì)作為基礎(chǔ)數(shù)據(jù)，選擇好的屬性，構(gòu)造決策樹，決策樹技術(shù)可以清晰的顯示哪些字段比較重要，對挽留客戶指明了方向。

決策樹是應(yīng)用非常廣泛的分類方法，目前有多種決策樹方法，如ID3、CN2、SLIQ、SPRINT等。

二、ID3算法及其在網(wǎng)上書店中的應(yīng)用

ID3算法是Quinlan提出的一個(gè)著名決策樹生成方法。它的基本概念是決策樹中每一個(gè)非結(jié)點(diǎn)對應(yīng)著一個(gè)非類別屬性，樹枝代表這個(gè)屬性的值。一個(gè)葉結(jié)點(diǎn)代表從樹根到葉結(jié)點(diǎn)之間的路徑對應(yīng)的記錄所屬的類別屬性值。每一個(gè)非葉結(jié)點(diǎn)都將與屬性中具有最大信息量的非類別屬性相關(guān)聯(lián)。采用信息增益來選擇能夠最好地將樣本分類的屬性。

ID3選擇具有最高信息增益的屬性作為當(dāng)前結(jié)點(diǎn)的測試屬性。該屬性使得對結(jié)果劃分中的樣本分類所需的信息量最小，并反映劃分的最小隨機(jī)性或“不純性”。這種信息理論方法使得對一個(gè)對象分類所需的期望測試數(shù)目達(dá)到最小，并盡量確保找到一棵簡單的樹來刻畫相關(guān)的信息。

設(shè)S是s個(gè)數(shù)據(jù)樣本的集合，假定類標(biāo)號(hào)屬性具有m個(gè)不同值，定義m個(gè)不同類Ci（i =1，2，…，m）設(shè)si是Ci類中的樣本數(shù)，對一個(gè)給定的樣本分類所需的期望信息由下式給出：

其中，Pi是任意樣本屬于Ci的概率，并用si/s估計(jì)。

設(shè)屬性A具有v個(gè)不同值{a1，a2，…，av｝，可以用屬性A將S劃分為v個(gè)子｛Si，…，Sv｝，其中，Sj包含 S中這樣一些樣本，它們對應(yīng)的屬性A的值為aj。如果A選作測試屬性（即最好的劃分屬性），則這些子集對應(yīng)于由包含集合S的結(jié)點(diǎn)生長出來的分支。設(shè)sij是子集Sj中類Ci的樣本數(shù)。根據(jù)A劃分的子集的嫡或期望信息由下式給出：

充當(dāng)?shù)趈個(gè)子集的權(quán)，并且等于子集(即A值為ai)中的樣本個(gè)數(shù)除以S中的樣本總數(shù)。

這次分類之后，還需要的分類信息量為：

Pij是Sj中的樣本屬于類Ci的概率。

對描述屬性的元素計(jì)算信息增益值：

選擇最高信息增益的創(chuàng)建一個(gè)結(jié)點(diǎn)，并以該屬性標(biāo)記，對該屬性的每個(gè)值創(chuàng)建一個(gè)分支，并據(jù)此進(jìn)行劃分。

網(wǎng)上書店分析客戶流失情況，決策樹技術(shù)中的是解決這一問題的有效途徑。ID3算法是一個(gè)著名決策樹生成方法。具體的過程如下：

1.構(gòu)造訓(xùn)練集

根據(jù)各種渠道收集的用戶信息以及日志文件創(chuàng)建了網(wǎng)上書店的數(shù)據(jù)倉庫，從中提取客戶活動(dòng)信息。如下表:

表訓(xùn)練集

2.信息增益計(jì)算

將決策樹的算法應(yīng)用在客戶保持中，生成決策樹算法的執(zhí)行過程描述如下：

計(jì)算IfLost的期望信息：

類標(biāo)號(hào)屬性IfLost有兩個(gè)不同值｛yes，no｝，因此有兩個(gè)不同的類（ｍ＝2）。設(shè)類C1對應(yīng)于yes，而C2對應(yīng)于no，類yes有6個(gè)樣本，類no有4個(gè)樣本。

根據(jù)公式，可得給定樣本分類所需的期望信息：

計(jì)算每個(gè)屬性的期望信息。從屬性業(yè)務(wù)種類（Online-time）開始，觀察Online-time的每個(gè)樣本的yes和no分布，可算出Online-time的期望信息：

對于Online_time＝“＜3小時(shí)”s11=2，s21=2

Online_time＝“≥3小時(shí)”s12=4，s22=2

根據(jù)公式(5-4），樣本按Online-time劃分，對一個(gè)給定的樣本計(jì)算Online-time的期望信息為:

同理，計(jì)算出屬性ContracType、IfInsales、Proression的期望信息。

因此，根據(jù)公式，計(jì)算出Online-time的信息增益是：

同理得到ContractType、IfInsales、Profession的信息增益：

Gain(ContractType)=0.44635

Gain(IfInsales)=0.12452

Gain(Profession)=0.13530

根據(jù)計(jì)算出的信息增益，對應(yīng)最高信息增益的結(jié)點(diǎn)作為分枝結(jié)點(diǎn)，分枝結(jié)點(diǎn)ContractType在屬性中具有最高信息增益，選作測試屬性，創(chuàng)建一個(gè)屬性，用ContractType作標(biāo)志，并對于每個(gè)屬性值，引出一個(gè)分支，樣本據(jù)此劃分，初始分枝點(diǎn)如圖1所示。

圖1 是否參加過促銷活動(dòng)的分支

重復(fù)上述過程，直到樹不再生長。再對以上的兩個(gè)分支作為初始分裂點(diǎn)分別計(jì)算每個(gè)屬性的信息增益，選出測試屬性，創(chuàng)建結(jié)點(diǎn)繼續(xù)樹的生長，算法最終返回的決策樹如下圖2所示。

圖2 最后生成的決策樹

從上面對決策樹分析，結(jié)果表明：合同類型是決策樹分枝的最重要因素，其次為從事職業(yè)、在線時(shí)長、促銷活動(dòng)等。結(jié)果表明：

易流失客戶為：與本網(wǎng)上書店未簽訂合同，每日上網(wǎng)時(shí)間長＜3小時(shí)的普通客戶；與本網(wǎng)上書店簽訂團(tuán)體合同，行政機(jī)關(guān)；與本網(wǎng)上書店未簽訂合同，從事行政工作的公務(wù)員。

非流失客戶為：與本網(wǎng)上書店簽訂個(gè)人合同，從事教育工作的教育工作者；與本網(wǎng)上書店簽訂團(tuán)體合同，從事教育事業(yè)的教育機(jī)構(gòu)；與本網(wǎng)上書店未簽訂合同，每日上網(wǎng)時(shí)間長≥3小時(shí)的普通客戶；與本網(wǎng)上書店簽訂個(gè)人合同，從事行政工作的公務(wù)員。這些客戶是本網(wǎng)站的注冊者、?？汀⒅覍?shí)客戶。

三、決策樹技術(shù)在網(wǎng)上書店中的應(yīng)用

挖掘的目的是為了應(yīng)用。因此，利用能夠?qū)崿F(xiàn)分類回歸樹的算法的數(shù)據(jù)挖掘工具，可以精確獲得預(yù)測流失率，建立流失預(yù)測模型，分析客戶流失傾向，即可在客戶流失之前做出預(yù)警可能性的大小。業(yè)務(wù)人員也可以根據(jù)每個(gè)客戶的流失可能性對客戶從高到低排序，找出流失傾向較高的群體，并結(jié)合這些客戶對應(yīng)的分群特征，采取相應(yīng)的客戶挽留策略，以進(jìn)行更加精細(xì)的客戶保有工作，提高客戶挽留的成功率。

四、結(jié)束語

利用決策樹技術(shù)可以挖掘大量的客戶信息為構(gòu)建預(yù)測模型，較準(zhǔn)確地找出符合離開因素的客戶，制定相應(yīng)的方案。最大程度挽留他們。本文對決策樹技術(shù)的基本思想和決策樹生成方法ID3算法進(jìn)行了詳細(xì)的分析，討論了網(wǎng)上書店系統(tǒng)業(yè)務(wù)信息的挖掘。本文中許多方法和思路在比如超市其他方面有一定的借鑒意義。

參考文獻(xiàn)：

[1]范云峰:客戶開發(fā)營銷[M].北京:中國對處經(jīng)濟(jì)貿(mào)易出版社，2003.7

[2]毛國君段立娟:數(shù)據(jù)挖掘原理與算法[M].清華大學(xué)出版社，2005.7

[3]蘇新寧楊建林:數(shù)據(jù)倉庫和數(shù)據(jù)挖掘[M].清華大學(xué)出版社，2006.4

[4]中國人民大學(xué)統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘中心：數(shù)據(jù)挖掘中的決策樹技術(shù)入其應(yīng)用[J].統(tǒng)計(jì)與信息論壇.2002.3

[5]費(fèi)賢舉王文琴莊燕濱:基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用研究[J].常州工學(xué)院學(xué)報(bào).2005.4

[6]徐緒松：數(shù)據(jù)結(jié)構(gòu)與算法導(dǎo)論[M].北京：電子工業(yè)出版社，1996

商場現(xiàn)代化2008年25期

商場現(xiàn)代化的其它文章: 圖正常著色的最大方法數(shù); 立足學(xué)科結(jié)構(gòu) 優(yōu)化專業(yè)布局; 翻譯標(biāo)準(zhǔn)與文化傳播; 金融生態(tài)的系統(tǒng)再構(gòu)與生態(tài)功能; 數(shù)學(xué)在現(xiàn)代經(jīng)濟(jì)學(xué)中的作用; 商貿(mào)類專業(yè)實(shí)驗(yàn)實(shí)訓(xùn)體系建設(shè)研究與實(shí)踐