[摘 要] 以決策樹算法為例,從算法和實(shí)例兩方面介紹了數(shù)據(jù)挖掘技術(shù)在連鎖經(jīng)營領(lǐng)域的應(yīng)用,展示了數(shù)據(jù)挖掘技術(shù)在提高連鎖超市決策水平、提升核心競爭力方面的重大價(jià)值。
[關(guān)鍵詞] 連鎖超市 數(shù)據(jù)挖掘 決策樹 ID3
近年來,國內(nèi)大型連鎖超市都建立起以進(jìn)銷存系統(tǒng)為核心的信息系統(tǒng),積累了海量經(jīng)營數(shù)據(jù),但其中蘊(yùn)含的商業(yè)規(guī)律卻很少得到開發(fā)和利用。將這些寶貴的資料轉(zhuǎn)化為決策信息,需要借助于數(shù)據(jù)挖掘技術(shù)。
一、有關(guān)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律的過程。常用的挖掘算法有決策樹、樸素貝葉斯等。決策樹算法具有理解方便等優(yōu)點(diǎn),Quinlan提出的ID3算法是最具影響力的決策樹算法。本文以ID3為例,介紹數(shù)據(jù)挖掘技術(shù)在連鎖超市的應(yīng)用。
1.ID3算法思想
設(shè):每個(gè)樣本由多個(gè)訓(xùn)練屬性AK(K=1,2,…,k)和一個(gè)預(yù)測屬性組成,N個(gè)樣本按照預(yù)測屬性取值Ci(i=1,2,…,c)的不同,劃分成c個(gè)不同的樣本集合,類別Ci中的樣本個(gè)數(shù)為Ni。決策樹的構(gòu)造過程為:
(1)決策樹的初始信息量為:。
(2)選擇一個(gè)訓(xùn)練屬性作為分類節(jié)點(diǎn):①設(shè)每個(gè)訓(xùn)練屬性AK(K=1,2,…,k)有JK個(gè)不同的取值akj,按akj將N個(gè)樣本分為JK個(gè)樣本集。設(shè)akj樣本集的樣本數(shù)為nkj;②對于每個(gè)分支的nkj個(gè)樣本,屬于類別Ci的樣本數(shù)目是nkji,則以訓(xùn)練屬性AK為根的期望熵為:;③計(jì)算由訓(xùn)練屬性AK引起的信息增益,即Gain(AK)=I(C1,C2,…,Cc)-E(I,AK);④選擇產(chǎn)生最大信息增益的訓(xùn)練屬性Ak0作為決策樹的根,即Ak0滿足Gain(k0) >Gain(k) (k=1,2,…,K;且k≠k0);
(3)按訓(xùn)練屬性Ak0將樣本分成Jk0個(gè)樣本集。對每個(gè)葉節(jié)點(diǎn)上的樣本子集依次利用上面的方法,選擇一個(gè)訓(xùn)練屬性作為該葉節(jié)點(diǎn)的下一級節(jié)點(diǎn)。
(4)按照上述步驟不斷構(gòu)造決策樹,直至各樣本子集只有一個(gè)類別。
2.ID3算法應(yīng)用分析。下表是某超市所作的關(guān)于客戶購買某商品意向的調(diào)查報(bào)告,下面以“年齡”、“性別”、“經(jīng)濟(jì)狀況”為訓(xùn)練屬性、“是否購買”為預(yù)測屬性,構(gòu)造一棵決策樹,揭示年齡、性別、經(jīng)濟(jì)狀況等因素對購買行為的影響。
在16個(gè)樣本中,只有4個(gè)樣本計(jì)劃購買該商品,則根分支的初始信息量為:
如按“年齡”屬性分類,6位小于35歲的樣本中有1位計(jì)劃購買,10位大于35歲的樣本中有3位計(jì)劃購買,故按“年齡”分類的期望熵為:
同理,可得E(性別)=0.7142、
E(經(jīng)濟(jì)狀況)= 0.7937。
由“年齡”屬性引起的信息增益為:Gain(年齡)=I(4,12)-E(年齡)= 0.0167;
同理,可得Gain(性別)= 0.0971、
Gain(經(jīng)濟(jì)狀況)=0.0176。
Gain(性別)最大,故根節(jié)點(diǎn)按“性別”屬性分類。按照上述算法繼續(xù)分類,得到圖1所示決策樹。
二、數(shù)據(jù)挖掘?qū)嵗?/p>
下面采用微軟的Analysis Services平臺,分析連鎖超市Foodmart的經(jīng)營數(shù)據(jù),考察“性別”、“婚姻狀況”、“年收入”等訓(xùn)練屬性與預(yù)測屬性“會員卡類型”之間的關(guān)系,得到圖2所示的決策樹。
根據(jù)圖2,第一層分支以“年收入”為分類標(biāo)準(zhǔn),說明年收入是決定客戶辦理何種會員卡的首要因素。年收入最高(150K以上)的分支顏色最深,說明此類客戶辦金卡的概率最高。
根據(jù)圖3,在年收入達(dá)150K的客戶分支上,分類標(biāo)準(zhǔn)為“婚姻狀況”,表明婚姻狀況是決定該分支客戶是否辦金卡的首要因素,即已婚客戶辦金卡的概率遠(yuǎn)大于單身客戶。
三、結(jié)束語
上例揭示的規(guī)律對連鎖超市提高廣告的針對性、開發(fā)優(yōu)質(zhì)客戶具有重要意義。目前,數(shù)據(jù)挖掘技術(shù)還被國際連鎖巨頭廣泛用于防止客戶流失、商品擺放布局等方面的決策。國內(nèi)連鎖超市經(jīng)營企業(yè)應(yīng)該重視數(shù)據(jù)挖掘技術(shù)的應(yīng)用,以提高決策的科學(xué)性,在激烈的競爭中求得生存和發(fā)展。
參考文獻(xiàn):
[1]Quinlan J R.Induction of decision trees[J].Machine Learning,1986,(1):81~106
[2]沈兆陽:SQL Server 2000 OLAP解決方案——數(shù)據(jù)倉庫與Analysis Services[M].北京:清華大學(xué)出版社,2001.9:8~9,13~14,87,104~10