[摘要] 客戶分類是客戶關(guān)系管理(CRM)的重要內(nèi)容,粗糙集理論應(yīng)用于分類,可以將多個(gè)屬性綜合考慮提取規(guī)則,較之傳統(tǒng)的決策樹(shù)分類算法,通過(guò)粗集理論的屬性約簡(jiǎn),可以提取更全面的規(guī)則。
[關(guān)鍵詞] 客戶分類 粗糙集理論 決策樹(shù)分類算法 屬性約簡(jiǎn)
一、引言
客戶分類是客戶關(guān)系管理(CRM)的重要內(nèi)容之一,傳統(tǒng)的決策樹(shù)算法用于客戶分類,簡(jiǎn)單易懂,很容易導(dǎo)出確定性的規(guī)則,但是其只是孤立的考慮單個(gè)因素,現(xiàn)實(shí)中,常需要兩個(gè)或者三個(gè)因素綜合考慮,為克服以上缺點(diǎn),本文將粗糙集理論應(yīng)用于客戶分類,為決策者提供更全面的規(guī)則。
二、粗糙集理論的概述
粗糙集理論的分類基本思想是把知識(shí)看作分類,它的許多概念的詳細(xì)定義也可以參考其他文獻(xiàn),最基本的概念是等價(jià)關(guān)系,核心是等價(jià)關(guān)系確定屬性R的等價(jià)類是否全部包含或部分包含在決策屬性的等價(jià)類中。
定義1:給定知識(shí)表達(dá)系統(tǒng)S=(U, R, V, f ),對(duì)于每個(gè)子集XU和等價(jià)關(guān)系R,X的上近似集和下近似集分別可以由R的基本集定義如下:
R-(X)=∪{Yi|(Yi ∈ U|IND(R)) ∧Yi X};
R-(X)=∪{Yi|(Yi∈U|IND(R)∧Yi∩X≠Ф},
有,U|IND(R)={X|(X U∧ x y b(b(x)=b(y)))}是等價(jià)關(guān)系R對(duì)U的劃分, POSR(X)= R-(X)稱為X的R正域。
定義2:若QP是獨(dú)立的﹐并且IND(Q)=IND(P)﹐則稱Q是關(guān)系族集P的一個(gè)約簡(jiǎn)(reduct)。在族集P中所有不可省的關(guān)系的集合稱為P的核(core)﹐以CORE(P)來(lái)表示。
三、實(shí)例應(yīng)用
下表為某公司顧客購(gòu)買其主打產(chǎn)品的記錄:
U/IND(C)={{1},{2},{3},{4},{5},{6},{7},{8},{9},
{10},{11},{12},{13},{14}}
U/IND(D)={{1,2,6,8,14},{3,4,5,7,9,10,11,12,13}}
POSIND(C)(D)=U/IND(C)
U/IND(C-{age})={5,9,10,11,13}≠POSIND(C)(D)
可知,age是根據(jù)D劃分不可缺少的屬性。
同理,sex性別也是D-中不可缺少的,而student和income為可以缺省的,故有核屬性集,記為P={age,sex},故有:
U/P={{1,8,9},{2,11},{3,13},{4,5,10},{6,14},{7,12}}
P對(duì)于D在U上導(dǎo)出的劃分為:
{{1,2,8,9,11},{3,4,5,7,10,12,13},{6,14}}
根據(jù)屬性的取值,把上表中的記錄分成不同的子集,如下圖是用上面的粗糙集方法產(chǎn)生的決策樹(shù):
由上圖可以提取類似下面的規(guī)則:
規(guī)則1:年齡<30的學(xué)生,基本購(gòu)買此產(chǎn)品;
規(guī)則2:年齡為30、40或者大于40的女性購(gòu)買。
四、結(jié)論
由如上分析可知,運(yùn)用粗糙集理論進(jìn)行客戶分類,可以綜合考慮多個(gè)因素的情況,比考慮單個(gè)因素的決策樹(shù)算法,導(dǎo)出的規(guī)則更全面。
參考文獻(xiàn):
[1]Quinlan J R.Induction of Decision Tree[J].Machine Learning,1986,1(1);81-106
[2]王國(guó)胤:Rough集理論與知識(shí)獲取.西安交通大學(xué)出版社,2001