楊 瓊 唐振平* 陳建華 蔣建軍 韋海峰
(1.南華大學(xué) 經(jīng)濟(jì)管理學(xué)院管理科學(xué)與工程系;2.南華大學(xué) 經(jīng)濟(jì)管理學(xué)院信息管理與信息系統(tǒng)系,湖南 衡陽 421001)
客戶消費(fèi)行為預(yù)測是每個企業(yè)都急需解決的一個難題,因?yàn)榭蛻粼谫徺I產(chǎn)品時具有多選擇性,客戶的選擇對企業(yè)的生存與發(fā)展會產(chǎn)生嚴(yán)重影響。就目前研究情況來看,對客戶消費(fèi)分析的大部分成果體現(xiàn)在客戶劃分及客戶價值方面的研究,或僅僅利用歷史數(shù)據(jù)進(jìn)行常規(guī)統(tǒng)計,得到的結(jié)果比較膚淺,無法為企業(yè)決策人員提供幫助。當(dāng)前,客戶消費(fèi)已呈現(xiàn)多樣化,客戶消費(fèi)數(shù)據(jù)庫不斷增大,消費(fèi)特征發(fā)生了根本性變化,基于這種狀況,本文針對客戶消費(fèi)行為預(yù)測提出了模糊樸素貝葉斯方法。
本部分主要使用的變量說明:(1) c:語言變量中的語義值個數(shù); (2) vc,im:
定義于屬性m 中,c 個變量語義值中的第i 個語義值,1<= im<=c;(3)a:屬性值個數(shù),a>=1。
已有研究提出不同的模糊語義值能用于模式識別及模糊推理[1],因此該方法得到了不同的應(yīng)用,例如,模式分類[2][3][4],模糊規(guī)則[5],空間特征分離應(yīng)用[6][7]等。在這部分研究中,我們把每個屬性看成一個語義變量,該語義變量又分成不同的語義值。一個語義變量的值為自然語言中的語言單詞或句子[8][9][10][11]。
貝葉斯網(wǎng)絡(luò)[12]又稱作置信網(wǎng)絡(luò),是一種基于概率推理的圖形化表達(dá)方式,主要以圖形化的方式描述變量或事件之間的概率關(guān)系或因果關(guān)系。貝葉斯網(wǎng)絡(luò)廣泛應(yīng)用于許多領(lǐng)域,如:故障診斷[13],評價系統(tǒng)可靠性[14]15],可靠性模型[16][17],人工智能[18][19]等等。一般來說,屬性值有定量的和定性的,為此,下面分兩個部分進(jìn)行論述。
定量屬性能分成c 個不同語義值,例如,屬性“年齡”,其范圍可以為:[0,60]。
我們可以假設(shè)分三種情況,即:c=2,c=3,c=4,為方便描述,下面分別用三個圖形來表示:
圖1 .對于年齡屬性(0到60)當(dāng)c=2時的圖形描述
圖2 .對于年齡屬性(0到60)當(dāng)c=3時的圖形描述
圖3 . 對于年齡屬性(0到60)當(dāng)c=4時的圖形描述
上述圖中的屬性模糊表示方法,如:V2,1age,V2,2age,……V4,4age可看成模糊格1-項(xiàng)集。對于多維模糊格通過類似的方法能夠進(jìn)行描述,例如,如果我們要把年齡(age),用 x1 表示,和薪水(salary)用x2 表示,這兩個屬性分成三個語義值,那么一個特征空間被分成3*3 的2 維模糊格。如果要表示年齡及薪水這兩個屬性的任意2 維模糊格,可以這樣描述:V3,1age*V3,2salary。
定性屬性的可能取值是有限的,且值之間沒有順序關(guān)系。如果不同的屬性值為n′(n′是有限的),那么這個屬性只能被n′個語義值進(jìn)行劃分。例如,每個語義值的語義句子在定義“sex”時可以這樣描述:
及
每個語義值可看成是模糊格1-項(xiàng)集,多維模糊格項(xiàng)集表示方法在定量屬性的模糊格表示方法中已經(jīng)講述。
在很多應(yīng)用方面,類變量與屬性之間的關(guān)系很難確定,也就是說,雖然被測試的記錄屬性與有些訓(xùn)練樣本相同,但即便這樣也無法保證能完全正確地預(yù)測其類標(biāo)號。這一部分主要講述客戶屬性集與客戶類變量的概率關(guān)系推理方法,是一種把類的先驗(yàn)知識與客戶屬性之間相結(jié)合的條件概率方法,主要是通過樸素貝葉斯方法實(shí)現(xiàn)。
假設(shè)類標(biāo)號為y,樸素貝葉斯一般在估計類的條件概率時認(rèn)為屬性之間是獨(dú)立的。這種獨(dú)立性可用下面的方式進(jìn)行表達(dá):
現(xiàn)設(shè),X,Y,Z 表示三個隨機(jī)變量集合,又設(shè),Z,X 條件獨(dú)立于Y,則有下式成立:
X 與Y 之間的條件獨(dú)立性也可用下式表示:
如果條件獨(dú)立假設(shè)成立,就不必計算v 中每一個組合的類條件概率,只要對已知的y,計算每一個vc,k的條件概率。這種方法比較實(shí)用,因?yàn)樵摲椒ú恍枰嬎爿^大的訓(xùn)練數(shù)據(jù)就能得到比較好的概率估計。
在分類測試記錄時,樸素貝葉斯分類器對每個類y 計算后驗(yàn)概率的表達(dá)式為:
如果有一個屬性的類條件概率為零,則該類的后驗(yàn)概率也為零,而該類在實(shí)際情況下是存在的,這樣用類條件概率方法計算顯得有些單薄了。這種情況的簡單描述為:當(dāng)訓(xùn)練集不能覆蓋較多的屬性值時,我們就無法得到某些分類預(yù)測記錄,也就是說,樸素貝葉斯方法無法實(shí)現(xiàn)該分類記錄。解決這一問題的方法就是使用m 估計來估計條件概率的計算,如下:
n 是yi類中的實(shí)例個數(shù), nr是類yi中訓(xùn)練樣本取值為vc,aattribute_value的樣本數(shù)量,m 為等價樣本參數(shù),p 是用戶指定的參數(shù)。
下面是客戶是否購買某個物品的數(shù)據(jù)表,該表為問卷調(diào)查得到,為計算方便,這里只列出10 個事務(wù)進(jìn)行分析,如表1
表1. 客戶消費(fèi)數(shù)據(jù)表
設(shè):有屬性記錄,x={婚姻情況=單身,有房=否,月收入<8k}
求:滿足該條件的顧客是否購車的情況,即:求,p(是否買車=否|x)及p(是否買車=是|x)?
根據(jù)前面講述的知識,計算步驟如下:
(1)事務(wù)中客戶屬性的表示方法
由定量,定性屬性的模糊格表示方法有:
① 婚姻狀況屬性表示為:vmarry3,1.yes, vmarry3,2.no, vmarry3,3.divorce
② 有房屬性表示為:vhouse2,1.yes, vhouse2,2.no
③ 年齡屬性:年齡范圍定義為四個階段,20<=age<30; 30<=age<40;40<=age<50; 50<=age<=60。因此,其表示為:vage4,1,vage4,2,vage4,3,vage4,4
④ 月均收入:范圍定義為以下幾個階段,4k<=salary<8k; 8k<= salary <12k;12k<= salary <16k; 16k<= salary <=20k。因此,其表示為:vsalary4,1,vsalary4,2,vsalary4,3,vsalary4,4
⑤ 是否有車表示為:vcar2,1.yes, vcar2,2.no
(2) 先驗(yàn)概率的計算
(3)條件概率的m估計
從上面的計算式可以看出,P(vmarry3,2.no | vcar2,1.yes),P(vmarry3,3. divorce | vcar2,2.no),P(vhouse2,2.no | vcar2,1.yes) 及P(vsalary4,1|vcar2,1.yes)的值均為0,這時我們需要根據(jù)(7)對這些條件概率進(jìn)行m估計。
對于P(vmarry3,2.no | vcar2,1.yes),n=3, nc=0,假設(shè)m=3,p=1/3,因此根據(jù)(7)有:
對于P(vmarry3,3. divorce | vcar2,2.no),n=7, nc=0,假設(shè)m=3,p=1/3,因此根據(jù)(7)有:
同理:
對于P(vhouse2,2.no | vcar2,1.yes),n=3 nc=0,假設(shè)m=3,p=1/3,有:
對于P(vsalary4,1| vcar2,1.yes),n=3 nc=0,假設(shè)m=4,p=1/4,有:
(4) 計算:p(是否買車=否|x)及p(是否買車=是|x)
根據(jù)(6)及(5)的計算方法,式(8)變?yōu)椋?/p>
原式為:p(是否買車=是|x)=p(vcar2,1.yes|x)的計算結(jié)果為:
上述結(jié)果可以看出,在滿足條件x={婚姻情況=單身,有房=否,月收入<8k}的前提下,顧客不買車的可能性為:80/147;顧客買車的概率為:1/252。
本文針對客戶消費(fèi)行為特點(diǎn),利用模糊方法對客戶屬性進(jìn)行描述,分別提出了客戶屬性的連續(xù)及離散表示方法,并以此為前提,對客戶消費(fèi)行為建立了一種樸素貝葉斯推理方法,對推理過程產(chǎn)生的誤差使用條件概率的m 估計方法來彌補(bǔ),為企業(yè)分析客戶消費(fèi)行為提供了計算依據(jù)。另一方面,該方法也存在不足,一是:在計算過程中,一般認(rèn)為客戶消費(fèi)因子相互獨(dú)立,而實(shí)際情況中,有少量因子并非是獨(dú)立的;二是:m 估計中參數(shù)p 很難確定,往往存在偏差,這將是今后繼續(xù)努力的方面。
[1]L.A Zadeh,Fuzzy sets[J].Information Control,1965,8(3):338–353.
[2]T.Zhang,R.Ramakrishnan,M.Livny.BIRCH: an efficient data clustering method for very large databases[C].Proceedings of the ACM SIGMOD International Conference on Management of Data,June,1996,103–114.
[3]H Ishibuchi, K Nozaki, N Yamamoto and H Tanaka.Selecting fuzzy if–then rules for classification problems using genetic algorithms[J].IEEE Transactions on Fuzzy Systems,1995,3(3):260–270.
[4]H Ishibuchi, K Nozaki and H Tanaka. Distributed representation of fuzzy rules and its application to pattern classification[J].Fuzzy Sets and Systems,1992,52(1):21–32.
[5]L.X Wang and J.M Mendel, Generating fuzzy rules by learning from examples[J]. IEEE Transactions on Systems, Man, and Cybernetics,1992,22(6):1414–1427.
[6]C.T Sun,Rule-base structure identification in an adaptive-network-based fuzzy inference system[J].IEEE Transactions on Fuzzy Systems,1994,2(1):64–73.
[7]J.C Bezdek, Pattern Recognition with Fuzzy Objective Function Algorithms[M].Plenum Press,New York,1981.
[8]L.A Zadeh.The concept of a linguistic variable and its application to approximate reasoning[J].Information Science (Part 1),1975,8(3):199–249.
[9]L.A Zadeh.The concept of a linguistic variable and its application to approximate reasoning[J].Information Science (Part 2),1975,8(4):301–357.
[10]L.A Zadeh.The concept of a linguistic variable and its application to approximate reasoning[J].Information Science (Part 3),1976,9(1):43–80.
[11]S.M Chen and W.T Jong, Fuzzy query translation for relational database systems[J].IEEE Transactions on Systems, Man, and Cybernetics,1997,27(4):714–721.
[12]代余彪,任雪利.基于貝葉斯網(wǎng)絡(luò)的關(guān)鍵鏈技術(shù)研究[J].計算機(jī)應(yīng)用與軟件,2009,26(10):127-129.
[13]Ferat Sahin,M.Cetin Yavuz,Ziya Arnavut,Onder Uluyol.Fault diagnosis for airplane engines using Bayesian networks and distributed particle swarm optimization[J].Patallel computing,2007,(33):124-143.
[14]Ozge Doguc,Jose Emmanuel Ramirez-Marquez.A generic method for estimating system reliability using Bayesian networks[J].Reliability Engineering and System Safety,2009,(94):542-550
[15]Sankaran Mahadevan,Ruoxue Zhang,Natasha Smith.Bayesian networks for system reliability reassessment[J].Structural Safety,2001,(23):231-251
[16]Philippe Weber,Lionel Jouffe.Complex system reliability modelling with Dynamic Object Oriented Bayesian Networks[J].Reliability Engineering and System Safety,2006,(91):149-162
[17]M.A.Barrientos,J.E.Vargas.A Framework for the analysis of dynamic processes based on Bayesian networks and case-based reasonging[J].Expert Systems with Applications,1998,(15):287-294
[18]Vincent Labatut,Josette Pastor,Serge Ruff,Jean-Francois Demonet,Pierre Celsis.Cerebral modeling and dynamic Bayesian networks[J].Artificial Intelligence in Medicine,2004,(30):119-139
[19]Jean-Paul Chevrolat,Jean-Louis Golmard,Salomon Ammar,Roland Jouvent,Jean-Francois Boisvieux[J].Modelling Behavioral syndromes using Bayesian networks.Artificial Intelligence in Medicine.1998,(14):259-277.