[摘要] 本文重點(diǎn)討論了在CRM中應(yīng)用關(guān)聯(lián)規(guī)則挖掘技術(shù)進(jìn)行房地產(chǎn)業(yè)客戶意向分析的問題。對調(diào)查數(shù)據(jù)進(jìn)行了挖掘得出了較多有價(jià)值的模型和規(guī)則,并比較客觀地反映了城市居民對住房的需求情況。
[關(guān)鍵詞] 數(shù)據(jù)挖掘客戶關(guān)系管理(CRM)關(guān)聯(lián)規(guī)則[摘要] 本文重點(diǎn)討論了在CRM中應(yīng)用關(guān)聯(lián)規(guī)則挖掘技術(shù)進(jìn)行房地產(chǎn)業(yè)客戶意向分析的問題。對調(diào)查數(shù)據(jù)進(jìn)行了挖掘得出了較多有價(jià)值的模型和規(guī)則,并比較客觀地反映了城市居民對住房的需求情況。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 客戶關(guān)系管理(CRM) 關(guān)聯(lián)規(guī)則
一、引言
消費(fèi)者已經(jīng)進(jìn)入了“以客戶為中心”時(shí)代,各方面的需求都進(jìn)入了個(gè)性化、定制的階段,這也正是目前房地產(chǎn)行業(yè)客戶關(guān)系管理(Customer Relationship Management , CRM)系統(tǒng)應(yīng)用與現(xiàn)實(shí)的矛盾所在。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,能夠幫助企業(yè)從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的CRM數(shù)據(jù)中提取潛在有用的信息和知識(shí),來解決這些問題。
二、關(guān)聯(lián)規(guī)則挖掘技術(shù)
關(guān)聯(lián)規(guī)則挖掘(Association Rules Mining)是數(shù)據(jù)挖掘技術(shù)中的一個(gè)重要研究方向,它是由Agrawa1,Imielinski和swami于1993年首先提出的。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的眾多知識(shí)類型中最為典型的一種。
關(guān)聯(lián)規(guī)則挖掘的算法有多種, 最經(jīng)典的是Apriori 算法, 許多關(guān)聯(lián)規(guī)則挖掘算法都是基于該算法。因此, 這里用Apriori 算法開采頻集, 并由頻集產(chǎn)生相應(yīng)的關(guān)聯(lián)規(guī)則。具體做法詳見文獻(xiàn)。下面給出發(fā)現(xiàn)頻繁項(xiàng)集的Apriori算法的偽代碼描述。
Input: A dataset D,with min_sup
output: The frequent itemsets of D
Method:
(1)L1=frequent1-itemsets Li(D);
(2)for (k=2:Lk-1≠Φ;k++)
(3)begin
(4)Ck=apriori_gen(Lk-1,min_sup);
(5)for each transactions t∈D
(6)output Ct=subset(Ck,t);
(7)for each candidates C∈Ct
(8)c.count++;
(9)end
(10)Lk={c∈ck|c.count>=min_sup};
(11)end
(12)return L;
上面的代碼清晰的描述了Apirori算法.
三、關(guān)聯(lián)規(guī)則挖掘技術(shù)在房地產(chǎn)客戶關(guān)系管理系統(tǒng)中的應(yīng)用
下面是一個(gè)基于房地產(chǎn)客戶分類的關(guān)聯(lián)分析,如某小區(qū)購置不動(dòng)產(chǎn)隨機(jī)數(shù)據(jù)產(chǎn)生頻繁項(xiàng)目集的過程:
用項(xiàng)目集在數(shù)據(jù)中出現(xiàn)的次數(shù)來作為支持度,設(shè)min_sup=3,從圖中看出,C3到L3的產(chǎn)生過程,引入修剪后候選集的規(guī)模比原來減小了。
根據(jù)交易數(shù)據(jù),產(chǎn)生頻繁項(xiàng)目集過程:
數(shù)據(jù)說明:I1表示:”購買多層戶型”; I2表示:”購買小高層戶型” ;I3表示:”購買高層戶型”; I4表示:”租賃車位”; I5表示:”購買車位”;例如T1表示:”購買多層戶型”,“租賃車位”。
這關(guān)聯(lián)規(guī)則是否可信,則要根據(jù)規(guī)則的支持度(support)和置信度(confidence)做出量化判斷。由支持度的計(jì)算公式和置信度的計(jì)算公式:
經(jīng)過挖掘發(fā)現(xiàn)一些有價(jià)值的關(guān)聯(lián)規(guī)則:
可見, 表中列出的關(guān)聯(lián)規(guī)則均具有較高的支持率和可信度。然而, 為了更加準(zhǔn)確地挖掘出有意義的關(guān)聯(lián)規(guī)則, 還可以進(jìn)行更深一步地挖掘即對挖掘出的關(guān)聯(lián)規(guī)則更換因果關(guān)系, 形成新的關(guān)聯(lián)規(guī)則。
四、結(jié)束語
房地產(chǎn)行業(yè)是一個(gè)數(shù)據(jù)量大、關(guān)聯(lián)性強(qiáng)、影響因素多的復(fù)雜非線性系統(tǒng)。數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)行業(yè)的應(yīng)用是一個(gè)年輕且充滿希望的研究領(lǐng)域,人們對它的研究正日益廣泛和深入。解決好這些問題,對于政府部門合理分析產(chǎn)業(yè)發(fā)展,制定產(chǎn)業(yè)政策及開發(fā)企業(yè)和個(gè)人正確判斷房地產(chǎn)市場形勢、做出投資或購房決策具有重要意義。
參考文獻(xiàn):
[1]張蓉:數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)客戶關(guān)系管理系統(tǒng)中的應(yīng)用.現(xiàn)代情報(bào),2006.6
[2]Pang-Ning Tan Michael Steinbach Vipin Kumar,Introduction to Data Mining,Post Telecom Press ,2006.5
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。