王 松 黃青松 葉曉波
(1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南 昆明 650093;2.楚雄師范學(xué)院計算機信息管理中心,云南 楚雄 675000)
SSAS聚類分析算法在顧客分組分析中的應(yīng)用*
王 松1,2黃青松1葉曉波2
(1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南 昆明 650093;2.楚雄師范學(xué)院計算機信息管理中心,云南 楚雄 675000)
介紹一種利用數(shù)據(jù)挖掘技術(shù)建立顧客分類分析的挖掘模型。主要介紹了基于Microsoft SQL SERVER Analysis Services(SSAS)的聚類分析算法,以及SSAS聚類分析算法在對某銷售信息進行顧客分組分析中的應(yīng)用,通過分析聚類分析算法挖掘模型所發(fā)現(xiàn)的模式,得出了對顧客分類的結(jié)果,為銷售公司管理層的營銷決策提供有力的參考和輔助。
數(shù)據(jù)挖掘;SSAS聚類分析算法;顧客分組
隨著計算機應(yīng)用技術(shù)的不斷發(fā)展,銷售信息管理系統(tǒng)在銷售公司中得到廣泛的應(yīng)用。銷售信息管理系統(tǒng)為各個銷售公司的日常管理提高效率的同時積累了很多顧客的購買信息。那么,這些顧客的購買信息除了為商家的日常管理提供方便外,還能有什么用嗎?促銷酬賓活動是商家經(jīng)常實施的提高銷售利潤的很好的方法。為了使商家在此類活動中有的放矢,針對潛在的顧客群來高效地完成促銷活動,可以利用銷售信息管理系統(tǒng)中顧客的歷史購買信息來發(fā)現(xiàn)顧客的購買行為,從而確定最有可能購買商品的潛在顧客,為商家提供有利的決策支持。為了從這些海量數(shù)據(jù)中發(fā)現(xiàn)和獲取對人們有價值的信息和知識,就需要通過新技術(shù)和強大的工具以智能的方式從這些龐大的數(shù)據(jù)信息中“挖掘”出有用的信息。從商業(yè)角度來看,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。隨著數(shù)據(jù)挖掘技術(shù)的日益成熟和廣泛應(yīng)用以及數(shù)據(jù)挖掘軟件市場需求量的不斷增大,許多具有成熟技術(shù)和應(yīng)用價值很高的數(shù)據(jù)挖掘軟件工具應(yīng)運而生。在眾多的數(shù)據(jù)挖掘工具中,Microsoft SQL SERVER Analysis Services(SSAS)以其容易上手、快速、便捷等特點得到廣泛應(yīng)用。本文主要介紹數(shù)據(jù)挖掘中的聚類分析算法在顧客分組分析中的應(yīng)用,用一個實際案例說明用SSAS聚類分析算法建立的顧客分組預(yù)測分析模型。
SSAS聚類分析算法是一種分割算法。將數(shù)據(jù)劃分為組或分類,這些組或分類的項具有相似屬性。該算法使用迭代技術(shù)將數(shù)據(jù)集中的事例分組為包含類似特征的分類。
SSAS聚類分析算法首先標識數(shù)據(jù)集中的關(guān)系并根據(jù)這些關(guān)系生成一系列分類。
在最初定義分類后,算法將通過計算確定分類表示點分組情況的適合程度,然后嘗試重新定義這些分組以創(chuàng)建可以更好地表示數(shù)據(jù)的分類。該算法將循環(huán)執(zhí)行此過程,直到它不能再通過重新定義分類來改進結(jié)果為止。
SSAS聚類分析算法提供兩種創(chuàng)建分類并為分類分配數(shù)據(jù)點的方法。第一種方法是K-means算法,這是一種較難的聚類分析方法。這意味著一個數(shù)據(jù)點只能屬于一個分類,并會為該分類中的每個數(shù)據(jù)點的成員身份計算一個概率。第二種方法是“期望值最大化”(EM)方法,這是“軟聚類分析”方法。這意味著一個數(shù)據(jù)點總是屬于多個分類,并會為每個數(shù)據(jù)點和分類的組合計算一個概率。
(1)EM聚類分析
在EM聚類分析中,此算法反復(fù)優(yōu)化初始分類模型以適合數(shù)據(jù),并確定數(shù)據(jù)點存在于某個分類中的概率。當概率模型適合于數(shù)據(jù)時,此算法終止這一過程。用于確定是否適合的函數(shù)是數(shù)據(jù)適合模型的對數(shù)可能性。
如果在此過程中生成空分類,或者一個或多個分類的成員身份低于給定的閾值,則具有低填充率的分類會以新數(shù)據(jù)點重設(shè)種子,并且EM算法重新運行。
EM聚類分析方法的結(jié)果是概率性的。這意味著每個數(shù)據(jù)點都屬于所有分類,但數(shù)據(jù)點向分類的每次分配都有一個不同的概率。因為此方法允許分類重疊,所以所有分類中的項的總數(shù)可能超過定型集中的總項數(shù)。在挖掘模型結(jié)果中,指示支持的分數(shù)會相應(yīng)地調(diào)整以說明這一情況。
EM算法可描述為:
①對參數(shù)向量作初始猜測:包括隨機選擇K個對象代表簇的均值或中心,以及猜測其他的參數(shù)。
②用下面兩個步驟反復(fù)求精參數(shù) (或簇):
Ⅰ.期望步:用以下概率將每個對象xi指派到簇Ck:
其中,p(xi|Ck)=N(mk,Ek(xi))服從均值為mk、期望為Ek的高斯分布。
Ⅱ.最大化步:利用前面得到的概率估計重新估計模型參數(shù)。例如:
與k-means聚類分析算法相比,它有多個優(yōu)點:①最多需要一次數(shù)據(jù)庫掃描;②工作時不受內(nèi)存(RAM)限制;③能夠使用只進游標;④優(yōu)于抽樣方法。
(2)k-means聚類分析
k-means聚類分析是一種廣為人知的方法,它通過盡量縮小一個分類中的項之間的差異,同時盡量拉大分類之間的距離,來分配分類成員身份。k-means中的“means”指的是分類的“中點”,它是任意選定的一個數(shù)據(jù)點,之后反復(fù)優(yōu)化,直到真正代表該分類中的所有數(shù)據(jù)點的平均值。“k”指的是用于為聚類分析過程設(shè)種子的任意數(shù)目的點。k-means算法計算一個分類中的數(shù)據(jù)記錄之間的歐幾里得距離的平方,以及表示分類平均值的矢量,并在和達到最小值時在最后一組k分類上收斂。
k-means算法僅僅將每個數(shù)據(jù)點分配給一個分類,并且不允許成員身份存在不確定性。分類中的成員身份表示為與中點的距離。
通常,k-means算法用于創(chuàng)建連續(xù)屬性的分類,在這種情況下,計算與平均值的距離非常簡單。但是,SSAS實現(xiàn)通過使用概率針對分類離散屬性對k-means方法進行改編。對于離散屬性,數(shù)據(jù)點與特定分類的距離按如下公式計算:
1-P(數(shù)據(jù)點,分類)
k-means算法的步驟:
輸入:K(期望簇的數(shù)目)、n個對象的數(shù)據(jù)集
輸出:K個簇的集合
①任意選取數(shù)據(jù)集中的K個對象作為初始簇的中心
②對于所有n個對象,一一找其最近似的簇中心 (一般是以距離最近者相似度較高),然后將該對象分配到最近似的簇
③根據(jù)第②步的結(jié)果,重新計算各個簇的中心 (各個簇的平均值)
重復(fù)以上兩個步驟,直到所設(shè)計的準則函數(shù)收斂為止 (一般是以沒有任何對象變換所屬簇為收斂條件),也就是平方誤差準則,其定義如下:
其中:mi是簇i的中心,p是簇i內(nèi)的對象,ci代表簇i
本文以某銷售公司的銷售信息為數(shù)據(jù)依據(jù),根據(jù)顧客的歷史購買情況來詳細了解該公司的顧客,然后使用這些歷史數(shù)據(jù)進行可用于營銷的預(yù)測。按照顧客歷史信息中的“之前是否已購買”(顧客購買自行車的行為)這個屬性和顧客的年齡、所在地區(qū)、隨同居住的孩子數(shù)、擁有車數(shù)量、年收入、婚姻狀況、上下班路程、擁有孩子數(shù)、是否有房等屬性,將相似的顧客聚成簇,使得在一個簇中的顧客具有很高的相似性,而與其他簇中的顧客很不相似,從而發(fā)現(xiàn)未知的類別。所形成的每個簇可以當作一個類別,形成對每個類別的描述。本例采用的是k-means算法。
3.2.1 所生成的分類特征
表1
表2
表3
表4
表5
3.2.2 聚類分析結(jié)果
通過對所生成的分類特征的分析,可對聚類結(jié)果作出如下的判斷:
分類1(購買者百分比最高):性別分布很均勻,擁有一個孩子,沒有車子,沒有隨同居住的孩子,上下班路程較短,有房的,已婚的,年齡較大,年收入在五類中居第二位。
分類2(購買者百分比第二):性別分布很均勻,擁有一個孩子,沒有車子,沒有隨同居住的孩子,上下班路程較短,有房的,已婚的,較年青 (26—37),年收入在五類中居第三位。
分類3(購買者百分比第三):性別分布很均勻,沒有孩子,擁有兩輛車,沒有隨同居住的孩子,上下班路程較長,有房的,已婚的,年齡較大,年收入在五類中居首位。
分類4(購買者百分比第四):性別分布很均勻,沒有孩子,擁有兩輛車,沒有隨同居住的孩子,上下班路程較短,有房的,未婚的,年齡分布均勻,年收入在五類中居末位。
分類5(購買者百分比第五):性別分布很均勻,沒有孩子,擁有兩輛車,沒有隨同居住的孩子,上下班路程較長,有房的,未婚的,較年青,年收入在五類中居末位。
通過上述對SSAS聚類分析算法的討論,以及利用基于SSAS聚類分析算法建立的挖掘模型應(yīng)用到一個具體實例,通過分析聚類分析算法挖掘模型所發(fā)現(xiàn)的模式,得出了對顧客分類的結(jié)果。這種對顧客特征描述的分類歸納能為銷售公司管理層的營銷決策提供有力的參考和輔助,對同一類型的顧客制定特定的營銷管理策略,有針對性的提高管理顧客和提高銷售量的效率。
[1] JIAWEIHAN MICHELINE KAMBER.Data Mining:Concepts and Techniques,2nd ed[M].China Machine Press,2006.
[2]郭麗.SQLServer2005構(gòu)建數(shù)據(jù)挖掘解決方案 [J].計算機與現(xiàn)代化.2007(5):1.
[3](美)陳封能,(美)斯坦巴赫,(美)庫瑪爾著,范明等譯.數(shù)據(jù)挖掘?qū)д?(完整版)[M].北京:人民郵電出版社,2011.
[4]謝邦昌.商務(wù)智能與數(shù)據(jù)挖掘Microsoft SQL Server應(yīng)用 [M].北京:機械工業(yè)出版社,2008.
[5](美)邁克倫南,(美)唐朝暉,(美)克里沃茨著,董艷,程文俊譯.數(shù)據(jù)挖掘原理與應(yīng)用 (第2版)—SQL Server 2008數(shù)據(jù)庫[M].北京:清華大學(xué)出版社,2010.
Application of SSAS cluster parsing algorithm in customers partitioning analysis
WANG Song1.2;HUANG Qing-song1;YE Xiao-bo2
(1.School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650093,China;2.Computer Information Management Center,Chuxiong Normal University,Chuxiong 675000,China)
A model of customers partitioning analysis using data mining technology was described.This paper mainly recommends a cluster parsing algorithm based on Microsoft SQL SERVER Analysis Services(SSAS)and its application in customers partitioning of sales information.The results of customer partitioning obtained from the pattern excavated by analyze cluster parsing algorithm data mining model,and it provided sufficiently reference and supplement for management’s marketing decision-making of a sales company.
Data mining;SSAS cluster parsing algorithm;customers partitioning
TP391.1
A
1671-7406(2011)09-0011-06
2011-04-12
王 松 (1976—),男,云南楚雄人,昆明理工大學(xué)在讀碩士,楚雄師范學(xué)院計算機信息管理中心實驗師,主要研究方向:人工智能。
(責(zé)任編輯 劉洪基)