摘要:電信用戶的通話行為聚類分析是一個(gè)新的研究領(lǐng)域,屬于數(shù)據(jù)挖掘范疇。為了對(duì)用戶行為進(jìn)行有針對(duì)性的分析挖掘,發(fā)現(xiàn)客戶行為中隱藏的、有用的、未曾預(yù)料的知識(shí),采用了模糊C均值(FCM)聚類算法,以模糊數(shù)學(xué)理論知識(shí)作為客戶行為聚類分析的方法,為電信企業(yè)客戶分析提供了量化依據(jù),并采用Matlab為計(jì)算工具,給出了一個(gè)聚類分析實(shí)例,并初步建立了通話行為模型識(shí)別機(jī)制。實(shí)驗(yàn)證明,本文采用的模糊聚類方法得到了滿意的分析結(jié)果。
關(guān)鍵詞:通話行為;數(shù)據(jù)挖掘;模糊聚類;模糊C均值(FCM)聚類
中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)14-20926-03
1 引言
近年來電信事業(yè)蓬勃發(fā)展,隨著市場(chǎng)競(jìng)爭(zhēng)的充分展開和電信資費(fèi)的不斷下降,對(duì)于客戶的消費(fèi)行為分析顯得越來越重要。對(duì)用戶呼叫行為進(jìn)行有效分析和辨識(shí),是對(duì)客戶分群及市場(chǎng)細(xì)分的必要手段。本研究希望能應(yīng)用模糊數(shù)學(xué)理論和數(shù)據(jù)挖掘領(lǐng)域中的聚類技術(shù),對(duì)客戶呼叫行為進(jìn)行分析,為電信市場(chǎng)細(xì)分和營(yíng)銷策略計(jì)劃的制訂提供有效工具。
要分析電信用戶的呼叫行為,需要從用戶通話記錄中找出使用電話多和少,或是電信消費(fèi)高和低的用戶分群。本研究采用模糊集理論[4]作為技術(shù)基礎(chǔ),只關(guān)心如何能夠從用戶的通話記錄中剖析出有意義的信息,尚有其他許多種分類方法不在我們討論范圍之內(nèi)。某些通話行為特別怪異的電信用戶,需要在后續(xù)研究中加以調(diào)整改進(jìn)其分類。
2 相關(guān)研究
在本章節(jié)中,我們將針對(duì)本論文研究范圍的相關(guān)領(lǐng)域進(jìn)行探討,第一部分為聚類技術(shù)介紹;第二部分為本文采用的模糊C均值(FCM)聚類算法的原理介紹。
2.1 模糊聚類技術(shù)(Fuzzy Clustering)
2.1.1 聚類分析的基本概念
聚類就是將數(shù)據(jù)對(duì)象分組成多個(gè)類或簇,使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì)象差別較大[1] 。聚類與分類不同,前者是一種無指導(dǎo)的學(xué)習(xí),而后者是一種有指導(dǎo)的學(xué)習(xí)。在分類時(shí)對(duì)于目標(biāo)數(shù)據(jù)中存在哪些類,事先已知,只需將每個(gè)數(shù)據(jù)點(diǎn)屬于哪一個(gè)類識(shí)別出來;而聚類事先未知有多少類,以某種度量為標(biāo)準(zhǔn),將具有相似特征的數(shù)據(jù)對(duì)象劃分為一類,同時(shí)分離具有不同特征的數(shù)據(jù)對(duì)象。聚類需要考察所有的個(gè)體才能決定類的劃分,并由算法自動(dòng)確定。
大多數(shù)對(duì)象沒有嚴(yán)格的屬性,他們?cè)谛詰B(tài)和類屬方面存在著中介性,具有亦此亦彼的性質(zhì),因此適合進(jìn)行軟化分。模糊集理論的提出為這種軟劃分提供了有力的分析工具,即模糊聚類分析。
2.1.2 聚類分析的分類
從實(shí)現(xiàn)方法上分,模糊聚類分析方法可大致分為四種類型:譜系聚類法、基于等價(jià)關(guān)系的聚類方法、圖論聚類法和基于目標(biāo)函數(shù)的聚類方法等。前三種方法不適用于大數(shù)據(jù)量的情況,難以滿足實(shí)時(shí)性要求較高的場(chǎng)合,因此在實(shí)際中應(yīng)用并不廣泛。受到普遍歡迎的是第四種方法——基于目標(biāo)函數(shù)的聚類方法,該方法把聚類分析歸結(jié)成一個(gè)帶約束的非線性規(guī)劃問題,通過優(yōu)化求解獲得數(shù)據(jù)集的最有模糊劃分和聚類。設(shè)計(jì)簡(jiǎn)單、解決問題的范圍廣,還可以轉(zhuǎn)化為優(yōu)化問題而借助經(jīng)典數(shù)學(xué)的非線性規(guī)劃理論求解,易于計(jì)算機(jī)實(shí)現(xiàn)。因此,基于目標(biāo)函數(shù)的模糊聚類算法成為新的研究熱點(diǎn)。
2.2 模糊C均值(Fuzzy C-Means,F(xiàn)CM)聚類算法
模糊C均值(FCM)聚類算法首先由Dunn于1974年提出,并由Bezdek于1981年改進(jìn)。這種算法能自動(dòng)對(duì)數(shù)據(jù)對(duì)象進(jìn)行分類并求出聚類中心和每個(gè)數(shù)據(jù)點(diǎn)的隸屬度,使得非相似性指標(biāo)的目標(biāo)函數(shù)達(dá)到最小,從而決定每個(gè)數(shù)據(jù)點(diǎn)的歸屬。
初始化:給定聚類類別數(shù)c,2≤c≤n,n是數(shù)據(jù)個(gè)數(shù),設(shè)定迭代停止閾值ε,指定加權(quán)指數(shù)m;用值在[0,1]區(qū)間的隨機(jī)數(shù)初始化隸屬矩陣U,使其滿足約束條件式(1);
步驟一:計(jì)算c個(gè)聚類中心ci,i=1,…,c;
步驟二:計(jì)算目標(biāo)函數(shù)式(2)。如果J小于ε,或相對(duì)于上一次J值的改變量小于ε,則停止;
步驟三:重新計(jì)算隸屬矩陣U,返回步驟一。
整個(gè)計(jì)算過程就是反復(fù)修改聚類中心和分類矩陣的過程。該算法的收斂性已經(jīng)得以證明[3]:FCM算法能從任意給定初始點(diǎn)開始沿一個(gè)迭代子序列收斂到其目標(biāo)函數(shù)Jm(U,P)的局部極小點(diǎn)或鞍點(diǎn)。
2.2.2 聚類有效性控制
利用Matlab 2006a提供的模糊邏輯工具箱(Fuzzy Logic Toolbox)中的fcm函數(shù)對(duì)通話記錄進(jìn)行聚類,只需要輸入一個(gè)初始變量,即分類數(shù)c,就可以很快得出結(jié)果。但是,關(guān)于初始變量c的給定,不同的c值,會(huì)產(chǎn)生不同的聚類結(jié)果;即使是同一c值,有時(shí)也會(huì)產(chǎn)生不同聚類結(jié)果。這是由于算法結(jié)果一般地依賴于初始值,而初始值的給定在計(jì)算過程中是隨機(jī)的,有時(shí)候會(huì)不可避免地陷入局部最優(yōu)而非達(dá)到全局最優(yōu),關(guān)于這方面的研究,可以參考文獻(xiàn)[2]。聚類有效性問題一般通過建立有效性函數(shù)來解決。這種函數(shù)用于衡量聚類的緊密度和分離度,以此來判定聚類的有效性。
其中,n為樣本數(shù),
根據(jù)函數(shù)
(1) 給定c的范圍是
(2) 計(jì)算當(dāng)2≤c≤時(shí)每個(gè)整數(shù)c所對(duì)應(yīng)的V值;
(3) 比較各V的值,取V最小時(shí)所對(duì)應(yīng)的c值即為所求。
3 研究設(shè)計(jì)
3.1 分析數(shù)據(jù)構(gòu)成
對(duì)電信用戶通話行為進(jìn)行分析,可以利用大量的通話清單記錄經(jīng)過整理出分析特征維度,采用FCM聚類進(jìn)行分析。分析特征的選擇確定工作可以由專家憑經(jīng)驗(yàn)完成,也可以由散布矩陣跡、J-M(Jeffries-Matusita)距離和變換散度等參量為類別可分性準(zhǔn)則的最佳特征子集的選取方法[2]。一般情況下特征數(shù)目多了會(huì)產(chǎn)生維數(shù)災(zāi)難,但太少的特征將反映不出分析模式的總體信息。為便于實(shí)施,本研究采用專家選定的方式確定分析特征。
本文采用的聚類數(shù)據(jù)是隨機(jī)選擇了某地電信2006年6月至8月三個(gè)月共120個(gè)電話的通話特征數(shù)據(jù),考慮到客戶的隱私權(quán),將客戶的姓名及電話號(hào)碼略去,賦以識(shí)別號(hào)ID代之。
這是一個(gè)六維的高維度數(shù)據(jù)空間(客戶識(shí)別號(hào)ID非分析特征,不列為分析維度),特征屬性分別為長(zhǎng)途呼叫總次數(shù)、長(zhǎng)途呼叫不同被叫號(hào)碼個(gè)數(shù)、長(zhǎng)途平均單次呼叫時(shí)長(zhǎng)、市話呼叫總次數(shù)、市話被叫次數(shù)以及市話被叫不同主叫號(hào)碼數(shù),如表1所示:
3.2 程序及結(jié)果
本文使用Matlab 2006a版中的矩陣運(yùn)算判定聚類有效性,并用FCM函數(shù)對(duì)以上數(shù)據(jù)進(jìn)行聚類,部分源代碼如下:
load analysisdata.dat
[center,U,obj_fcn] = fcm(analysisdata,4);
maxU = max(U);
index1 = find(U(1,:)==maxU);
……
line(analysisdata(index1, 1), analysisdata(index1, 2), 'linestyle','none','marker', 'o','color','g');
……
plot(center(1,1),center(1,2),'ko','markersize',15,'LineWidth',2)
plot(center(2,1),center(2,2),'kx','markersize',15,'LineWidth',2)
……
運(yùn)算后得到以下結(jié)果:
對(duì)聚類有效性函數(shù)式(3),確定類數(shù)c。
一般地,取m=2,分母權(quán)值均為1,當(dāng)類數(shù)2≤c≤10時(shí),有效性函數(shù)V取得如下結(jié)果:c=4,V=3765.7414。
可以確定,當(dāng)c=4時(shí)V取得最小值,因此可分為4類,聚類中心矩陣為:
聚類結(jié)果投影在維度“市話呼叫總次數(shù)”、“市話被叫總次數(shù)”上 的示意圖如圖1。
聚類中心點(diǎn)在各維的取值表征了該類的特征,因此客戶分類如表2所示。
3.3 簡(jiǎn)單的模式識(shí)別
聚類完成后,可以用以下方法進(jìn)行模式識(shí)別驗(yàn)證:
(1) 按與中心距離的識(shí)別
算出聚類中心center后,新樣本可根據(jù)距離判定屬于哪一類,對(duì)于一個(gè)新樣本xk,如果
(2) 按最大隸屬度原則來識(shí)別
如果
由前面程序輸出可以得到隸屬度矩陣U,U為一個(gè)4×120的矩陣,表示120個(gè)樣本的在四類的隸屬度。
由于樣本數(shù)較多,截取一段結(jié)果圖示如圖2:
可以看到,矩陣U每一列之和為1,即是每一樣本的各類隸屬度之和為1。取每一列的最大值,最大值在第幾行,該樣本就屬于第幾種類型。
在此簡(jiǎn)單抽取兩個(gè)樣本查看確認(rèn)分類是否正確,如樣本:
樣本16屬于第一類“主叫活躍,被叫少”,而樣本89屬于第二類“主叫不活躍,被叫活躍”。經(jīng)過查核某地電信IBSS系統(tǒng)及計(jì)費(fèi)帳務(wù)系統(tǒng),樣本16登記的屬性為“個(gè)體商鋪”;樣本89登記的屬性為“住宅”??蛻魧傩缘氖褂昧?xí)慣與聚類結(jié)果相符。
4 結(jié)束語
電信用戶呼叫行為分析中聚類分析是一個(gè)新的研究領(lǐng)域,與之相似的研究可以追溯到市場(chǎng)營(yíng)銷中的市場(chǎng)細(xì)分,市場(chǎng)細(xì)分與客戶聚類功能相同,都是將產(chǎn)品或服務(wù)的銷售對(duì)象進(jìn)行分類。但兩者是有區(qū)別的,市場(chǎng)細(xì)分的分析數(shù)據(jù)來自企業(yè)外部,比如消費(fèi)者的人口特征、區(qū)域特征、行業(yè)性質(zhì)等等,用的只是一種“普遍適用”的策略,很難真正做到個(gè)性化服務(wù)。而客戶通話行為聚類分析的數(shù)據(jù)源自于企業(yè)內(nèi)部掌握的通話記錄,根據(jù)客戶本身的使用行為、消費(fèi)傾向,保證每個(gè)客戶的消費(fèi)行為的連續(xù)性與一致性,有利于對(duì)現(xiàn)有客戶進(jìn)行管理,如發(fā)現(xiàn)優(yōu)質(zhì)客戶,對(duì)不良客戶進(jìn)行預(yù)警等。因此,對(duì)企業(yè)有很重要的意義。
應(yīng)用模糊C均值聚類算法得到比較滿意的客戶聚類結(jié)果,主要體現(xiàn)在:區(qū)分出了優(yōu)質(zhì)客戶和普通客戶;找到了每一類客戶的特征。本文提出用FCM算法作為客戶通話行為(消費(fèi)行為)聚類的方法,為企業(yè)提供分析的量化依據(jù)。
參考文獻(xiàn):
[1] HSU T H. An application of fuzzy clustering in group-positioning analysis[J]. Proc Natl Sci, Counc ROC(C),2000,10(2):157-167.
[2] 高新波. 模糊聚類分析及其應(yīng)用. 西安:西安電子科技大學(xué)出版社,2004,1:37-54.
[3] Bezdek J C. A convergence theorem for the fuzzy ISODATA clustering algorithm. IEEE Trans. PAMI, 1980, 1(2):1-8.
[4] Zadeh L A. Fuzzy logic. IEEE Trans. On Control System Magazine, 1988. 83-93.
[5] XIE X,BENI G A. validity measure for Fuzzy Clustering[J]. IEEE Transactions On Pattern Analysis and Machine Intelligence, 1991,13(8): 841-847.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文