【摘 要】用電客戶信用關(guān)系是供電企業(yè)客戶關(guān)系管理的重要內(nèi)容。在分析對用電客戶的信用評價指標體系的基礎上,提出基于粗糙集及AC聚類算法的用電客戶信用評價模型。首先借助粗糙集理論,對指標進行屬性約簡,并運用自組織數(shù)據(jù)挖掘中的Knowledge Miner軟件,采用AC聚類算法對用電客戶進行聚類分析,從而得到各個用電客戶的信用等級。最后結(jié)合聚類結(jié)果,利用ID3算法,建立決策規(guī)則,得出具有一般指導意義的用電客戶信用評價的規(guī)則知識。
【關(guān)鍵詞】粗糙集 屬性簡約;AC聚類;ID3算法;用電客戶
1. 引言
(1)隨著電力體制改革的推進和電力市場化進程的加快,供電企業(yè)在電力市場上面臨著越來越激烈競爭。一方面,用電客戶逐漸成為競爭的焦點,提高用電客戶滿意度與供電企業(yè)自身的經(jīng)濟效益緊密相關(guān);另一方面,供電企業(yè)先消費后付款的特殊交易方式,造成有些用電客戶拖欠電費。因此,供電企業(yè)需要對用電客戶進行有效的信用評價,對不同信用等級的客戶采用不同的營銷策略,建立信用激勵機制,提高供電企業(yè)用電營銷輔助決策水平。
(2)目前,隨著用電客戶信用評價成為供電企業(yè)客戶關(guān)系管理的重要內(nèi)容,有關(guān)用電客戶信用評價方面的研究成果也在不斷的增多。目前常用的方法主要有綜合評估法[3]、模糊多屬性方法[4]、主客觀評價的方法[5]、模糊偏序方法[6]等。這些研究從不同角度,為解決用電客戶信用評價問題提供了一些值得借鑒的思路和方法。上述方法在進行用電客戶信用評價時各有特點,但其評價指標較多,精煉性稍顯不足。隨著信用評價體系指標不斷增多,指標之間不可避免的存在一定的關(guān)聯(lián)性、交叉性,其重要性也不盡相同,從復雜的指標體系中篩選出重要的指標也是進行用電客戶信用評價的一個重要方面,因而本文把在指標屬性約簡方面具有強大優(yōu)勢的粗糙集理論引入用電客戶的信用評價中。
(3)粗糙集是一種處理不精確、不相容和不完全數(shù)據(jù)的數(shù)學工具,這一理論主要的應用是對含有大量冗余信息的知識系統(tǒng)進行約簡,它不僅具有模擬人類邏輯思維的能力,而且能有效地分析和處理不精確、不一致、不完整的信息[9]。該方法的主要優(yōu)點在于它不需要預先給定某些特征或?qū)傩缘臄?shù)量描述和模型假定,但單純地使用粗糙集理論不一定總能有效地解決不精確或不確定的實際問題。因此本文在粗糙集基礎上,采用AC聚類的方法,實現(xiàn)對用電客戶的信用評價。最后結(jié)合ID3算法,得到用電客戶信用評價的決策規(guī)則,具有一般性的指導意義。
2. 基本原理
2.1 粗糙集理論[1,12]。
2.1.1 定義1 某個屬性子集PA,x,y∈U 為兩個數(shù)據(jù)實體,如果有a ∈B,f(x,a)=f(y,a)這時稱x ,y 在屬性集 A上是不可分辨的,也稱為等價關(guān)系。在信息系統(tǒng)中,不可分辨關(guān)系可以定義為:IND(P)={(x,y)∈U×U|a ∈P,f(x,a)=f(y,a)}
由這種等價關(guān)系導出的對 U的劃分記為 U/IND(P)。
2.1.2 定義2 粗糙集理論的不確定性是建立在上、下近似的概念上的。令XU 是一個集合, IND(P)是 U上的等價關(guān)系,則:上近似集 IND(P)-(X)=∪{Y∈U/IND(P),YX},下近似集 IND(P)-(X)=∪{Y∈U/IND(P),Y∩X≠}
設T=(U,A,C,D) 是決策表,如果去掉屬性 a,得到的表 T1=(U,A-{a},c-{a},D)與表 T=(U,A,C,D) 相比,有PosC(D)=PosC- {a}(D),則稱屬性 a是關(guān)于 D可省的。其中, PosC(D)=UX∈U/IND(D)P-(X)是D 關(guān)于 P的正域。
相對于決策屬性集合,如果有無條件屬性Ci 對決策屬性集合的影響不大,則可認為 Ci 的重要程度不大。屬性集中Ci 的重要度可表示為[9]:
μ(i) =card(PosC(D)-PosC-|Ci|(D))/card(U) (1)
其中,card 為元素個數(shù)屬性。
根據(jù)所求得屬性的重要度,可以獲得其在屬性集合中的相對權(quán)重。對求得的屬性重要度進行權(quán)值化處理可得[9]:
wi = μ(i) /∑n i=1 μ(i) (2)
其中, wi 是第i 項屬性的權(quán)重, μ(i) 為第i 項屬性的屬性重要度, n為屬性的個數(shù)。
2.2 AC算法的原理。
(1)由Laurence發(fā)展起來的相似體合成算法AC (Analog Complexion)首先成功地應用于氣象的預測,經(jīng)過不斷的發(fā)展與改進,在理論和應用方面取得了不少突破性的進展,已經(jīng)能夠取得很好的預測效果。后來烏克蘭的A.G.Ivakheneko院士把它應用于聚類,并且把AC算法和GMDH結(jié)合起來,將GMDH的核心思想應用到AC聚類算法中。國內(nèi)對AC算法的研究主要是建立在四川大學賀昌政教授研究的基礎之上。
(2)AC算法可以看作是對復雜對象的預測、聚類和分類的一種序列模式識別方法[14]。AC聚類算法,假設每個樣本(或者變量)作為一個模式,通過計算其他模式與該模式的相似程度,從而把較為相似的模式歸為一類,不相似的模式歸為不同的類。AC聚類算法中兩個模式的差異用兩個模式的距離表示,通常用歐式距離或海明距離表示。
(3)由于不同時期的相似模式可能具有不同的平均值和標準方差。為了下面將進行的模式間相似性的度量,必須尋找待選模式到參照模式的變換,來描述這些差異,即將模式變換到同一基準點上,從而使其具備可比性。一般取線性變換:
(4)AC聚類算法把所有的樣本組成的數(shù)據(jù)集和看作一個狀態(tài)空間,對每一個樣本的聚類,把他們看作是一個狀態(tài)空間的聚類。狀態(tài)空間以變量 x1,x2,…xm為軸,對象 Oi是空間待分類的點。每個對象Oi 或多或少與其他對象有所不同。這種差別能由 sikh算得,k=1,2, …,N;hi=1,2, …,N 。因此,聚類的基礎是對稱的相似性矩陣
siNN =|sikh|。聚類的任務是將狀態(tài)空間再分成個相似對象的類。
(5)近年來,AC算法由于結(jié)合歸納自組織數(shù)據(jù)挖掘方法和先進的選擇程序而增強了應用能力[13],通常,AC算法包含3個步驟:一是待選模式的產(chǎn)生;二是待選模式的變換;三是相似模式的選取。
3. 粗糙集及AC聚類算法的應用
3.1 粗糙集對信用評價指標的約簡。
(1)信用評價根據(jù)評價對象的不同,可選取不同的評價指標?;谖覈秒娍蛻舻囊恍┗厩闆r,確定本文信用評價的指標[4~5](見圖1):
以上指標屬于條件屬性C ,決策屬性 D=最后總得分(由專家打分得到)。
本文以某供電企業(yè)的12家客戶的數(shù)據(jù)為例,進行信用評價。首先采用等距離法對樣本數(shù)據(jù)進行離散化處理,STEP=(MAX-MIN)/3,MAX表示每一列的最大值,MIN表示每一列最小值,把每一列的屬性值分為3個等級,高(MIN+2*STEP,MAX)用3表示,中(MIN+ STEP,MIN+2*STEP)用2表示,低(MIN,MIN+ STEP)用1表示,得出個指標值轉(zhuǎn)換成Rough Set的數(shù)據(jù)格式。
由于條件屬性C1 的子指標資產(chǎn)負債率(C1 4 )為逆指標,即比率越低則客戶償債能力越強,反之償債能力越弱。本文采用閾值法[2]對該指標進行了無量綱化處理,將其轉(zhuǎn)化為正指標。決策表1表示的是離散后的條件屬性 C1 的相關(guān)數(shù)據(jù)。
根據(jù)二級指標的權(quán)重,分別加權(quán)得到一級指標C1 的相關(guān)數(shù)據(jù),結(jié)合其它指標的相關(guān)數(shù)據(jù),匯總得到表2。其中D 表示各個客戶價值類型,即最終信用等級,將通過下文的AC聚類算法得到。
3.2 AC聚類算法的應用。
利用AC聚類法,運用Knowledge Miner軟件處理,按照90%相似度進行聚類,分為3類,按照從高到低的順序排列,具體分類如下:
根據(jù)AC聚類的Class Membership,我們設這三類的Y 值為3,2,1,分別表示高、 中、低。整理后可得表2。
該供電企業(yè)的12個用電客戶可以分為三類,信用較好;信用一般;信用較差。
根據(jù)評價的結(jié)果,該供電企業(yè)可以針對不同信用等級客戶實行差異化的營銷策略。
4. 規(guī)則知識挖掘
根據(jù)以上計算分析結(jié)果,本文采用數(shù)據(jù)挖掘技術(shù)中的ID3算法對用電客戶的信用信息進行知識挖掘,從中得出可以對其他用電客戶進行信用評價的一般性規(guī)則知識。
利用ID3算法,得到以下信用評價的決策樹:
(1)首先,商業(yè)信用在用電客戶信用評價中占有最大的信息增益,在決策中決定作用。
商業(yè)信用較好的客戶,其信用也較好;商業(yè)信用較差的客戶,其信用也較差。商業(yè)信用一般的客戶需要結(jié)合其他三個方面的內(nèi)容才能確定其信用等級。
(2)其次,法律信用的信息含量也很高,即使商業(yè)信用一般,如果法律信用較好,該客戶的信用等級仍屬于“高”。
(3)最后,當商業(yè)信用、法律信用及安全信用都處于“一般”的情況下,合作信用,無論是一般,還是較差,其信用等級都處在“低”的水平上。
5. 結(jié)論
本文運用粗糙集理論和AC聚類算法對用電客戶進行信用評價,結(jié)合了粗糙集在屬性簡約方面的強大功能,克服了冗余屬性對運算量的影響,從而簡化了信用評價的指標體系,提高了評估的效率。并利用AC聚類算法進行聚類分析,結(jié)合ID3算法挖掘出具有一般意義的用電客戶信用評價得規(guī)則知識。為用電客戶的信用評價以及供電企業(yè)的客戶關(guān)系管理提供了一種較為有效的決策支持方式。
參考文獻
[1] Pawlak Z.Rough set theoretical aspects of reasoning about date[M].Poland:Warsaw,1991.
[2] 胡永宏,賀思輝.綜合評價方法[M].北京:科學出版社,2000.
[3] 伍萱.客戶信用管理體系的建立[J].中國電力企業(yè)管理,2002 (11):33~35.
[4] 李翔,楊淑霞,黃陳鋒.基于模糊多屬性決策法的用電客戶信用評價[J].電網(wǎng)技術(shù),2004 ,28(21):55~59.
[5] 楊淑霞,呂世森,喬艷芬.用電客戶信用的主客觀評價及分析[J].中國電力,2005,38(6):1~4.
[6] 吳為濤.電力客戶信用等級分析[D].北京:華北電力大學學士學位論文,2004.
[7] 鐘波,肖智,周家啟.組合預測中基于粗糙集理論的權(quán)重的確定方法[J].重慶大學學報,2002.
[8] 楊振峰,郭景峰,常峰.一種基于粗集的簡約方法[J].計算機工程,2003(6):15~16.
[9] 雷紹蘭,孫才新,周濠,張曉星.模糊粗糙集理論在空間電力負荷預測中的應用[J].電網(wǎng)技術(shù),2005,29(9):26~30.
[10] 楊綸標,高英儀編著.模糊數(shù)學原理及應用[M].3版.廣州:華南理工大學出版社,2001.3.
[11] 張文修,吳偉志,梁吉業(yè)等. 粗糙集理論與方法[M].北京:科學出版社, 2001.
[12] Lemke F, Mueller J A. Self-organizing Data
Mining for a Portfolio Trading System. Journal for Computational Intelligence in Finance. 1997, 5(3): 12~26.
[13] 賀昌政.自組織數(shù)據(jù)挖掘與經(jīng)濟預測[M].北京:科學出版社,2005.
[14] 廖斌,何躍.基于AC聚類方法和GMDH的品牌競爭力分析[J].科技情報開發(fā)與經(jīng)濟,2005, 15(15): 135~137.
[15] 張智勇,賀昌政。AC聚類方法與層次聚類方法的比較研究[J].科技情報開發(fā)與經(jīng)濟,2005,15(19):168~169.
[16] 朱迪茨.實用數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2004.