龍 林
(山西財(cái)經(jīng)大學(xué) 山西 太原 030000)
銀行信貸客戶的聚類
龍 林
(山西財(cái)經(jīng)大學(xué) 山西 太原 030000)
本文著重研究了對傳統(tǒng)的K-means算法它在銀行客戶分類方向的應(yīng)用與實(shí)現(xiàn)。首先介紹了數(shù)據(jù)挖掘的基礎(chǔ)理論,然后介紹了聚類分析算法的基礎(chǔ)理論,詳細(xì)介紹了K-means聚類算法,分析了該算法的優(yōu)缺點(diǎn),之后定義了銀行客戶進(jìn)行聚類。最后,本文按照已經(jīng)建立的銀行客戶分類模型,對來自東北某家銀行財(cái)務(wù)部的詳細(xì)交易數(shù)據(jù),進(jìn)行實(shí)際的銀行客戶聚類實(shí)驗(yàn)。最后對聚類結(jié)果進(jìn)行了詳細(xì)的分析和總結(jié)。
數(shù)據(jù)挖掘;聚類算法;銀行;K-means聚類算法
信貸是業(yè)務(wù)是我國商業(yè)銀行收入的主要來源,信貸風(fēng)險(xiǎn)也成為其面臨的主要風(fēng)險(xiǎn)。在目前的社會環(huán)境下、經(jīng)濟(jì)環(huán)境和法制環(huán)境,銀行必須對現(xiàn)有的技術(shù)充分利用,更好的學(xué)習(xí)與借鑒其他成功的銀行案例,在此基礎(chǔ)上,我們必須健全和完善內(nèi)部的信貸風(fēng)險(xiǎn)管理機(jī)制,提高銀行的市場競爭力和生存能力。為了更好的進(jìn)行信貸風(fēng)險(xiǎn)管理機(jī)制,我們選擇了把不同的客戶類型進(jìn)行分類管理,以提高我們對客戶的管理以及維護(hù)客戶的關(guān)系,讓資源最大化。
對于不同的客戶群體,我們該如何進(jìn)行有效的劃分,聚類是數(shù)據(jù)挖掘的主要方法之一,是一個(gè)搜索簇的無監(jiān)督學(xué)習(xí)過程,它從大量無序的數(shù)據(jù)中發(fā)現(xiàn)隱含的、有效的、有價(jià)值的、可理解的模式[1]。從聚類的定義可以看出,聚類算法非常適合用于對銀行客戶進(jìn)行分類。
(一)K-Means聚類算法的目標(biāo)函數(shù)
對于給定的一個(gè)包含n個(gè)d維數(shù)據(jù)點(diǎn)的數(shù)據(jù)集X={x1,x2,…,xi,…},其中xi∈Rd,以及要生成的數(shù)據(jù)子集的數(shù)目K,K-Means聚類算法將數(shù)據(jù)對象組織為K個(gè)劃分C={ck,i=1,2,…K}。每個(gè)劃分代表一個(gè)類ck,每個(gè)類ck有一個(gè)類別中心ui。選取歐氏距離作為相似性和距離判斷準(zhǔn)則,計(jì)算該類內(nèi)各點(diǎn)到聚類中心μi的距離平方和:
顯然,根據(jù)最小二乘法和拉格朗日原理,聚類中心uk應(yīng)該取為類別ck類各數(shù)據(jù)點(diǎn)的平均值。
K-means聚類算法從一個(gè)初始的K類別[2]劃分開始,然后將各數(shù)據(jù)點(diǎn)指派到各個(gè)類別中,以減小總的距離平方和。因?yàn)镵-means聚類算法中總的距離平方和隨著類別個(gè)數(shù)K的增加而趨向于減小 (當(dāng)K=n時(shí),J(C)=0)。因此,總的距離平方和只能在某個(gè)確定的類別個(gè)數(shù)K下,取得最小值。
(二)k-means算法的缺點(diǎn)
1.聚類個(gè)數(shù)值k值的確定。K的值是希望通過聚類產(chǎn)生k個(gè)類,是初始的數(shù)據(jù)凝聚點(diǎn)的個(gè)數(shù)。k值由人為輸入決定。大多數(shù)時(shí)候,應(yīng)該分成多少個(gè)類簇是未知的,只是憑經(jīng)驗(yàn)進(jìn)行決定,由此產(chǎn)生的聚類結(jié)果往往偏差較大。
2.初始數(shù)據(jù)凝聚點(diǎn)的選擇影響最終結(jié)果。傳統(tǒng)的K-means算法的凝聚點(diǎn)是隨機(jī)選取的,如果初始凝聚點(diǎn)不一樣,最終的聚類結(jié)果也將有很大差異。
(一)類別個(gè)數(shù)K的選擇
Elbow方法[3-4]:對于不同的聚類個(gè)數(shù)k,計(jì)算出每個(gè)k下的損失函數(shù)E=的變化趨勢:
最初由于K較小,類型的分裂 (增加)會使J值迅速減小,但當(dāng)K增加到一定數(shù)值時(shí),J值減小速度會減慢,直到當(dāng)K等于總樣本數(shù)N時(shí),J=0,這時(shí)意味著每類樣本自成一類,每個(gè)樣本就是聚類中心。如圖3所示,曲線的拐點(diǎn)A對應(yīng)著接近最優(yōu)的K值,最優(yōu)K值是對J值減小量、計(jì)算量以及分類效果等進(jìn)行權(quán)衡得出的結(jié)果。而在實(shí)際應(yīng)用中,經(jīng)常對同一數(shù)據(jù)集,取不同的K值,獨(dú)立運(yùn)行K-means聚類算法,然后由領(lǐng)域?qū)<疫x取最有意義的聚類劃分結(jié)果。
(二)初始聚類中心的選取
經(jīng)典的K-means聚類算法的初始聚類中心是隨機(jī)選取的。我們選擇了隨機(jī)重啟動(dòng)K-means聚類算法[5-6]是目前工程中應(yīng)用最廣泛的初始聚類中心選取方法,其過程如圖4所示。
多次重啟動(dòng)k-means聚類算法流程圖
本文主要研究銀行客戶聚類。銀行客戶通常分為企業(yè)客戶和個(gè)人客戶。本文以銀行的個(gè)人客戶為研究對象,進(jìn)行客戶聚類的具體應(yīng)用。
根據(jù)實(shí)驗(yàn)的效果,進(jìn)行對結(jié)果進(jìn)行了分析:
(一)第一類客戶:黃金優(yōu)質(zhì)客戶
客戶特征:已實(shí)現(xiàn)價(jià)值很高,未來價(jià)值很高,忠實(shí)度很高。在銀行已實(shí)現(xiàn)了很大交易額,已經(jīng)給銀行帶來了豐厚的利潤,未來仍然能夠有潛力給銀行帶來大量利潤,且客戶的流失風(fēng)險(xiǎn)非常小。的營銷策略:應(yīng)該不斷保持與此類客戶的積極溝通,隨時(shí)關(guān)注客戶的心理需求,提供最好的服務(wù)和優(yōu)惠政策,以期得到此類客戶的滿意度和更高的忠實(shí)度。
(二)第二類客戶:一般價(jià)值客戶
客戶特征:此類客戶在過去的時(shí)間段內(nèi)并沒有給銀行帶來很大的收益,也不具有很大的未來價(jià)值,但對本銀行具有很高的忠實(shí)度,比較信賴和滿意本銀行,經(jīng)常在本銀行進(jìn)行小筆交易。營銷策略:不必對此類客戶進(jìn)行過多關(guān)注,只需要進(jìn)行正常服務(wù)就好,可以偶爾進(jìn)行小額產(chǎn)品推銷,沒必要在此類客戶身上花費(fèi)過多成本。
(三)第三類客戶:潛在優(yōu)質(zhì)客戶
客戶特征:這一類客戶在本銀行的已實(shí)現(xiàn)價(jià)值并不理想,可是具有較明朗的未來價(jià)值和很高的忠實(shí)度。營銷策略:必須提高為這類客戶提供的服務(wù)的質(zhì)量,給予這類用戶更高的關(guān)注度,時(shí)刻關(guān)注其購買需求,適時(shí)對其推行新的產(chǎn)品,使這類客戶的滿意度和信賴感逐漸上升,以期發(fā)展未來的長久客戶關(guān)系,竭力將其發(fā)展成黃金優(yōu)質(zhì)客戶。
(四)第四類客戶:完全無價(jià)值客戶
客戶特征:這個(gè)類別的客戶已實(shí)現(xiàn)價(jià)值很小,未來價(jià)值也很小,且對銀行的忠實(shí)度非常低。
本文的主要內(nèi)容以及創(chuàng)新工作如下:
首先介紹核函數(shù)的一些性質(zhì)及判定準(zhǔn)則,從而提出一種能適應(yīng)人們需求的核函數(shù)構(gòu)造方法。
其次對于一般的降維方法,往往會丟失數(shù)據(jù)之間的相關(guān)信息,在本文提出使用多維尺度變換的方法,不僅降維效果明顯,而且最大程度的保留了數(shù)據(jù)之間的相關(guān)信息,使聚類效果更好。
然后提出一種新的衡量聚類結(jié)果的有效性評價(jià)指標(biāo),既考慮類內(nèi)關(guān)系又考慮了類間的關(guān)系,在此基礎(chǔ)上提出一種自適應(yīng)的K均值聚類算法,避免了K均值聚類算法對聚類數(shù)K敏感的問題。
最后對于半監(jiān)督的K均值聚類算法,提出使用自適應(yīng)算法預(yù)估聚類數(shù)K,在利用最優(yōu)目標(biāo)函數(shù)法進(jìn)行調(diào)整,進(jìn)而得到最佳的聚類中心,與最大最小距離法相比復(fù)雜度大大的降低,而且可以處理不完備標(biāo)記的半監(jiān)督數(shù)據(jù)集合。
[1]關(guān)卓威.基于臨近空間平臺的立體信息獲取及可視化技術(shù)研究[D].哈爾濱工業(yè)大學(xué)博士學(xué)位論文,2014.
[2]李博雷.超越交易重塑銀行與客戶關(guān)系——互聯(lián)網(wǎng)時(shí)代銀行業(yè)客戶體驗(yàn)管理策略探索[J].清華金融評論.2014(9).
[3] K uo R.J.Integration of self-organizing feature maps neural network and genetic K -means algorithm for market segmentation[J].Expert Systems with Applications,2006(30):313-324.
[4] Hai-Jun Rong,Yew -Soon Ong,Ah-Hwee Tan,Zexuan Zhu.A fast pruned-extreme learning machine for classification problem [J].Neural computing,2008,72(3):359-366.
[5] Gerbard R,Goldman O,Spiegler I.Investigating diversity of clustering methods:An empirical comparison[J].Data& K nowledge Engineering,2007,63(1):155 -166.
[6] Jain AK,Dubes RC.Algorithms for C lustering Data[M].Prentice-Hall Advanced Reference Series,1998.1-334.
龍林 (1994-),男,漢族,重慶市開州人,碩士研究生,碩士,在山西財(cái)經(jīng)大學(xué)就讀于計(jì)算機(jī)應(yīng)用技術(shù)專業(yè),研究方向:主要從事數(shù)據(jù)挖掘分析方面。