亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聚類算法在客戶細分中的應用研究

        2010-07-09 11:30:14
        制造業(yè)自動化 2010年8期
        關鍵詞:聚類網(wǎng)格密度

        鄭 華

        (廣西工商職業(yè)技術學院,南寧 530003)

        0 引言

        經(jīng)濟的快速發(fā)展,企業(yè)的相互競爭,市場分析理論認為,20%的客戶帶來約80%的利潤,通常情況下,只有少部分高價值的客戶才能夠為企業(yè)帶來大部分利潤。企業(yè)借助基于對客戶價值的評估,同時按照企業(yè)內部各個營運小組對公司的財務貢獻完成對客戶的細分。通常情況下,少部分高價值的客戶能夠為公司帶來大部分利潤。進行客戶細分后,公司可以為這部分客戶提供足夠的技術和人力資源的支持,以滿足這些高價值客戶對公司客戶服務的期望。

        對客戶進行有效細分的基礎是通過公司所掌握的客戶數(shù)據(jù)全面地了解客戶。這種通過數(shù)據(jù)推動客戶細分的方法,涉及到數(shù)據(jù)庫技術以及可以有效訪問、分析客戶信息的營銷自動化應用。目前,許多公司都采用了復雜的數(shù)據(jù)挖掘工具,以便非技術型的用戶也能利用大量的事務處理級數(shù)據(jù)來進行有效的客戶細分。

        1 聚類算法的概述

        聚類是數(shù)據(jù)挖掘中的一種主要技術。將一組對象的集合分組成為由類似的對象組成的多個類的過程稱為聚類。分組后得到的相同類中的對象相似,而不同類中的對象相異。聚類分析已經(jīng)廣泛地應用于許多領域,包括模式識別、數(shù)據(jù)分析、圖像處理和市場研究。在商務上,聚類可以通過顧客數(shù)據(jù)將顧客信息分組,并對顧客的購買模式進行描述。同時,聚類分析常常作為數(shù)據(jù)挖掘的第一步,對數(shù)據(jù)進行預處理,然后用其他算法對得到的類進行進一步分析。聚類算法可以被分為劃分方法、層次方法、基于密度方法、基于網(wǎng)格方法和基于模型方法。

        1)劃分方法(PAM: PArtitioning method)。首先創(chuàng)建k個劃分,k為要創(chuàng)建的劃分個數(shù);然后利用一個循環(huán)定位技術通過將對象從一個劃分移到另一個劃分來幫助改善劃分質量。典型的劃分方法包括:k-means,k-medoids,CLARA(Clustering LARge Application),CLARANS(Clustering Large Application based upon RANdomized Search)。

        2)層次方法(hierarchical method)。創(chuàng)建一個層次以分解給定的數(shù)據(jù)集。該方法可以分為自上而下(分解)和自下而上(合并)兩種操作方式。

        3)基于密度方法,根據(jù)密度完成對象的聚類。它根據(jù)對象周圍的密度(如DBSCAN)不斷增長聚類。

        4)基于網(wǎng)格方法,首先將對象空間劃分為有限個單元以構成網(wǎng)格結構;然后利用網(wǎng)格結構完成聚類。

        5)基于模型方法,它假設每個聚類的模型并發(fā)現(xiàn)適合相應模型的數(shù)據(jù)。

        2 K-平均算法的基本思想

        K均值聚類,即眾所周知的C均值聚類,已經(jīng)應用到各種領域。它的核心思想如下:算法把n個向量xj(1,2…,n)分為c個組Gi(i=1,2,…,c),并求每組的聚類中心,使得非相似性(或距離)指標的價值函數(shù)(或目標函數(shù))達到最小。當選擇歐幾里德距離為組j中向量xk與相應聚類中心ci間的非相似性指標時,價值函數(shù)可定義為:

        一般來說,可用一個通用距離函數(shù)d(xk,ci)代替組I中的向量xk,則相應的總價值函數(shù)可表示為:

        為簡單起見,這里用歐幾里德距離作為向量的非相似性指標,且總的價值函數(shù)表示為式(1)。

        劃分過的組一般用一個c×n的二維隸屬矩陣U來定義。如果第j個數(shù)據(jù)點xj屬于組i,則U中的元素uij為1;否則,該元素取0。一旦確定聚類中心ci,可導出如下使式(1)最小uij:

        重申一點,如果ci是xj的最近的聚類中心,那么xj屬于組i。由于一個給定數(shù)據(jù)只能屬于一個組,所以隸屬矩陣U具有如下性質:

        另一方面,如果固定uij則使式(1)式最小的最佳聚類中心就是組I中所有向量的均值:

        為便于批模式運行,這里給出數(shù)據(jù)集xi(1,2…,n)的K均值算法;該算法重復使用下列步驟,確定聚類中心ci和隸屬矩陣U:

        1)初始化聚類中心ci,i=1,…,c。典型的做法是從所有數(shù)據(jù)點中任取c個點。

        2)用式(3)確定隸屬矩陣U。

        3)根據(jù)式(1)計算價值函數(shù)。如果它小于某個確定的閥值,或它相對上次價值函數(shù)質的改變量小于某個閥值,則算法停止。

        4)根據(jù)式(4)修正聚類中心。返回2)。

        該算法本身是迭代的,且不能確保它收斂于最優(yōu)解。K均值算法的性能依賴于聚類中心的初始位置。所以,為了使它可取,要么用一些前端方法求好的初始聚類中心;要么每次用不同的初始聚類中心,將該算法運行多次。此外,上述算法僅僅是一種具有代表性的方法;我們還可以先初始化一個任意的隸屬矩陣,然后再執(zhí)行迭代過程。

        K均值算法也可以在線方式運行。這時,通過時間平均,導出相應的聚類中心和相應的組。即對于給定的數(shù)據(jù)點x,該算法求最近的聚類中心ci,并用下面公式進行修正:

        3 聚類算法的改進

        聚類是一個富有挑戰(zhàn)的研究領域,它的潛在應用提出了各自特殊的要求。K-平均算法處理不同類型屬性的能力取決于距離的計算方法,及對不同類型數(shù)據(jù)的處理,但該算法還是有以下不足之處:

        1)孤立點是數(shù)據(jù)庫中與數(shù)據(jù)的一般模式不一致的數(shù)據(jù)的對象。在K-平均算法中,孤立點的存在對算法結果的影響是很大的,因為迭代后的中心點是數(shù)據(jù)的平均值,如果有距離較遠的孤立點,會將整個族的中心拉遠,從而導致結果的偏差。

        2)K-平均算法需要人工輸入聚類的數(shù)目,加重了用戶的負擔,也使使用更為復雜化了。

        通過對聚類方法的總結與比較,可以發(fā)現(xiàn)在已有的聚類算法中,一大類都是基于“距離”的概念,例如:傳統(tǒng)的基于歐氏幾何距離的聚類算法,常見的有K-MEANS, K-MEDIODS算法,這類算法的缺點在于處理大數(shù)據(jù)集和高維數(shù)據(jù)集時效果不好,另一方面它能發(fā)現(xiàn)的聚類個數(shù)常常依賴于用戶參數(shù)的指定,而這對用戶來說經(jīng)常是很困難的。而另一類是要人們確定一些參數(shù)或者函數(shù)的,這在高維空間的數(shù)據(jù)來說是很難確定的,這類方法包括了基于密度和模型的方法。至于基于網(wǎng)格的方法,它的缺點就是聚類質量較差。這里我們采取一種新的思路,將基于網(wǎng)格和密度的方法結合起來。它的優(yōu)點在于,一方面,能夠自動發(fā)現(xiàn)包含你感興趣知識的子空間,并將里面存在的所有聚類挖掘出來;另一方面,它能很好地處理高維數(shù)據(jù)和大數(shù)據(jù)集的數(shù)據(jù)表格。針對這種思想,人們也曾提出過一些算法,如CLIQUE,DBCA,m IGDCA等。

        CLIQUE算法是一種典型的基于密度(關系)和網(wǎng)格(變換)的聚類方法,它利用了關聯(lián)規(guī)則挖掘中的先驗性質:如果一個k維單元是密集的,那么它的k-1維空間上的投影也是密集的。它的基本思想是把可k維的數(shù)據(jù)空間分成互不覆蓋的矩形單元。如果一個單元中的數(shù)據(jù)點的個數(shù)大于一個閡值傭戶的輸入?yún)?shù),則稱該單元是密集的。一個cluster是指連接的密集單元的最大集合。該算法具有網(wǎng)格類算法效率高的優(yōu)點,對數(shù)據(jù)輸入順序不敏感,可以處理高維的數(shù)據(jù),但需要用戶輸入數(shù)據(jù)聚類空間等間隔距離和密度閉值參數(shù)。由于方法簡化,聚類結果的精確可能降低。

        受CLIQUE算法的啟發(fā),并在此算法的基礎上對其進行了改進和完善。既保留了其基于網(wǎng)格算法的運行速度快的特點,又通過細化技術彌補了該類算法精度不高的弱點。滿足了覆蓋的條件,集合r中的最大區(qū)域的個數(shù)不再減少。

        3.1 問題的描述

        設R={Rl,R2,…,Rn}是n維立方體,其中Rl,R2…,Rn分別表示n維空間中的一個維。

        算法的輸入是n維空間中的點集,其中r={rl,r2…,rn}表示點集中的一個點。通過輸入分割參數(shù)∮,可以將空間R的每一維分割成相同的∮個區(qū)間,從而將整個空間分成了有限個不相交的子空間,每個子空間可以表示為由n個分量組成的形式{Ul、U2…,u小其中Ui表示這一子空間中的一個維,其取值為{Ri/。/∮,Ri+1/∮}

        一個子空間U的中心點UC是一個n維向量{ucl,uc2. . ..ucn} ,其中uci=(li+hi)/2。其中l(wèi)i和hi分別為該區(qū)間的最小值和最大值。假設一個子空間U包含k個數(shù)據(jù)點p1,p2...pk,則U的重心點PU也是一個n維向量{pul, pu2... pun},其中PUi=(pli+P2i+...+pki)/k。

        判定點r={r1,r2...rn}是否落入?yún)^(qū)間{Ul, U2,…,Un}內,主要是比較是否r的每個分量都滿足Ri/∮<=Ri<Ri+l/∮}。在此基礎上還要定義子空間u的選擇率s(U), s(U)表示如下:

        s(U)=(u字空間中點的個數(shù))/(整個空間中點的總個數(shù))

        對于用戶的輸入?yún)?shù)T,如果s(U)> T,則稱數(shù)據(jù)子空間U是密集的,反之。則是松散的。

        一個聚類可以定義為,在n維空間中由一些連通的密集子空間組成的連通分支。一個n維中的子空間Ul, U2稱為連通的是這樣定義的:當且僅當這兩個子空間只有一個公共的面或者Ul, U2都跟另一個子空間U3連通。兩個子空間Ul={ u1, u2…uk},U2={u'l、u'2…,u'k}有一個公共的面是指,存在k1個維度(不妨設這k1維就是1, 2,…,k1,有uj=u'j成立(j=1, 2,…,k),并且對于第k維有uk<>u'k。

        3.2 算法的設計

        算法的目的在于要能夠從源數(shù)據(jù)空間中自動發(fā)現(xiàn)這樣一些子空間,使得當所有的數(shù)據(jù)記錄投影到這個子空間之后,能夠形成具有較高點集密度的區(qū)域。為了使得計算點密度的方法簡單一些,將數(shù)據(jù)空間分割成網(wǎng)格狀,將數(shù)據(jù)空間中的每一維劃分成相同的區(qū)間數(shù),這就意味著每一個單元具有相同的“體積”,這樣單元中點的密度的計算可以轉換成簡單的點計數(shù),然后將落到某個單元中的點的個數(shù)當成這個單元的密度。這時可以指定一個閥值,當某個單元格中點的個數(shù)大于該閥值時,就說這個單元格是密集的。最后,聚類也就定義為連通的所有的“密集的”單元格的集合。

        3.3 算法的實現(xiàn)

        給定一個數(shù)據(jù)集合,算法的目標是找到cluster,并標識每個數(shù)據(jù)對象所屬的cluster。該算法由以下三個步驟組成:1)把數(shù)據(jù)集合中的點映射到多個單元中;2)對非密集單元移動,直到它變成密集單元或移出原來的單元范圍;3)標識cluster。

        下面具體說明每個步驟的方法。

        1)數(shù)據(jù)空間的劃分和數(shù)據(jù)集合的映射。

        設置閥值T及預處理,把n維空間的每一維劃分為∮個互不相交的區(qū)間,并統(tǒng)計每個區(qū)間單元格內的點數(shù),即區(qū)間的密度,得到所有非空區(qū)間信息,并按維的次序作為關鍵字排序,存儲區(qū)間位置、密度。

        2)細化技術。

        該步驟通過細化技術來發(fā)現(xiàn)新的密集區(qū)間,它的基本思想是把非密集區(qū)間向密集區(qū)間移動,從而獲得更好的聚類效果。

        部份源程序:

        實驗結果表明:改進的算法具有更好的全局尋優(yōu)能力、更快的收斂速度,且其解的精度更高對初始聚類中心的敏感度降低。

        4 結束語

        企業(yè)的競爭重點,正在經(jīng)歷著從以產(chǎn)品為中心向以客戶為中心的轉移,用改進的聚類算法解決企業(yè)客戶聚類分析問題,是可行的。這在支持企業(yè)決策方面有著極為重要的理論參考價值和實際應用意義,可以幫助高層管理者更好地管理企業(yè),使企業(yè)得到更好的順利發(fā)展。

        [1] 張雷,李人厚.人工免疫c一均值聚類算法[J].西安交通大學學報,2005,39(8):836-839.

        [2] 張世勇.一種新的混合粒子群優(yōu)化算法[J].重慶工商大學學報:自然科學版,2007,24(3):241-245.

        [3] Tang,z.h.,MaccLennan等.數(shù)據(jù)挖掘原理與應用:SQL Server 2005數(shù)據(jù)庫[M].清華大學出版社,2007,(1):215-230.

        [4] 劉瑜,鄭平,劉瑩.分析型CRM中客戶細分的決策樹分類技術綜述[J].軟件導刊.2006,(3):72-75.

        猜你喜歡
        聚類網(wǎng)格密度
        用全等三角形破解網(wǎng)格題
        『密度』知識鞏固
        密度在身邊 應用隨處見
        反射的橢圓隨機偏微分方程的網(wǎng)格逼近
        “玩轉”密度
        密度應用知多少
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        重疊網(wǎng)格裝配中的一種改進ADT搜索方法
        基于曲面展開的自由曲面網(wǎng)格劃分
        基于改進的遺傳算法的模糊聚類算法
        a午夜国产一级黄片| 日韩专区欧美专区| 好吊妞人成免费视频观看| 亚洲综合网一区二区三区| 久久这黄色精品免费久| 亚洲乱码一区二区av高潮偷拍的| 国产精品农村妇女一区二区三区| 亚洲白嫩少妇在线喷水| 久久中文字幕人妻淑女| 久久亚洲av午夜福利精品一区| 无码日韩精品一区二区三区免费| 好爽…又高潮了毛片免费看| 男女好痛好深好爽视频一区| 久久精品国产亚洲av蜜桃av| 极品粉嫩嫩模大尺度视频在线播放| 国产亚洲超级97免费视频| 成人做受黄大片| 看曰本女人大战黑人视频| 亚洲影院丰满少妇中文字幕无码| 亚洲av精品一区二区三| 免费看黄视频亚洲网站| 久久不见久久见免费视频6| 亚洲国产午夜精品理论片在线播放 | 国产综合久久久久久鬼色 | 极品精品视频在线观看| 久久在一区二区三区视频免费观看| 午夜不卡无码中文字幕影院| 丰满熟妇乱子伦| 成人区视频| 日韩在线手机专区av| 久久婷婷综合色一区二区| 欧美不卡一区二区三区 | 亚洲男人的天堂网站| 亚州五十路伊人网| 亚洲一区二区日韩精品| 嗯啊好爽高潮了在线观看| 精品999日本久久久影院| 妇女性内射冈站hdwwwooo | 欧美成人精品第一区二区三区| 毛片av在线播放亚洲av网站| 亚洲成人av一区免费看|