王一然,楊柱元,雷靖,2
(1.云南民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南昆明650500; 2.云南省軟件工程重點(diǎn)實(shí)驗(yàn)室,云南昆明650091)
Fuzzy聚類(lèi)分析法在樓盤(pán)分類(lèi)中的應(yīng)用
王一然1,楊柱元1,雷靖1,2
(1.云南民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南昆明650500; 2.云南省軟件工程重點(diǎn)實(shí)驗(yàn)室,云南昆明650091)
基于傳統(tǒng)的Fuzzy等價(jià)關(guān)系聚類(lèi)法,由Fuzzy相似矩陣構(gòu)建Fuzzy等價(jià)矩陣,對(duì)傳遞閉包采用Warshall算法求解,并選擇不同置信水平下的分類(lèi),利用偏差度得到最優(yōu)聚類(lèi).結(jié)合北京市朝陽(yáng)區(qū)近3個(gè)月新開(kāi)樓盤(pán)的數(shù)據(jù),選擇可靠性指標(biāo),在最佳置信水平的基礎(chǔ)上對(duì)其進(jìn)行最優(yōu)聚類(lèi),實(shí)驗(yàn)結(jié)果與事實(shí)吻合.
Fuzzy等價(jià)矩陣;Warshall算法;最佳置信水平;最優(yōu)聚類(lèi)
隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,聚類(lèi)分析作為數(shù)據(jù)分析與可視化的有效工具,廣泛地用于數(shù)據(jù)分析[1]、模式識(shí)別[2]和圖像處理[3]等方面.聚類(lèi)分析的基本思想是用相似程度來(lái)衡量事物之間的親疏程度,并以此來(lái)實(shí)現(xiàn)分類(lèi).傳統(tǒng)的聚類(lèi)分析屬于硬劃分,即把數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)都精確地劃分到某個(gè)類(lèi)中.然而現(xiàn)實(shí)事物的數(shù)據(jù)在屬性方面存在模糊性,不存在非此即彼的性質(zhì),所以用模糊理論來(lái)進(jìn)行聚類(lèi)分析更加符合客觀實(shí)際.正因?yàn)榫垲?lèi)分析應(yīng)用廣泛,各種聚類(lèi)方法也層出不窮,如基于模糊圖論的最大樹(shù)法[4],由Dunn定義并由Bezdek推廣的模糊C-均值聚類(lèi)算法FCM[5]等,各種方法均有利弊,如FCM算法的缺陷是會(huì)陷入局部最優(yōu)值和初始值敏感的問(wèn)題.
本文首先對(duì)聚類(lèi)對(duì)象進(jìn)行量綱處理,利用Warshall算法改進(jìn)傳統(tǒng)的平方法求得傳遞閉包,由Fuzzy相似矩陣得到Fuzzy等價(jià)矩陣,選擇不同的置信水平下的不同分類(lèi),再利用偏差度求得最佳置信水平,并結(jié)合有關(guān)樓盤(pán)數(shù)據(jù)得到最優(yōu)聚類(lèi),以便客戶(hù)根據(jù)不同需求進(jìn)行選擇.
聚類(lèi)分析的基本原理是用相似度來(lái)衡量事物之間的親疏遠(yuǎn)近關(guān)系,并以此來(lái)實(shí)現(xiàn)分類(lèi).Fuzzy聚類(lèi)分析的實(shí)質(zhì)則是根據(jù)研究對(duì)象本身的屬性決定的,是基于Fuzzy等價(jià)關(guān)系進(jìn)行的分類(lèi).
1.1 明確聚類(lèi)對(duì)象
1.2 原數(shù)據(jù)規(guī)格化
由于m個(gè)特征標(biāo)準(zhǔn)的量綱級(jí)不一定相同,所以在確定相似程度之前先要對(duì)數(shù)據(jù)進(jìn)行規(guī)格化處理,以消除特征指標(biāo)的量綱差別所帶來(lái)的影響.數(shù)據(jù)規(guī)格化[6]的方法有很多,如均值規(guī)格化、中心規(guī)格化等等.在此選取極差規(guī)格化方法,則
其中
1.3 建立Fuzzy相似矩陣
將數(shù)據(jù)規(guī)格化后,為構(gòu)造Fuzzy關(guān)系矩陣,即為相似關(guān)系矩陣[7],就要用數(shù)rij∈[0,1]來(lái)刻畫(huà)對(duì)象xi和xj之間的相似程度,即各個(gè)被分類(lèi)對(duì)象之間的距離.建立相似矩陣的方法也有很多,例如數(shù)量級(jí)法、余弦幅度法、最大最小法等等,這里選用絕對(duì)值減數(shù)法[8],令
其中c>0為常數(shù),可以根據(jù)實(shí)際情況選定,使得rij∈[0,1].如果rij中出現(xiàn)負(fù)值,可以采用下面方法將全體rij進(jìn)行重新調(diào)整.
1.4 改造Fuzzy相似關(guān)系矩陣為Fuzzy等價(jià)關(guān)系矩陣
由于相似關(guān)系矩陣一般只滿(mǎn)足自反性和對(duì)稱(chēng)性,不具備傳遞性,所以需要將Fuzzy相似關(guān)系矩陣改造為Fuzzy等價(jià)關(guān)系矩陣[6],一般構(gòu)造等價(jià)關(guān)系的方法是用傳遞閉包法將R改造成為()t R,而此時(shí)()t R具備了傳遞性.而求傳遞閉包[9]的一般方法是平方法,即為R→R2→R4→…→R2P=()t R,直到某一步RP=R2p時(shí)停止計(jì)算,求得的RP即為Fuzzy等價(jià)關(guān)系矩陣.由于此種方法的計(jì)算量大、耗時(shí)長(zhǎng),所以在此我們將具有計(jì)算量小、較為簡(jiǎn)單等特點(diǎn)的Warshall算法[8]由有限論域的二元關(guān)系推廣運(yùn)用到模糊關(guān)系上來(lái)進(jìn)行傳遞閉包的計(jì)算.
設(shè)有限論域X={x1,x2,…,xi},R為X上的模糊關(guān)系,MR為相應(yīng)的模糊關(guān)系矩陣,通過(guò)遞歸的方法構(gòu)造n+1個(gè)矩陣W0,W1,W2,…,Wn;W0為R的模糊關(guān)系矩陣MR,即為模糊關(guān)系R的傳遞閉包的相應(yīng)矩陣t( MR).計(jì)算步驟如下:
1)令W0=WR;
2)假設(shè)Ws-1已經(jīng)求出,則,其中∨、∧分別表示取大、取小值;
3)重復(fù)2)的過(guò)程,直到求出Wt;
4)根據(jù)Wt寫(xiě)出模糊關(guān)系R的傳遞閉包t( R),算法結(jié)束.可以運(yùn)用Matlab對(duì)Warshall算法進(jìn)行編程計(jì)算.
1.5 Fuzzy聚類(lèi)
Fuzzy聚類(lèi)的方法有很多,例如編網(wǎng)聚類(lèi)法、最大樹(shù)法、Fuzzy C-均值和K-均值聚類(lèi)算法等等.本文選取的是基于Fuzzy等價(jià)關(guān)系的Warshall傳遞閉包方法來(lái)進(jìn)行聚類(lèi).上述運(yùn)用Warshall算法得到傳遞閉包t( R)后,對(duì)Fuzzy等價(jià)關(guān)系t( R)進(jìn)行聚類(lèi)處理,給定不同的置信水平λ,求矩陣t( Rλ),其中t( Rλ)中的元素屬于{0,1},即得到不同的置信水平下的分類(lèi).當(dāng)λ=0時(shí),被分類(lèi)對(duì)象并為一類(lèi),隨著λ的不斷增大,當(dāng)λ=1時(shí),又由粗到細(xì),每個(gè)對(duì)象自成一類(lèi),得到動(dòng)態(tài)聚類(lèi)譜系圖.但當(dāng)λ=0,1時(shí)這2種分類(lèi)本身沒(méi)有意義.
1.6 最佳置信水平的選擇
由于最后得到的是動(dòng)態(tài)聚類(lèi),本身分為多少類(lèi)無(wú)從知曉,所以就要選擇最佳置信水平[10]λ所代表的分類(lèi)為最佳分類(lèi),在此用偏差度來(lái)刻畫(huà)最佳分類(lèi).
定義2設(shè)R=(rij)n×n為Fuzzy相似矩陣,Cλ為t( R)λ的λ水平的一個(gè)等價(jià)類(lèi),則稱(chēng)
為Rλ的λ偏差;而稱(chēng)
為R=(rij)n×n的λ偏差度.
定義3當(dāng)選定λ1和λ2,且滿(mǎn)足0<λ1<λ2<1,對(duì)每一個(gè)λ∈[λ1,λ2],則
稱(chēng)S( Rλ0)為置信約束[λ1,λ2]之下的最優(yōu)聚類(lèi)[10].
選取北京市朝陽(yáng)區(qū)2011年6—9月新開(kāi)的13個(gè)樓盤(pán)進(jìn)行聚類(lèi)分析,并在借鑒專(zhuān)家經(jīng)驗(yàn)的基礎(chǔ)上選取了6個(gè)指標(biāo)(環(huán)境、均價(jià)、戶(hù)型、交通、配套、物業(yè))作為衡量標(biāo)準(zhǔn).如表1所示.
2.1 數(shù)據(jù)處理
將表1的數(shù)據(jù)根據(jù)式(1)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,得到矩陣X13×6,根據(jù)式(2)得到相似關(guān)系矩陣R13×13.
表1 2011年7—9月北京市朝陽(yáng)區(qū)新開(kāi)盤(pán)普通住宅得分(100)
根據(jù)Warshall算法得到傳遞閉包()t R=W6,即為Fuzzy等價(jià)矩陣.再根據(jù)不同的置信水平λ得到不同的t( Rλ).以λ∈[0.54,0.61)為例,得到t( Rλ).
表2 λ值對(duì)應(yīng)的分類(lèi)及偏差度
由此我們可以得到一個(gè)分類(lèi),即X分為3類(lèi):{AIM},{BCDEGHJL},{FK}.并以此類(lèi)推不同的λ值對(duì)應(yīng)著不同的分類(lèi).又因?yàn)榈玫绞且粋€(gè)動(dòng)態(tài)聚類(lèi)圖,所以要選出最佳置信水平,從而得到最佳分類(lèi).根據(jù)式(4)、(5)得到偏差S( Cλ)和偏差度S( Rλ),見(jiàn)表2.
再根據(jù)式(6)得到min{ S( Rλ)}=0,即當(dāng)λ=0.54時(shí)的聚類(lèi)為最優(yōu)聚類(lèi).
2.2 數(shù)據(jù)分析
通過(guò)分析,將樓盤(pán)分為3類(lèi).{AIM}的共同點(diǎn)是交通便利,戶(hù)型設(shè)計(jì)合理,但是配套設(shè)施不健全;{BCDEGHJL}的共同點(diǎn)是房?jī)r(jià)相對(duì)較高;{FK}的共同點(diǎn)是戶(hù)型偏大.因此通過(guò)模糊聚類(lèi)分析,不同的客戶(hù)可以根據(jù)不同的需求選取適合的樓盤(pán).
通過(guò)Fuzzy聚類(lèi)分析對(duì)房地產(chǎn)中普通住宅樓盤(pán)進(jìn)行了分類(lèi),一方面方便了不同客戶(hù)根據(jù)各人需求選擇適合的住宅,另一方面也便于開(kāi)發(fā)商根據(jù)不同群體設(shè)計(jì)和規(guī)劃不同的樓盤(pán).不過(guò)影響決策房地產(chǎn)市場(chǎng)的因素還有很多,比如國(guó)家政策影響、當(dāng)?shù)氐慕?jīng)濟(jì)消費(fèi)情況等等,所以要對(duì)房地產(chǎn)市場(chǎng)進(jìn)行分類(lèi)總結(jié)還需要全方位地考慮一些潛在的因素.
Fuzzy聚類(lèi)分析法與軟計(jì)算方法有著緊密的聯(lián)系,它是一個(gè)不斷發(fā)展的分析方法,例如將神經(jīng)網(wǎng)絡(luò)、灰度聚類(lèi)、遺傳算法[11]等與Fuzzy聚類(lèi)結(jié)合起來(lái)的綜合研究,所以Fuzzy聚類(lèi)的研究仍有很廣闊的前景.
[1]聶承啟,聶偉強(qiáng),彭云.數(shù)據(jù)挖掘中的模糊聚類(lèi)分析[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(33):184-186.
[2]眭志方,張冰,朱志宇.模糊聚類(lèi)和模式識(shí)別在目標(biāo)識(shí)別中的應(yīng)用[J].電光與控制,2007,14(4):35-38.
[3]婁銀霞,程銘,全惠云.基于FCM和遺傳算法的圖像模糊聚類(lèi)分析[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(35):173-176.
[4]陳東升,李科學(xué),趙麗賓.Fuzzy圖最大樹(shù)聚類(lèi)方法及其應(yīng)用[J].運(yùn)籌與管理,2007,16(3):69-73.
[5]劉坤朋,羅可.改進(jìn)的模糊C均值聚類(lèi)算法[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(21):97-98.
[6]胡寶清.模糊理論基礎(chǔ)[M].武漢:武漢大學(xué)出版社,2010:192.
[7]郭建華,鄧麗娟.基于模糊聚類(lèi)分析的房地產(chǎn)投資決策評(píng)價(jià)[J].商場(chǎng)現(xiàn)代化,2009(20):57-58.
[8]張弢,紀(jì)德云.模糊聚類(lèi)分析法[J].沈陽(yáng)大學(xué)學(xué)報(bào),2000,12(2):73-79.
[9]何小亞,劉杰.求模糊關(guān)系傳遞閉包的一種算法[J].模糊系統(tǒng)與數(shù)學(xué),2006,20(3):83-85.
[10]王秋萍,張道宏.從Warshall算法到求模糊矩陣傳遞閉包的一個(gè)簡(jiǎn)捷算法[J].西安理工大學(xué)學(xué)報(bào),2006,22(3):274-277.
[11]宮尚寶,郭玉翠.基于遺傳算法的模糊聚類(lèi)分析[J].模糊系統(tǒng)與數(shù)學(xué),2010,24(6):123-128.
(責(zé)任編輯萬(wàn)志瓊)
Application of Fuzzy Cluster Analysis to the Classification of Real Estate
WANG Yi-ran1,YANG Zhu-yuan1,LEI Jing1,2
(1.School of Mathematics and Computer Science,Yunnan University of Nationalities,Kunming 650500,China; 2.Key Laboratory in Software Engineering of Yunnan Province,Kunming 650091,China)
Based on the traditional clustering method for fuzzy equivalence relation,the fuzzy equivalence matrix is structured by the fuzzy similarity matrix,and it solves the transitive closure with Warshall algorithm.Through the classification at different credit levels,the paper gets the best clustering through the degree of deviation and reliability indexes based on the real estate data of the past three months in Chaoyang District of Beijing.The best clustering based on the final optimum credit level proves to be in line with the actual situation.
fuzzy equivalence matrix;Warshall algorithm;optimum credit level;best clustering
O 29
A
1672-8513(2012)04-0266-04
10.3969/j.issn.1672-8513.2012.04.009
2011-10-12.
國(guó)家自然科學(xué)基金(11061039);云南省自然科學(xué)基金(2011FZ169);云南民族大學(xué)人才引進(jìn)基金(2011SE15).
王一然(1987-),女,碩士研究生.主要研究方向:模糊數(shù)據(jù)統(tǒng)計(jì).
楊柱元(1964-),男,博士,教授,碩士生導(dǎo)師.主要研究方向:函數(shù)逼近論.