朱龍翔
【摘要】本文提出了一種基于聚類和模糊決策的綜合評(píng)價(jià)方法,利用k均值算法對(duì)評(píng)價(jià)樣本進(jìn)行初步分類,并對(duì)初步分類結(jié)果選取有價(jià)值的分類使用模糊決策進(jìn)行進(jìn)一步分析從而對(duì)該類樣本進(jìn)行評(píng)價(jià).
【關(guān)鍵詞】k均值;灰度預(yù)測(cè);相關(guān)性分析;綜合評(píng)價(jià)
聚類分析技術(shù)是數(shù)據(jù)挖掘技術(shù)的重要內(nèi)容之一,聚類分析可以將樣本集合中相似度高的個(gè)體聚合為一類,在樣本處理階段可以將樣本預(yù)先分類以降低需要分析的樣本集合容量.關(guān)聯(lián)度分析方法可以根據(jù)因素之間發(fā)展態(tài)勢(shì)的相似或相異程度來(lái)衡量因素間關(guān)聯(lián)的程度.
本文給出了一種基于聚類和關(guān)聯(lián)度分析的綜合評(píng)價(jià)方法,解決無(wú)后驗(yàn)知識(shí)情況下對(duì)無(wú)差別數(shù)據(jù)樣本進(jìn)行分組評(píng)價(jià)的問(wèn)題.最后以NBA球員為例給出仿真結(jié)果和分析.
一、綜合評(píng)價(jià)方法設(shè)計(jì)
針對(duì)NBA球員的評(píng)價(jià)方法主要依據(jù)出場(chǎng)率,投籃命中率,得分等技術(shù)要素進(jìn)行評(píng)估,但由于在對(duì)NBA球員進(jìn)行綜合分析時(shí)評(píng)價(jià)方式受到球員所處位置等因素限制,且各項(xiàng)要素間關(guān)聯(lián)復(fù)雜無(wú)法定量描述使得綜合評(píng)價(jià)模型難以建立.
聚類分析作為無(wú)指導(dǎo)學(xué)習(xí)的典型代表,能夠按照特定標(biāo)準(zhǔn)對(duì)數(shù)據(jù)集進(jìn)行合理劃分,確定每個(gè)對(duì)象所屬類別,從而將球員整體集合這個(gè)復(fù)雜數(shù)據(jù)集合分為由相似個(gè)體組成的多個(gè)個(gè)體集合,簡(jiǎn)化了問(wèn)題復(fù)雜性.
(一)K均值聚類分析
設(shè)待分析的球員數(shù)據(jù)樣本集X為n×m的矩陣,n為樣本個(gè)數(shù),m為特征數(shù)量,分類數(shù)為k,分類特征集Q={Q1,Q2,…,Qk},樣本間距離d為任意兩個(gè)體樣本間的歐氏距離,類歸屬矩陣W規(guī)模為n×k.K均值聚類解決問(wèn)題為找到一個(gè)類歸屬矩陣W最小化類平方誤差總和
P(W,Q)=∑kl=1∑ni=1wi,ld(Xi,Ql).
同時(shí)需滿足
∑kl=1wi,l=1,1≤i≤n,
wi,l∈{0,1},1≤i≤n,1≤l≤k.
其中,對(duì)每個(gè)wi,t需計(jì)算
wi,t=1 if d(Xi,Ql)≤d(Xi,Qt),for 1≤t≤k,
wi,t=0 for t≠l.
解決以上問(wèn)題可以以下方法遞歸解決.
1.選取初始的類特征向量集合Q0然后針對(duì)Q0計(jì)算得到W0.記步數(shù)t=0.
2.W=Wt依照以下方法計(jì)算Qt+1.
ql,j=∑ni=1wi,lxi,j∑ni=1wi,l.
如果此時(shí)P(Wt,Q)=P(W,Qt+1),則W,Qt為類歸屬矩陣和類特征向量集,否則進(jìn)行第3步.
3.Q=Qt+1,然后針對(duì)Q計(jì)算Wt+1.如果P(Wt,Q)=P(Wt+1,Q)或步數(shù)t超過(guò)給定迭代次數(shù)T,則Wt,Q為類歸屬矩陣和類特征向量集;否則步數(shù)t=t+1然后繼續(xù)第2步.
通過(guò)聚類分析,樣本集被劃分為k類特征集合為Q的數(shù)據(jù)子集,可通過(guò)q來(lái)觀測(cè)不同類別贗本集合的特征,選取需要的樣本子集進(jìn)行進(jìn)一步分析.同樣可作為同類優(yōu)選的第一步.
(二)基于相關(guān)度分析
在進(jìn)行模糊決策前需要對(duì)樣本中該分類的各要素進(jìn)行相關(guān)性分析以確定每個(gè)要素的權(quán)重因子.
1.相關(guān)性分析
由主觀給定的權(quán)重因子通常在通用性和可靠性上存在問(wèn)題,因此,本文通過(guò)對(duì)樣本特征進(jìn)行相關(guān)性分析來(lái)確定各特征的權(quán)重因子.
針對(duì)不同類別(位置)的NBA球員,可以選取歷年公認(rèn)該類別(位置)的最佳球員數(shù)據(jù)作為參考序列.
(a0(1),a0(2),…,a0(n)),
則相應(yīng)選取的m個(gè)特征序列為
(am(1),am(2),…,am(n)),m≥1.
則ai與參考序列a0在k球員身上體現(xiàn)的關(guān)聯(lián)系數(shù)ξi(k)計(jì)算方式如下:
ξi(k)=minr mins|x0(s)-xr(s)|+ρmaxr maxr|x0(s)-xr(s)||x0(s)-xr(s)|+ρmaxr maxs|x0(s)-xr(s)|,
ri=∑nk=1ξi(k)n.
稱ri為序列ai對(duì)a0的關(guān)聯(lián)度.其中分辨系數(shù)ρ∈[0,1],本文取ρ=0.5.
2.基于關(guān)聯(lián)度的評(píng)價(jià)方法
根據(jù)1給出的針對(duì)各特征與評(píng)價(jià)結(jié)果的關(guān)聯(lián)度ri,可做如下變換得到該類球員的評(píng)價(jià)得分:
G=∑mi=1(xi×ri).
二、應(yīng)用與評(píng)估
(一)數(shù)據(jù)說(shuō)明
本文數(shù)據(jù)采用新浪NBA數(shù)據(jù)庫(kù)2016—2017賽季數(shù)據(jù).
為避免數(shù)值差異性造成不同特征對(duì)距離影響不同,對(duì)目標(biāo)數(shù)據(jù)做如下歸一化變換:
a(1)≠0,f(a(k))=a(k)a(1)=b(k).
(二)聚類分析
綜合得分,籃板等數(shù)據(jù),可以推斷第2類和第9類數(shù)據(jù)為優(yōu)秀球員類.以出場(chǎng)率和得分能力為主要考慮對(duì)象,選取第9類為例進(jìn)行進(jìn)一步分析.
(三)基于相關(guān)度評(píng)價(jià)
1.相關(guān)性分析
選取11—16年五個(gè)賽季的MVP球員數(shù)據(jù)作為參考序列,數(shù)據(jù)如下:
由于失誤和犯規(guī)對(duì)評(píng)價(jià)起負(fù)面影響,因此,關(guān)聯(lián)度系數(shù)變更為負(fù)因子進(jìn)行計(jì)算,最后計(jì)算評(píng)價(jià)得分如下:
由上表結(jié)果可見(jiàn),16—17賽季MVP熱門人選拉塞爾-威斯布魯克,詹姆斯-哈登,勒布朗-詹姆斯,斯蒂芬-庫(kù)里均在評(píng)價(jià)結(jié)果前十,算法結(jié)果命中率高.
三、結(jié)果與評(píng)估
本文提出的基于聚類與相關(guān)性分析的NBA球員評(píng)價(jià)方法可以較好地根據(jù)往年數(shù)據(jù)對(duì)新賽季球員數(shù)據(jù)進(jìn)行量化評(píng)價(jià),經(jīng)過(guò)檢驗(yàn)預(yù)測(cè)結(jié)果對(duì)實(shí)際候選人命中率高,可以作為一種客觀評(píng)價(jià)模型使用.
【參考文獻(xiàn)】
[1]王悅,冷泳林,魯富宇,鄂旭.K均值聚類在高校教師評(píng)價(jià)分析中的應(yīng)用研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014(5):204-206+210.
[2]金玲玲,汪文俊,王喜鳳.大學(xué)生綜合素質(zhì)的灰色模糊聚類評(píng)價(jià)模型[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012(5):109-112.
[3]黎鎖平.基于灰色關(guān)聯(lián)分析的多級(jí)別聚類評(píng)價(jià)模型的研究[J].甘肅工業(yè)大學(xué)學(xué)報(bào),2000(4):100-103.endprint