杜淑穎
摘要:就精確系數(shù)不算太嚴(yán)格的情況而言,針對(duì)各種大型數(shù)據(jù)集,通過(guò)對(duì)比各種聚類算法,提出了一種部分優(yōu)先聚類算法。然后在此基礎(chǔ)之上分析研究聚類成員的產(chǎn)生過(guò)程與聚類融合方式,通過(guò)設(shè)計(jì)共識(shí)函數(shù)并利用加權(quán)方式確定類中心,在部分優(yōu)先聚類算法的基礎(chǔ)上進(jìn)行聚類融合,從而使算法的計(jì)算準(zhǔn)度加以提升。通過(guò)不斷的實(shí)驗(yàn),我們可以感受到優(yōu)化之后算法的顯著優(yōu)勢(shì),這不僅體現(xiàn)在其可靠性,同時(shí)在其穩(wěn)定性以及擴(kuò)展性、魯棒性等方面都得到了很好的展現(xiàn)。
關(guān)鍵詞:部分優(yōu)先聚類算法;聚類融合;效率;精度
中圖分類號(hào):TP393
文獻(xiàn)標(biāo)識(shí)碼:A
DOI: 10.3969/j.issn.1003-6970.2016.01.030
0 引言
針對(duì)大型的數(shù)據(jù)來(lái)說(shuō),過(guò)去的聚類手段存在下面兩個(gè)關(guān)鍵的不足。首先就是其數(shù)據(jù)集不夠穩(wěn)定,與低維相比,高維的分布更加廣泛,這往往會(huì)出現(xiàn)數(shù)據(jù)之間等距的現(xiàn)象,通常而言,我們會(huì)按照距離來(lái)展開(kāi)聚類工作,這樣意味著高維數(shù)據(jù)集的構(gòu)建難度進(jìn)一步加大;其次,就高維數(shù)據(jù)集而言,其內(nèi)在的屬性往往沒(méi)有直接的聯(lián)系,所以基本上在所有維中存在類的概率為0。
1 部分優(yōu)先聚類算法(Partial PriorityAlgorithm PPA)
就引言中的問(wèn)題展開(kāi)研究,進(jìn)而提出部分優(yōu)先算法,首先將第一類從原始數(shù)據(jù)中分離出來(lái),刪除第一類數(shù)據(jù)后,再分離形成第二類,反復(fù)循環(huán)下去,我們會(huì)發(fā)現(xiàn)其計(jì)算速度非??欤遣粷M足使用的準(zhǔn)確度要求,這種算法十分適用于準(zhǔn)確度要求不是十分嚴(yán)格的數(shù)據(jù)集的計(jì)算。針對(duì)其準(zhǔn)確度不足的情況,我們結(jié)合使用了加權(quán)的方法來(lái)確定類中心,以此來(lái)提升其穩(wěn)定性與典型程度,這對(duì)于聚類的穩(wěn)定性、延伸性以及時(shí)效性都是十分有利的。
1.1 概念定義
1.r-鄰域:其中心是某一個(gè)數(shù)據(jù)點(diǎn),半徑用小寫(xiě)字母r表示。
2.典型樣本p:其定義就是如果樣本集A內(nèi)部數(shù)據(jù)的r-鄰域里存在有最基本的Minpts(密度閥值)個(gè)數(shù)據(jù),那么該樣本就叫做典型樣本。
3.典型點(diǎn)C:p中全部數(shù)據(jù)的平均值為典型點(diǎn),
其中p中樣本的數(shù)量用|p|表示。
4.類中心:即樣本中全部數(shù)值的平均值。
1.2 部分優(yōu)先算法的設(shè)計(jì)案例
1.選擇某一個(gè)數(shù)據(jù)集,然后隨機(jī)抽取其中的一個(gè)樣本A,確定A典型與否。任取樣本中的某一個(gè)初始值,設(shè)置好固定的r與MinDts。然后以該點(diǎn)作為圓心,若Minpts的數(shù)值比r-鄰域內(nèi)的數(shù)據(jù)量小,那么就可以確定樣本A具有代表性;
2.如果A具有很好的代表性,即確定其典型性,那么我們可以利用公式(1)求解出C1,其中C1是樣本的典型點(diǎn),也就是樣本的中心;
3.如果A不具有代表性,即不具典型性質(zhì),那么可以重新進(jìn)行第一個(gè)環(huán)節(jié),一直到發(fā)現(xiàn)典型樣本為止;
4.樣本的中心聚類用C1表示,利用公式
求解出C1與樣本A中各對(duì)象的間距;
5.假如C1與指定對(duì)象xi兩者的間距沒(méi)有大于或等于,,那么我們將此對(duì)象合并進(jìn)A內(nèi),反之,獲取C1和其他對(duì)象Xi+l兩兩之間的間距,完成A內(nèi)包含的全部對(duì)象。
該算法的流程圖見(jiàn)圖1:
1.3 PPA的優(yōu)勢(shì)
1.旨在有效加強(qiáng)典型范例和相應(yīng)的典型點(diǎn)的計(jì)算速度,此算法放棄選取數(shù)據(jù)集全部?jī)?nèi)容而是借助于隨機(jī)挑選的方式從而獲得典型樣本,與此同時(shí)典型點(diǎn)的分析過(guò)程僅出現(xiàn)1次。
2.旨在增強(qiáng)典型點(diǎn)的代表水平,增加r-鄰域中的數(shù)據(jù)密度,此計(jì)算方法制定典型樣本數(shù)值的平均數(shù)為典型點(diǎn),另一方面此點(diǎn)也能夠被當(dāng)作聚類中心。
3.旨在下調(diào)舊有數(shù)據(jù)集的繁瑣程度,此算法在完成1個(gè)類之后,會(huì)把此類的數(shù)值從舊有合集內(nèi)刪除以避免重復(fù)。
面對(duì)數(shù)值的排列PPA并不具備敏感性,這就會(huì)使PPA面向球形以及凸形集合時(shí)的分析速度更快。與此同時(shí),PPA在樣本平均數(shù)值處獲得典型樣本,所以在處理異常數(shù)據(jù)情況上相對(duì)更為敏感,評(píng)估異常點(diǎn)相對(duì)更為準(zhǔn)確。PPA于聚類環(huán)節(jié)精簡(jiǎn)了舊有的合集,大幅度下調(diào)了舊有合集的繁瑣性,因此我們不難發(fā)現(xiàn)其于功效上具備較大優(yōu)勢(shì)。PPA的分析能力、輸入數(shù)據(jù)的敏感程度、面向異常數(shù)據(jù)的敏感程度、察覺(jué)聚類形狀等方面和K-means clustering algorithm、DBSCANclustering algorithm. COBWEB clustering algorithm_FCM clustering algorithm、單連接聚類算法、CLIQUEclustering algorithm. CUBE clustering algorithm等模型開(kāi)展比對(duì),得出的相關(guān)結(jié)論詳情見(jiàn)表1。
2 面向大型數(shù)據(jù)集的PPA的聚類融合
2.1 聚類融合基本思想
聚類融合(clustering ensemble,CE)旨在于消除單詞聚類(word clustering)的較大波動(dòng)性,把合集映射為數(shù)據(jù)點(diǎn)的相似度隨之求出融合的劃分,面向合集的歸類途徑為借助于1種算法中的多項(xiàng)參數(shù)或是多項(xiàng)算法,聚類成員的產(chǎn)生詳情見(jiàn)圖2。
CE的核心理念:假定存在n項(xiàng)數(shù)據(jù)點(diǎn)x={X1,x2,…,xn},面向x開(kāi)展H次聚類求出H項(xiàng)聚類,π={π1,π2,…,πn},在此之中πk(k=l,2,…,H)是第k次求解數(shù)據(jù)。假定存在共識(shí)函數(shù)r,詳情見(jiàn)圖3。
共識(shí)函數(shù)(consensus function,CF,也稱為一致性函數(shù))的定義標(biāo)準(zhǔn)為只要可以將需要聚類的所有聚類成員借助于其一標(biāo)準(zhǔn)完成融合過(guò)程,以共協(xié)矩陣(Co-association matrix)為例,相應(yīng)的功能為評(píng)價(jià)數(shù)據(jù)內(nèi)部的關(guān)聯(lián)性,函數(shù)方程詳見(jiàn)(3):
聚類算法總次數(shù)H
接下來(lái)我們面向前面獲得的H項(xiàng)結(jié)果展開(kāi)融合,求出所需的聚類結(jié)果π'。聚類融合的詳情情況見(jiàn)圖4。
2.2 聚類融合算法的設(shè)計(jì)
我們假設(shè)一數(shù)據(jù)合集X={X1,x2,…,xn},
xi={Xi1,xi2,…,xin},借助于PPA算法把它進(jìn)行歸納,PPA算法的特征為所有劃分行為均會(huì)先出現(xiàn)第1個(gè)類,隨后采取融合的途徑得到所需的第1個(gè)類。第1次歸納總結(jié)一直到第r次歸納總結(jié)的第1個(gè)類為{C11,C12,…,C1r}, 相關(guān)的類中心則是{
},旨在確保所有劃分行為出現(xiàn)的第1個(gè)類存在差異,算法設(shè)計(jì)借助于改變數(shù)據(jù)的輸入順序從而達(dá)到目的。
融合方式定義為:借助于加權(quán)的方法從而求出第1類的類中心,此類中心的權(quán)重需要借助于此類中的全部數(shù)據(jù)量和每類數(shù)據(jù)量之和的比例而獲得。
為類C..所含的數(shù)據(jù)量,V1定義成所需的第1個(gè)類的類中心。隨著v1的求出,再確定空集T1,將V賦予Z作為類中心開(kāi)始聚類,假設(shè)存在閥值r,利用PPA算法的第5環(huán)節(jié),求出的T1即是所需出現(xiàn)的第1個(gè)類。于所有劃分行為中把正包括的數(shù)值剔除,從而有效下調(diào)數(shù)據(jù)的繁瑣性。
按照上述步驟獲得剩余的k-l個(gè)類。由于Vi(i=l,2,…,k存在的典型性,所以出現(xiàn)T1,T2,…,Tk之后,余在舊有合集內(nèi)的數(shù)據(jù)接近于0,算法設(shè)計(jì)將余下數(shù)值平分成k份,再依次移到T1,T2,…,Tk中,函數(shù)(5)即是所有類中心的算法函數(shù),各類產(chǎn)生的詳情見(jiàn)圖5。
2.3 聚類融合算法的優(yōu)勢(shì)
1.旨在讓類中心的代表水平以及相應(yīng)的典型程度更為突出,分析歸類更為精確,類中心借助于加權(quán)的方法從而實(shí)現(xiàn)此目的,借助于公式(5)獲得所有類中心。
2.旨在增加計(jì)算性能,采用的類中心讓原有數(shù)據(jù)集的內(nèi)容極限精簡(jiǎn)。
3.旨在下調(diào)數(shù)據(jù)集的復(fù)雜程度,于歸類期間把已完成分類的部分從原有數(shù)據(jù)集內(nèi)剔除。
3 算法測(cè)試結(jié)果分析
采取9組從UCI Machine Learning Repo sitory合集中獲得的數(shù)據(jù)(Size<2*104),各為Fertility,CarEvaluation, Abalon. Artificial Characters. ISOLET,Callt2 Building People Counts (CBPC). Gas SensorArray Drift Dataset (GSADD), p53 Mutants, LetterRecognition詳細(xì)參數(shù)見(jiàn)表2,為驗(yàn)證算法是否具有穩(wěn)定性,同時(shí)測(cè)試其可行性,面向表2囊括的9組合集分別開(kāi)展5次PPA以及基于PPA的聚類融合算法,求解獲得平均時(shí)間值、精度值和方差值。
按照表3以及圖6中的內(nèi)容,我們不難發(fā)現(xiàn)PPA算法和基于PPA的聚類融合(EPPA)算法相比較,PPA的運(yùn)算效率更高一些,然而于精度層面開(kāi)展比較,則是EPPA更勝一籌。按照獲得的實(shí)驗(yàn)結(jié)果中的方差開(kāi)展對(duì)比,我們發(fā)現(xiàn)PPA的魯棒性更勝一籌。按照表4以及圖7中的內(nèi)容,我們能夠得出結(jié)論:EPPA于處理大型數(shù)據(jù)過(guò)程中的抗外界干擾能力和其可靠性均具有顯著強(qiáng)勢(shì)。
根據(jù)獲得的實(shí)驗(yàn)結(jié)果我們發(fā)現(xiàn)PPA以及EPPA容易受處理的數(shù)據(jù)量的多少以及維數(shù)大小的作用,于17,000數(shù)據(jù)處出現(xiàn)轉(zhuǎn)折情況,與此之前要更平穩(wěn),之后就出現(xiàn)時(shí)間增加過(guò)快的現(xiàn)象。于精度層次上考慮,數(shù)據(jù)集超過(guò)6,000的情況下EPPA開(kāi)始穩(wěn)定,能夠得出結(jié)論:EPPA的穩(wěn)定性和可靠程度較高,面向未知數(shù)據(jù)集的計(jì)算上存在著巨大的潛力。
4 結(jié)論
本研究將常見(jiàn)的聚類算法開(kāi)展一定程度上的優(yōu)化,得到部分優(yōu)先聚類算法,增強(qiáng)了算法的處理能力,提高其效率,然而于精度層次上考量,其可靠性仍然有待于后續(xù)優(yōu)化,本研究于部分優(yōu)先聚類算法的基礎(chǔ)上開(kāi)展了聚類融合,避免了此算法缺乏精度的缺點(diǎn),增強(qiáng)其算法精度,使其于可擴(kuò)展程度、魯棒性、可靠程度等方面均有著傳統(tǒng)聚類算法無(wú)法匹敵的優(yōu)勢(shì),對(duì)于大型數(shù)據(jù)集的計(jì)算具有舉足輕重的作用。