亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大型數(shù)據(jù)集的聚類算法研究

        2016-03-08 18:56:28杜淑穎
        軟件 2016年1期
        關(guān)鍵詞:精度效率

        杜淑穎

        摘要:就精確系數(shù)不算太嚴(yán)格的情況而言,針對(duì)各種大型數(shù)據(jù)集,通過(guò)對(duì)比各種聚類算法,提出了一種部分優(yōu)先聚類算法。然后在此基礎(chǔ)之上分析研究聚類成員的產(chǎn)生過(guò)程與聚類融合方式,通過(guò)設(shè)計(jì)共識(shí)函數(shù)并利用加權(quán)方式確定類中心,在部分優(yōu)先聚類算法的基礎(chǔ)上進(jìn)行聚類融合,從而使算法的計(jì)算準(zhǔn)度加以提升。通過(guò)不斷的實(shí)驗(yàn),我們可以感受到優(yōu)化之后算法的顯著優(yōu)勢(shì),這不僅體現(xiàn)在其可靠性,同時(shí)在其穩(wěn)定性以及擴(kuò)展性、魯棒性等方面都得到了很好的展現(xiàn)。

        關(guān)鍵詞:部分優(yōu)先聚類算法;聚類融合;效率;精度

        中圖分類號(hào):TP393

        文獻(xiàn)標(biāo)識(shí)碼:A

        DOI: 10.3969/j.issn.1003-6970.2016.01.030

        0 引言

        針對(duì)大型的數(shù)據(jù)來(lái)說(shuō),過(guò)去的聚類手段存在下面兩個(gè)關(guān)鍵的不足。首先就是其數(shù)據(jù)集不夠穩(wěn)定,與低維相比,高維的分布更加廣泛,這往往會(huì)出現(xiàn)數(shù)據(jù)之間等距的現(xiàn)象,通常而言,我們會(huì)按照距離來(lái)展開(kāi)聚類工作,這樣意味著高維數(shù)據(jù)集的構(gòu)建難度進(jìn)一步加大;其次,就高維數(shù)據(jù)集而言,其內(nèi)在的屬性往往沒(méi)有直接的聯(lián)系,所以基本上在所有維中存在類的概率為0。

        1 部分優(yōu)先聚類算法(Partial PriorityAlgorithm PPA)

        就引言中的問(wèn)題展開(kāi)研究,進(jìn)而提出部分優(yōu)先算法,首先將第一類從原始數(shù)據(jù)中分離出來(lái),刪除第一類數(shù)據(jù)后,再分離形成第二類,反復(fù)循環(huán)下去,我們會(huì)發(fā)現(xiàn)其計(jì)算速度非??欤遣粷M足使用的準(zhǔn)確度要求,這種算法十分適用于準(zhǔn)確度要求不是十分嚴(yán)格的數(shù)據(jù)集的計(jì)算。針對(duì)其準(zhǔn)確度不足的情況,我們結(jié)合使用了加權(quán)的方法來(lái)確定類中心,以此來(lái)提升其穩(wěn)定性與典型程度,這對(duì)于聚類的穩(wěn)定性、延伸性以及時(shí)效性都是十分有利的。

        1.1 概念定義

        1.r-鄰域:其中心是某一個(gè)數(shù)據(jù)點(diǎn),半徑用小寫(xiě)字母r表示。

        2.典型樣本p:其定義就是如果樣本集A內(nèi)部數(shù)據(jù)的r-鄰域里存在有最基本的Minpts(密度閥值)個(gè)數(shù)據(jù),那么該樣本就叫做典型樣本。

        3.典型點(diǎn)C:p中全部數(shù)據(jù)的平均值為典型點(diǎn),

        其中p中樣本的數(shù)量用|p|表示。

        4.類中心:即樣本中全部數(shù)值的平均值。

        1.2 部分優(yōu)先算法的設(shè)計(jì)案例

        1.選擇某一個(gè)數(shù)據(jù)集,然后隨機(jī)抽取其中的一個(gè)樣本A,確定A典型與否。任取樣本中的某一個(gè)初始值,設(shè)置好固定的r與MinDts。然后以該點(diǎn)作為圓心,若Minpts的數(shù)值比r-鄰域內(nèi)的數(shù)據(jù)量小,那么就可以確定樣本A具有代表性;

        2.如果A具有很好的代表性,即確定其典型性,那么我們可以利用公式(1)求解出C1,其中C1是樣本的典型點(diǎn),也就是樣本的中心;

        3.如果A不具有代表性,即不具典型性質(zhì),那么可以重新進(jìn)行第一個(gè)環(huán)節(jié),一直到發(fā)現(xiàn)典型樣本為止;

        4.樣本的中心聚類用C1表示,利用公式

        求解出C1與樣本A中各對(duì)象的間距;

        5.假如C1與指定對(duì)象xi兩者的間距沒(méi)有大于或等于,,那么我們將此對(duì)象合并進(jìn)A內(nèi),反之,獲取C1和其他對(duì)象Xi+l兩兩之間的間距,完成A內(nèi)包含的全部對(duì)象。

        該算法的流程圖見(jiàn)圖1:

        1.3 PPA的優(yōu)勢(shì)

        1.旨在有效加強(qiáng)典型范例和相應(yīng)的典型點(diǎn)的計(jì)算速度,此算法放棄選取數(shù)據(jù)集全部?jī)?nèi)容而是借助于隨機(jī)挑選的方式從而獲得典型樣本,與此同時(shí)典型點(diǎn)的分析過(guò)程僅出現(xiàn)1次。

        2.旨在增強(qiáng)典型點(diǎn)的代表水平,增加r-鄰域中的數(shù)據(jù)密度,此計(jì)算方法制定典型樣本數(shù)值的平均數(shù)為典型點(diǎn),另一方面此點(diǎn)也能夠被當(dāng)作聚類中心。

        3.旨在下調(diào)舊有數(shù)據(jù)集的繁瑣程度,此算法在完成1個(gè)類之后,會(huì)把此類的數(shù)值從舊有合集內(nèi)刪除以避免重復(fù)。

        面對(duì)數(shù)值的排列PPA并不具備敏感性,這就會(huì)使PPA面向球形以及凸形集合時(shí)的分析速度更快。與此同時(shí),PPA在樣本平均數(shù)值處獲得典型樣本,所以在處理異常數(shù)據(jù)情況上相對(duì)更為敏感,評(píng)估異常點(diǎn)相對(duì)更為準(zhǔn)確。PPA于聚類環(huán)節(jié)精簡(jiǎn)了舊有的合集,大幅度下調(diào)了舊有合集的繁瑣性,因此我們不難發(fā)現(xiàn)其于功效上具備較大優(yōu)勢(shì)。PPA的分析能力、輸入數(shù)據(jù)的敏感程度、面向異常數(shù)據(jù)的敏感程度、察覺(jué)聚類形狀等方面和K-means clustering algorithm、DBSCANclustering algorithm. COBWEB clustering algorithm_FCM clustering algorithm、單連接聚類算法、CLIQUEclustering algorithm. CUBE clustering algorithm等模型開(kāi)展比對(duì),得出的相關(guān)結(jié)論詳情見(jiàn)表1。

        2 面向大型數(shù)據(jù)集的PPA的聚類融合

        2.1 聚類融合基本思想

        聚類融合(clustering ensemble,CE)旨在于消除單詞聚類(word clustering)的較大波動(dòng)性,把合集映射為數(shù)據(jù)點(diǎn)的相似度隨之求出融合的劃分,面向合集的歸類途徑為借助于1種算法中的多項(xiàng)參數(shù)或是多項(xiàng)算法,聚類成員的產(chǎn)生詳情見(jiàn)圖2。

        CE的核心理念:假定存在n項(xiàng)數(shù)據(jù)點(diǎn)x={X1,x2,…,xn},面向x開(kāi)展H次聚類求出H項(xiàng)聚類,π={π1,π2,…,πn},在此之中πk(k=l,2,…,H)是第k次求解數(shù)據(jù)。假定存在共識(shí)函數(shù)r,詳情見(jiàn)圖3。

        共識(shí)函數(shù)(consensus function,CF,也稱為一致性函數(shù))的定義標(biāo)準(zhǔn)為只要可以將需要聚類的所有聚類成員借助于其一標(biāo)準(zhǔn)完成融合過(guò)程,以共協(xié)矩陣(Co-association matrix)為例,相應(yīng)的功能為評(píng)價(jià)數(shù)據(jù)內(nèi)部的關(guān)聯(lián)性,函數(shù)方程詳見(jiàn)(3):

        聚類算法總次數(shù)H

        接下來(lái)我們面向前面獲得的H項(xiàng)結(jié)果展開(kāi)融合,求出所需的聚類結(jié)果π'。聚類融合的詳情情況見(jiàn)圖4。

        2.2 聚類融合算法的設(shè)計(jì)

        我們假設(shè)一數(shù)據(jù)合集X={X1,x2,…,xn},

        xi={Xi1,xi2,…,xin},借助于PPA算法把它進(jìn)行歸納,PPA算法的特征為所有劃分行為均會(huì)先出現(xiàn)第1個(gè)類,隨后采取融合的途徑得到所需的第1個(gè)類。第1次歸納總結(jié)一直到第r次歸納總結(jié)的第1個(gè)類為{C11,C12,…,C1r}, 相關(guān)的類中心則是{

        },旨在確保所有劃分行為出現(xiàn)的第1個(gè)類存在差異,算法設(shè)計(jì)借助于改變數(shù)據(jù)的輸入順序從而達(dá)到目的。

        融合方式定義為:借助于加權(quán)的方法從而求出第1類的類中心,此類中心的權(quán)重需要借助于此類中的全部數(shù)據(jù)量和每類數(shù)據(jù)量之和的比例而獲得。

        為類C..所含的數(shù)據(jù)量,V1定義成所需的第1個(gè)類的類中心。隨著v1的求出,再確定空集T1,將V賦予Z作為類中心開(kāi)始聚類,假設(shè)存在閥值r,利用PPA算法的第5環(huán)節(jié),求出的T1即是所需出現(xiàn)的第1個(gè)類。于所有劃分行為中把正包括的數(shù)值剔除,從而有效下調(diào)數(shù)據(jù)的繁瑣性。

        按照上述步驟獲得剩余的k-l個(gè)類。由于Vi(i=l,2,…,k存在的典型性,所以出現(xiàn)T1,T2,…,Tk之后,余在舊有合集內(nèi)的數(shù)據(jù)接近于0,算法設(shè)計(jì)將余下數(shù)值平分成k份,再依次移到T1,T2,…,Tk中,函數(shù)(5)即是所有類中心的算法函數(shù),各類產(chǎn)生的詳情見(jiàn)圖5。

        2.3 聚類融合算法的優(yōu)勢(shì)

        1.旨在讓類中心的代表水平以及相應(yīng)的典型程度更為突出,分析歸類更為精確,類中心借助于加權(quán)的方法從而實(shí)現(xiàn)此目的,借助于公式(5)獲得所有類中心。

        2.旨在增加計(jì)算性能,采用的類中心讓原有數(shù)據(jù)集的內(nèi)容極限精簡(jiǎn)。

        3.旨在下調(diào)數(shù)據(jù)集的復(fù)雜程度,于歸類期間把已完成分類的部分從原有數(shù)據(jù)集內(nèi)剔除。

        3 算法測(cè)試結(jié)果分析

        采取9組從UCI Machine Learning Repo sitory合集中獲得的數(shù)據(jù)(Size<2*104),各為Fertility,CarEvaluation, Abalon. Artificial Characters. ISOLET,Callt2 Building People Counts (CBPC). Gas SensorArray Drift Dataset (GSADD), p53 Mutants, LetterRecognition詳細(xì)參數(shù)見(jiàn)表2,為驗(yàn)證算法是否具有穩(wěn)定性,同時(shí)測(cè)試其可行性,面向表2囊括的9組合集分別開(kāi)展5次PPA以及基于PPA的聚類融合算法,求解獲得平均時(shí)間值、精度值和方差值。

        按照表3以及圖6中的內(nèi)容,我們不難發(fā)現(xiàn)PPA算法和基于PPA的聚類融合(EPPA)算法相比較,PPA的運(yùn)算效率更高一些,然而于精度層面開(kāi)展比較,則是EPPA更勝一籌。按照獲得的實(shí)驗(yàn)結(jié)果中的方差開(kāi)展對(duì)比,我們發(fā)現(xiàn)PPA的魯棒性更勝一籌。按照表4以及圖7中的內(nèi)容,我們能夠得出結(jié)論:EPPA于處理大型數(shù)據(jù)過(guò)程中的抗外界干擾能力和其可靠性均具有顯著強(qiáng)勢(shì)。

        根據(jù)獲得的實(shí)驗(yàn)結(jié)果我們發(fā)現(xiàn)PPA以及EPPA容易受處理的數(shù)據(jù)量的多少以及維數(shù)大小的作用,于17,000數(shù)據(jù)處出現(xiàn)轉(zhuǎn)折情況,與此之前要更平穩(wěn),之后就出現(xiàn)時(shí)間增加過(guò)快的現(xiàn)象。于精度層次上考慮,數(shù)據(jù)集超過(guò)6,000的情況下EPPA開(kāi)始穩(wěn)定,能夠得出結(jié)論:EPPA的穩(wěn)定性和可靠程度較高,面向未知數(shù)據(jù)集的計(jì)算上存在著巨大的潛力。

        4 結(jié)論

        本研究將常見(jiàn)的聚類算法開(kāi)展一定程度上的優(yōu)化,得到部分優(yōu)先聚類算法,增強(qiáng)了算法的處理能力,提高其效率,然而于精度層次上考量,其可靠性仍然有待于后續(xù)優(yōu)化,本研究于部分優(yōu)先聚類算法的基礎(chǔ)上開(kāi)展了聚類融合,避免了此算法缺乏精度的缺點(diǎn),增強(qiáng)其算法精度,使其于可擴(kuò)展程度、魯棒性、可靠程度等方面均有著傳統(tǒng)聚類算法無(wú)法匹敵的優(yōu)勢(shì),對(duì)于大型數(shù)據(jù)集的計(jì)算具有舉足輕重的作用。

        猜你喜歡
        精度效率
        提升朗讀教學(xué)效率的幾點(diǎn)思考
        甘肅教育(2020年14期)2020-09-11 07:57:42
        注意實(shí)驗(yàn)拓展,提高復(fù)習(xí)效率
        超高精度計(jì)時(shí)器——原子鐘
        分析誤差提精度
        基于DSPIC33F微處理器的采集精度的提高
        電子制作(2018年11期)2018-08-04 03:25:38
        效率的價(jià)值
        商周刊(2017年9期)2017-08-22 02:57:49
        GPS/GLONASS/BDS組合PPP精度分析
        跟蹤導(dǎo)練(一)2
        改進(jìn)的Goldschmidt雙精度浮點(diǎn)除法器
        “錢”、“事”脫節(jié)效率低
        人妻少妇精品视频一区二区三区 | 乱人伦中文无码视频在线观看| 在线观看91精品国产免费免费| 国产精品无码mv在线观看| 少妇熟女天堂网av天堂| 久久精品国产字幕高潮| 国产av无码专区亚洲av琪琪 | 麻美由真中文字幕人妻| 日韩中文字幕素人水野一区| 欧美熟妇性xxx交潮喷| 精品人妻少妇一区二区不卡| 人妻中文字幕av有码在线| 久久这里都是精品99| 国产精品久线在线观看| 免费啪啪视频一区| 黑丝美女喷水在线观看| 日韩精品免费一区二区三区观看| 国产农村乱辈无码| 无码一级视频在线| 久久九九久精品国产| 2021年最新久久久视精品爱| 视频一区中文字幕在线观看| 人人妻人人澡人人爽人人dvd| 国产av人人夜夜澡人人爽| 亚洲AⅤ樱花无码| 国产乱淫h侵犯在线观看| 人人爽人人爽人人片av| 日韩毛片在线| 一区二区视频网站在线观看| 极品尤物人妻堕落沉沦| 日躁夜躁狠狠躁2001| 亚洲一区二区三区在线观看播放| 亚洲最大不卡av网站| 亚洲精品无码专区| 精品国产a∨无码一区二区三区 | 亚洲图区欧美| av资源在线永久免费观看| 国产情侣一区二区三区| 日日碰狠狠添天天爽超碰97| 欧美亚洲国产丝袜在线| 亚洲精品在线免费视频|