亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于K-means算法的優(yōu)秀班集體評選方法

        2019-01-04 08:09:04陶安玲
        大理大學(xué)學(xué)報(bào) 2018年12期
        關(guān)鍵詞:中心點(diǎn)班集體聚類

        曾 新,楊 健,張 鑫,陶安玲

        (大理大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院,云南大理 671003)

        Steinhaus(1955年)、Lloyd(1957年)、Ball&Hall(1965年)和McQueen(1967年)分別從不同的學(xué)科研究領(lǐng)域提出了K-means聚類算法,同時(shí),McQueen總結(jié)了 Cox〔1〕、Fisher〔2〕、Sebestyen〔3〕等的研究成果,給出了K-means算法的執(zhí)行步驟,并利用數(shù)學(xué)方法進(jìn)行了理論論證。

        聚類是一個(gè)將整體的數(shù)據(jù)對象劃分為以類或簇存在的包含局部數(shù)據(jù)對象的過程〔4〕。聚類的目標(biāo)是使得同一個(gè)簇中的對象之間具有較高的相似度,而不同簇中的對象相似度盡可能低。聚類分析是數(shù)據(jù)挖掘領(lǐng)域重要的研究內(nèi)容之一〔5-6〕,到目前為止,專家學(xué)者基于不同的思想提出了多種聚類算法,大致可以歸納為以下幾類〔7〕:基于劃分的算法、基于網(wǎng)格的方法、基于密度的方法、基于模型的方法和高維數(shù)據(jù)的方法,并廣泛應(yīng)用于機(jī)器學(xué)習(xí)、人工智能、圖像處理和模式識別等熱點(diǎn)研究領(lǐng)域。

        由于聚類中心點(diǎn)的選取、簇的個(gè)數(shù)K和異常點(diǎn)等因素對聚類結(jié)果的影響較大,Kaufman等〔8〕提出利用數(shù)據(jù)點(diǎn)的局部密度計(jì)算出K-means聚類算法的K個(gè)初始聚類中心,減小隨機(jī)聚類中心對聚類結(jié)果的影響;針對K-means聚類算法是以確定的類數(shù)K為前提對數(shù)據(jù)集進(jìn)行聚類,而通常聚類數(shù)未知的問題,周世兵等〔9-10〕提出最佳聚類數(shù)的確定方法;Wang等〔11〕采用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行K-means聚類算法初始聚類中心的選擇,得到了較好的聚類效果;謝娟英等〔12〕采用全局方差計(jì)算樣本的領(lǐng)域密度,選擇方差小且相距一定距離的樣本作為初始中心點(diǎn);蔡宇浩等〔13〕針對初始簇中心的隨機(jī)性問題,提出加權(quán)局部方差度量樣本的密度,以便更好地發(fā)現(xiàn)密度高的樣本,并利用改進(jìn)的最大最小法,啟發(fā)式地選擇簇初始中心點(diǎn);為了提高傳統(tǒng)K-means聚類算法的準(zhǔn)確性,王宏杰等〔14〕提出一種結(jié)合初始中心優(yōu)化和特征加權(quán)的改進(jìn)K-means聚類算法;針對傳統(tǒng)K-means算法需要人為指定簇的個(gè)數(shù)和對初始中心點(diǎn)的選取比較敏感等不足,萬靜等〔15〕提出基于可變網(wǎng)格優(yōu)化的K-means聚類算法,通過可變網(wǎng)格劃分解決了初始中心點(diǎn)不具代表性的問題并排除了噪聲干擾問題。

        1 K-means聚類算法

        1.1 K-means聚類算法的收斂函數(shù)K-means聚類算法是一種基于劃分的聚類算法,具有思路簡潔、收斂速度快等特點(diǎn),該算法能夠?qū)⒁粋€(gè)含有n個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)集劃分為K個(gè)類簇,使得同一簇內(nèi)的數(shù)據(jù)點(diǎn)相似度高,而簇間的數(shù)據(jù)點(diǎn)相似度低。

        K-means聚類算法的收斂函數(shù)〔16〕如下:

        對于給定的一個(gè)包含n個(gè)d維數(shù)據(jù)點(diǎn)的數(shù)據(jù)集X={x1,x2,…,xi,…,xn},其中xi∈Rd,K表示整個(gè)數(shù)據(jù)集經(jīng)過K-means聚類算法被劃分為數(shù)據(jù)子集的數(shù)目,K個(gè)數(shù)據(jù)子集表示為C={ }ck,k=1,2,…,K,其中每個(gè)劃分代表一個(gè)類ck,每個(gè)類ck有一個(gè)類中心μk。采用歐幾里得距離作為不同數(shù)據(jù)點(diǎn)間的相似度和距離判斷的標(biāo)準(zhǔn),計(jì)算ck類內(nèi)各點(diǎn)到聚類中心μk的距離平方和DisSum( )ck,見公式(1):

        將收斂函數(shù)DisSum()C展開,見公式(3):

        1.2 K-means聚類算法本文應(yīng)用K-means聚類算法的基本思想如下:

        從包含有n個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)集中隨機(jī)選取K( )K=3個(gè)數(shù)據(jù)點(diǎn)作為初始聚類中心點(diǎn),然后采用歐幾里得公式計(jì)算出每個(gè)數(shù)據(jù)點(diǎn)到K個(gè)聚類中心點(diǎn)的距離,并將數(shù)據(jù)點(diǎn)歸類到離其最近的聚類中心點(diǎn)所在的類當(dāng)中,當(dāng)所有的數(shù)據(jù)點(diǎn)歸類完成以后,分別計(jì)算出每個(gè)類中數(shù)據(jù)點(diǎn)的均值,將類均值作為新的類中心,并重新進(jìn)行聚類,如此不斷循環(huán),直到前后兩次聚類中心點(diǎn)相同,則聚類結(jié)束。

        通過對算法進(jìn)行分析可以發(fā)現(xiàn),K-means聚類算法的時(shí)間復(fù)雜度是O( )nKt,其中n是樣本數(shù),K是聚類數(shù),t是迭代次數(shù)( )K≤t,t≤n,具有可伸縮性和高效率。對于產(chǎn)生類內(nèi)緊密、類間疏離的聚類結(jié)果,具有較好聚類效果。

        2 基于K-means算法的優(yōu)秀班集體評選方法

        2.1 傳統(tǒng)評選方法存在的弊端傳統(tǒng)的優(yōu)秀班集體遴選方法是將評價(jià)班集體的相關(guān)屬性值進(jìn)行簡單求和,并取總和較大的前K個(gè)班級作為優(yōu)秀班集體,但是評價(jià)一個(gè)班級是否優(yōu)秀的屬性很多,例如:黨員人數(shù)、大學(xué)英語四六級考試的過級率、計(jì)算機(jī)等級考試的過級率、獲得文明宿舍的次數(shù)、參加各類文體活動獲獎(jiǎng)情況和社會實(shí)踐的效果等等。因此,對評價(jià)班集體的相關(guān)屬性值進(jìn)行簡單的求和,可能會導(dǎo)致某些班集體在某一方面的表現(xiàn)很突出而成為優(yōu)秀班集體,而其他均衡發(fā)展的班級可能會喪失成為優(yōu)秀班集體的機(jī)會,同時(shí),受到年級的限制,部分低年級的班級屬性值較小或?yàn)榭?,對班級的評價(jià)影響較大,例如:大學(xué)一、二年級的班級黨員人數(shù)基本為空,而大學(xué)英語四六級考試的過級率和計(jì)算機(jī)等級考試的過級率也可能低于大學(xué)三、四年級的班級等。

        例1 大理大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院評選優(yōu)秀班集體的主要參考屬性有黨員人數(shù)、大學(xué)英語四六級考試過級率、計(jì)算機(jī)等級考試過級率、文明宿舍得分、科研立項(xiàng)獲獎(jiǎng)和各類文體活動獲獎(jiǎng)等,部分年級和班級參評數(shù)據(jù)見表1。其中,2015jil、2015tx、2015tj、2015sx分別表示2015級計(jì)科1班、2015級通信班、2015級統(tǒng)計(jì)班、2015級數(shù)學(xué)班。

        表1 班集體參評數(shù)據(jù)

        從表1中可以分析出:①如果按照總分排名進(jìn)行優(yōu)秀班集體的評選,那么2015級數(shù)學(xué)班在文體活動方面成績更加突出,將獲得優(yōu)秀班集體稱號,但是從評選班集體的屬性值均衡度來說,2015級通信班和2015級統(tǒng)計(jì)班的發(fā)展更加全面,因此采用屬性值簡單求和的方式評選優(yōu)秀班集體并不利于班集體的整體發(fā)展,與培養(yǎng)全面發(fā)展人才的理念存在差異;②2015級、2016級和2017級采用了相同的班級評價(jià)屬性和評價(jià)方法,受到年級的限制,2016級和2017級的某些班級屬性值較小或?yàn)榭眨瑢Π嗉壴u價(jià)影響較大。而通過分年級選取均衡發(fā)展的班集體作為種子數(shù)據(jù)點(diǎn),然后以種子數(shù)據(jù)點(diǎn)為中心進(jìn)行聚類,直到類中心不發(fā)生改變,這種聚類方式可以有效改善傳統(tǒng)評選方式存在的弊端。

        2.2 基于K-means算法的優(yōu)秀班集體評選方法首先將真實(shí)數(shù)據(jù)集按年級進(jìn)行劃分,分別得到2015級、2016級和2017級各班級的參評數(shù)據(jù),然后從3個(gè)年級的數(shù)據(jù)集當(dāng)中分別選取所有屬性取值較平均的班級(均衡發(fā)展班級)、若干屬性取值較大的班級(偏離發(fā)展班級)和大多數(shù)屬性取值較小的班級(最差發(fā)展班級)作為初始聚類的中心,按K-means聚類算法的執(zhí)行過程,將各年級的數(shù)據(jù)集分別聚為3類,最后將均衡發(fā)展的類內(nèi)的班級作為本年級的優(yōu)秀班集體。具體的實(shí)現(xiàn)過程如下。

        2015級各班級的參評數(shù)據(jù)見表2。其中,2015xx表示2015級信息班。對2015級班集體相關(guān)屬性取值進(jìn)行分析,分別選取2015tx、2015sx和2015ji1作為均衡發(fā)展、偏離發(fā)展和最差發(fā)展班級的初始聚類中心點(diǎn),通過實(shí)驗(yàn)得到基于K-means算法的聚類結(jié)果見表3,聚類方法與傳統(tǒng)方法的優(yōu)秀班集體結(jié)果對比見表4。

        表2 2015級各班參評數(shù)據(jù)

        表3 聚類結(jié)果

        表4 優(yōu)秀班集體對比

        2016級各班級的參評數(shù)據(jù)見表5。對2016級班集體相關(guān)屬性取值進(jìn)行分析,分別選取2016sx、2016xx和2016ji1作為均衡發(fā)展、偏離發(fā)展和最差發(fā)展班級的初始聚類中心點(diǎn),通過實(shí)驗(yàn)得到基于K-means算法的聚類結(jié)果見表6,聚類方法與傳統(tǒng)方法的優(yōu)秀班集體結(jié)果對比見表7。

        表5 2016級各班參評數(shù)據(jù)

        表6 聚類結(jié)果

        表7 優(yōu)秀班集體對比

        2017級各班級的參評數(shù)據(jù)見表8。對2017級班集體相關(guān)屬性取值進(jìn)行分析,分別選取2017tx、2017xx和2017ji1作為均衡發(fā)展、偏離發(fā)展和最差發(fā)展班級的初始聚類中心點(diǎn),通過實(shí)驗(yàn)得到基于K-means算法的聚類結(jié)果見表9,聚類方法與傳統(tǒng)方法的優(yōu)秀班集體結(jié)果對比見表10。

        表8 2017級各班參評數(shù)據(jù)

        表9 聚類結(jié)果

        表10 優(yōu)秀班集體對比

        從3個(gè)年級分別采用基于K-means算法的評選方法和傳統(tǒng)評選方法的結(jié)果對比表中可以分析出:基于K-means算法的評選結(jié)果與傳統(tǒng)評選結(jié)果存在部分重疊的情況,是因?yàn)椴糠职嗉壊粌H總分高,而且班級各屬性值都較均衡,同時(shí)可以說明,新的優(yōu)秀班集體評選方法,在傳統(tǒng)評選方法的基礎(chǔ)上兼顧了班級各項(xiàng)評價(jià)屬性的均衡發(fā)展。

        最后將3個(gè)年級的數(shù)據(jù)進(jìn)行合并,利用基于K-means算法的評選方法和傳統(tǒng)評選方法的結(jié)果對比。見表11。

        表11 優(yōu)秀班集體對比

        從表11中可以看出:基于K-means算法的評選方法得到的結(jié)果都是2015級的班級,這是因?yàn)槠淠昙壿^高,評價(jià)班級的相關(guān)屬性基本都有取值,而傳統(tǒng)評選方法得到的結(jié)果也基本都是較高年級的班級,同時(shí),其存在部分屬性取值較高的、發(fā)展失衡的情況。因此,采用基于K-means算法的優(yōu)秀班集體評選方法,選取不同年級內(nèi)均衡發(fā)展的優(yōu)秀班集體,比傳統(tǒng)評選方法更合理。

        3 總結(jié)

        基于K-means算法的優(yōu)秀班集體評選方法,在選取均衡發(fā)展的班集體作為種子數(shù)據(jù)點(diǎn)后,將種子數(shù)據(jù)點(diǎn)作為聚類的初始中心,采用K-means聚類算法進(jìn)行聚類,直到類中心不發(fā)生改變或前后兩次收斂函數(shù)值之差小于給定閾值,則聚類結(jié)束,并將種子數(shù)據(jù)點(diǎn)所在的類內(nèi)的所有數(shù)據(jù)點(diǎn)作為優(yōu)秀班集體。采用K-means聚類算法“類內(nèi)緊密、類間疏離”的特點(diǎn)進(jìn)行優(yōu)秀班集體的評選,能夠?qū)⒕獍l(fā)展的班集體聚在同一類,解決了傳統(tǒng)評選方式中班集體因?yàn)槟骋环矫姹憩F(xiàn)突出而被評為優(yōu)秀的弊端。

        猜你喜歡
        中心點(diǎn)班集體聚類
        從我們的班集體說起
        Scratch 3.9更新了什么?
        我愛我的班集體
        兒童大世界(2019年1期)2019-11-27 23:26:31
        如何設(shè)置造型中心點(diǎn)?
        電腦報(bào)(2019年4期)2019-09-10 07:22:44
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫應(yīng)緊奏
        用“愛心”創(chuàng)建和諧班集體
        人間(2015年16期)2015-12-30 03:40:38
        基于改進(jìn)的遺傳算法的模糊聚類算法
        尋找視覺中心點(diǎn)
        大眾攝影(2015年9期)2015-09-06 17:05:41
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        特级无码毛片免费视频尤物| 国产一区二区在线免费视频观看| 成人性生交大片免费入口| 丰满多毛的大隂户毛茸茸| 色av综合av综合无码网站| 狠狠躁夜夜躁人人爽天天不卡| 亚洲丝袜美腿精品视频| 免费又黄又爽又色的视频| av无码免费永久在线观看| 最新日韩av在线不卡| 国产精品女丝袜白丝袜美腿| 免费人成小说在线观看网站| 午夜不卡av免费| 欧美久久中文字幕| 国产日产韩国级片网站| 国产特黄级aaaaa片免| 99久久精品国产一区二区蜜芽| 无码人妻精品中文字幕免费| 精彩视频在线观看一区二区三区| 夫妇交换性三中文字幕| 热の国产AV| 久久精品这里就是精品| 国产综合精品久久99之一| 国产精品免费看久久久8| 免费看欧美日韩一区二区三区| 亚洲人妻精品一区二区三区| 无遮掩无码h成人av动漫| 欧美巨大xxxx做受中文字幕| 国产午夜精品美女裸身视频69| 亚洲日本中文字幕高清在线| 免费无码a片一区二三区| 五月婷婷激情小说| 久久2020精品免费网站| 欧美成人午夜免费影院手机在线看| 亚洲精品久久久久中文字幕二区| 欧美性受xxxx狂喷水| 久久99热只有频精品8国语| 日本公与熄乱理在线播放| 免费一级国产大片| 人妻少妇精品视频专区二区三区| 中文字幕久久久人妻无码|