亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機(jī)器學(xué)習(xí)中K—means聚類算法的分析和應(yīng)用

        2017-05-16 16:55:42王子橋
        中國科技縱橫 2017年4期
        關(guān)鍵詞:means算法機(jī)器學(xué)習(xí)聚類

        王子橋

        摘 要:本文采用機(jī)器學(xué)習(xí)中的聚類算法對高水平足球聯(lián)賽五十名頂尖球員的進(jìn)攻數(shù)據(jù)進(jìn)行無監(jiān)督聚類學(xué)習(xí)和分析,并以進(jìn)球數(shù)、射正數(shù)和助攻數(shù)為評價指標(biāo),將球員分成三個類別。本文首先分析了K-means聚類算法的流程和特點(diǎn),進(jìn)而應(yīng)用于對足球運(yùn)動員比賽數(shù)據(jù)的聚類運(yùn)算。對聚類后的分類結(jié)果進(jìn)行分析和比較,從而找出球員的優(yōu)勢劣勢。其結(jié)果不僅對球員個人發(fā)展有極大的指導(dǎo)作用,也對中國足球取長補(bǔ)短、提升自身能力有重要意義。

        關(guān)鍵詞:K-means算法;聚類;機(jī)器學(xué)習(xí)

        中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1671-2064(2017)04-0030-02

        計算機(jī)是迄今為止最為高效的信息處理工具,特別是近年來隨著互聯(lián)網(wǎng)的發(fā)展,應(yīng)用計算機(jī)輔助工作和學(xué)習(xí)已經(jīng)成為常態(tài)。但普通計算機(jī)缺乏自主學(xué)習(xí)的能力,只是被動地執(zhí)行人為設(shè)定好的程序。因此人們開始尋找一種能以與人類智能學(xué)習(xí)相似的方式進(jìn)行數(shù)據(jù)處理的方法,于是人工智能應(yīng)運(yùn)而生。

        從1997年深藍(lán)在國際象棋中戰(zhàn)勝卡帕羅耶夫,到2016年AlphaGo在圍棋中擊敗李世石,不難看出,人工智能的發(fā)展?jié)摿κ志薮?。然而,目前的人工智能仍處于十分初級的弱人工智能階段,想要進(jìn)一步發(fā)展人工智能就必須探索新的更有效的方法。

        近年來,人工智能領(lǐng)域中的重要方向——機(jī)器學(xué)習(xí),得到了越來越多的重視,顧名思義,機(jī)器學(xué)習(xí)是通過經(jīng)驗(yàn)自動改進(jìn)計算機(jī)算法的研究,[1]也就是說,機(jī)器學(xué)習(xí)能用數(shù)據(jù)或以往的經(jīng)驗(yàn)優(yōu)化計算機(jī)程序的性能標(biāo)準(zhǔn),在不斷進(jìn)行自我學(xué)習(xí)的過程中,對機(jī)器自身程序算法進(jìn)行優(yōu)化。在機(jī)器學(xué)習(xí)中,聚類是一種極其重要的算法。聚類源于包括數(shù)學(xué)、計算機(jī)科學(xué)、經(jīng)濟(jì)學(xué)、生物學(xué)等的許多領(lǐng)域,其工作原理是通過研究各個樣本之間的相似度,利用數(shù)學(xué)方法對樣本進(jìn)行分類。[2]這其中,K-means算法是最為經(jīng)典的聚類算法之一。K-means算法是聚類分析中一種基于劃分的算法,屬于無監(jiān)督的學(xué)習(xí),該算法是聚類分析中一種十分經(jīng)典且非常高效的方法,具有高效率和相對可伸縮的優(yōu)點(diǎn),在處理大數(shù)據(jù)集時簡單快速,十分方便。[3]

        1 K-means算法

        作為一種無監(jiān)督的聚類算法,K-means算法在解決多個樣本數(shù)據(jù)進(jìn)行分類的問題時十分有效,給定一組樣本{},K-means算法將會把樣本聚成k個簇,具體步驟如下:

        (1)根據(jù)給定的k值隨機(jī)選取k個質(zhì)心{}。

        (2)重復(fù)迭代兩步直到質(zhì)心不變或變化很小:1)計算每一個樣本i應(yīng)屬于的類別=argmin,2)對每一個類別j,重新計算它的質(zhì)心,其中k是已知的聚類數(shù),是樣本i與k個類別中最近的一類,質(zhì)心位置是初始隨機(jī)選定的。其算法流程圖如圖1所示。

        下面用算法圖例來展示K-means算法的具體運(yùn)算流程,如圖2所示。

        如上圖所示,數(shù)據(jù)的初始分布如圖(a)所示,數(shù)據(jù)點(diǎn)用二維平面的加號 ”+”表示,共9個數(shù)據(jù)點(diǎn)。在圖(b)中,用星號“*”表示K-means算法的初始聚類中心。根據(jù)上述算法流程,K-means通過計算初始聚類中心到數(shù)據(jù)點(diǎn)的歐氏距離對樣本點(diǎn)進(jìn)行第一次分類,用紅色與綠色表明第一次的分類結(jié)果,結(jié)果如圖(b)所示。在第一次分類后,對每一類的全部樣本點(diǎn)重新計算質(zhì)心,再次計算樣本與每個質(zhì)心的距離進(jìn)行下一次分類,結(jié)果如圖(c)。重復(fù)該過程直到聚類質(zhì)心的位置不變或質(zhì)心變化很小達(dá)到穩(wěn)定狀態(tài),結(jié)果如圖(d),最終得到了樣本的2分類結(jié)果。

        由以上介紹,我們可以看出K-means算法操作簡便,分類效率高。在速度上有很明顯的優(yōu)勢,特別是在處理大量復(fù)雜樣本時,K-means能利用比較各個樣本相似度特性的方法就使問題得到簡化,從而達(dá)到快速分類的目的。它的另一優(yōu)點(diǎn)是時間復(fù)雜度較低,其時間復(fù)雜度可以表示為O(nkt)。n是數(shù)據(jù)集中對象的數(shù)量,k是類別數(shù),t是迭代次數(shù)。也就是說,其時間復(fù)雜度是近于線性的,相對于其他的聚類算法復(fù)雜度較低。

        然而K-means算法只能達(dá)到局部最優(yōu),因此在其k值的選擇和初始質(zhì)心的選取上較難控制,不同取值會導(dǎo)致較大的差異.且K-means對數(shù)據(jù)源要求較高,只適用于球狀分布的聚類特性數(shù)據(jù),不能處理非球狀分布或差別很大的樣本集,這是該算法一個很大的局限性。另外,因?yàn)榈螖?shù)無法確定,K-means算法的算法不夠穩(wěn)定,在某些特殊的數(shù)據(jù)集上可能導(dǎo)致其復(fù)雜度急劇增加,導(dǎo)致算法的運(yùn)行效率較低。

        2 球員數(shù)據(jù)應(yīng)用

        足球運(yùn)動員在訓(xùn)練或比賽中會有許多個人表現(xiàn)的數(shù)據(jù),比如進(jìn)球數(shù)、助攻數(shù)等等。對球員數(shù)據(jù)的合理分析有助于指導(dǎo)球員的訓(xùn)練和提升技術(shù)水平。本文收集了歐洲范圍內(nèi)五大高水平聯(lián)賽50名頂尖球員(排名榜前十名)的運(yùn)動數(shù)據(jù)。由于所列球員都為進(jìn)攻性球員,故采取進(jìn)球數(shù)、助攻數(shù)、射門成功率為評價指標(biāo),其中射門成功率為 (進(jìn)球數(shù)/射門數(shù))*100%。由于各個數(shù)據(jù)的變化范圍不統(tǒng)一,因此首先對數(shù)據(jù)進(jìn)行歸一化處理,再讀入K-means程序進(jìn)行聚類分析。

        在經(jīng)過歸一化處理之后,將50組數(shù)據(jù)讀入K-means算法程序,并通過進(jìn)球數(shù)、助攻數(shù)和射門成功率三維坐標(biāo)進(jìn)行顯示,其分類結(jié)果如圖3所示。

        由該分類結(jié)果我們可以看出,越靠近坐標(biāo)為(1,1,1)的點(diǎn)說明球員的數(shù)據(jù)越突出。在本結(jié)果中,綠色類為數(shù)據(jù)較優(yōu)秀的球員,藍(lán)色類為數(shù)據(jù)一般的球員,而紅色類為數(shù)據(jù)較差的球員。在助攻數(shù)和射門成功率上,綠色類都要明顯優(yōu)于其他兩組,而在進(jìn)球數(shù)上,三個類別沒有體現(xiàn)出明顯的分類差異。特別是,在助攻數(shù)這一評價標(biāo)準(zhǔn)中,三類的區(qū)分度尤其明顯,這也就意味著,助攻數(shù)和射門成功率是衡量一個優(yōu)秀球員最為關(guān)鍵的因素,而不僅僅是考量進(jìn)球數(shù)。這一點(diǎn)與人們一般認(rèn)可進(jìn)球數(shù)的常識相悖。因此要想成為一名優(yōu)秀的足球運(yùn)動員,除了在保證進(jìn)球數(shù)的基礎(chǔ)上,提升助攻和射門成功率也是十分重要的方面。

        但是,在本方法中也存在一定不足。比如數(shù)據(jù)的采集,總共選取了50名球員的運(yùn)動數(shù)據(jù),而且主要取自于頂尖排名,但并不一定能夠代表所有足球運(yùn)動員的實(shí)際水平,具有一定的局限性。另一方面,本方法所分析的助攻數(shù)、進(jìn)球數(shù)和射門成功率這三項(xiàng)指標(biāo)并不能完全代表一個球員的場上表現(xiàn),只是選取了三個可量化的評價指標(biāo),為了得到更為全面的評價結(jié)論,還需要更加全方位的分析和總結(jié)。

        3 結(jié)語

        本文分析了機(jī)器學(xué)習(xí)中無監(jiān)督聚類算法K-means的詳細(xì)流程和典型應(yīng)用。對該算法的實(shí)現(xiàn)過程、算法流程進(jìn)行了仔細(xì)的分析和討論。并將該算法應(yīng)用在對頂尖足球運(yùn)動員運(yùn)動數(shù)據(jù)的聚類分析上,以進(jìn)球數(shù)、射正數(shù)和助攻數(shù)為評價指標(biāo),將球員分成三個類別。并對聚類后的分類結(jié)果進(jìn)行分析和比較,發(fā)現(xiàn)助攻數(shù)是較進(jìn)球數(shù)影響更大的因素,從而找出分辨球員的優(yōu)劣的新標(biāo)準(zhǔn)。該結(jié)果對足球運(yùn)動員個人能力的提升上意義重大,更對中國足球未來的發(fā)展有一定指導(dǎo)作用。

        參考文獻(xiàn)

        [1]曾華軍,張銀奎,等譯.《機(jī)器學(xué)習(xí)》Tom M Mitchell[M].機(jī)械工業(yè)出版社,2003.

        [2]馬俊才,趙玉峰.基于分行維數(shù)的聚類分析研究[J].微生物學(xué)通報,1986.

        [3]王穎,劉建平.基于改進(jìn)遺傳算法的kmeans聚類分析[J].工業(yè)控制計算機(jī),2011.

        猜你喜歡
        means算法機(jī)器學(xué)習(xí)聚類
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于K—Means聚類算法入侵檢測系統(tǒng)研究
        基于Weka的Apriori算法在原油產(chǎn)量預(yù)測中的應(yīng)用
        基于HSI顏色空間的小麥粉精度自動識別研究
        基于聚類的Web日志挖掘
        基于改進(jìn)的遺傳算法的模糊聚類算法
        粉嫩国产白浆在线播放| 丁香美女社区| 欧美a级情欲片在线观看免费| 国产内射合集颜射| 国产精品亚洲综合色区丝瓜| 久久青青草原一区网站| 亚洲美女av一区二区在线| aⅴ精品无码无卡在线观看| 亚洲色无码播放| 日韩中文字幕网站| 中国黄色偷拍视频二区| 99re66在线观看精品免费| 亚洲精品无码国产| 亚洲 都市 校园 激情 另类| 91久久精品国产性色tv| 成熟的女人毛茸茸色视频| 中文字幕无线码一区二区| 日韩制服国产精品一区| 国产成人精品麻豆| 国产精品一区一区三区| 森中文字幕一区二区三区免费 | 亚洲va国产va天堂va久久| 亚洲av无码乱码国产精品fc2 | 午夜一区二区在线视频| 美女主播网红视频福利一区二区| av综合网男人的天堂| 人人做人人妻人人精| 九九日本黄色精品视频| 91色区在线免费观看国产| 欧美日韩亚洲中文字幕二区| 久久婷婷国产剧情内射白浆| 精品黄色av一区二区三区| 亚洲男人的天堂av一区| 十八禁视频网站在线观看| 亚洲最大av资源站无码av网址 | 国产超碰在线91观看| 亚洲国产精品18久久久久久| 全部孕妇毛片丰满孕妇孕交| 久久久久综合一本久道| 日韩一区二区av伦理| 综合五月激情二区视频|