北京161中學 柯嘉鑫
機器學習k-means算法在電競選手分析中的應(yīng)用
北京161中學 柯嘉鑫
隨著計算機技術(shù)的發(fā)展,數(shù)據(jù)挖掘在很多方面得到應(yīng)用,尤其是在電競行業(yè)發(fā)展迅速的今天,數(shù)據(jù)挖掘技術(shù)被應(yīng)用到電競分析中。本研究用機器學習的方法進行數(shù)據(jù)挖掘,將機器學習中K-means算法應(yīng)用于電子競技職業(yè)選手,對電競選手比賽數(shù)據(jù)的指標進行聚類,劃分為三個不同的等級,并對聚類結(jié)果進行分析,將個人能力水平數(shù)據(jù)化,用聚類結(jié)果指導職業(yè)選手今后的針對性訓練以及發(fā)展方向,為電子競技行業(yè)標準化、成熟化起到推動作用。本研究旨在推動計算機技術(shù)中機器學習的發(fā)展,為我國電子競技提供參考數(shù)據(jù),對日后電競選手分析的亞那就具有很大的意義。
機器學習;數(shù)據(jù)挖掘;聚類K-means算法;電子競技;計算機技術(shù)
隨著信息化、數(shù)字化的發(fā)展,計算機技術(shù)滲透到人們生活的方方面面,在社會生活中展現(xiàn)出強大的力量,與此同時,機器學習作為一種新型的技術(shù),在科研中占據(jù)扮演重要角色,其通過模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能的一項技術(shù)。作為人工智能的核心以及今后重要發(fā)展方向,機器學習在商務(wù)、生物學、地球環(huán)境學上都有不同程度的應(yīng)用,在社會實用中有重要的應(yīng)用價值和廣闊的前景,合理的將機器學習K-means算法應(yīng)用于行業(yè)中,可以讓一個新興領(lǐng)域在數(shù)據(jù)挖掘,分析指導方面取得先機[1],[2]。
近些年來中國電子競技行業(yè)突破傳統(tǒng),迅速崛起,方興未艾,逐漸走入了人們的視野,然而由于該領(lǐng)域在中國正處于起步階段,針對其產(chǎn)生的大數(shù)據(jù)的分析方法十分缺乏,導致在對于競技理念風格,以及變動方面發(fā)展緩慢。采用K-means算法對職業(yè)選手進行評估,是基于現(xiàn)在電競數(shù)據(jù)分析空白現(xiàn)狀的重要突破和創(chuàng)新。
本研究采用數(shù)據(jù)挖掘中典型的聚類K-means分析算法,針對Dota2項目選手展開初步研究,收集在國際賽事中參賽戰(zhàn)隊各選手的實戰(zhàn)數(shù)據(jù)以及細節(jié)成果,通過反復學習、調(diào)整,以獲得合適的聚類中心,將參賽選手劃分不同類別,使符合相應(yīng)風格和打法理解的選手劃歸為一類,結(jié)合聚類結(jié)果對選手進行分析[3]-[5]。
1967年,Macqueen提出了K-means算法思想[6],把空間中數(shù)據(jù)集中的n個數(shù)據(jù)點分為k組,把每組的均值作為中心點,并以這k個點為中心進行聚類,對最靠近他們的對象劃為一類。通過t次迭代,重新計算數(shù)據(jù)點與各組中心的相似度,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果[7],[8]。
K-means算法作為數(shù)據(jù)挖掘中經(jīng)典的聚類分析算法,是一種比較快速有效的聚類方法,能根據(jù)較少的已知聚類樣本的類別確定部分樣本的分類;其次,為克服少量樣本聚類的不準確性,該算法本身具有優(yōu)化迭代功能,在已經(jīng)求得的聚類上再次進行迭代修正,確定部分樣本的聚類,優(yōu)化了初始監(jiān)督學習樣本分類不合理的地方;第三,由于只是針對部分小樣本可以降低數(shù)據(jù)挖掘所需時間。
聚類開始,選取k個質(zhì)心點,通過多次運行,每次運行都是隨機選取質(zhì)心點,最終確定平均誤差和最小的幾個點作為質(zhì)心點;接著進行距離的計算,求每個樣本與各個質(zhì)心之間的距離,將該樣本數(shù)據(jù)歸為距離小的質(zhì)心所在的類中,根據(jù)不同情況,可選用歐幾里德距離或曼哈頓距離,本論文采用歐幾里德距離;進而計算每個聚類的平均值,作為新的質(zhì)心,不斷的重復第二步與第三步的計算過程,知道質(zhì)心帶你收斂即不再發(fā)生變化,表示聚類結(jié)束。
各樣本與質(zhì)心的距離表達式如下:
聚類質(zhì)心的選取表達式:
圖1 k-means算法流程圖
圖2 分析流程圖
表1 選手電競得分結(jié)果表
(1)數(shù)據(jù)采集
本研究中數(shù)據(jù)來源于某游戲國際邀請賽通用平臺中部分選手數(shù)據(jù)作為本次的分析樣本數(shù)據(jù),共計15位參賽選手的比賽數(shù)據(jù),其中包含比賽中場均KDA、總擊殺數(shù)、總死亡數(shù)、總助攻數(shù)等數(shù)據(jù)信息,這些數(shù)據(jù)都快可以從比賽平臺上獲取,真實有效。
(2)數(shù)據(jù)預處理
對數(shù)據(jù)進行預先處理,是數(shù)據(jù)挖掘中數(shù)據(jù)分析的首要步驟,也是重中之重,對原數(shù)據(jù)進行篩選、去噪、標準化等操作,將數(shù)據(jù)變?yōu)橛行?shù)據(jù),不僅可以提高數(shù)據(jù)挖掘的效率,同時決定了數(shù)據(jù)挖掘結(jié)果的準確性。
首先對數(shù)據(jù)進行集成、整合,將多位參賽選手的數(shù)據(jù)整合到一張表中,將參與聚類分析的14個屬性整合到表中,如表1所示。
數(shù)據(jù)清洗:將原數(shù)據(jù)進行標準化,從表1中可看出原始數(shù)據(jù)沒有統(tǒng)一,因此,對數(shù)據(jù)進行標準化處理,本研究采用經(jīng)典的數(shù)據(jù)標準化方法極差法,表達式如下:
(3)聚類分析
本研究選取具有代表性的兩個屬性總擊殺數(shù)和場均XPM,對選手進行聚類,選用的開發(fā)工具是PyCharm,開發(fā)語言是Python。Python開發(fā)語言相對于其他語言,以腳本的形式存在,操作簡單,將選手聚集成三類,部分代碼如圖3所示:
圖3 部分代碼圖
仿真結(jié)果如圖4所示:
圖4 聚類結(jié)果圖
聚類結(jié)果表如表2所示。
從圖4中可以看出將15名選手分成3類,其中紫色表示偏重自身經(jīng)驗獲取與發(fā)育,具備一定后期能力,團隊支撐的選手;中間綠色表示能夠在發(fā)育與參戰(zhàn)中權(quán)衡并保持自己的節(jié)奏,執(zhí)行率較高,能在團隊中發(fā)揮應(yīng)有的作用,全能型的選手;右下角黃色部分表示進攻性很強,但是容易丟失自己發(fā)育節(jié)奏的選手。從表2中可以看出第二名選手個人能力較強,應(yīng)努力保持。第9,12,15打法較為積極主動,但是發(fā)育能力較差,要多多與隊伍磨合,穩(wěn)中求彩。其余選手應(yīng)更多的開發(fā)自己適合的戰(zhàn)術(shù),以有更多發(fā)揮空間。
表2 電競選手聚類結(jié)果表
本文將電競選手的參賽成績采用數(shù)據(jù)挖掘中的經(jīng)典算法k-means聚類算法,通過程序仿真,將選手的個人特色與能力客觀地展現(xiàn)出來,通過聚類分析,反映出比賽選手之間的競技水平存在明顯差異,該結(jié)果可以便于選手了解自己的不足之處,以及日后比賽的努力方向,為各大戰(zhàn)隊以及俱樂部選手提供有效參考;與此同時,還可以提供數(shù)據(jù)給開發(fā)公司及相關(guān)賽事負責人員提供決策支撐,便于了解每位選手以及當前版本的節(jié)奏和風格,方便游戲與賽制優(yōu)化與完善,逐步推進電子競技科學化,成熟化。本文在電競選手聚類分析中取得一定的成果,為以后機器學習在電競分析中的應(yīng)用奠定了良好的理論基礎(chǔ);但仍然存在不足之處,比如以后的研究將關(guān)聯(lián)規(guī)則與聚類分析算法一同使用,可以提高算法的性能。
[1]徐衛(wèi)廣.自動化機器學習領(lǐng)域中k-means聚類算法應(yīng)用研究[J].工程技術(shù)全文版,2016(6):00212.
[2]熊志斌,朱劍鋒,王冬.K-means聚類算法的研究和應(yīng)用[J].電腦編程技巧與維護,2014(8):10-12.
[3]李雙虎,王鐵洪.K-means聚類分析算法中一個新的確定聚類個數(shù)有效性的指標[J].河北省科學院學報,2003,20(4):199-202.
[4]方開泰,潘恩沛.聚類分析[M].地質(zhì)出版社,1982.
[5]方方,王子英.K-means聚類分析在人體體型分類中的應(yīng)用[J].東華大學學報(自然科學版),2014,40(5):593-598.
[6]張云濤.數(shù)據(jù)挖掘原理與技術(shù)[M].電子工業(yè)出版社,2004.
[7]Hartigan J A,Wong M A.A K-means clustering algorithm[J].Applied Statistics,1979,28(1):100-108.
[8]Jain, Anil K.Data clustering:50 years beyond K-means[J].Pattern Recognition Letters,2010,31(8):651-666.
[9]Hartigan J A,Wong M A.Algorithm AS 136:A K-Means Clustering Algorithm[J].Journal of the Royal Statistical Society,1979,28(1):100-108.
柯嘉鑫(2000—),男,廣東人,現(xiàn)就讀于北京161中學。