亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        有序Lasso-Logistic模型的電競角色選擇應(yīng)用分析

        2021-04-06 10:53:42王白云沈春根
        計算機技術(shù)與發(fā)展 2021年3期
        關(guān)鍵詞:分類分析模型

        王白云,沈春根

        (上海理工大學(xué) 理學(xué)院,上海 200093)

        0 引 言

        隨著社會的進(jìn)步,如今的電競早已不再是傳統(tǒng)意義上的電子游戲,它正朝著專業(yè)體育方向發(fā)展,成為一種產(chǎn)業(yè),推動著科技的進(jìn)步,在現(xiàn)代社會創(chuàng)造了巨大的價值。電競與其他競技體育項目一樣,對數(shù)據(jù)的分析和應(yīng)用有著極高的要求,而機器學(xué)習(xí)作為現(xiàn)在數(shù)據(jù)處理和分析的一項主要技術(shù)在眾多學(xué)科領(lǐng)域發(fā)揮了不可估量的作用,其中也包括電競行業(yè)。目前國內(nèi)的電競行業(yè)正處在迅速發(fā)展階段,作為全球電競行業(yè)發(fā)展最快、最受關(guān)注的國家之一,中國對電競行業(yè)的機器學(xué)習(xí)研究和分析較為匱乏,使得電子競技在發(fā)展過程中缺少當(dāng)今最有力的數(shù)據(jù)參考。通過有序Lasso-Logistic模型分析電子競技角色選擇,為機器學(xué)習(xí)在電競分析上提供新的分析方法,使得電競行業(yè)從數(shù)據(jù)分析上獲得更多進(jìn)展。

        該文以著名的電競游戲─刀塔2為例,采用有序Lasso-Logistic模型分析電競角色選擇,為其他電子競技角色選擇提供參考依據(jù),促進(jìn)職業(yè)選手在角色選擇上的策略分析,推動電競行業(yè)向數(shù)據(jù)化發(fā)展。刀塔2主要操作方式是敵對雙方(各有五名玩家)之間的對抗,每名玩家從100多個英雄中選擇一個進(jìn)行操作,每個英雄在該局比賽中只能被選擇一次。刀塔2包含十余種游戲模式,三種游戲種類。

        有序Lasso-Logistic模型包含了自變量對因變量發(fā)生具有不同重要性的先驗信息,將其用于分析刀塔2以各個英雄為自變量,因變量是比賽結(jié)果的數(shù)據(jù),探索不同角色選擇對比賽的獲勝結(jié)果的影響,并進(jìn)行預(yù)測,通過與其他機器學(xué)習(xí)模型的預(yù)測結(jié)果進(jìn)行比較突出有序Lasso-Logistic模型良好的預(yù)測效果,展現(xiàn)數(shù)據(jù)自變量先驗信息的重要性以及有序Lasso-Logistic模型在分類數(shù)據(jù)分析中的優(yōu)越性。

        1 文獻(xiàn)綜述

        機器學(xué)習(xí)中也不乏分類模型,如邏輯回歸模型[1-2]、Lasso-Logistic模型[3]、支持向量機模型[4]、隨機森林模型[5]以及梯度增強決策樹模型[6]等在分類問題中表現(xiàn)出一定的分析能力和預(yù)測效果。在分析刀塔2的文章中可看到,許多作者通過玩家所選取的英雄采用不同的分類模型預(yù)測游戲結(jié)果,如:Semenov、Romov和Korolev等[7]將刀塔2采用了分解機模型分析所選取的英雄并預(yù)測刀塔2比賽勝負(fù),通過與其他分類器模型的預(yù)測結(jié)果相比較顯示出分解機模型良好的預(yù)測效果。Aznin、Diah和Abdullah[8]構(gòu)建一個基于規(guī)則的技術(shù)專家系統(tǒng)向刀塔2玩家推薦適合的英雄,但在系統(tǒng)測試上,作者采取用戶問卷調(diào)查的評估反饋測試系統(tǒng)的可用性價值,存在較多的不確定因素。Wang和Shang[9]用改進(jìn)的樸素貝葉斯分類器分析刀塔2玩家選取的陣容預(yù)測游戲結(jié)果,將預(yù)測結(jié)果與原樸素貝葉斯分類器的預(yù)測結(jié)果相比較發(fā)現(xiàn)準(zhǔn)確率比原樸素貝葉斯分類器至多高1%,雖然預(yù)測準(zhǔn)確率有所提高,但是并不明顯,同樣還有文獻(xiàn)[10]。另外,一些文獻(xiàn)從玩家的角度分析刀塔2,如文獻(xiàn)[11-12]。許晨波[13]則提出了改進(jìn)的LSTM陣容推薦模型和勝率預(yù)測模型并設(shè)計了相應(yīng)的系統(tǒng)幫助玩家完善陣容構(gòu)建,提高獲勝幾率。陳婷如[14]基于普羅普的功能和LeviStrauss二元對立理論,文本分析了刀塔2與玩家所建立的聯(lián)系??录析蝃15]根據(jù)K-means算法從刀塔2數(shù)據(jù)分析了電競選手。在眾多分類模型中發(fā)現(xiàn),少有模型包含自變量的先驗信息,比如有序Lasso-Logistic模型中自變量對因變量發(fā)生的重要性具有排序的先驗信息。在電子競技中不同角色能力強弱不一,這個信息在選手進(jìn)行角色選擇前便可得知并且對于隊伍陣容構(gòu)建和獲勝起到十分關(guān)鍵的作用,對于刀塔2同樣如此,但這在上述文章中少有用到。 基于這些原因,該文利用刀塔2中不同英雄選擇對比賽的獲勝結(jié)果存在差異的先驗信息,通過有序Lasso-Logistic模型對電競角色選擇進(jìn)行分析。

        有序Lasso-Logistic模型是一含有序約束條件的模型,模型中通過對自變量系數(shù)絕對值進(jìn)行排序形成有序約束條件。這鑒于考慮到在進(jìn)行數(shù)據(jù)收集時,選取的自變量對因變量的重要性大小很多時候會存在一些先驗性判斷,比如該文所采用的刀塔2數(shù)據(jù)中的自變量cluster ID、游戲模式和游戲類型在進(jìn)行一局完整的游戲戰(zhàn)斗是必不可少的,但就某個英雄而言則非必須,是可選可不選的,重要性較前三者有所降低。有序性約束條件是根據(jù)自變量對因變量的重要性大小排序形成,它們可以是根據(jù)專業(yè)知識或者經(jīng)驗判斷,也可以通過變量間的相關(guān)性或者重要性計算而得知。有序Lasso-Logistic模型可用于解決自變量對因變量發(fā)生存在不同重要性且因變量是二分類的問題,模型結(jié)合了變量系數(shù)有序約束條件,對多變量分類數(shù)據(jù)進(jìn)行分析,使得眾多自變量對因變量發(fā)生的重要性大小體現(xiàn)得更加明顯,使其具體化、顯現(xiàn)化。

        該文通過分析刀塔2英雄選擇作為具體例子,旨在表明有序Lasso-Logistic模型對電競角色選擇的分析效果,體現(xiàn)機器學(xué)習(xí)對電競行業(yè)的推進(jìn)作用,使得電子競技越來越科學(xué)化,也為其提供更多的理論支持。

        在文章剩余部分將介紹以下幾方面內(nèi)容,一、用于分析電競角色選擇的模型,主要介紹有序Lasso-Logistic模型,簡要概述邏輯回歸模型、Lasso模型、SVM模型、梯度提升決策樹模型;二、描述文章采用的數(shù)據(jù)集,包括變量、數(shù)據(jù)特征等以及數(shù)據(jù)處理;三、分析有序Lasso-Logistic模型的變量選擇;四、將有序Lasso-Logistic模型的預(yù)測結(jié)果與其他模型的預(yù)測結(jié)果進(jìn)行比較并分析,得出結(jié)論。

        2 模型介紹

        2.1 Binary Logistic Regression模型

        二項邏輯回歸模型是處理因變量是二分類問題的回歸模型[16],在分析個人信用評估、醫(yī)學(xué)診斷、地質(zhì)災(zāi)害危險區(qū)劃分等方面常用到。假設(shè)對于自變量的觀測矩陣X,因變量的觀測向量y,第i個觀測值表示為(xi,yi);i=1,2,…,N;xi=(xi1,xi2,…,xip);yi=0或者1,那么關(guān)于X的線性回歸模型可表示為:

        g(x)=β0+xβ

        (1)

        將上式結(jié)合Sigmoid函數(shù):

        (2)

        得邏輯回歸模型如下:

        (3)

        p(X)=P(y=1|X)表示給定X時y=1的條件概率,β0,β是模型的參數(shù),其絕對值越大,相應(yīng)的自變量越重要,參數(shù)符號為正,表示自變量與因變量y=1的條件概率P(y=1|X)呈正相關(guān),符號為負(fù),則表示自變量與因變量y=0的條件概率P(y=0|X)呈正相關(guān)。邏輯回歸模型一般采用極大似然估計法進(jìn)行估計,以下式子中用pi(x)表示p(xi)=P(yi=1|xi),由于觀測值(xi,yi)的似然函數(shù)是:

        pi(x)yi[1-pi(x)]1-yi

        (4)

        所以N個觀測值的似然函數(shù)就是:

        (5)

        對上式取對數(shù)似然函數(shù)及其相反數(shù):

        log(1+eβ0+βTxi))

        (6)

        2.2 Lasso-Logistic模型

        Lasso(Least absolute shrinkage and selection operator)[17]近年來發(fā)展十分迅速,不僅在理論方面,在實際應(yīng)用上也是如此,特別是在處理變量很多的情況下或者稀疏性變量矩陣的處理上展現(xiàn)出明顯的優(yōu)勢。Lasso通過構(gòu)造罰函數(shù)讓一些變量的系數(shù)值等于零從而實現(xiàn)壓縮估計,既可以簡化模型又可以避免過擬合,在如今的大數(shù)據(jù)趨勢下顯示出更重要的作用。Lasso的最小二乘形式目標(biāo)函數(shù)如下:

        (7)

        將上式結(jié)合式(6)可得Lasso-Logistic模型[10]的目標(biāo)函數(shù)如下:

        (8)

        在式(7)和式(8)中,λ≥0是可調(diào)整的參數(shù),它的大小與β的稀疏性有關(guān),通過調(diào)整λ的大小以篩選變量。

        2.3 有序Lasso-Logistic模型

        有序Lasso模型是2016年Tibshirani和Suo在文獻(xiàn)[18]提出的優(yōu)化問題并提出了相應(yīng)的解決算法。該模型是在一般Lasso模型的基礎(chǔ)上附加一個關(guān)于模型系數(shù)絕對值的單調(diào)有序約束條件,文獻(xiàn)還把有序Lasso模型應(yīng)用在時間序列問題上,通過仿真數(shù)據(jù)和臭氧數(shù)據(jù)等數(shù)值實驗顯示出有序Lasso模型的參數(shù)估計值比一般Lasso模型的的參數(shù)估計值更接近真實值的良好效果。盡管有序Lasso模型是含有約束條件的模型,但是它更好地利用了自變量與因變量之間的先驗信息,所以使得模型的擬合效果勝過一般Lasso模型。另外,有一些文獻(xiàn)將有序Lasso模型應(yīng)用到其他領(lǐng)域,比如Nguyen和Braun[19]將有序Lasso模型結(jié)合時間序列問題應(yīng)用于生物學(xué)的基因調(diào)控網(wǎng)絡(luò),探索基因表達(dá)在不同時間點的動態(tài)變化,并將模型結(jié)合半監(jiān)督學(xué)習(xí)法探索出新的調(diào)控因子,在基因表達(dá)、基因調(diào)控網(wǎng)絡(luò)方面得到不錯的結(jié)果。該文基于有序Lasso模型[17]將其應(yīng)用于因變量是二分類的數(shù)據(jù)上,充分利用了先驗信息,顯現(xiàn)出自變量對因變量(P(y=1|X))的不同影響并取得了良好的預(yù)測效果,體現(xiàn)了含有單調(diào)有序約束條件的Lasso問題在分類問題上的實際應(yīng)用價值。

        有序Lasso-Logistic模型可看作是有序Lasso模型[18]的擴展,由Lasso-Logistic模型的目標(biāo)函數(shù)式(8)結(jié)合有序Lasso模型[17]得到有序Lasso-Logistic模型如下:

        (9)

        (10)

        對于改進(jìn)后的目標(biāo)函數(shù)(10)將通過子問題式(11)求解,子問題如下:

        (11)

        其中:

        X是N×p的自變量觀測矩陣,y是N×1的因變量觀測向量,p是由pi,i=1,2,…,N組成的向量。

        2.4 SVM模型

        SVM(support vector machine)模型[20]也是一種二分類模型,通過構(gòu)建一個超平面或超平面集,使得兩類樣本中離超平面最近的樣本間隔最大化,這些超平面對應(yīng)的向量就被稱為支持向量。支持向量機可以進(jìn)行線性分類和非線性分類,在解決小樣本,非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,但不太適用于較大的數(shù)據(jù)集,且不易選出正確的核函數(shù),其目標(biāo)函數(shù)是:

        式子中yi={0,1},(xi,yi)是一對觀測值,w是超平面法向量,b是超平面的截距。

        2.5 Gradient Boosting Decision Tree (GBDT)模型

        梯度提升決策樹模型(GBDT)是一種迭代的決策樹算法,由多棵決策樹組成,是廣義梯度提升模型(Generalized Boosted Regression Model)(GBM)其中的一種,所以同樣是將弱學(xué)習(xí)器變成強學(xué)習(xí)器的一種方法且基于boosting算法,而boosting算法是一種可用來減小監(jiān)督式學(xué)習(xí)中偏差的機器學(xué)習(xí)算法,大多數(shù)由許多基礎(chǔ)的分類模型組成,進(jìn)行迭代后根據(jù)不同模型分類的準(zhǔn)確率給予權(quán)重,產(chǎn)生一個較復(fù)雜的分類模型,借此強化模型的分類準(zhǔn)確率。由于模型是由多個基礎(chǔ)分類模型構(gòu)成,所以可以避免過擬合的情況,可用于回歸問題和分類問題,泛化能力和表達(dá)能力都很好,具有較好的可解釋性,有更高的性能上限,但只能處理低維稠密的數(shù)據(jù),對高維稀疏的數(shù)據(jù)表現(xiàn)較差,處理類別特征效果沒有數(shù)值特征好。

        3 數(shù)據(jù)集分析

        3.1 數(shù)據(jù)集來源與數(shù)據(jù)處理

        該文通過UCI機器學(xué)習(xí)庫獲取一份在線游戲刀塔2的數(shù)據(jù)集,該數(shù)據(jù)集是2016年8月份玩家進(jìn)行刀塔2在線游戲的記錄。每一個觀測為一局游戲記錄數(shù)據(jù),每一局的游戲時間不超過兩小時。數(shù)據(jù)變量如表1所示,包括獲勝隊伍,cluster ID(與玩家服務(wù)器位置有關(guān)),游戲模式,游戲種類以及113個英雄的id總共117個變量。

        表1 變量說明

        由表1可看出,刀塔2數(shù)據(jù)集包含了9種游戲模式和3種游戲種類,幾乎涵蓋了所有五對五的隊伍比賽模式和種類。該文重點在于探索不同角色選擇對比賽的獲勝結(jié)果的不同影響,所以將數(shù)據(jù)集中表示比賽結(jié)果的獲勝隊伍變量作為因變量y,其他變量作為自變量,除cluster ID外其余均為分類數(shù)據(jù)變量,其中id為28、112、117三個自變量與其他自變量存在共線性所以給予剔除。刀塔2游戲每一局都會有一個cluster ID,選定一種游戲模式和一種游戲種類,敵對雙方各選五個英雄進(jìn)行戰(zhàn)斗,每一局游戲中一個英雄只能被選擇一次。將進(jìn)行戰(zhàn)斗的兩個陣營分為1陣營和-1陣營,因此在每個觀測值中有五個id變量等于1和五個id變量等于-1代表此局被選中的英雄,而其他沒有被選中的id變量取值為0。

        y取值1表示1陣營取勝,取值-1表示-1陣營取勝,為了方便模型分析,將游戲結(jié)果獲勝隊伍的值-1改為0,即yi={0,1},-1陣營選取的英雄id仍取值-1。所有的觀測值中沒有缺失值,每個觀測值有114個變量,只有其中的13個變量的數(shù)據(jù)取值非零,其余的變量均等于0,可知此數(shù)據(jù)集所形成的矩陣是一個稀疏性較強的矩陣,且自變量較多。該文主要考察不同角色對游戲獲勝結(jié)果P(y=1|X)的影響,因此暫不考慮不同英雄間的作用,并且通過計算各id變量間具有高度相關(guān)性(變量間相關(guān)性絕對值的閾值為0.75)的變量數(shù)量發(fā)現(xiàn)其值為零,顯然在這個數(shù)據(jù)集中只考察單個英雄對獲勝結(jié)果的影響是較合理的。為了比較有序Lasso-Logistic模型在不同樣本量中與其他模型的預(yù)測表現(xiàn),該文采用了三個樣本量(N=2 000,N=3 000,N=6 000)的數(shù)據(jù)進(jìn)行分析,并對所有模型進(jìn)行五折交叉檢驗后計算出平均準(zhǔn)確率(ACC值)和平均ROC曲線下方面積值(AUC值),在三個樣本集中分別隨機取1 600個,2 400個,4 800個樣本作為訓(xùn)練集,剩余400個,600個,1 200個樣本作為測試集。在三個樣本量的數(shù)據(jù)中,1陣營獲勝的局?jǐn)?shù)分別是1 051局,1 588局,3 209局,-1陣營取勝的局?jǐn)?shù)分別是949局,1 412局,2 791局,可見樣本數(shù)據(jù)集分布比較對稱,不存在一方陣營獲勝局?jǐn)?shù)遠(yuǎn)遠(yuǎn)多于另一方陣營的情況。

        3.2 有序Lasso-Logistic模型變量選擇

        Lasso在R語言中很容易通過加載glmnet程序包和lars程序包調(diào)用相應(yīng)的函數(shù)進(jìn)行模型分析,所以該文主要介紹有序Lasso-Logistic模型的變量選擇,選出樣本集N=2 000其中的一個訓(xùn)練集進(jìn)行變量篩選分析。

        有序Lasso-Logistic模型的有序性約束條件主要通過關(guān)于自變量的先驗信息所得,獲取先驗信息的方法不一,可以是在收集數(shù)據(jù)時結(jié)合實際問題根據(jù)經(jīng)驗和專業(yè)知識對自變量與因變量之間的關(guān)系有所了解而得之,也可以通過計算變量間的相關(guān)性或者進(jìn)行模型分析后對自變量進(jìn)行重要性排序獲得??傊行蛐约s束條件反映的是自變量對因變量(分類數(shù)據(jù)中是對因變量P(y=1|X)不同的重要性和影響程度。該文在有序Lasso-Logistic模型中約束條件的先驗信息是通過邏輯回歸模型結(jié)合變量重要性排序所得,因主要考察各個英雄與獲勝隊伍y=1的關(guān)系并且表1中前4個自變量對于每一局游戲都是必不可少的變量,所以主要對id變量的重要性進(jìn)行由大到小排序,以此獲得所需的先驗信息作為模型的有序約束條件。經(jīng)實驗,不同樣本量可能會使得對變量的重要性排序稍有差異但并不會有很大的變動。

        變量篩選在有序Lasso-Logistic模型中由含有參數(shù)λ的懲罰項控制,λ≥0的是可以調(diào)整的參數(shù),懲罰項通過調(diào)整λ值實現(xiàn)壓縮系數(shù)從而篩選變量的過程,不僅使模型復(fù)雜程度降低,也可以避免過擬合。λ取值不同產(chǎn)生的模型也不同,取值越大對模型的懲罰力度越大,模型獲得的變量越少,最終λ會在某個取值上使得模型獲得最佳性能和較少的變量。該文通過λmin=5*10-4λmax(R orderedLasso程序包)選取λ的取值范圍(λmax值與數(shù)據(jù)集的大小有關(guān)),選擇50個不同的λ值,用交叉驗證法進(jìn)行計算,選擇出均方誤差(MSE)最小的λ值作為最優(yōu)模型的參數(shù)值。

        圖1是有序Lasso-Logistic模型分析訓(xùn)練集N=1 600的樣本量數(shù)據(jù)對應(yīng)λ的不同取值與相應(yīng)模型的變量數(shù)目變化。在圖的上方橫軸是變量數(shù)目,左邊縱軸是不同λ值相應(yīng)的估計誤差MSE,中間的兩條灰色線位于左邊的線是估計誤差值最小對應(yīng)的λ值(lambda.min),所得到的模型性能最佳,右邊的線是lambda.min在一個標(biāo)準(zhǔn)差范圍內(nèi)既維持了良好的模型性能又能使變量數(shù)達(dá)到最少的λ值(lambda.1se)。從圖中可以看到,在λ=lambda.min時變量數(shù)是106個,而在保持模型良好性能的情況下,變量數(shù)可以篩選至83個。

        圖1 lambda和變量數(shù)目的變化

        圖2是隨著λ值的變化,自變量系數(shù)發(fā)生變化的過程,從圖中可看出一些變量的系數(shù)估計值隨著λ增大逐漸被壓縮至零,結(jié)合圖1這些系數(shù)相應(yīng)的變量將被剔除,只留下含有非零系數(shù)的變量,有序Lasso-Logistic模型隨著λ逐漸增大,非零系數(shù)在逐漸減少,變量數(shù)在逐漸減少,由此實現(xiàn)模型的壓縮估計,篩選出一部分的變量。

        圖2 lambda系數(shù)路徑變化

        3.3 預(yù)測結(jié)果與模型比較

        所有計算過程均在R-3.5.3進(jìn)行,其中邏輯回歸模型采用的stat程序包里的glm函數(shù)估計模型參數(shù),SVM模型調(diào)用的是e1071函數(shù),Lasso先采用cv.glmnet函數(shù)用五折交叉驗證法得到lambda.min,再用glmnet函數(shù)結(jié)合lambda.min得系數(shù)估計值,GBDT模型則是采用gbm函數(shù)進(jìn)行參數(shù)估計,其中用交叉驗證法確定最佳迭代次數(shù)并調(diào)用coord函數(shù)得到最佳臨界值以此確定預(yù)測的類別。將有序Lasso-Logistic模型與另外四種機器模型對三個不同的樣本數(shù)據(jù)進(jìn)行五折交叉驗證并計算預(yù)測結(jié)果的平均準(zhǔn)確率ACC值和平均AUC值。從計算結(jié)果看出,有序Lasso-Logistic模型在三個不同的樣本量中ACC值和AUC值均比其他四個模型高。表2是不同的樣本量中有序Lasso-Logistic模型與其他模型預(yù)測結(jié)果對比ACC和AUC值高出的最小值和最大值差異(邏輯回歸模型用LR表示)。

        表2 預(yù)測結(jié)果差異表 %

        從表2可知,在樣本量N=2 000時模型預(yù)測結(jié)果差異比較大,有序Lasso-Logistic模型的平均AUC值比其他模型最高高出9個百分點,最低也高出4.5個百分點,平均準(zhǔn)確率ACC值高出4個百分點左右。隨著樣本量增加,有序Lasso-Logistic模型預(yù)測結(jié)果比其他模型高出的差異有所減小但仍表現(xiàn)出一定的優(yōu)勢。在表2中,與有序Lasso-Logistic模型預(yù)測結(jié)果產(chǎn)生最小差異的分別是邏輯回歸模型和Lasso模型,產(chǎn)生最大差異的是SVM模型和GBDT模型。由此可以看出有序Lasso-Logistic模型的預(yù)測結(jié)果和模型的性能的確比其他模型好。為了更加直觀地比較各個模型的性能表現(xiàn),作出ROC曲線如圖3~圖5所示。

        圖4 ROC曲線(N=3 000)

        圖5 ROC曲線(N=6 000)

        邏輯回歸模型在三個樣本量中的預(yù)測結(jié)果是其他四個機器學(xué)習(xí)模型中最好的,僅此于有序Lasso-Logistic模型。在處理二分類因變量數(shù)據(jù)集時,邏輯回歸模型必然是首選,其優(yōu)點不言而喻,不僅容易解釋和實現(xiàn),而且計算速度快,但是發(fā)現(xiàn)在自變量很多的情況下容易使結(jié)果變得不準(zhǔn)確,這很有可能是因為變量過多而產(chǎn)生一些過擬合的現(xiàn)象。Lasso模型的預(yù)測結(jié)果與邏輯回歸模型不相上下,正好可以彌補邏輯回歸的缺陷,在處理變量較多,特別是變量矩陣具有稀疏性的情況下展現(xiàn)很強的優(yōu)勢,但是從實驗結(jié)果來看會發(fā)現(xiàn),在模型變得簡練的同時也產(chǎn)生了一些誤差,損失了一些準(zhǔn)確性。從兩個模型的預(yù)測結(jié)果和優(yōu)缺點出發(fā),添加了有序約束條件進(jìn)行預(yù)測,預(yù)測結(jié)果得到明顯提高,即改進(jìn)后的模型的確是更好。另外兩個分類器模型SVM模型和GBDT模型在分類數(shù)據(jù)上也得到廣泛使用,然而在此數(shù)據(jù)集預(yù)測結(jié)果較差,原因之一很可能是數(shù)據(jù)的稀疏性導(dǎo)致,特別是GBDT模型。

        該文通過分析刀塔2數(shù)據(jù)集并把預(yù)測結(jié)果與其他四種常見的機器學(xué)習(xí)模型進(jìn)行比較,可以看出有序Lasso-Logistic模型的預(yù)測結(jié)果比其他模型準(zhǔn)確率高,模型的性能更好。不僅如此,從有序Lasso-Logistic模型還可以通過有序約束條件推測出刀塔2的英雄id對比賽獲勝結(jié)果的不同影響。表3是對獲勝結(jié)果影響比較大的變量系數(shù)估計值,表4是對獲勝結(jié)果影響比較小的變量系數(shù)估計值。

        表3 重要性較強的變量及其系數(shù)

        表4 重要性較弱的變量及其系數(shù)

        從表中綜合有序Lasso-Logistic模型對不同的樣本量的刀塔2分析所得,一些英雄如id是61,71,13,9,107,55,40,41,106,107等英雄對獲勝結(jié)果的影響始終比較大,而id是56,17,93,43,111,65,25,115,62,86等英雄對獲勝結(jié)果的影響比較小,對獲勝結(jié)果影響比較大的那些英雄在所有觀測中使用的頻數(shù)并沒有明顯較高,所以推測可能是更容易操作或者殺傷力更強。同樣,在其他電子競技上,那些表現(xiàn)出對獲勝結(jié)果影響比較大的角色可以令選手更加側(cè)重考慮,在陣容構(gòu)建上提供一定的參考。

        4 結(jié)束語

        該文將有序Lasso-Logistic模型引入到電競角色選擇分析和對結(jié)果的預(yù)測中,將預(yù)測結(jié)果與其他四種常見的機器學(xué)習(xí)模型相比較,最終發(fā)現(xiàn)有序Lasso-Logistic模型性能最好,預(yù)測準(zhǔn)確率最高。有序Lasso-Logistic模型采用了自變量系數(shù)絕對值的有序約束條件融合了Lasso-Logistic模型,其中有序約束條件包含了自變量對因變量發(fā)生的先驗信息,反映了實際應(yīng)用問題中各個自變量與因變量P(y=1|X)之間的不同重要性。主要結(jié)論有:首先,有序Lasso-Logistic模型同樣適用于多變量數(shù)據(jù)集和稀疏性矩陣,可以對變量進(jìn)行壓縮估計從而篩選變量。其次,增加了先驗信息的有序Lasso-Logistic模型在二分類數(shù)據(jù)上的表現(xiàn)比邏輯回歸模型和Lasso的預(yù)測準(zhǔn)確率更高,模型性能更好。最后,電子競技中不同角色能力存在差異,對取勝結(jié)果的重要性也不一樣,了解不同角色對取勝結(jié)果的不同影響有助于選手在訓(xùn)練或者比賽中考慮角色選擇策略而且對角色的選擇更有信心,促進(jìn)電子競技選手的訓(xùn)練和發(fā)展。另一方面,通過有序Lasso-Logistic模型對電子競技角色的分析不僅僅使得電子競技上得到數(shù)據(jù)化發(fā)展,也使得機器學(xué)習(xí)的分類模型得到進(jìn)一步擴展,有序Lasso-Logistic模型不但可以應(yīng)用于電競行業(yè)分析,在其他領(lǐng)域分類問題上同樣可以充分利用變量的先驗信息進(jìn)行分析以提高預(yù)測準(zhǔn)確率并提供相應(yīng)的策略支持。

        猜你喜歡
        分類分析模型
        一半模型
        分類算一算
        隱蔽失效適航要求符合性驗證分析
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        分類討論求坐標(biāo)
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        亚洲欧美日韩精品高清| 国产精品99久久久久久猫咪| 国产亚洲成人av一区| 麻花传媒68xxx在线观看| 亚洲av无码不卡久久| 精选麻豆国产AV| 素人激情福利视频| 久草视频在线视频手机在线观看 | 性感熟妇被我玩弄到高潮| 日本一二三四高清在线| 老熟妇乱子伦牲交视频 | 国产一区二区三区视频网 | 亚洲欧美国产双大乳头| 久久88综合| 动漫av纯肉无码av在线播放| 中文字幕av人妻一区二区| 亚州中文字幕乱码中文字幕| 久久国产劲爆∧v内射| 国产日产综合| 日本丰满人妻xxxxxhd| 亚洲女同成av人片在线观看| 精品少妇人妻久久免费| 国产av精品麻豆网址| 欧美村妇激情内射| 欧美性巨大╳╳╳╳╳高跟鞋| 精品国产v无码大片在线观看| 亚洲国产欧美日韩一区二区| 国产AV无码无遮挡毛片| 国产黄色三级三级三级看三级| 免费毛儿一区二区十八岁| 天堂√在线中文官网在线| 国产久视频国内精品999| 国产成人精品无码一区二区老年人| av天堂网手机在线观看| 日韩综合无码一区二区 | 午夜不卡无码中文字幕影院| 色综合视频一区中文字幕| 国产精品自产拍在线18禁| 久久精品中文字幕亚洲| 国产在线一区二区三区四区不卡| 少妇太爽了在线观看免费视频|