亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        世界杯足球比賽多分類預(yù)測模型研究

        2019-10-11 11:24:36雷光裕
        軟件導(dǎo)刊 2019年7期
        關(guān)鍵詞:集成學(xué)習(xí)機(jī)器學(xué)習(xí)決策樹

        摘 要:分類問題一直是數(shù)據(jù)挖掘、模式識(shí)別等領(lǐng)域的重要研究內(nèi)容,應(yīng)用大數(shù)據(jù)技術(shù)處理與分析海量數(shù)據(jù)可實(shí)現(xiàn)預(yù)測分類。數(shù)據(jù)科學(xué)研究一般過于依賴LGBM和XGBoost,但在某些情況下,線性回歸的效果比GBM樹更好。采用機(jī)器學(xué)習(xí)中的logistics回歸算法對足球比賽歷史數(shù)據(jù)進(jìn)行分析處理,從而挖掘數(shù)據(jù)之間的關(guān)聯(lián)。通過對訓(xùn)練集的后視檢驗(yàn)得到每種結(jié)果的概率,對足球比賽結(jié)果進(jìn)行預(yù)測。對決策樹和集成算法Adaboost建模,提高了預(yù)測準(zhǔn)確率。該方法對預(yù)測世界杯足球比賽結(jié)果具有指導(dǎo)作用。

        關(guān)鍵詞:多分類預(yù)測;機(jī)器學(xué)習(xí);logistic回歸;決策樹;集成學(xué)習(xí)

        DOI:10. 11907/rjdk. 182494 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

        中圖分類號(hào):TP302文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2019)007-0045-04

        Multi-classification Forecasting Model Based on World Cup Competition

        LEI Guang-yu

        (School of Computer Science and Engineering, Wuhan University of Engineering, Wuhan 430205,China)

        Abstract:Big data applications will bring about a new era of innovation and change in society. Classification problem has been an important research content in data mining, pattern recognition and other fields. Since World cup is popular, it can implement predictive classification by using big data technology to process and analyze the massive amount of data. Data science is now depend on LGBM and XGBoost much, but in some cases, the effect of linear regression is sometimes better than GBM,the others may be better. This paper mainly uses logistic regression. The historical data is analyzed and processed to excavate the correlation between the data, and the probability of each result can be obtained by the post-view test of the training set, finally, the prediction of the football match result is realized.And decision trees and integrated algorithms Adaboost are compared and the accuracy of the prediction is improved,and the actual prediction of the game has a guiding role.

        Key Words:soccer game prediction; machine learning; logistic regression; decision tree; integrated learning

        作者簡介:雷光裕(1998-),男,武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院學(xué)生,研究方向?yàn)闄C(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘。

        0 引言

        將機(jī)器學(xué)習(xí)算法應(yīng)用于數(shù)據(jù)挖掘不但對處理足球比賽海量數(shù)據(jù)有重要意義,還對足球彩票競技具有指導(dǎo)價(jià)值。足球比賽結(jié)果預(yù)測涉及的因素非常多,無法將所有因素都融入機(jī)器學(xué)習(xí)模型中,因此目前國內(nèi)外將機(jī)器學(xué)習(xí)用于足球比賽預(yù)測的應(yīng)用還很少。

        機(jī)器學(xué)習(xí)是大數(shù)據(jù)分析的一種重要方法,機(jī)器學(xué)習(xí)算法可從原始數(shù)據(jù)中通過特征提取獲得特征數(shù)據(jù),從特征數(shù)據(jù)中自動(dòng)嘗試獲得數(shù)據(jù)的相關(guān)規(guī)律,再利用獲取的規(guī)律對未知數(shù)據(jù)集進(jìn)行預(yù)測[1]。

        常用的預(yù)測算法主要有支持向量機(jī)(SVM)、邏輯回歸、決策樹、隨機(jī)森林集成學(xué)習(xí)等[2]。運(yùn)用上述分類方法進(jìn)行模型構(gòu)建,分析比較各模型的性能。支持向量機(jī)可有效調(diào)節(jié)算法復(fù)雜度與泛化能力之間的矛盾,因此在小樣本學(xué)習(xí)領(lǐng)域有著優(yōu)于傳統(tǒng)模式識(shí)別方法的推廣能力[3]。然而在處理較大規(guī)模數(shù)據(jù)集時(shí),通常需要更長的訓(xùn)練時(shí)間。KNN方法是基于實(shí)例的學(xué)習(xí)方法,可生成任意形狀的決策邊界,無需建立模型,但其分類開銷很大,需逐個(gè)計(jì)算相似度。此外,當(dāng)k取值較小時(shí),對噪音也很敏感[4]。針對上述不足,研究者作了相應(yīng)改進(jìn),但尚未有一個(gè)能同時(shí)實(shí)現(xiàn)訓(xùn)練時(shí)間短、預(yù)測能力強(qiáng)、規(guī)則提取簡易且適應(yīng)性強(qiáng)的分類方法,比較而言邏輯回歸性能較優(yōu)。本模型采用的邏輯回歸分類方法是一種logistic方程歸一化后的線性回歸[5],這種回歸方法一般能合理降低兩端方向的輸入,這類輸入一般對預(yù)測結(jié)果產(chǎn)生負(fù)面影響。同時(shí)模型易于解釋,便于提取知識(shí)集[6]。本文采用比賽主客場、凈勝球數(shù)解釋比賽勝負(fù),提高了預(yù)測準(zhǔn)確率,涉及的難題有機(jī)器學(xué)習(xí)的多預(yù)測問題、過擬合問題、連續(xù)值問題、模型調(diào)參問題、類不平衡問題等[7]。

        實(shí)驗(yàn)?zāi)康氖菑臉颖緮?shù)據(jù)抽取相應(yīng)特征,并通過合適的算法模型從這些信息中找出和足球比賽結(jié)果相關(guān)性大的特性,計(jì)算下一場比賽的勝負(fù)概率、預(yù)測比賽勝負(fù)。

        1 數(shù)據(jù)獲取及預(yù)處理

        本文構(gòu)建2018世界杯足球比賽預(yù)測模型,預(yù)測整個(gè)世界杯比賽的小組賽結(jié)果,數(shù)據(jù)挖掘流程為數(shù)據(jù)集成、特征建模和結(jié)果預(yù)測。用歷史數(shù)據(jù)分析影響因素,應(yīng)用邏輯回歸模型和決策樹模型進(jìn)行比較及預(yù)測。

        1.1 數(shù)據(jù)清洗

        分析數(shù)據(jù)來源于Kaggle,包含1872-2018年的數(shù)據(jù),包括世界杯比賽、世界杯預(yù)選賽、亞洲杯、歐洲杯、國家之間的友誼賽等各國足球隊(duì)排名,大約有20 565場比賽數(shù)據(jù)。特征有比賽日期、主客場隊(duì)伍、主客場得分、比賽地點(diǎn)及比賽是否友好。

        1.2 數(shù)據(jù)處理

        從原始數(shù)據(jù)集選取樣本數(shù)據(jù)時(shí),需要對數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,通過對變量缺失值和異常值等進(jìn)行處理,去除不符合要求的數(shù)據(jù)。

        表1 多標(biāo)記數(shù)據(jù)集詳細(xì)信息

        通過表1數(shù)據(jù)可以看出,整個(gè)數(shù)據(jù)集數(shù)據(jù)三分類的正負(fù)樣本較為平衡。由于足球比賽具有一定的即時(shí)性,過多或過早的數(shù)據(jù)不能很好地表示當(dāng)前隊(duì)伍的表現(xiàn),所以需要對數(shù)據(jù)進(jìn)行清洗處理。截取自1930年第一屆世界杯以來入圍2018俄羅斯世界杯小組賽的球隊(duì)信息,共19 472行。

        比賽結(jié)果有勝負(fù)平3種,這是一個(gè)三分類問題。現(xiàn)有多分類學(xué)習(xí)方法主要有算法適應(yīng)法和問題轉(zhuǎn)化法[4]。算法適應(yīng)法拓展現(xiàn)有單標(biāo)記機(jī)器學(xué)習(xí)算法,能直接處理多標(biāo)記數(shù)據(jù);問題轉(zhuǎn)化法將多標(biāo)記分類問題轉(zhuǎn)化為若干個(gè)單標(biāo)記分類問題[8]。處理多分類問題的方法多數(shù)采用多標(biāo)記問題轉(zhuǎn)化法思路,即將多分類問題轉(zhuǎn)換成二分類問題[9],常用方法有one-vs-all和one-vs-one等。足球比賽勝負(fù)平3種結(jié)果是一個(gè)三元分類問題,將3個(gè)預(yù)測標(biāo)簽分別映射為1(勝)、-1(負(fù))、0(平)。

        1.3 特征工程

        常用的特征工程分為子集搜索與評價(jià)[10]、過濾式選擇[11]、包裹式選擇[12]和嵌入式方法[13]4種。本次實(shí)驗(yàn)選用過濾式選擇方法:先對數(shù)據(jù)集進(jìn)行特征選擇,然后訓(xùn)練學(xué)習(xí)器,此方法采用相關(guān)統(tǒng)計(jì)量度量特征的重要性。

        通過特征選擇保留主客場特征。由于世界杯比賽中的國家沒有主客場之分,所以這里采用FIFA世界排名代替主客場特征。把FIFA排名靠前的隊(duì)伍放到“home_teams”(主場隊(duì)伍)一列,然后根據(jù)每個(gè)隊(duì)伍的排名將他們加入到新的預(yù)測數(shù)據(jù)集中。

        為使預(yù)測結(jié)果盡可能準(zhǔn)確,應(yīng)將目標(biāo)差異和結(jié)果列添加到結(jié)果數(shù)據(jù)集中,在世界杯結(jié)果數(shù)據(jù)集中添加兩個(gè)特征:勝利或平局、凈勝球數(shù)。

        2 邏輯回歸模型應(yīng)用

        2.1 邏輯回歸模型線性表示

        邏輯回歸是機(jī)器學(xué)習(xí)的經(jīng)典算法,是典型的概率統(tǒng)計(jì)分類模型,屬于有監(jiān)督的學(xué)習(xí)方法,常應(yīng)用于數(shù)據(jù)挖掘[14]。

        線性回歸即在給定的數(shù)據(jù)集[D={(x1,y1),(x2,y2),?,][(xm,ym),}],[ xi=(xi1;xi2;?;xid),yi∈R]中得到一個(gè)線性模型[f(xi)=ωTxi+b],使[f(xi)≈yi],并利用最小二乘法最小化均方誤差對[ω]和b進(jìn)行估計(jì)。即

        [(ω*,b*)=arg min(y-Xω)T(y-Xω)]

        [?Eω?ω=2XT(Xω-y)]

        令式為零可得到[ω]最優(yōu)的閉式解。

        通過激發(fā)函數(shù)將預(yù)測值與邏輯回歸分類聯(lián)系。預(yù)測中較常用的激發(fā)函數(shù)是Sigmoid函數(shù):[y=11+e-z=11+e-(ωT+b)]

        設(shè)某事件x發(fā)生的概率為P,不發(fā)生的概率為1-P,則[lnp1-p]為x作為正例的相對可能性。

        [p=exp(α+β1x1+?+βmxm)1+exp(α+β1x1+?+βmxm)]

        該模型即為邏輯回歸模型,模型中[α]為常數(shù),[βm]為邏輯回歸系數(shù),代表世界杯比賽各特征的相對貢獻(xiàn)率。通過最大似然估計(jì)計(jì)算[ω]和[b]。根據(jù)凸優(yōu)化理論[15],經(jīng)典數(shù)值優(yōu)化算法梯度下降法能保證每一點(diǎn)的擬合為最優(yōu)。

        2.2 邏輯算法建模及評估

        logistic回歸模型的樣本自變量是連續(xù)型數(shù)據(jù),通過設(shè)置啞變量(dummy variables),將home_team和away_team從分類變量轉(zhuǎn)換成連續(xù)輸入。

        通過特征方程建立特征向量后,將樣本數(shù)據(jù)集劃分成70%的訓(xùn)練集與30%的測試集進(jìn)行學(xué)習(xí)及交叉驗(yàn)證。

        多分類任務(wù)的評估標(biāo)準(zhǔn)采用F1-score。F1-score是準(zhǔn)確率和召回率的調(diào)和平均值,可對準(zhǔn)確率和召回率給予不同權(quán)重,計(jì)算公式如下:

        [F1=2precision×recallprecision + recall]

        為防止數(shù)據(jù)過擬合而影響其泛化效果,在損失函數(shù)最后一項(xiàng)中加入正則項(xiàng)。本實(shí)驗(yàn)特征向量不多,這里選取l2正則化。此數(shù)據(jù)沒有表現(xiàn)類不平衡,正負(fù)樣本隨機(jī)抽樣。

        將數(shù)據(jù)導(dǎo)入邏輯回歸模型中,預(yù)測結(jié)果在訓(xùn)練集中正確率為0.800,在測試集中正確率為0.793。不難看出,算法模型的泛化效果較好,比其它算法的正確率有明顯提升,見表2。

        表2 邏輯回歸模型預(yù)測效果

        2.3 邏輯回歸小組賽預(yù)測

        將上述模型應(yīng)用到小組賽預(yù)測中,檢驗(yàn)每場比賽的勝負(fù)平概率。通過選擇勝率大的隊(duì)伍作為比賽勝利一方對小組賽出線隊(duì)伍進(jìn)行預(yù)測。

        通過學(xué)習(xí),預(yù)測小組賽出線16支隊(duì)伍為:烏拉圭、葡萄牙、法國、克羅地亞、巴西、 墨西哥、英格蘭、哥倫比亞、西班牙、俄羅斯、阿根廷、秘魯、德國、瑞士、波蘭、比利時(shí),其中13支隊(duì)伍出線進(jìn)入16強(qiáng)。

        3 決策樹與集成學(xué)習(xí)模型比較

        為了對比集成算法和單個(gè)基分類器的預(yù)測效果,本文在相同的實(shí)驗(yàn)數(shù)據(jù)集上,采用基于邏輯回歸模型進(jìn)行實(shí)驗(yàn),再分別使用隨機(jī)森林(RF)、ExtraTree[16](ET)、梯度漸進(jìn)決策樹[17](GBDT)和決策樹(DT) [18]4種算法作為基分類器進(jìn)行實(shí)驗(yàn),得出每個(gè)基分類器在單獨(dú)使用時(shí)的預(yù)測F1值并得出相應(yīng)的Fl值。

        [9] MUKAEDA TAKAYUKI,SHIMA KEISUKE. A novel HMM-based pattern recognition method with unlearned pattern detection for emg signals[J]. The Proceedings of JSME annual Conference on Robotics and Mechatronics (Robomec), 2017(10):16-20.

        [10] SHINDO T. Artificial intelligence and human wisdom[J]. The Journal of the Institute of Electrical Installation Engineers of Japan,2017,37(11):22-29.

        [11] CHUENPRAPHANUSORN T,BOONCHART J,SNGU-ANYAT O,et al. The project evaluation for development the learning integrated model between the international program (IP) and the fundamental level curriculum in education hub project of the Ministry of Education, Thailand[J]. Mediterranean Journal of Social Sciences,2017,8(6):991-1002.

        [12] GASCóN A,SCHOPPMANN P,BALLE B,et al. Privacy-preserving dis-tributed linear regression on high-dimensional data[J]. Proceedings on Privacy Enhancing Technologies, 2017(4):31-38.

        [13] SHUANG BAI. Growing random forest on deep convolutional neural networks for scene categorization[J]. Expert Systems With Applications,2017(71):364-371.

        [14] TEISSEYRE P. Ccnet: joint multi-label classification and feature selection using classifier chains and elastic net regularization[J]. Neurocomputing,2017(5):187-192.

        [15] LOYOLA-GONZáLEZ O,MEDINA-PéREZ M A,F(xiàn)CO J,et al. PBC4CIP: a new contrast pattern-based classifier for class imbalance problems[J]. Knowledge-Based Systems,2017(11):5-11.

        [16] SINGH H R,BISWAS S K,PURKAYASTHA B. A neuro-fuzzy classification technique using dynamic clustering and GSS rule generation[J]. Journal of Computational and Applied Mathematics,2017(309):452-461.

        [17] CZAJKOWSKI M,KRETOWSKI M. The role of decision tree representation in regression problems-an evolutionary perspective[J]. Applied Soft Computing,2016(48):19-22.

        [18] LI Z , MA X F, XIN X L. Feature engineering of machine-learning chemisorption models for catalyst design[J]. Catalysis Today,2017(280):374-379.

        [19] GALAR M,F(xiàn)ERNáNDEZ A,BARRENECHEA E,et al. NMC:nearest matrix classification-a new combination model for pruning one-vs-one ensembles by transforming the aggregation problem[J]. Information Fusion,2017(36):222-229.

        [20] DUMORTIER A,BECKJORD E,SHIFFMAN S,et al. Classifying smoking urges via machine learning[J]. Computer Methods and Programs in Biomedicine,2016(137):63-68.

        [21] HAN Y M, ZHU Q X, GENG Z Q,et al. Energy and carbon emissions analysis and prediction of complex petrochemical systems based on an improved extreme learning machine integrated interpretative structural model[J]. Applied Thermal Engineering,2017(115):202-211.

        (責(zé)任編輯:杜能鋼)

        猜你喜歡
        集成學(xué)習(xí)機(jī)器學(xué)習(xí)決策樹
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于稀疏編碼器與集成學(xué)習(xí)的文本分類
        基于屬性權(quán)重的Bagging回歸算法研究
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于決策樹的出租車乘客出行目的識(shí)別
        基于改進(jìn)的LogitBoost算法的垃圾網(wǎng)頁檢測研究
        科技視界(2015年27期)2015-10-08 11:01:28
        97国产免费全部免费观看| 在厨房被c到高潮a毛片奶水| 国产午夜精品一区二区| 污污污污污污污网站污| 高潮社区51视频在线观看| 今井夏帆在线中文字幕 | 无码人妻一区二区三区兔费| 91三级在线观看免费| 青青草骚视频在线观看| 欧美黑人群一交| 欧美亚洲日韩国产人成在线播放| 欧美在线观看一区二区| 亚洲第一页综合av免费在线观看| 国产av剧情刺激对白| 欧美寡妇xxxx黑人猛交| 日韩在线观看你懂的| 操老熟妇老女人一区二区| 国产香蕉视频在线播放| 福利体验试看120秒| 国产精品三级在线专区1| 日本一级三级在线观看| 99无码精品二区在线视频| 国语精品一区二区三区| 欧美va亚洲va在线观看| 亚洲每天色在线观看视频| 亚洲熟女少妇精品综合| 成人内射国产免费观看| 国产性猛交╳xxx乱大交| 18禁黄无遮挡免费网站| 亚洲av天堂在线免费观看| 无套内谢老熟女| 国产成人无码区免费网站| 国产伦精品一区二区三区四区| 久久婷婷国产色一区二区三区| 日本精品久久久久中文字幕 | 中日韩欧美在线观看| 中文字幕色婷婷在线视频| 久久久亚洲av波多野结衣| 久久这里只精品国产免费10| 精品国产迪丽热巴在线| 国产成人高清在线观看视频 |