亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)算法的足球世界杯冠軍預(yù)測(cè)模型研究

        2019-01-06 02:19:22鄒燕飛劉淑英錢紅琳
        中國(guó)科技縱橫 2019年22期
        關(guān)鍵詞:機(jī)器學(xué)習(xí)

        鄒燕飛 劉淑英 錢紅琳

        摘 要:本文將機(jī)器學(xué)習(xí)的思想應(yīng)用到足球世界杯冠軍預(yù)測(cè)領(lǐng)域,選用近年來的足球世界杯小組賽數(shù)據(jù)作為實(shí)驗(yàn)樣本,對(duì)樣本進(jìn)行預(yù)處理后分為訓(xùn)練樣本和測(cè)試樣本,采用機(jī)器學(xué)習(xí)的監(jiān)督學(xué)習(xí)算法,先對(duì)訓(xùn)練樣本進(jìn)行學(xué)習(xí),然后利用學(xué)習(xí)到的分類器對(duì)測(cè)試樣本進(jìn)行分類。

        關(guān)鍵詞:機(jī)器學(xué)習(xí);特征分類;logistic算法;足球世界杯

        中圖分類號(hào):TP391.9 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2019)22-0024-02

        0 引言

        本文主要是構(gòu)建2018年足球世界杯比賽預(yù)測(cè)的模型,預(yù)測(cè)關(guān)于整個(gè)世界杯比賽的小組賽結(jié)果,分別為模擬四分之一決賽、半決賽以及決賽。該模型的建立主要可分為四步,即數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型測(cè)試。

        本模型使用的樣本數(shù)據(jù)截取自1930年第一屆以來入圍2018俄羅斯世界杯小組賽的球隊(duì)信息,將近40000行。該模型采用百分之八十的訓(xùn)練集,百分之二十的測(cè)試機(jī)來進(jìn)行模型訓(xùn)練。模型具體實(shí)現(xiàn)分為五個(gè)步驟,分別是獲取數(shù)據(jù)、預(yù)處理、獲取模型、模型訓(xùn)練及測(cè)試。下面來詳細(xì)介紹每個(gè)步驟的實(shí)現(xiàn)。

        1 模型實(shí)現(xiàn)

        1.1 獲取數(shù)據(jù)

        我們通過pandas.read_csv函數(shù)實(shí)現(xiàn)我們所需數(shù)據(jù)的讀入,讀取方式見以下代碼,其中'C:/Users/Administrator/Desktop/FIFA/datasets/World Cup 2018 Dataset.csv'表示文件所在路徑,world_cup表示參加世界杯球隊(duì)的信息,results表示1872年到2018年足球比賽的結(jié)果通過pandas的read_csv()函數(shù)來加載數(shù)據(jù)集,返回DataFrame,它是二位標(biāo)記數(shù)據(jù)結(jié)構(gòu),列可以是不同的數(shù)據(jù)類型,是最常用的pandas對(duì)象。

        1.2 數(shù)據(jù)預(yù)處理

        為了使預(yù)測(cè)的結(jié)果盡可能的準(zhǔn)確,我們對(duì)加載的數(shù)據(jù)進(jìn)行處理,通過主場(chǎng)和客場(chǎng)的勝球數(shù)相減得到目標(biāo)差異和贏的隊(duì)伍。所以我們?cè)诮Y(jié)果數(shù)據(jù)集中添加兩個(gè)特征:平局和勝利、凈勝球數(shù)(目標(biāo)差異)。

        1.3 特征提取

        數(shù)據(jù)非常龐大,我們做一個(gè)數(shù)據(jù)子集,僅包含尼日利亞的比賽,先注目在一個(gè)球隊(duì)上發(fā)現(xiàn)哪些特征對(duì)一個(gè)國(guó)家有效,然后推廣到所有參與世界杯的所有國(guó)家。我們可以利用seaborn來畫圖,seaborn是對(duì)matplotlib更高級(jí)的封裝。代碼如下:

        import matplotlib.pyplot as plt

        import seaborn as sns

        fig, ax = plt.subplots(1)

        fig.set_size_inches(10.7, 6.27)

        sns.set(style='darkgrid')

        sns.countplot(x='Nigeria_Results', data=winsdf)

        1.4 獲取模型及訓(xùn)練

        經(jīng)過特征提取,發(fā)現(xiàn)比賽發(fā)生在哪個(gè)場(chǎng)館,并沒有對(duì)結(jié)構(gòu)有重大影響。所以縮小數(shù)據(jù)集,僅保留參賽隊(duì)。

        df_teams_home = results[results['home_team'].isin(worldcup_teams)]

        df_teams_away = results[results['away_team'].isin(worldcup_teams)]

        df_teams = pd.concat((df_teams_home, df_teams_ away))

        df_teams.drop_duplicates()

        year = []

        for row in df_teams['date']:

        year.append(int(row[:4]))

        df_teams['match_year'] = year

        df_teams_1930 = df_teams[df_teams.match_year >= 1930]

        df_teams_1930 = df_teams.drop(['date', 'home_score','away_score','tournament','city', 'country','goal_difference','match_year',axis=1)

        用isin函數(shù)判斷這個(gè)隊(duì)伍是否是參加世界杯的隊(duì)伍。鎖定參加世界杯的隊(duì)伍,用concat重新整合我們的結(jié)果集表格,整合之后可能含有重復(fù)的隊(duì)伍,我們需要用drop_ duplicates()函數(shù)去掉重復(fù)的隊(duì)伍。用int(row[:4])把字符串前四個(gè)轉(zhuǎn)化成int型,和1930比較,篩選出1930年之后的隊(duì)伍。屬性特征過多,會(huì)造成維數(shù)災(zāi)難問題,所以就需要去掉這些不相關(guān)特征,降低學(xué)習(xí)任務(wù)的難度。通過drop函數(shù)去掉1930年之前的比賽和不會(huì)影響到比賽結(jié)果的數(shù)據(jù)列,例如日期、主場(chǎng)進(jìn)球數(shù)、客場(chǎng)進(jìn)球數(shù)、錦標(biāo)賽、城市、國(guó)家、目標(biāo)差異和比賽年份。

        為了簡(jiǎn)化模型的處理,我們修改一下預(yù)測(cè)標(biāo)簽。代碼如下所示。

        df_teams_1930 = df_teams_1930.reset_index(drop= True)

        df_teams_1930.loc[df_teams_1930.winning_ team==df_teams_1930.home_team,'winning_t-eam']=2

        df_teams_1930.loc[df_teams_1930.winning_team == 'Draw','winning_team']=1

        df_teams_1930.loc[df_teams_1930.winning_team= =df_teams_1930.away_team,'winning_t-eam']=0

        用drop_index(drop=True)來改變index下標(biāo),因?yàn)槲覀僿inning_team這列都是字符,我們要把字符轉(zhuǎn)化成數(shù)字。如果主場(chǎng)隊(duì)伍獲勝,那么獲勝隊(duì)伍則顯示“2”,如果平局則顯示“1”,如果是客場(chǎng)隊(duì)伍獲勝則顯示“0”。

        通過設(shè)置啞變量,將主場(chǎng)隊(duì)伍和客場(chǎng)隊(duì)伍從分類變量轉(zhuǎn)換成連續(xù)變量。這時(shí)就要運(yùn)用get_dummies()函數(shù),這個(gè)函數(shù)它可以實(shí)現(xiàn)一種獨(dú)特的pandas編碼方式,它會(huì)將擁有不同值的變量轉(zhuǎn)換成一位有效值,以便將它們加載到Scikit-learn模型中。將使用邏輯回歸,因?yàn)檫壿嫽貧w可以針對(duì)一組可以影響到結(jié)果的既定數(shù)據(jù)集嘗試預(yù)測(cè)結(jié)果輸贏。一次輸入一場(chǎng)比賽到算法中。然后模型就會(huì)學(xué)習(xí)輸入的每條數(shù)據(jù)對(duì)比賽結(jié)果產(chǎn)生了積極的效果還是消極的效果,以及影響的程度。經(jīng)過充分的(好)數(shù)據(jù)的訓(xùn)練后,就可以得到能夠預(yù)測(cè)未來結(jié)果的模型。第一步導(dǎo)入模型,調(diào)用邏輯回歸LogisticRegression()函數(shù)。第二步Fit()訓(xùn)練,調(diào)用fit(x,y)的方法來訓(xùn)練模型,其中x為數(shù)據(jù)的屬性,y為所屬類型接下來,我們將數(shù)據(jù)按照80%的訓(xùn)練數(shù)據(jù)集和20%的測(cè)試數(shù)據(jù)集分成X集和Y集進(jìn)行學(xué)習(xí)和交叉驗(yàn)證,第三步predict()預(yù)測(cè)。利用訓(xùn)練得到的模型對(duì)數(shù)據(jù)集進(jìn)行預(yù)測(cè),返回預(yù)測(cè)結(jié)果。

        利用訓(xùn)練得到的模型對(duì)數(shù)據(jù)集進(jìn)行預(yù)測(cè),返回預(yù)測(cè)結(jié)果。具體實(shí)現(xiàn)代碼如下。

        final=pd.get_dummies(df_teams_1930,prefix=['home_team','way_team'],columns=['home_team', 'away_team'])

        X = final.drop(['winning_team'], axis=1)

        y = final["winning_team"]

        y = y.astype('int')

        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.80, random_state=42)

        logreg = LogisticRegression()

        logreg.fit(X_train, y_train)

        score = logreg.score(X_train, y_train)

        score2 = logreg.score(X_test, y_test)

        print("訓(xùn)練集結(jié)果: ", '%.3f'%(score))

        print("測(cè)試集結(jié)果: ", '%.3f'%(score2))

        我們將這些數(shù)據(jù)傳遞到算法中,我們的訓(xùn)練集結(jié)果是55.4%,測(cè)試集結(jié)果是53.8%,說明我們這個(gè)模型可行。

        1.5 模型測(cè)試

        這里我們獲取2018的國(guó)際足球聯(lián)盟排名數(shù)據(jù)fifa_ rankings.csv,和2018世界杯參賽隊(duì)伍信息fixtures.csv。在此數(shù)據(jù)上應(yīng)用我們的訓(xùn)練模型。

        2 比賽結(jié)果及分析

        根據(jù)所構(gòu)建的模型,應(yīng)用到小組賽檢測(cè)中,檢測(cè)每一場(chǎng)比賽的輸贏概率。通過選擇贏的隊(duì)伍作為比賽勝利一方對(duì)小組賽出現(xiàn)隊(duì)伍進(jìn)行預(yù)測(cè)。預(yù)測(cè)小組出線16支隊(duì)伍為:烏拉圭、葡萄牙、法國(guó)、克羅地亞、巴西、墨西哥、英格蘭、哥倫比亞、西班牙、俄羅斯、阿根廷、秘魯、德國(guó)、瑞士、波蘭、比利時(shí),其中13支隊(duì)伍出線進(jìn)入16強(qiáng)。預(yù)測(cè)的準(zhǔn)確率是81.2%。這樣看來16強(qiáng)預(yù)測(cè)效果還是很不錯(cuò)的。

        3 結(jié)語(yǔ)

        算法還有些待改進(jìn)優(yōu)化的地方。一是因?yàn)樽闱虿淮_定因素太多,如果僅根據(jù)往年輸贏來判斷的話,結(jié)果可能有些差異,所以可以通過國(guó)際足球聯(lián)盟比賽的數(shù)據(jù)來評(píng)估出關(guān)于每一個(gè)球員的水平,根據(jù)球員的水平作為參考。二是利用混淆矩陣,混淆矩陣是分析模型好壞的,它可以幫我們分析出模型預(yù)測(cè)中哪些有誤。三是為了提高模型預(yù)測(cè)的準(zhǔn)確度,可以將多個(gè)模型組合在一起。

        參考文獻(xiàn)

        [1] 戴維.邏輯回歸解決文本分類問題[J].通訊世界,2018,25(08):266-267.

        [2] 吳曉杰.基于多情境數(shù)據(jù)和半監(jiān)督代價(jià)敏感模型的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別[D].杭州:浙江大學(xué),2017.

        [3] 黃輝.基于ReliefF的多標(biāo)簽特征選擇算法研究[D].廣州:廣東工業(yè)大學(xué),2018.

        [4] 趙琰.第31屆奧運(yùn)會(huì)女子足球比賽攻守轉(zhuǎn)換特征分析[D].新鄉(xiāng):河南師范大學(xué),2018.

        Soccer World Cup Champion Prediction Based on Machine Learning Algorithm Model research

        ZOU Yan-fei,LIU Shu-ying,QIAN Hong-lin

        (Computer College of Xianyang Normal University,Xianyang ?Shaanxi ?712000)

        Abstract:In this paper,the idea of machine learning is applied to the prediction field of football World Cup champions. The data of recent football World Cup group matches are selected as experimental samples. After preprocessing, the samples are divided into training samples and test samples. The supervised learning algorithm of machine learning is used to learn the training samples first,and then the test samples are classified by the learned classifier.

        Key words:Machine learning; Feature classification; Logistic algorithm; Football World Cup

        猜你喜歡
        機(jī)器學(xué)習(xí)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
        前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計(jì)算模型
        基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
        基于圖的半監(jiān)督學(xué)習(xí)方法綜述
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
        亚洲国产99精品国自产拍| 一本大道熟女人妻中文字幕在线 | 国产精品11p| 青青草免费激情自拍视频| 91精品国产综合久久精品密臀 | 精品日韩av专区一区二区 | 日本免费三片在线播放| 国产一区亚洲二区三区| 伊人久久大香线蕉亚洲五月天 | 久久精品午夜免费看| 日本一区二区三区清视频| 午夜不卡无码中文字幕影院| 永久免费的av在线电影网无码| 亚洲午夜无码视频在线播放| av成人综合在线资源站| 人妻无码一区二区三区| 精品国产18久久久久久| 久久久精品中文无码字幕| 日本一区二区不卡二区| 中文字幕亚洲综合久久菠萝蜜| 国产 国语对白 露脸| 无码人妻精品中文字幕免费| 熟妇人妻精品一区二区视频免费的| 国产偷国产偷精品高清尤物| 99久久免费精品高清特色大片 | 精品日韩一区二区三区av| 精品人妻一区二区三区四区在线| 亚洲人成亚洲精品| 久久久精品2019免费观看| 在线播放国产自拍av| 少妇高潮流白浆在线观看| 久久噜噜噜| 国产亚洲精品综合一区二区| 久久国产精品一国产精品金尊 | 中文字幕一区二区人妻在线不卡| 国产免费三级av在线| 国产成人免费一区二区三区| 国产自在自线午夜精品视频在| 国产亚洲精品一品二品| 人妻夜夜爽天天爽三区| 伊人一道本|