亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Python的決策樹(shù)算法在學(xué)生招生錄取數(shù)據(jù)中的應(yīng)用研究

        2018-01-04 12:02:04黃雪華
        電腦知識(shí)與技術(shù) 2018年29期
        關(guān)鍵詞:決策樹(shù)

        摘要:分類算法是數(shù)據(jù)挖掘技術(shù)中非常重要的一個(gè)研究領(lǐng)域,預(yù)測(cè)離散數(shù)據(jù)的分類標(biāo)號(hào)。主要應(yīng)用于客戶分類、垃圾郵件處理、信用卡分級(jí)等。該文主要研究分類中的決策樹(shù)算法,并應(yīng)用于我校學(xué)生招生錄取數(shù)據(jù),采用Python語(yǔ)言建立分類模型,并驗(yàn)證了該模型的準(zhǔn)確率。

        關(guān)鍵詞:決策樹(shù);Python;招生數(shù)據(jù)

        中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)29-0016-02

        1 決策樹(shù)理論介紹

        決策樹(shù)算法是一種典型的分類算法,它的分類過(guò)程是基于樣本數(shù)據(jù)建立一棵倒立的樹(shù)的過(guò)程。從樹(shù)的根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑實(shí)際就是決策的過(guò)程,確定數(shù)據(jù)樣本所屬類標(biāo)號(hào)的過(guò)程,它是一個(gè)遞歸地從上到下確定分支節(jié)點(diǎn)和葉節(jié)點(diǎn)的過(guò)程﹒葉節(jié)點(diǎn)存放的是數(shù)據(jù)樣本所屬的類標(biāo)號(hào);分支節(jié)點(diǎn)根據(jù)數(shù)據(jù)樣本的某個(gè)合適的屬性值進(jìn)行數(shù)據(jù)集劃分[1]。

        2數(shù)據(jù)介紹

        數(shù)據(jù)集為湖南城市學(xué)院從2013年到2016年的招生數(shù)據(jù),部分?jǐn)?shù)據(jù)如圖1所示,包括考生的考生號(hào)、姓名、性別、錄取專業(yè)、文化成績(jī)、投檔成績(jī)、省份。根據(jù)考生的性別、錄取專業(yè)、文化成績(jī)、投檔成績(jī)來(lái)預(yù)測(cè)考生所來(lái)自的省份。

        根據(jù)各個(gè)分類算法及數(shù)據(jù)集本身的特點(diǎn),采用決策樹(shù)算法建立分類模型。

        3 建立分類模型

        建立挖掘模型首先要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、屬性選擇幾個(gè)步驟。

        3.1數(shù)據(jù)清洗

        3.1.1缺失值的處理

        缺失值的處理方法主要由三種,包括刪除缺失值記錄;數(shù)據(jù)插補(bǔ);有些模型允許出現(xiàn)一定量的空缺值,可以不處理。

        確定文件中是否有缺失值以及缺失值的屬性和缺失率的個(gè)數(shù)和缺失率。

        通過(guò)以上代碼判斷是否存在缺失值。

        3.1.2異常值的處理

        異常值的處理主要包含有,刪除含有異常值得記錄;與缺失值一樣的處理方法;平均值修正;不處理。

        采用以上代碼過(guò)濾異常數(shù)據(jù),把文化成績(jī)?cè)?00以上,0分以下的數(shù)據(jù)都過(guò)濾掉。

        3.2數(shù)據(jù)集成

        采用以上代碼對(duì)數(shù)據(jù)文件進(jìn)行合并。

        3.3數(shù)據(jù)轉(zhuǎn)換

        在該數(shù)據(jù)集中,把性別值男和女分別轉(zhuǎn)換為1和0,并對(duì)錄取專業(yè)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,分別一一對(duì)應(yīng)為1到59范圍內(nèi)的整數(shù)。其主要代碼為。

        4結(jié)論

        基于Python語(yǔ)言,對(duì)我校招生數(shù)據(jù)建立決策樹(shù)分類模型,通過(guò)考生的錄取年份、性別、錄取專業(yè)、文化成績(jī)、投檔成績(jī)預(yù)測(cè)考生所屬省份,其準(zhǔn)確率非常高。該預(yù)測(cè)模型對(duì)我校招生工作,學(xué)生的分布有一定的幫助。

        參考文獻(xiàn):

        [1]黃雪華. 決策樹(shù)和貝葉斯分類算法在學(xué)生專業(yè)錄取數(shù)據(jù)中的應(yīng)用研究[J]. 湖南城市學(xué)院學(xué)報(bào)自科版, 2017, 26(4): 63-65.

        【通聯(lián)編輯:王力】

        猜你喜歡
        決策樹(shù)
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于改進(jìn)決策樹(shù)的故障診斷方法研究
        基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
        基于決策樹(shù)的復(fù)雜電網(wǎng)多諧波源監(jiān)管
        基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
        337p人体粉嫩胞高清视频| 色婷婷激情在线一区二区三区| 男女后入式在线观看视频| 草逼短视频免费看m3u8| 亚洲av永久无码精品三区在线| 99精品电影一区二区免费看| 久久精品国产成人午夜福利| 国产91精品一区二区麻豆亚洲 | 国产精品欧美一区二区三区不卡| 国产精品久免费的黄网站| 日日骚一区二区三区中文字幕| 亚洲国产系列一区二区| 制服丝袜中文字幕在线| 精品久久久久久久久久久aⅴ| 国产在线观看网址不卡一区| 日韩精品在线一二三四区| 中国女人内谢69xxxx免费视频| 一级午夜视频| 国产精品久久国产精品久久 | 亚洲国产成人av第一二三区| 中文字幕日韩有码在线| 国产精成人品日日拍夜夜免费| 欧美日韩亚洲色图| 日本岛国视频在线观看一区二区| 久久精品国产亚洲av精东| 国产精品_国产精品_k频道w | 国模无码一区二区三区| 国产综合激情在线亚洲第一页| 精品国产成人一区二区不卡在线 | 久久精品中文字幕一区| 欧美日韩亚洲国产无线码| 韩国日本一区二区在线| 国内精品伊人久久久久网站| 久久AⅤ无码精品为人妻系列 | 亚洲最大免费福利视频网| 亚洲一区二区三区无码国产| 国产精品九九久久一区hh| 亚洲国产成人va在线观看天堂| 亚洲av无码乱码在线观看牲色| 无码人妻精品一区二区三区66| 日本第一区二区三区视频|