亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹(shù)在高校學(xué)生學(xué)業(yè)預(yù)警中的應(yīng)用研究

        2020-12-24 07:47:38王芬芬
        無(wú)線互聯(lián)科技 2020年20期
        關(guān)鍵詞:信息熵決策樹(shù)學(xué)業(yè)

        張 軍,王芬芬

        (湖南鐵道職業(yè)技術(shù)學(xué)院,湖南 株洲 412001)

        0 引言

        信息技術(shù)高速發(fā)展,高校在教育信息化推進(jìn)的過(guò)程中,構(gòu)建了大量的教育教學(xué)以及學(xué)工管理的相關(guān)學(xué)習(xí)平臺(tái)或業(yè)務(wù)管理系統(tǒng),隨著這些的平臺(tái)系統(tǒng)的推廣使用,累計(jì)了大量的數(shù)據(jù),將這些數(shù)據(jù)加以分析和利用,必然能為學(xué)校的教學(xué)和管理工作帶來(lái)巨大的幫助。數(shù)據(jù)挖掘是一門新興交叉學(xué)科,能從海量的、不完整的且有噪聲的隨機(jī)樣本數(shù)據(jù)中訓(xùn)練出分析模型,能快速、有效地挖掘出隱藏在數(shù)據(jù)里的信息和關(guān)系[1]。利用數(shù)據(jù)挖掘技術(shù)提取高校學(xué)生數(shù)據(jù)中潛在的規(guī)律和信息,為學(xué)校的教育教學(xué)改革和學(xué)生管理水平的提高提供支持,已經(jīng)成為當(dāng)前教育信息化研究的熱點(diǎn)。

        1 決策樹(shù)算法

        決策樹(shù)算法是機(jī)器學(xué)習(xí)中的一個(gè)重要的分類算法,其基本思想就是利用已有的數(shù)據(jù)集進(jìn)行訓(xùn)練學(xué)習(xí),生成一個(gè)樹(shù)狀模型。對(duì)新的數(shù)據(jù)而言,就可以利用生成的樹(shù)狀模型進(jìn)行預(yù)測(cè)分類。簡(jiǎn)而言之,決策樹(shù)就是一個(gè)利用樹(shù)型結(jié)構(gòu)進(jìn)行決策的多分類模型,通過(guò)詢問(wèn)一系列二元選擇題來(lái)做預(yù)測(cè),簡(jiǎn)單有效,易于理解。

        要生成決策樹(shù),首先要找到最上面的根節(jié)點(diǎn)(樣本數(shù)據(jù)的某個(gè)特性),將所有樣本數(shù)據(jù)進(jìn)行分組,形成子節(jié)點(diǎn),然后對(duì)每個(gè)子節(jié)點(diǎn)挑選特征屬性,進(jìn)行再次分組,重復(fù)遞歸這一過(guò)程,直到子節(jié)點(diǎn)為葉子節(jié)點(diǎn),上述步驟中的關(guān)鍵問(wèn)題是以何為依據(jù)挑選樣本數(shù)據(jù)分組的特征屬性。

        Quinlan提出的基于信息熵的ID3(Induction Decision-tree 3)算法是決策樹(shù)技術(shù)中的經(jīng)典算法。ID3 算法以信息論為理論基礎(chǔ),在執(zhí)行過(guò)程中要計(jì)算屬性的信息熵與信息增益,然后在每次分類判斷是以信息增益為標(biāo)準(zhǔn),通過(guò)選擇信息增益高的屬性進(jìn)行分類[2]。

        信息熵值可以用來(lái)衡量一組樣本數(shù)據(jù)的混亂程度,熵值越高,樣本數(shù)據(jù)越混亂,反之,樣本數(shù)據(jù)的“純度”越高,信息熵值的計(jì)算方法如下:

        (1)

        式中:n表示樣本數(shù)據(jù)集D中的類別數(shù)量,Pi表示第i類樣本數(shù)據(jù)在當(dāng)前數(shù)據(jù)集中所占的比例。

        信息熵值可以度量出一個(gè)樣本數(shù)據(jù)集合的“純度”,但生成決策樹(shù)是要在樣本數(shù)據(jù)集中找出一個(gè)特征屬性,利用其進(jìn)行分組能使各組的樣本數(shù)據(jù)快速變純,于是就可以用未分組前的信息熵值減去分組后各組信息熵值的和,這樣得到的值就可以衡量出利用該屬性特征進(jìn)行分組所獲得的“純度提升”到底有多大??紤]到不同分組所包含的樣本數(shù)量的是不同的,所以可以給每個(gè)分組的信息熵值再賦一個(gè)權(quán)重(分組樣本數(shù)/總樣本數(shù)),這樣樣本數(shù)越多的分組影響就越大。于是便可計(jì)算出利用某個(gè)特征屬性對(duì)樣本數(shù)據(jù)集進(jìn)行分組所獲得的信息增益,計(jì)算過(guò)程如下。

        首先,計(jì)算選定特征屬性分組后各分支節(jié)點(diǎn)的加權(quán)信息熵值:

        (2)

        式中:N表示數(shù)據(jù)集樣本總量,Na表示第a個(gè)節(jié)點(diǎn)的樣本數(shù),e表示第a個(gè)節(jié)點(diǎn)的樣本類別數(shù)量,Na(i)表示節(jié)點(diǎn)a中第i個(gè)類別的樣本數(shù)量。

        用分組前的信息熵值減去用某一特征屬性分組后各分支節(jié)點(diǎn)的加權(quán)信息熵的累加和就是該特性屬性的信息增益[3],計(jì)算公式如下:

        (3)

        式中:t表示對(duì)樣本數(shù)據(jù)集分組的特征屬性,v表示屬性t分組的節(jié)點(diǎn)個(gè)數(shù)。

        每次分組都挑選信息增益值最大的特征屬性作為根節(jié)點(diǎn)(父節(jié)點(diǎn)),這樣即可完成一棵決策樹(shù)的構(gòu)造。

        2 應(yīng)用實(shí)現(xiàn)

        2.1 樣本數(shù)據(jù)的選取與處理

        高校學(xué)生的學(xué)業(yè)情況有來(lái)自多個(gè)方面的影響因素,學(xué)生平時(shí)的努力刻苦起主要作用,也有很多其他客觀因素的影響,本文結(jié)合高校的實(shí)際數(shù)據(jù)情況,所選取的樣本數(shù)據(jù)特征屬性如下。

        入學(xué)成績(jī):學(xué)生考入學(xué)校的高考成績(jī),需做離散化處理。

        操行評(píng)定:學(xué)生在學(xué)校的日常表現(xiàn),有輔導(dǎo)員評(píng)定,包括考勤、平時(shí)參與各類活動(dòng)情況。

        是否兼職:學(xué)生是否在校外有課外兼職。

        是否貧困生:學(xué)生的家庭收入情況,是否評(píng)定為貧困生。

        學(xué)習(xí)情況:學(xué)生日常的作業(yè)完成和課堂表現(xiàn)情況。

        從教務(wù)、學(xué)工等相關(guān)系統(tǒng)獲取原始數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行整合和離散化處理,整出600條樣本數(shù)據(jù),其中包括200條被預(yù)警的學(xué)生數(shù)據(jù),基本結(jié)構(gòu)如表1所示。

        表1 樣本數(shù)據(jù)基本結(jié)構(gòu)

        2.2 學(xué)業(yè)預(yù)警實(shí)現(xiàn)

        本文學(xué)業(yè)預(yù)警系統(tǒng)構(gòu)建使用操作系統(tǒng)平臺(tái)為Windows 7,數(shù)據(jù)庫(kù)管理系統(tǒng)使用Microsoft SQL Server 2012,系統(tǒng)構(gòu)建流程如圖1所示。

        圖1 系統(tǒng)構(gòu)建流程

        對(duì)樣本數(shù)據(jù)5個(gè)特征屬性所生成的5種分組情況,分別計(jì)算其信息熵值和信息增益值,以信息增益值最高的特征屬性為決策樹(shù)的根節(jié)點(diǎn),根據(jù)計(jì)算結(jié)果,特征屬性學(xué)習(xí)情況的信息增益值最大,可為決策樹(shù)的根節(jié)點(diǎn),然后將其各分支節(jié)點(diǎn)的樣本數(shù)據(jù)作為獨(dú)立樣本集合,再次計(jì)算每個(gè)分支節(jié)點(diǎn)中可用特征屬性的信息增益值,再次分組,重復(fù)該過(guò)程即可構(gòu)建一棵用于學(xué)生學(xué)業(yè)預(yù)警的決策樹(shù)模型。已構(gòu)建完成的決策樹(shù)存在訓(xùn)練過(guò)度的情況,需要進(jìn)行剪枝處理,以提高決策樹(shù)預(yù)測(cè)的準(zhǔn)確性,本文經(jīng)過(guò)測(cè)試分析,對(duì)生成的決策樹(shù)剪枝處理后所獲取的分類規(guī)則如下。

        (1)當(dāng)學(xué)生的學(xué)習(xí)情況為C,操行評(píng)定為C,且入學(xué)成績(jī)也為C的情況下,出現(xiàn)學(xué)業(yè)預(yù)警的概率為76%;

        (2)當(dāng)學(xué)生的學(xué)習(xí)情況為C,操行評(píng)定為C,入學(xué)成績(jī)?yōu)锽,被評(píng)定為貧困生同時(shí)參加了社會(huì)兼職,出現(xiàn)學(xué)業(yè)預(yù)警的概率為58%;

        (3)當(dāng)學(xué)生的學(xué)習(xí)情況為C,操行評(píng)定為C,入學(xué)成績(jī)?yōu)锽,被評(píng)定為貧困生,出現(xiàn)學(xué)業(yè)預(yù)警的概率為30%。

        3 結(jié)語(yǔ)

        本文主要討論了利用數(shù)據(jù)挖掘技術(shù)中的決策樹(shù)算法來(lái)構(gòu)建高校學(xué)生學(xué)業(yè)預(yù)警模型,分析了決策樹(shù)算法的構(gòu)建過(guò)程,基于高校的數(shù)據(jù)環(huán)境,綜合學(xué)生在校相關(guān)數(shù)據(jù),選取了5種特征屬性,通過(guò)樣本數(shù)據(jù)集構(gòu)建了學(xué)業(yè)預(yù)警決策樹(shù)模型,通過(guò)驗(yàn)證,該模型準(zhǔn)確率高,具有良好的預(yù)測(cè)效果。將機(jī)器學(xué)習(xí)的相關(guān)算法應(yīng)用到高校學(xué)生學(xué)業(yè)預(yù)警中,不僅能提高預(yù)測(cè)的針對(duì)性和準(zhǔn)確性,同時(shí)可以為高校教學(xué)以及學(xué)工管理部門提供數(shù)據(jù)支持,保證了數(shù)據(jù)科學(xué)、有效的使用。

        猜你喜歡
        信息熵決策樹(shù)學(xué)業(yè)
        艱苦的學(xué)業(yè)
        基于信息熵可信度的測(cè)試點(diǎn)選擇方法研究
        音樂(lè)提升學(xué)生學(xué)業(yè)表現(xiàn)
        樹(shù)起學(xué)業(yè)擔(dān)當(dāng)之心
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
        一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
        基于決策樹(shù)的出租車乘客出行目的識(shí)別
        基于信息熵的IITFN多屬性決策方法
        天天综合天天爱天天做| 亚洲高清视频在线播放| 久久伊人精品只有这里有| 久久久精品国产免费看| 精品国产三级a∨在线| 香蕉人妻av久久久久天天| 日韩人妻无码精品系列专区无遮| 中文字幕乱码一区在线观看| 亚洲中文字幕久久精品蜜桃| 国产在线观看免费观看| 久久久久成人精品免费播放网站| 国产av一啪一区二区| 97久人人做人人妻人人玩精品 | 无码av专区丝袜专区| 久久精品国产亚洲av一般男女| 中文字幕亚洲精品无码| 国产欧美一区二区精品性色| 国产午夜精品久久久久| 成人国产精品三上悠亚久久| 亚洲av无码专区亚洲av伊甸园| 久热香蕉视频| 日本中出熟女一区二区| 亚洲天堂精品成人影院| 国产成人无码一区二区在线播放| 精品国产av无码一道| 蜜桃人妻午夜精品一区二区三区| 无码精品一区二区三区在线| 亚洲av无码1区2区久久| 五月天婷婷一区二区三区久久| 青青草好吊色在线观看| 国产成人精品久久综合| 96免费精品视频在线观看| 精品国产夫妻自拍av| www婷婷av久久久影片| 国产精品污www一区二区三区| h动漫尤物视频| 在线观看麻豆精品视频| 精品国产乱码久久久久久影片| 国产精品视频一区日韩丝袜 | 精品的一区二区三区| 国产饥渴的富婆一凶二区 |