張 軍,王芬芬
(湖南鐵道職業(yè)技術(shù)學(xué)院,湖南 株洲 412001)
信息技術(shù)高速發(fā)展,高校在教育信息化推進(jìn)的過(guò)程中,構(gòu)建了大量的教育教學(xué)以及學(xué)工管理的相關(guān)學(xué)習(xí)平臺(tái)或業(yè)務(wù)管理系統(tǒng),隨著這些的平臺(tái)系統(tǒng)的推廣使用,累計(jì)了大量的數(shù)據(jù),將這些數(shù)據(jù)加以分析和利用,必然能為學(xué)校的教學(xué)和管理工作帶來(lái)巨大的幫助。數(shù)據(jù)挖掘是一門新興交叉學(xué)科,能從海量的、不完整的且有噪聲的隨機(jī)樣本數(shù)據(jù)中訓(xùn)練出分析模型,能快速、有效地挖掘出隱藏在數(shù)據(jù)里的信息和關(guān)系[1]。利用數(shù)據(jù)挖掘技術(shù)提取高校學(xué)生數(shù)據(jù)中潛在的規(guī)律和信息,為學(xué)校的教育教學(xué)改革和學(xué)生管理水平的提高提供支持,已經(jīng)成為當(dāng)前教育信息化研究的熱點(diǎn)。
決策樹(shù)算法是機(jī)器學(xué)習(xí)中的一個(gè)重要的分類算法,其基本思想就是利用已有的數(shù)據(jù)集進(jìn)行訓(xùn)練學(xué)習(xí),生成一個(gè)樹(shù)狀模型。對(duì)新的數(shù)據(jù)而言,就可以利用生成的樹(shù)狀模型進(jìn)行預(yù)測(cè)分類。簡(jiǎn)而言之,決策樹(shù)就是一個(gè)利用樹(shù)型結(jié)構(gòu)進(jìn)行決策的多分類模型,通過(guò)詢問(wèn)一系列二元選擇題來(lái)做預(yù)測(cè),簡(jiǎn)單有效,易于理解。
要生成決策樹(shù),首先要找到最上面的根節(jié)點(diǎn)(樣本數(shù)據(jù)的某個(gè)特性),將所有樣本數(shù)據(jù)進(jìn)行分組,形成子節(jié)點(diǎn),然后對(duì)每個(gè)子節(jié)點(diǎn)挑選特征屬性,進(jìn)行再次分組,重復(fù)遞歸這一過(guò)程,直到子節(jié)點(diǎn)為葉子節(jié)點(diǎn),上述步驟中的關(guān)鍵問(wèn)題是以何為依據(jù)挑選樣本數(shù)據(jù)分組的特征屬性。
Quinlan提出的基于信息熵的ID3(Induction Decision-tree 3)算法是決策樹(shù)技術(shù)中的經(jīng)典算法。ID3 算法以信息論為理論基礎(chǔ),在執(zhí)行過(guò)程中要計(jì)算屬性的信息熵與信息增益,然后在每次分類判斷是以信息增益為標(biāo)準(zhǔn),通過(guò)選擇信息增益高的屬性進(jìn)行分類[2]。
信息熵值可以用來(lái)衡量一組樣本數(shù)據(jù)的混亂程度,熵值越高,樣本數(shù)據(jù)越混亂,反之,樣本數(shù)據(jù)的“純度”越高,信息熵值的計(jì)算方法如下:
(1)
式中:n表示樣本數(shù)據(jù)集D中的類別數(shù)量,Pi表示第i類樣本數(shù)據(jù)在當(dāng)前數(shù)據(jù)集中所占的比例。
信息熵值可以度量出一個(gè)樣本數(shù)據(jù)集合的“純度”,但生成決策樹(shù)是要在樣本數(shù)據(jù)集中找出一個(gè)特征屬性,利用其進(jìn)行分組能使各組的樣本數(shù)據(jù)快速變純,于是就可以用未分組前的信息熵值減去分組后各組信息熵值的和,這樣得到的值就可以衡量出利用該屬性特征進(jìn)行分組所獲得的“純度提升”到底有多大??紤]到不同分組所包含的樣本數(shù)量的是不同的,所以可以給每個(gè)分組的信息熵值再賦一個(gè)權(quán)重(分組樣本數(shù)/總樣本數(shù)),這樣樣本數(shù)越多的分組影響就越大。于是便可計(jì)算出利用某個(gè)特征屬性對(duì)樣本數(shù)據(jù)集進(jìn)行分組所獲得的信息增益,計(jì)算過(guò)程如下。
首先,計(jì)算選定特征屬性分組后各分支節(jié)點(diǎn)的加權(quán)信息熵值:
(2)
式中:N表示數(shù)據(jù)集樣本總量,Na表示第a個(gè)節(jié)點(diǎn)的樣本數(shù),e表示第a個(gè)節(jié)點(diǎn)的樣本類別數(shù)量,Na(i)表示節(jié)點(diǎn)a中第i個(gè)類別的樣本數(shù)量。
用分組前的信息熵值減去用某一特征屬性分組后各分支節(jié)點(diǎn)的加權(quán)信息熵的累加和就是該特性屬性的信息增益[3],計(jì)算公式如下:
(3)
式中:t表示對(duì)樣本數(shù)據(jù)集分組的特征屬性,v表示屬性t分組的節(jié)點(diǎn)個(gè)數(shù)。
每次分組都挑選信息增益值最大的特征屬性作為根節(jié)點(diǎn)(父節(jié)點(diǎn)),這樣即可完成一棵決策樹(shù)的構(gòu)造。
高校學(xué)生的學(xué)業(yè)情況有來(lái)自多個(gè)方面的影響因素,學(xué)生平時(shí)的努力刻苦起主要作用,也有很多其他客觀因素的影響,本文結(jié)合高校的實(shí)際數(shù)據(jù)情況,所選取的樣本數(shù)據(jù)特征屬性如下。
入學(xué)成績(jī):學(xué)生考入學(xué)校的高考成績(jī),需做離散化處理。
操行評(píng)定:學(xué)生在學(xué)校的日常表現(xiàn),有輔導(dǎo)員評(píng)定,包括考勤、平時(shí)參與各類活動(dòng)情況。
是否兼職:學(xué)生是否在校外有課外兼職。
是否貧困生:學(xué)生的家庭收入情況,是否評(píng)定為貧困生。
學(xué)習(xí)情況:學(xué)生日常的作業(yè)完成和課堂表現(xiàn)情況。
從教務(wù)、學(xué)工等相關(guān)系統(tǒng)獲取原始數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行整合和離散化處理,整出600條樣本數(shù)據(jù),其中包括200條被預(yù)警的學(xué)生數(shù)據(jù),基本結(jié)構(gòu)如表1所示。
表1 樣本數(shù)據(jù)基本結(jié)構(gòu)
本文學(xué)業(yè)預(yù)警系統(tǒng)構(gòu)建使用操作系統(tǒng)平臺(tái)為Windows 7,數(shù)據(jù)庫(kù)管理系統(tǒng)使用Microsoft SQL Server 2012,系統(tǒng)構(gòu)建流程如圖1所示。
圖1 系統(tǒng)構(gòu)建流程
對(duì)樣本數(shù)據(jù)5個(gè)特征屬性所生成的5種分組情況,分別計(jì)算其信息熵值和信息增益值,以信息增益值最高的特征屬性為決策樹(shù)的根節(jié)點(diǎn),根據(jù)計(jì)算結(jié)果,特征屬性學(xué)習(xí)情況的信息增益值最大,可為決策樹(shù)的根節(jié)點(diǎn),然后將其各分支節(jié)點(diǎn)的樣本數(shù)據(jù)作為獨(dú)立樣本集合,再次計(jì)算每個(gè)分支節(jié)點(diǎn)中可用特征屬性的信息增益值,再次分組,重復(fù)該過(guò)程即可構(gòu)建一棵用于學(xué)生學(xué)業(yè)預(yù)警的決策樹(shù)模型。已構(gòu)建完成的決策樹(shù)存在訓(xùn)練過(guò)度的情況,需要進(jìn)行剪枝處理,以提高決策樹(shù)預(yù)測(cè)的準(zhǔn)確性,本文經(jīng)過(guò)測(cè)試分析,對(duì)生成的決策樹(shù)剪枝處理后所獲取的分類規(guī)則如下。
(1)當(dāng)學(xué)生的學(xué)習(xí)情況為C,操行評(píng)定為C,且入學(xué)成績(jī)也為C的情況下,出現(xiàn)學(xué)業(yè)預(yù)警的概率為76%;
(2)當(dāng)學(xué)生的學(xué)習(xí)情況為C,操行評(píng)定為C,入學(xué)成績(jī)?yōu)锽,被評(píng)定為貧困生同時(shí)參加了社會(huì)兼職,出現(xiàn)學(xué)業(yè)預(yù)警的概率為58%;
(3)當(dāng)學(xué)生的學(xué)習(xí)情況為C,操行評(píng)定為C,入學(xué)成績(jī)?yōu)锽,被評(píng)定為貧困生,出現(xiàn)學(xué)業(yè)預(yù)警的概率為30%。
本文主要討論了利用數(shù)據(jù)挖掘技術(shù)中的決策樹(shù)算法來(lái)構(gòu)建高校學(xué)生學(xué)業(yè)預(yù)警模型,分析了決策樹(shù)算法的構(gòu)建過(guò)程,基于高校的數(shù)據(jù)環(huán)境,綜合學(xué)生在校相關(guān)數(shù)據(jù),選取了5種特征屬性,通過(guò)樣本數(shù)據(jù)集構(gòu)建了學(xué)業(yè)預(yù)警決策樹(shù)模型,通過(guò)驗(yàn)證,該模型準(zhǔn)確率高,具有良好的預(yù)測(cè)效果。將機(jī)器學(xué)習(xí)的相關(guān)算法應(yīng)用到高校學(xué)生學(xué)業(yè)預(yù)警中,不僅能提高預(yù)測(cè)的針對(duì)性和準(zhǔn)確性,同時(shí)可以為高校教學(xué)以及學(xué)工管理部門提供數(shù)據(jù)支持,保證了數(shù)據(jù)科學(xué)、有效的使用。