鐘 敏
(武漢工程職業(yè)技術(shù)學(xué)院 湖北 武漢:430080)
隨著信息技術(shù)的發(fā)展,各高校以數(shù)據(jù)庫為核心,搭建起來各種管理應(yīng)用平臺(tái),經(jīng)過多年的運(yùn)行,積累了大量的數(shù)據(jù)。然而很多時(shí)候,這些數(shù)據(jù)的利用率并不高,對(duì)這些數(shù)據(jù)的應(yīng)用還是停留在當(dāng)初系統(tǒng)設(shè)計(jì)階段,如何提取并運(yùn)用這些大數(shù)據(jù)是當(dāng)前研究的一個(gè)熱門方向。近年來,人工智能涉及領(lǐng)域不斷擴(kuò)展,其中的機(jī)器學(xué)習(xí)也受到越來越多人的關(guān)注。在大數(shù)據(jù)背景下,機(jī)器學(xué)習(xí)能捕獲數(shù)據(jù)并從中獲取有價(jià)值的信息或模式,進(jìn)而能揭示數(shù)據(jù)背后隱藏的真實(shí)的意義。如果將用機(jī)器學(xué)習(xí)獲取到的這些知識(shí)應(yīng)用到高校信息系統(tǒng)中,那么原有的系統(tǒng)將會(huì)變得更加“聰明”,幫助我們做出更好的決策或發(fā)現(xiàn)更多的問題,從而提升辦學(xué)質(zhì)量。為此,將機(jī)器學(xué)習(xí)中的經(jīng)典算法——決策樹算法應(yīng)用到現(xiàn)行教師工作量平臺(tái)上,發(fā)現(xiàn)數(shù)據(jù)潛在信息和規(guī)則,找到影響教學(xué)質(zhì)量的關(guān)鍵因素,從而提高教學(xué)管理水平。
決策樹(Decision tree)是一種基本的分類與回歸方法。它是一種樹形結(jié)構(gòu),其中的內(nèi)部結(jié)點(diǎn)表示測(cè)試數(shù)據(jù)集中的特征或?qū)傩?,葉子結(jié)點(diǎn)則為一個(gè)決策結(jié)果。用決策樹處理分類問題時(shí),其過程是用特征或?qū)傩詫?duì)數(shù)據(jù)集進(jìn)行分類,結(jié)果既可以看成歸納出的一組分類規(guī)則,也可以認(rèn)為是估算的條件概率模型。決策樹算法通常包括3個(gè)步驟:特征選擇、決策樹的生成和決策樹的修剪,其中,決策樹的生成是重點(diǎn)。常用的決策樹算法有ID3、C4.5、CART等算法,其中ID3是經(jīng)典算法,但它只能對(duì)離散數(shù)據(jù)做分類處理,C4.5、CART可以對(duì)連續(xù)數(shù)據(jù)做分類處理。本文目標(biāo)是嘗試對(duì)現(xiàn)有高校信息平臺(tái)數(shù)據(jù)做一些知識(shí)學(xué)習(xí)實(shí)踐,故選擇基礎(chǔ)經(jīng)典的ID3算法,后續(xù)也會(huì)對(duì)其它算法做一些嘗試。
采用了ID3算法,其基本思想是構(gòu)造一棵決策樹。具體步驟:找出當(dāng)前當(dāng)前數(shù)據(jù)集中的關(guān)鍵特征,依據(jù)該特征對(duì)當(dāng)前數(shù)據(jù)集進(jìn)行劃分,得到不同的數(shù)據(jù)子集,再一次對(duì)數(shù)據(jù)子集做相同的處理,直到所有相同類型的數(shù)據(jù)均在一個(gè)子集內(nèi)為止,具體過如程圖1。
圖1 構(gòu)造決策樹算法
從上述算法可以看出,如何度量劃分?jǐn)?shù)據(jù)集的最佳特征是一個(gè)關(guān)鍵問題。ID3算法將劃分?jǐn)?shù)據(jù)集之前之后信息發(fā)生的變化稱為信息增益。通過計(jì)算信息增益,可以了解每個(gè)特征值劃分?jǐn)?shù)據(jù)集所獲得的信息增益,比較獲得信息增益最高的特征就是當(dāng)前最好的選擇。信息增益表達(dá)用到了香濃熵,下面是信息xi香濃熵的定義:
L(xi)=-log2p(xi)
上式中p(xi)表示選擇該類分類的概率。
有了香濃熵,可以定義出每個(gè)結(jié)點(diǎn)(特征)上的信息增益H:
依據(jù)信息增益最大的特征,可以劃分當(dāng)前數(shù)據(jù)集,該特征成為生成樹上的一個(gè)分支,依次類推,可以構(gòu)造出決策樹,基本算法如1.1決策樹的構(gòu)造。
(1)收集數(shù)據(jù):可以用任意的方式,如來自于數(shù)據(jù)庫。
(2)清理數(shù)據(jù):將數(shù)據(jù)離散成數(shù)值型數(shù)據(jù),產(chǎn)生對(duì)應(yīng)訓(xùn)練數(shù)據(jù)集。
(3)訓(xùn)練數(shù)據(jù):將產(chǎn)生的訓(xùn)練數(shù)據(jù)集按1.1的方法構(gòu)造決策樹。
(4)測(cè)試算法:使用測(cè)試數(shù)據(jù)集估算錯(cuò)誤率(適用于監(jiān)督學(xué)習(xí)算法)。
數(shù)據(jù)來自于筆者編寫的教學(xué)工作量管理平臺(tái),該平臺(tái)主要作用是記錄教師每學(xué)期的工作量,統(tǒng)計(jì)超學(xué)時(shí)情況,從2010年至今,平臺(tái)中積累了大量的數(shù)據(jù)。如何從這類數(shù)據(jù)中學(xué)習(xí)更多有用的信息,本次實(shí)踐只是一次有意義的嘗試。從平臺(tái)中隨機(jī)抽取了某學(xué)院36名教師2019年第一學(xué)期的工作量情況,選取其中6個(gè)特征值,結(jié)合年終的教學(xué)評(píng)價(jià)構(gòu)成表1的原始數(shù)據(jù)集。
表1 原始數(shù)據(jù)集
接下來對(duì)表1的數(shù)據(jù)集進(jìn)行離散化處理,以適應(yīng)ID3算法,處理規(guī)則如下:
1年齡:按教師年齡段劃分為三檔,約定為1表示青年教師(年齡小于30歲),2表示中年教師(年齡在30歲至45歲之間),3表示老年教師(年齡大于45歲)。
2學(xué)歷:按教師學(xué)歷情況,約定為1表示大專,2表示本科,3表示碩士研究生,4表示博士研究生。
3職稱:按教師現(xiàn)有職稱情況,約定1表示助教,2表示講師,3表示副高,4表示正高。
4課程:原有數(shù)據(jù)為教師本學(xué)期所教授課程名稱,因關(guān)注的是課程數(shù)據(jù)量,所以將課程名稱改為課程數(shù)量,即當(dāng)年所上專業(yè)課數(shù)量。
5人數(shù):將班級(jí)人數(shù)除以課程數(shù),大于100表示多班級(jí)用1表示,否則為0。
6工作量:按實(shí)際情況將工作量分為四類,1表示工作量>140學(xué)時(shí),2表示工作量>180學(xué)時(shí),3表示工作量>240學(xué)時(shí),4表示工作量>300學(xué)時(shí)。
7評(píng)教:評(píng)教數(shù)據(jù)原有為百分?jǐn)?shù)據(jù),我們也將它離散化為四檔:0表示不合格,1表示稱職,2表示良好,3表示優(yōu)秀。
處理后表格如表2所示。
表2 修改后的訓(xùn)練數(shù)據(jù)集
使用Python作為開發(fā)語言,Python語法結(jié)構(gòu)清晰,有豐富的數(shù)據(jù)類型,如列表、元組、字典、集合、隊(duì)列等,對(duì)這些數(shù)據(jù)類型的操作簡(jiǎn)單。另外,Python中提供了很多可視化工具,能直觀地顯示結(jié)果。表3是在表2的訓(xùn)練數(shù)據(jù)集上構(gòu)造決策樹中計(jì)算出的特征值的信息增益變化,能反映程序執(zhí)行過程中圖2決策樹的構(gòu)造過程。
表3 決策樹構(gòu)建中的信息增益變化
圖2 構(gòu)建的決策樹模型
從圖2構(gòu)建的決策樹中可以得到一組規(guī)則:
1職稱是關(guān)鍵因素,高級(jí)職稱的教師評(píng)教較好,這和學(xué)校實(shí)際情況是相符的。
2因?yàn)閿?shù)據(jù)的原因,課程數(shù)量取樣上絕大部分老師教授課程為2門課,所以這部分?jǐn)?shù)據(jù)有些失真,屬于可修剪特征,如果改變訓(xùn)練集,將會(huì)反映不同的情況。
3工作量是次關(guān)鍵因素,從決策樹中能發(fā)現(xiàn),工作量高并非能有好的教學(xué)評(píng)價(jià),工作量在每學(xué)期180-300學(xué)時(shí)之間較為合理,工作量偏小也不利于教學(xué)工作。
4學(xué)歷特征在決策樹中也有反映,高學(xué)歷并沒有能反映較高的評(píng)教,說明這一部分老師還有潛力可挖掘,如何調(diào)動(dòng)這部分老師的積極性,將是一個(gè)課題。
5年齡特征中,年青教師和老年教師評(píng)教較高。
6班級(jí)人數(shù)情況和課程數(shù)量情況類似,合班較多,數(shù)據(jù)有些失真,也是可修剪特征,選取更多的小班上課,能了解更多。
上述規(guī)則中,找到了影響教師教學(xué)質(zhì)量的關(guān)鍵因素依次為職稱、工作量、學(xué)歷、年齡或班級(jí)人數(shù)。在教師工作量管理工作中,可以根據(jù)這些關(guān)鍵因素合理分配教師的工作量,即依據(jù)老師的特點(diǎn)合理選擇課程及工作量,以提高教學(xué)管理的水平。
決策樹學(xué)習(xí)的優(yōu)點(diǎn)是計(jì)算復(fù)雜度不高,輸出結(jié)果易于理解,對(duì)中間值的缺失不太敏感,可以處理不相關(guān)數(shù)據(jù),缺點(diǎn)是可能產(chǎn)生過度匹配的問題。原設(shè)計(jì)中,找到了影響教師教學(xué)質(zhì)量的關(guān)鍵因素,但有些數(shù)據(jù)如課程數(shù)量、班級(jí)人數(shù)有些失真,可考慮增加教學(xué)態(tài)度、教學(xué)內(nèi)容和教學(xué)方法等特征,更好地評(píng)估教師教學(xué)工作,提高教學(xué)管理水平。后面將在原有信息系統(tǒng)平臺(tái)基礎(chǔ)上,添加一個(gè)包含各種機(jī)器學(xué)習(xí)算法的智能服務(wù)層,將清洗過的數(shù)據(jù)輸入到智能服務(wù)層中,通過不同的條件判斷,選擇不同機(jī)器學(xué)習(xí)算法,輸出各種規(guī)則信息或不同預(yù)測(cè)及驗(yàn)證,使原有的系統(tǒng)更加“聰明”。