周國福
摘 要: 數(shù)據(jù)挖掘技術(shù)已經(jīng)成功地運用到商業(yè)中,但是它在高等教育行業(yè)中的應(yīng)用還有待于進一步深入研究。數(shù)據(jù)挖掘技術(shù)是為了從數(shù)據(jù)中識別和提取新的和潛在的有價值的知識。以福建省高校為例,利用數(shù)據(jù)挖掘技術(shù)對高校學(xué)生成績進行了分析并建立了數(shù)學(xué)模型。提出了一種基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績分析算法,基于學(xué)生在課程中的歷史表現(xiàn)對學(xué)生未來成績進行預(yù)測。同時,利用本文方法對本校水電與建筑專業(yè)的部分學(xué)生成績抽樣進行分析。結(jié)果表明:執(zhí)行早期的階段評估是有效的,對影響學(xué)生成績因素進行分析預(yù)測,從而能夠?qū)Τ煽儾焕硐氲膶W(xué)生采取必要的補救措施,以此提升學(xué)生的學(xué)習(xí)方法,從而提高教學(xué)效率。
關(guān)鍵詞: 數(shù)據(jù)挖掘技術(shù); 分類; 預(yù)測; 高校學(xué)生成績分析
中圖分類號: TP 391.1 文獻標志碼: A 文章編號: 1671-2153(2017)06-0090-04
0 引 言
數(shù)據(jù)挖掘可用于從大量數(shù)據(jù)中提取隱藏的有用信息,常用于預(yù)測知識的模式。對省高校學(xué)生成績的分析能夠預(yù)測學(xué)生的表現(xiàn),通過定期收集學(xué)生成績的數(shù)據(jù)和信息,并進行數(shù)據(jù)處理和分析,有利于保證省高校教學(xué)質(zhì)量。在教育過程中應(yīng)用數(shù)據(jù)挖掘技術(shù)可以滿足每個參與者在教育過程中的具體需求:根據(jù)分析結(jié)果為學(xué)生推薦有助于改善學(xué)習(xí)的材料和課程;老師可以根據(jù)反饋意見因材施教;高校的行政人員根據(jù)分析結(jié)果進行課程設(shè)置的調(diào)整等。
1 研究方法
本研究數(shù)據(jù)是通過問卷調(diào)查的形式收集的,調(diào)查對象是水電與建筑專業(yè)的學(xué)生,統(tǒng)計關(guān)于計算機應(yīng)用基礎(chǔ)課程的相關(guān)數(shù)據(jù),消除不完整的數(shù)據(jù)后,樣本的數(shù)量是257份。將257份有效樣本作為輸入,每一個樣本信息的序號、屬性以及取值類型如表1所示。
課程中學(xué)生成績的分布如圖1所示。圖1中,橫坐標是學(xué)生分數(shù),縱坐標是人數(shù)。將成績按照式(1)的規(guī)則進行離散化,即
分數(shù)等級=A, 95≤分數(shù)B, 85≤分數(shù)<95C, 75≤分數(shù)<85D, 65≤分數(shù)<75E, 55≤分數(shù)<65F, 分數(shù)<60 。 (1)
將輸出分為兩類:第一類是優(yōu)秀,即分數(shù)等級為A;第二類是一般,即分數(shù)等級為B,C,D,E以及F。這兩類輸出的比例如表2所示。
2 數(shù)據(jù)挖掘算法
數(shù)據(jù)挖掘技術(shù)中有許多不同的分類器,但是并不存在最好的分類器,因為它們在許多方面有所不同,例如:學(xué)習(xí)率,訓(xùn)練數(shù)據(jù)量,分類速度,魯棒性等。本文應(yīng)用C4.5[1]和樸素貝葉斯[2]這兩種數(shù)據(jù)分析算法來產(chǎn)生分類模型。
2.1 樸素貝葉斯分類器(NBC)
假設(shè)向量x=(x1,x2,,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12)是屬性向量。其中:x1是代表性別屬性;x2是代表家庭人數(shù)屬性;x3是代表住所與學(xué)校的距離屬性;x4代表高中類型屬性;x5代表績點屬性;x6代表高考成績屬性;x7代表獎學(xué)金屬性;x8是課程學(xué)習(xí)時間屬性;x9代表復(fù)習(xí)材料屬性;x10代表使用網(wǎng)絡(luò)屬性;x11成績重要性屬性以及x12代表收入屬性。C1代表輸出類別中的“優(yōu)秀”;C2代表輸出類別中的“一般”。根據(jù)貝葉斯定理[3],可以得到以下公式:
式中:p(C1|x)是指某樣本屬于C1的概率;p(C2|x)是指某樣本屬于C2的概率。觀察式(2)和式(3),只有分子部分含有變量Ck,將p(x)看成常數(shù),那么式(1)就等價于p(Ck,x1,x2,…,x9)。于是有:
假設(shè)向量x中的屬性都是互相獨立的,于是有:
根據(jù)式(3)可以得到樸素貝葉斯分類器,即
2.2 C4.5
C4.5是ID3[4]算法的升級版,C4.5生成的決策樹可以用于分類,為此C4.5通常被稱為統(tǒng)計分類器。C4.5的算法如表3所示。
3 結(jié)果及分析
為了更好地了解輸入變量的重要性,通常會分析輸入變量在學(xué)生成績分析預(yù)測期間的影響,對模型的某些輸入變量對輸出變量的影響進行了分析。使用3個測試進行測試,用于評估輸入變量:卡方檢驗[5]、信息增益測試和增益比檢驗。使用以下度量來監(jiān)測每個測試的結(jié)果:屬性(屬性名稱),優(yōu)點(良好度量),優(yōu)點開始(偏差,即品質(zhì)偏差的度量),排序(屬性占據(jù)的平均位置),排序和dev(偏差,偏差取屬性位置)。不同的算法提供不同的結(jié)果,即每個算法以不同的方式考慮屬性的相關(guān)性。將所有算法的平均值作為屬性排序的最終結(jié)果。表4為數(shù)據(jù)屬性的測試結(jié)果。
由表4可以看出,屬性5(即績點)對結(jié)果的影響最大,在四項測試中效果最好。屬性6,屬性9和屬性8對結(jié)果也有較大的影響。對結(jié)果影響最小的分別是屬性1,2和3。
表5和表6為評估NBC算法和C4.5算法在預(yù)測學(xué)生成績性能的結(jié)果。
由表5可以看出,NBC的正確率稍稍高于C4.5算法。NBC的卡巴統(tǒng)計量要遠高于C4.5算法,說明了NBC的分類結(jié)果與隨機分類的差異度較大,因此性能更好。同時,NBC的平均絕對誤差、均方根誤差小于C4.5算法,說明NBC的準確率比較高,分類的性能比較穩(wěn)定。由表6可以看出,NBC的分類精度稍稍高于C4.5算法。
4 結(jié) 論
本文的目的是利用數(shù)據(jù)挖掘技術(shù)來進行省高校成績分析模型的探討,提出了一種基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績分析算法,基于過去學(xué)生在課程中的歷史表現(xiàn)的來對學(xué)生未來成績進行預(yù)測。利用本文方法對本校水電與建筑專業(yè)的學(xué)生成績進行分析研究,實驗結(jié)果表明,樸素貝葉斯分類器表現(xiàn)突出。本研究基于傳統(tǒng)的課堂環(huán)境,數(shù)據(jù)采集后應(yīng)用數(shù)據(jù)挖掘技術(shù)。這種方法可以幫助老師提高學(xué)生的成績,采取合適的措施來提高學(xué)習(xí)質(zhì)量。由于學(xué)習(xí)是一個積極的過程,師生之間的交互是影響學(xué)生滿意度和表現(xiàn)的一個基本要素。
參考文獻:
[1] 黃秀霞. C4.5決策樹算法優(yōu)化及其應(yīng)用[D]. 江南大學(xué),2017.
[2] 王俊華,左萬利,閆昭. 基于樸素貝葉斯模型的單詞語義相似度度量[J]. 計算機研究與發(fā)展,2015,52(7):1499-1509.
[3] CICCHETTI D. Bayes' Theorem[M]//The Encyclopedia of Clinical Psychology. John Wiley & Sons,Inc,2015.
[4] 王永梅,胡學(xué)鋼. 決策樹中ID3算法的研究[J]. 安徽大學(xué)學(xué)報(自科版),2011(3):71-75.
[5] SHARPE D. Your Chi-Square Test Is Statistically Significant:Now What?[J]. Practical Assessment Research & Evaluation,2015,20:10.