張永嬌,張華棟,劉禹欣
(大連民族學(xué)院理學(xué)院學(xué)生,遼寧大連 116605)
基于樸素貝葉斯的學(xué)生發(fā)展預(yù)測研究
張永嬌,張華棟,劉禹欣
(大連民族學(xué)院理學(xué)院學(xué)生,遼寧大連 116605)
學(xué)生信息系統(tǒng)信息量非常龐大,信息冗雜,其中成績、社會實踐、獲獎情況等與學(xué)生未來發(fā)展有著密切的聯(lián)系。利用樸素貝葉斯方法對學(xué)生信息系統(tǒng)中的數(shù)據(jù)進行有效提取和處理,并作出相關(guān)分析,分析結(jié)果能對高校各級管理部門提供有效的決策支持。
把學(xué)生未來發(fā)展類C分為三個類別c1,c2,c3分別代表很好、一般和不好。對每個學(xué)生的信息提取其有效數(shù)據(jù),將每個數(shù)據(jù)樣本表示成一個7維的向量,X={x1,x2,x3,x4,x5,x6,x7}分別代表學(xué)生的專業(yè)課平均成績、選修課平均成績、英語四級成績、社會實踐能力、獲獎得分、社會工作情況和發(fā)展趨勢。
因為c1,c2,c3互不相容,且其和為總樣本空間C。根據(jù)貝葉斯定理[1]有
如果,P(ci|X) >P(cj|X)則 X∈ci,否則 X∈cj。
(1)式中P(X)對于所有類別都是相等的,所以判別函數(shù)可表示為
對于給定樣本的類標號,假定屬性值條件相互獨立,即在屬性間不存在依賴關(guān)系。則有P(X|。則式(2)可表示為
其中P(xk|ci)表示ci類樣本中具有屬性xk的樣本數(shù)比值,P(ci)為ci類樣本數(shù)與總樣本數(shù)的比值。對未知樣本X分類,樣本X被指派到類ci,當(dāng)且僅當(dāng) P(X|ci)P(ci) > P(X|cj)P(cj),1≤j≤3,j≠i,換言之,X被指派到P(X|ci)P(ci)最大的類ci。
用Matlab編寫程序?qū)δP瓦M行求解。把收集的1000個數(shù)據(jù)信息隨機分成兩組,一組作為訓(xùn)練集合,另一組作為測試集合;利用訓(xùn)練集數(shù)據(jù)學(xué)習(xí)獲得一個分類器,然后使用測試數(shù)據(jù)集對該分類器預(yù)測準確率進行評估。隨機運行10次分類平均準確率見表1。
表1 隨機運行的十次分類平均準確率
通過實際觀察可以知道,運算結(jié)果的準確率在90%以上。實驗結(jié)果表明樸素貝葉斯分類算法在學(xué)生發(fā)展預(yù)測問題上表現(xiàn)出了高準確率的特點。
[1]茆詩松.概率論與數(shù)理統(tǒng)計[M].北京:高等教育出版社,2004.
[2]鐘珞.模式識別[M].武漢:武漢大學(xué)出版社,2006.
TP311
A
(責(zé)任編輯 劉敏)
1009-315X(2011)05-0540-01
2010-06-18;最后
2011-03-28
指導(dǎo)教師:孟佳娜(1972-),女,吉林四平人,副教授,博士研究生,主要從事模式識別、文本挖掘、自然語言處理等研究。