陳 偉,劉昌森
(1.淮南聯(lián)合大學 計算機系,安徽 淮南232038;2.亳州市第三中學,安徽 亳州236800)
樸素貝葉斯分類預測學生CET4成績
陳 偉1,劉昌森2
(1.淮南聯(lián)合大學 計算機系,安徽 淮南232038;2.亳州市第三中學,安徽 亳州236800)
貝葉斯分類法是統(tǒng)計學分類方法,可以預測類成員關系的可能性,如給定元?組屬于一個特定類的概率。大學英語四級考試一直是高校學生很重要的一門考試,對學生日后的就業(yè)也有指導性的作用,運用樸素貝葉斯分類方法,對學生的CET4成績數(shù)據(jù)進行分類和預測,把得到的結論與實際情況比較,從而指導教學。
樸素貝葉斯;分類;CET4;預測
樸素貝葉斯分類法是假定一個屬性值對給定類的影響獨立于其他屬性值。這一假定稱作類條件獨立性。做此假定是為了簡化所需要的計算,并在此意義下稱為“樸素的”。貝葉斯分類基于貝葉斯定理。
設X是類標號未知的數(shù)據(jù)樣本。設H為某種假定,如,數(shù)據(jù)樣本X屬于某特定的類C。對于分類問題,希望確定P(H│X)——給定觀測數(shù)據(jù)樣本X,假定H成立的概率。P(H│X)是后驗概率,或條件X下,H的后驗概率。例如,假定數(shù)據(jù)樣本由水果組成,我們用顏色和形狀來描述它們。假定X表示紅色和圓的,H表示假設X是蘋果,則P(H│X)反映當我們看到X是紅色并且是圓的時,我們判定X是蘋果的概率。P(H,X)是先驗概率,或H的先驗概率。對于此例,它是任意給定的數(shù)據(jù)樣本為蘋果的概率,而不管數(shù)據(jù)樣本是何顏色和形狀。后驗概率P(H│X)比先驗概率P(H,X)基于更多的信息(例如顏色和形狀的信息)。P(H,X)是獨立于X的。
類似的,P(H│X)是條件H下,X的后驗概率。即,它是已知X是蘋果,X是紅色并且是圓的的概率。P(H,X)是X的先驗概率,是由水果集取出一個數(shù)據(jù)樣本是紅色和圓的的概率。
貝葉斯定理提供了后驗概率的計算方法:
(1)設樣本有n個屬性(A1,A2,……,An),每個樣本可看作是n維空間的一個點X=(x1,x2,……,xn)。
(2)假定有m個不同的類別,C1,C2,……,Cm。X是一個未知類別的樣本。預測X的類別為后驗概率最大的那個類別,即算法將未知類別的樣本X歸到類Ci,當且僅當P(CiP│X)>P(CjP│X),對于所有的j成立(1jm,ji),即最大。
(4)對未知樣本X分類,對每個類Ci,計算。樣本X被指派到類Ci,當且僅當>(1jm,ji),即X被指派到其最大類Ci。
貝葉斯分類具有如下特點:
(1)貝葉斯分類并不把一個對象絕對地指派給某一類,而是通過計算得出屬于某一類的概率,具有最大概率的類便是該對象所屬的類;
(2)一般情況下在貝葉斯分類中所有的屬性都潛在地起作用,即并不是一個或幾個屬性決定分類,而是所有的屬性都參與分類;
(3)貝葉斯分類對象的屬性可以是離散的、連續(xù)的,也可以是混合的[1-2]。
本文所用數(shù)據(jù)為某學校某年學生CET4的成績,以Visualfoxpro6.0為工具,針對現(xiàn)有數(shù)據(jù)的情況,在此進行的數(shù)據(jù)預處理(Data preprocessing),包括二個步驟:數(shù)據(jù)清理(Data Clearing)和數(shù)據(jù)變換(Data Transformation)。
數(shù)據(jù)清理:從原有數(shù)據(jù)中我們發(fā)現(xiàn)其中有很多學生的數(shù)據(jù)都為0,通過調查知道這些數(shù)據(jù)缺失的原因是學生未參加考試,我們把這樣學生的數(shù)據(jù)都從數(shù)據(jù)庫表中把它刪除。另外為了研究的需要,我們只取 “學號”、“總分”、“聽力分數(shù)”、“閱讀分數(shù)”、“寫作分數(shù)”、“綜合分數(shù)”這6個字段。
數(shù)據(jù)變換:將數(shù)據(jù)轉換成適合于研究的形式。將CET4中除了總分以外的各部分數(shù)據(jù)轉換成優(yōu)秀、良好、及格、不及格5個等級。如分數(shù)大于85的為“優(yōu)”,介于85-60之間的為“合格”,60分以下為“不及格”;總分轉換為通過和不通過,總分大于等于60分為通過,反之為不通過。因為CET4的分值分配為:總分710,聽力249,閱讀249,寫作142,綜合測試70,所以要把分數(shù)換算為百分制?!安患案瘛?、“合格”、“優(yōu)”分別設定為1、2、3;通過和不通過分別設定為“1”和“0”。表1為預處理后的成績表中的部分數(shù)據(jù)??傆?814條記錄。
表1預處理后的CET4成績
以表1為訓練數(shù)據(jù)樣本,有4個屬性(聽力分數(shù),閱讀分數(shù),寫作分數(shù),綜合分數(shù)),總分有兩個不同值:1和0。設C1對應于類總分=1,C2對應于類總分=0。要計算給定的樣本X=(聽力分數(shù)=2,閱讀分數(shù)=1,寫作分數(shù)=1,綜合分數(shù)=3),我們需要最大化,i=1,2。每個類的先驗概率可以根據(jù)訓練樣本計算:P(總分=1)=92/1814=0.0507,P(總分=0)=1722/ 1814=0.9493。
為了計算,i=1,2,計算下面的條件概率:
P(聽力分數(shù)=2|總分=1)=62/92=0.6739,P(聽力分數(shù)=2|總分=0)=41/1722=0.0238
P(閱讀分數(shù)=1|總分=1)=17/92=0.1848,P(閱讀分數(shù)=1|總分=0)=1530/1722=0.8885
P(寫作分數(shù)=1|總分=1)=50/92=0.5435,P(寫作分數(shù)=1|總分=0)=1578/1722=0.9164
P(綜合分數(shù)=3|總分=1)=15/92=0.1630,P(綜合分數(shù)=3|總分=0)=13/1722=0.0075
使用上面的概率得到:P(X|總分=1)=P(聽力分數(shù)=2|總分=1)*P(閱讀分數(shù)=1|
總分=1)*P(寫作分數(shù)=1|總分=1)*P(綜合分數(shù)=3|總分=1)
=0.6739*0.1848*0.5435*0.1630=0.0110
P(X|總分=0)=0.0238*0.8885*0.9164*0.0075=0.00015
為了發(fā)現(xiàn)最大化的類,計算
P(X|總分=1)*P(總分=1)=0.0110*0.0507=0.0005577
P(X|總分=0)*P(總分=0)=0.00015*0.9493=0.0001424
由于P(X|總分=1)*P(總分=1)>P(X|總分=0)*P (總分=0),因此對于樣本X=(聽力分數(shù)=2,閱讀分數(shù)=1,寫作分數(shù)=1,綜合分數(shù)=3),即X(聽力分數(shù)為合格,閱讀分數(shù)為不及格,寫作分數(shù)為不及格,綜合分數(shù)為優(yōu))樸素貝葉斯分類預測總分=1,即為通過,這一預測與實際情況相符[3-5]。
通過實例說明了樸素貝葉斯能夠利用現(xiàn)有知識對未知事件進行預測,而且具有一定的正確性[6-7]。
[1]韓家煒.數(shù)據(jù)挖掘概念與技術[M].北京:機械工業(yè)出版社,2000:172-173.
[2]陳文偉,黃金才,等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:人民郵電出版社,2004:121-122.
[3]王峻.樸素貝葉斯分類模型在指導學生選擇專業(yè)選修課方向中的應用[J].電腦知識與技術,2008:1286-1287.
[4]袁紅星.樸素貝葉斯基于學生信息庫的數(shù)據(jù)挖掘研究[J].軟件導刊,2005(16):8-10.
[5]馬希榮,孫華志.數(shù)據(jù)挖掘技術在教學評價中的應用[J].計算機工程與應用,2003(19):51-54.
[6]丁智斌,袁方,董賀偉.數(shù)據(jù)挖掘在高校學生學習成績分析中的應用[J].計算機工程與設計,2006(4):590-592.
[7]謝斌.樸素貝葉斯分類在數(shù)據(jù)挖掘中的應用[J].甘肅聯(lián)合大學學報:自然科學版,2007(4):79-81.
[責任編輯:曹懷火]
TP311
A
1674-1102(2010)03-0012-02
2010-03-03
陳偉(1975-),女,安徽六安人,淮南聯(lián)合大學計算機系講師,碩士,主要研究方向為數(shù)據(jù)挖掘。