范殉琦 鐘寶榮
摘要;現(xiàn)如今大學(xué)生人數(shù)逐年在增多,就業(yè)壓力也在逐年增大,獲得含金量較大的證書無疑可以增大大學(xué)生就業(yè)的優(yōu)勢,CET-4證書就是其中的一種。從本校大學(xué)一年級學(xué)生教育學(xué)習(xí)情況調(diào)查問卷中,運用決策樹C4。5算法進行數(shù)據(jù)挖掘,可以發(fā)現(xiàn)學(xué)生高考成績、性別、對英語的學(xué)習(xí)態(tài)度、努力程度、與英語老師的關(guān)系和英語四級考試成績之間潛在的關(guān)系。運用WEKA數(shù)據(jù)挖掘軟件,可以很清晰直觀的進行數(shù)據(jù)挖掘并分析出影響英語四級考試的因素,對高校英語教學(xué)有一定的指導(dǎo)意義。
關(guān)鍵詞:WEKA軟件;CET-4成績;數(shù)據(jù)挖掘;決策樹
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)07-0248-02
1引言
大學(xué)英語四級考試,即CET-4,College English Test Band4的縮寫,是由國家教育部高等教育司主持的全國性教學(xué)考試??荚囉幸欢ǖ碾y度并且監(jiān)考力度大,考試成績具有很高的可信度,因此引起了高校中學(xué)生、老師和領(lǐng)導(dǎo)的高度重視。
學(xué)校每年都會進行在校大學(xué)生學(xué)習(xí)情況的調(diào)查,而這些數(shù)據(jù)僅僅是用在表面的數(shù)據(jù)查詢,數(shù)據(jù)背后隱藏的有用信息并未被有效的挖掘出來。針對這個問題,利用WEKA數(shù)據(jù)挖掘軟件中決策樹J48(對C4.5進行了改進)算法,挖掘出學(xué)生高考成績、性別、對英語的學(xué)習(xí)態(tài)度、努力程度、與英語老師的關(guān)系與CET-4成績之間的潛在關(guān)系,分析出那些因素對CET-4成績影響最大,從而總結(jié)出學(xué)習(xí)的規(guī)律,提高高校學(xué)生的CE'T-4成績。
2WEKA軟件
2.1WEKA數(shù)據(jù)挖掘軟件介紹
Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironment for Knowledge Analysis),是一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機器學(xué)習(xí)算法,包括對數(shù)據(jù)進行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。
2.2WEKA數(shù)據(jù)集格式AR]EF
ARFF(Attribute-Relation File Format)格式是一種ASCII文本文件,記錄了具有共同屬性的實例集。ARFF格式是數(shù)據(jù)挖掘軟件WEKA所使用的文件格式。ARFF文件分為注釋、關(guān)系名、屬性名、數(shù)據(jù)域幾大部分,注釋用百分號開頭%,關(guān)系名用@relation申明,屬性用@attribute什么,數(shù)據(jù)域用@data開頭。當(dāng)數(shù)據(jù)是數(shù)值型,在屬性名的后面加numeric,如果是離散值(枚舉值),就用一個大括號將值域列出來。@data下一行后為數(shù)據(jù)記錄,數(shù)據(jù)為矩陣形式,即每一個的數(shù)據(jù)元素個數(shù)相等,若有缺失值,就用問號?表示。
3C4.5數(shù)據(jù)挖掘算法
C4.5算法是機器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法ID3算法。分類決策樹算法是從大量事例中進行提取分類規(guī)則的自上而下的決策樹。
ID3算法的核心思想就是以信息增益度量屬性選擇,選擇分裂后信息增益最大的屬性進行分裂。
設(shè)D為用類別對訓(xùn)練元組進行的劃分,則D的熵(entropy)表示為:
其中pi表示第i個類別在整個訓(xùn)練元組中出現(xiàn)的概率,可以用屬于此類別元素的數(shù)量除以訓(xùn)練元組元素總數(shù)量作為估計。熵的實際意義表示是D中元組的類標(biāo)號所需要的平均信息量。
現(xiàn)在我們假設(shè)將訓(xùn)練元組D按屬性A進行劃分,則A對D劃分的期望信息為;
而信息增益即為兩者的差值:
C4.5算法繼承了TD3算法的優(yōu)點,并對ID3算法進行了改進:
C4.5算法首先定義了“分裂信息”,其定義可以表示成:
其中各符號意義與ID3算法相同,然后,增益率被定義為;
4CE4-4成績挖掘與分析
4.1確定挖掘?qū)ο箅A段
此次實驗的數(shù)據(jù)來源于我校在校學(xué)生學(xué)習(xí)情況、學(xué)生入學(xué)信息等多個數(shù)據(jù)源,利用數(shù)據(jù)庫技術(shù)將多個數(shù)據(jù)源中的可能對CET-4成績造成影響的字段進行整合,合并成一個用于分析學(xué)生CET-4成績的數(shù)據(jù)表。運用WEKA軟件,挖掘出學(xué)生高考成績、性別、對英語的學(xué)習(xí)態(tài)度、努力程度、與英語老師的關(guān)系和英語四級考試成績之間潛在的關(guān)系。
4.2數(shù)據(jù)收集與數(shù)據(jù)預(yù)處理
本次數(shù)據(jù)中的原始樣本數(shù)據(jù)共有1650個,經(jīng)過初步的數(shù)據(jù)清理、排除、整合等操作后,參與數(shù)據(jù)挖掘的數(shù)據(jù)共有1528個,樣本的有效率達(dá)到了92.6%。得到了一個包含stuNum,stuName,stuSex,stuScore,stuAttitude,stuWork,stuRelation,CET4Score八個字段的影響CET4成績的數(shù)據(jù)表,數(shù)據(jù)如表1所示。
4.3數(shù)據(jù)轉(zhuǎn)換
首先需要對stuScore、stuWork、CET4Score字段的數(shù)據(jù)通過離散化的方法,將原本NUMERIC類型轉(zhuǎn)換為NOMINAL類型。將大學(xué)生高考成績離散化為“A”(≥120分),“B”(≥105且<120分),“C”(≥90且<105分),“D”(<90分);將學(xué)生努力程度(每日學(xué)習(xí)英語的時間)離散化為“l(fā)azy”(
4.4數(shù)據(jù)字段說明
經(jīng)過轉(zhuǎn)化后,屬性的可選值為:
5實驗結(jié)果
從數(shù)據(jù)集中隨機抽取1428條數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,把剩余的100條數(shù)據(jù)作為測試數(shù)據(jù)集,測試決策樹的正確預(yù)測率。Weka中對數(shù)據(jù)集進行決策樹分析,產(chǎn)生的決策樹如圖1。
正確率達(dá)到79.6218%,如圖2所示。
從建立的決策樹模型中推測主要影響大學(xué)一年級新生的CFA一4成績因素有三個,學(xué)習(xí)的努力程度、對英語的學(xué)習(xí)態(tài)度、高考成績。
從中可以看出,學(xué)生的努力程度對第一次CET-4是否能通過,有很明顯的預(yù)測作用,這也和我們本身認(rèn)知一致,當(dāng)付出了足夠的努力,會獲取相應(yīng)的回報,同時培養(yǎng)學(xué)生的學(xué)習(xí)興趣,對提高成績也有很大的幫助,這個信息給了高校的英語老師一個很好的提示,盡可能的要提高學(xué)生學(xué)習(xí)興趣,同時高考的成績也反映出學(xué)生的基礎(chǔ)知識,學(xué)習(xí)是個長期努力的過程,需要長時間的積累,只有對英語有興趣,花足夠多的時間來學(xué)習(xí)英語,才能更好地提高英語成績。
6結(jié)語
本文研究了可能影響CET-4成績的相關(guān)因素,介紹了C4.5數(shù)據(jù)挖掘方法,以開源數(shù)據(jù)挖掘軟件WEKA平臺為基礎(chǔ),調(diào)用其封裝好的決策樹J48算法,快速的挖掘出學(xué)生高考成績、性別、對英語的學(xué)習(xí)態(tài)度、努力程度、與英語老師的關(guān)系和英語四級考試成績之間潛在的關(guān)系。WEKA數(shù)據(jù)挖掘軟件開源并且源代碼免費,是一款非常好的數(shù)據(jù)挖掘軟件,利用該軟件可以節(jié)省挖掘數(shù)據(jù)的時間,提高工作的效率,挖掘出數(shù)據(jù)背后的隱藏的、有價值的信息,從而提高人們的學(xué)習(xí)效率,生活質(zhì)量。