喻 越
(漢中中學(xué),陜西 漢中723000)
數(shù)據(jù)挖掘技術(shù)的研究在國外已經(jīng)有很多年的歷史,而且已經(jīng)取得了豐碩的成果。在國外學(xué)校的教學(xué)和管理中,數(shù)據(jù)挖掘已經(jīng)成為提高教學(xué)管理水平和教學(xué)質(zhì)量的重要工具。但是在國內(nèi)數(shù)據(jù)挖掘在各行業(yè)的運(yùn)用并不普遍。許多的企業(yè)和公司仍處于觀望之中,在高校的教學(xué)管理中數(shù)據(jù)挖掘更是沒有被注意,有待于進(jìn)行深入地研究。
哈爾濱師范大學(xué)的呼蘭學(xué)院采用了自己研發(fā)的教務(wù)系統(tǒng)為教務(wù)決策提供數(shù)據(jù)支持,自從建立以來收集了大量數(shù)據(jù),包括10000余條繳費(fèi)數(shù)據(jù)記錄,10000余條教師課堂工作量記錄,6000余條學(xué)生四級(jí)成績數(shù)據(jù)記錄,4000余條學(xué)生畢業(yè)情況記錄,30余萬條歷史成績數(shù)據(jù)記錄。這類數(shù)據(jù)因缺乏挖掘被埋沒在數(shù)據(jù)庫里,而這些數(shù)據(jù)間蘊(yùn)藏的關(guān)系完全可以被加以利用,因此,我們非常有必要應(yīng)用數(shù)據(jù)挖掘?qū)Ω鞲咝5暮A繑?shù)據(jù)進(jìn)行科學(xué)分析,依據(jù)可靠結(jié)論,提高學(xué)校的教育管理水平,達(dá)到理想的管理效果。對(duì)學(xué)生而言則著重體現(xiàn)在成績的變化,尤其是要求畢業(yè)生通過的英語四六級(jí)。
數(shù)據(jù)挖掘是從大規(guī)模的數(shù)據(jù)中挖掘出有價(jià)值、用戶感興趣的并對(duì)決策有指導(dǎo)的知識(shí)和規(guī)則。數(shù)據(jù)挖掘需要經(jīng)過數(shù)據(jù)采集、預(yù)處理、分析、結(jié)果評(píng)價(jià)等過程。采用的算法主要有關(guān)聯(lián)規(guī)則、人工神經(jīng)網(wǎng)絡(luò)、決策樹方法、模糊論方法、遺傳算法、粗糙集方法貝葉斯模型等。
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中運(yùn)用最廣泛的研究方法之一,可以用來發(fā)現(xiàn)事物之間的潛在聯(lián)系。關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘過程主要包含兩個(gè)階段:第一階段是必須先從原數(shù)據(jù)中找出高頻項(xiàng)目組,第二階段是由這些高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則。
根據(jù)關(guān)聯(lián)規(guī)則定義可以知道,規(guī)則A=>B的支持度定義為P(AUB),表示A、B同時(shí)出現(xiàn)的可能性。規(guī)則A=>B的置信度定義為包含A的事務(wù)的同時(shí)也包含B的可能性,計(jì)算方法為P(B|A)。
Apriori算法是數(shù)據(jù)挖掘算法中被廣泛應(yīng)用到工程中的一種基于先驗(yàn)知識(shí)的,布爾型的關(guān)聯(lián)算法。它利用頻繁項(xiàng)集的所有子集是非空項(xiàng)集的性質(zhì),降低搜索次數(shù),采用逐層迭代的搜索方法,首先產(chǎn)生產(chǎn)生頻繁一項(xiàng)集L1,根據(jù)L1產(chǎn)生頻繁二項(xiàng)集L2,依次根據(jù)前一次的頻繁項(xiàng)集生成本次的頻繁項(xiàng)集,循環(huán)處理至沒有最大項(xiàng)目集產(chǎn)生。其中,從L1引出L2的過程有兩個(gè)步驟是連接和剪枝。連接指的是為找出Lk,通過將Lk-1與自身連接產(chǎn)生候選k項(xiàng)集的集合Ck。剪枝指為了壓縮Ck,即Lk的超集,利用Apriori算法任一頻繁項(xiàng)集的所有非空子集也必須是頻繁的性質(zhì),判斷某個(gè)候選的非空子集是否頻繁,如否,則該候選肯定也不是頻繁的,便將其從Ck中刪除。其中算法中min_sup代表最小置信度。
雖然在理論和工程應(yīng)用中Apriori算法比較成熟,但是仍有缺陷。在計(jì)算項(xiàng)集支持度時(shí),對(duì)全部記錄進(jìn)行了掃描比較,如果是一個(gè)大規(guī)模數(shù)據(jù)庫,這種掃描比較會(huì)加重計(jì)算機(jī)系統(tǒng)的I/O負(fù)載。因此,非常有必要設(shè)計(jì)一種能夠減少這種系統(tǒng)I/O開銷的算法。
對(duì)某一個(gè)元素成為K維項(xiàng)目集中的一個(gè)元素,該元素一定得在k-1階頻繁項(xiàng)目集中的計(jì)數(shù)次數(shù)大于K-1個(gè),否則不能生成K維項(xiàng)目集,將計(jì)數(shù)個(gè)數(shù)不到k-1的,就事先刪除這個(gè)元素,從而排除由這個(gè)元素引起的大規(guī)格的所有組合。
改進(jìn)算法的具體步驟是:
(1)統(tǒng)計(jì)所有的含一個(gè)元素的項(xiàng)目集出現(xiàn)的頻率;
(2)找到支持度da b于置信度的項(xiàng)目集,即找到頻繁1-項(xiàng)集,同時(shí)產(chǎn)生C′1;
(3)開始從第二幕循環(huán)處理一直到?jīng)]有頻繁項(xiàng)目集產(chǎn)生截止。其中,循環(huán)的過程實(shí)在地k步分兩個(gè)階段:
①一個(gè)階段是產(chǎn)生一個(gè)函數(shù)Apriori_gen,通過k-1不中長生的頻繁項(xiàng)目集Lk-1,來生成候選項(xiàng)目集Ck,并產(chǎn)生C′k;
②第二階段,通過遍歷C′k,計(jì)算候選項(xiàng)目集Ck的支持度。該算法中C′k是一個(gè)集合,Xk代表在事務(wù)中表示為TID,潛在的頻繁k-項(xiàng)集。當(dāng)K=1,C′1和數(shù)據(jù)庫是一致的;當(dāng)k>1時(shí),C′k由算法得到,這時(shí)集合C′k中的元素和事務(wù)T是一致的。如果,某個(gè)事務(wù)不包含其他候選k項(xiàng)集,那么C′k中沒有這個(gè)事務(wù)的目錄。所以,C′k的數(shù)據(jù)一定不大于數(shù)據(jù)庫中事物的數(shù)據(jù)。
本文的數(shù)據(jù)源來自哈爾濱師范大學(xué)的呼蘭學(xué)院計(jì)算機(jī)專業(yè)的學(xué)生的英語入學(xué)成績、大一、大二、大三、大四英語成績。利用改進(jìn)的Apriori算法分析入學(xué)英語成績和在校英語成績,對(duì)入校英語成績和在校英語成績對(duì)英語四級(jí)成績的影響程度作了進(jìn)一步分析,得到相應(yīng)的結(jié)論。
已知數(shù)據(jù)來源于哈師大呼蘭學(xué)院官網(wǎng),具體內(nèi)容如下:
(1)入學(xué)成績及支持度情況:入學(xué)成績=優(yōu)的支持度為14.81,入學(xué)成績=良的支持度為33.33,入學(xué)成績=中的支持度為40.74,入學(xué)成績=差的支持度為11.11。
(2)英語四級(jí)成績及支持度情況:英語四級(jí)通過成績通過的支持度為62.96,沒有通過的支持度為37.04
(3)入學(xué)英語成績及四級(jí)成績項(xiàng)集情況:入學(xué)成績=優(yōu)&&英語四級(jí)通過的支持度為7.41,入學(xué)成績=優(yōu)&&英語四級(jí)不通過的支持度為7.41,入學(xué)成績=良&&英語四級(jí)通過的支持度為29.63,入學(xué)成績=良&&英語四級(jí)不通過支持度為3.66。入學(xué)成績=中&&英語四級(jí)通過的支持度為18.52,入學(xué)成績=中&&英語四級(jí)不通過的支持度為22.22,入學(xué)成績=差&&英語四級(jí)通過的支持度為7.41,入學(xué)成績=差&&英語四級(jí)不通過的支持度為3.65。其中假設(shè)置信度設(shè)置為50%,則可以得到如下規(guī)則。
運(yùn)用關(guān)聯(lián)規(guī)則得到如下結(jié)論:
(1)入學(xué)英語成績和四級(jí)成績的置信度情況:
a)入學(xué)成績=優(yōu)=>英語四級(jí)通過的置信度為50%
b)入學(xué)成績=優(yōu)=>英語四級(jí)不通過的置信度為50%
c)入學(xué)成績=良=>英語四級(jí)通過的置信度為89%
d)入學(xué)成績=中=>英語四級(jí)不通過的置信度為55%
e)入學(xué)成績=差=>英語四級(jí)通過的置信度為67%
(2)在校英語成績和英語四級(jí)置信度情況:
a)在校成績=優(yōu)=>英語四級(jí)通過的置信度為98%
b)在校成績=良=>英語四級(jí)通過的置信度為68%
c)在校成績=中=>英語四級(jí)通過的置信度為64%
d)在校成績=差=>英語四級(jí)不通過的置信度為99%
由以上關(guān)聯(lián)規(guī)則我們發(fā)現(xiàn):
(1)入校英語成績?yōu)閮?yōu)的學(xué)生,英語四級(jí)考試通過的置信度為0.5,而入校英語成績?yōu)椴畹膶W(xué)生,英語四級(jí)考試通過置信度為0.67;入校英語成績?yōu)榱嫉膶W(xué)生,英語四級(jí)考試通過的置信度為0.89;
(2)在校英語成績差的學(xué)生,英語四級(jí)考試不通過的置信度為0.99,而在校英語成績?yōu)閮?yōu)的學(xué)生英語四級(jí)通過的置信度也為0.98。
由(1)、(2)我們可以得出如下結(jié)論:一個(gè)學(xué)生入校的英語成績對(duì)學(xué)生的英語四級(jí)成績有一定的影響,但并不是決定因素,然而在校的英語成績對(duì)四級(jí)考試的通過與否起著決定性的作用,因此應(yīng)教育學(xué)生入學(xué)后努力學(xué)學(xué)習(xí)英語,而教學(xué)管理部門應(yīng)注意加強(qiáng)學(xué)生在校的英語教學(xué),以使得學(xué)生順利的通過英語四級(jí)考試。
根據(jù)2.4中Apriori算法對(duì)呼蘭學(xué)院學(xué)生的入學(xué)、在校、四級(jí)英語成績進(jìn)行數(shù)據(jù)挖掘,得到置信度大于0.5的結(jié)果為:{入學(xué)英語=良,在校英語=優(yōu),四級(jí)成績=通過}的置信度為87%。
通過改進(jìn)的Apriori算法可以看出入學(xué)英語良、在校英語優(yōu)、四級(jí)成績通過的同學(xué)可以到達(dá)的置信度為87%,足以相信入學(xué)英語良并且在校英語成績優(yōu)的同學(xué)通過四級(jí)的可能性非常大,不用擔(dān)心這部分同學(xué)的四級(jí)通過情況。
本文利用當(dāng)今非常流行的數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)校教育工作進(jìn)行支持指導(dǎo),對(duì)學(xué)校教育決策給予了非常有利的幫助。文中主要利用的是關(guān)聯(lián)規(guī)則及Apriori算法,對(duì)入學(xué)英語成績、在校英語成績對(duì)四級(jí)英語成績的影響關(guān)系進(jìn)行關(guān)聯(lián)分析,并運(yùn)用Apriori算法進(jìn)行分析,得到非常有指導(dǎo)意義的指導(dǎo)方向。本文最后給出指導(dǎo)意見:教學(xué)管理部門應(yīng)針對(duì)入學(xué)英語成績好而容易驕傲的學(xué)生多加注意和管理,針對(duì)入學(xué)英語成績不好的同學(xué)多加鼓勵(lì),并讓同學(xué)們也明白在校英語成績才是對(duì)英語四級(jí)成績起著決定性的作用。
[1]陳莉,焦李成.Internet/Web數(shù)據(jù)挖掘研究現(xiàn)狀及最新進(jìn)展[J].西安電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,28(1):3.
[2]員巧云,程剛.近年來我國數(shù)據(jù)挖掘研究綜述[J].情報(bào)學(xué)報(bào),2015,24(2):250-256.
[3]于立紅,張建偉.基于數(shù)據(jù)挖掘的高職生成績分析與預(yù)測[J].鄭州輕工學(xué)院學(xué)報(bào),2006,21(3):77-79.
[4]章芬芬.關(guān)聯(lián)規(guī)則挖掘在個(gè)性化學(xué)習(xí)系統(tǒng)設(shè)計(jì)中的應(yīng)用[J].韶關(guān)學(xué)院學(xué)報(bào)(自然科學(xué)版),2010,26(9):36-40.
[5]顏雪松,蔡之華.一種基于Apriori的高效關(guān)聯(lián)規(guī)則挖掘算法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,38(10):209-211.
[6]丁元明.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)質(zhì)量評(píng)估中的應(yīng)用研究[D].上海:華東師范大學(xué),2005:15.