王成勇
摘要:關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域研究的熱點(diǎn)問(wèn)題,其中Apriori算法是經(jīng)典的關(guān)聯(lián)規(guī)則算法。將關(guān)聯(lián)規(guī)則Apriori算法應(yīng)用到學(xué)生成績(jī)分析中,挖掘出課程與課程之間的相互關(guān)系,尋找各方面影響學(xué)生成績(jī)的因素,發(fā)現(xiàn)隱藏在數(shù)據(jù)背后有價(jià)值的信息,從而為學(xué)生選課和教師教學(xué)以及教學(xué)管理工作等提供輔助性的建議與決策。
Abstract: Association rule mining is a hot topic in the field of data mining. Apriori algorithm is a classical association rule algorithm. This paper applies the association rule apriori algorithm to analyze student achievement data, digs out the relationship between the course and the curriculum, finds out the factors that affect the student achievement in all aspects, and finds the hidden information behind the data, so as to provide supplementary advice and decision-making for student course selection, teacher teaching and teaching management.
關(guān)鍵詞:學(xué)生成績(jī)分析;數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則技術(shù);Apriori算法
Key words: student achievement analysis;data mining;association rule technique;Apriori algorithm
中圖分類(lèi)號(hào):TP311.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-4311(2018)05-0171-03
0 引言
近年來(lái)隨著信息技術(shù)的飛速發(fā)展,數(shù)據(jù)資源變得越來(lái)越豐富,在高校的教學(xué)管理系統(tǒng)中存儲(chǔ)了大量的學(xué)生成績(jī)數(shù)據(jù)信息,但由于缺乏必要的技術(shù)手段,因此只能對(duì)這些數(shù)據(jù)信息進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)、備份和查詢。隱藏在這些大量成績(jī)數(shù)據(jù)背后的信息不能得到有效的利用,不利于人才的培養(yǎng)和教學(xué)質(zhì)量的提高,因而迫切需要有更新的技術(shù)方法對(duì)這些數(shù)據(jù)進(jìn)行處理分析。
關(guān)聯(lián)規(guī)則挖掘[1-2]就是一門(mén)從歷史數(shù)據(jù)集中發(fā)現(xiàn)隱含模式,從海量數(shù)據(jù)集中發(fā)現(xiàn)潛在的有價(jià)值信息的技術(shù)方法,它反映了一個(gè)事件與其他事件直接依賴或關(guān)聯(lián)的知識(shí),這幾年已經(jīng)成為數(shù)據(jù)挖掘技術(shù)研究領(lǐng)域的熱門(mén)話題[3]。本文運(yùn)用關(guān)聯(lián)規(guī)則Apriori算法挖掘?qū)W生成績(jī)數(shù)據(jù),可以挖掘出課程與課程之間的相互關(guān)系、影響學(xué)生成績(jī)的因素等一些有價(jià)值的信息,這些信息可為教學(xué)及管理工作提供支持性的建議,同時(shí)也為更加合理的制定人才培養(yǎng)方案和提高教育教學(xué)質(zhì)量提供科學(xué)依據(jù)。
1 關(guān)聯(lián)規(guī)則基本理論
2 關(guān)聯(lián)規(guī)則挖掘算法
2.1 尋找頻繁項(xiàng)目集
在對(duì)學(xué)生成績(jī)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析時(shí),這里采用了Apriori算法來(lái)尋找全部的頻繁項(xiàng)目集。Apriori算法是一種重要的關(guān)聯(lián)規(guī)則挖掘算法,它使用了一種被稱為逐層搜索的迭代算法,k-項(xiàng)集用于搜索(k+1)-項(xiàng)集。首先需要掃描事物數(shù)據(jù)庫(kù),累積每個(gè)項(xiàng)的計(jì)數(shù),然后收集滿足最小支持度的項(xiàng),從而找出頻繁1-項(xiàng)目集的集合L1。L1用于尋找頻繁2-項(xiàng)目集的集合L2,而L2用于尋找頻繁3-項(xiàng)目集的集合L3,如此下去,直至不能找到頻繁k-項(xiàng)目集Lk為止[4]。
運(yùn)用頻繁k-項(xiàng)集用于搜索(k+1)-項(xiàng)集是Apriori算法的核心,該步驟分為連接步和剪枝步:
①連接步驟:為了尋找Lk,在k(k>1)次掃描數(shù)據(jù)庫(kù)時(shí),通過(guò)Lk-1與自身連接產(chǎn)生候選k-項(xiàng)集的集合Ck。
②剪枝步驟:由于Ck是Lk的超集,即Ck的成員可能是也可能不是頻繁的。需要掃描全部的事務(wù)數(shù)據(jù)庫(kù),確定Ck中每個(gè)候選的計(jì)數(shù),判斷是否大于或者等于最小支持度計(jì)數(shù),如果是,那么便認(rèn)為該候選是頻繁的。為了壓縮Ck,可以運(yùn)用Apriori性質(zhì):任何一個(gè)頻繁項(xiàng)集的全部非空子集也一定是頻繁的,若某個(gè)候選的非空子集不是頻繁的,那么該候選項(xiàng)集肯定也不是頻繁的,從而可以將其從Ck中刪去。
Apriori算法描述如下[5-6]:
輸入:數(shù)據(jù)庫(kù)D;最小支持度min_Support
輸出:D中的頻繁項(xiàng)目集L
方法:
L1=find_frequent_1-itemsets(D);;
for(k=2;Lk-1≠Φ;k++){
Ck=apriori_gen(Lk-1,min_Support)
for each transaction t∈D{
Ct=subset(Ck,t);
for each candidate c∈Ct
c.count++;
}
Lk={c∈Ck|c.count?叟min_Support}
}
return L=UkLk
2.2 生成強(qiáng)關(guān)聯(lián)規(guī)則
對(duì)于上面得到的每個(gè)頻繁項(xiàng)目集L,生成強(qiáng)關(guān)聯(lián)規(guī)則的步驟如下:
①生成L的所有非空子集;
②對(duì)于L的每個(gè)非空子集S,令R=L-S。
如果有
?叟Min_Confidence
即S?圯R滿足最小置信度閾值,那么輸出關(guān)聯(lián)規(guī)則S?圯R。又因?yàn)檫@個(gè)規(guī)則是從頻繁項(xiàng)目集L中生成的,因此一定滿足最小支持度閾值,所以這個(gè)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則。根據(jù)上面的兩個(gè)步驟,就可以得出事物數(shù)據(jù)庫(kù)D的全部強(qiáng)關(guān)聯(lián)規(guī)則。endprint
3 應(yīng)用Apriori算法分析學(xué)生成績(jī)
3.1 挖掘目標(biāo)與流程
關(guān)聯(lián)規(guī)則挖掘必須具有針對(duì)性,也就是說(shuō)挖掘目標(biāo)要明確,本文希望通過(guò)對(duì)學(xué)生成績(jī)數(shù)據(jù)信息進(jìn)行研究,找到滿足最小支持度和最小置信度的強(qiáng)關(guān)聯(lián)規(guī)則,挖掘出課程與課程之間的相互關(guān)系,并期望以此結(jié)果來(lái)指導(dǎo)教育教學(xué)工作。其中關(guān)聯(lián)規(guī)則挖掘的具體過(guò)程如圖1所示。
3.2 數(shù)據(jù)采集
關(guān)聯(lián)規(guī)則挖掘需要豐富的數(shù)據(jù)信息作為基礎(chǔ)。本研究選取學(xué)生成績(jī)數(shù)據(jù)庫(kù)中8門(mén)專業(yè)課程作為研究對(duì)象,選取1000條數(shù)據(jù),用以挖掘課程之間的關(guān)聯(lián)性。學(xué)生成績(jī)信息數(shù)據(jù)如表1所示。其中Xuehao為學(xué)號(hào),A~H分別代表8門(mén)課程。
3.3 數(shù)據(jù)的處理
通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行簡(jiǎn)單的泛化處理,可以得到更加豐富的數(shù)據(jù)信息[7-8]。在這部分將對(duì)成績(jī)數(shù)據(jù)進(jìn)行離散化,成績(jī)達(dá)到90分及以上的代表“優(yōu)秀”、成績(jī)?cè)?0分(包括80分)到90分之間的代表“良好”、成績(jī)?cè)?0分(包括70分)到80分之間的代表“中等”、成績(jī)?cè)?0分(包括60分)到70分之間的代表“及格”、成績(jī)?cè)?0分以下的代表“不及格”,其中“優(yōu)秀、良好、中等、及格、不及格”分別用數(shù)字“1、2、3、4、5”表示,離散化后的數(shù)據(jù)如表2所示。
3.4 挖掘關(guān)聯(lián)規(guī)則
這一步的關(guān)鍵是選擇恰當(dāng)?shù)年P(guān)聯(lián)規(guī)則挖掘算法對(duì)數(shù)據(jù)進(jìn)行分析處理。這里采用關(guān)聯(lián)規(guī)則Apriori算法對(duì)離散化后的學(xué)生成績(jī)數(shù)據(jù)信息進(jìn)行挖掘。設(shè)定最小支持度為25%、最小置信度為60%。運(yùn)行關(guān)聯(lián)規(guī)則Apriori算法程序后,得到的部分實(shí)驗(yàn)結(jié)果如表3所示。
3.5 結(jié)果分析
對(duì)于挖掘得到的強(qiáng)關(guān)聯(lián)規(guī)則,需要對(duì)結(jié)果進(jìn)行分析。根據(jù)表3可知,規(guī)則1和2說(shuō)明了學(xué)好B課程對(duì)于學(xué)好G課程有著重要的影響,在安排課程的時(shí)候,要將B課程排在前面,同時(shí)教師在教學(xué)過(guò)程中要督促學(xué)生學(xué)好B課程。
規(guī)則3說(shuō)明如果A課程和C課程學(xué)的好,那么F課程也就學(xué)的好一些。從規(guī)則3的置信度來(lái)分析,其置信度為87%,說(shuō)明A、C課程與F課程的關(guān)聯(lián)程度比較強(qiáng)。在課程的設(shè)置方面,A、C課程需要排在F課程的前面。
規(guī)則4和5說(shuō)明了D、E、H三門(mén)課程關(guān)聯(lián)比較緊密,并且D課程是最關(guān)鍵的,教師在講解時(shí)要仔細(xì)講解,讓學(xué)生打好基礎(chǔ)。從表3中還可以得出,這三門(mén)課程的開(kāi)課順序應(yīng)該為D、H、E,同時(shí)盡量要將課程安排在連續(xù)的三個(gè)學(xué)期。其它規(guī)則的分析方法也是如此,決策者可以根據(jù)具體的實(shí)際情況借鑒參考。
4 結(jié)論
關(guān)聯(lián)規(guī)則挖掘技術(shù)是一種非常有用的技術(shù)工具,可以廣泛的應(yīng)用于教學(xué)管理過(guò)程中,它能夠挖掘出學(xué)生各門(mén)課程成績(jī)之間的影響程度,找到教學(xué)中各方面影響學(xué)生學(xué)習(xí)成績(jī)的因素,發(fā)現(xiàn)隱藏在成績(jī)背后的潛在規(guī)律,幫助我們更好地了解課程的設(shè)置順序以及課時(shí)安排是否科學(xué)合理,從而為提高學(xué)校的教學(xué)管理和人才培養(yǎng)質(zhì)量起到積極的促進(jìn)作用。
參考文獻(xiàn):
[1]梁循.數(shù)據(jù)挖掘算法與應(yīng)用[M].北京大學(xué)出版社,2006.
[2]Liu J, Liu B, Liu J. Association Rule Mining Algorithm Based On Fuzzy Association Rules Lattice and Apriori[J]. Journal of Convergence Information Technology, 2013, 8(8):399-406.
[3]Chen W, JiaNan. Teaching analysis based on association rule mining[C]// Conference Anthology, IEEE. IEEE, 2013:1-3.
[4]韓天鵬.關(guān)聯(lián)規(guī)則挖掘算法研究及其應(yīng)用[D].中南民族大學(xué),2008.
[5]Cheng M, Xu K, Gong X. Research on audit log association rule mining based on improved Apriori algorithm[C]// IEEE International Conference on Big Data Analysis. IEEE, 2016:1-7.
[6]Yang Q. The Application of Apriori Algorithm in the Analysis of Excel Skill Test Results[J]. Guide of Science & Education, 2013.
[7]李忠嘩,王鳳利,何丕廉,等.關(guān)聯(lián)規(guī)則挖掘在課程相關(guān)分析中的應(yīng)用[J].河北農(nóng)業(yè)大學(xué)學(xué)報(bào),2010,33(3):116-119.
[8]黃秋勇.基于關(guān)聯(lián)規(guī)則挖掘的課程設(shè)置合理性分析[J].智能計(jì)算機(jī)與應(yīng)用,2010(5):57-59.endprint