(渭南師范學(xué)院計(jì)算機(jī)學(xué)院;計(jì)算機(jī)工程技術(shù)中心 陜西 渭南 714000)
(一)數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘是指從數(shù)據(jù)集中識(shí)別出新穎的、有效的、潛在有用的以及最終可理解模式的高級(jí)處理過(guò)程。
(二)關(guān)聯(lián)規(guī)則概述
關(guān)聯(lián)規(guī)則屬于數(shù)據(jù)挖掘的一種,關(guān)聯(lián)規(guī)則挖掘是發(fā)掘支持度與置信度大于用戶設(shè)定的最小取值的有效性規(guī)則[2]。關(guān)聯(lián)規(guī)則挖掘分兩步:第一步找出所有頻繁項(xiàng)集,即找出所有出現(xiàn)頻率大于等于預(yù)定義的最小支持度的項(xiàng)集;第二步由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則。
Aprior算法是Agrawal等人于1994年提出的一種挖掘顧客交易數(shù)據(jù)庫(kù)中項(xiàng)集間關(guān)聯(lián)規(guī)則的方法,此算法是一種基于兩階段頻繁項(xiàng)目集思想的遞推算法,它在分類上屬于單層、單維、布爾關(guān)聯(lián)規(guī)則,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)目集,簡(jiǎn)稱頻集[4]。
(一)算法的基本思想
Apriori算法步驟:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣;然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,規(guī)則應(yīng)滿足最小支持度和最小可信度的要求。
(二)Apriori核心算法分析
為了生成所有頻集,使用遞推方法如下所示:
1.L1={large 1-itemsets};
2.for(k=2;Lk-1¹F;k++)do begin
3.Ck=apriori-gen(Lk-1);//新的候選集
4.for all transactions tÎD do begin
5.Ct=subset(Ck,t);//事務(wù)t中包含的候選集
6.for all candidates cÎCtdo
7.c.count++;
8.end
9.Lk={cÎCk|c.count³minsup}
10.end
11.Answer=Ck∪Lk;
(一)教學(xué)管理系統(tǒng)模塊
1.學(xué)生信息模塊。主要包括姓名、學(xué)生性別、出生日期、專業(yè)名稱、班級(jí)、籍貫、學(xué)號(hào)、特長(zhǎng)等。2.教師信息模塊。主要包括招聘姓名、教師性別、工號(hào)、出生日期、籍貫、課程、教師職稱等。3.班級(jí)信息模塊。主要包括班級(jí)名、班級(jí)編號(hào)、輔導(dǎo)員、班級(jí)人數(shù)等。4.課程信息模塊。主要包括課程名、課程編號(hào)、教師編號(hào)、班級(jí)、學(xué)號(hào)、學(xué)分、教室號(hào)、上課時(shí)間等。5.成績(jī)信息模塊。主要包括課程號(hào)、課程名、學(xué)號(hào)、分?jǐn)?shù)等。6.評(píng)價(jià)信息模塊。主要包括課程編號(hào)、課程名稱、班級(jí)、教師、學(xué)號(hào)、評(píng)價(jià)結(jié)果等。
(二)挖掘模塊具體實(shí)現(xiàn)
1.數(shù)據(jù)凈化。對(duì)教學(xué)管理系統(tǒng)中的信息數(shù)據(jù)進(jìn)行處理,挖掘有用的數(shù)據(jù)。主要信息包括學(xué)生性別、班級(jí)人數(shù)、教室號(hào)、上課時(shí)間、課程名、專業(yè)名稱、班級(jí)、籍貫、特長(zhǎng)、分?jǐn)?shù)、教師職稱、評(píng)價(jià)結(jié)果等。表1給出了其中一條用戶的記錄。
表1 字段名含義
2.數(shù)據(jù)清理。數(shù)據(jù)清理是指對(duì)不完整的、不一致的、無(wú)用的和臟的記錄進(jìn)行刪除,將處理后的有用的數(shù)據(jù)保存在數(shù)據(jù)表之中。
3.使用Apriori算法進(jìn)行數(shù)據(jù)挖掘。使用Apriori算法對(duì)教學(xué)管理系統(tǒng)中有用的數(shù)據(jù)進(jìn)行挖掘,輸入事務(wù)數(shù)據(jù)表、最小支持度和最小置信度,輸出頻繁項(xiàng)集。
4.模式分析。使用Apriori挖掘算法找出學(xué)生、教師和學(xué)校感興趣的模式和規(guī)則。關(guān)聯(lián)規(guī)則挖掘的任務(wù)是給定一個(gè)事物數(shù)據(jù)庫(kù)D求出所有滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。我們?cè)O(shè)定最小支持度為δ=10%,最小置信度為γ=25%。
可以看出:會(huì)計(jì)專業(yè)女生較多,周二3-4節(jié)課較多;從規(guī)則B可以看出:計(jì)科專業(yè)的男生較多,并且選修Java課程的人數(shù)較多,從規(guī)則C和D可以看出:21-40人的班級(jí)上課一般都安排在1號(hào)教學(xué)樓2層上課;從規(guī)則E可以看出:大多數(shù)數(shù)媒的男生都選修了周一1-2節(jié)的C++課程;從規(guī)則F可以看出:選修大學(xué)物理的男生較多。
數(shù)據(jù)挖掘技術(shù)是一門(mén)具有遠(yuǎn)大前景的數(shù)據(jù)處理與數(shù)據(jù)分析技術(shù),數(shù)據(jù)挖掘技術(shù)將會(huì)被應(yīng)用于不同的行業(yè)中,同樣也會(huì)在教學(xué)管理中發(fā)揮不可估量的作用。本文利用Apriori算法對(duì)教學(xué)管理系統(tǒng)中的數(shù)據(jù)進(jìn)行挖掘分析,從中發(fā)現(xiàn)各專業(yè)的選課情況和教室安排情況等有價(jià)值的信息。