龍鈞宇
摘 ?要: 針對高校學(xué)生成績數(shù)據(jù)庫的特點,采用基于壓縮矩陣的Apriori算法來分析學(xué)生各學(xué)科成績之間的相關(guān)性。該算法可以使矩陣更小,并減少掃描數(shù)據(jù)庫和壓縮矩陣的次數(shù)。通過分析學(xué)生各學(xué)科成績的關(guān)聯(lián),找出有意義的關(guān)聯(lián)規(guī)則,可以為教師進行教學(xué)活動及教學(xué)管理人員制定教學(xué)計劃、進行教學(xué)管理等提供參考。
關(guān)鍵詞: 壓縮矩陣; Apriori算法; 數(shù)據(jù)挖掘; 成績相關(guān)性
中圖分類號: TN911?34 ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A ? ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2014)24?0047?05
Research on correlation analysis of college students achievements based on Apriori algorithm with compressed matrix
LONG Jun?yu
(Guangdong Vocational Institute of Technology, Zhuhai 519090, China)
Abstract: Aiming at the characteristics of the college students' achievement database, Apriori algorithm based on the compressed matrix is used to analyse the correlation of the students achievements of each subjects. By this algorithm, the scale of the matrix becomes smaller, and the times of scanning the database and the compressed matrix can be reduced. By correlation analysis of the students achievements of each subjects, the meaningful correlation rules can be found out, and the references can be provided for teachers to carry out teaching activities and for the teaching administrators to make teaching plans and teaching management.
Keywords: compressed matrix; Apriori algorithm; data mining; achievement correlation
0 ?引 ?言
近年來隨著高校不斷擴張,在校學(xué)生人數(shù)不斷增加,給高校教學(xué)及管理工作帶來了嚴(yán)峻的考驗。對高校而言,教學(xué)工作始終是核心工作,而學(xué)生的學(xué)習(xí)成績作為學(xué)校教學(xué)質(zhì)量和學(xué)生掌握知識程度的直觀體現(xiàn),一直以來都受到高校學(xué)生、老師及教學(xué)管理人員的共同關(guān)注。目前,許多高校都建立了自己的成績管理系統(tǒng),但這些數(shù)據(jù)庫大多只能做一些數(shù)據(jù)備份、修改、統(tǒng)計和查詢工作,對學(xué)生的成績分析也只限于簡單的統(tǒng)計分析,而對成績分?jǐn)?shù)后真正影響學(xué)生成績的因素卻無法分析出來[1]。利用數(shù)據(jù)挖掘技術(shù)對學(xué)生的學(xué)習(xí)成績進行分析,不但可以找出隱含在學(xué)生成績數(shù)據(jù)背后的一些有價值的信息,而且還能據(jù)此分析課程間的相互聯(lián)系,為學(xué)生選課、教師進行教學(xué)活動及教學(xué)管理人員進行課程設(shè)置、制定教學(xué)計劃及進行教學(xué)評價等提供參考依據(jù),進而起到提高教學(xué)質(zhì)量、增強學(xué)校競爭力的目的。
Apriori算法是數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則中的經(jīng)典算法,該算法廣泛應(yīng)用于各種領(lǐng)域,但該算法存在兩個性能瓶頸問題:一是需要大量掃描事務(wù)數(shù)據(jù)庫,需要很大的I/O負(fù)載;二是可能產(chǎn)生大量的候選項集,需耗費大量的時間處理[2?3]。近年來,已經(jīng)有很多基于Apriori算法的改進和優(yōu)化,例如基于散列技術(shù)、事務(wù)壓縮、抽樣、動態(tài)項集計數(shù)等[4]。也有許多研究人員將Apriori算法應(yīng)用到高校成績管理系統(tǒng)中,并針對高校成績數(shù)據(jù)庫的特點對Apriori算法作出了改進和優(yōu)化[1?7],但Apriori算法在高校成績數(shù)據(jù)庫系統(tǒng)中的分析應(yīng)用還是一個值得繼續(xù)深入研究和探討的問題。
雖然高校成績數(shù)據(jù)庫里的數(shù)據(jù)信息多。但高等學(xué)校專業(yè)較多,大多數(shù)專業(yè)課程往往只在個別或者部分專業(yè)開設(shè),基礎(chǔ)課程往往也隨著專業(yè)的不同各有側(cè)重。因此,就某一專業(yè)或某一班級而言,成績數(shù)據(jù)量并不非常大[5]。采用基于矩陣的Apriori算法[5?6]只需掃描一次數(shù)據(jù)庫,將數(shù)據(jù)一次性讀入一個二維數(shù)組,減少I/O負(fù)載,提高程序運行的效率。因此,對高校成績數(shù)據(jù)庫而言,基于矩陣的Apriori算法可以解決Apriori算法的瓶頸問題。但基于矩陣的Apriori算法也存在需要多次掃描二維矩陣,以及在連接過程中矩陣的規(guī)模過于龐大的問題。因此,本文根據(jù)高校成績數(shù)據(jù)庫的特點,采用基于壓縮矩陣的Apriori算法對高校成績數(shù)據(jù)庫進行數(shù)據(jù)挖掘,該算法可以減少掃描矩陣的次數(shù),降低連接過程中矩陣的規(guī)模,并能有效地對成績相關(guān)性規(guī)律進行分析和研究。
1 ?基于壓縮矩陣的Apriori算法
1.1 ?基本算法原理
關(guān)聯(lián)規(guī)則挖掘問題描述如下[6?7]:設(shè)[I=][I1,I2,…,Im]是項目的集合,任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,其中每一個事務(wù)T都是項的集合,使得[T?I]。關(guān)聯(lián)規(guī)則是形如[A?B]的蘊含式,其中[A?I,B?I],并且[A∩B=?]。定義支持度為D中包含[A?B]的百分比,置信度為D中包含A的事務(wù)同時也包含B的百分比。即:
[support(A?B)=P(A?B)]
[confidence(A?B)=P(BA)]
如果項集的出現(xiàn)頻率大于或等于最小支持度min_support與D中事務(wù)總數(shù)的乘積,則稱它為頻繁項集。
基于壓縮矩陣的Apriori算法是由付沙等在基于矩陣的Apriori算法基礎(chǔ)上,提出的一種算法[7],羅丹等針對該算法的不足,做出了進一步的改進[8]。該算法涉及到關(guān)聯(lián)規(guī)則挖掘算法的如下性質(zhì)和定理:
性質(zhì)1:頻繁項集的所有非空子集都必須也是頻繁項集。
推論1:如果頻繁k項集還能產(chǎn)生頻繁(k+1)項集,則頻繁k項集中的個數(shù)必大于k。
性質(zhì)2:非頻繁項集的任一超集必定也是非頻繁項集。
性質(zhì)3:不包含任何頻繁k項集的事務(wù)不可能包含任何頻繁(k+1)項集。
定理1:如果數(shù)據(jù)庫中某條事務(wù)的長度為k,那么這條事務(wù)就不可能包含任何項數(shù)大于k的頻繁項集。
定理2:在由(k-1)項集生成k項集時,當(dāng)(k-1)項集作自身連接時,若兩個項集的前(k-2)項不同,則放棄該兩個項集的連接運算,因為產(chǎn)生的項集不是重復(fù)的就是非頻繁項集。
推論2:將每個事務(wù)及事務(wù)中的項目集按照字典順序排序。對于兩個(k-1)頻繁項目集Ix和Iy,如果Ix和Iy不能連接,則Ix和Iy之后的所有項目集都不需要進行連接判斷。
1.2 ?具體算法流程
基于壓縮矩陣Apriori算法的具體流程如下[8]:
(1) 掃描事物數(shù)據(jù)庫,建立二維布爾矩陣。矩陣的每一行為一個事務(wù),列則為事務(wù)的項集。對相同的事務(wù)進行計數(shù),計數(shù)的結(jié)果即為矩陣每一行的權(quán)值。并建立AE數(shù)組進行存放。這樣對事務(wù)數(shù)據(jù)進行了壓縮,確保矩陣中無重復(fù)行。
(2) 建立數(shù)組m,記錄每行1的個數(shù),建立數(shù)組n,統(tǒng)計每列1的個數(shù)。
(3) 壓縮矩陣:
① 掃描矩陣,若一個項集不能與它相鄰的項集進行連接運算,則刪除該項集對應(yīng)的列向量,并對數(shù)組m的值進行相應(yīng)的修改;
② 掃描數(shù)組m,若其值小于等于1,則刪除該行向量,對數(shù)組n的值進行相應(yīng)的修改;
③ 掃描數(shù)組n,若其值小于最小支持度計數(shù),則刪除該列向量,對數(shù)組m的值進行相應(yīng)的修改。重復(fù)步驟②、步驟③,直到矩陣無變化為止。剩下的行和列生成新的矩陣。
(4) 生成頻繁項集:清空數(shù)組m和n,對可連接的項集對應(yīng)的行按位進行與運算,并與AE數(shù)組中對應(yīng)權(quán)值相乘,其加權(quán)和為項集的支持度計數(shù),若其值大于等于最小支持度計數(shù),則保存該列向量,并將該向量按位累加到數(shù)組n中,對應(yīng)支持度計數(shù)存入m數(shù)組中,否則舍去。此時,保存下來的列向量所對應(yīng)的項集為所求的頻繁項集。
(5) 根據(jù)推論1,可知頻繁(k-1)項集個數(shù),即矩陣的列數(shù)小于k時,可不用再求k頻繁項集,則算法終止。
2 ?數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理和數(shù)據(jù)離散化兩個步驟。
實際的考試成績往往有期末考試成績和補考成績,在考試時少數(shù)學(xué)生會有缺考、緩考等現(xiàn)象。因此,在分析成績數(shù)據(jù)前必須先對數(shù)據(jù)庫中的成績進行清理。本文將成績數(shù)據(jù)讀入二維矩陣后,只對正??荚嚨某煽冞M行分析,對補考成績及有缺考、緩考等現(xiàn)象導(dǎo)致成績?nèi)鄙俚膶W(xué)生成績予以清除。
由于基于矩陣的Apriori算法采用的是布爾矩陣,因此,在數(shù)據(jù)清理完成后,需將原始成績數(shù)據(jù)離散成布爾型的數(shù)據(jù)。學(xué)生的成績通常有百分制和五級制兩種表示方式。對五級制記分的成績數(shù)據(jù),可將“優(yōu)秀”和“良好”兩個等級的成績統(tǒng)一離散化為“1”(對一些難度較小的課程,可以只將“優(yōu)秀”等級的成績離散化為“1”),其余成績離散化為0;而對百分制成績,將80分以上的成績離散化為“1”,其余為“0”。
本文實驗原始數(shù)據(jù)采用作者所在院校通信專業(yè)某班級一個學(xué)期的期末考試成績。該班級共有52人,本學(xué)期共計6門考試科目。掃描數(shù)據(jù)庫、將數(shù)據(jù)讀入二維矩陣,清除缺考、緩考的2名學(xué)生成績后,最終有效成績數(shù)據(jù)50份。部分成績數(shù)據(jù)如表1所示。成績數(shù)據(jù)離散化后,每個學(xué)生的成績即為一個事務(wù)(TID),可分別用T1,T2,…,Tn表示,而全體考試科目則為一個項目集。為了簡單起見,將不同的科目用項目ID表示,最終6個考試科目形成項目集[I1,I2,I3,I4,I5,I6]。最終離散化的結(jié)果如表2所示。
表1 部分學(xué)生成績樣本
表2 原始成績離散后的結(jié)果
表2中I1~I(xiàn)6分別對應(yīng)高頻電子線路、電子設(shè)計自動化、數(shù)據(jù)通信網(wǎng)絡(luò)及其設(shè)備配通信原理與信號傳輸、網(wǎng)站建設(shè)與網(wǎng)絡(luò)管理和專業(yè)英語6門考試科目)
3 ?關(guān)聯(lián)規(guī)則挖掘及數(shù)據(jù)分析
3.1 ?關(guān)聯(lián)規(guī)則挖掘
原始數(shù)據(jù)離散化后,根據(jù)基于壓縮矩陣Apriori算法的步驟,關(guān)聯(lián)規(guī)則挖掘的步驟如下:
(1) 首先,對相同的事務(wù)進行合并,建立數(shù)組AE,存放每個事務(wù)的權(quán)值(即相同事務(wù)的個數(shù))。合并后的矩陣如表3所示。
表3 合并相同事務(wù)后的壓縮矩陣
注:AE數(shù)組存放每個事務(wù)的權(quán)值,m數(shù)組存放每個項為1的個數(shù)。
設(shè)最小支持度min_support=30%,則最小支持度計數(shù)為:[50×30%=15]。由表3可知,I3(即數(shù)據(jù)通信網(wǎng)絡(luò)及其設(shè)備配置課程)的個數(shù)小于最小支持度計數(shù),應(yīng)予以刪除。將其他5個項重新進行統(tǒng)計,得到的結(jié)果如表4所示(統(tǒng)計后共有20個事務(wù),由于篇幅關(guān)系,這里表4未列完整)??梢钥闯?,相對于原始矩陣,壓縮后的矩陣規(guī)模已經(jīng)明顯減小。
(2) 對表4各列按位采用“與”運算,生成頻繁二項集。同樣,若生成的頻繁二項集中項取值為1的加權(quán)和大于最小支持度計數(shù),則保留該項,否則應(yīng)予以清除。例如,對I1和I2進行“與”運算:I1^I2=1^1×7+1^0×1+…+1^1×1=22,大于最小支持度計數(shù),該項保留,而對I5和I6進行“與”運算:I5^I6=1^1×7+1^0×1+…+0^0×1=12,小于最小支持度計數(shù),則清除該項。建立數(shù)組n,存放每個項取值為1的事務(wù)個數(shù),建立數(shù)組m,存放每個事務(wù)中項為1的個數(shù)。最后得到的頻繁二項集矩陣如表5所示(由于篇幅關(guān)系,這里表5未列完整)。
表4 刪除I3后的壓縮矩陣
表5 頻繁二項集矩陣
對頻繁二項集矩陣?yán)^續(xù)進行壓縮,刪除不能與相鄰項集連接的項集對應(yīng)的列向量。刪除I1^ I2所在的行,對數(shù)組m的值進行修改。掃描數(shù)組m,刪除值小于等于1的行向量,刪除T2,T5~T12,T18~T20所對應(yīng)的列向量。壓縮后的矩陣如表6所示。
表6 壓縮后的頻繁二項集矩陣
(3) 繼續(xù)生成頻繁三項集,按照步驟2的方法,進一步進行連接和壓縮,得到的結(jié)果如表7所示。由表7繼續(xù)連接生成頻繁四項集的個數(shù)為13(如表8所示),小于最小支持度計數(shù)15,故舍去該連接項,算法結(jié)束。
由上述步驟可以看出,該算法在有效地提取關(guān)聯(lián)規(guī)則的同時,只需要掃描一次數(shù)據(jù)庫,并且通過與運算來生成頻繁集,省去了Apriori算法的連接和剪枝步驟,并通過矩陣的壓縮提高了求高次頻繁集的時間,提高了計算效率。
3.2 ?關(guān)聯(lián)規(guī)則結(jié)果分析
根據(jù)表7、表8的頻繁項集,設(shè)最小支持度為30%,最小置信度為50%,最終可以推導(dǎo)出相應(yīng)的關(guān)聯(lián)規(guī)則,現(xiàn)選取部分關(guān)聯(lián)規(guī)則如表9所示。由表9的規(guī)則1,規(guī)則2可以看出,高頻電子線路課程學(xué)得好的學(xué)生電子設(shè)計自動化課程也同樣學(xué)得好,這說明兩門課程相關(guān)性較大,具有相互促進的關(guān)系。而從規(guī)則3,規(guī)則4可以看出,高頻電子線路課程學(xué)得好的學(xué)生通信原理與信號傳輸課程同樣學(xué)得好的置信度只有46.88%,低于最小置信度,該規(guī)則無效;但反過來通信原理與信號傳輸課程學(xué)得好的學(xué)生高頻電子線路課程學(xué)得好的置信度為88.24%,置信度較高,這說明通信原理與信號傳輸課程的學(xué)習(xí)有助于對高頻電子線路課程的學(xué)習(xí)。
表7 生成的頻繁三項集矩陣
表8 壓縮后的頻繁三項集矩陣
實際上,高頻電子線路課程的一些原理在通信原理與信號傳輸課程上會繼續(xù)深入講解,因此后一門課程可以反過來幫助學(xué)生理解前一門課程的相關(guān)內(nèi)容。而從規(guī)則7,規(guī)則8來看,同時學(xué)好高頻電子線路,電子設(shè)計自動化課程的學(xué)生通信原理與信號傳輸、網(wǎng)站建設(shè)與網(wǎng)絡(luò)管理課程學(xué)習(xí)成績好的置信度高于最小置信度,這說明同時學(xué)好這兩門課程對后續(xù)課程的學(xué)習(xí)也有促進作用。電子電路方面的課程是學(xué)習(xí)通信的基礎(chǔ),這也說明了要想學(xué)好專業(yè)課程,專業(yè)基礎(chǔ)課的學(xué)習(xí)是很重要的。
表9 部分關(guān)聯(lián)規(guī)則
同時,在提取關(guān)聯(lián)規(guī)則時,專業(yè)英語和其他課程無關(guān)聯(lián)規(guī)則,這說明對理工科學(xué)生來說,英語和專業(yè)課程間的相互關(guān)聯(lián)作用并不明顯。數(shù)據(jù)通信網(wǎng)絡(luò)及其設(shè)備配置課程的支持度低于最小支持度,這說明這門課程總體成績偏低,對該班級學(xué)生而言難度偏大,這需要從平時的教學(xué)及試卷命題等方面進一步尋找原因。通過上述分析可以看出該班級本學(xué)期學(xué)習(xí)的總體情況,及各學(xué)科之間的相互關(guān)系。這可以為教學(xué)管理人員在制定教學(xué)計劃及評價教學(xué)質(zhì)量時提供依據(jù),也可以給教師平時授課提供參考,例如,在講授高頻電子線路課程的相關(guān)內(nèi)容時,可以考慮學(xué)生對通信原理及信號傳輸課程的學(xué)習(xí)情況,對個別需要在通信原理及信號傳輸課程中深入學(xué)習(xí)的內(nèi)容可在課堂上給學(xué)生相應(yīng)的提示,以便于學(xué)生更好地掌握相關(guān)內(nèi)容。
4 ?結(jié) ?語
針對高校成績數(shù)據(jù)庫的特點,將基于壓縮矩陣的Apriori算法應(yīng)用到學(xué)生成績相關(guān)性分析中。該算法只需掃描一次數(shù)據(jù)庫,省去了Apriori算法的連接和剪枝步驟,并通過矩陣壓縮提高了算法的執(zhí)行效率。同時通過對期末成績關(guān)聯(lián)規(guī)則的挖掘,可以分析各學(xué)科之間的相關(guān)性,為學(xué)生選課、教師教學(xué)以及教學(xué)管理人員進行教學(xué)管理提供參考。
參考文獻(xiàn)
[1] 鄧雅瓊.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在高校統(tǒng)考課程成績分析中的應(yīng)用[D].桂林:廣西師范大學(xué),2011.
[2] 付沙,周航軍.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進[J].微電子學(xué)與計算機,2013(9):111?114.
[3] 孫逢嘯,倪世宏,謝川.一種基于矩陣的Apriori改進算法[J].計算機仿真,2013(8):245?249.
[4] 李紹中.數(shù)據(jù)挖掘改進算法在學(xué)生成績分析中的應(yīng)用[J].科技通報,2012(8):208?209.
[5] 張毅馳,朱巧明.改進的關(guān)聯(lián)規(guī)則算法及其應(yīng)用[J].計算機系統(tǒng)應(yīng)用,2007(10):80?84.
[6] 姚雙良.數(shù)據(jù)挖掘在高校課程相關(guān)性中的應(yīng)用研究[J].科技通報,2012(12):232?234.
[7] 付沙,廖明華,宋丹.基于壓縮矩陣方式的Apriori改進算法[J].微電子學(xué)與計算機,2012(6):28?32.
[8] 羅丹,李陶深.一種基于壓縮矩陣的Apriori算法改進研究[J].計算機科學(xué),2013(12):75?80.
表4 刪除I3后的壓縮矩陣
表5 頻繁二項集矩陣
對頻繁二項集矩陣?yán)^續(xù)進行壓縮,刪除不能與相鄰項集連接的項集對應(yīng)的列向量。刪除I1^ I2所在的行,對數(shù)組m的值進行修改。掃描數(shù)組m,刪除值小于等于1的行向量,刪除T2,T5~T12,T18~T20所對應(yīng)的列向量。壓縮后的矩陣如表6所示。
表6 壓縮后的頻繁二項集矩陣
(3) 繼續(xù)生成頻繁三項集,按照步驟2的方法,進一步進行連接和壓縮,得到的結(jié)果如表7所示。由表7繼續(xù)連接生成頻繁四項集的個數(shù)為13(如表8所示),小于最小支持度計數(shù)15,故舍去該連接項,算法結(jié)束。
由上述步驟可以看出,該算法在有效地提取關(guān)聯(lián)規(guī)則的同時,只需要掃描一次數(shù)據(jù)庫,并且通過與運算來生成頻繁集,省去了Apriori算法的連接和剪枝步驟,并通過矩陣的壓縮提高了求高次頻繁集的時間,提高了計算效率。
3.2 ?關(guān)聯(lián)規(guī)則結(jié)果分析
根據(jù)表7、表8的頻繁項集,設(shè)最小支持度為30%,最小置信度為50%,最終可以推導(dǎo)出相應(yīng)的關(guān)聯(lián)規(guī)則,現(xiàn)選取部分關(guān)聯(lián)規(guī)則如表9所示。由表9的規(guī)則1,規(guī)則2可以看出,高頻電子線路課程學(xué)得好的學(xué)生電子設(shè)計自動化課程也同樣學(xué)得好,這說明兩門課程相關(guān)性較大,具有相互促進的關(guān)系。而從規(guī)則3,規(guī)則4可以看出,高頻電子線路課程學(xué)得好的學(xué)生通信原理與信號傳輸課程同樣學(xué)得好的置信度只有46.88%,低于最小置信度,該規(guī)則無效;但反過來通信原理與信號傳輸課程學(xué)得好的學(xué)生高頻電子線路課程學(xué)得好的置信度為88.24%,置信度較高,這說明通信原理與信號傳輸課程的學(xué)習(xí)有助于對高頻電子線路課程的學(xué)習(xí)。
表7 生成的頻繁三項集矩陣
表8 壓縮后的頻繁三項集矩陣
實際上,高頻電子線路課程的一些原理在通信原理與信號傳輸課程上會繼續(xù)深入講解,因此后一門課程可以反過來幫助學(xué)生理解前一門課程的相關(guān)內(nèi)容。而從規(guī)則7,規(guī)則8來看,同時學(xué)好高頻電子線路,電子設(shè)計自動化課程的學(xué)生通信原理與信號傳輸、網(wǎng)站建設(shè)與網(wǎng)絡(luò)管理課程學(xué)習(xí)成績好的置信度高于最小置信度,這說明同時學(xué)好這兩門課程對后續(xù)課程的學(xué)習(xí)也有促進作用。電子電路方面的課程是學(xué)習(xí)通信的基礎(chǔ),這也說明了要想學(xué)好專業(yè)課程,專業(yè)基礎(chǔ)課的學(xué)習(xí)是很重要的。
表9 部分關(guān)聯(lián)規(guī)則
同時,在提取關(guān)聯(lián)規(guī)則時,專業(yè)英語和其他課程無關(guān)聯(lián)規(guī)則,這說明對理工科學(xué)生來說,英語和專業(yè)課程間的相互關(guān)聯(lián)作用并不明顯。數(shù)據(jù)通信網(wǎng)絡(luò)及其設(shè)備配置課程的支持度低于最小支持度,這說明這門課程總體成績偏低,對該班級學(xué)生而言難度偏大,這需要從平時的教學(xué)及試卷命題等方面進一步尋找原因。通過上述分析可以看出該班級本學(xué)期學(xué)習(xí)的總體情況,及各學(xué)科之間的相互關(guān)系。這可以為教學(xué)管理人員在制定教學(xué)計劃及評價教學(xué)質(zhì)量時提供依據(jù),也可以給教師平時授課提供參考,例如,在講授高頻電子線路課程的相關(guān)內(nèi)容時,可以考慮學(xué)生對通信原理及信號傳輸課程的學(xué)習(xí)情況,對個別需要在通信原理及信號傳輸課程中深入學(xué)習(xí)的內(nèi)容可在課堂上給學(xué)生相應(yīng)的提示,以便于學(xué)生更好地掌握相關(guān)內(nèi)容。
4 ?結(jié) ?語
針對高校成績數(shù)據(jù)庫的特點,將基于壓縮矩陣的Apriori算法應(yīng)用到學(xué)生成績相關(guān)性分析中。該算法只需掃描一次數(shù)據(jù)庫,省去了Apriori算法的連接和剪枝步驟,并通過矩陣壓縮提高了算法的執(zhí)行效率。同時通過對期末成績關(guān)聯(lián)規(guī)則的挖掘,可以分析各學(xué)科之間的相關(guān)性,為學(xué)生選課、教師教學(xué)以及教學(xué)管理人員進行教學(xué)管理提供參考。
參考文獻(xiàn)
[1] 鄧雅瓊.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在高校統(tǒng)考課程成績分析中的應(yīng)用[D].桂林:廣西師范大學(xué),2011.
[2] 付沙,周航軍.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進[J].微電子學(xué)與計算機,2013(9):111?114.
[3] 孫逢嘯,倪世宏,謝川.一種基于矩陣的Apriori改進算法[J].計算機仿真,2013(8):245?249.
[4] 李紹中.數(shù)據(jù)挖掘改進算法在學(xué)生成績分析中的應(yīng)用[J].科技通報,2012(8):208?209.
[5] 張毅馳,朱巧明.改進的關(guān)聯(lián)規(guī)則算法及其應(yīng)用[J].計算機系統(tǒng)應(yīng)用,2007(10):80?84.
[6] 姚雙良.數(shù)據(jù)挖掘在高校課程相關(guān)性中的應(yīng)用研究[J].科技通報,2012(12):232?234.
[7] 付沙,廖明華,宋丹.基于壓縮矩陣方式的Apriori改進算法[J].微電子學(xué)與計算機,2012(6):28?32.
[8] 羅丹,李陶深.一種基于壓縮矩陣的Apriori算法改進研究[J].計算機科學(xué),2013(12):75?80.
表4 刪除I3后的壓縮矩陣
表5 頻繁二項集矩陣
對頻繁二項集矩陣?yán)^續(xù)進行壓縮,刪除不能與相鄰項集連接的項集對應(yīng)的列向量。刪除I1^ I2所在的行,對數(shù)組m的值進行修改。掃描數(shù)組m,刪除值小于等于1的行向量,刪除T2,T5~T12,T18~T20所對應(yīng)的列向量。壓縮后的矩陣如表6所示。
表6 壓縮后的頻繁二項集矩陣
(3) 繼續(xù)生成頻繁三項集,按照步驟2的方法,進一步進行連接和壓縮,得到的結(jié)果如表7所示。由表7繼續(xù)連接生成頻繁四項集的個數(shù)為13(如表8所示),小于最小支持度計數(shù)15,故舍去該連接項,算法結(jié)束。
由上述步驟可以看出,該算法在有效地提取關(guān)聯(lián)規(guī)則的同時,只需要掃描一次數(shù)據(jù)庫,并且通過與運算來生成頻繁集,省去了Apriori算法的連接和剪枝步驟,并通過矩陣的壓縮提高了求高次頻繁集的時間,提高了計算效率。
3.2 ?關(guān)聯(lián)規(guī)則結(jié)果分析
根據(jù)表7、表8的頻繁項集,設(shè)最小支持度為30%,最小置信度為50%,最終可以推導(dǎo)出相應(yīng)的關(guān)聯(lián)規(guī)則,現(xiàn)選取部分關(guān)聯(lián)規(guī)則如表9所示。由表9的規(guī)則1,規(guī)則2可以看出,高頻電子線路課程學(xué)得好的學(xué)生電子設(shè)計自動化課程也同樣學(xué)得好,這說明兩門課程相關(guān)性較大,具有相互促進的關(guān)系。而從規(guī)則3,規(guī)則4可以看出,高頻電子線路課程學(xué)得好的學(xué)生通信原理與信號傳輸課程同樣學(xué)得好的置信度只有46.88%,低于最小置信度,該規(guī)則無效;但反過來通信原理與信號傳輸課程學(xué)得好的學(xué)生高頻電子線路課程學(xué)得好的置信度為88.24%,置信度較高,這說明通信原理與信號傳輸課程的學(xué)習(xí)有助于對高頻電子線路課程的學(xué)習(xí)。
表7 生成的頻繁三項集矩陣
表8 壓縮后的頻繁三項集矩陣
實際上,高頻電子線路課程的一些原理在通信原理與信號傳輸課程上會繼續(xù)深入講解,因此后一門課程可以反過來幫助學(xué)生理解前一門課程的相關(guān)內(nèi)容。而從規(guī)則7,規(guī)則8來看,同時學(xué)好高頻電子線路,電子設(shè)計自動化課程的學(xué)生通信原理與信號傳輸、網(wǎng)站建設(shè)與網(wǎng)絡(luò)管理課程學(xué)習(xí)成績好的置信度高于最小置信度,這說明同時學(xué)好這兩門課程對后續(xù)課程的學(xué)習(xí)也有促進作用。電子電路方面的課程是學(xué)習(xí)通信的基礎(chǔ),這也說明了要想學(xué)好專業(yè)課程,專業(yè)基礎(chǔ)課的學(xué)習(xí)是很重要的。
表9 部分關(guān)聯(lián)規(guī)則
同時,在提取關(guān)聯(lián)規(guī)則時,專業(yè)英語和其他課程無關(guān)聯(lián)規(guī)則,這說明對理工科學(xué)生來說,英語和專業(yè)課程間的相互關(guān)聯(lián)作用并不明顯。數(shù)據(jù)通信網(wǎng)絡(luò)及其設(shè)備配置課程的支持度低于最小支持度,這說明這門課程總體成績偏低,對該班級學(xué)生而言難度偏大,這需要從平時的教學(xué)及試卷命題等方面進一步尋找原因。通過上述分析可以看出該班級本學(xué)期學(xué)習(xí)的總體情況,及各學(xué)科之間的相互關(guān)系。這可以為教學(xué)管理人員在制定教學(xué)計劃及評價教學(xué)質(zhì)量時提供依據(jù),也可以給教師平時授課提供參考,例如,在講授高頻電子線路課程的相關(guān)內(nèi)容時,可以考慮學(xué)生對通信原理及信號傳輸課程的學(xué)習(xí)情況,對個別需要在通信原理及信號傳輸課程中深入學(xué)習(xí)的內(nèi)容可在課堂上給學(xué)生相應(yīng)的提示,以便于學(xué)生更好地掌握相關(guān)內(nèi)容。
4 ?結(jié) ?語
針對高校成績數(shù)據(jù)庫的特點,將基于壓縮矩陣的Apriori算法應(yīng)用到學(xué)生成績相關(guān)性分析中。該算法只需掃描一次數(shù)據(jù)庫,省去了Apriori算法的連接和剪枝步驟,并通過矩陣壓縮提高了算法的執(zhí)行效率。同時通過對期末成績關(guān)聯(lián)規(guī)則的挖掘,可以分析各學(xué)科之間的相關(guān)性,為學(xué)生選課、教師教學(xué)以及教學(xué)管理人員進行教學(xué)管理提供參考。
參考文獻(xiàn)
[1] 鄧雅瓊.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在高校統(tǒng)考課程成績分析中的應(yīng)用[D].桂林:廣西師范大學(xué),2011.
[2] 付沙,周航軍.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進[J].微電子學(xué)與計算機,2013(9):111?114.
[3] 孫逢嘯,倪世宏,謝川.一種基于矩陣的Apriori改進算法[J].計算機仿真,2013(8):245?249.
[4] 李紹中.數(shù)據(jù)挖掘改進算法在學(xué)生成績分析中的應(yīng)用[J].科技通報,2012(8):208?209.
[5] 張毅馳,朱巧明.改進的關(guān)聯(lián)規(guī)則算法及其應(yīng)用[J].計算機系統(tǒng)應(yīng)用,2007(10):80?84.
[6] 姚雙良.數(shù)據(jù)挖掘在高校課程相關(guān)性中的應(yīng)用研究[J].科技通報,2012(12):232?234.
[7] 付沙,廖明華,宋丹.基于壓縮矩陣方式的Apriori改進算法[J].微電子學(xué)與計算機,2012(6):28?32.
[8] 羅丹,李陶深.一種基于壓縮矩陣的Apriori算法改進研究[J].計算機科學(xué),2013(12):75?80.