白 玲,陳井霞,劉志凱
(哈爾濱商業(yè)大學(xué)廣廈學(xué)院)
關(guān)聯(lián)規(guī)則在高校評(píng)教系統(tǒng)的應(yīng)用
白 玲,陳井霞,劉志凱
(哈爾濱商業(yè)大學(xué)廣廈學(xué)院)
利用關(guān)聯(lián)規(guī)則對(duì)高校教師進(jìn)行評(píng)價(jià),進(jìn)而探索受學(xué)生歡迎的教師類型.
數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Apriori算法
簡單地說,數(shù)據(jù)挖掘 (Data Mining,DM)是指從大量數(shù)據(jù)中提取或“挖掘”知識(shí).廣義觀點(diǎn)是:數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫的大量數(shù)據(jù)中發(fā)現(xiàn)有趣知識(shí)的過程.它是“數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)”(KDD)的一個(gè)非常重要的步驟.[1]
數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)中比較重要的步驟.數(shù)據(jù)挖掘流程如圖1所示.
圖1 數(shù)據(jù)挖掘流程
雖然挖掘的最后結(jié)果不可預(yù)測,但要探索的問題應(yīng)是有預(yù)見性的.首先要選擇合適的挖掘算法,然后按照不同算法進(jìn)行預(yù)處理.這一步非常重要,不同的算法可能需要不同的分析數(shù)據(jù)模型.數(shù)據(jù)挖掘的過程是一個(gè)多次循環(huán)反復(fù)的過程,每一個(gè)步驟一旦與預(yù)期目標(biāo)不符,都要回到前面步驟,重新調(diào)整,重新執(zhí)行.[2]
頻繁模式是頻繁地出現(xiàn)在數(shù)據(jù)集中的模式(如項(xiàng)集、子序列或子結(jié)構(gòu)).在挖掘數(shù)據(jù)之間的關(guān)聯(lián)、相關(guān)和許多其他有趣的聯(lián)系時(shí),頻繁模式起著重要的作用.因此頻繁模式的挖掘就成了一項(xiàng)重要的挖掘任務(wù)和挖掘研究關(guān)注的主題之一.[1]
關(guān)聯(lián)規(guī)則挖掘過程一般分兩步:
第一步:找出所有的頻繁項(xiàng)集.根據(jù)定義,這些項(xiàng)集的每一個(gè)出現(xiàn)的頻繁性至少與預(yù)定義的最小值支持計(jì)數(shù)min_sup一樣.
第二步:由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:根據(jù)定義,這些規(guī)則必須滿足最小支持度和最小置信度.
Apriori算法是Agrawal和 R.Srikant于1994年提出的為布爾關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)集的原創(chuàng)算法.
Apriori算法分析:算法使用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí).Apriori使用一種稱作逐層搜索的迭代方法,k項(xiàng)集用于探索(k+1)項(xiàng)集.首先,通過掃描數(shù)據(jù)庫,累積每個(gè)項(xiàng)的計(jì)數(shù),并收集滿足最小支持度的項(xiàng),找出頻繁1項(xiàng)集的集合.該集合記作L1.然后,L1用于找頻繁2項(xiàng)集的集合,L2用于找L3,如此下去,直到不能再找到頻繁k項(xiàng)集.找每個(gè)Lk需要一次數(shù)據(jù)庫全掃描.[1]
算法選擇:選用經(jīng)典的Apriori算法.
挖掘?qū)ο?全校現(xiàn)任專兼職教師,79人次,100門課程.
挖掘目標(biāo):挖掘?qū)W生更喜歡哪類教師,學(xué)歷高還是職稱高?
數(shù)據(jù)采集:2010-2011第一學(xué)期的教師評(píng)價(jià)表
數(shù)據(jù)源類型:Excel工作表
挖掘工具:SPSS Clementine
原始表有兩個(gè),一個(gè)是教師基本信息表,一個(gè)是學(xué)生評(píng)教表,因?yàn)橛行┙處熜畔⒉蝗圆捎煤雎栽M的方式,將資料不全的教師信息刪除.將兩表集成后得到教師評(píng)估表.因?yàn)橹饕槍?duì)職稱、學(xué)歷、評(píng)分結(jié)果信息挖掘,其他字段對(duì)來說沒有意義,所以將其余字段刪除.由于Apriori算法是基于布爾型的算法,對(duì)連續(xù)數(shù)據(jù)無法使用,所以需對(duì)評(píng)分結(jié)果離散化,離散標(biāo)準(zhǔn)是:設(shè)大于等于90分為“優(yōu)秀”;大于等于85分為“良好”;大于等于80分為“中等”;小于80分為“一般”四個(gè)等級(jí).離散化后教師評(píng)估表如表1所示.
表1 離散化后的教師評(píng)估表
利用Apriori算法,在Clmentine下建立的數(shù)據(jù)挖掘模型如圖2所示.
圖2是針對(duì)本次挖掘任務(wù)所設(shè)計(jì)的流.流中將“教師評(píng)估表.xls”作為源文件節(jié)點(diǎn).添加類型節(jié)點(diǎn)建立庫與模型間的數(shù)據(jù)傳輸,Apriori算法模型中共用到了6個(gè)屬性字段,所以叫6字段,最后將圖形節(jié)點(diǎn)填入流中,實(shí)現(xiàn)了結(jié)果多樣性.
建模過程及主要參數(shù)配置如下:
(1)建立數(shù)據(jù)源節(jié)點(diǎn).教師評(píng)估表.xls
圖2 Apriori關(guān)聯(lián)規(guī)則數(shù)據(jù)模型
(2)建立類型節(jié)點(diǎn),與數(shù)據(jù)源連接.將所有字段將方向設(shè)置為兩者.
(3)建立Apriori模型,與類型連接.將后項(xiàng)、前項(xiàng)設(shè)置為全選;最低支持度設(shè)為10%,最低置信度設(shè)為60%,最大前項(xiàng)數(shù)設(shè)為2.
(4)建立網(wǎng)絡(luò)圖形,與類型連接.將可顯示的最大鏈接數(shù)設(shè)為15.其他默認(rèn)即可.
(1)模型評(píng)估:執(zhí)行關(guān)聯(lián)規(guī)則模型得到挖掘結(jié)果1,見表1.
表1 數(shù)據(jù)挖掘結(jié)果1
(2)圖形表示:挖掘結(jié)果2(DAG布局),如圖3所示.
圖3 數(shù)據(jù)挖掘結(jié)果2(DAG布局)
(1)由表1分析可知:
①職稱為講師、學(xué)歷是本科的教師,課程評(píng)分是優(yōu)秀.
②職稱是講師的教師,課程評(píng)分是優(yōu)秀.
③職稱為講師、學(xué)歷是研究生的教師,課程評(píng)分是優(yōu)秀.
④學(xué)歷是研究生的教師,課程評(píng)分是優(yōu)秀.
⑤職稱是助教、學(xué)歷是研究生的教師,課程評(píng)分是優(yōu)秀.
⑥職稱是助教、學(xué)歷是本科的教師,課程評(píng)分是優(yōu)秀.
規(guī)則中,沒有挖掘出評(píng)分為良好、中等、一般的情況,說明有些統(tǒng)計(jì)結(jié)果還是偏高,有部分學(xué)生填寫不夠認(rèn)真導(dǎo)致.
(2)由圖4分析可知:
圖中將學(xué)歷、職稱劃分為一組,對(duì)應(yīng)評(píng)分結(jié)果產(chǎn)生連線.線條較密集(粗)的有以下幾根:
①研究生和優(yōu)秀
②助教和優(yōu)秀
③本科和優(yōu)秀
④講師和優(yōu)秀
這與生成規(guī)則得出的結(jié)論完全相符.
(3)誤差原因分析:
①由于本次參與測試的原始數(shù)據(jù)只有79名教師,100門課程,共176條記錄,規(guī)模不是很大.
②部分教師的資料不是實(shí)時(shí)更新的,這對(duì)挖掘結(jié)果都有一定的影響.
③在對(duì)原始數(shù)據(jù)進(jìn)行離散化處理時(shí),可能也產(chǎn)生了誤差.
從結(jié)果前項(xiàng)中看到,職稱基本上是講師和助教、學(xué)歷基本上是本科和研究生,這說明象學(xué)校這樣的有十年校齡的民辦高校中,大部分骨干教師都是本科起點(diǎn)的講師和研究生起點(diǎn)的助教為主.
而從后項(xiàng)評(píng)分結(jié)果都是優(yōu)秀中能夠看出,教師的教學(xué)效果得到了大部分學(xué)生的認(rèn)可.這說明學(xué)生喜歡的并不全是職稱高,學(xué)識(shí)深的有多年教學(xué)經(jīng)驗(yàn)的老教師.而年輕的肯干的青年教師,縮短了和學(xué)生之間的差距和代溝,更受到學(xué)生的歡迎.
這個(gè)結(jié)論說明,學(xué)?,F(xiàn)任助教和講師的教學(xué)水平得到了學(xué)生的認(rèn)可,可能與以下因素有關(guān):
(1)教師隊(duì)伍比較年輕,在和學(xué)生溝通方面沒有障礙.
(2)雖然看到的職稱是助教和講師,但其實(shí)這些老師在此崗位已經(jīng)工作多年,積累了很多教學(xué)經(jīng)驗(yàn),已經(jīng)接近評(píng)定下一職稱的年限,工作能力比較強(qiáng).
[1]Han Jiawei,Micheline Kamber.范明,孟小峰,譯.數(shù)據(jù)挖掘概念與技術(shù):原第二版.北京:機(jī)械工業(yè)出版社,2008.
[2]劉宇陽.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中的應(yīng)用[J].交通科技與經(jīng)濟(jì),2008,47(3):65 -67.
[3]陳輝,向偉忠,單健.關(guān)聯(lián)規(guī)則挖掘在教師教學(xué)評(píng)價(jià)系統(tǒng)中的應(yīng)用[J].南華大學(xué)學(xué)報(bào):自然科學(xué)版,2005,19(1):104-107,118.
The Application of Association Rules in University Teaching Assessment System
Bai Ling,Chen Jingxia,Liu Zhikai
(Harbin University of Commerce)
The teachers in the universities are evaluated by using association rules,further the types of teachers welcomed by students are explored.
Data mining;Association rules;Apriori algorithm
2010-11-01
(責(zé)任編輯:黃永輝)