[摘 要]關聯(lián)規(guī)則是數(shù)據挖掘中一個飛速發(fā)展的領域,不斷得到發(fā)展和創(chuàng)新,而如何將這一技術應用于教學管理和評價中, 需要做更深一步的開發(fā)與研究。本文將關聯(lián)規(guī)則與高校課堂教學評價相結合,從評價信息庫中挖掘得出教師性別、年齡、職稱、學歷等因素和教學效果之間的內在聯(lián)系,使關聯(lián)規(guī)則為教學提供理論支持。
[關鍵詞]關聯(lián)規(guī)則 教學評價 數(shù)據挖掘
一、引言
數(shù)據挖掘是當前人工智能數(shù)據庫和信息決策研究的熱門領域[1-2],即從海量數(shù)據中用相關的理論和方法挖掘出有用的規(guī)律,關聯(lián)規(guī)則是數(shù)據挖掘研究、開發(fā)和應用領域最重要研究方向之一,它用于確定數(shù)據集中不同領域或屬性之間的聯(lián)系,找出可信的、有價值的多個域之間的依賴關系。對當前數(shù)據進行數(shù)據挖掘大致包括:定義業(yè)務對象,即在經驗豐富的行業(yè)專家的指導下,明確實際業(yè)務的要求、數(shù)據的需要、目標的要求以及算法的需要;數(shù)據準備,即對數(shù)據進行選擇、預處理和轉換;數(shù)據挖掘,即用適當?shù)耐诰蛩惴ㄕ页鲭[藏于數(shù)據內部的容易理解、預測性的知識和規(guī)則;結果評估,即采用可視化技術對模式進行評估,剔除冗余或無關的模式,多次調整,使效果達到最佳;最后進行分析決策。
二、關聯(lián)規(guī)則的基本模型
關聯(lián)規(guī)則反映一個事物與其他事物之間的相互依存性和關聯(lián)性[4-5]。如果兩個或者多個事物之間存在一定的關聯(lián)關系,那么,其中一個事物就能夠通過其他事物預測到。
(1)設I={i1,i2,…,im}為所有項目的集合,D為事務數(shù)據庫,事務T是一個項目子集(T?哿I)。每一個事務具有唯一的事務標識TID。設A是一個由項目構成的集合,稱為項集。事務T包含項集A,當且僅當A?哿T。如果項集A中包含k個項目,則稱其為k項集。項集A在事務數(shù)據庫D中出現(xiàn)的次數(shù)占D中總事務的百分比叫做項集的支持度。如果項集的支持度超過用戶給定的最小支持度閾值,就稱該項集是頻繁項集(或大項集)。
(2)關聯(lián)規(guī)則是形如X?圯Y的邏輯蘊含式,其中X?奐I,Y?奐I,且X∩Y=?覫。如果事務數(shù)據庫D中有s%的事務包含X∪Y,則稱關聯(lián)規(guī)則X?圯Y的支持度為s%,實際上,支持度是一個概率值。若項集X的支持度記為support(X),規(guī)則的信任度為support(X∪Y)/support(X)。這是一個條件概率P(Y|X)。即:
support(X?圯Y)=P(X∪)
confidence(X?圯Y)=P(Y|X)
(3)查找所有的規(guī)則 XY?圯Z具有最小支持度和可信度。
> 支持度,s,一次交易中包含{X、Y、Z}的可能性。
> 可信度,c,包含{X、Y}的交易中也包含Z的條件概率。
三、關聯(lián)規(guī)則的應用
(1)關聯(lián)規(guī)則在學校教學評價中的應用
1.選取數(shù)據。為了能發(fā)現(xiàn)教師本身的素質與教學評價結果之間的內在聯(lián)系,我們可以提取可能與評估結果相關的數(shù)據,如教師的工號、職稱、學歷、年齡、教齡、教師的評價結果,建立數(shù)據挖掘庫。
2.預處理數(shù)據。由于選取的數(shù)據中可能包含噪聲、缺失值、無效數(shù)據等,所以必須先清理。
3.數(shù)據轉換。由于要挖掘的數(shù)據來自于不同的數(shù)據庫如教學管理系統(tǒng)、人事管理系統(tǒng) 。其信息的表示方式可能各不相同,如編碼、屬性、屬性度量等不一致,所以在這些數(shù)據進入數(shù)據挖掘庫時需要進行轉換。同時,如果采用的是Apriori算法,還要將關系表轉換為相應的事務庫。
4.數(shù)據挖掘。利用一種數(shù)據挖掘工具。如SQLServer2005的數(shù)據挖掘功能,可完成對數(shù)據的挖掘。
(2)關聯(lián)規(guī)則在課程設置中的應用
學校中的課程設置是有規(guī)律的、循序漸進的、即先基礎后專業(yè),但由于受到學校教學條件、師資不足等因素的影響,課程設置仍然存在相關課程的前趨后繼關系不清專業(yè)課程劃分不合理等許多問題。那么如何合理地設置每個專業(yè)每個學期的課程是值得我們去研究的課題。利用關聯(lián)規(guī)則分析的挖掘技術,我們可以從教學管理系統(tǒng)中選取各專業(yè)歷屆學生選課的數(shù)據 課程成績、授課教師、學生信息等相關數(shù)據,經過數(shù)據預處理和轉換后通過專門的數(shù)據挖掘工具挖掘出具有實用價值的信息找到影響學生成績的原因,并在此基礎上對課程設置做出合理安排除此之外,關聯(lián)規(guī)則分析還可應用在學生成績預測學生生源分布、課程相關性、學生就業(yè)核心因素、心理問題等方面。
四、結論
關于關聯(lián)規(guī)則的研究和應用比較廣泛,把現(xiàn)有的關聯(lián)規(guī)則挖掘算法與教學評價問題緊密結合起來是高校信息系統(tǒng)中重要的研究方向之一。從評教信息數(shù)據庫中挖掘得出教師性別、年齡、職稱、學歷等因素和教學效果間的內在聯(lián)系,使關聯(lián)規(guī)則為教學提供理論支持。
參考文獻:
[1] 教育部高教司.教學相長—高等職業(yè)教育教師基礎知識讀本[M].北京:高等教育出版社,2005.
[2] 王朝莊.高職教育改革與發(fā)展應解決的五個基本問題[J]. 教育與職業(yè),2005,(35).
[3] 姜大源.職業(yè)教育學研究新論[M].北京:教育科學出版社,2007.
[4] JiaweiHan,數(shù)據挖掘概念與技術 [M ] 范明, 孟小峰等譯,北京: 機械工業(yè)出版社,2005。
[5]魏萍萍,王翠茹,王保義,張振興。數(shù)據挖掘技術及其在高校教學系統(tǒng)中的應用[J]計算機工程,2003, 7 ( 29) : 11 – 14。