吳軍 魏丹丹
關鍵詞:數據挖掘;教學數據分析;差異模式挖掘;確定置換檢驗
中圖法分類號:TP391 文獻標識碼:A
1引言
大學教育的課程考核方式是與高中、初中、小學教育的一大區(qū)別點。除了設有高中、初中、小學教育相同的課程期末考試考核方式,大學課程考核還融入了學生在平時課程學習中的態(tài)度情況、表現情況和實踐情況等。為了找到能夠準確體現課程教學效果的考核方式,高校教師在課程考核方式問題上投入了大量研究。雖然各個課程的考核方式不盡相同,但課程成績大體上均是由平時考核成績和期末考核成績按照一定的比例組合而成。平時考核成績主要體現了學生在該課程的出勤情況、作業(yè)完成情況、課程表現情況、期中考試情況等,而期末考核成績主要體現了學生在該課程中的期末考試情況或者期末考查情況。學生的課程學習效果與課程考核方式的一致性程度不僅影響高校教師的教學心態(tài),也影響學生的學習心態(tài)。
模式發(fā)現任務是數據挖掘領域中的一個熱門研究領域,該任務旨在發(fā)現能夠體現數據有用特征的模式。在模式發(fā)現任務研究中,差異模式挖掘是一個十分有意義的研究方向。差異模式能夠體現不同類別數據中難以用行業(yè)經驗發(fā)現的差異特征,因此使用差異模式提供的信息能夠幫助人們解決大量的應用問題。例如,對蘑菇特征數據集合利用差異模式挖掘技術,能夠分析出有毒蘑菇和無毒蘑菇的差異特征,從而能夠降低人類食用蘑菇中毒的概率。為了探索學生學習效果與課程考核方式的統(tǒng)一程度,使用差異模式挖掘技術對課程教學數據進行了分析,詳細的研究步驟如圖1所示。
2數據收集和預處理
實驗所使用的數據集取自于近4年的“Python程序設計”課程的考核成績,該課程的考核成績由平時考核成績和期末考核成績構成,構成比例各為50%。具體而言,平時考核成績中出勤情況占比5%;作業(yè)占比15%;小組作業(yè)占比5%;課堂表現占比10%;編程測試占比15%。期末考核方式為試卷考試形式,客觀題和主觀題各占一半。
由于差異模式挖掘技術無法處理連續(xù)型屬性數據,需要對上述原始連續(xù)型屬性數據使用離散化技術將其轉換為離散型屬性數據。實驗所采用的離散化技術是Kmeans聚類算法。其中,K值設定為4,分別對應于成績中的優(yōu)、良、中、差。Kmeans算法離散化的步驟如下。
(1)對于每一個連續(xù)型屬性,隨機選擇4個其中的值作為簇中心。
(2)計算該屬性中的值與該簇中心的距離,并將其分配給距離最小的簇中心。
(3)計算每個簇的平均值,并將其作為新的簇中心。
(4)如果簇中心未發(fā)生改變則停止迭代,如果簇中心發(fā)生改變則跳到第(2)步。
(5)將屬于同一個簇的屬性值離散化為同一離散值。
3差異模式挖掘
差異模式指的是對于含有類別屬性的數據集合而言,在不同類別屬性的子數據集合中表現出較強差異性的模式。根據差異模式的定義,可知差異模式能夠體現數據集合不同類別數據樣本的特征差異性。差異模式常用的挖掘策略是“兩步走”策略:第一步,使用頻繁模式挖掘算法找到數據集合中滿足最小支持度閾值βsup的頻繁模式;第二步,選擇一個能夠刻畫頻繁模式差異性的度量,計算第一步中所有頻繁模式的差異性度量值,如果該值超過了用戶自定義的差異性閾值βdis,則該模式被認定為差異模式。
目前,已經提出了許多高效的頻繁模式挖掘算法,并且這些算法都能挖掘出數據集合中滿足βsup閾值的頻繁模式,其不同之處主要體現在候選模式的生成方式、剪枝方式、數據表示方式上。實驗討論中使用的頻繁模式挖掘算法是Eclat算法,該算法的步驟如下。
(1)遍歷一次數據集合,將水平格式的數據轉換成垂直格式。
(2)根據數據集合的具體情況,設置合適的最小支持度閾值βsup。
(3)令k表示模式長度,使用垂直格式中項的TID集找到k=1的頻繁模式。
(4)從k=2開始,使用兩個k-1頻繁模式合并成k模式,其TID集為這兩個k-1頻繁模式TID集的交集。
(5)如果k模式的TID集滿足βsup約束,則將其保存為頻繁模式,否則,將其刪除。
(6)重復(4)(5)兩步過程,直到無法再通過合并生成k模式。
為了度量模式的差異性,研究人員陸續(xù)提出了許多差異性度量。實驗中使用的差異性度量是優(yōu)勢率。設一個頻繁模式被表示為p,數據集合根據類別屬性劃分為D+和D_子數據集合,則優(yōu)勢率的計算式為:式中,|D+|和|D_|分別表示D+和D_子數據集合的大小,s()函數表示p在相應數據集合中的支持度。為了便于計算,式(1)通常取對數得到:
LOR(p)= log(OR(p)) (2)
若LOR(p)為正值,則說明p模式在D+中出現的比較多;反之,若LOR(p)為負值,則說明p模式在D_中出現得比較多。
4確定置換檢驗
基于閾值約束的差異模式挖掘算法報告的結果中會存在一定數量的假陽性差異模式。假陽性差異模式指的是由于數據隨機波動偶然產生的滿足差異模式挖掘算法βdis閾值約束的模式。實踐發(fā)現,假陽性差異模式沒有正確地體現數據集合的差異特征,因此,根據假陽性差異模式提供的信息進行后續(xù)研究會有較大概率造成錯誤的決策。
統(tǒng)計顯著性檢驗一種被廣泛應用于模式發(fā)現任務中過濾假陽性差異模式的策略。在該策略中,標準置換檢驗是一種十分常用的方法。分析發(fā)現,使用標準置換檢驗過濾假陽性差異模式會存在如下4個問題。
(1)差異模式的統(tǒng)計度量值可能為0。
(2)差異模式的統(tǒng)計度量值均通過同一個零分布計算。
(3)重復運行標準置換檢驗,報告的統(tǒng)計顯著差異模式數量不一致。
(4)挖掘標準置換檢驗生成的隨機集合的計算開銷很大。
導致上述4個問題的根本原因是標準置換檢驗使用了生成一定數量的隨機數據集合,并從這些集合中挖掘統(tǒng)計值構建零分布的策略。該策略生成的零分布是一個近似零分布。由于沒有均勻隨機抽樣方法的保證,標準置換檢驗生成的近似零分布不一定能夠準確刻畫確定零分布。因此,實驗采用確定置換檢驗的方法為過濾假陽性差異模式,以確定置換檢驗構建的是確定零分布,所以其不存在標準置換檢驗中的4個問題。確定置換檢驗的流程如圖2所示。
在圖2中,差異模式優(yōu)勢率分布由差異模式各個數量分布和其對應的次數構成。具體而言,數量分布如表1所列。
實踐發(fā)現,確定置換檢驗的運行時間要遠遠少于標準置換檢驗,其原因是確定置換檢驗不需要對隨機集合進行挖掘。
5結果分析
通過確定置換檢驗保留下來的差異模式被稱作統(tǒng)計顯著的差異模式,其表達的差異信息更加真實可靠。將統(tǒng)計顯著的差異模式包含的信息結合領域知識進行分析,可以發(fā)現許多有意義的教學現象,具體如下。
(1)編程測試成績高的學生不一定在期末考試中取得較高的成績。經過對其詢問和分析發(fā)現,主要原因是在編程測試中可以使用調試和查詢庫函數等功能,但在期末試卷中無法使用這些功能。此外,期末試卷中的基礎理論知識也占有一定的比例,而這些學生忽略了理論知識的識記。
(2)出勤情況和作業(yè)情況的好壞與編程測試和期末考試成績毫不相關。雖然出勤情況能夠體現一個學生的基本學習態(tài)度,但是無法決定該學生在課堂的學習效果。作業(yè)情況理論上應該體現學生對各個知識點的掌握理解程度,但一些學生為了拿到該項成績選擇了抄襲。
(3)課堂表現好的學生通常在期末考試中能夠取得較高的成績。課堂表現較好說明這些學生積極參與了課堂教學,能夠體現出較好的課堂教學效果和學習態(tài)度。此外,通過詢問發(fā)現這部分學生對待考試態(tài)度也比較認真。
根據上述信息,教師可以進行教學方法和考核方式的調整,如Python是一門實踐比理論更加重要的課程,可以在期末試卷中適當降低理論知識的分數;出勤情況和作業(yè)情況對教學效果的體現不明顯,可以適當減少或者調整方式以調動學生的學習主動性。通過這樣的改進,能夠在一定程度上促進教師教學水平的提升,也能夠促進學生學習效果的提升。
6結束語
本文使用數據挖掘中的差異模式挖掘技術分析了教學數據。為了減少假陽性差異模式錯誤信息的誤導,引入了確定置換檢驗保留統(tǒng)計顯著的差異模式。統(tǒng)計顯著差異模式提供的信息能夠體現課程考核方式與教學效果的匹配情況,教師可以根據這些情況調整教學方法和考核方式,從而促進教學水平和能力的提升。同時,也能夠促進學生學習積極性和學習效果的提升。后續(xù)研究還會使用更多的數據挖掘技術對教學數據進行分析。
作者簡介:
吳軍(1990—),碩士,講師,研究方向:數據挖掘、深度學習、生物信息學。