馮 廣 陳 卓 羅時強 邱凱星 伍文燕
(廣東工業(yè)大學 自動化學院,廣東 廣州 510006)
隨著教育數(shù)據(jù)的爆發(fā)式增長以及信息挖掘技術的日益成熟,許多研究人員開始深度分析教育數(shù)據(jù)背后隱藏的含義。將人工智能算法與教育結合起來,依托機器學習、神經(jīng)網(wǎng)絡等方法對學生進行學習質量評價逐漸興起,如何更科學準確地評價學生成為一個研究熱點,另外,學科特征與學生某種行為模式背后隱藏的原因有何種關系給研究提供了新的視角。根據(jù)研究結果,反作用于教育,并為教學方法或者教育政策提供依據(jù),是研究的最終意義。
目前學生綜合學習質量評價仍存在以下缺點:①評價的對象主要針對某學科的成績,參考的數(shù)據(jù)不豐富;②評價方式僅進行簡單的一次成績排序評價,固定靜態(tài)地描述學生;[1]③評價的結果無法進行科學的應用,即評價結果所蘊涵的信息極少,難以進一步應用。為此,本文提出了一種基于K-Medians 的高維聚類評價方法。研究過程首先對評價方法和K-Medians 算法進行了說明,隨后通過實例闡述該方法的應用,并在此基礎上與其他評價方法對比,呈現(xiàn)了一種可聯(lián)合多種評價數(shù)據(jù)、評價更科學、評價結果蘊涵信息豐富的學生綜合學習質量評價方法。
目前,根據(jù)學生的客觀表現(xiàn)數(shù)據(jù)延伸出了多種評價方法。阿什頓·安德森(Ashton Anderson等[2]對學習者的學習類型進行聚類,探究成績與不同課堂參與度之間的規(guī)律,并評估學習績效。Chen等[3]融合灰度關聯(lián)理論(GRA)、K-Means 聚類算法、模糊推理與模糊關聯(lián)規(guī)則四種智能運算方法,構建了學習效果評價系統(tǒng),改變了以往只考慮最終學習結果的終結性評價。有研究通過聚類來挖掘學習者的信息,然后分析能夠直接反映用戶行為的有效模式,并且提出了基于協(xié)同管理的模型,來評價學習過程。[4]呂賽鶇等[5]采集云南師范大學計算機課的教育數(shù)據(jù),依據(jù)聚類分析的原理,確定了十項指標來探討聚類在教學評價中的應用。張瑜等[6]針對高校評價存在指標設置不合理、評價結果運用不科學等問題,提出基于學生學習成效的高校教學質量評價。劉美玲等[7]將考試成績進行聚類,找到同一類學生的相似特點,給教學改進提供依據(jù)。綜上所述,教育教學評價正朝著評價內(nèi)容更豐富、評價指標更合理、評價方法更科學的趨勢發(fā)展。
通過搜集整理學習質量評價方向和聚類算法方向的文獻資料展開系統(tǒng)研究,整理總結出有關學習質量評價的內(nèi)容,發(fā)現(xiàn)研究對象的性質和特點。
依據(jù)研究目標,使用UCI 機器學習庫提供的數(shù)據(jù),以葡萄牙某中學學生為例,通過優(yōu)化后的多維聚類算法分析,得出科學性更強的學生綜合學習質量評價,給后續(xù)教學管理提供一定的指導。
基于K-Medians 的學生綜合學習質量評價方法是與傳統(tǒng)的評價方法相對的一種智能評價方法。該方法可以聯(lián)合多個評價指標,不只是成績決策,還可以加入行為特征、性格特征等其他指標,學生綜合學習質量評價的結果則通過觀察高維聚類結果得出。學生所處的簇即為學生獲得的評價等第,使學生作為多元評價的個體,在整個參與評價群體中的評價等第能夠直觀展現(xiàn)。無論使用何種評價方法,要使評價有存在的意義,需要向獲得評價結果的人提供有效用的信息?;贙-Medians 的評價方法能夠達到這個目標,在聯(lián)合多個評價指標后,其評價結果蘊涵了多種指導信息。基于K-Medians 的評價方法示意圖如圖1 所示。
圖1 評價方法示意圖
K-Medians 算法是K-Means 算法衍生出來的變種,其算法邏輯與K-Means 接近,也是解決聚類問題的一種算法,常用作二維聚類,屬于非監(jiān)督學習類別。與K-Means 的區(qū)別在于K-Medians 是用數(shù)據(jù)集的中位數(shù)來計算數(shù)據(jù)的中心點,不再選用均值,這樣的優(yōu)勢是針對數(shù)據(jù)集出現(xiàn)噪音特別大的點時,中心點選取受影響極小。
K-Medians 算法的基本原理是通過避免孤立點,取每一簇數(shù)據(jù)的中位點作為聚類中心,然后計算剩余的點與初始聚類中心的距離,再按照距離進行聚類操作,分配數(shù)據(jù)點,繼續(xù)排序重新計算聚類中心點,直到中心點停止改變。[8]
學生的表現(xiàn)數(shù)據(jù)有多個維度,當算法應用在三維狀態(tài)下,需要優(yōu)化距聚類中心距離(曼哈頓距離)的算法,優(yōu)化后的曼哈頓距離如式(1)所示,式中p 表示三維空間中兩點間曼哈頓距離,(xi,yi,zi)表示空間中第i 點。
理論上,該算法維度能夠繼續(xù)向更高維延伸,其更高維空間中的曼哈頓距離可通過繼續(xù)增加坐標維度來計算。通過使用曼哈頓距離代替常用的歐氏距離,使計算機在運行較大計算過程時付出代價更低,并且在一定程度上減少在開平方運算中取近似值產(chǎn)生的誤差。
優(yōu)化后的K-Medians 算法流程如圖2 所示。基本的運行邏輯為讀入數(shù)據(jù)后找到初始聚類中心,隨后開始第一次循環(huán)分配數(shù)據(jù)點,然后再次迭代更新數(shù)據(jù)聚類中心并分配數(shù)據(jù)點,當達到迭代次數(shù)后,輸出最后高維聚類結果。
圖2 k-medians 算法流程圖
對于科學實驗,數(shù)據(jù)質量保障是基礎,需要保證數(shù)據(jù)的準確性、完整性、一致性。當數(shù)據(jù)存在著部分數(shù)據(jù)缺失的問題時,本研究采用忽略有缺失值樣本的方法解決問題。實驗原始數(shù)據(jù)與葡萄牙某中學學生相關,數(shù)據(jù)集涵蓋了學生考試成績、社會、個人行為、學校、家庭等多種特征數(shù)據(jù)。其中本次研究的主要使用屬性字段說明如表1所示。
表1 屬性字段
在SPSS 平臺導入.csv 型數(shù)據(jù)集,進行預處理之后的數(shù)據(jù)包含了147 名學生的相關特征。共計588 條屬性詞條數(shù)據(jù)。
數(shù)據(jù)集的基本屬性統(tǒng)計信息報告如圖3 所示,對所有學生特征提取后,繼續(xù)分析數(shù)據(jù)標準差、中位數(shù)、最小值、最大值、方差等基本屬性。以Pro G 為x 軸、math G 為y 軸,z 軸表示內(nèi)外性格傾向指數(shù),代表個體投影到三維空間內(nèi),可以看到僅有極少數(shù)個體離散度大,個體分布近似符合正態(tài)分布,投影結果如圖4 所示。
圖3 數(shù)據(jù)基本屬性統(tǒng)計
圖4 投影結果
該評價方法中的高維聚類目標是要把讀取到的學生教育數(shù)據(jù)點依據(jù)某些原則聚至相符合的簇。實例中的數(shù)據(jù)包含學生相關科目成績和內(nèi)外性格傾向正負程度特征,每一特征使用一維度數(shù)據(jù)來表示。通過程序運算得到高維聚類結果。整個實驗過程如圖5 所示,采集外部數(shù)據(jù),數(shù)據(jù)預處理之后的學生特征數(shù)據(jù)置于內(nèi)存中,隨后傳遞給優(yōu)化后的聚類算法進行運算,最后得出一個多語義信息融合的學生綜合學習質量評價結果。
圖5 實驗過程圖
對高維聚類過程中數(shù)據(jù)變化進行研究分析,基于非監(jiān)督學習范疇,起始聚類中心如表2 所示。起始聚類中心有兩點,其坐標分別為(10,5,4)和(16,14,6)。最終聚類中心坐標如表3 所示。
表2 起始聚類中心
表3 最終聚類中心
使用MATLAB 對高維聚類結果進行直觀展示,如圖6 所示,由圖可知本次評價將學生分為了兩簇,且兩簇之間的邊界明顯,有很好的區(qū)分度,即兩簇學生特征差異最大化。
圖6 高維聚類結果
學生綜合學習質量評價結果的質量,與KMedians 算法的高維聚類效果有關。對于高維聚類效果的評價指標分為兩種,內(nèi)部評價指標和外部評價指標。本文使用CH(Calinski-Harabasz)內(nèi)部評價指標[9]分析高維聚類效果的優(yōu)劣,高維聚類效果與CH 指數(shù)呈正相關。CH 指數(shù)的索引計算如式(2)所示。
這里的B 和W 是簇散布矩陣之間和簇內(nèi)的散布矩陣,也可稱為協(xié)方差矩陣,n 為樣本數(shù),K為簇類別數(shù)。公式意義是生成最大層次結構級別用于指示數(shù)據(jù)中正確的分區(qū)數(shù)。集群之間的離差矩陣B 的跡可以寫成式(3)。
其中nk是聚類k 中的點數(shù),z 是整個數(shù)據(jù)集的質心。集群內(nèi)散布矩陣W 的跡可以寫成式(4)。
因此CH 指數(shù)可表示為式(5)。
CH 系數(shù)檢驗結果如圖7 所示,縱軸表示CH 指數(shù),橫軸表示聚類中心個數(shù),顯然可得最佳CH 系數(shù)-聚類簇數(shù)坐標(134,2)。因此本實例中的聚類結果是有效的,并且評價結果穩(wěn)定,同時使用該檢驗方法避免了很多聚類算法有效性評估需要依據(jù)已知分類標簽的問題。
圖7 CH 系數(shù)檢驗結果
根據(jù)綜合學習質量評價方法的設定,本實例中147 名學生被分為了兩個簇,學生所屬的簇代表了該生綜合學習質量的優(yōu)劣等第,即評價結果,每名學生評價等第如表4 所示,從表中可以直觀看出學生所屬的簇集,其中簇集1代表“較優(yōu)”等第分布,簇集2 代表“一般”等第分布。
表4 學生評價等第
由上文的高維聚類結果還可得到本次評價結果分布圖,三個評價維度指數(shù)分布與高維聚類中心有關,如圖8 所示。從圖中能夠簡便獲取評價結果所蘊涵的指導信息,由于內(nèi)外性格傾向與學生的社會特征和家庭特征有關,在圖中看出內(nèi)外性格傾向低的實例對象,其各科成績較好,符合常理,并且內(nèi)外性格傾向低的學生,更擅長學習數(shù)學,反之則更擅長語言學習。分布于B 段(簇集1)的學生個數(shù)較多,說明該年級的總體學習質量一般。依據(jù)該分布圖,教師能夠針對性改進教學策略,學生可以及時自省學習缺陷。
圖8 評價結果分布
由評價結果可見,采用高維聚類分析的方法可以對學生的多個特征進行最佳聚類,找出一簇同學的共同特征,發(fā)現(xiàn)某些科目與行為特征、性格傾向之間的隱藏聯(lián)系。根據(jù)強針對性的高維聚類結果,學習質量評估改變以往只看成績的狀況,利用機器學習的方法得出了科學的、具有高符合度的、多維度語義信息融合的評價結論。
相比較其他學者在學習效果評價研究中使用的層次分析、灰度關聯(lián)理論(GRA)等方法,高維聚類分析在評價的公正性、便捷性、直觀性上具有較大優(yōu)勢,與傳統(tǒng)評價方法相比,基于KMedians 的高維聚類評價方法彌補了評價簡單粗暴的缺點,且評價的結果被賦予了多種指導信息。本文所提方法與層次分析法、GRA 法、傳統(tǒng)評價方法對比結果如表5 所示,可以看出KMedians 高維聚類評價方法能夠較公正、客觀地評價學生綜合學習質量,且運算步驟簡便,并且評價結果易于觀察和理解。
表5 優(yōu)勢對比
大數(shù)據(jù)與數(shù)據(jù)挖掘等技術的創(chuàng)新給我國智慧教育的高質量發(fā)展提供了強大的動力。2020年,中共中央、國務院印發(fā)《深化新時代教育評價改革總體方案》,方案中提出了多項有關教育評價的原則,這些原則覆蓋了評價的全過程。然而,目前學生學習質量評價在評價數(shù)據(jù)、評價方式、評價結果等方面仍存在不足。
著眼于智慧教育背景與教育評價模式改革和創(chuàng)新,本文提出了基于K-Medians 的高維聚類評價方法,闡述了該評價方法的原理,并通過一個實例展示了高維聚類方法在學生綜合學習質量評價中的應用。對學生來說,該方法使學習質量評價結果的公平性、精準性、普惠性得到了提高;對教師來說,通過科學運用該方法的評價結果,能夠向學生實施個性化教育。最終,實現(xiàn)了教師教學質量的提高和學生學習成效的提升雙贏。
未來工作主要還需從以下兩點進行改進:一是豐富數(shù)據(jù)類型,本文僅采用離散數(shù)值型數(shù)據(jù),實際中,圖片數(shù)據(jù)或者視頻流也蘊涵著豐富的教育信息,有待更深層次挖掘;二是優(yōu)化改進算法,增強評價算法的可解釋性,使廣大師生認可評價結果。