馬守明 鄭武 程晨 周祎
摘? 要:對高校學(xué)生學(xué)習(xí)過程進(jìn)行準(zhǔn)確的評價,是提升學(xué)生學(xué)習(xí)效率、改進(jìn)教師教學(xué)方法、完善學(xué)校教學(xué)管理的重要環(huán)節(jié)。目前已經(jīng)提出了多種數(shù)學(xué)模型來解決該問題,但這些方法均需要一定的先驗知識且難以實現(xiàn)自學(xué)習(xí)。本文利用SOM模型能在無監(jiān)督、無先驗知識的狀態(tài)下對樣本進(jìn)行自組織的特性進(jìn)行學(xué)習(xí)過程的評價,同時通過主成分分析,提高了網(wǎng)絡(luò)收斂速度和聚類準(zhǔn)確性。實例分析表明:改進(jìn)SOM模型能有效地進(jìn)行學(xué)生學(xué)習(xí)過程的評價。
關(guān)鍵詞:SOM模型;學(xué)習(xí)評價;聚類分析;主成分分析
中圖分類號:TP183? ? ?文獻(xiàn)標(biāo)識碼:A
Abstract: The accurate evaluation of the learning process of college students is an important link in the improvement of students' learning efficiency, teachers' teaching methods and school teaching management. The existing evaluation methods of learning process mostly rely on accurate mathematical models, which cannot realize self-learning. In this paper, the SOM (Self Organizing Maps) model was used to evaluate the learning process of samples in an unsupervised state without prior knowledge. Meanwhile, through PCA (principal component analysis) algorithm, the convergence speed and clustering accuracy of the network can be improved. The case analysis shows that the improved SOM model can effectively evaluate students' learning process.
Keywords: SOM model; learning evaluation; cluster analysis; principal component analysis
1? ?引言(Introduction)
高校是培養(yǎng)專業(yè)人才的教育機(jī)構(gòu),學(xué)生的“學(xué)”和教師的“教”構(gòu)成了高校教學(xué)工作的核心環(huán)節(jié),這也是高校實現(xiàn)可持續(xù)、健康發(fā)展的根基。學(xué)生的學(xué)習(xí)具有過程復(fù)雜、個體迥異、發(fā)展動態(tài)的特點,并伴隨著教學(xué)活動的開展而不斷動態(tài)進(jìn)化[1]。探索如何對其進(jìn)行科學(xué)有效地系統(tǒng)評價,并利用評價結(jié)果反作用于教師授課和教學(xué)管理,對高校教學(xué)質(zhì)量的整體提升具有重要的現(xiàn)實意義[2,3]。
目前,越來越多的模擬人類智能行為或進(jìn)化過程而發(fā)展起來的計算智能技術(shù)應(yīng)用在學(xué)生學(xué)習(xí)過程的評價之中。文獻(xiàn)[4]依據(jù)評價指標(biāo)體系原則建立了網(wǎng)絡(luò)學(xué)習(xí)評價指標(biāo)體系,并運(yùn)用模糊綜合評判原理構(gòu)建了一個實用的網(wǎng)絡(luò)學(xué)習(xí)評價數(shù)學(xué)模型。文獻(xiàn)[5]提出一種采用改進(jìn)LMBP算法設(shè)計的在線評價模型,并將改進(jìn)LMBP算法運(yùn)用到實際在線學(xué)習(xí)的評價之中。文獻(xiàn)[6]構(gòu)建了基于BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)學(xué)習(xí)評價模型,并設(shè)計了基于Hadoop的BP神經(jīng)網(wǎng)絡(luò)并行算法來解決網(wǎng)絡(luò)學(xué)習(xí)評價中的大數(shù)據(jù)集分析和處理問題。文獻(xiàn)[7]將云模型與ANFIS結(jié)合,利用云模型代替模糊神經(jīng)網(wǎng)絡(luò)的隸屬度函數(shù),構(gòu)建了ANFIS云推理網(wǎng)絡(luò)以實現(xiàn)學(xué)習(xí)效果的評價。與這些方法不同的是,SOM(Self Organizing Maps)模型雖然也是一種神經(jīng)網(wǎng)絡(luò)模型,但是它是基于無監(jiān)督學(xué)習(xí)的,就這使得它能夠在缺乏先驗知識的情況下,也能夠?qū)崿F(xiàn)對未知環(huán)境和樣本空間的有效學(xué)習(xí),從而進(jìn)一步實現(xiàn)多指標(biāo)復(fù)雜情景下的學(xué)生學(xué)習(xí)過程的分類和評價。
2? ?SOM模型理論(SOM model theory)
人類大腦的一百多億神經(jīng)細(xì)胞存在著廣泛地自組織連接和功能分區(qū),不同分區(qū)的神經(jīng)細(xì)胞在遺傳和進(jìn)化的基礎(chǔ)上,對特定的輸入信號具有敏感性,從而能夠?qū)Σ煌母兄斎胄纬刹煌恼J(rèn)知結(jié)果。SOM模型就是據(jù)此提出的一種自組織特征映射神經(jīng)網(wǎng)絡(luò)模型,它本質(zhì)上是競爭學(xué)習(xí)型的無監(jiān)督神經(jīng)網(wǎng)絡(luò),也是應(yīng)用最為廣泛的自組織神經(jīng)網(wǎng)絡(luò)方法。
SOM模型的基本思想是認(rèn)為處于空間中不同位置的人工神經(jīng)元具有不同的功能分工,當(dāng)接收到外界復(fù)雜的輸入模式時,在輸出層將會形成不同的反應(yīng)區(qū)域。類似人腦,各區(qū)域?qū)斎肽J接胁煌捻憫?yīng)特性。因此,SOM模型能將高維輸入數(shù)據(jù)映射到低維空間,同時還能保持輸入數(shù)據(jù)在高維空間的拓?fù)浣Y(jié)構(gòu),即將高維空間中相似的樣本點映射到網(wǎng)絡(luò)輸出層中的鄰近神經(jīng)元[8]。輸出層的神經(jīng)元可以有一維、二維或更高維的組織形式,圖1所示為最常用的二維組織形式。
在該二維SOM模型中,輸出層神經(jīng)元的排列形式是矩陣結(jié)構(gòu),初始化時該層每個神經(jīng)元均被賦予一個隨機(jī)的權(quán)值向量。當(dāng)有新樣本向量輸入該模型時,通過模擬人腦神經(jīng)元的側(cè)抑制機(jī)制,每個輸出層的神經(jīng)元都參與競爭。例如,可以通過計算歐拉距離產(chǎn)生一個輸入樣本和權(quán)值向量之間距離最小的神經(jīng)元作為獲勝神經(jīng)元,并同時調(diào)整其周圍一定范圍內(nèi)鄰居神經(jīng)元的權(quán)值向量,該范圍之外的神經(jīng)元的權(quán)值向量則不進(jìn)行更新。這種隨著鄰域距離的增加,輸出層神經(jīng)元之間從強(qiáng)化到抑制的關(guān)系轉(zhuǎn)變?nèi)鐖D2墨西哥草帽函數(shù)所示。
獲勝神經(jīng)元的權(quán)值調(diào)整幅度最大,距離它越遠(yuǎn)的鄰域神經(jīng)元調(diào)整幅度越小,當(dāng)距離再遠(yuǎn)一些時,權(quán)值調(diào)整幅度為負(fù),更遠(yuǎn)則又回到零。經(jīng)過這樣不斷地訓(xùn)練與調(diào)整,最終輸出層的每個神經(jīng)元都能夠獲得維持拓?fù)浣Y(jié)構(gòu)的權(quán)值向量。
3? 基于改進(jìn)SOM模型的學(xué)習(xí)評價方法(Learning evaluation method based on improved SOM model)
3.1? ?SOM模型改進(jìn)
在實際應(yīng)用中,人們?yōu)榱烁娴胤治鲆粋€對象,往往會選擇較多的評價指標(biāo)對其進(jìn)行綜合描述。但由于指標(biāo)的數(shù)量增多,這些指標(biāo)之間難以避免地存在一定相關(guān)性,從而導(dǎo)致觀測樣本數(shù)據(jù)反映的真實信息產(chǎn)生重疊,甚至?xí)绊懛治鼋Y(jié)果的正確性。因此,需要用少量的不相關(guān)綜合指標(biāo)代替原來的大量原始指標(biāo)來更有效地反映分析對象的真實情況。
SOM模型的主要優(yōu)點在于其圖形表示結(jié)果直觀且易于理解和解釋,在技術(shù)上也易于實現(xiàn)。但是傳統(tǒng)SOM模型的計算復(fù)雜度較高,尤其在對數(shù)量較大、特征較多的學(xué)習(xí)數(shù)據(jù)集進(jìn)行分析和挖掘時,將需要大量的計算資源和耗時,不適于時效要求較高的應(yīng)用場景。為了既保持原始數(shù)據(jù)的本質(zhì)特征,又能有效降低其規(guī)模,可以采用數(shù)據(jù)降維的方法。
假設(shè)原始數(shù)據(jù)元組或向量由n個屬性或維度描述,在n取值較大時,如果將這些指標(biāo)直接進(jìn)行多元統(tǒng)計分析,不僅會使模型變得復(fù)雜不穩(wěn)定,還有可能因為變量之間存在多重共線性引起較大的結(jié)果誤差。利用主成分分析(Principal Components Analysis,PCA)搜索k()個最能代表這些原始數(shù)據(jù)的n維正交向量可以將原始數(shù)據(jù)投影到一個小的數(shù)據(jù)空間。與屬性子集選擇通過保留原屬性集的一個子集來減少屬性集大小的思路不同,PCA通過創(chuàng)建綜合屬性指標(biāo)來將原始高維數(shù)據(jù)投影到低維空間。
3.2? ?評價指標(biāo)篩選
評價指標(biāo)是對學(xué)生學(xué)習(xí)過程進(jìn)行評價的依據(jù),不同的評價指標(biāo)會導(dǎo)致對同一評價對象的評價結(jié)果不同。在實際評價工作中,高校學(xué)生學(xué)習(xí)過程評價是一個多層次、多目標(biāo)的復(fù)雜問題,必須根據(jù)評價目的對評價指標(biāo)進(jìn)行認(rèn)真篩選。根據(jù)學(xué)習(xí)過程的構(gòu)成,本文從學(xué)習(xí)態(tài)度、學(xué)習(xí)方法和學(xué)習(xí)效果三個方面構(gòu)建包含12個指標(biāo)項的評價指標(biāo)體系,如圖3所示。
3.3? ?評價方法設(shè)計
根據(jù)改進(jìn)的SOM模型,本文提出的學(xué)習(xí)過程評價方法包含以下步驟:
第一階段,進(jìn)行數(shù)據(jù)預(yù)處理,基本過程如下:
(1)規(guī)范化輸入的原始樣本數(shù)據(jù),避免不同屬性量綱差異的影響。
(2)通過計算,求得k個標(biāo)準(zhǔn)正交向量,即為規(guī)范化輸入數(shù)據(jù)的基。
(3)對主成分按重要性或強(qiáng)度降序排列。
(4)根據(jù)降序排列,去掉較弱的成分來歸約數(shù)據(jù)。
第二階段,建立改進(jìn)SOM模型,包括以下步驟:
(1)模型初始化,主要包括權(quán)值初值和學(xué)習(xí)率初值。
(2)輸入訓(xùn)練樣本。將第一階段生成的主成分向量輸入模型。
(3)尋找競爭層獲勝神經(jīng)元?;維OM模型在計算最佳匹配神經(jīng)元時采用簡單歐拉距離計算兩個n維向量和之間的距離,數(shù)據(jù)各維分量的分布不一樣。這里采用標(biāo)準(zhǔn)化歐拉距離尋找獲勝神經(jīng)元:
(4)進(jìn)行網(wǎng)絡(luò)權(quán)值的學(xué)習(xí)。調(diào)整獲勝神經(jīng)元和其鄰接神經(jīng)元的權(quán)值:
式中,Nc是獲勝神經(jīng)元的鄰域,是學(xué)習(xí)因子。
(5)繼續(xù)輸入新的訓(xùn)練樣本,直到學(xué)習(xí)因子逐漸下降到0或達(dá)到預(yù)定的訓(xùn)練輪數(shù)。
第三階段,將待測樣本輸入訓(xùn)練好的改進(jìn)SOM模型中進(jìn)行可視化評價。如果該樣本在競爭層的位置與某標(biāo)準(zhǔn)評價等級樣本在相同位置,則可以判定它屬于該評價等級。
4? ?實例分析(Case study)
作為基于改進(jìn)SOM模型的學(xué)習(xí)過程評價方法的示例,依據(jù)12個學(xué)習(xí)過程評價指標(biāo),對85個學(xué)生樣本進(jìn)行百分制打分。對這些樣本進(jìn)行主成分分析,由樣本協(xié)方差矩陣的特征向量計算可知前兩個主成分的累積貢獻(xiàn)率已經(jīng)達(dá)到91.04%,故降維過程取前兩個主成分,即可保證原變量信息丟失最小,且主成分個數(shù)最少以便于后續(xù)聚類分析。
選定的兩個主成分的表達(dá)式如下:
這兩個主成分作為改進(jìn)SOM模型的輸入,利用MATLAB 7.11進(jìn)行仿真,將它們映射到二維神經(jīng)元層。主要參數(shù)設(shè)置如下:結(jié)構(gòu)函數(shù)為六角結(jié)構(gòu)函數(shù),輸出層為4×4結(jié)構(gòu),排序階段學(xué)習(xí)速率為0.9,學(xué)習(xí)步長為1000,收斂階段學(xué)習(xí)速率為0.02,鄰域距離為1。
根據(jù)具體應(yīng)用場景,如果SOM模型達(dá)到訓(xùn)練要求就可以輸出保存。當(dāng)有新的樣本數(shù)據(jù)輸入時,SOM模型就會通過特定神經(jīng)元將其進(jìn)行自動分類。如果輸入的樣本數(shù)據(jù)不符合任何類別,則依據(jù)就近原則進(jìn)行分類,這也體現(xiàn)了SOM模型強(qiáng)大的適應(yīng)性。
選取五個樣本數(shù)據(jù)對訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行測試,其中,由主成分重建觀測樣本,可知這五個樣本分類和標(biāo)準(zhǔn)分類結(jié)果是一致的,這也說明改進(jìn)SOM網(wǎng)絡(luò)模型評價具有準(zhǔn)確性的優(yōu)點,且泛化性能良好。
5? ?結(jié)論(Conclusion)
利用改進(jìn)的SOM模型進(jìn)行高校學(xué)生學(xué)習(xí)過程的聚類評價,有效減少了評價指標(biāo)繁多且指標(biāo)之間具有一定相關(guān)性的影響,訓(xùn)練過程具有無監(jiān)督自學(xué)習(xí)的優(yōu)點,訓(xùn)練結(jié)果簡單直觀,而且模型具有較強(qiáng)的泛化能力和穩(wěn)定性。實例分析表明,本文方法可以為高校學(xué)生學(xué)習(xí)過程的客觀、科學(xué)評價提供有力依據(jù),從而促進(jìn)高校教學(xué)工作水平的持續(xù)提升。
參考文獻(xiàn)(References)
[1] Guri Skedsmo,Stephan Gerhard Huber.Measuring teaching quality:some key issues[J].Educational Assessment Evaluation and Accountability,2019,31(2):1-3.
[2] Sara Mortaz Hejri,Azim Mirzazadeh,Mohammad Jalili.Peer observation of teaching for formative evaluation of faculty members[J].Medical Education,2018,52(5):567-568.
[3] Matthew G Fete,Robert C Haight,Peter Clapp,et al.Peer Evaluation Instrument Development, Administration,and Assessment in a Team-based Learning Curriculum[J].American Journal of Pharmaceutical Education,2017,81(4):68.
[4] 栗濤,王清心,丁家滿.一種基于模糊理論的網(wǎng)絡(luò)學(xué)習(xí)評價模型[J].山西電子技術(shù),2009(6):48-50.
[5] 盧宇,陳錦瑩,謝靜,等.基于LMBP算法的在線學(xué)習(xí)評價模式研究[J].中國遠(yuǎn)程教育,2016(3):28-32.
[6] 陳志華.基于Hadoop的神經(jīng)網(wǎng)絡(luò)算法在網(wǎng)絡(luò)學(xué)習(xí)評價中的應(yīng)用研究[J].計算機(jī)與數(shù)字工程,2016(2):248-251.
[7] 唐肝翌,盧桂馥,周鳴爭,等.基于ANFIS云推理的網(wǎng)絡(luò)學(xué)習(xí)評價[J].西南師范大學(xué)學(xué)報(自然科學(xué)版),2014(1):137-141.
[8] Fangqing Gu,Yiu-Ming Cheung.Self-Organizing Map-Based Weight Design for Decomposition-Based Many-Objective Evolutionary Algorithm[J].IEEE Transactions on Evolutionary Computation,2018,22(2):211-225.