李錚錚 賈金娜 劉蓓蕾 馬靜
收稿日期:2023-04-08
DOI:10.19850/j.cnki.2096-4706.2023.22.031
摘? 要:學(xué)習(xí)者特征識(shí)別是在線教育決策的重要支撐。深入分析了學(xué)習(xí)者特征分析的內(nèi)涵、階段劃分和主要作用,構(gòu)建了由人口學(xué)特征、支持性特征、動(dòng)力特征、信息能力特征和策略性特征構(gòu)成的在線教育學(xué)習(xí)者特征五元模型,設(shè)計(jì)了基于PCA和k-均值聚類的學(xué)習(xí)者特征數(shù)據(jù)分析思路與方法,并進(jìn)行了實(shí)例分析,能夠?yàn)閷W(xué)習(xí)者特征及差異識(shí)別分析提供方法支撐。
關(guān)鍵詞:主成分分析;k-均值聚類;特征數(shù)據(jù);數(shù)據(jù)分析
中圖分類號(hào):TP391? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)22-0142-05
Research on Learner Characteristics Identification Based on PCA and K-means Clustering
LI Zhengzheng, JIA Jinna, LIU Beilei, MA Jing
(School of Information and Engineering, Xi'an Technology and Business College, Xi'an? 710200, China)
Abstract: Learner characteristics identification is an important support for online education decision-making. It analyzes the connotation, stage division and main functions of learner characteristics analysis deeply, and constructs a five-element model of online education learner characteristics composed of demographic characteristics, supportive characteristics, dynamic characteristics, information ability characteristics and strategic characteristics. It designs the idea and method of learner characteristics data analysis based on PCA and k-means clustering, and conducts an example analysis. It can provide methodological support for learner characteristics and difference identification analysis.
Keywords: principal component analysis; k-means clustering; characteristics data; data analysis
0? 引? 言
隨著在線教育規(guī)模的不斷擴(kuò)大,參與學(xué)習(xí)的學(xué)習(xí)者數(shù)量不斷增多,學(xué)習(xí)者個(gè)體和群體之間的差異也不斷凸顯。學(xué)習(xí)者是在線教育學(xué)習(xí)活動(dòng)的主體,學(xué)習(xí)者特征是其本質(zhì)特點(diǎn)的真實(shí)有效反映。深入開展學(xué)習(xí)者特征識(shí)別分析,了解和掌握學(xué)習(xí)者的本質(zhì)特點(diǎn),能夠?yàn)榻處熼_展在線教學(xué)設(shè)計(jì)、在線教學(xué)過程引導(dǎo)與策略優(yōu)化、信息資源開發(fā)與服務(wù)以及學(xué)習(xí)者學(xué)習(xí)狀態(tài)評(píng)估提供重要的數(shù)據(jù)支撐。
1? 學(xué)習(xí)者特征分析描述
1.1? 學(xué)習(xí)者特征分析的內(nèi)涵
特征是一個(gè)事物區(qū)別于其他事物的標(biāo)志,是對(duì)事物所具有的特性進(jìn)行歸納總結(jié)和抽象的結(jié)果。學(xué)習(xí)者特征識(shí)別是梳理、分析并確定學(xué)習(xí)者特征的過程。學(xué)習(xí)者特征有的是外在顯性的,很容易被識(shí)別發(fā)現(xiàn),有的是內(nèi)在隱性的,需要進(jìn)一步地分析研究才能被發(fā)現(xiàn)[1]。特征識(shí)別要求必須做到準(zhǔn)確、及時(shí)、實(shí)用,才能為在線教學(xué)決策提供有效支撐[2]。
從整個(gè)過程來看,特征識(shí)別大致需要經(jīng)歷幾個(gè)階段:一是針對(duì)在線教育中學(xué)習(xí)者的特點(diǎn),梳理分析學(xué)習(xí)者特征的主要方面;二是研究建立學(xué)習(xí)者特征模型,明確學(xué)習(xí)者特性分析的主要內(nèi)容;三是全面準(zhǔn)確采集學(xué)習(xí)者的相關(guān)屬性信息,并進(jìn)行集成整合;四是采用統(tǒng)計(jì)分析、數(shù)據(jù)挖掘方法進(jìn)行學(xué)習(xí)者特征的提取發(fā)現(xiàn),最終明確學(xué)習(xí)者特征。
1.2? 學(xué)習(xí)者特征分析的作用
對(duì)在線教育中學(xué)習(xí)者特征進(jìn)行系統(tǒng)深入的識(shí)別分析,能夠?yàn)闇?zhǔn)確把握學(xué)習(xí)者真實(shí)情況,有針對(duì)性地設(shè)計(jì)在線教育課程,采取有效策略實(shí)施教學(xué)引導(dǎo)與信息服務(wù),顯著提升在線教育的效果和水平奠定重要基礎(chǔ)[3-5]。其重要作用主要體現(xiàn)在以下幾方面:
1)為在線教學(xué)設(shè)計(jì)提供依據(jù)。在深入了解和掌握學(xué)習(xí)者諸多特征的基礎(chǔ)上,教師能夠根據(jù)學(xué)習(xí)者的特點(diǎn),有針對(duì)性地設(shè)計(jì)教學(xué)內(nèi)容組成、難易程度、結(jié)構(gòu)順序、進(jìn)度安排等,使學(xué)習(xí)者能夠順利開展在線學(xué)習(xí),循序漸進(jìn)地掌握知識(shí)要領(lǐng),增強(qiáng)在線學(xué)習(xí)的興趣和成就感。
2)為在線教學(xué)的過程引導(dǎo)和策略調(diào)整提供依據(jù)。適時(shí)發(fā)現(xiàn)學(xué)習(xí)者思想認(rèn)識(shí)、能力水平、學(xué)習(xí)習(xí)慣、興趣愛好等方面的特征和規(guī)律,能夠針對(duì)學(xué)習(xí)者進(jìn)行積極引導(dǎo),根據(jù)學(xué)習(xí)者在線學(xué)習(xí)特征的變化持續(xù)進(jìn)行教學(xué)策略的調(diào)整優(yōu)化,更好地幫助學(xué)習(xí)者完成在線學(xué)習(xí)任務(wù)。
3)為學(xué)習(xí)資源準(zhǔn)備與服務(wù)提供依據(jù)。在學(xué)習(xí)者起始基礎(chǔ)、認(rèn)知能力、興趣愛好等方面特征識(shí)別的基礎(chǔ)上,相關(guān)人員能夠有針對(duì)性地進(jìn)行教學(xué)資源開發(fā)、信息資源準(zhǔn)備以及信息聚合服務(wù),提高學(xué)習(xí)者在線學(xué)習(xí)的效果和效率。
4)為客觀準(zhǔn)確評(píng)估學(xué)習(xí)者學(xué)習(xí)狀態(tài)提供依據(jù)。根據(jù)學(xué)習(xí)者開展在線學(xué)習(xí)時(shí)本身的認(rèn)知能力、學(xué)習(xí)態(tài)度和行為規(guī)律等,再結(jié)合學(xué)習(xí)者最終學(xué)習(xí)成績(jī)情況,能夠?qū)ζ溥M(jìn)行客觀公正的評(píng)價(jià)。
2? 學(xué)習(xí)者特征模型設(shè)計(jì)
已有學(xué)習(xí)者特征模型主要集中在人口學(xué)、學(xué)習(xí)條件、學(xué)習(xí)動(dòng)力、學(xué)習(xí)準(zhǔn)備和學(xué)習(xí)策略等方面,結(jié)合學(xué)習(xí)者的職業(yè)特點(diǎn),并考慮人工智能時(shí)代的信息加工處理能力,本文構(gòu)建了在線教育學(xué)習(xí)者特征五元模型,主要包括:人口學(xué)特征(Demography)、支持性特征(Support)、動(dòng)力特征(Motive)、信息能力特征(Information)和策略性特征(Strategy),概括為DSMIS模型[1,6-8]。如圖1所示。
其中,人口學(xué)特征,更多的是學(xué)習(xí)者自身相對(duì)穩(wěn)定的屬性特征,主要包括學(xué)習(xí)者的生理特征、職業(yè)特征、受教育特征、社會(huì)特征等;支持性特征,主要是指學(xué)習(xí)者開展在線教育所具備的外部條件,主要包括學(xué)習(xí)條件特征、求助方式特征、學(xué)習(xí)時(shí)間特征、求助對(duì)象特征等;動(dòng)力特征是驅(qū)動(dòng)學(xué)習(xí)者開展在線教育的相關(guān)特征,主要包括學(xué)習(xí)任務(wù)特征、晉升考評(píng)特征、自我提升特征等;信息能力特征,是指學(xué)習(xí)者自身開展在線學(xué)習(xí)所具備的能力、所體現(xiàn)出的水平,主要包括學(xué)習(xí)經(jīng)歷特征、已有知識(shí)經(jīng)驗(yàn)特征、信息素養(yǎng)特征、技術(shù)水平特征等;策略性特征,是指學(xué)習(xí)者為實(shí)現(xiàn)在線學(xué)習(xí)目標(biāo)而制定的行動(dòng)方針和作業(yè)方法,主要包括認(rèn)知策略、元認(rèn)知策略、學(xué)習(xí)管理策略、輔助手段策略等。
3? 學(xué)習(xí)者特征數(shù)據(jù)分析方法
3.1? 基本思路
學(xué)習(xí)者特征分析主要包括特征識(shí)別問題分析、特征數(shù)據(jù)采集與預(yù)處理、特征要素簡(jiǎn)化、特征數(shù)據(jù)聚類和結(jié)果分析5個(gè)環(huán)節(jié),如圖2所示。首先,運(yùn)用空間建模理論方法,明確學(xué)習(xí)者特征分析的時(shí)間階段、識(shí)別的特征要素以及以誰為主體進(jìn)行識(shí)別等問題;其次,依據(jù)數(shù)據(jù)工程理論方法,進(jìn)行學(xué)習(xí)者特征數(shù)據(jù)的準(zhǔn)備,需要采取不同的手段進(jìn)行學(xué)習(xí)者特征數(shù)據(jù)采集,并進(jìn)行提取、轉(zhuǎn)換等預(yù)處理;第三,采用主成分分析(Principal Component Analysis, PCA)方法進(jìn)行要素約簡(jiǎn),降低挖掘分析的難度,保證數(shù)據(jù)分析的可行性和可操作性;第四,基于k-均值聚類算法,進(jìn)行學(xué)習(xí)者特征數(shù)據(jù)聚類分析;第五,針對(duì)特征數(shù)據(jù)聚類結(jié)果,結(jié)合領(lǐng)域知識(shí)和專家經(jīng)驗(yàn)進(jìn)行分析研究,識(shí)別出不同學(xué)習(xí)者的特征。
3.2? 學(xué)習(xí)者特征分析空間建模
在此引入空間建模的方法,從分析主體、學(xué)習(xí)階段、特征要素三個(gè)維度入手,建立學(xué)習(xí)者特征分析立體空間模型,如圖3所示,以明確學(xué)習(xí)者特征分析的邊界,找準(zhǔn)特征識(shí)別的主題、內(nèi)容、時(shí)間階段等問題。在空間的三個(gè)維度中,分析主體維是指以誰為主體進(jìn)行學(xué)習(xí)者特征分析,可以是學(xué)習(xí)者自身,也可以是教師、管理者或其他人員;學(xué)習(xí)階段維是指開展學(xué)習(xí)者特征分析的時(shí)間階段,包括在線學(xué)習(xí)的準(zhǔn)備階段、實(shí)施階段、結(jié)束階段;特征要素維是指學(xué)習(xí)者特征分析的內(nèi)容,包括前面DSMIS模型中設(shè)計(jì)的19個(gè)要素。
3.3? 基于PCA的學(xué)習(xí)者特征要素簡(jiǎn)化
采用PCA方法[9,10]進(jìn)行學(xué)習(xí)者特征要素權(quán)重計(jì)算,按權(quán)重進(jìn)行特征要素排序和特征要素選擇,并根據(jù)學(xué)習(xí)者特征數(shù)據(jù)聚類分析,實(shí)現(xiàn)特征要素的簡(jiǎn)化?;赑CA的學(xué)習(xí)者特征要素權(quán)重計(jì)算方法描述如圖4所示。
3.3.1? 學(xué)習(xí)者特征數(shù)據(jù)PCA計(jì)算
設(shè)學(xué)習(xí)者特征數(shù)據(jù)為P維隨機(jī)向量X = (X1,X2,…,XP)′,有n個(gè)樣本Xi = (Xi1,Xi2,…,XiP)′,i = 1,2,…,n設(shè)經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化處理、相關(guān)系數(shù)矩陣計(jì)算、特征根與特征向量計(jì)算,t1,t2,…,tm分別表示前m個(gè)學(xué)習(xí)者特征指標(biāo)主成分方差貢獻(xiàn)率,且每個(gè)特征值均大于1。得到的m個(gè)主成分線性組合如下:
F1 = a11 X1 + a12 X2 + … + a1p Xp
F2 = a21 X1 + a22 X2 + … + a2p Xp
…
Fm = am1 X1 + am2 X2 + … + amp Xp
3.3.2? 計(jì)算各學(xué)習(xí)者特征指標(biāo)權(quán)重系數(shù)
設(shè)μ1,μ2,…,μp為各學(xué)習(xí)者特征指標(biāo)權(quán)重系數(shù),則:
得到綜合得分模型為:
Y = μ1 X1 + μ2 X2 + … + μp Xp
3.3.3? 學(xué)習(xí)者特征指標(biāo)權(quán)重系數(shù)歸一化處理
設(shè) ,則 。由此得到綜合得分模型Y′:
Y′ =? X1 +? X2 + … +? Xp
通過上述計(jì)算,能夠得到學(xué)習(xí)者各特征指標(biāo)的權(quán)重系數(shù)列表,根據(jù)該列表即可進(jìn)行學(xué)習(xí)者特征指標(biāo)選擇。
3.4? 基于K-均值的學(xué)習(xí)者特征數(shù)據(jù)聚類
采用K-均值算法[11,12]進(jìn)行學(xué)習(xí)者特征數(shù)據(jù)聚類,以發(fā)現(xiàn)學(xué)習(xí)者群體分布情況及其特征。在此將學(xué)習(xí)者特征數(shù)據(jù)聚類問題描述為:設(shè)學(xué)習(xí)者特征數(shù)據(jù)集R,包含有d維數(shù)據(jù),n個(gè)學(xué)習(xí)者對(duì)象。要將n個(gè)對(duì)象劃分為k個(gè)子類Mk,(k≤n),使得對(duì)于任意1≤i,j≤k,且i ≠ j,都有Mi ? R,Mj ? R,且Mi ∩ Mj = ?。誤差平方和函數(shù)Jc定義為:
其中,p為Mi中的學(xué)習(xí)者對(duì)象,Ci是Mi中學(xué)習(xí)者對(duì)象的均值。
基于K-均值的學(xué)習(xí)者特征數(shù)據(jù)聚類的核心思想是將學(xué)習(xí)者看成空間中的一個(gè)點(diǎn),將相近的點(diǎn)歸為一類,并盡可能使不同類中的對(duì)象距離最遠(yuǎn)。具體如圖5所示。
4? 學(xué)習(xí)者特征數(shù)據(jù)分析實(shí)例
本文收集整理了由年齡、現(xiàn)從事專業(yè)與課程相關(guān)性、學(xué)位、婚姻情況、經(jīng)濟(jì)條件、學(xué)習(xí)地點(diǎn)、上網(wǎng)條件、學(xué)習(xí)任務(wù)、自我晉升考評(píng)需要、自我提升需要、有相關(guān)學(xué)習(xí)經(jīng)歷、信息素養(yǎng)、技術(shù)水平13個(gè)特征指標(biāo)組成的94名學(xué)習(xí)者的特征數(shù)據(jù),并應(yīng)用IBM SPSS Statistics 21進(jìn)行數(shù)據(jù)處理與分析。
4.1? 計(jì)算過程
4.1.1? 特征要素簡(jiǎn)化處理
首先,應(yīng)用SPSS計(jì)算得到KMO和Bartlett的檢驗(yàn)結(jié)果。其中,KMO結(jié)果為0.798,表明這些數(shù)據(jù)適合于主成分分析。采用特征根>1作為因子提取依據(jù),提取了前4個(gè)因子(分別為5.375、1.684、1.326、1.022)作為主因子,并計(jì)算得到4個(gè)主成分的線性組合。由于學(xué)習(xí)者特征指標(biāo)比較多,本文以表格的形式列出各指標(biāo)的系數(shù),如表1所示。
按照前述公式計(jì)算各學(xué)習(xí)者特征指標(biāo)權(quán)重系數(shù),得到綜合得分模型為:
由于系數(shù)中存在負(fù)數(shù),因此在統(tǒng)一加1處理后,進(jìn)行權(quán)重系數(shù)歸一化,并按權(quán)重系數(shù)大小由左至右排列,得到如表2所示的各指標(biāo)權(quán)重系數(shù)。
從總體上看,13個(gè)學(xué)習(xí)者特征指標(biāo)中,自我提升需要、學(xué)位、經(jīng)濟(jì)條件、信息素養(yǎng)、年齡、學(xué)習(xí)任務(wù)、技術(shù)水平等指標(biāo)權(quán)重高于其他指標(biāo),均大于0.08,因此本文選擇這7個(gè)指標(biāo)為學(xué)習(xí)者特征數(shù)據(jù)聚類的基礎(chǔ)。
4.1.2? 特征數(shù)據(jù)聚類
將聚類k設(shè)置為5,以序號(hào)為標(biāo)志依據(jù),采用迭代與分類的方法進(jìn)行聚類計(jì)算,初始聚類中心設(shè)置如表3所示。
根據(jù)聚類公式進(jìn)行聚類計(jì)算,迭代4次后由于聚類中心沒有改動(dòng)或改動(dòng)較小而達(dá)到收斂。聚類結(jié)果如表4、表5所示。
4.2? 結(jié)果分析
針對(duì)上述梳理的學(xué)習(xí)者特征數(shù)據(jù)以及特征要素簡(jiǎn)化與聚類結(jié)果,可以看出以下內(nèi)容。
從94名學(xué)習(xí)者的13個(gè)特征指標(biāo)數(shù)據(jù)看,一是自我提升需要的權(quán)重最高,說明該動(dòng)力特征是驅(qū)動(dòng)學(xué)習(xí)者開展在線學(xué)習(xí)的首要因素;二是學(xué)位、經(jīng)濟(jì)條件、信息素養(yǎng)、年齡、學(xué)習(xí)任務(wù)、技術(shù)水平等指標(biāo)的權(quán)重相對(duì)較高,是進(jìn)行學(xué)習(xí)者特征分析、課程設(shè)計(jì)等過程中需要考慮的重要方面;三是學(xué)習(xí)地點(diǎn)、上網(wǎng)條件等客觀因素,以及學(xué)習(xí)者以往學(xué)習(xí)經(jīng)歷、現(xiàn)從事專業(yè)對(duì)學(xué)習(xí)者特征分析的影響較弱,在實(shí)際數(shù)據(jù)采集與分析時(shí)可以不作為重點(diǎn)。
從基于94名學(xué)習(xí)者7個(gè)特征指標(biāo)數(shù)據(jù)的聚類看,學(xué)習(xí)者的年齡、學(xué)位、信息素養(yǎng)和技術(shù)水平在聚類中起到了重要作用。以20歲左右的學(xué)習(xí)者為例,該類人員共有44人,占學(xué)習(xí)者總數(shù)的46.8%,學(xué)歷主要是初中和高中,并且主要在機(jī)房進(jìn)行在線學(xué)習(xí);學(xué)習(xí)者的學(xué)習(xí)動(dòng)力以自我提升需要為主,但也有類別中29.5%的學(xué)習(xí)者以其為學(xué)習(xí)任務(wù);學(xué)習(xí)者的信息素養(yǎng)以理念接受為主,占比77.3%,信息素養(yǎng)最高不超過信息獲取,且以理念接受為主的學(xué)習(xí)者的信息技術(shù)水平較差,具備信息獲取能力的學(xué)習(xí)者則通常具備計(jì)算機(jī)基本軟件應(yīng)用能力。通過與25歲左右、29歲左右、32歲左右、36歲左右學(xué)習(xí)者對(duì)比分析,可以推測(cè)20歲左右的學(xué)習(xí)者可能主要是在校大學(xué)生或剛高中畢業(yè)不久的高中生,這些人的信息素養(yǎng)和技能方面相對(duì)較弱,針對(duì)此類人員,教師可以在進(jìn)行課程設(shè)計(jì)時(shí),盡量減少學(xué)習(xí)者的操作環(huán)節(jié)和操作步驟,多為學(xué)習(xí)者提供導(dǎo)航和幫助,推薦一些提升信息基礎(chǔ)能力的資源和課程。
5? 結(jié)? 論
學(xué)習(xí)者特征數(shù)據(jù)分析是在線教育初始階段需要開展的關(guān)鍵性工作,也是教育過程中需要持續(xù)關(guān)注的重要內(nèi)容。通過開展學(xué)習(xí)者特征數(shù)據(jù)分析,能夠識(shí)別出不同特征的學(xué)習(xí)者群體,對(duì)學(xué)習(xí)者的整體情況有更加深入的了解和掌握,為教師設(shè)計(jì)課程內(nèi)容和資源提供依據(jù),也為后續(xù)學(xué)習(xí)者行為分析和信息資源推薦服務(wù)奠定重要基礎(chǔ)。
參考文獻(xiàn):
[1] 丁雪莉.新生代繼續(xù)教育學(xué)習(xí)者特征及其教學(xué)活動(dòng)設(shè)計(jì) [D].西安:西安電子科技大學(xué),2015.
[2] 游琪,陳紅玲.基于在線學(xué)習(xí)者特征的個(gè)性化學(xué)習(xí)路徑研究 [J].現(xiàn)代信息科技,2021,5(9):127-130.
[3] 康亞華.翻轉(zhuǎn)課堂模式下學(xué)習(xí)者特征、學(xué)習(xí)行為和學(xué)業(yè)成就的關(guān)系研究 [J].教書育人:高教論壇,2022(30):4-8.
[4] 王改花,張李飛,傅鋼善.學(xué)習(xí)者特征對(duì)混合學(xué)習(xí)效果影響研究 [J].開放教育研究,2021,27(1):71-83.
[5] 于勝玥,曲永娟,劉曉萌.“互動(dòng)課堂”系統(tǒng)支持下學(xué)習(xí)者個(gè)性化特征分析 [J].大連教育學(xué)院學(xué)報(bào),2022,38(4):60-62.
[6] 楊陽.在線開放課程背景下在校學(xué)習(xí)者特征調(diào)查分析 [J].高教學(xué)刊,2020(17):191-193.
[7] 孫海民.個(gè)性特征對(duì)網(wǎng)絡(luò)學(xué)習(xí)行為影響研究的關(guān)鍵問題探究 [J].電化教育研究,2012,33(10):50-55+63.
[8] 鄧志建.遠(yuǎn)程開放教育學(xué)習(xí)者特征分析——基于對(duì)大連296名開放教育學(xué)生的調(diào)查 [J].當(dāng)代教育實(shí)踐與教學(xué)研究,2020(7):5-6.
[9] 吳殿廷,吳迪.用主成分分析法作多指標(biāo)綜合評(píng)價(jià)應(yīng)該注意的問題 [J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2015,45(20):143-150.
[10] 劉永志.主成分分析和聚類在科學(xué)技術(shù)數(shù)據(jù)分析中的應(yīng)用 [D].長(zhǎng)春:吉林大學(xué),2016.
[11] 葛道凱,張少剛,魏順平.教育數(shù)據(jù)挖掘方法與應(yīng)用 [M].北京:教育科學(xué)出版社,2012.
[12] 胡祖輝,施佺.高校學(xué)生上網(wǎng)行為分析與數(shù)據(jù)挖掘研究 [J].中國(guó)遠(yuǎn)程教育,2017(2):26-32.
作者簡(jiǎn)介:李錚錚(1981—),女,漢族,河北石家莊人,工程師,博士,研究方向:教育數(shù)據(jù)分析。