趙 春,李 欣
(成都錦城學院 計算機與軟件學院,四川 成都 611731)
在“互聯(lián)網(wǎng)+教育”的背景下,隨著移動智能設(shè)備的普及和數(shù)字化學習資源的極大豐富,網(wǎng)絡(luò)學習逐漸成為一種主流的學習模式。學生在網(wǎng)絡(luò)學習空間中的學習行為產(chǎn)生了大量的學習數(shù)據(jù)。利用基于大數(shù)據(jù)的用戶畫像技術(shù)對學生的線上學習數(shù)據(jù)進行挖掘分析、構(gòu)建學生學習畫像變得現(xiàn)實可行。
用戶畫像是根據(jù)用戶數(shù)據(jù)提煉出的描述用戶屬性及行為的標簽集合[1],被廣泛地應(yīng)用于描述用戶特征、用戶興趣和用戶偏好等[2-4]。學生畫像則是用戶畫像技術(shù)在教育領(lǐng)域的應(yīng)用,反映了學生的學習特征和學習行為。它可以幫助教師理解教學實施情況,也可以輔助制定新的教學策略[5]。余明華等將學生畫像劃分為能力屬性、行為屬性和興趣屬性,以數(shù)據(jù)分析和人工手段相結(jié)合的方式建立了學生畫像的標簽體系[6]。楊長春等認為創(chuàng)建用戶畫像的過程就是依據(jù)構(gòu)建的用戶模型在用戶信息中得到特征,并將特征標簽化的過程[7]。他從學生的基本特征、學習特征、學習能力、素質(zhì)與偏好五個維度進行了學生畫像建模。黃文林認為學生畫像是用能夠反映學生的特征描述、行為診斷和需求預測屬性的三類標簽來刻畫,并進行可視化呈現(xiàn)的用戶畫像方法[8]。任紅杰認為學生畫像是根據(jù)學生的基礎(chǔ)信息、學習習慣、學習偏好、學習行為和學習期待等方面的數(shù)據(jù)信息構(gòu)建出來的標簽化學生模型[9]。楊彩霖認為可以從線上學習的活躍度、參與度、持久度、學習效果和學習預警五個維度刻畫學生個體畫像,并對每個維度賦予相應(yīng)的權(quán)值[10]。
以上研究基于各自不同的數(shù)據(jù)基礎(chǔ)和畫像需求,從不同的角度提出了構(gòu)建學生畫像標簽模型的方法。它們各自抽取的數(shù)據(jù)維度和粒度雖然有所不同,但學習能力和學習行為均被包含其中,是最被研究者重視的兩個維度。上述研究中提到的學習習慣和學習偏好等維度完全可以合入學習行為維度中體現(xiàn)。學習能力標簽模型可以以學生的學習成績?yōu)橹饕罁?jù)進行分析刻畫,而學習行為標簽模型的構(gòu)建所依賴的數(shù)據(jù)維度則相對較為復雜,比如設(shè)備使用習慣、登錄時間習慣、作業(yè)完成習慣和學習響應(yīng)習慣等。
在構(gòu)造學習畫像標簽的過程中,傳統(tǒng)方式采用的單純統(tǒng)計類標簽維度刻畫的模式具有顆粒度粗糙、標簽等級不夠精準的缺陷。因此很多研究者利用聚類方法進行用戶分類與畫像構(gòu)建。張毅認為大數(shù)據(jù)背景下用戶畫像的統(tǒng)計方法可以簡單概括為針對用戶屬性加以統(tǒng)計,建議從統(tǒng)計分析視角出發(fā),明確畫像指標,做好主客觀指標之間的轉(zhuǎn)換,從而獲得用戶畫像更詳細的特征[11]。翟鳴宇等為適應(yīng)教育大數(shù)據(jù)中含有的大量類別信息,采用了K-prototype聚類方法對高校學生大數(shù)據(jù)進行聚類,以此構(gòu)建學生畫像[12]。許智宏等通過改進K-means算法和PCA算法來對學生行為進行用戶畫像[13]。凌玉龍等在引入馬氏距離的基礎(chǔ)上通過改變初始聚類中心的選擇來改進K-means算法,從而適應(yīng)學生群體聚類場景,更好地刻畫學生的消費畫像[14]。王惠惠等在實施學生群體畫像的過程中為了提高聚類結(jié)果的精確性和魯棒性,利用KMeans、KModes和GMM三種聚類方法構(gòu)建基聚類器,并通過投票方法對聚類結(jié)果進行集成處理[15]。袁苗苗等基于改進的K-means聚類算法針對記錄數(shù)據(jù)和用戶評論數(shù)據(jù)分別建立了用戶興趣特征標簽庫和用戶消費特征標簽庫,提出了多數(shù)據(jù)源融合的用戶畫像構(gòu)建方法[16]。
由此可見,K-Means聚類算法成為研究者構(gòu)建用戶畫像時最常被采用的方法,但是KMeans等聚類算法魯棒性不好,對噪聲敏感,同時存在對離散型特征無法進行有效訓練的缺陷??紤]到不同維度的特點,針對具有代表性的學習能力及學習行為標簽,文中通過提出一種新的調(diào)整的線性加權(quán)變異系數(shù)算法,實現(xiàn)了學生學習能力標簽模型;同時基于偏好隨機變量概率分布理論,利用箱線圖和k百分位數(shù)方法構(gòu)建了學生行為標簽模型,較好地實現(xiàn)了學生畫像的精準構(gòu)建。
文中使用的學生學習數(shù)據(jù)集按照教學周階段性產(chǎn)生、采集,具有連續(xù)的數(shù)值型特征,同時也具備周期性、動態(tài)性的特點。對學習能力的階段性刻畫,集中趨勢度指標是一種常用的方法,如均值、眾數(shù)、中位數(shù)等,因為這些指標代表了學生的平均水平。但是均值的魯棒性非常差,容易受到噪聲的影響,而眾數(shù)則更加適合離散的數(shù)據(jù)特征。中位數(shù)雖然克服了上述兩種指標度量的缺點,兼具魯棒性和數(shù)值特征適應(yīng)性,但是又沒有考慮到每一次成績的變化波動情況。離中趨勢度指標是另外一種可以用于刻畫學習能力的方法。但是如果單純使用方差或者標準差,雖然能夠度量數(shù)據(jù)的離散程度,但是忽略了成績數(shù)據(jù)的周期動態(tài)性特點,即每周都會有新的成績數(shù)據(jù)產(chǎn)生。成績數(shù)據(jù)集合以周為單位進行擴充,樣本容量每周發(fā)生變化。因此采用變異系數(shù)(Coefficient of Variation,CV)的形式度量學習能力穩(wěn)定性是較為合適的方法。CV沒有量綱,不受樣本容量限制,這樣就可以對學習能力穩(wěn)定性進行客觀比較。
傳統(tǒng)的變異系數(shù)CV的計算方式為原始數(shù)據(jù)標準差與原始數(shù)據(jù)平均數(shù)的比,如式(1)所示:
(1)
傳統(tǒng)的變異系數(shù)CV計算方法簡潔,但是沒有考慮變量每一次取值的差異性與重要性,因此,該文引入了加權(quán)調(diào)整的變異系數(shù)Adjusted_CV,解決帶權(quán)重的特征穩(wěn)定性的計算問題。
圖1是構(gòu)建學習能力穩(wěn)定性的算法模型。
圖1 學習能力穩(wěn)定性算法模型
成績數(shù)據(jù)源SDataset如式(2)所示,包括m個學生,n次成績。
SDataset=[s1,s2,…,sm]=
(2)
其中,Si{i=1,2,…,m}為學生成績樣本,wsi,j為第i個樣本第j周的成績(ws為weekscore的簡記),如式(3)所示:
可以通過圖1所示的學習能力穩(wěn)定性算法模型計算si的CV系數(shù)值。模型輸入層InputLayer接收到按周期采集的n次成績:weekscore1,…,weekscoren,每次成績根據(jù)其難度系數(shù)給予不同權(quán)重fi,i的取值為1,2,…,n。轉(zhuǎn)換層TransferLayer根據(jù)接收到的成績及權(quán)重數(shù)據(jù),計算集中趨勢度和離中趨勢度。集中趨勢度采用加權(quán)線性平均的形式進行計算,計算結(jié)果記為Weighted_Mean(score_stu),如式(4)所示:
(4)
其中,fi為每次任務(wù)的難度系數(shù)權(quán)重,i的取值為1,2,…,n。
離中趨勢度的計算采用加權(quán)的樣本標準差進行計算,其中n為樣本容量,即當前個體成績數(shù)量。計算結(jié)果記為Weighted_σ(score_stu),如式(5)所示:
Weighted_σ(score_stu)=
(5)
其中,weekscorei是動態(tài)的每周學習成績,n為時間窗口期內(nèi)的作業(yè)數(shù)量。
模型輸出層OutputLayer計算最終的學習能力穩(wěn)定性系數(shù)CV值,采用加權(quán)的標準差與加權(quán)線性均值的比值計算,進而調(diào)整的Adjusted_CV計算公式如式(6)所示:
(6)
其中,Adjusted_CV(score)作為個體成績穩(wěn)定性原始評價指標,可有效衡量窗口期內(nèi)學生成績的穩(wěn)定性情況,消除量綱與樣本容量的影響。Adjusted_CV(score)數(shù)值越小,窗口期內(nèi)學生成績越穩(wěn)定地趨近于該學生的平均水平,集中趨勢的代表性越好,學生的學習能力越穩(wěn)定。Adjusted_CV(score)數(shù)值越大,平均成績的代表性也就越差,成績數(shù)值的震蕩性越大,因而學生能力的穩(wěn)定性也就越差。
經(jīng)過上述算法對Adjusted_CV值的處理,可以得到一系列個體成績穩(wěn)定性原始評價數(shù)據(jù)集合。Adjusted_CV(score)={scorei,i=1,2,…,n},n為樣本容量。為了評價個體學生成績穩(wěn)定性在全量樣本中的位置,此處采用箱線圖k百分位數(shù)的方式進行離散化,計算方法為p=1+(n-1)×k%,p為k百分位數(shù)的位置,此處k的取值為序列[0,25,50,75,100],從而最終產(chǎn)生個體學習穩(wěn)定性標簽。上述完整的學習能力穩(wěn)定性標簽構(gòu)建算法如算法1所示。
算法1:學習能力穩(wěn)定性標簽構(gòu)建算法
輸入:階段性在線學習事務(wù)數(shù)據(jù)集C
過程:
(1)Shuffle(C) //隨機打亂數(shù)據(jù)集
(2)For each score_stu inC:
(3) Aggregation(score_stu) //分組聚合個體樣本的階段性評分數(shù)據(jù)
(4) 根據(jù)式(4)計算Weighted_Mean(score_stu) //計算個體線性加權(quán)集中趨勢度指標
(5) 根據(jù)式(5)計算Weighted_σ(score_stu) //計算個體加權(quán)離中趨勢度指標
(6) 根據(jù)式(6)計算Adjusted_cv(scorei) //計算該個體成績穩(wěn)定性指標
(7) Add(CV, Adjusted_cv) //將個體成績穩(wěn)定性指標Adjusted_cv加入全量樣本穩(wěn)定性指標集合CV
(8)End For
(9)Sort(CV) //對全量樣本cv值進行排序
(10)P=1+(n-1)×k% //計算箱線圖k百分位數(shù),P為k百分位數(shù)位置集合,k取值序列為[0,25,50,75,100],n為樣本數(shù)
(11)For each cv in CV:
(12) loc=Position(cv,P) //計算個體樣本所處百分位數(shù)位置
(13)Fi=AssignFlag(loc) //根據(jù)個體位置賦予對應(yīng)標簽
(14) Add(F,Fi) //將個體成績穩(wěn)定性標簽Fi加入全量樣本穩(wěn)定性標簽集合F
(15)End For
輸出:學習成績穩(wěn)定性畫像標簽集合F
學習行為是指學生在線學習的行為習慣,如學習響應(yīng)習慣、設(shè)備訪問習慣、登錄時間習慣、作業(yè)完成習慣等。其中學生對學習任務(wù)的響應(yīng)習慣最具代表性,反映了學生的學習主動性和積極性。下面以學習響應(yīng)習慣為例,詳細闡述行為偏好類畫像標簽模型的構(gòu)建算法。圖2展示了學習響應(yīng)習慣偏好行為的事務(wù)數(shù)據(jù)流。學習響應(yīng)偏好數(shù)據(jù)的產(chǎn)生主要由任務(wù)點、作業(yè)、測試、討論等行為觸發(fā),而終端個體會響應(yīng)該任務(wù),形成訪問時間數(shù)據(jù)流。學習響應(yīng)習慣偏好標簽模型以全量時間數(shù)據(jù)流為基礎(chǔ),利用箱線圖k百分位點方法及概率分布等理論產(chǎn)生。相比較傳統(tǒng)的忽略中間時刻敏感度、使用部分響應(yīng)取平均的方式,這種構(gòu)建方法更為精準客觀。
圖2 學習響應(yīng)習慣偏好行為事務(wù)數(shù)據(jù)流
第一步是單次行為事件的觸發(fā),將每一次任務(wù)的發(fā)布事件序列記為T={trelease,tcheck,tsubmit}。其中trelease、tcheck、tsubmit分別為發(fā)布時間、查看時間和提交時間。切片時間段數(shù)據(jù)記為V={vsensitive,vcomplete},其中vsensitive=tcheck-trelease,vcomplete=tsubmit-tcheck。學習響應(yīng)敏感度為任務(wù)查看時間減去任務(wù)發(fā)布時間,學習響應(yīng)完成度為任務(wù)提交時間與查看時間之差。每一個個體一次任務(wù)的響應(yīng)值計算公式如式(7)所示:
rj,i=w1*vsensitive+w2*vcomplete
w1+w2=1,i=1,2,…,m,j=1,2,…,n
(7)
響應(yīng)值rj,i即為響應(yīng)敏感度和完成度的線性加權(quán)平均,m為發(fā)布任務(wù)數(shù),n為學生樣本量,vsensitive為一次任務(wù)的學習響應(yīng)敏感度,vcomplete為一次任務(wù)的學習響應(yīng)完成度,w1、w2分別為敏感度和完成度權(quán)重。
對于一次任務(wù),全量學生形成的響應(yīng)度集合為Ri={r1,i,r2,i,…,rn,i}。
第二步,采用箱線圖k百分位數(shù)的方式對響應(yīng)度集合Ri進行離散化,計算方法為p=1+(n-1)×k%,p為k百分位數(shù)的位置,k的取值為序列[0,30,70,100]。
第三步,采用眾數(shù)投票的方式對每一次任務(wù)分段結(jié)果進行投票計數(shù),取分段頻次最大概率值作為最終的學習響應(yīng)習慣標簽。分段概率計算公式如式(8)所示。
(8)
其中,n_pos、n_com、n_neg為第j個樣本的積極性、一般、消極性的支持度計數(shù),m為任務(wù)數(shù),pj為第j個樣本學習響應(yīng)分段頻次概率集合,ppos為響應(yīng)積極的概率,pcom為響應(yīng)一般的概率,pneg為響應(yīng)消極的概率。最終的個體標簽取決于概率分布的最大值, maxPj=max{ppos,pcom,pneg}。上述完整的學習響應(yīng)習慣標簽模型構(gòu)建算法如算法2所示。
算法2:學習響應(yīng)習慣標簽模型構(gòu)建算法
輸入:切片時間事件數(shù)據(jù)集C
過程:
(1)For eachTiinC.T: //遍歷學習任務(wù)數(shù)據(jù)集
(2) For eachSjinTi.S: //遍歷第i次任務(wù)的個體樣本學習數(shù)據(jù)集
(3)Sj.vsensitive=Sj.tcheck-Sj.trelease//計算樣本j的任務(wù)敏感度
(4)Sj.vcomplete=Sj.tsubmit-Sj.tcheck//計算樣本j的任務(wù)完成度
(5) 根據(jù)式(7)計算Rj,i//計算個體樣本j的第i次任務(wù)的響應(yīng)值
(6) Add(Ri,Rj,i) //將個體任務(wù)響應(yīng)值Rj,i加入全量樣本響應(yīng)值集合R
(7) End For
(8)P=1+(n-1)×k% //計算箱線圖k百分位數(shù),P為k百分位數(shù)的位置集合,k的取值為序列[0,30,70,100],n為個體樣本數(shù)
(9) For eachRj,iinRi:
(10) loc=Position(Rj,i,P) //計算個體樣本j所處百分位數(shù)位置
(11) MFj,i=Flag(loc) //計算樣本j第i次任務(wù)的標簽
(12) Add(MF,MFj,i) //將樣本j第i次任務(wù)標簽MFj,i加入全量樣本任務(wù)積極性標簽階段性集合MF
(13) End For
(14)End For
(15)For each MFjin MF:
(16) 根據(jù)式(8)計算Pj={Ppos,Pcom,Pneg} //計算個體學習響應(yīng)分段頻次概率集合
(17)Fj=max(Pj) //生成個體學習響應(yīng)習慣標簽,個體標簽取決于概率分布的最大值
(18) Add(F,Fj) //將個體響應(yīng)習慣標簽Fj加入全量樣本響應(yīng)習慣標簽集合F
(19)End For
輸出:學習響應(yīng)習慣標簽集合F
實驗數(shù)據(jù)通過學習通系統(tǒng)在線數(shù)據(jù)采集,并結(jié)合教務(wù)系統(tǒng)歷史成績等輔助信息進行人工標注。利用調(diào)整的線性加權(quán)變異系數(shù)算法進行學習能力穩(wěn)定性模型實驗,部分抽樣數(shù)據(jù)及處理結(jié)果如表1所示。表中,wsi表示周次,Linearwei_CV表示調(diào)整后的CV值,Lw_CV_Quan表示樣本所處分位點,tra_tendency表示樣本成績平均值。
表1 調(diào)整的線性加權(quán)變異系數(shù)算法處理結(jié)果示例
從表1可以看出,序號為19*****04、19*****27的兩個樣本在文中所采用的變異系數(shù)方法中系數(shù)值分別為0.02、0.05,在全量樣本中位于第Q1分位點處,成績穩(wěn)定性都很高,4號樣本成績高且穩(wěn)定在98.69附近,27號樣本成績低且穩(wěn)定在均值67.13附近。19*****02在全量樣本中位于第Q2分位點處,成績穩(wěn)定性良好,在均值附近有一定的波動,但與均值的偏差不大。19*****26、19*****07,在全量樣本中位于第Q3分位點處,成績穩(wěn)定性一般,震蕩較明顯。19*****28在全量樣本中位于第Q4分位點處,成績穩(wěn)定性差,各次成績與平均值70.56的偏差較大,震蕩明顯。
利用調(diào)整的線性加權(quán)變異系數(shù)Adjusted_CV算法與傳統(tǒng)的變異系數(shù)算法進行學習能力穩(wěn)定性對比實驗,模型效果如圖3所示。相較于傳統(tǒng)的變異系數(shù)算法,調(diào)整權(quán)重后的Adjusted_CV算法具有更好的擬合效果。
圖3 學生學習穩(wěn)定性加權(quán)效果對比曲線
通過學習通系統(tǒng)累計采集16周的在線學習行為數(shù)據(jù)并進行人工標注,利用箱線圖k百分位數(shù)及隨機變量概率分布的組合方法進行學習響應(yīng)習慣標簽模型實驗,部分抽樣數(shù)據(jù)及處理結(jié)果如表2所示。表中,Ti_release表示第i次任務(wù)的發(fā)布時間,Ti_check表示第i次任務(wù)的查看時間,Ti_submit表示第i次任務(wù)的提交時間,sensitive表示敏感度,complete表示完成度,vote表示樣本第i次任務(wù)的標簽,P(pos)表示樣本積極性概率,P(com)表示樣本一般性概率,P(neg)表示樣本消極性概率,total表示樣本響應(yīng)習慣最終標簽。
表2 箱線圖k百分位數(shù)及隨機變量概率分布方法處理結(jié)果示例
從表2可以看出,19*****02、19*****04、19*****26、19*****28四個樣本對歷次任務(wù)響應(yīng)比較積極,其中19*****02積極響應(yīng)的占比達88%。從上述樣本的過程細節(jié)數(shù)據(jù)來看,積極響應(yīng)的個體樣本歷次任務(wù)的完成度較為及時。19*****27、19*****07號樣本響應(yīng)程度分別為一般和消極,占比分別為63%、50%。從這些樣本的過程細節(jié)數(shù)據(jù)來看,此類樣本單次任務(wù)響應(yīng)敏感度和完成度較差,尤其是19*****07號樣本雖然有時查看任務(wù)及時,但是執(zhí)行力很差,有嚴重的拖沓習慣。
通過基于箱線圖k百分位數(shù)及隨機變量概率分布的方法可以得出學生響應(yīng)偏好識別結(jié)果的混淆矩陣,如圖4所示。從圖中可知,方法的準確率為83%,識別效果良好,能夠很好地刻畫個體的響應(yīng)習慣偏好。
圖4 學生響應(yīng)偏好識別結(jié)果混淆矩陣
混合式學習積累了海量的學生學習數(shù)據(jù)。充分挖掘和利用這些學習過程和學習結(jié)果數(shù)據(jù),實施學生學習畫像是面向未來型教育的一個重要研究領(lǐng)域。學習畫像能夠很好地刻畫學生在學習能力、學習行為和學習成效等方面的特征,實現(xiàn)學生群體的劃分[17-18],通過數(shù)據(jù)驅(qū)動更好地為個性化學習規(guī)劃學習路徑[19-20]。學習畫像的關(guān)鍵在于對學生學習各個特征維度的標簽模型進行構(gòu)建,從數(shù)據(jù)的分析結(jié)果中提煉出合適的標簽來對目標對象的學習特征進行標識。文中提出的一種調(diào)整的線性加權(quán)變異系數(shù)算法,以及對偏好隨機變量概率分布理論和箱線圖k百分位數(shù)方法的應(yīng)用,成功地構(gòu)建了學習畫像中最關(guān)鍵的學習能力和學習行為兩個維度的標簽模型。實驗結(jié)果的對比分析也證明了這種構(gòu)建方法的合理性和有效性。在后續(xù)模型優(yōu)化過程中,可以考慮擴充數(shù)據(jù)維度、調(diào)整過程權(quán)重等方式進一步優(yōu)化模型效果。