鄧廣華 李文彪
摘 要:協(xié)作學(xué)習(xí)系統(tǒng)構(gòu)建了一個(gè)協(xié)作學(xué)習(xí)的環(huán)境,為教師與學(xué)生、學(xué)生與學(xué)生進(jìn)行在線討論、協(xié)作與交流提供了一個(gè)良好的平臺(tái)。在線學(xué)習(xí)過程進(jìn)行科學(xué)的分組,把具有相似興趣的用戶分到一組進(jìn)行專題或自由討論提高學(xué)習(xí)效率。用譜聚類算法進(jìn)行分組,用戶的興趣模型通過向量空間創(chuàng)建,用余弦夾角公式計(jì)算相似程度。
關(guān)鍵詞:協(xié)作學(xué)習(xí) 譜聚類 向量空間 余弦夾角
中圖分類號(hào):G420 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2016)06(b)-0167-02
協(xié)作學(xué)習(xí)系統(tǒng)可以在用戶自主學(xué)習(xí)過程中根據(jù)用戶的興趣主動(dòng)推薦學(xué)習(xí)資源給用戶進(jìn)行在線學(xué)習(xí),滿足個(gè)性化學(xué)習(xí)[1]需要,實(shí)現(xiàn)“因材施教”的教育理念;同時(shí)可以根據(jù)各自的興趣,通過聚類算法實(shí)現(xiàn)自動(dòng)分組,使興趣相同的用戶組成一個(gè)學(xué)習(xí)小組,實(shí)現(xiàn)協(xié)作學(xué)習(xí),從而有效提高學(xué)習(xí)過程中的主動(dòng)參與性以及團(tuán)隊(duì)合作精神和溝通交流能力。為了更準(zhǔn)確的把興趣相似的學(xué)生分在同一組,該文通過改進(jìn)譜聚類算法對(duì)在線學(xué)習(xí)用戶進(jìn)行自動(dòng)分組,興趣模型通過向量空間建模,創(chuàng)建為20維。用余弦夾角公式構(gòu)建相似矩陣,再通過譜聚類NJW[2]算法進(jìn)行聚類分組,自動(dòng)確定用戶集劃分為幾個(gè)組,以實(shí)現(xiàn)協(xié)作學(xué)習(xí)。
1 興趣模型與余弦夾角
學(xué)生興趣模型同樣采用向量空間表示法表示,如:
Student(ui)={(ki1,wi1),(ki2,wi2),...,(kih,wih)},其中ui為學(xué)生i,kih為表示學(xué)生興趣的關(guān)鍵詞,wih為學(xué)生對(duì)關(guān)鍵詞kih的感興趣的程度。假設(shè)學(xué)生興趣模型總數(shù)為n,我們構(gòu)造一個(gè)n×n的距離矩陣S,S[i][j]的值表示學(xué)生i和學(xué)生j的距離權(quán)值,學(xué)生興趣模型之間的距離采用余弦夾角值的倒數(shù)計(jì)算:
2 基于譜聚類算法分組
譜聚類算法要先構(gòu)建相似矩陣, 相似矩陣體現(xiàn)了一組量化評(píng)估數(shù)據(jù)集之間的相對(duì)相似性。相似矩陣通常可以使用歐式距離、余弦相似度、高斯核函數(shù)來構(gòu)建,該文采用高斯核函數(shù)進(jìn)行構(gòu)建。因?yàn)楦咚购撕瘮?shù)構(gòu)建的相似矩陣做譜聚類分析的效果較好[3]。
按照公式(3)計(jì)算出興趣相似程度值,進(jìn)而構(gòu)建譜聚類算法的相似矩陣W。該文使用Ng,Jordan在2001年提出的NJW算法[2]。相似矩陣W構(gòu)建好后選取規(guī)范拉氏矩陣L=DWD做特征值分解,D為度矩陣,是對(duì)角矩陣,D等于相似矩陣W的第i行各元素的累加值,其中i(1,n)。分解出拉普拉斯矩陣L的特征值和對(duì)應(yīng)的特征向量,特征值從高到低排序,然后選取前K個(gè)特征值對(duì)應(yīng)的特征向量,每個(gè)特征向量作為一列,構(gòu)成矩陣H,再對(duì)矩陣H的每一行進(jìn)行歸一化處理后得到矩陣Y,,構(gòu)成n×k的矩陣,其中n為原數(shù)據(jù)點(diǎn)數(shù)(待分組的用戶數(shù)),這樣把矩陣Y的每一行看成是空間Rk上的一個(gè)新點(diǎn),它與原數(shù)據(jù)點(diǎn)一 一對(duì)應(yīng)著,然后對(duì)空間Rk進(jìn)行普通聚類處理,該文使用K-means聚類算法對(duì)空間Rk新數(shù)據(jù)點(diǎn)集進(jìn)行聚類,得到k個(gè)聚類,即分成k組。
譜聚類的類目選取直接影響聚類效果,得到特征值后對(duì)他從大到小排序,選取拉氏矩陣L的前k個(gè)最大特征值就是聚類數(shù)目。第k個(gè)的特征值與第k+1個(gè)的特征值有個(gè)跳躍即譜隙(eigen gap),當(dāng)樣本空間中所有數(shù)據(jù)點(diǎn)劃分成K類時(shí)的聚類效果越好那么第k個(gè)特征值與第K+1個(gè)特征值的跳躍譜隙就越大這種關(guān)系。該文采用Azran和Ghahramani于2006年提出的根據(jù)M步隨機(jī)游走后的概率矩陣PM的eigen gap[3]來確定K值,它更接近真實(shí)的聚類數(shù)目?;谧V聚類NJW算法對(duì)學(xué)生進(jìn)行分組算法如下:
算法的輸入為:n個(gè)學(xué)生興趣模型;輸出為:j個(gè)組;
(1)對(duì)于待分組的學(xué)生數(shù)據(jù)集X={xi},其中n為總學(xué)生數(shù),通過公式(3)高斯核函數(shù)計(jì)算出學(xué)生之間的興趣相似度,得到一個(gè)n×n的相似矩陣W,并由相似矩陣W構(gòu)造Laplician矩陣L。(2)通過eigen gap方法確定K值。(3)計(jì)算矩陣L的前K個(gè)特征值及其所對(duì)應(yīng)的特征向量,以每個(gè)特征向量作為一列構(gòu)建n×k的矩陣H=[h1,h2,…,hk]Rn×k。(4)將H向量中的行向量做歸一化處理得到Y(jié)矩陣,即。(5)把矩陣Y中的每一行看成是Rk空間上的數(shù)據(jù)點(diǎn),這些數(shù)據(jù)點(diǎn)與原數(shù)據(jù)點(diǎn)一 一對(duì)應(yīng)做K-means聚類,得到k個(gè)聚類。(6)假如矩陣Y的第i行屬于K-means聚類的第j類,那么原數(shù)據(jù)點(diǎn)也歸為第j類,如果沒有完成轉(zhuǎn)到Step5,直到全部數(shù)據(jù)歸類完成為止。
3 結(jié)語
興趣模型通過余弦夾角公式計(jì)算出的是0~1之間的值,模型之間越相似就越接近1,使用這個(gè)值的倒數(shù)值作為譜圖的權(quán)重值,興趣模型之間越相似就靠得越近,從而很好的創(chuàng)建相似矩陣。興趣模型的元素是鍵值對(duì),選用余弦夾角比較合適,該文實(shí)現(xiàn)了通過高斯核函數(shù)構(gòu)建相似矩陣后譜聚類算法對(duì)鍵值對(duì)向量空間模型的聚類分組,實(shí)現(xiàn)協(xié)作學(xué)習(xí)。
參考文獻(xiàn)
[1] ZPOLATE,AKARGB.學(xué)習(xí)風(fēng)格對(duì)學(xué)習(xí)系統(tǒng)的自動(dòng)檢測[J].計(jì)算機(jī)與教育,2009(2):355-367.
[2] Ng A.Y.,Jordan M.I.,Weiss Y.譜聚類算法分析[Z].2001:849-856.
[3] Azran A.,Ghahramani Z.自動(dòng)多尺度數(shù)據(jù)聚類的譜方法[Z].IEEE計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)視覺與模式識(shí)別程序,2006:190-197.