◆王婷
大數(shù)據(jù)背景下基于K-means聚類算法的在線學(xué)習(xí)行為路徑分析與研究
◆王婷
(吉林建筑科技學(xué)院 吉林 130114)
本文主要就K-means聚類算法特點(diǎn),研究其在線學(xué)習(xí)行為路徑中的應(yīng)用方法,即通過(guò)對(duì)學(xué)生在線學(xué)習(xí)行為路徑采集數(shù)據(jù)做聚類分析,獲取學(xué)生在線學(xué)習(xí)的行為路徑,創(chuàng)建學(xué)生在線學(xué)習(xí)行為模型與行為分析平臺(tái),并以學(xué)生在線學(xué)習(xí)行為模式作為數(shù)據(jù)來(lái)源,分析學(xué)生在線學(xué)習(xí)行為特點(diǎn),總結(jié)在線學(xué)習(xí)行為規(guī)律,為混合式教學(xué)提供更好的數(shù)據(jù)指導(dǎo),達(dá)到更好的教學(xué)效果。
K-means聚類算法;在線學(xué)習(xí)行為;數(shù)據(jù)挖掘
在信息技術(shù)快速更新發(fā)展的背景下,現(xiàn)在網(wǎng)絡(luò)技術(shù)已經(jīng)被越來(lái)越廣泛的應(yīng)用到混合式教學(xué)中,以“互聯(lián)網(wǎng)+”為載體,通過(guò)K-means聚類算法對(duì)學(xué)生學(xué)習(xí)行為進(jìn)行預(yù)測(cè)分析,分析學(xué)生在線學(xué)習(xí)行為特點(diǎn),對(duì)傳統(tǒng)教學(xué)模式進(jìn)行調(diào)整優(yōu)化,能夠進(jìn)一步提高教學(xué)質(zhì)量和學(xué)習(xí)效率。
信息化時(shí)代背景下,對(duì)傳統(tǒng)教學(xué)模式進(jìn)行改革創(chuàng)新已經(jīng)勢(shì)在必行。以信息技術(shù)與網(wǎng)絡(luò)技術(shù)作為支持,建立網(wǎng)絡(luò)化、個(gè)性化、數(shù)字化以及終身化的教育體系,打破以往學(xué)習(xí)中時(shí)間、空間帶來(lái)的限制,這對(duì)于培養(yǎng)更多創(chuàng)新人才至關(guān)重要[1]?,F(xiàn)在有越來(lái)越多的學(xué)生選擇線上學(xué)習(xí),相比日常課堂學(xué)習(xí)通過(guò)線上學(xué)習(xí)的方式能夠獲取更多更全面的知識(shí)信息。但是面對(duì)網(wǎng)絡(luò)上海量的信息,每位學(xué)生均有不同的學(xué)習(xí)習(xí)慣與偏好,如果可以掌握這一情況,對(duì)于教師制定教學(xué)計(jì)劃具有巨大意義。
大數(shù)據(jù)已經(jīng)成了重要的發(fā)展資源,其具有數(shù)據(jù)量大、種類多、實(shí)時(shí)性強(qiáng)、價(jià)值高以及真實(shí)性強(qiáng)等多項(xiàng)特點(diǎn),將其應(yīng)用到信息化教學(xué)中,對(duì)學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)進(jìn)行收集整理、歸納分析,挖掘數(shù)據(jù)之間的關(guān)聯(lián)性,掌握學(xué)生在線學(xué)習(xí)行為習(xí)慣,來(lái)為教師備課設(shè)計(jì)教學(xué)提供十分有利的參考數(shù)據(jù)。目前,數(shù)據(jù)挖掘與聚類分析在混合式教學(xué)的在線學(xué)習(xí)行為分析中應(yīng)用還比較少,對(duì)學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)的挖掘分析還需要做進(jìn)一步的研究,爭(zhēng)取完成學(xué)生在線學(xué)習(xí)時(shí)間、學(xué)習(xí)方向、學(xué)習(xí)行為路徑、作業(yè)完成度以及在線測(cè)試成績(jī)等多方面因素的數(shù)據(jù)分析,為教師課堂教學(xué)設(shè)計(jì)提供輔助支持[2]。其中,K-means聚類算法的應(yīng)用優(yōu)勢(shì)較大,簡(jiǎn)單來(lái)講就是對(duì)各類數(shù)據(jù)的分類,通過(guò)將具有一定相似性的特征值聚集在一起進(jìn)行分類。通過(guò)K-means聚類算法得到的結(jié)論與判定,這樣就能夠進(jìn)一步了解學(xué)生在線學(xué)習(xí)行為路徑與學(xué)習(xí)效果,確保教師教學(xué)設(shè)計(jì)做到“因材施教”。
基于K-means聚類算法來(lái)進(jìn)行學(xué)生在線學(xué)習(xí)行為路徑的研究,首先就需要對(duì)算法進(jìn)行改進(jìn),分析確定每個(gè)點(diǎn)之間的差異,對(duì)原空間元素進(jìn)行秩序化管理,明確初始中心值選擇的規(guī)則要求[2]。假設(shè)存在一個(gè)結(jié)合X={x1,x2,…xn},先按照維度對(duì)數(shù)據(jù)集X做從小到大的重新分布,例如對(duì)某一維x1,…xir,…xnr,從小到大排列,最終排列的結(jié)果便是每一個(gè)維度上數(shù)據(jù)全部為從小到大的方式分布,然后對(duì)排列好的集合分割得到k個(gè)區(qū)間,找到每小段中處于中間位置的元素,將其指定為中心。此種存取中心值的算法是遵循規(guī)劃原始數(shù)據(jù)集的原則,按照一定秩序來(lái)排列原始數(shù)據(jù),并按照秩序排列規(guī)則選擇適當(dāng)?shù)某跏贾行腫3]。K-means聚類算法流程為:
Input:待聚類分析的數(shù)據(jù)集合X、聚類的數(shù)目k。
Output:k個(gè)初始的聚類中心。
步驟:
①按照維度秩序來(lái)對(duì)數(shù)據(jù)集合進(jìn)行重新分布,保證每一個(gè)維度上的數(shù)據(jù)全部是按照從小到大的方式排列,形成新的集合mia;②對(duì)數(shù)據(jù)集mia進(jìn)行分割得到k個(gè)區(qū)間;③對(duì)每個(gè)區(qū)間的中心值在區(qū)間內(nèi)位置或序號(hào)進(jìn)行計(jì)算;④取出中間序號(hào)所對(duì)應(yīng)的數(shù)據(jù),確定其為初始化聚類中心;⑤利用每一個(gè)分組中的所有數(shù)據(jù)計(jì)算初始中心:
其中,表示中心值序號(hào);表示數(shù)據(jù)集合的總個(gè)數(shù);表示類簇的總個(gè)數(shù);表示某一個(gè)類的序號(hào)[4]。
混合式教學(xué)模式下,對(duì)于不同學(xué)歷的學(xué)生在進(jìn)行線上學(xué)習(xí)的過(guò)程中所表現(xiàn)出的學(xué)習(xí)行為習(xí)慣具有較大的差異性,本次研究主要是選擇本校學(xué)生作為數(shù)據(jù)訓(xùn)練樣本,通過(guò)聚類工具對(duì)學(xué)生在線學(xué)習(xí)時(shí)長(zhǎng)、學(xué)習(xí)資源種類、學(xué)生年級(jí)、學(xué)習(xí)行為路徑、學(xué)生專業(yè)類別、作業(yè)完成度以及在線測(cè)試成績(jī)等方面的數(shù)據(jù)進(jìn)行收集和預(yù)處理分析。以最近一年的數(shù)據(jù)記錄作樣本,去除重復(fù)記錄以及完全相等的行為,制作“學(xué)生線上學(xué)習(xí)行為表”數(shù)據(jù)集[5]。
在線學(xué)習(xí)行為路徑部分?jǐn)?shù)據(jù)樣本,如表1。
表1 學(xué)生學(xué)習(xí)行為數(shù)據(jù)樣本
學(xué)號(hào)姓名性別專業(yè)任務(wù)完成率課堂討論數(shù)作業(yè)完成度章節(jié)測(cè)試 190240301高靜楠女網(wǎng)絡(luò)工程80%1060%及格 190240302沈南南女網(wǎng)絡(luò)工程90%16100%優(yōu)秀 190240303畢微女網(wǎng)絡(luò)工程78%1255%中等 190240304侯菁菁女網(wǎng)絡(luò)工程88%1580%中等 190240305鄭卓男網(wǎng)絡(luò)工程93%1990%及格 190240306劉佳宇男網(wǎng)絡(luò)工程93%1990%優(yōu)秀
在線學(xué)習(xí)行為路徑指標(biāo)樣本,如下表2。
表2 在線學(xué)習(xí)行為指標(biāo)
序號(hào)學(xué)號(hào)在線學(xué)習(xí)步驟1步驟2步驟3步驟4步驟5步驟6 1190240301觀看視頻課件閱讀課堂討論作業(yè)考核趣味問(wèn)答課堂測(cè)試 2190240302趣味問(wèn)答作業(yè)考核課件閱讀觀看視頻課堂測(cè)試課堂討論 3190240303課件閱讀觀看視頻課堂討論作業(yè)考核趣味問(wèn)答課堂測(cè)試 4190240304觀看視頻課堂討論課件閱讀課堂測(cè)試作業(yè)考核趣味問(wèn)答 5190240305作業(yè)考核課堂討論課堂測(cè)試課件閱讀趣味問(wèn)答觀看視頻 6190240306課堂討論觀看視頻趣味問(wèn)答作業(yè)考核課堂測(cè)試課件閱讀
通過(guò)采集學(xué)生在線學(xué)習(xí)行為路徑數(shù)據(jù)可以發(fā)現(xiàn),其中的每一個(gè)環(huán)節(jié)在執(zhí)行過(guò)程中均存在較大的可能中斷,同時(shí)也存在隨時(shí)可繼續(xù)的可能。為了更好用K-means聚類算法進(jìn)行數(shù)值化分析,本次以數(shù)值來(lái)代替所有樣本學(xué)生行為表達(dá)格式的字符串,將數(shù)據(jù)冗余的樣本去除后再次采集,爭(zhēng)取可以更好獲得聚類分析的初始中心理想值[6]。
通過(guò)數(shù)據(jù)樣本可以獲得大量不同在線學(xué)習(xí)平臺(tái)的基礎(chǔ)數(shù)據(jù),應(yīng)用K-means聚類算法來(lái)對(duì)基礎(chǔ)數(shù)據(jù)單獨(dú)聚類可以實(shí)現(xiàn)一定的數(shù)據(jù)有效性?;贙-means聚類算法對(duì)學(xué)生在線學(xué)習(xí)行為路徑的聚類流程圖見圖1。
圖1 在線學(xué)習(xí)行為路徑聚類流程圖
通過(guò)Spss Tatistics工具完成聚類訓(xùn)練過(guò)程,以在線學(xué)習(xí)行為為變量,分別為表2中的步驟1-6。隨機(jī)選出500條行為路徑進(jìn)行分析,以此來(lái)構(gòu)成500個(gè)學(xué)習(xí)行為路徑最接近的學(xué)生在線學(xué)習(xí)類簇,采用迭代與分類的方法,設(shè)置聚類數(shù)為4,聚類最大迭代次數(shù)為10次,表3、表4分別為迭代計(jì)算結(jié)束后獲取的初始聚類中心和迭代歷史記錄,在10次迭代過(guò)程中聚類處理6個(gè)步驟,表5為最終聚類中心的案例數(shù)結(jié)果,表明在線學(xué)習(xí)的首要目的在于知識(shí)的擴(kuò)展學(xué)習(xí)。
在500個(gè)學(xué)生登錄學(xué)生平臺(tái)后,觀看視頻資源學(xué)習(xí)行為的有376條,對(duì)知識(shí)進(jìn)行擴(kuò)展加深。參加課堂討論的有320條,參與問(wèn)答提問(wèn)的有246條,在這些學(xué)習(xí)行為路徑中觀看視頻-課堂討論-趣味問(wèn)答-課件閱讀-課堂測(cè)試-作業(yè)考核行為較為集中,其中觀看視頻和課堂討論為主要在線學(xué)習(xí)行為路徑[7]。
表3 初始聚類中心
學(xué)習(xí)步驟聚類 16316 26210 31161 46010 56610 66060
表4 迭代記錄
迭代次數(shù)聚類中心更改 15.6463.4124.1835.017 20.1020.0150.0130.033 30.0030.1160.1130.065 40.1520.0860.0330.099 50.2100.0550.0670.058 60.1520.0850.1410.013 70.1340.0690.1380.067 80.1260.1150.1470.058 90.1870.1030.1590.091 100.1510.0750.1620.082
表5 最終聚類中心
學(xué)習(xí)步驟聚類 13425 22253 34252 43334 53324 65623
采取此種迭代算法來(lái)對(duì)學(xué)生在線學(xué)習(xí)行為路徑聚類分析,可以為教師提供更加直觀的聚類結(jié)果,以此來(lái)對(duì)教學(xué)設(shè)計(jì)提供數(shù)據(jù)支持,不斷來(lái)提高線下教學(xué)質(zhì)量,有效彌補(bǔ)線上自主學(xué)習(xí)的不完整性以及碎片化知識(shí)的有效整合。其中,對(duì)抽象的類簇記錄詳細(xì)的行為,在面對(duì)不同專業(yè)類別與年級(jí)的學(xué)生,均可以獲得一定的教學(xué)依據(jù)。
大數(shù)據(jù)技術(shù)已經(jīng)成為分析混合式教學(xué)過(guò)程的有效手段,采用K-means聚類算法進(jìn)行研究,可以更加深入掌握學(xué)生線上學(xué)習(xí)的行為特點(diǎn),為線上線下混合式教學(xué)模式提供重要依據(jù),K-means聚類算法能夠深度提煉學(xué)生在線學(xué)習(xí)過(guò)程中的操作及線上使用數(shù)據(jù)信息,更好的優(yōu)化課程及資源組織方式,為教師線下教學(xué)設(shè)計(jì)提供數(shù)據(jù)支持,彌補(bǔ)學(xué)生線上自主學(xué)習(xí)存在的不足,是實(shí)現(xiàn)線上線下混合式教學(xué)的有效手段。
[1]郭玉棟,左金平,王溢琴.K-Means聚類算法在線上學(xué)習(xí)效果測(cè)評(píng)中的應(yīng)用[J].晉中學(xué)院學(xué)報(bào),2020,37(03):63-67.
[2]張海華,李楠楠.基于大數(shù)據(jù)K-means聚類算法的在線學(xué)習(xí)行為路徑的研究[J].電子設(shè)計(jì)工程,2020,28(12):17-20+25.
[3]王通博.K-means算法新發(fā)展[D].海南大學(xué),2020.
[4]景源,郝金山.基于期望最大化的K-Means聚類算法[J].遼寧大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,47(02):106-111.
[5]劉思宏,余飛.基于大數(shù)據(jù)下K-means聚類算法的在線學(xué)習(xí)行為路徑應(yīng)用研究[J].蘭州文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2019,33(01):70-74.
[6]劉訓(xùn)星.基于K-means聚類算法的在線學(xué)習(xí)行為分析[J].湖南科技學(xué)院學(xué)報(bào),2017,38(06):7-9.
[7]藺小清.大數(shù)據(jù)時(shí)代K-means聚類算法應(yīng)用于在線學(xué)習(xí)行為研究[J].電子設(shè)計(jì)工程,2021,29(18):181-184+193.
吉林建筑科技學(xué)院2020年校級(jí)科研項(xiàng)目(??谱諿2020]036號(hào))
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2022年5期