摘? 要:大學(xué)生個體多樣性的增強(qiáng)使得高校的教育管理面臨前所未有的挑戰(zhàn)。在教育大數(shù)據(jù)環(huán)境下,如何利用數(shù)據(jù)挖掘技術(shù)從海量校園行為數(shù)據(jù)中挖掘出有價值的信息變得尤為重要。針對校園行為數(shù)據(jù)存在稀疏性的問題,提出一種基于協(xié)同過濾與概率主題模型的大學(xué)生行為模式挖掘方法;采用Hawkes過程模擬產(chǎn)生事件并使用自定義指標(biāo)評估模型性能,結(jié)果表明模型能有效挖掘出大學(xué)生行為模式。最后從同伴數(shù)量與類別選擇的角度分析了大學(xué)生行為模式。
關(guān)鍵詞:協(xié)同過濾;概率主題模型;校園行為;行為模式;Hawkes過程
中圖分類號:TP391.1;G647? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)24-0045-04
Research on College Students' Behavior Pattern Mining Based on Collaborative Filtering and Probabilistic Topic Model
LIU Tao
(School of Computer and Big Data Science, Jiujiang University, Jiujiang? 332005, China)
Abstract: The enhancement of individual diversity among college students poses unprecedented challenges to the education management of universities. In the education big data environment, it has become particularly important to use data mining technology to extract valuable information from massive campus behavior data. A method for mining college student behavior patterns based on collaborative filtering and probabilistic topic models is proposed to address the sparsity of campus behavior data; the Hawkes process is used to simulate the generation of events and custom metrics are used to evaluate the performance of the model. The results show that the model can effectively mine behavior patterns of college students. Finally, the behavioral patterns of college students are analyzed from the perspectives of peer quantity and category selection.
Keywords: collaborative filtering; probabilistic topic model; campus behavior; behavior pattern; Hawkes process
0? 引? 言
隨著云計算、大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,教育信息化已經(jīng)成為當(dāng)今高校教學(xué)管理的必要措施和手段[1]。智慧校園的建設(shè)得到了大幅提升,我國大多數(shù)高校已構(gòu)建了功能齊全的智慧校園平臺。該平臺在為廣大學(xué)生提供學(xué)習(xí)和生活便利的同時,也產(chǎn)生了海量的時空行為數(shù)據(jù)。如何從校園行為數(shù)據(jù)中提取有價值的信息,為促進(jìn)學(xué)生身心的健康發(fā)展提供適時的引導(dǎo)和幫助,使高校實(shí)現(xiàn)更科學(xué)化、智能化的教學(xué)管理,是當(dāng)前教育信息化快速推進(jìn)過程中面臨的機(jī)遇與挑戰(zhàn)之一[2]。
1? 行為模式挖掘研究現(xiàn)狀
已有許多國內(nèi)外學(xué)者利用移動數(shù)據(jù)(如手機(jī)定位數(shù)據(jù)等)來提取人類行為模式。Song等較早發(fā)現(xiàn)人類運(yùn)動模式具有較高的可預(yù)測性[3]。自此以后,該領(lǐng)域的研究取得了長足進(jìn)展?;诟怕手黝}模型提取人類行為模式是主流方法之一[4]。一些學(xué)者將活動行為視為詞語,將潛在行為模式視為主題,提取個人潛在的行為模式。楊翔等注重個人情感與興趣模式的挖掘,提出構(gòu)建個人潛在情感與興趣模型的方法[5]。李琰等利用時空數(shù)據(jù)提出一種基于作者主題模型(ATM)和輻射模型(RM)的用戶位置預(yù)測模型[6]。還有一些方法基于行為相似性,例如,受個人行為與他人密切相關(guān)這一事實(shí)的啟發(fā),Dao等提出基于行為相似性方法構(gòu)建行為模式[7]。
大學(xué)生是一類活動范圍相對集中的特殊群體。研究大學(xué)生在校行為模式已經(jīng)引起眾多領(lǐng)域?qū)W者的重視。杜長沖等研究了大學(xué)生校園行為的特點(diǎn)[8];謝文武等研究了大學(xué)生消費(fèi)行為與成績的關(guān)聯(lián)性[9];姜楠等利用數(shù)據(jù)挖掘技術(shù)分析學(xué)生消費(fèi)及其學(xué)習(xí)行為的關(guān)系[10];田雨露等通過門禁、簽到和消費(fèi)等記錄,分析學(xué)生異常行為并進(jìn)行預(yù)警[11]。
以上行為模式挖掘方法雖然在分析和提取人類行為模式上取得不同程度的成功,但是依賴較密集數(shù)據(jù)集的特點(diǎn)限制了這些方法的實(shí)際應(yīng)用。例如,文獻(xiàn)[7]中利用用戶時空上的密集位置信息推斷用戶的活動行為,在稀疏數(shù)據(jù)集上效果不佳。校園行為數(shù)據(jù)量具有既巨大(宏觀)又稀疏(微觀)的特點(diǎn),而造成數(shù)據(jù)稀疏的主要原因有:
1)根據(jù)學(xué)生的刷卡行為記錄其位置信息,無法實(shí)時記錄學(xué)生的位置信息。
2)有些人為造成的虛假信息,例如學(xué)生出入宿舍和圖書館時,跟隨前面學(xué)生出入門禁,沒有留下刷卡痕跡。為此,僅從個人的稀疏位置信息中提取學(xué)生行為模式會導(dǎo)致過擬合問題,可能得到不完整甚至錯誤的行為模式。針對這些問題,需要借助一些協(xié)同提取的方法來還原整體樣本。
本文利用校園行為數(shù)據(jù),進(jìn)行如下研究:
1)針對校園行為數(shù)據(jù)存在稀疏性的問題,提出基于協(xié)同過濾與概率主題模型的大學(xué)生行為模式挖掘方法,并評估模型的有效性。
2)從同伴數(shù)量與類別選擇的角度分析大學(xué)生行為模式。
2? 模型構(gòu)建
模型構(gòu)建過程如下:
1)獲取校園行為數(shù)據(jù)并進(jìn)行預(yù)處理。
2)構(gòu)建基于協(xié)同過濾與概率主題模型的大學(xué)生行為模式模型并求解模型參數(shù),得到同伴關(guān)系網(wǎng)絡(luò)(Campus Social Network, CSN)。
3)采用Hawkes過程模擬產(chǎn)生學(xué)生刷卡事件,采用多重假設(shè)檢驗(yàn)方法得到統(tǒng)計驗(yàn)證網(wǎng)絡(luò)(Statistical Validation Network, SVN),利用自定義指標(biāo)和二次指派過程(Quadratic Assignment Procedure, QAP)方法評估模型性能。
4)從同伴數(shù)量與類別選擇方面分析大學(xué)生行為模式。
2.1? 數(shù)據(jù)獲取與預(yù)處理
數(shù)據(jù)來自某綜合性大學(xué)的智慧校園平臺,主要由學(xué)生基本信息和刷卡信息組成。基本信息包括學(xué)生的學(xué)號、院系、班級、年級和性別等。刷卡信息包括學(xué)生在食堂就餐、超市消費(fèi)、校醫(yī)院就醫(yī)、圖書館看書和宿舍出入等信息。測試對象為該校計算機(jī)學(xué)院623名學(xué)生,校園行為數(shù)據(jù)由觀測周期(2021年9月1日至2022年8月30日)內(nèi)的733 396條刷卡信息組成。
為了保護(hù)隱私,本文對刷卡信息進(jìn)行學(xué)號重排、時間平移等預(yù)處理,只保留學(xué)生編號、刷卡地點(diǎn)和刷卡時間等信息。定義學(xué)生集合為S = {s1,s2,…,sN},其中N表示學(xué)生總數(shù)。根據(jù)學(xué)生刷卡地點(diǎn)獲取學(xué)生的活動行為,定義學(xué)生在校行為集合為B = {Bcan,Bsup,Bdor,Blib,Bcla},其中5種行為分別表示學(xué)生在食堂、超市、宿舍、圖書館和教室刷卡。按等時間隔將一天劃分為M個時隙T = {t1,t2,…,tM},將刷卡時間映射到相應(yīng)的時隙。
將一條刷卡信息視為一個刷卡事件,用三元組(s(i),b(i),t(i))表示,其中s(i) ∈ S、b(i) ∈ B和t(i)∈ M分別表示第i個刷卡事件中的學(xué)生、活動行為和時隙。所有刷卡事件構(gòu)成集合D = {(s(i),b(i),t(i))},i ∈ {0,…,H},其中H表示刷卡事件總數(shù)。
2.2? 構(gòu)建與求解模型
學(xué)生行為對(s,b)表示學(xué)生s發(fā)生活動行為b。潛在向量Z = {z1,z2,L,zK}表示潛在的行為模式集合,其中K表示潛在行為模式的個數(shù)。將學(xué)生行為對和時隙映射至同一個潛在行為模式空間,使用概率模型計算“學(xué)生行為對—潛在行為模式—時隙”三者的關(guān)系,構(gòu)造基于協(xié)同過濾與概率主題模型的行為模式模型(記為CF-PTM),其形象化表示如圖1所示。
設(shè)隨機(jī)變量X i表示第i個刷卡事件。當(dāng)X i = 1時,學(xué)生s(i)在t(i)時隙發(fā)生活動行為b(i);當(dāng)X i = 0時,學(xué)生s(i)在t(i)時隙沒有發(fā)生活動行為b(i)。ps(i),b(i) ∈ RK和qt(i) ∈ RK分別表示學(xué)生行為對(s(i),b(i))和時隙t(i)的潛在向量。隨機(jī)變量X i的條件概率為:
其中,f (·)表示sigmoid函數(shù)。對于刷卡事件集合D中的H個事件,似然函數(shù)為:
其中,P ∈ R K×L表示所有學(xué)生行為對的潛在向量,Q ∈ R K×M表示所有時隙t的潛在向量。
設(shè)L(P,Q)表示式(2)的負(fù)對數(shù)似然函數(shù),則轉(zhuǎn)化最優(yōu)化問題為:
為了避免過擬合問題,需要分別對psb和qt進(jìn)行規(guī)則化。采用|| psb ||1對psb規(guī)則化,保證了psb的稀疏性。采用? 對qt規(guī)則化,保證了相鄰時隙行為模式變化緩慢。本文采用傳統(tǒng)的梯度下降法求解以上最優(yōu)化問題。對于某學(xué)生s,其潛在的行為模式為{ psb | b ∈ B}。
3? 模型有效性評估
對模型性能的評估可分兩個階段進(jìn)行:
1)將Hawkes過程模擬產(chǎn)生的刷卡事件與真實(shí)刷卡事件進(jìn)行對比,利用自定義指標(biāo)評估模型的性能。
2)將利用模型得到的同伴關(guān)系網(wǎng)絡(luò)(CSN)與多重假設(shè)檢驗(yàn)方法得到的統(tǒng)計驗(yàn)證網(wǎng)絡(luò)(SVN)進(jìn)行對比,采用QAP方法計算CSN和SVN的相關(guān)性。
3.1? Hawkes過程模擬方法
由于缺乏大學(xué)生同伴關(guān)系的真實(shí)信息,不能直接評估模型的性能,本文通過模型的預(yù)測性能間接評估模型的性能。采用5-折交叉驗(yàn)證(5-fold Cross Validation, 5-CV)方法將原始數(shù)據(jù)按照時間觀測窗口[0,T4)平均分成5個子集,首次選擇[0,T3)內(nèi)所有學(xué)生的刷卡事件作為訓(xùn)練集,[T3,T4)內(nèi)所有學(xué)生的刷卡事件作為驗(yàn)證集,然后利用訓(xùn)練集數(shù)據(jù)估計模型的參數(shù),模擬產(chǎn)生[T3,T4)內(nèi)所有學(xué)生的刷卡事件,以此類推進(jìn)行5-折交叉驗(yàn)證。最后采用自定義指標(biāo)求得5次驗(yàn)證結(jié)果的平均數(shù)作為此5-CV的最終性能指標(biāo),用于評估模型的預(yù)測性能,自定義指標(biāo)如下:
1)位置準(zhǔn)確率r = ei / ni,i ∈ {0,…,4},其中ni表示子集i真實(shí)刷卡事件的個數(shù),ei表示模擬產(chǎn)生的刷卡事件與真實(shí)刷卡事件的對比,時間和位置相吻合的刷卡事件個數(shù)。
2)共現(xiàn)準(zhǔn)確率γ = hi / mi,i ∈ {0,…,4},其中mi表示子集i真實(shí)刷卡事件的學(xué)生發(fā)生共現(xiàn)的次數(shù),hi表示模擬產(chǎn)生的刷卡事件與真實(shí)刷卡事件的對比,共現(xiàn)相吻合的次數(shù)。
采用5-折交叉驗(yàn)證的方式分別對733 396條真實(shí)刷卡記錄以及368 129條共現(xiàn)記錄進(jìn)行Hawkes過程模擬,然后將模擬產(chǎn)生的刷卡事件與真實(shí)的刷卡事件進(jìn)行對比。如表1所示,分別得到5次驗(yàn)證結(jié)果,計算平均位置準(zhǔn)確率和平均共現(xiàn)準(zhǔn)確率分別為0.909和0.949,這表明模型具有較高的準(zhǔn)確性。
3.2? 多重假設(shè)檢驗(yàn)方法
多重假設(shè)檢驗(yàn)是將多個單重假設(shè)檢驗(yàn)作為一個整體(稱為一個檢驗(yàn)族),對此檢驗(yàn)族中的每個假設(shè)同時進(jìn)行檢驗(yàn)的方法。對于所有學(xué)生對,多重檢驗(yàn)族{Hij}i≠j共同構(gòu)成一個檢驗(yàn)族,單個假設(shè)檢驗(yàn)Hij對應(yīng)單重假設(shè)檢驗(yàn) ,其中原假設(shè)? 表示學(xué)生i和j在[0,T)內(nèi)發(fā)生共現(xiàn)是巧合的。按等時間隔將一天劃分為M個時隙T,對每一個刷卡事件將刷卡時間映射到相應(yīng)時隙。學(xué)生刷卡事件可以用二分圖來描述,如圖2所示。
設(shè)時隙-位置集合有NLS個時隙-位置對,學(xué)生i和j刷卡次數(shù)分別為Ni、Nj,共現(xiàn)次數(shù)為Nij。在原假設(shè)? 成立的條件下,學(xué)生i和j共現(xiàn)次數(shù)服從超幾何分布,共現(xiàn)次數(shù)大于等于Nij的概率為 ,其中 。利用上述方法計算所有學(xué)生對之間的p(Nij)值,采用Bonferroni校正法比較p(Nij)與顯著水平s = 0.01/N的大小,其中N表示網(wǎng)絡(luò)中的連邊數(shù)。如果p(Ni)<s,則拒絕原假設(shè),學(xué)生i和j在刷卡過程中發(fā)生共現(xiàn)是社交關(guān)系驅(qū)動的,以此類推,驗(yàn)證網(wǎng)絡(luò)中的所有連邊得到SVN。最后采用QAP方法計算模型得到同伴關(guān)系網(wǎng)絡(luò),統(tǒng)計驗(yàn)證網(wǎng)絡(luò)的相關(guān)性。
實(shí)驗(yàn)結(jié)果如表2所示,對于623名學(xué)生在觀測周期內(nèi)產(chǎn)生的733 396條校園行為數(shù)據(jù),通過多重假設(shè)檢驗(yàn)方法和CF-PTM模型分別挖掘得到7 635條和7 879條連邊。經(jīng)過分析可知:
1)相較于檢驗(yàn)條件過于嚴(yán)苛的SVN網(wǎng)絡(luò),CSN網(wǎng)絡(luò)成功挖掘出更多的同伴關(guān)系。
2)采用QAP方法進(jìn)行相關(guān)性分析發(fā)現(xiàn),在SVN已被證實(shí)有效的情況下[12],CSN與SVN的正相關(guān)性高達(dá)0.956(顯著性水平P<0.001)。以上兩點(diǎn)表明CSN挖掘出更多有效的同伴關(guān)系。
4? 行為模式分析
行為模式是行為活動發(fā)生、進(jìn)行和完成的某種固有方式,展現(xiàn)了人們的行動特點(diǎn)和行為邏輯。大學(xué)生行為模式是指大學(xué)生在校園日常生活、學(xué)習(xí)等活動過程中所建立的一種行為內(nèi)容與方式定型化、活動空間分布規(guī)律化的模式。同伴活動是學(xué)生行為模式的一種直觀反映。
根據(jù)同伴數(shù)量進(jìn)行聚類得到三個分別包含31人、136人和456人的社團(tuán)群體。從社會行為學(xué)角度出發(fā),學(xué)生被分為開放型、謹(jǐn)慎型和封閉型三種行為模式。如圖3(a)所示,僅有4.98%的學(xué)生屬于開放型的交友模式,有21.86%的學(xué)生在選擇交往對象時比較謹(jǐn)慎,絕大部分學(xué)生處于較封閉的狀態(tài)。這種情況被解釋為,當(dāng)今大學(xué)生更多時間處于獨(dú)處狀態(tài),交往意愿有減弱傾向,存在導(dǎo)致交友障礙的風(fēng)險。
從同伴類別的選擇中發(fā)現(xiàn),學(xué)業(yè)相似的學(xué)生更傾向于建立同伴關(guān)系;大多數(shù)學(xué)生更愿意選擇趣味相投的學(xué)生作為交往對象;情感也是影響學(xué)生選擇交往對象的重要因素?;诖?,將學(xué)生分為學(xué)業(yè)型、趣緣型和情感型三種行為模式。如圖3(b)所示,三種模式占比分別為26.77%、43.52%和29.71%,這表明趣緣型學(xué)生在學(xué)生群體中占主導(dǎo)地位。
5? 結(jié)? 論
針對大學(xué)生在校行為模式挖掘過程中面臨的難題,提出基于協(xié)同過濾與概率主題模型的模型并實(shí)現(xiàn)大學(xué)生在校行為模式的有效挖掘。通過研究大學(xué)生校園行為的參與對象、參與時間和參與地點(diǎn)等諸多因素之間的聯(lián)系,探究大學(xué)生在校行為模式提取的新方法。該研究符合當(dāng)前教育信息化倡導(dǎo)的新理念。從教育管理層面來講,將挖掘出的大學(xué)生行為模式反饋給教育管理者,可以及時給予學(xué)生合理的建議和有效的幫助。對于個體而言,行為模式可以定量評價學(xué)生的交往能力、心理健康狀況等。對于“離群點(diǎn)”(孤立學(xué)生),行為模式是一個很好的判別工具,可及時發(fā)現(xiàn)此類學(xué)生并進(jìn)行干預(yù)。對群體而言,可以分析學(xué)生的交友傾向、關(guān)系演化等。因此,該研究具有一定的現(xiàn)實(shí)意義。
參考文獻(xiàn):
[1] 翟雪松,朱雨萌,張紫徽,等.高校教育信息化治理能力評價:界定、實(shí)踐與反思[J].開放教育研究,2021,27(5):24-33.
[2] 杜婧敏,方海光,李維楊,等.教育大數(shù)據(jù)研究綜述 [J].中國教育信息化,2016(19):1-4.
[3] SONG C M,QU Z,BLUMM N,et al. Limits of predictability in human mobility [J].Science,2010,327(5968):1018-1021.
[4] 韓亞楠,劉建偉,羅雄麟.概率主題模型綜述 [J].計算機(jī)學(xué)報,2021,44(6):1095-1139.
[5] 楊翔.基于概率主題模型的作者情感分析 [D].長沙:湖南大學(xué),2019.
[6] 李琰,劉嘉勇.基于作者主題模型和輻射模型的用戶位置預(yù)測模型 [J].計算機(jī)應(yīng)用,2018,38(4):939-944.
[7] DAO T N,LE D V,YOON S. Predicting Human Location Using Correlated Movements [J].Electronics,2019,8(1):54.
[8] 杜長沖.基于校園一卡通數(shù)據(jù)系統(tǒng)的學(xué)生行為分析研究 [J].讀與寫:教育教學(xué)刊,2019,16(6):27-28.
[9] 謝文武,胡勝,龍源有,等.高校學(xué)生餐飲消費(fèi)與學(xué)習(xí)成績的相關(guān)性分析 [J].湖南理工學(xué)院學(xué)報:自然科學(xué)版,2018,31(4):27-31+82.
[10] 姜楠,許維勝.基于校園一卡通數(shù)據(jù)的學(xué)生消費(fèi)及學(xué)習(xí)行為分析 [J].微型電腦應(yīng)用,2015,31(2):35-38.
[11] 田雨露.基于校園一卡通系統(tǒng)的決策支持和數(shù)據(jù)分析研究 [D].北京:北京化工大學(xué),2019.
[12] LIU T,YANG L T,LIU S Y,et al. Inferring and Analysis of Social Networks Using RFID Check-in Data in China [J].PLoS ONE,2017,12(6):e0178492.
作者簡介:劉濤(1981—),男,漢族,湖北棗陽人,講師,博士研究生,研究方向:教育大數(shù)據(jù)、行為模式挖掘。
收稿日期:2023-05-05
基金項(xiàng)目:江西省教育科學(xué)“十三五”規(guī)劃2020年度課題(20YB206);江西省高校人文社會科學(xué)研究2021年度課題(JY21225)