葉茂,朱清溢,汪雯雯
(四川信息職業(yè)技術(shù)學(xué)院,四川廣元,628040)
學(xué)生行為大數(shù)據(jù)分析,以及基于學(xué)生行為分析的學(xué)生畫像、群體畫像方法及實(shí)踐,是近年來的熱點(diǎn)領(lǐng)域。國(guó)內(nèi)很多高校都探索了如何應(yīng)用大數(shù)據(jù)、人工智能技術(shù)來對(duì)分析學(xué)生行為,包括學(xué)業(yè)行為、消費(fèi)行為、學(xué)生畫像等[1-3]。而這些研究的目的,都是將大數(shù)據(jù)、人工智能技術(shù)應(yīng)用與學(xué)校的教學(xué)管理、學(xué)生工作、疫情防控工作、學(xué)生心理健康關(guān)懷。學(xué)生社交網(wǎng)絡(luò)分析[4],可以研究學(xué)生在大學(xué)這個(gè)小社會(huì)中的群體行為,從而在統(tǒng)計(jì)學(xué)上,得到不同群體學(xué)生的差異,以及在不同群體中發(fā)現(xiàn)行為異?;蛘呱缃划惓5膶W(xué)生,提供幫助和心理關(guān)懷。國(guó)外學(xué)者也研究了學(xué)生社交網(wǎng)絡(luò)分析,以及對(duì)高校教學(xué)工作的影響[5-6]。
周濤[7]認(rèn)為,在教育領(lǐng)域應(yīng)用大數(shù)據(jù)技術(shù),有三大趨勢(shì):一是通過量化工具挖掘?qū)W生行為習(xí)慣和規(guī)律,用真實(shí)數(shù)字來支持教學(xué)工作;二是將學(xué)生工作中的后置性應(yīng)急補(bǔ)救措施,轉(zhuǎn)變?yōu)榍爸眯灶A(yù)警管理;三是建立在線的動(dòng)態(tài)學(xué)生大數(shù)據(jù)系統(tǒng),不再單純依靠靜態(tài)分析,而是實(shí)現(xiàn)自適應(yīng)的動(dòng)態(tài)分析。
本文研究主要基于我校9989名同學(xué)刷身份證進(jìn)出校門的記錄數(shù)據(jù),以及學(xué)校信息中心提供的學(xué)生基礎(chǔ)信息,分析學(xué)生社交網(wǎng)絡(luò)情況,構(gòu)造學(xué)情知識(shí)圖譜,并已實(shí)際應(yīng)用于學(xué)校部分班級(jí)的管理。
大學(xué)生在校期間主要是學(xué)習(xí),而離開學(xué)校的主要目的是社交、娛樂、購(gòu)物等;所以,學(xué)生進(jìn)出校門的數(shù)據(jù),具有社交屬性。相對(duì)于使用食堂消費(fèi)刷卡的先后記錄[4],本文所使用的進(jìn)出校門記錄,除了可以挖掘?qū)W生的社交情況,還可以挖掘出學(xué)生校外娛樂的時(shí)間。
進(jìn)出校門數(shù)據(jù)采集的時(shí)間段從2020年9月22日到2021年7月7日,共計(jì)289天。共統(tǒng)計(jì)了9989名學(xué)生的出行數(shù)據(jù)1418157條,平均每天有4000多名學(xué)生進(jìn)出校門。為保護(hù)學(xué)生隱私,本文在進(jìn)行數(shù)據(jù)挖掘前,已去除了所有身份證、學(xué)號(hào)、姓名、手機(jī)號(hào)等個(gè)人隱私信息,完成數(shù)據(jù)脫敏。
表1 離校、返校時(shí)間記錄
學(xué)生進(jìn)出校門時(shí)間主要在每天6點(diǎn)到23點(diǎn),其他時(shí)間會(huì)關(guān)閉校門。每天進(jìn)出校門時(shí)間計(jì)17個(gè)小時(shí),1020分鐘。每分鐘進(jìn)出校門有:4115.2 / 1020 = 4.034人次。說明一個(gè)同學(xué)A進(jìn)出校門時(shí),一分鐘內(nèi)有4.034 - 1 = 3.034名同行者
可得到不認(rèn)識(shí)的同學(xué)A和同學(xué)B,隨機(jī)同行一次的概率為:3.034/9989 = 0.0003038。
同學(xué)A和同學(xué)B,隨機(jī)同行兩次概率為:0.00030382×10?8=9.23;隨機(jī)同行三次概率約為2.38×10-11,比中彩票概率還低。所以同學(xué)A和同學(xué)B同行大于等于3次,完全可以說明A和B是有意識(shí)同行。為了搜索和同學(xué)A交往較密切的朋友,我們只選取和同學(xué)A同行至少5次的同行人進(jìn)行統(tǒng)計(jì),置信度非常高。
通過這種方法,我們可以構(gòu)建全校學(xué)生社交網(wǎng)絡(luò)圖G =(V, E)。該圖為一個(gè)有向圖,V是頂點(diǎn)集合,每個(gè)頂點(diǎn)是一名學(xué)生。E是有向邊集合,每條邊表示兩個(gè)同學(xué)同行進(jìn)出校門至少5次,邊的權(quán)重(weight)是同行次數(shù)。
基于學(xué)生進(jìn)出校門數(shù)據(jù),成功生成了9989個(gè)頂點(diǎn)(學(xué)生),56040條有向邊的社交網(wǎng)絡(luò),并導(dǎo)入到neo4j圖數(shù)據(jù)庫(kù)中。為了使社交網(wǎng)絡(luò)更直觀,根據(jù)學(xué)生性別,特別添加了girl和boy兩個(gè)標(biāo)簽,紅色標(biāo)簽代表女生,藍(lán)色標(biāo)簽代表男生(圖1)。為分析大學(xué)生和異性交往的情況,我們也提取了朋友數(shù)、好朋友數(shù)(同行超過20次的朋友)、異性好友數(shù)等量化指標(biāo),用于分析每個(gè)同學(xué)的社交情況。
圖1 學(xué)生社交網(wǎng)絡(luò)圖(學(xué)生姓名已脫敏)
社交網(wǎng)絡(luò)是動(dòng)態(tài)變化的,出入校門頻率會(huì)變化,朋友關(guān)系會(huì)變化,每學(xué)年也有新同學(xué)入學(xué),所以需要每月增量更新社交網(wǎng)絡(luò)。
另外,基于這個(gè)算法,也很容易計(jì)算一段時(shí)間范圍的社交網(wǎng)絡(luò)。算法第3步統(tǒng)計(jì)同行人時(shí),只需要根據(jù)時(shí)間范圍來篩選進(jìn)出校門記錄,就能夠得到一定時(shí)間范圍內(nèi)的社交網(wǎng)絡(luò)情況。
將社交網(wǎng)絡(luò)信息,結(jié)合學(xué)生靜態(tài)、動(dòng)態(tài)信息,構(gòu)建學(xué)生實(shí)體和關(guān)系,輸入到學(xué)情知識(shí)圖譜中,用于院系和班級(jí)的日常學(xué)生管理工作。
完成構(gòu)建社交網(wǎng)絡(luò)圖后,可以針對(duì)不同群體(班級(jí)、專業(yè)、年級(jí)、籍貫)等,篩選獲得子圖,再對(duì)子圖進(jìn)行社交網(wǎng)絡(luò)的集中度,關(guān)聯(lián)度進(jìn)行統(tǒng)計(jì)分析。常用社交網(wǎng)絡(luò)分析算法包括Page Rank算法、Centrality中心性算法等。
中心性是圖論以及網(wǎng)絡(luò)分析中的一個(gè)常用概念,用以表達(dá)圖(網(wǎng)絡(luò))中一個(gè)頂點(diǎn)在整個(gè)網(wǎng)絡(luò)中所在中心的程度,也稱之為中心度。根據(jù)測(cè)定中心性方法的不同,可分為度中心性(Degree centrality)、接近中心性(或緊密中心性,Closeness centrality),中介中心性(Betweenness centrality)等。我們分析了度中心性、中介中心性、緊密中心性三項(xiàng)指標(biāo),用于度量一個(gè)頂點(diǎn)(學(xué)生)與其他頂點(diǎn)(學(xué)生)的社交距離和緊密程度。
另外一個(gè)重要度量是People Rank。Google發(fā) 明 的Page Rank算法改變了互聯(lián)網(wǎng),在社交網(wǎng)絡(luò)領(lǐng)域,People Rank指標(biāo)同樣可以用于分析一個(gè)個(gè)體在其社交圈子里的重要程度。PageRank算法原理是通過在圖中隨機(jī)游走,獲取每個(gè)頂點(diǎn)的重要性指標(biāo)。
本 文 通 過iGraph來 完 成PageRank,以及圖中心性指標(biāo)的計(jì)算。iGraph是C語(yǔ)言實(shí)現(xiàn)的圖論算法,性能非常優(yōu)秀。完成1萬個(gè)頂點(diǎn),5.6萬條邊的中心度及People Rank指數(shù)的計(jì)算,只需要不到3秒。完全可以支持實(shí)時(shí)社交網(wǎng)絡(luò)分析。
我們完成學(xué)生畫像的目的,是分析每名學(xué)生的特點(diǎn),給學(xué)生打上不同的標(biāo)簽,從而幫助學(xué)校、班主任、家長(zhǎng)對(duì)學(xué)生實(shí)行因材施教,或者實(shí)現(xiàn)更有針對(duì)性的幫助和心理關(guān)懷。
學(xué)生畫像的數(shù)據(jù)來源主要包括靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)兩類。其中學(xué)生基本信息屬于靜態(tài)數(shù)據(jù)。而學(xué)生社交數(shù)據(jù)、學(xué)生學(xué)業(yè)數(shù)據(jù),屬于動(dòng)態(tài)數(shù)據(jù)。學(xué)生信息還包括是否班干部,參加社團(tuán)情況等,這些信息對(duì)于完整的學(xué)生畫像也非常有價(jià)值?;趯W(xué)生畫像數(shù)據(jù),我們可以建立學(xué)生的個(gè)人大數(shù)據(jù)檔案。這部分檔案集成到學(xué)校教務(wù)系統(tǒng)中,只有教務(wù)處、二級(jí)學(xué)院教務(wù)人員、班級(jí)導(dǎo)師和輔導(dǎo)員能訪問,另外學(xué)校也會(huì)不定期推送學(xué)生個(gè)人大數(shù)據(jù)給學(xué)生家長(zhǎng)或?qū)W生本人。
本文設(shè)計(jì)了學(xué)生成績(jī)指數(shù)、社交指數(shù)、孤獨(dú)指數(shù)等三個(gè)指數(shù),用于完成學(xué)生在校行為的畫像,生成算法步驟如下。
3.for A in學(xué)生集合S(class):
(2)成績(jī)標(biāo)簽:根據(jù)“成績(jī)指數(shù)”在班級(jí)排名,“成績(jī)很棒”:前10%;“成績(jī)較差”:后10%;“成績(jī)一般”:其他;
(3)社交標(biāo)簽:根據(jù)“社交指數(shù)”在班級(jí)排名,“社交達(dá)人”:前10%;“社交困難”:后5%;“社交一般”:其他;
(4)孤獨(dú)標(biāo)簽:根據(jù)根據(jù)“孤獨(dú)指數(shù)”在班級(jí)排名,“較為孤獨(dú)”:前5%;“正?!?;
算法中孤獨(dú)指數(shù)和社交指數(shù)的相關(guān)性較強(qiáng)。但是孤獨(dú)指數(shù)為了更好分析出同學(xué)是否孤獨(dú),加大了離校次數(shù)和離校時(shí)間兩個(gè)指標(biāo)的權(quán)重。
學(xué)生畫像示例如圖2,左邊的標(biāo)簽是學(xué)生基本靜態(tài)信息。而右邊三個(gè)標(biāo)簽分別是學(xué)生的學(xué)業(yè)成績(jī)、社交能力、孤獨(dú)指數(shù)情況。
圖2 學(xué)生畫像示例
三個(gè)動(dòng)態(tài)標(biāo)簽是具有時(shí)間屬性的,每學(xué)期期末考試成績(jī)公布后,更新學(xué)生的成績(jī)標(biāo)簽;每月更新一次社交和孤獨(dú)標(biāo)簽。通過動(dòng)態(tài)檢測(cè)學(xué)生的社交和成績(jī)信息,可以盡早分析出學(xué)生的行為異常變化,從而給老師、家長(zhǎng)給出預(yù)警和建議[8-9]。
完成學(xué)生畫像后,更重要的是如何應(yīng)用學(xué)生畫像數(shù)據(jù)。我們構(gòu)建學(xué)生畫像的目的是分析學(xué)生的特點(diǎn),快速篩選出需要幫助和關(guān)心的同學(xué),并給出關(guān)懷建議。
關(guān)懷建議根據(jù)“成績(jī)”、“社交”、“孤獨(dú)”三個(gè)標(biāo)簽給出。這三個(gè)標(biāo)簽是動(dòng)態(tài)的,所以需要從時(shí)間維度來觀察標(biāo)簽的變化。系統(tǒng)將正面、負(fù)面變化的學(xué)生情況推送給導(dǎo)師、輔導(dǎo)員后,老師可以根據(jù)學(xué)生情況,給予學(xué)生關(guān)懷和幫助,并盡可能找到學(xué)生社交、成績(jī)變化的原因,添加到學(xué)生個(gè)人大數(shù)據(jù)檔案中[10]。
從2021年1月到2021年7月,我們將算法應(yīng)用于學(xué)校軟件學(xué)院大數(shù)據(jù)19-1(48名同學(xué))和AI20-1(37名同學(xué))兩個(gè)班級(jí)的教學(xué)管理。
圖3中,左圖是兩個(gè)班級(jí)中打上“孤獨(dú)”、“社交困難”、“成績(jī)較差”負(fù)面標(biāo)簽的學(xué)生人數(shù),老師可以重點(diǎn)關(guān)注。右圖是從2021年2月到2021年7月,按月生成的關(guān)懷集合C+和C-的人數(shù)??梢钥闯觯總€(gè)月都能給老師一些有價(jià)值的建議。
圖3 兩個(gè)班級(jí)的社交標(biāo)簽情況,以及觸發(fā)學(xué)生關(guān)懷建議的次數(shù)
學(xué)生的行為具有群體性,且不同專業(yè)、班級(jí)的學(xué)生,也有其普遍特點(diǎn)。例如會(huì)計(jì)、旅游管理等文科專業(yè)學(xué)生女生比例更高,而且學(xué)生平均成績(jī)較好。而軟件技術(shù)、數(shù)控技術(shù)等專業(yè),男生比例高,且學(xué)生平時(shí)專業(yè)作業(yè)較多,社交時(shí)間或社交能力稍弱。
以班級(jí)畫像為例,我們首先根據(jù)全班同學(xué)的學(xué)業(yè)成績(jī)數(shù)據(jù)以及社交數(shù)據(jù),建立班級(jí)標(biāo)簽。而班級(jí)的橫向?qū)Ρ染S度可以在全校所有班級(jí)范圍內(nèi)評(píng)比,也可在同專業(yè)內(nèi)對(duì)比。和學(xué)生畫像的算法類似,首先需要計(jì)算班級(jí)的成績(jī)指數(shù)、社交指數(shù),也就是計(jì)算全班所有同學(xué)成績(jī)指數(shù)、社交指數(shù)的算數(shù)平均值。再和全校所有班級(jí)指數(shù)進(jìn)行橫向?qū)Ρ?,打上班?jí)“成績(jī)標(biāo)簽”和“社交標(biāo)簽”。對(duì)于識(shí)別到“成績(jī)較差”、“社交一般”的班級(jí),可以給二級(jí)學(xué)院、教務(wù)處發(fā)出預(yù)警。另外從動(dòng)態(tài)角度,如果在短期內(nèi),出現(xiàn)班級(jí)成績(jī)或社交的負(fù)面變化,也需要及時(shí)預(yù)警,并給出整改措施。
應(yīng)用群體畫像可以算法給專業(yè)、班級(jí)打上標(biāo)簽;不過由于數(shù)量較少,所以對(duì)于專業(yè)、二級(jí)學(xué)院的群體畫像,建議使用絕對(duì)值進(jìn)行分析,由校領(lǐng)導(dǎo)、教務(wù)處、學(xué)校質(zhì)量處、二級(jí)學(xué)院共同討論得出結(jié)論。
本文從學(xué)生社交網(wǎng)絡(luò)分析入手,結(jié)合學(xué)生基礎(chǔ)信息,應(yīng)用圖數(shù)據(jù)庫(kù)、大數(shù)據(jù)技術(shù),提出了完整的動(dòng)態(tài)學(xué)生畫像、群體畫像生成算法。并提出如何應(yīng)用畫像與異常行為分析,給出有針對(duì)性的學(xué)生心理關(guān)懷建議;以及針對(duì)班級(jí)甚至專業(yè)的教學(xué)、學(xué)工管理改進(jìn)建議。
另外,通過分析學(xué)生出行情況,得到動(dòng)態(tài)的學(xué)生行為數(shù)據(jù),還可以有效支持疫情防控工作[11]。
學(xué)生行為大數(shù)據(jù)是智慧校園整體解決方案的重要一環(huán),其中還有非常多工作可以做。例如,基于學(xué)生食堂消費(fèi)數(shù)據(jù)、學(xué)生上網(wǎng)時(shí)長(zhǎng)、宿舍用水用電量等信息,可以完成更立體化的學(xué)生行為分析,得到學(xué)生經(jīng)濟(jì)狀況、身體健康狀況,給予學(xué)生更多的關(guān)心。還可以根據(jù)課堂學(xué)生表情分析,得到學(xué)生上課的專心程度,并根據(jù)全班同學(xué)的課堂專心程度,可以反推出課程(老師)的授課水平、課堂技巧等。