連惠群 唐明杰
(福建警察學(xué)院 福建省福州市 350007)
物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)分析和機器學(xué)習(xí)技術(shù)的發(fā)展,影響社會生活的各個方面,也推動了智慧校園的發(fā)展。智慧校園應(yīng)該具備挖掘和分析學(xué)生行為的能力。學(xué)生的日常行為可以反映學(xué)生的思想動態(tài)。由于我公安院校的特殊性,學(xué)生們是半軍事化管理,存在一些特殊的數(shù)據(jù)(出入校園登記、紀(jì)檢登記、內(nèi)務(wù)檢查登記等),這些數(shù)據(jù)可以側(cè)面反映學(xué)生們的行為習(xí)慣、思想狀態(tài)等。本文基于我院學(xué)生管理數(shù)據(jù),有出入校園數(shù)據(jù)、操行分?jǐn)?shù)據(jù)、智育分?jǐn)?shù)據(jù)、測評分?jǐn)?shù)據(jù)等等,對這些數(shù)據(jù)進行處理和分析,建立思想動態(tài)模型和預(yù)警機制,以期幫助我院各學(xué)生大隊更好的管理和幫助學(xué)生,并為我校學(xué)生思想政治教育工作服務(wù),這對于我公安院校有著特別的重要意義。本文通過四個方面展開研究。一是對出入校園數(shù)據(jù)進行分析,根據(jù)我院實際情況,建立一個異常的判斷模型,確定判斷依據(jù),設(shè)定臨界值?;谶@個模型,通過K 最近鄰(KNN)分類算法,對出入校園數(shù)據(jù)實現(xiàn)自動分類,發(fā)現(xiàn)異常點。二是在有關(guān)數(shù)據(jù)處理的基礎(chǔ)上,利用智育分的等級作為標(biāo)簽,運用spark 決策樹多元分類算法對學(xué)生的行為趨勢進行數(shù)據(jù)挖掘,預(yù)測智育分;三是對學(xué)生的個性簽名進行情感分析,得出學(xué)生的情緒狀態(tài);四是根據(jù)以上結(jié)果,設(shè)計學(xué)生思想動態(tài)監(jiān)測模型,以期更好地幫助學(xué)生,服務(wù)學(xué)生。
早期的學(xué)生行為分析是來自問卷統(tǒng)計或者案例收集,這樣的分析方式,即消耗大量的時間,又消耗許多的人力資源。而近年來人們越來越多的利用大數(shù)據(jù)的數(shù)據(jù)挖掘的分析方式,使得部分的教育質(zhì)量有所提升,但是仍有許多學(xué)校沒有加入這個行列,因為不同的學(xué)校的學(xué)生所產(chǎn)生的行為數(shù)據(jù)不同,需要針對各學(xué)校的特點進行分析。學(xué)生行為分析方面近幾年在國內(nèi)外有大量的研究:電子科技大學(xué)的何鑫[1],提出了隨機森林的權(quán)重自擬合算法、基于Map Reduce的決策樹參數(shù)自擬合算法和基于Map Reduce 的FP-Growth 算法,最終得到特征重要性、各特征值與行為標(biāo)簽的頻繁二項集以及與標(biāo)簽有關(guān)的高置信度的頻繁多項集;李中原[2]采用信息獲取、數(shù)據(jù)清洗和信息聚類等網(wǎng)絡(luò)輿情分析技術(shù)對高校學(xué)生網(wǎng)絡(luò)輿情監(jiān)測流程、監(jiān)測方法和監(jiān)測內(nèi)容等予以研究。王姝驕[3]通過以開發(fā)的WiCloud系統(tǒng)獲取北郵校園內(nèi)學(xué)生的行為數(shù)據(jù),并從三方面展開研究:學(xué)生行為模式聚類、學(xué)習(xí)風(fēng)氣分析、學(xué)習(xí)成績預(yù)測等。肖逸楓[4]利用學(xué)生前三學(xué)期在校的相關(guān)行為記錄,結(jié)合多種機器學(xué)習(xí)方法,建立模型預(yù)測學(xué)生第四學(xué)期結(jié)束之后是否存在留級的風(fēng)險。Hirotaka Itoh[5]通過數(shù)據(jù)分析等相關(guān)性研究,利用大量的成績預(yù)測學(xué)生出勤率和成績數(shù)據(jù)的相關(guān)趨勢,從而創(chuàng)建貝葉斯網(wǎng)絡(luò)來預(yù)測學(xué)生未來的成績和GPA 數(shù)據(jù)。S.Shankar[6]使用K-means 聚類算法,根據(jù)哈佛大學(xué)在線注冊的學(xué)生的成績、國籍等影響因素進行成績分析。在思想動態(tài)方面,李昱,何文華[7]以廣東女子職業(yè)技術(shù)學(xué)院為例,提出了基于大數(shù)據(jù)的大學(xué)生思想動態(tài)研判思路、研究以數(shù)字化校園為基礎(chǔ),通過信息化管理過程中產(chǎn)生的海量數(shù)據(jù),對學(xué)生的思想動態(tài)進行綜合分析,為教育引導(dǎo)提供有效依據(jù);成方、高大林[8]等研究人員基于員工思想動態(tài)預(yù)警的機制和方法,采取了定量和定性相結(jié)合的分析手段進行探索。再經(jīng)過分類分層處理,形成了“員工思想預(yù)警關(guān)鍵信息指標(biāo)體系”。本文主要根據(jù)我院實際數(shù)據(jù)特點及我院學(xué)生管理工作實際,建立出入校園異常判斷模型和智育分預(yù)測算法,在此基礎(chǔ)上,設(shè)計學(xué)生思想動態(tài)監(jiān)測模型。
圖1:出入校園數(shù)據(jù)樣例
圖2:德育分?jǐn)?shù)據(jù)樣例
圖3:智育分?jǐn)?shù)據(jù)樣例
圖4:抽取有關(guān)項的數(shù)據(jù)片段
圖5:整合后待處理的數(shù)據(jù)片段
由于我院學(xué)生出入的時間規(guī)則是周一到周五,集合時間是P1、N2、N4,周六集合時間是W1、W2,周日集合時間是W1、N4,學(xué)院規(guī)定,集合的時間學(xué)生必須到場,公務(wù)或病假等原因需要請假。
給出一個異常處理模型:異常的兩個判斷依據(jù):其中一點是正常出入校園的時間是Fn1≤F ≤Fn2、Fn3≤F ≤Fn4(非周末,中午時間和傍晚時間)和Fw1≤F ≤Fw2(周六),F(xiàn)w1≤F ≤Fn4(周日),在這時間段之外(且未請假的)的即是非正常,另一點是,一般情況下,學(xué)生每個月請假次數(shù)在某個范圍浮動。判定函數(shù)如下:
圖6:決策樹多元分類算法運行及結(jié)果
圖7:情感分析后的結(jié)果
正 常:F(Fn1≤F ≤Fn2;Fn3≤F ≤Fn4)非周末,且F(Fw1≤F ≤Fw2)周末,且T ≤max
黃色預(yù)警:F(Fn1≤F ≤Fn2;Fn3≤F ≤Fn4)非周末,F(xiàn)(Fw1≤F ≤Fw2)周末,T ≤max,這四個條件違反一次按一次計,一個月違反1-2 次;
橙色預(yù)警:F(Fn1≤F ≤Fn2;Fn3≤F ≤Fn4)非周末,F(xiàn)(Fw1≤F ≤Fw2)周末,T ≤max,這四個條件違反一次按一次計,一個月違反3-4 次;
紅色預(yù)警:F(Fn1≤F ≤Fn2;Fn3≤F ≤Fn4)非周末,F(xiàn)(Fw1≤F ≤Fw2)周末,T≤max,這四個條件違反一次按一次計,一個月違反4次以上。
如圖1 是出入校園數(shù)據(jù)樣例。
模型建成后,使用KNN 算法對數(shù)據(jù)進行分類。KNN 算法,也稱K 最近鄰算法,是一種分類算法,是基于距離的離群點檢測的方法。首先構(gòu)建一個已經(jīng)分類的數(shù)據(jù)集,然后計算一個新樣本與數(shù)據(jù)集中所有數(shù)據(jù)的距離,新樣本的值靠近哪個分類就屬于哪個類別,最后輸出結(jié)果。根據(jù)以上的模型,對該同學(xué)11月測試的結(jié)果,是2次,黃色預(yù)警。
成績雖然并不是唯一的評價標(biāo)準(zhǔn),但是以我們管理學(xué)生的經(jīng)驗,成績卻能側(cè)面反映學(xué)生的整體狀況。如果成績浮動不大,則學(xué)生的狀態(tài)一般趨于平穩(wěn)。反之,如果一位學(xué)生成績突然下降,則可能學(xué)生狀態(tài)不佳,可能發(fā)生了什么事情,或許遇到了什么困難。但是一般學(xué)生們在學(xué)期末才會考試,半年后才發(fā)現(xiàn)學(xué)生的狀態(tài)欠佳就比較晚了。我院是公安院校,平時會記錄學(xué)生的德育分,比如記錄出勤、內(nèi)務(wù)、獎勵、測評等情況。我們的思路是針對紀(jì)檢登記、內(nèi)務(wù)檢查登記、獎勵登記、測評登記等數(shù)據(jù),對這些數(shù)據(jù)進行碰撞和挖掘,對學(xué)生的行為進行分析,對學(xué)生的成績進行預(yù)測。這樣每時每刻對學(xué)生們的狀態(tài)進行監(jiān)測,實時預(yù)測學(xué)生們的成績,如果發(fā)現(xiàn)某學(xué)生的預(yù)測成績出現(xiàn)異常(與原來相比差別比較大),則會預(yù)警,大隊管理老師則會重點關(guān)注該學(xué)生的思想動態(tài),通過談心談話等方式疏解,這樣以期幫助我院各學(xué)生大隊更好的管理和幫助學(xué)生,并為我院學(xué)生思想政治教育工作服務(wù)。
表1:學(xué)生思想動態(tài)監(jiān)測模型框架
德育分和智育分?jǐn)?shù)據(jù)樣例如圖2 和圖3所示。我們抽取大部分同學(xué)都有的項目如測評分(上學(xué)期的測評分,因為本學(xué)期的測評分在期末才會進行測評,測評分指的是區(qū)隊內(nèi)其他同學(xué)對自己評價的平均分)、減分、區(qū)隊干部、無違紀(jì)、內(nèi)務(wù)未扣、大隊通報表揚等項目(如圖4所示),預(yù)測項(標(biāo)簽)是智育成績(分為優(yōu)秀4,良好3,及格2,不及格1)四項。最后的整合數(shù)據(jù)如圖5所示,最后一項是標(biāo)簽label(即成績等級)。
我們構(gòu)建了spark 環(huán)境進行預(yù)測,使用決策樹多元分類,程序運行及結(jié)果如圖6所示。
此分析主要利用貝葉斯分類模型算法,對個性簽名進行分類。本次分析利用已經(jīng)封裝好的庫--snownlp,直接對個性簽名進行分析。最終得到分析結(jié)果,如圖7。
結(jié)合以上研究結(jié)果,設(shè)計學(xué)生思想動態(tài)監(jiān)測模型框架(表1)。
此框架設(shè)計學(xué)生思想動態(tài)監(jiān)測模型,包括貢獻狀況、違紀(jì)情況、情緒狀態(tài)、人際交往、請銷假、預(yù)測成績等指標(biāo),其中指標(biāo)的數(shù)據(jù)以一個月為周期。
此模型框架以校園內(nèi)已經(jīng)建立的軟硬件系統(tǒng)為基礎(chǔ),先對大學(xué)生在日常生活和學(xué)習(xí)中各種行為,如出入校園次數(shù)、加分細目等,研究確定各類活動正常狀態(tài)下的閾值標(biāo)準(zhǔn)。通過研究與分析,我們設(shè)定若6 個指標(biāo)中有3 個指標(biāo)達到預(yù)警值,或者每個指標(biāo)的狀態(tài)有發(fā)生變化,比如違紀(jì)情況突然增多、請銷假數(shù)據(jù)有變化、情緒狀態(tài)突變、成績預(yù)測突變等,這些都需要大隊老師對預(yù)警信息進行綜合研判后,對學(xué)生進行針對性的正向引導(dǎo)。
本文基于學(xué)生出入校園數(shù)據(jù)、學(xué)生操行分?jǐn)?shù)據(jù)、智育分?jǐn)?shù)據(jù)、微信個性簽名信息等數(shù)據(jù),首先對出入校園數(shù)據(jù)進行分析,根據(jù)我院實際情況,建立一個異常的判斷模型,確定判斷依據(jù),設(shè)定臨界值?;谶@個模型,通過K 最近鄰(KNN)分類算法,對出入校園數(shù)據(jù)實現(xiàn)自動分類,發(fā)現(xiàn)異常點。接著在有關(guān)數(shù)據(jù)處理的基礎(chǔ)上,利用智育分的等級作為標(biāo)簽,運用spark 決策樹多元分類算法對學(xué)生的行為趨勢進行數(shù)據(jù)挖掘,預(yù)測智育分;然后對學(xué)生的個性簽名進行情感分析,得出學(xué)生的情緒狀態(tài);最后,根據(jù)以上結(jié)果,設(shè)計學(xué)生思想動態(tài)監(jiān)測模型,以期更好地幫助學(xué)生,服務(wù)學(xué)生。本次研究的整個模型仍存在不足之處,如需要提取更多有效特征來描述行為并添加新的數(shù)據(jù),如:校園一卡通的學(xué)生消費記錄、游泳池的使用記錄,體測數(shù)據(jù),圖書館使用記錄等。另外數(shù)據(jù)量不夠多,成績預(yù)測的結(jié)果準(zhǔn)確率還不夠高,接下來將調(diào)整參數(shù)和使用更多的數(shù)據(jù)進行計算。