陳秋伍 魏惠梅 大連科技學院
關鍵字:R-shiny 數(shù)據(jù)分析 K-means 聚類算法 心理健康 數(shù)據(jù)可視化
在當今大學校園中,大學生心理健康是值得重視的一個問題。在絕大部分的高校中,學校都設立了心理健康咨詢處,而且眾多學生的心理健康數(shù)據(jù)都會儲存在這里的數(shù)據(jù)庫中,通過對數(shù)據(jù)庫的基本操作,對解決心理健康問題也取得了一定的效果,但是數(shù)據(jù)庫中的數(shù)據(jù)并沒有得到充分利用和分析。為此,本文基于R-shiny 的數(shù)據(jù)分析平臺以及K-means 聚類算法,將數(shù)據(jù)根據(jù)重要特征量進行分類,做到數(shù)據(jù)可視化,繼而分析每一類的學生特點,可以提前發(fā)現(xiàn)這類學生潛在的心理健康問題,做到一種主動防御心理健康問題發(fā)生的機制。
K 均值聚類算法(K-means clustering algorithm)是一種迭代求解的聚類分析算法,其步驟主要是選取K 個對象作為初始聚類中心,然后計算每個對象與各個種子聚類中心的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給他們的對象就代表一個聚類。每分配一個樣本,聚類的聚類中心就會根據(jù)聚類中現(xiàn)有的對象被重新計算。這個過程不斷地重復知道滿足某一個結束條件。結束條件可以是沒有對象被重新分配給不同的聚類,沒有聚類中心再發(fā)生變化,誤差平方和局部最小。
過程:
2:repeat
8:end for
13:else
14:保持當前均值向量不變
15:end if
16:end for
17:until 當前均值向量均未更新
注:其中第1 行對均值向量進行初始化;
在第4-8 行與第9-16 行以此對當前簇劃分及均值向量迭代更新,若迭代更新后聚類結果保持不變,則在第18 行將當前簇劃分結果返回。
基于R-shiny 數(shù)據(jù)分析平臺,調(diào)用其中的K-means 聚類分析算法,可以比較容易地將大量的數(shù)據(jù)歸類處理以及數(shù)據(jù)的可視化。我們對兩個班的學生做出了鍛煉、睡眠、社交能力、壓力、課堂等類別的問卷調(diào)查,每個類別都有一個或者多個特征量,最終在十周的問卷調(diào)查中隨機提取了72 小時的特征量數(shù)值作為數(shù)據(jù)來源。數(shù)據(jù)類別及特征量如表1 所示:
表1 數(shù)據(jù)來源示例
每個類別都有一個或者是多個特征量,特征量的選擇對研究學生的心理健康有著緊密的聯(lián)系,選取最佳的特征量就意味著最終的聚類結果有著更高的可信度,通過不斷地分析與比較,我們以“Sleep_hour”(睡眠時間),“Exercise_exercise”(鍛煉時間),“Class_hour”(課外做功課時間),“Stress_level”(壓力等級),“Social_number”(社交人數(shù))作為五個最佳的特征量,其中的“Stress_level”是最能反映學生心理健康的一個特征量。
1.為了保證K-means 算法分析數(shù)據(jù)的準確性,需要對數(shù)據(jù)進行預處理。數(shù)據(jù)預處理的目的如下:
(1)保證數(shù)據(jù)的有效性:采集的數(shù)據(jù)要與研究的內(nèi)容相關,避免數(shù)據(jù)丟失;
(2)剔除孤立數(shù)據(jù):把明顯不準確的數(shù)據(jù)剔除;
(3)統(tǒng)一數(shù)據(jù)尺度:對數(shù)據(jù)進行量化,方便聚類算法的運算和最終的可視化展現(xiàn);
2.數(shù)據(jù)處理步驟如下:
(1)對每個學生樣本的特征量在計劃時間內(nèi)的數(shù)據(jù)進行均值處理;
(2)根據(jù)對應的數(shù)據(jù)轉(zhuǎn)換表,將特征量均值轉(zhuǎn)換為K-means 聚類算法所需均值初始向量;
3.數(shù)據(jù)預處理后如表2 所示:
表2 .部分數(shù)據(jù)預處理后示例
基于R-shiny 搭建了學生心理健康分析平臺。其中聚類的個數(shù)即K 值可以任意的選取,每選取一個K 值,樣本數(shù)據(jù)就會分為K 個群體,選取最佳的K 值對分析學生心理健康的準確性有著重要意義,通過不斷地分析與聚類對比,聚類分為5 類效果最佳。
1.學生心理健康數(shù)據(jù)聚類分析結果如圖1 所示:
圖1 .最終聚類分析結果
2.最終聚類結果分析:
(1)學生群C1 占比為42%,這類學生大多情商較高,善于交流,活潑好動,心態(tài)也是相當?shù)臉酚^,他們的大學生活豐富多彩,算得上是個逍遙子,他們愿意花更多的時間去做自己喜歡的事情,他們出現(xiàn)心理健康的幾率相當?shù)男。抢蠋熁蛘咻o導員更應該多鼓勵這類學生多花時間在學習上,為社會輸出優(yōu)秀人才。
(2)學生群C2 占比為13%,這類學生應該是輔導員值得關注的群體,他們反應出來的現(xiàn)象就是方向不明確,在大學找不到屬于自己的目標,稍遇挫折就極易的墮落,情緒也容易失控,并且,這類學生的心理健康問題早期是很難發(fā)現(xiàn)的,所以輔導員應該及時對該類學生做好心理疏導和方向指明。
(3)學生群C3 占比為18%,這類學生大多學習成績優(yōu)異,他們往往是班上的活動積極分子、班干部或?qū)W生會干部。對這類學生,應該好好地加栽培,將他們積極向上、樂觀開朗的心理狀態(tài)帶給班級的每一位學生,這個群體是在班集體中傳遞正能量的主要群體,輔導員應該對他們加以引導,讓他們的學習、品德更上一層樓。
(4)學生群C4 占比為12%,這類學生屬于貪玩調(diào)皮的那一類,他們喜歡打游戲的同時也鐘愛與鍛煉身體,對學習馬馬虎虎,然而他們卻有著很強大自尊心,在連續(xù)受到自尊心打擊的情況下,很可能會做出過激的反應,若他們出現(xiàn)心理健康問題是很容易及時發(fā)現(xiàn)的,在保護他們自尊心的同時也應該適當?shù)闹赋鏊麄兊腻e誤。
(5)學生群C5 占比為15%,這類學生,很容易發(fā)生心理健康問題,他們內(nèi)心的壓力太大,在小情緒的積累下,很容易就會精神崩潰,大多都是源于他們的實際行動追趕不上自己內(nèi)心的欲望,對于大多數(shù)的事情都只有三分鐘的熱度,容易被新的知識所難倒,又想在這方面達到很高的成績,這顯然是不可能的,輔導員應該鼓勵這類學生做事情應該腳踏實地,冰凍三尺非一日之寒。
借助該方法不僅有助于學校心理咨詢師、學生管理人員為學生提供更多更好的心理健康服務,而且能為高校心理健康教育工作者提供了一定的參考價值,提高相關管理人員的工作效率,彌補傳統(tǒng)分析方法存在的局限性,從而達到科學、合理、快速地反映學生心理狀態(tài)的目的。