陳秋伍 魏惠梅 大連科技學(xué)院
關(guān)鍵字:R-shiny 數(shù)據(jù)分析 K-means 聚類算法 心理健康 數(shù)據(jù)可視化
在當(dāng)今大學(xué)校園中,大學(xué)生心理健康是值得重視的一個問題。在絕大部分的高校中,學(xué)校都設(shè)立了心理健康咨詢處,而且眾多學(xué)生的心理健康數(shù)據(jù)都會儲存在這里的數(shù)據(jù)庫中,通過對數(shù)據(jù)庫的基本操作,對解決心理健康問題也取得了一定的效果,但是數(shù)據(jù)庫中的數(shù)據(jù)并沒有得到充分利用和分析。為此,本文基于R-shiny 的數(shù)據(jù)分析平臺以及K-means 聚類算法,將數(shù)據(jù)根據(jù)重要特征量進(jìn)行分類,做到數(shù)據(jù)可視化,繼而分析每一類的學(xué)生特點(diǎn),可以提前發(fā)現(xiàn)這類學(xué)生潛在的心理健康問題,做到一種主動防御心理健康問題發(fā)生的機(jī)制。
K 均值聚類算法(K-means clustering algorithm)是一種迭代求解的聚類分析算法,其步驟主要是選取K 個對象作為初始聚類中心,然后計算每個對象與各個種子聚類中心的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給他們的對象就代表一個聚類。每分配一個樣本,聚類的聚類中心就會根據(jù)聚類中現(xiàn)有的對象被重新計算。這個過程不斷地重復(fù)知道滿足某一個結(jié)束條件。結(jié)束條件可以是沒有對象被重新分配給不同的聚類,沒有聚類中心再發(fā)生變化,誤差平方和局部最小。
過程:
2:repeat
8:end for
13:else
14:保持當(dāng)前均值向量不變
15:end if
16:end for
17:until 當(dāng)前均值向量均未更新
注:其中第1 行對均值向量進(jìn)行初始化;
在第4-8 行與第9-16 行以此對當(dāng)前簇劃分及均值向量迭代更新,若迭代更新后聚類結(jié)果保持不變,則在第18 行將當(dāng)前簇劃分結(jié)果返回。
基于R-shiny 數(shù)據(jù)分析平臺,調(diào)用其中的K-means 聚類分析算法,可以比較容易地將大量的數(shù)據(jù)歸類處理以及數(shù)據(jù)的可視化。我們對兩個班的學(xué)生做出了鍛煉、睡眠、社交能力、壓力、課堂等類別的問卷調(diào)查,每個類別都有一個或者多個特征量,最終在十周的問卷調(diào)查中隨機(jī)提取了72 小時的特征量數(shù)值作為數(shù)據(jù)來源。數(shù)據(jù)類別及特征量如表1 所示:
表1 數(shù)據(jù)來源示例
每個類別都有一個或者是多個特征量,特征量的選擇對研究學(xué)生的心理健康有著緊密的聯(lián)系,選取最佳的特征量就意味著最終的聚類結(jié)果有著更高的可信度,通過不斷地分析與比較,我們以“Sleep_hour”(睡眠時間),“Exercise_exercise”(鍛煉時間),“Class_hour”(課外做功課時間),“Stress_level”(壓力等級),“Social_number”(社交人數(shù))作為五個最佳的特征量,其中的“Stress_level”是最能反映學(xué)生心理健康的一個特征量。
1.為了保證K-means 算法分析數(shù)據(jù)的準(zhǔn)確性,需要對數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理的目的如下:
(1)保證數(shù)據(jù)的有效性:采集的數(shù)據(jù)要與研究的內(nèi)容相關(guān),避免數(shù)據(jù)丟失;
(2)剔除孤立數(shù)據(jù):把明顯不準(zhǔn)確的數(shù)據(jù)剔除;
(3)統(tǒng)一數(shù)據(jù)尺度:對數(shù)據(jù)進(jìn)行量化,方便聚類算法的運(yùn)算和最終的可視化展現(xiàn);
2.數(shù)據(jù)處理步驟如下:
(1)對每個學(xué)生樣本的特征量在計劃時間內(nèi)的數(shù)據(jù)進(jìn)行均值處理;
(2)根據(jù)對應(yīng)的數(shù)據(jù)轉(zhuǎn)換表,將特征量均值轉(zhuǎn)換為K-means 聚類算法所需均值初始向量;
3.數(shù)據(jù)預(yù)處理后如表2 所示:
表2 .部分?jǐn)?shù)據(jù)預(yù)處理后示例
基于R-shiny 搭建了學(xué)生心理健康分析平臺。其中聚類的個數(shù)即K 值可以任意的選取,每選取一個K 值,樣本數(shù)據(jù)就會分為K 個群體,選取最佳的K 值對分析學(xué)生心理健康的準(zhǔn)確性有著重要意義,通過不斷地分析與聚類對比,聚類分為5 類效果最佳。
1.學(xué)生心理健康數(shù)據(jù)聚類分析結(jié)果如圖1 所示:
圖1 .最終聚類分析結(jié)果
2.最終聚類結(jié)果分析:
(1)學(xué)生群C1 占比為42%,這類學(xué)生大多情商較高,善于交流,活潑好動,心態(tài)也是相當(dāng)?shù)臉酚^,他們的大學(xué)生活豐富多彩,算得上是個逍遙子,他們愿意花更多的時間去做自己喜歡的事情,他們出現(xiàn)心理健康的幾率相當(dāng)?shù)男。抢蠋熁蛘咻o導(dǎo)員更應(yīng)該多鼓勵這類學(xué)生多花時間在學(xué)習(xí)上,為社會輸出優(yōu)秀人才。
(2)學(xué)生群C2 占比為13%,這類學(xué)生應(yīng)該是輔導(dǎo)員值得關(guān)注的群體,他們反應(yīng)出來的現(xiàn)象就是方向不明確,在大學(xué)找不到屬于自己的目標(biāo),稍遇挫折就極易的墮落,情緒也容易失控,并且,這類學(xué)生的心理健康問題早期是很難發(fā)現(xiàn)的,所以輔導(dǎo)員應(yīng)該及時對該類學(xué)生做好心理疏導(dǎo)和方向指明。
(3)學(xué)生群C3 占比為18%,這類學(xué)生大多學(xué)習(xí)成績優(yōu)異,他們往往是班上的活動積極分子、班干部或?qū)W生會干部。對這類學(xué)生,應(yīng)該好好地加栽培,將他們積極向上、樂觀開朗的心理狀態(tài)帶給班級的每一位學(xué)生,這個群體是在班集體中傳遞正能量的主要群體,輔導(dǎo)員應(yīng)該對他們加以引導(dǎo),讓他們的學(xué)習(xí)、品德更上一層樓。
(4)學(xué)生群C4 占比為12%,這類學(xué)生屬于貪玩調(diào)皮的那一類,他們喜歡打游戲的同時也鐘愛與鍛煉身體,對學(xué)習(xí)馬馬虎虎,然而他們卻有著很強(qiáng)大自尊心,在連續(xù)受到自尊心打擊的情況下,很可能會做出過激的反應(yīng),若他們出現(xiàn)心理健康問題是很容易及時發(fā)現(xiàn)的,在保護(hù)他們自尊心的同時也應(yīng)該適當(dāng)?shù)闹赋鏊麄兊腻e誤。
(5)學(xué)生群C5 占比為15%,這類學(xué)生,很容易發(fā)生心理健康問題,他們內(nèi)心的壓力太大,在小情緒的積累下,很容易就會精神崩潰,大多都是源于他們的實(shí)際行動追趕不上自己內(nèi)心的欲望,對于大多數(shù)的事情都只有三分鐘的熱度,容易被新的知識所難倒,又想在這方面達(dá)到很高的成績,這顯然是不可能的,輔導(dǎo)員應(yīng)該鼓勵這類學(xué)生做事情應(yīng)該腳踏實(shí)地,冰凍三尺非一日之寒。
借助該方法不僅有助于學(xué)校心理咨詢師、學(xué)生管理人員為學(xué)生提供更多更好的心理健康服務(wù),而且能為高校心理健康教育工作者提供了一定的參考價值,提高相關(guān)管理人員的工作效率,彌補(bǔ)傳統(tǒng)分析方法存在的局限性,從而達(dá)到科學(xué)、合理、快速地反映學(xué)生心理狀態(tài)的目的。