文 /呂 堅 梁 樑 林 童
利用當下最為流行的機器學習中的支持向量機算法(support vector machine, SVM),建立心理狀態(tài)、心理風險和積極心理品質(zhì)三個方面的預(yù)測模型,從不同的角度反映個體思想狀況的積極、風險以及風險耐受性(自我調(diào)節(jié)性),能夠有效分辨出高中低三個水平的心理狀態(tài)和積極心理品質(zhì)的人群,同時能夠區(qū)分出高心理風險與低心理風險的人群。
當前,人的思想活動的獨立性、選擇性、多變性和差異性進一步增強,導(dǎo)致思想政治工作面臨許多新情況、新矛盾和新挑戰(zhàn)。為更全面掌握基層員工的心理特點、工作感受及組織態(tài)度等動態(tài),切實了解員工所思所想,國網(wǎng)浙江公司深入剖析當前員工思想動態(tài)分析工作中存在的不足,及時發(fā)現(xiàn)問題并提出具有價值的意見和建議,以進一步加強員工思想政治教育,增強員工關(guān)愛政策的針對性,進而為公司管理決策提供依據(jù)和參考。通過多范圍、多層級地采集員工思想動態(tài)方面的數(shù)據(jù),并借助大數(shù)據(jù)技術(shù),架構(gòu)全新的、符合新形勢要求的思想動態(tài)分析模型,通過指數(shù)化分析及預(yù)警,創(chuàng)新了思想工作。
研究目標
實現(xiàn)科學有效地監(jiān)測員工的心理狀態(tài)、心理風險和積極心理品質(zhì)(心理耐受、調(diào)整能力);依據(jù)測量結(jié)果更有針對性地開展工作,改善員工的心理健康,提高其生活質(zhì)量和工作效率;讓員工的思想狀況保持良好水平,切實增強組織的績效表現(xiàn),提升組織的工作成效。
研究方法
行為數(shù)據(jù)測量。行為數(shù)據(jù)包含受測者所有活動足跡的數(shù)據(jù)資料,能夠全面、實時、真實地記錄全部數(shù)據(jù),信息量豐富,有利于后期的數(shù)據(jù)挖掘和分析。這一技術(shù)不僅實現(xiàn)了對研究變量的在線測量,而且避免了傳統(tǒng)方法中數(shù)據(jù)收集工作耗時費力的缺陷,可在大規(guī)模施測的同時無干擾地記錄被試者的真實行為。
機器學習算法。心理測評領(lǐng)域亟需一種有效的數(shù)據(jù)分析方法來處理這些問題,以實現(xiàn)對個體能力和特質(zhì)更為準確的評估。研究發(fā)現(xiàn)機器學習的不同算法均能夠較為準確地識別情緒(快樂、中性、憤怒)。同時基于行為數(shù)據(jù)測量的優(yōu)勢,機器學習技術(shù)可以在這類研究中體現(xiàn)出獨特的優(yōu)勢,能夠通過充分利用行為數(shù)據(jù)信息,建立較為復(fù)雜的模型,實現(xiàn)更準確的預(yù)測。
采用機器學習的模式對員工思想狀況監(jiān)測的預(yù)測模型進行科學和系統(tǒng)研究,通過收集的變量去建立心理狀態(tài)、積極心理品質(zhì)以及心理風險的預(yù)測模型,利用機器學習最常用的監(jiān)督學習算法中的隨機森林(Random Forest, RF)、支持向量機(Support Vector Machine, SVM)和樸素貝葉斯(Naive Bayesian Model,NBM)算法,利用R stido進行數(shù)據(jù)清理、統(tǒng)計分析與模型搭建。這三種算法經(jīng)過前人驗證,已經(jīng)證明是最好的三種機器學習的分類算法,其中隨機森林和支持向量機算法尤為出色(Cernadas, E., & Amorim, D,2014)。最后經(jīng)過模型比對,選擇了更為優(yōu)秀的支持向量機作為我們最終使用的算法。研究具體過程包括數(shù)據(jù)采集、數(shù)據(jù)集清理、模型建設(shè)與驗證三個核心步驟。
數(shù)據(jù)采集。本次研究主要使用了問卷收集的方式,對國網(wǎng)浙江省電力公司1 429名員工進行數(shù)據(jù)收集,排除疑似無效作答的作答者340人,最后有效作答數(shù)據(jù)為1 089份(男性729人,女性360人),年齡范圍在21歲~57歲之間。問卷包含傳統(tǒng)專業(yè)心理學問卷(如:大五人格、心理資本量表、心理健康連續(xù)量表、抑郁量表)以及員工生活行為的問題(人口學變量、生活、情感、家庭、工作、行為等)。問卷一共包含155個題,題目類型都為選擇題,分為單選題和多選題兩種。
數(shù)據(jù)集清理。在做機器學習之前最重要的工作是清理我們的數(shù)據(jù)集,對整個數(shù)據(jù)集的被試和預(yù)測變量進行嚴密的篩查,為的是能夠提高最后的預(yù)測效果,并在此基礎(chǔ)上進行數(shù)據(jù)分析。數(shù)據(jù)集清理主要包括無效數(shù)據(jù)清洗和變量處理兩項內(nèi)容,其整體概覽圖如圖1所示。
圖1 數(shù)據(jù)集清理過程概覽
模型訓(xùn)練與驗證。清理好數(shù)據(jù)之后,我們就開始進行機器學習的模型建立,即模型的訓(xùn)練和驗證,其機器學習流程圖及部分機器學習計算機語言如圖2所示。
圖2 機器學習流程圖
對比隨機森林(Random Forest, RF)、支持向量機(Support Vector Machine, SVM)和樸素貝葉斯(Naive Bayesian Model,NBM)算法,發(fā)現(xiàn)支持向量機的預(yù)測效果最好,最后使用支持向量機作為預(yù)測建模算法。
首先把樣本分為80%的訓(xùn)練集(用做模型訓(xùn)練,得到最終模型)以及20%的測試集(用做模型效果的驗證)。
支持向量機中有三個非常重要的超參數(shù)會對模型產(chǎn)生影響
核函數(shù)(kernel):有4個可選核函數(shù),分別為線性核函數(shù)(linear)、多項式核函數(shù)(polynomial)、徑向基核函數(shù)(radial basis)以及神經(jīng)網(wǎng)絡(luò)核函數(shù)(sigmoid)。識別率最高、性能最好的是徑向基核函數(shù),其次是多項式核函數(shù),而最差的是神經(jīng)網(wǎng)絡(luò)核函數(shù)。
Cost超參數(shù):允許支持向量存在軟決策邊界的懲罰項的系數(shù),C越大表明越允許交叉項存在,但是容易發(fā)生過擬合。
Gama超參數(shù):核函數(shù)一種的一個調(diào)和參數(shù),目的也是為了避免發(fā)生過擬合。
在選擇核函數(shù)和兩個超參數(shù)的時候,需要不斷地嘗試最終達到最好的模型效果。
超參數(shù)選擇
通過窮舉法搜索Cost和gama參數(shù)的值,使他們兩個出現(xiàn)一個最優(yōu)的搭配,當gama=0.01,C=10的時候模型能夠得到最優(yōu)的預(yù)測效果。
基礎(chǔ)推薦模型變量選擇
心理狀態(tài)模型中基礎(chǔ)推薦出46個變量,心理風險模型基礎(chǔ)推薦出18個變量,積極心理品質(zhì)模型基礎(chǔ)推薦出25個變量。
模型預(yù)測結(jié)果
最終選擇使用機器學的SVM算法進行建模。模型預(yù)測準確率良好,能夠分辨出高中低三個水平的積極心理品質(zhì)和心理狀態(tài)的人群,同時也能夠區(qū)分出高心理風險與低心理風險的人群。
模型應(yīng)用
針對性地開發(fā)國網(wǎng)浙江省電力公司員工思想狀況預(yù)測模型的分類器,包括心理狀態(tài)、心理風險和積極心理品質(zhì)三個分類器。通過該分類器,收集員工在本研究中所涉及到的預(yù)測自變量信息,利用計算機系統(tǒng)對模型分類器進行調(diào)用,即可自動化預(yù)測得到員工在心理狀態(tài)、心理風險以及積極心理品質(zhì)三個方面的思想狀況水平,如圖3所示。
圖3模型分類器使用流程圖
此次研究結(jié)果顯示,員工心理狀態(tài)、心理風險及積極心理品質(zhì)模型預(yù)測準確率均超過7成,表明其已經(jīng)達到了比較好的效果,也說明了通過員工行為數(shù)據(jù)對員工的思想狀況進行預(yù)測是可行的,體現(xiàn)了我們此項研究工作的初步成果。我們同時也需要注意,在今后的工作中,在此模型的優(yōu)化方面仍有改進空間,結(jié)合理論與經(jīng)驗,優(yōu)化數(shù)據(jù)收集方式、優(yōu)化變量的選取,逐漸對模型進行迭代升級,以使這項工作的整體效果不斷優(yōu)化。