楊 娟
(湖南工業(yè)職業(yè)技術(shù)學院 湖南長沙 410208)
教育部黨組頒發(fā)了《高等學校學生心理健康教育指導綱要》進一步提出:“堅持育心與育德相統(tǒng)一,要求完善心理危機預(yù)防和快速反應(yīng)機制,更好地適應(yīng)和滿足學生心理健康教育服務(wù)需求?!爆F(xiàn)階段高職院校的學生心理健康預(yù)測主要集中在一年一次的新生入校心理普查,側(cè)重于數(shù)據(jù)收集及統(tǒng)計,沒有進一步挖掘更深層次的信息,總結(jié)發(fā)展規(guī)律,導致問題預(yù)測準確性較低。
在大數(shù)據(jù)挖掘中發(fā)現(xiàn)關(guān)鍵的關(guān)系信息或?qū)傩灶悇e中的規(guī)律性聯(lián)系,并挖掘潛在的信息,通過關(guān)聯(lián)規(guī)則分析,進一步找出發(fā)生的事件并導致其他事件順序或時間上的形成規(guī)律。前期研究表明,高職生心理健康狀況有其群體特征,人際交往問題比較明顯,同時對比分析了不同專業(yè)、生源地、社會支持對心理健康的影響,結(jié)果表明之間有較顯著的關(guān)聯(lián)性,具有不同屬性特征。在此研究基礎(chǔ)上,通過找出發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在信息,根據(jù)樣本數(shù)據(jù)進行大量特征分類,抽取概括出這些信息的共質(zhì)性及較明顯特點,自動匹配最具代表性的其他特征,自動匹配最佳權(quán)重指標。[1]
通過數(shù)據(jù)挖掘技術(shù),從大量學生的心理健康評估數(shù)據(jù)庫里提取有用信息,為高職學生心理問題預(yù)測做參考。具體流程圖如下:
圖1 高職學生心理健康測評數(shù)據(jù)挖掘流程圖
本文中所選用數(shù)據(jù)來源于湖南工業(yè)職業(yè)技術(shù)學院、湖南科技職業(yè)技術(shù)學院和湖南工程職業(yè)技術(shù)學院的心理健康測評系統(tǒng)中自評量表SCL-90及個人基本信息的數(shù)據(jù),具體從在校大一、大二學生中選取260名,其中男生157人,女生103人。所涉及職院的心理測評數(shù)據(jù)庫采用SQL Server 2008來存儲管理,個人信息主要收集性別、年齡、專業(yè)、生源地、家庭經(jīng)濟收入、個體社會支持利用程度,共6項內(nèi)容。學生自評量表SCL-90包含90個評定項目,10個因子分,每個項目采用五級評分制(1-5分),分數(shù)越高,表示癥狀越嚴重。[2]
數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中一項重要環(huán)節(jié),在處理相關(guān)數(shù)據(jù)時因各種因素會產(chǎn)生很多不準確噪聲數(shù)據(jù),對噪聲數(shù)據(jù)進行預(yù)處理能極大提升挖掘效率,減少后續(xù)分析時間。1.進行數(shù)據(jù)清洗環(huán)節(jié),具體操作過程中:“學生基本信息表”中刪除身份證號碼、姓名、出生年月等無效屬性,保留所在年級、性別、所學專業(yè)、是否獨生子女、生源地情況、家庭經(jīng)濟情況;“學生自評SCL-90量表”刪除學院、姓名、學號等屬性,保留90個評定項目總分、平均分及10個因子分,作為數(shù)據(jù)挖掘的內(nèi)容。最后確定高職學生基本信息表由年級(NJ)、性別(XB)、專業(yè)(ZY)、生源地(SYD)、家庭經(jīng)濟(JTJJ)組成。高職學生自評SCL-90量表由強迫(QP)、抑郁(YY)、軀體化(QTH)、敵對(DD)、焦慮(JL)、人際敏感(RJMG)、精神病性(JSBX)、恐怖(KB)、偏執(zhí)(PZ)、其他(QT)因子組成。2.數(shù)據(jù)清洗環(huán)節(jié),不僅需篩選重復數(shù)據(jù),刪除或糾正不正確的數(shù)據(jù),還需不斷完善數(shù)據(jù)。從高職學生心理健康測評系統(tǒng)導出的數(shù)據(jù),除去沒有參加測評、項目缺失比較嚴重的12位同學,經(jīng)過數(shù)據(jù)清理處理后,可用于數(shù)據(jù)挖掘數(shù)據(jù)一共2460條。3.數(shù)據(jù)集成環(huán)節(jié),將多個相關(guān)數(shù)據(jù)集合中的記錄集成構(gòu)建到新的數(shù)據(jù)集的過程。在本文中通過關(guān)聯(lián)學號對學生基本信息表和SCL-90心理自評表進行連接,由系統(tǒng)中“數(shù)據(jù)選擇” 確定生成新的高職學生心理健康測評表。4.數(shù)據(jù)規(guī)范,具體操作為數(shù)據(jù)離散化:針對高職學生SCL-90自評表中每個因子分超過2分,篩選為陽性,視為有癥狀,小于2分為無癥狀。[3]
表1 “高職學生心理健康測評表”規(guī)范表(部分)
關(guān)聯(lián)規(guī)則(Association Rules)是反映某事件與其他事件之間的關(guān)聯(lián)依賴程度,表示形式一般為關(guān)聯(lián)規(guī)則的支持度:Support(A? B)=P(A B),當項集A出現(xiàn)時,項集B也出現(xiàn)概率為該關(guān)聯(lián)規(guī)則的置信度:Confidence(A ? B)=p(B/A)。在實現(xiàn)過程中,通過查找全部頻繁項集,貫串連接步和剪枝步,用于挖掘大量數(shù)據(jù)間的相關(guān)性。具體指連接步通過Ln產(chǎn)生Cn,多次連接,把Cn中符合限制條件的項集保存下來,連接產(chǎn)生Cn,多次循環(huán)操作后最大頻繁項集Ln即可產(chǎn)生。剪枝步主要在生成候選項Ck的過程中減少搜索范圍,刪除小于或等于預(yù)設(shè)最小支持度閾值的項值,剩下的規(guī)則達到預(yù)設(shè)最小置信度閾值,以達到挖掘出強關(guān)聯(lián)規(guī)則。[4]
高職學生自評SCL-90量表中選取有代表性的字段和記錄進行算法的演練模擬(表3),字段主要是由抑郁(YY)、軀體化(QTH)、敵對(DD)、焦慮(JL)、人際敏感(RJMG)等組成,并將原始數(shù)據(jù)中有癥狀的信息輸入事務(wù)數(shù)據(jù)庫中,選取5位同學的數(shù)據(jù)記錄,最后得出事務(wù)數(shù)據(jù)庫D(表4)。
表2 選取部分用于Apriori 算法的數(shù)據(jù)記錄
表3 事務(wù)數(shù)據(jù)庫D 及記錄
關(guān)聯(lián)規(guī)則Apriori算法具體如下:假設(shè)最小支持度計數(shù),掃描事務(wù)D多次迭代,反復運用過濾、連接及剪枝,生成新的項集。示例:第1次迭代:掃描事務(wù)D,得到1項候選項集C1,假設(shè)最小支持度計數(shù)為2,則最小支持度為(min=0.18),由C1過濾生成頻繁1項集L1;第2次迭代:L1與L2自身連接,生成候選項集C2,由C2計數(shù)過濾生成2項集L2;第3次迭代:運用連接和剪枝由L2生成新的3項集C3。
流程如下:對L2連接,產(chǎn)生新集合{I1,I3,I4}{I1,I2,I4}、{I1,I4,I5}.對L2進行剪枝,生成候選3項集C3。
{I1,I3,I4}的兩項子集分別是{I1,I3}{I1,I4}與{I3,I4},其中舍棄非頻繁子集{I3,I4};
{I1,I2,I4}的兩項子集分別是{I1,I2}{I1,I4}與{I2,I4},其中舍棄非頻繁子集{I2,I4};
......
一般候選支持度計數(shù)等于最小支持度計數(shù)2,以上多次迭代生成了候選3項集C3,L3則無法再生成候選項集。同時,過濾規(guī)則根據(jù)支持度篩選,通常最小的置信度,用于找出最小置信度下的最大支持度,找出符合條件的實例數(shù)。通過數(shù)據(jù)挖掘軟件中的Apriori進行挖掘,不斷設(shè)置最小置信度和最小支持度等,從結(jié)果輸出中選擇有價值的規(guī)則。如:
JL=JL3 KB=KB3 PZ=PZ3 135? YY2 1 43 conf:0.99 lif:(1.18)lev:(0.13)[24] conv(12.45)
K B=K B2 PZ=PZ 2 JSBX=JS2 142?QT H=QT H2 YY=YY2 151< conf:0.97>lif:(1.13)lev:(0.11[22] conv(4.07)
RJGX=RJ2 PZ=PZ2 JSBX=JS2 138? YY=YY2 146 <conf:(0.98)> lift:(1.13) lev:(0.1)[24] conv:(3.87)
QTH=QTH2 RJGX=RJ2 Y Y=Y Y2 151? KB=KB2 139 <conf:(0.92)>lift:(1.23) lev:(0.09)[23]conv:(5.45)
......
對挖掘樣本進行了規(guī)則分析,得出軀體化癥狀明顯的學生,在抑郁、人際敏感等方面可能性比較大;同時在偏執(zhí)、焦慮程度較高的學生更容易產(chǎn)生軀體化和抑郁癥狀,這些數(shù)據(jù)挖掘的信息說明了個體各心理因子間均有潛在關(guān)聯(lián),每個因子關(guān)聯(lián)程度不同,對高職學生心理問題預(yù)測有一定的指導作用。[5]
本文將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高職心理健康問題預(yù)測中,僅采用了SCL-90量表的測評數(shù)據(jù),沒有更多采用其他形式的心理測評調(diào)查,在今后研究中應(yīng)豐富測評樣本數(shù)據(jù),進一步完善心理健康數(shù)據(jù)的挖掘,使心理問題預(yù)測更加精準。