劉紅紅
(西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710089)
近年來(lái),青少年的心理健康問(wèn)題導(dǎo)致了越來(lái)越多的社會(huì)問(wèn)題,引發(fā)了社會(huì)各界的廣泛關(guān)注[1-5]。大學(xué)校園作為青年學(xué)生的聚集地,一直是心理健康問(wèn)題的“重災(zāi)區(qū)”,大學(xué)生因心理健康原因?qū)е碌妮z學(xué)、自殺、犯罪等現(xiàn)象嚴(yán)重危及了同學(xué)們的身心健康,給個(gè)人、學(xué)校及家庭帶來(lái)了嚴(yán)重的傷害[6-8]。
當(dāng)前,各高校均對(duì)學(xué)生的心理問(wèn)題給予了重視和關(guān)注,絕大多數(shù)學(xué)校均開(kāi)設(shè)了心理咨詢室,配備專職的心理健康教師。但一方面由于學(xué)生人數(shù)龐大,心理健康教師無(wú)法滿足多個(gè)學(xué)生的咨詢需求;另一方面,由于心理問(wèn)題不易發(fā)覺(jué),學(xué)生缺乏主觀能動(dòng)性,導(dǎo)致了心理健康問(wèn)題無(wú)法及時(shí)發(fā)現(xiàn)、解決。
文中對(duì)高校心理健康工作流程進(jìn)行了深入的研究發(fā)現(xiàn),當(dāng)前的心理健康管理大多依靠計(jì)算機(jī)進(jìn)行相關(guān)數(shù)據(jù)的搜集、查詢。該工作只能做到基礎(chǔ)信息的統(tǒng)計(jì),無(wú)法發(fā)掘數(shù)據(jù)更深層次的信息。心理學(xué)研究表明,一個(gè)人的出身、成長(zhǎng)環(huán)境、身體狀態(tài)等多維度的基礎(chǔ)信息均會(huì)影響其心理狀態(tài)。在這些分析的基礎(chǔ)上,文中引入了數(shù)據(jù)挖掘技術(shù)進(jìn)行高校學(xué)生的心理健康評(píng)測(cè)與預(yù)警分析[9-12]。
文中在對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行簡(jiǎn)介的基礎(chǔ)上,著重分析了所使用的數(shù)據(jù)挖掘算法,并完成了心理預(yù)警信息系統(tǒng)的設(shè)計(jì)。以實(shí)際數(shù)據(jù)樣本為實(shí)驗(yàn)對(duì)象,完成了數(shù)據(jù)的采集、清洗與挖掘。
數(shù)據(jù)挖掘技術(shù)(Data Minig,DM)是一項(xiàng)涉及了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)與數(shù)據(jù)庫(kù)技術(shù)的多學(xué)科交叉的綜合性技術(shù),其基本目的是從大規(guī)模、含噪聲、不規(guī)則的數(shù)據(jù)中找尋出有價(jià)值的知識(shí)與信息。數(shù)據(jù)挖掘的基本流程如圖1 所示。
從圖1 可以看出,數(shù)據(jù)挖掘技術(shù)是一個(gè)包含多個(gè)流程的復(fù)雜技術(shù),其包含了從數(shù)據(jù)采集到價(jià)值知識(shí)提取的全過(guò)程。對(duì)于采集的數(shù)據(jù)而言,要進(jìn)行多次的數(shù)據(jù)預(yù)處理流程,如數(shù)據(jù)的選擇、清洗、集成,形成規(guī)范的數(shù)據(jù)集合。而規(guī)范的數(shù)據(jù)集合經(jīng)過(guò)數(shù)據(jù)挖掘算法模式評(píng)估,得到數(shù)據(jù)的知識(shí)表現(xiàn),從而獲取有價(jià)值的知識(shí)與信息。在數(shù)據(jù)挖掘的算法上,可以選擇多種機(jī)器學(xué)習(xí)算法。
圖1 數(shù)據(jù)挖掘技術(shù)基本流程
關(guān)聯(lián)規(guī)則算法可以較為優(yōu)秀地描述一件事物與其他事物之間的相關(guān)性與依賴性,其包含了Apriori、FP-Tree 等多個(gè)經(jīng)典算法。文中使用應(yīng)用最為廣泛的Apriori 算法,對(duì)于關(guān)聯(lián)規(guī)則算法,首先要定義關(guān)聯(lián)規(guī)則與頻繁項(xiàng)集。對(duì)于項(xiàng)集A與B,定義其同時(shí)出現(xiàn)的概率為支持度,如式(1)所示[13-16]。
此外,還需定義置信度,即當(dāng)項(xiàng)集A出現(xiàn)時(shí),B也出現(xiàn)的概率,如式(2)所示。
利用式(1)與式(2)可以得到A?B的支持度與置信度,如式(3)所示。
Apriori算法主要包含兩個(gè)步驟:連接步與剪枝步。
1)連接步
①通過(guò)連接步找到K項(xiàng)集。首先設(shè)置Supportmin閾值,計(jì)算頻繁1 項(xiàng)集L1,如式(4)所示。
②將L1與C2連接,得到頻繁2 項(xiàng)集L2,如式(5)所示。
③將得到的頻繁1 項(xiàng)、2 項(xiàng)集連接,然后篩選即可得到L3。
④迭代k次,得到數(shù)據(jù)集的最大頻繁集Lk與候選集Ck。
2)剪枝步
剪枝步的目的是降低Lk與Ck的搜索范圍。由于Apriori 算法的候選集產(chǎn)生規(guī)則,Lk中的非空子集就是數(shù)據(jù)必需的頻繁項(xiàng)集。如式(6)所示,不符合數(shù)據(jù)需求的項(xiàng)集將被篩選,由此達(dá)到了剪枝的目的。
文中將數(shù)據(jù)挖掘算法引入到高等院校的心理預(yù)警分析中,設(shè)計(jì)了心理健康測(cè)評(píng)預(yù)警系統(tǒng)。在系統(tǒng)的設(shè)計(jì)過(guò)程中,文中采用軟件工程理論作指導(dǎo),從需求分析出發(fā),設(shè)計(jì)了圖2 所示的系統(tǒng)功能模塊。
圖2 系統(tǒng)功能模塊圖
從圖2 可以看出,系統(tǒng)從用戶的角度出發(fā),將用戶分成學(xué)生用戶與系統(tǒng)管理用戶,并分別設(shè)置了兩大類的功能模塊。
1)學(xué)生用戶
學(xué)生主要使用系統(tǒng)的前端功能,進(jìn)行系統(tǒng)登錄、參與心理健康測(cè)評(píng)活動(dòng)、獲知測(cè)評(píng)結(jié)果。
2)系統(tǒng)管理用戶
系統(tǒng)管理用戶主要進(jìn)行系統(tǒng)的后臺(tái)管理。對(duì)于系統(tǒng)管理用戶,共包含了基本信息管理、心理測(cè)評(píng)設(shè)置、測(cè)評(píng)結(jié)果管理、數(shù)據(jù)挖掘操作等4 個(gè)功能模塊。
基本信息管理:該模塊主要用于收集學(xué)生的基本信息,進(jìn)行數(shù)據(jù)的篩選與清洗,獲取規(guī)范化的數(shù)據(jù)信息。
心理測(cè)評(píng)設(shè)置:主要用于設(shè)計(jì)心理調(diào)查問(wèn)卷的題目以及問(wèn)卷的生成與下發(fā),其還可以自動(dòng)化地完成測(cè)評(píng)結(jié)果的統(tǒng)計(jì)。
測(cè)評(píng)結(jié)果管理:主要實(shí)現(xiàn)對(duì)于各種測(cè)評(píng)結(jié)果的分析,篩選出存在心理問(wèn)題的學(xué)生,然后生成學(xué)生列表并發(fā)出預(yù)警。
數(shù)據(jù)挖掘操作:該模塊內(nèi)置了數(shù)據(jù)挖掘算法模塊,可以根據(jù)需要靈活地選擇算法類型,調(diào)整算法的相關(guān)參數(shù)。
由于數(shù)據(jù)挖掘算法已經(jīng)趨于成熟,數(shù)據(jù)挖掘的效果較大程度上取決于數(shù)據(jù)體量與數(shù)據(jù)中包含的特征維度。因此,需要盡可能廣泛地采集各種相關(guān)的數(shù)據(jù)信息。由于文中數(shù)據(jù)挖掘的目的是完成心理疾病的預(yù)警,故設(shè)計(jì)如表1 所示的采集表單。
表1 數(shù)據(jù)采集表單
表1 涵蓋了心理疾病診斷的相關(guān)指標(biāo)。該表中包含了不同的屬性以及屬性在數(shù)據(jù)庫(kù)中對(duì)應(yīng)的代碼范圍。當(dāng)代碼范圍為1~2 時(shí),表示該屬性有兩個(gè)值,通常是“有”或“無(wú)”;當(dāng)代碼范圍是1~4 時(shí),表征該屬性有不同的程度,其中1 代表無(wú)該癥狀,2 代表癥狀較輕,3 代表癥狀嚴(yán)重,4 代表癥狀非常嚴(yán)重。
數(shù)據(jù)采集完成后,需要進(jìn)行計(jì)算機(jī)的存儲(chǔ)與表示。此時(shí),為了保證數(shù)據(jù)的可用性,需要根據(jù)數(shù)據(jù)間潛在的邏輯關(guān)系進(jìn)行數(shù)據(jù)的存儲(chǔ)。因此需要先設(shè)計(jì)數(shù)據(jù)庫(kù)的概念模型,文中使用E-R 圖來(lái)設(shè)計(jì)。系統(tǒng)的E-R 圖如圖3 所示。
圖3 數(shù)據(jù)庫(kù)E-R圖
根據(jù)E-R 圖,需要設(shè)計(jì)學(xué)生基本信息表、測(cè)評(píng)結(jié)果表、管理員表、測(cè)評(píng)總均分表、測(cè)評(píng)分量因子表。上述這些表的結(jié)構(gòu),如表2~表5 所示。
表2 學(xué)生基本信息
表3 系統(tǒng)管理員表
表4 學(xué)生基本信息
表5 測(cè)評(píng)分量因子表
文中使用ASP.NET 技術(shù)基于B/S 架構(gòu),對(duì)所提出的心理健康評(píng)測(cè)與預(yù)警系統(tǒng)進(jìn)行了實(shí)現(xiàn)。系統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)使用的是SQL Server,系統(tǒng)部署了一臺(tái)應(yīng)用服務(wù)器與一臺(tái)數(shù)據(jù)庫(kù)服務(wù)器,服務(wù)器的操作系統(tǒng)為Windows Server2008。
文中對(duì)某高校5 322 名學(xué)生使用表1 進(jìn)行了數(shù)據(jù)的采集,然后基于表2~表5 的數(shù)據(jù)表結(jié)構(gòu),構(gòu)建了規(guī)范化的數(shù)據(jù)集。隨后,對(duì)于該數(shù)據(jù)集使用1.1 節(jié)中的關(guān)聯(lián)規(guī)則進(jìn)行了心理疾病的挖掘。在挖掘中,對(duì)于Apriori 的最小支持度設(shè)置為0.25;最小置信度設(shè)置為0.35。由數(shù)據(jù)挖掘分析的結(jié)果可知,其中231 名學(xué)生具有不同程度的心理問(wèn)題,約占學(xué)生總數(shù)的4.34%。其中,32 名學(xué)生存在嚴(yán)重的心理疾病,系統(tǒng)對(duì)這些學(xué)生發(fā)出了預(yù)警信息。
除了對(duì)學(xué)生的總體心理健康狀態(tài)進(jìn)行了評(píng)估之外,還通過(guò)數(shù)據(jù)挖掘得到了一定的數(shù)據(jù)關(guān)聯(lián)規(guī)則,如圖4 所示。
圖4 數(shù)據(jù)挖掘算法運(yùn)行結(jié)果
通過(guò)圖4 數(shù)據(jù)挖掘得到的結(jié)果可以看出,軀體化癥狀的學(xué)生通常存在著一定的心理問(wèn)題。這些心理問(wèn)題表現(xiàn)為輕微的抑郁、敵對(duì)以及人際關(guān)系敏感性;常伴有恐怖、偏執(zhí)等癥狀的學(xué)生容易產(chǎn)生抑郁癥狀。此外,來(lái)自農(nóng)村的非獨(dú)生子女有16.7%的概率產(chǎn)生社交恐懼。通過(guò)數(shù)據(jù)挖掘可以看出,心理問(wèn)題的各種癥狀間存在著潛在聯(lián)系,這與心理疾病的關(guān)聯(lián)性具有一致性。
文中研究了高等院校的學(xué)生心理健康問(wèn)題,借助數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)了心理健康數(shù)據(jù)采集、清洗、規(guī)則化、信息挖掘的全過(guò)程。此外,文中還基于數(shù)據(jù)挖掘算法模塊設(shè)計(jì)了高校心理健康的測(cè)評(píng)預(yù)警系統(tǒng)。該系統(tǒng)除了可以篩選出存在心理問(wèn)題的學(xué)生,還可以發(fā)掘與分析心理健康問(wèn)題的誘導(dǎo)因素。