蔡偉鴻,胡 江,劉健全,杜 鑫
(1.汕頭大學(xué)工學(xué)院計(jì)算機(jī)系,廣東 汕頭 515063;2.日本NEC 公司,日本 東京 211-8666)
隨著社會(huì)的發(fā)展和科技的進(jìn)步,人們的生活水平得到了極大的提高,身體健康已不再是制約個(gè)人發(fā)展的主要因素,而和人們密切相關(guān)的另一個(gè)因素:心理健康[1],逐漸浮現(xiàn)出來,成為了社會(huì)關(guān)注和研究的新焦點(diǎn).心理問題在嚴(yán)重的情況下會(huì)導(dǎo)致精神障礙,進(jìn)而對(duì)個(gè)體健康和社會(huì)穩(wěn)定產(chǎn)生消極影響[2].有研究表明,心理問題會(huì)對(duì)個(gè)體的主觀幸福感造成不利影響[3],導(dǎo)致情感失衡和對(duì)生活的滿意度下降.另外,心理健康與身體健康之間存在著千絲萬縷的聯(lián)系[4],與一般人群相比,存在心理問題的個(gè)體的身體健康更容易出現(xiàn)問題[5],患有精神障礙的人群的慢性病的發(fā)病率和死亡率均高于一般人群[6].同時(shí),心理問題也是導(dǎo)致人群“失能”的主要原因[7],到2020年有很大可能會(huì)成為僅次于HIV 的社會(huì)疾病負(fù)擔(dān)[7].據(jù)調(diào)查,心理問題在我國人群中的覆蓋率已經(jīng)達(dá)到了17.5%[8].在中國,心理治療非常昂貴而且繁瑣,大量的精神障礙患者因?yàn)榈貌坏接行У闹委煻坏貌蝗淌懿⊥磶淼恼勰?,所以,做好有效的心理健康問題預(yù)防工作是非常迫切和必要的.
通常,需要先獲取個(gè)體的心理狀態(tài)才能對(duì)其提供合適的心理健康服務(wù),獲取心理狀態(tài)的方法之一就是進(jìn)行“心理狀態(tài)評(píng)估”.但是,心理狀態(tài)具有內(nèi)隱性,不能被直接觀察到,比如嫉妒心理產(chǎn)生時(shí)大都不為主體所察覺,具有明顯的內(nèi)隱性[9],因此必須先將心理狀態(tài)外顯化和形象化才能進(jìn)行下一步的心理狀態(tài)評(píng)估,簡單來說,就是通過設(shè)定一些合適的外顯指標(biāo)來進(jìn)行間接的測(cè)量,這種方法就是心理測(cè)量.目前主流的心理測(cè)量技術(shù)是心理測(cè)評(píng)量表(如圖1),因其在問卷編制、施測(cè)操作和結(jié)果統(tǒng)計(jì)等方面所具有的客觀性、高效性和量化性,已經(jīng)獲得了在心理測(cè)量領(lǐng)域的廣泛臨床應(yīng)用.但是,心理測(cè)評(píng)量表的測(cè)量結(jié)果的準(zhǔn)確性會(huì)受到個(gè)體主觀意識(shí)的影響,因?yàn)閭€(gè)體在填寫量表時(shí),既是“被觀察個(gè)體”,又是“觀察主體”,其回答會(huì)不可避免地受到其認(rèn)知能力和社會(huì)虛榮心理的影響.為了克服心理測(cè)評(píng)量表存在的缺陷,本文提出利用用戶的網(wǎng)頁瀏覽內(nèi)容作為外顯指標(biāo)來預(yù)測(cè)其心理狀態(tài)(如圖2),從用戶的網(wǎng)頁瀏覽內(nèi)容中提取出相關(guān)特征,進(jìn)而訓(xùn)練出心理健康預(yù)測(cè)模型.
圖1 傳統(tǒng)心理健康測(cè)量方法
圖2 本文提出的心理健康測(cè)量方法
心理健康和身體健康缺一不可,都是主體健康的必要條件.隨著互聯(lián)網(wǎng)的發(fā)展與應(yīng)用,網(wǎng)絡(luò)行為逐漸成為主體行為的重要組成部分,能夠作為主體心理狀態(tài)的外顯指標(biāo),反映出主體的一部分內(nèi)心世界.所以,將網(wǎng)絡(luò)行為用于心理狀態(tài)預(yù)測(cè),是非常具有前景的研究方向.目前,國內(nèi)外已經(jīng)有學(xué)者和機(jī)構(gòu)開始著手于網(wǎng)絡(luò)行為與心理狀態(tài)之間關(guān)系的研究,并取得了一些成果.王麗等人將神經(jīng)網(wǎng)絡(luò)技術(shù)用于預(yù)測(cè)研究生這一群體的心理健康狀況[10],取得了較好的預(yù)測(cè)效果,在一定程度上為我國高校心理教育工作提供了有價(jià)值的研究成果,為高校完善心理教育工作提供了幫助.張磊等人通過分析中國龐大的社交網(wǎng)絡(luò),利用個(gè)體樣本的主體特征和動(dòng)態(tài)詞典特征提取方法實(shí)現(xiàn)了對(duì)社交網(wǎng)絡(luò)用戶的心理指標(biāo)的預(yù)測(cè),找出了社交網(wǎng)絡(luò)特征與心理指標(biāo)之間的關(guān)系[11],更新了國內(nèi)心理指標(biāo)預(yù)測(cè)的記錄.田瑋等人采用深度學(xué)習(xí)技術(shù)對(duì)微博用戶作出自殺風(fēng)險(xiǎn)預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明,基于深度學(xué)習(xí)的算法模型可以有效地對(duì)微博用戶的自殺風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),為自殺預(yù)防工作開辟了新的方向[12].朱廷劭等人通過對(duì)用戶的網(wǎng)絡(luò)行為進(jìn)行時(shí)頻分析來預(yù)測(cè)其抑郁狀況[13],實(shí)驗(yàn)結(jié)果表明,用戶的網(wǎng)絡(luò)行為的時(shí)頻特征能夠有效地反映用戶心理健康狀況的變化,有助于公共心理健康服務(wù)的廣泛提供.郝碧波等人使用半監(jiān)督學(xué)習(xí)的方法來預(yù)測(cè)社交網(wǎng)絡(luò)用戶的人格[14],實(shí)驗(yàn)結(jié)果表明,使用未標(biāo)記數(shù)據(jù)可以提高預(yù)測(cè)的準(zhǔn)確性,促進(jìn)心理學(xué)人格研究的發(fā)展.朱廷劭等人發(fā)現(xiàn)用戶的智能手機(jī)使用行為與其主觀幸福感之間存在一定的聯(lián)系[15],基于這些研究結(jié)果,他們利用智能手機(jī)的使用行為訓(xùn)練了主觀幸福感的預(yù)測(cè)模型,實(shí)驗(yàn)結(jié)果表明,利用采集到的用戶智能手機(jī)的使用瀏覽記錄可以較好地預(yù)測(cè)其主觀幸福感.郝碧波等人提出利用用戶新浪微博的使用行為來衡量其大五人格[16],通過使用多任務(wù)回歸算法和增量回歸算法來預(yù)測(cè)在線行為中的大五人格.實(shí)驗(yàn)結(jié)果表明,通過用戶的新浪微博使用行為可以對(duì)其大五人格進(jìn)行預(yù)測(cè).朱廷劭等人通過建立決策樹模型來找出網(wǎng)絡(luò)用戶的網(wǎng)絡(luò)行為與其心理健康狀態(tài)之間的關(guān)系[17],實(shí)驗(yàn)結(jié)果表明,預(yù)測(cè)模型的準(zhǔn)確率和召回率表現(xiàn)良好.此外,朱廷劭等人將機(jī)器學(xué)習(xí)應(yīng)用于認(rèn)知行為治療過程,開發(fā)了一套心理健康自助系統(tǒng).通過對(duì)隨機(jī)用戶進(jìn)行比對(duì)調(diào)查,實(shí)驗(yàn)結(jié)果表明,這套系統(tǒng)可以有效地緩解用戶的抑郁癥[18].再者,朱廷劭等人提出利用用戶看過的文章內(nèi)容來預(yù)測(cè)其情緒,開發(fā)了一個(gè)帶有可選加權(quán)系數(shù)的情感字典,并且訓(xùn)練了支持向量機(jī)模型和樸素貝葉斯模型,實(shí)驗(yàn)結(jié)果表明,預(yù)測(cè)模型的準(zhǔn)確率、召回率表現(xiàn)良好[19].
通過對(duì)以上的工作進(jìn)行詳細(xì)調(diào)研,我們可以得到如下結(jié)論:
1.網(wǎng)絡(luò)行為與心理狀態(tài)顯著性相關(guān),網(wǎng)絡(luò)行為能夠用于預(yù)測(cè)心理狀態(tài);
2.國內(nèi)外關(guān)于將網(wǎng)絡(luò)行為用于心理健康預(yù)測(cè)的研究較少,并且截至目前還沒有將網(wǎng)頁瀏覽內(nèi)容用于心理健康預(yù)測(cè)的相關(guān)研究;
3.很多研究收集網(wǎng)絡(luò)行為的形式都是問卷調(diào)查,無法獲得更加詳實(shí)的用戶的網(wǎng)絡(luò)訪問記錄,這更凸顯出了本文的工作意義.
網(wǎng)頁瀏覽內(nèi)容是網(wǎng)絡(luò)行為的一種內(nèi)容載體,能夠用于心理狀態(tài)的預(yù)測(cè),而且比一般性的網(wǎng)絡(luò)行為更加具體和可信.所以,利用用戶的網(wǎng)絡(luò)行為預(yù)測(cè)其心理狀態(tài)是可行的.
在本章節(jié)中,我們提出了自己的心理健康預(yù)測(cè)模型,介紹了它的原理和涉及到的算法應(yīng)用.構(gòu)建的模型流程可以分為數(shù)據(jù)收集、數(shù)據(jù)處理、模型訓(xùn)練、模型評(píng)估,具體流程如圖3 所示.
在Brunswik 提出的“透鏡模型”理論中指出,個(gè)體的周邊環(huán)境中會(huì)包含有一些能夠預(yù)示該個(gè)體精神狀態(tài)的信息線索[20],這些信息線索可以看作是不同場(chǎng)景下的“行為殘余”[21].用戶的網(wǎng)絡(luò)訪問歷史會(huì)被記錄在訪問控制系統(tǒng)的日志中,這些日志數(shù)據(jù)是客觀而且準(zhǔn)確的,可以從中獲取更加精準(zhǔn)和客觀的用戶網(wǎng)絡(luò)行為數(shù)據(jù).通過這種方式,不僅可以充分利用互聯(lián)網(wǎng)的普及性和便利性進(jìn)行大范圍的數(shù)據(jù)采集,而且能夠解決心理測(cè)評(píng)量表的測(cè)量結(jié)果會(huì)受到個(gè)體主觀意識(shí)影響的問題.
圖3 心理健康預(yù)測(cè)模型構(gòu)建流程
正是因?yàn)閭€(gè)體的網(wǎng)絡(luò)行為是其在互聯(lián)網(wǎng)上的行為殘余,并且也屬于人類行為總體的一部分,所以可以利用個(gè)體樣本的網(wǎng)絡(luò)行為作為外顯指標(biāo)來推測(cè)其心理狀態(tài).但是目前并沒有一套公認(rèn)的網(wǎng)絡(luò)行為分類方法,由于本模型只需要能夠顯著反映心理健康狀態(tài)的網(wǎng)絡(luò)行為,為了使對(duì)心理健康的預(yù)測(cè)更加準(zhǔn)確,所以用戶的網(wǎng)頁瀏覽內(nèi)容這一網(wǎng)絡(luò)行為在模型的原理中顯的格外重要.
《癥狀自評(píng)量表SCL-90》是目前世界上最出名的心理健康測(cè)評(píng)量表之一,該量表共有90 個(gè)項(xiàng)目,包含有較為廣泛的精神病癥學(xué)內(nèi)容,這90 個(gè)項(xiàng)目包含9 個(gè)因子,分別是軀體化(somatization)、強(qiáng)迫癥狀(obsessive-compulsive)、人際關(guān)系敏感(interpersonal sensitivity)、抑郁(depression)、焦慮(anxiety)、敵對(duì)(hostility)、恐怖(phobic anxiety)、偏執(zhí)(paranoid ideation)及精神病性(psychoticism)。
本文利用機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)方式,采用支持向量機(jī)建立了一個(gè)關(guān)于心理健康狀態(tài)的分類模型.這種模型是一種典型的二類分類模型,它的定義域和函數(shù)的表示如下:
U是標(biāo)記個(gè)體樣本的網(wǎng)絡(luò)行為特征矩陣,P 是標(biāo)記個(gè)體樣本的心理健康狀態(tài)矩陣,R 是一個(gè)能夠揭示標(biāo)記個(gè)體的網(wǎng)絡(luò)行為特征和心理健康狀態(tài)之間潛在映射關(guān)系的投影矩陣.每個(gè)用戶的網(wǎng)絡(luò)行為特征是一個(gè)b 維的特征向量,定義為《癥狀自評(píng)量表SCL-90》某個(gè)因子下的項(xiàng)目個(gè)數(shù).如果我們能夠收集到標(biāo)記個(gè)體樣本的網(wǎng)絡(luò)行為特征,就能建立起U;如果我們能夠收集到標(biāo)記樣本的《癥狀自評(píng)量表SCL-90》的測(cè)評(píng)結(jié)果,就能建立起P.當(dāng)U 和P 都建立好之后,就能建立起在心理健康預(yù)測(cè)模型中能夠預(yù)測(cè)心理健康狀態(tài)的關(guān)鍵的R.為了能夠得到最優(yōu)的R,我們定義了如下對(duì)象函數(shù):
P0是《癥狀自評(píng)量表SCL-90》的測(cè)試結(jié)果,r是投影矩陣,本文的任務(wù)就是找到一個(gè)能夠最小化f的r:
這種二類分類模型對(duì)應(yīng)的評(píng)價(jià)指標(biāo)被設(shè)定為精確率(precision)和召回率(recall).
表1 混淆矩陣
表1 所示的矩陣是一個(gè)二類分類模型的混淆矩陣(confusion matrix).混淆矩陣是數(shù)據(jù)科學(xué)、數(shù)據(jù)分析和機(jī)器學(xué)習(xí)中總結(jié)分類模型預(yù)測(cè)結(jié)果的情形分析表,以矩陣的形式將數(shù)據(jù)集中的記錄按照真實(shí)的類別與分類模型作出的分類判斷進(jìn)行匯總,是對(duì)分類模型進(jìn)行性能評(píng)價(jià)的重要工具.計(jì)算精確率和召回率需要用到4 個(gè)數(shù)值,它們分別是真陽值tp(true positive)、假陽值fp(false positive)、真陰值tn(true negative)和假陰值fn(false negative),這4 個(gè)數(shù)值的總和是樣本集中樣本的總數(shù),即tp+fp+tn+fn=n,n 是樣本的總數(shù).
精確率衡量的是模型預(yù)測(cè)結(jié)果的精確度,對(duì)于一個(gè)二類分類模型,分為positive 類和negative 類,可以分別計(jì)算它們的精確率,計(jì)算公式如下:
召回率衡量的是樣本集中樣本被成功預(yù)測(cè)出的比率,positive 類和negative 類的召回率計(jì)算公式如下:
模型的準(zhǔn)確率計(jì)算公式如下:
根據(jù)上文中的內(nèi)容,我們根據(jù)理論模型搭建起了一整套系統(tǒng),并對(duì)模型進(jìn)行了實(shí)驗(yàn)和評(píng)估.在這節(jié)中詳細(xì)介紹了兩部分內(nèi)容:1.模型實(shí)現(xiàn)的步驟和遇到的問題;2.將不同的算法進(jìn)行對(duì)比,對(duì)它們的預(yù)測(cè)效果進(jìn)行評(píng)估.
具體來說,首先需要收集模型建立過程中所需要的原始數(shù)據(jù)并進(jìn)行數(shù)據(jù)清洗以達(dá)到實(shí)驗(yàn)標(biāo)準(zhǔn),這一過程會(huì)利用現(xiàn)有技術(shù)和設(shè)備實(shí)現(xiàn).其次,結(jié)合網(wǎng)絡(luò)行為指標(biāo)體系[22]從處理好的數(shù)據(jù)中提取出網(wǎng)絡(luò)行為特征.接著,采用機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)方式并利用支持向量機(jī)建立起基于網(wǎng)頁瀏覽內(nèi)容的心理健康預(yù)測(cè)模型.最后,結(jié)合現(xiàn)有預(yù)測(cè)模型的評(píng)價(jià)指標(biāo)對(duì)基于網(wǎng)頁瀏覽內(nèi)容的心理健康預(yù)測(cè)模型的性能進(jìn)行評(píng)估.
本次實(shí)驗(yàn)中的樣本數(shù)據(jù)收集來自課題組的80 位成員,62 位作為訓(xùn)練樣本,18 位作為測(cè)試樣本,實(shí)驗(yàn)周期為一年,從2016年1月1日至2017年1月1日.在實(shí)驗(yàn)周期內(nèi),收集了樣本個(gè)人的上網(wǎng)記錄,并標(biāo)記了每個(gè)人的上網(wǎng)行為,對(duì)所有的數(shù)據(jù)進(jìn)行脫敏,通過替代法去除隱私信息.最后,在這些完成后對(duì)他們進(jìn)行《癥狀自評(píng)量表SCL-90》測(cè)試.需要注意的是,在這個(gè)過程中,我們計(jì)算統(tǒng)計(jì)出該標(biāo)記樣本在每一個(gè)因子下的得分,如圖4 所示.
接下來需要獲取標(biāo)記樣本產(chǎn)生的URL.為了獲取標(biāo)記樣本在網(wǎng)絡(luò)訪問過程中產(chǎn)生的URL,需要在訪問控制系統(tǒng)中部署網(wǎng)絡(luò)流量監(jiān)測(cè)設(shè)備,能夠收集所有流經(jīng)網(wǎng)關(guān)的數(shù)據(jù)包.網(wǎng)關(guān)是標(biāo)記樣本與互聯(lián)網(wǎng)之間連接的關(guān)口,標(biāo)記樣本產(chǎn)生的所有網(wǎng)絡(luò)訪問請(qǐng)求都必須經(jīng)過網(wǎng)關(guān)才能訪問互聯(lián)網(wǎng).課題組所在實(shí)驗(yàn)室的網(wǎng)關(guān)處部署了一套訪問控制系統(tǒng),其中的網(wǎng)絡(luò)流量監(jiān)測(cè)設(shè)備會(huì)記錄下所有的網(wǎng)絡(luò)訪問行為.該網(wǎng)絡(luò)流量監(jiān)測(cè)設(shè)備記錄的網(wǎng)絡(luò)訪問行為日志較為詳細(xì),有用戶ID、組名、源IP、終端類型、位置、目標(biāo)IP、網(wǎng)站分類、標(biāo)題、訪問域名、URL 地址、時(shí)間,收集到的數(shù)據(jù)即刻利用替代法進(jìn)行脫敏.
當(dāng)網(wǎng)絡(luò)流量監(jiān)控設(shè)備截獲到標(biāo)記樣本產(chǎn)生的數(shù)據(jù)包后,通過分析這些數(shù)據(jù)包的結(jié)構(gòu),解析出其中的URL,如圖5 所示.
圖4 獲取標(biāo)記個(gè)體的《癥狀自評(píng)量表SCL-90》的測(cè)量結(jié)果
圖5 獲取標(biāo)記個(gè)體產(chǎn)生的URL
在獲取到某個(gè)標(biāo)記樣本產(chǎn)生的URL 之后,需要對(duì)URL 進(jìn)行過濾和清理.因?yàn)椴皇撬械腢RL 都指向包含內(nèi)容的HTML 文件,而且也有可能存在URL 重復(fù)的情況,所以有必要進(jìn)行數(shù)據(jù)清理.首先去除重復(fù)和冗余的URL,然后清理掉指向非HTML 文件的URL.這一過程可以通過爬蟲框架Scrapy 完成,使用的過濾規(guī)則如表2 所示.
表2 URL地址清理類別
在這一個(gè)階段,本文結(jié)合現(xiàn)有網(wǎng)絡(luò)行為指標(biāo)體系[22]和網(wǎng)絡(luò)行為研究成果[23],從標(biāo)記樣本產(chǎn)生的網(wǎng)頁URL 對(duì)應(yīng)的網(wǎng)頁瀏覽內(nèi)容當(dāng)中提取出標(biāo)記樣本的網(wǎng)絡(luò)行為特征,即需要從這些網(wǎng)頁瀏覽內(nèi)容當(dāng)中抽象出具有一般性和代表性的網(wǎng)絡(luò)行為特征,提取流程如圖6 所示.
Elasticsearch 是一個(gè)開源的全文搜索引擎框架,提供分布式多用戶能力,可以快速地存儲(chǔ)、搜索和分析海量數(shù)據(jù).本文以標(biāo)記個(gè)體訪問的網(wǎng)頁URL 作為源數(shù)據(jù),使用Elasticsearch 即可得到屬于該標(biāo)記樣本的搜索引擎實(shí)例,具體流程如圖7 所示.
圖6 網(wǎng)絡(luò)行為特征提取流程
圖7 標(biāo)記樣本的搜索引擎實(shí)例構(gòu)建流程
《癥狀自評(píng)量表SCL-90》有9 個(gè)因子,每個(gè)因子下有一系列項(xiàng)目.標(biāo)記樣本的搜索引擎實(shí)例構(gòu)建完成之后,在標(biāo)記樣本的搜索引擎實(shí)例中查詢某個(gè)項(xiàng)目,得到與該項(xiàng)目相關(guān)的URL 個(gè)數(shù),作為標(biāo)記樣本的網(wǎng)頁瀏覽內(nèi)容特征數(shù)據(jù).具體流程如圖8 所示.
圖8 標(biāo)記樣本的網(wǎng)頁瀏覽內(nèi)容特征數(shù)據(jù)獲取流程
例如,在“軀體化”因子下,有“頭痛”、“頭暈和昏倒”、“胸痛”、“腰痛”、“惡心或胃部不舒服”、“肌肉酸痛”、“呼吸有困難”、“一陣陣發(fā)冷或發(fā)熱”、“身體發(fā)麻或刺痛”、“喉嚨有梗塞感”、“感到身體的某一部分軟弱無力”和“感到手腳發(fā)重”這12 個(gè)項(xiàng)目,以某個(gè)項(xiàng)目作為查詢,在標(biāo)記樣本的搜索引擎實(shí)例中進(jìn)行查找,得到與該項(xiàng)目相關(guān)的URL 個(gè)數(shù),如圖9 所示,實(shí)際結(jié)果如表3 所示.
圖9 網(wǎng)絡(luò)行為特征獲取流程示例
表3 “軀體化”因子下所有標(biāo)記個(gè)體的網(wǎng)絡(luò)行為特征
通過相同的方法,我們統(tǒng)計(jì)得出了“強(qiáng)迫癥狀”、“人際關(guān)系敏感”、“抑郁”、“焦慮”、“敵對(duì)”、“恐怖”、“偏執(zhí)”及“精神病性”共8 種網(wǎng)絡(luò)行為特征.
我們已經(jīng)建立了數(shù)據(jù)基礎(chǔ),接下來是構(gòu)建心理健康預(yù)測(cè)系統(tǒng)的詳細(xì)步驟.相關(guān)原理已經(jīng)在上文中有了充分的闡述.在接下來的系統(tǒng)建立中,主要工作是對(duì)標(biāo)記樣本的《癥狀自評(píng)量表SCL-90》的測(cè)評(píng)成績進(jìn)行處理.
進(jìn)行這種處理的根據(jù)來源于心理學(xué).研究表明心理狀態(tài)是一個(gè)連續(xù)變化的過程,人群中的大部分個(gè)體的心理健康狀態(tài)是穩(wěn)定和積極的,相鄰區(qū)間的差異較小.本文實(shí)驗(yàn)關(guān)注的目標(biāo)是那些有可能存在心理健康問題的人群,為了盡可能地篩選出這部分人群,在心理測(cè)量學(xué)中,公認(rèn)的測(cè)量方法是將所有被測(cè)試樣本的心理測(cè)評(píng)量表的得分情況劃分為高分組和低分組,即極端健康的樣本組和極端不健康的樣本組,希望能夠通過這種劃分找出顯著的心理狀態(tài)特征,高分組的樣本有很大可能存在心理健康問題,低分組的樣本存在心理健康問題的可能性較小.本文的實(shí)驗(yàn)即采取了這種劃分方法.
首先,在每個(gè)因子下,根據(jù)標(biāo)記樣本的得分進(jìn)行排序.然后,在每個(gè)因子下,根據(jù)排序結(jié)果,取前27%的標(biāo)記樣本作為低分組,用標(biāo)簽“-1”代表,取后27%的標(biāo)記樣本作為高分組,用標(biāo)簽“+1”代表.最后,利用之前收集好的每個(gè)因子下的標(biāo)記樣本的網(wǎng)絡(luò)行為特征,再結(jié)合每個(gè)因子下的標(biāo)記樣本的分組結(jié)果,就得到了可用于模型訓(xùn)練的支撐數(shù)據(jù),如表4 所示.
表4 “軀體化”因子下的訓(xùn)練數(shù)據(jù)
在得到每個(gè)因子下的訓(xùn)練數(shù)據(jù)之后,使用支持向量機(jī)為9 個(gè)因子分別建立了預(yù)測(cè)模型,這9 個(gè)預(yù)測(cè)模型相互獨(dú)立.其中,模型訓(xùn)練所使用的程序來自LIBSVM,訓(xùn)練過程中使用的核函數(shù)是RBF(Radial Basis Function),并進(jìn)行了相關(guān)參數(shù)調(diào)優(yōu),每個(gè)因子下的預(yù)測(cè)模型的參數(shù)如表5 所示.
表5 每個(gè)因子下的預(yù)測(cè)模型訓(xùn)練時(shí)所使用的參數(shù)
通過以上這種形式,該實(shí)驗(yàn)建立了成型的系統(tǒng),區(qū)分出了研究樣本的具體參數(shù)的不同,并得到了每個(gè)對(duì)象心理健康的預(yù)測(cè)結(jié)果.
為了體現(xiàn)該模型的實(shí)用性和準(zhǔn)確性,我們將本模型中使用的支持向量機(jī)與隨機(jī)森林、樸素貝葉斯這兩種傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行了詳細(xì)對(duì)比.它們都在9 個(gè)因子上進(jìn)行了預(yù)測(cè),并進(jìn)行了5 折交叉驗(yàn)證,分別從模型準(zhǔn)確率(如圖10)與高分組召回率(如圖11)進(jìn)行了對(duì)照.
通過實(shí)驗(yàn)結(jié)果對(duì)比,可以得到使用支持向量機(jī)建立的預(yù)測(cè)模型的準(zhǔn)確率平均值為89.39%,而使用隨機(jī)森林和樸素貝葉斯建立的預(yù)測(cè)模型的準(zhǔn)確率平均值分別為87.21%和82.28%.特別是支持向量機(jī)在“焦慮”因子下建立的預(yù)測(cè)模型的準(zhǔn)確率最高,達(dá)到了95.01%,并且其高分組召回率也最高,達(dá)到了95.62%,反映出它可以很好地召回“焦慮”因子下的高分組人群.另一方面,使用支持向量機(jī)建立的預(yù)測(cè)模型的高分組召回率平均值為88.19%,而使用隨機(jī)森林和樸素貝葉斯建立的預(yù)測(cè)模型的高分組召回率平均值分別為85.57%和81.13%.
綜上可以得出,在本次實(shí)驗(yàn)的環(huán)境下,使用支持向量機(jī)建立的模型的預(yù)測(cè)效果整體上遠(yuǎn)優(yōu)于使用隨機(jī)森林和樸素貝葉斯建立的模型的預(yù)測(cè)效果.這種評(píng)估結(jié)果充分說明了本文中選擇的機(jī)器學(xué)習(xí)算法的創(chuàng)新性和實(shí)用性.
本文使用支持向量機(jī)分別為《癥狀自評(píng)量表SCL-90》的9 個(gè)因子建立了基于網(wǎng)頁瀏覽內(nèi)容的心理健康預(yù)測(cè)模型.在給出理論基礎(chǔ)的前提下,設(shè)計(jì)出了區(qū)別于傳統(tǒng)方式的心理健康模型.不僅如此,為了驗(yàn)證模型的可行性和準(zhǔn)確性,本文展開了一系列具體的實(shí)驗(yàn)和結(jié)果評(píng)估,最終得到了良好的實(shí)驗(yàn)效果,充分說明本文提出的方法模型能夠在一定程度上替代傳統(tǒng)的心理測(cè)評(píng)量表,為心理衛(wèi)生事業(yè)的發(fā)展提供幫助.
圖10 模型準(zhǔn)確率對(duì)比結(jié)果
圖11 高分組召回率對(duì)比結(jié)果
雖然本文提出的模型取得了一些創(chuàng)造性的發(fā)現(xiàn)和效果,但仍然存在一些可以改進(jìn)的地方,比如采取更加高效的機(jī)器學(xué)習(xí)算法來訓(xùn)練更加準(zhǔn)確的心理健康預(yù)測(cè)模型;研究如何提取更加準(zhǔn)確和有效的網(wǎng)絡(luò)行為特征等.