姜力銘 田雪濤 任 萍 駱 方
人工智能輔助下的心理健康新型測(cè)評(píng)*
姜力銘1田雪濤2任 萍3駱 方1
(1北京師范大學(xué)心理學(xué)部, 北京 100875) (2北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院, 北京 100044) (3中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心, 北京 100875)
近年來(lái), 人工智能技術(shù)的飛速發(fā)展及應(yīng)用催生了“智能化心理健康測(cè)評(píng)”這一領(lǐng)域。智能化心理健康測(cè)評(píng)能夠彌補(bǔ)傳統(tǒng)方法的不足, 降低漏診率并提高診斷效率, 這對(duì)于心理健康問(wèn)題的普查及預(yù)警具有重大意義。目前, 智能化心理健康測(cè)評(píng)處于初步發(fā)展階段, 研究者基于在線行為數(shù)據(jù)、便攜式設(shè)備數(shù)據(jù)等開(kāi)展主要以數(shù)據(jù)驅(qū)動(dòng)為導(dǎo)向的探索研究, 旨在實(shí)現(xiàn)更高的預(yù)測(cè)準(zhǔn)確率, 但是測(cè)評(píng)結(jié)果的可解釋性等指標(biāo)尚不夠理想。未來(lái)的智能化心理健康測(cè)評(píng)需要強(qiáng)調(diào)心理學(xué)領(lǐng)域知識(shí)和經(jīng)驗(yàn)的深度介入, 提高測(cè)評(píng)的針對(duì)性和精細(xì)化程度, 加強(qiáng)信效度檢驗(yàn), 這對(duì)于智能化心理健康測(cè)評(píng)工具的進(jìn)一步發(fā)展和應(yīng)用至關(guān)重要。
人工智能, 大數(shù)據(jù), 心理健康, 心理測(cè)評(píng)
社會(huì)的進(jìn)步和發(fā)展加快了人們的生活節(jié)奏, 也加劇了社會(huì)競(jìng)爭(zhēng), 這些變化必然會(huì)對(duì)個(gè)體的心理健康產(chǎn)生重大影響。在這一時(shí)代背景下, 如何對(duì)心理健康進(jìn)行高效且精準(zhǔn)的測(cè)評(píng)尤為重要, 這是了解民眾心理健康狀況以及提供有效干預(yù)的前提。
近年來(lái), 機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能和大數(shù)據(jù)挖掘技術(shù)逐漸應(yīng)用于心理健康領(lǐng)域, 帶來(lái)了心理健康測(cè)評(píng)方法的革新, 也催生了“智能化心理健康測(cè)評(píng)”這一新興領(lǐng)域。人工智能是研究并開(kāi)發(fā)用于模擬和延伸人類(lèi)智能的方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)科學(xué)。機(jī)器學(xué)習(xí)是人工智能最重要的技術(shù)手段, 旨在探索、建模大量變量之間的復(fù)雜高維交互作用(Bzdok & Meyer-Lindenberg, 2018; Kodratoff, 2014)。通過(guò)應(yīng)用人工智能技術(shù)進(jìn)行數(shù)據(jù)的獲取和分析, 以及采用機(jī)器學(xué)習(xí)方法表征和建模特征與心理狀態(tài)之間的關(guān)系, 智能化心理健康測(cè)評(píng)能夠輔助并一定程度上替代人工測(cè)評(píng)。與此同時(shí), 智能化心理健康測(cè)評(píng)也大大拓寬了傳統(tǒng)心理健康測(cè)評(píng)手段(如量表法, 訪談法等)的測(cè)評(píng)形式和數(shù)據(jù)分析方法, 使得研究者能夠基于更加仿真的任務(wù)情境, 獲取多模態(tài)的數(shù)據(jù)進(jìn)行協(xié)同分析和建模, 實(shí)現(xiàn)更加高效、精準(zhǔn)的測(cè)評(píng)。因此, 本文將針對(duì)智能化心理健康測(cè)評(píng)這一領(lǐng)域的研究進(jìn)展、目前存在的問(wèn)題以及未來(lái)發(fā)展方向進(jìn)行概述和討論。
目前, 研究者主要基于社交媒體數(shù)據(jù)、智能設(shè)備數(shù)據(jù)以及電子游戲數(shù)據(jù)開(kāi)展智能化心理健康測(cè)評(píng), 從大量在線行為數(shù)據(jù)中挖掘特征或模式, 進(jìn)而實(shí)現(xiàn)對(duì)心理健康問(wèn)題的預(yù)測(cè)。Latynov和Shepeleva (2020)提出數(shù)字心理測(cè)量學(xué)(digital psychometrics)這一研究方向, 將其界定為根據(jù)個(gè)體的數(shù)字痕跡來(lái)預(yù)測(cè)各種心理特征(如人格特質(zhì), 情緒狀態(tài), 價(jià)值觀, 動(dòng)機(jī)等),基于在線行為數(shù)據(jù)的心理健康測(cè)評(píng)可以視為該領(lǐng)域的一類(lèi)具體任務(wù)。
除在線行為數(shù)據(jù)外, 研究者也通過(guò)可穿戴設(shè)備來(lái)采集與心理健康相關(guān)的數(shù)據(jù), 主要包括腦電數(shù)據(jù)、眼動(dòng)數(shù)據(jù)以及運(yùn)動(dòng)數(shù)據(jù)等, 通常在實(shí)驗(yàn)室中通過(guò)專(zhuān)業(yè)設(shè)備來(lái)采集。近年來(lái), 研究者嘗試基于便攜式可穿戴設(shè)備采集日常生活中的數(shù)據(jù), 從中提取特征進(jìn)行分析和預(yù)測(cè)。
不同來(lái)源的數(shù)據(jù)具有不同的特點(diǎn), 數(shù)據(jù)挖掘、分析和建模的方法也存在差異。下面分別對(duì)基于社交媒體數(shù)據(jù)、智能設(shè)備數(shù)據(jù)、電子游戲數(shù)據(jù)以及可穿戴設(shè)備數(shù)據(jù)開(kāi)展的智能化心理健康測(cè)評(píng)研究進(jìn)行概述, 四種數(shù)據(jù)的簡(jiǎn)要比較見(jiàn)表1。
社交媒體數(shù)據(jù)在心理測(cè)評(píng)中的應(yīng)用非常廣泛(Kern et al., 2016; Kosinski et al., 2016; Park et al., 2015)。社交媒體上的文本主題開(kāi)放性高、內(nèi)容豐富且時(shí)間跨度長(zhǎng), 承載了個(gè)體的思想和情緒情感, 對(duì)于評(píng)估個(gè)體心理具有極高的價(jià)值(Kern et al., 2016; Mandryk & Birk, 2019)。研究者收集用戶(hù)在線發(fā)布的文本內(nèi)容, 探索有關(guān)心理特質(zhì)以及心理健康狀況的表現(xiàn), 采用機(jī)器學(xué)習(xí)和自然語(yǔ)言處理技術(shù)構(gòu)建預(yù)測(cè)模型。國(guó)外研究者主要基于臉書(shū)、推特等平臺(tái)上用戶(hù)發(fā)布的內(nèi)容來(lái)預(yù)測(cè)其心理特質(zhì)(Aung & Myint, 2019; Marouf et al., 2019)以及心理健康問(wèn)題(Eichstaedt et al., 2018)。國(guó)內(nèi)研究者多依托微博、知乎等平臺(tái)進(jìn)行相關(guān)研究, 例如, 分析不同生活滿意度水平的用戶(hù)的語(yǔ)言差異(汪靜瑩等, 2016)以及檢測(cè)用戶(hù)的抑郁、焦慮以及自殺傾向(Cheng et al., 2017)。此外, 研究者也嘗試?yán)脤W(xué)生在線學(xué)習(xí)平臺(tái)上的寫(xiě)作及評(píng)論數(shù)據(jù), 構(gòu)建了針對(duì)小學(xué)生心理特質(zhì)的預(yù)測(cè)模型(駱?lè)降? 2021; 張晗等, 2020)。
隨著人工智能領(lǐng)域相關(guān)技術(shù)的發(fā)展, 具有更高性能的深度學(xué)習(xí)模型不斷涌現(xiàn), 提高了智能化測(cè)評(píng)的準(zhǔn)確率(LeCun et al., 2015)。例如, Ive等人(2018)首次在研究中采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)來(lái)預(yù)測(cè)社交媒體上的帖子中所涉及的心理健康問(wèn)題, 由于RNN能夠更好地建模具有序列特征的文本數(shù)據(jù), 其預(yù)測(cè)結(jié)果明顯優(yōu)于以往常用的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)。然而, 模型深度和復(fù)雜度的上升往往導(dǎo)致模型可解釋性的下降, 為解決這一問(wèn)題, 研究者嘗試在模型中納入注意力(attention)機(jī)制, 自動(dòng)識(shí)別對(duì)于預(yù)測(cè)特定心理健康問(wèn)題最重要的特征, 幫助研究者更好地理解和解釋模型結(jié)果(Lynn et al., 2020)??梢钥闯? 基于社交媒體數(shù)據(jù)開(kāi)展的心理健康測(cè)評(píng)研究中, 研究者始終追求的目標(biāo)是努力提高模型的預(yù)測(cè)準(zhǔn)確率, 但是關(guān)于模型的可解釋性的問(wèn)題已經(jīng)逐漸受到關(guān)注。
智能手機(jī)等便攜式電子設(shè)備中記錄著個(gè)體的日常行為數(shù)據(jù), 包括應(yīng)用軟件的使用、溝通(打電話、發(fā)短信)、聽(tīng)音樂(lè)、拍照、位置移動(dòng)(基于GPS)、連接(藍(lán)牙、WIFI)等, 這些行為數(shù)據(jù)為預(yù)測(cè)個(gè)體心理特質(zhì)提供了有效的信息。德國(guó)慕尼黑大學(xué)的研究團(tuán)隊(duì)收集了624名被試連續(xù)30天的智能手機(jī)日志數(shù)據(jù), 據(jù)此構(gòu)建大五人格的預(yù)測(cè)模型, 識(shí)別出了6類(lèi)對(duì)人格特質(zhì)具有明顯預(yù)測(cè)作用的特征, 包括:1)溝通及社交, 2)音樂(lè)的消費(fèi), 3)應(yīng)用的使用, 4)位置的移動(dòng), 5)手機(jī)的總體活動(dòng), 6)日間和夜間活動(dòng)。該模型的預(yù)測(cè)結(jié)果與效標(biāo)的相關(guān)為0.4, 達(dá)到了以往基于社交媒體數(shù)據(jù)進(jìn)行人格預(yù)測(cè)的準(zhǔn)確率, 顯示出基于智能手機(jī)日志數(shù)據(jù)進(jìn)行心理測(cè)評(píng)的可行性(Stachl et al., 2020)。
表1 智能化心理健康測(cè)評(píng)的四類(lèi)數(shù)據(jù)的比較
隨著智能手機(jī)等移動(dòng)設(shè)備的廣泛應(yīng)用, 音視頻數(shù)據(jù)的采集和分析也變得更加便利, 研究者從中提取動(dòng)作、語(yǔ)音及表情等特征, 實(shí)現(xiàn)心理健康的即時(shí)、自動(dòng)評(píng)估。音頻特征與心理健康狀態(tài)具有相關(guān)性(Cannizzaro, 2004; Mundt, 2012), 研究者嘗試基于語(yǔ)音數(shù)據(jù)篩查心理健康問(wèn)題。例如, 胡斌等人(2018)收集了抑郁癥患者以及正常人群在正性、中性以及負(fù)性三種情緒狀態(tài), 以及在語(yǔ)言問(wèn)答、文本朗讀和圖片描述三種任務(wù)類(lèi)型下的語(yǔ)音數(shù)據(jù), 構(gòu)建了抑郁癥的語(yǔ)音識(shí)別模型, 模型準(zhǔn)確率達(dá)到82.9%。Afshan等人(2018)對(duì)抑郁癥患者、焦慮癥患者以及正常人群的訪談錄音進(jìn)行分析, 嘗試對(duì)心理健康問(wèn)題進(jìn)行識(shí)別, 模型準(zhǔn)確率達(dá)到95%。視頻中往往記錄了個(gè)體的面部表情和身體動(dòng)作, 研究者試圖通過(guò)面部動(dòng)作編碼系統(tǒng)來(lái)識(shí)別面部肌肉的震顫和變化, 捕捉個(gè)體的微表情來(lái)識(shí)別心理健康問(wèn)題(de Melo et al., 2020; Wang et al., 2018)。Zhao等人(2019)從視頻中提取步態(tài)特征來(lái)構(gòu)建預(yù)測(cè)模型, 對(duì)情緒的預(yù)測(cè)準(zhǔn)確率達(dá)到80%以上, 對(duì)焦慮和抑郁的預(yù)測(cè)結(jié)果與效標(biāo)的相關(guān)分別為0.74和0.64。由此可見(jiàn), 隨著人工智能技術(shù)的發(fā)展, 心理健康測(cè)評(píng)將逐漸融入人們的生活中, 實(shí)現(xiàn)更加便利、高效的評(píng)估。
近年來(lái), 隨著電子游戲的普及, 游戲數(shù)據(jù)也受到了研究者的關(guān)注。游戲數(shù)據(jù)是指玩家在游戲過(guò)程中的日志數(shù)據(jù), 包含了個(gè)體在虛擬游戲環(huán)境中的豐富的行為表現(xiàn), 研究者可以據(jù)此評(píng)估個(gè)體的能力和心理特質(zhì), 這類(lèi)測(cè)評(píng)方法被稱(chēng)為“基于游戲的測(cè)評(píng)” (Game-based assessment, GBA) (Heinzen et al., 2015)?;谟螒虻臏y(cè)評(píng)提供了仿真的交互場(chǎng)景, 降低了個(gè)體的測(cè)驗(yàn)焦慮, 同時(shí)規(guī)避了傳統(tǒng)心理測(cè)評(píng)存在的社會(huì)稱(chēng)許性反應(yīng)等問(wèn)題, 從而獲取更為真實(shí)的行為表現(xiàn)(徐俊怡, 李中權(quán), 2021)。
目前, 基于游戲的測(cè)評(píng)主要用于評(píng)估個(gè)體的能力, 例如問(wèn)題解決能力(Shute et al., 2016)、推理能力(孫鑫等, 2018)、論證推理能力(Song & Sparks, 2019)以及社會(huì)情緒能力(DeRosier & Thomas, 2018)等, 在認(rèn)知障礙診斷中也有較多應(yīng)用(Flynn et al., 2019; Hautala et al., 2020; Manera et al., 2015; Song et al., 2020)。此外, 研究者也嘗試基于游戲測(cè)評(píng)某些積極人格, 比如依從性(van Nimwegen et al., 2011)和堅(jiān)持性(DiCerbo, 2014; Ventura & Shute, 2013)等。目前針對(duì)心理健康的游戲化測(cè)評(píng)還非常少, 但相關(guān)研究正不斷涌現(xiàn), 例如Johannes Dechant等人(2021)嘗試基于游戲測(cè)量個(gè)體的社交焦慮水平。
已有基于游戲的測(cè)評(píng)多數(shù)采用商業(yè)化游戲數(shù)據(jù)?;谏虡I(yè)化游戲數(shù)據(jù)提取的行為、認(rèn)知和情感等特征可以作為預(yù)測(cè)個(gè)體心理健康的依據(jù)(Mandryk & Birk, 2019)。然而, 商業(yè)化游戲中的娛樂(lè)性因素繁多, 難以準(zhǔn)確地誘發(fā)并捕捉特定心理健康問(wèn)題的行為表現(xiàn), 因而測(cè)評(píng)結(jié)果的可靠性和精細(xì)度不足。為實(shí)現(xiàn)真正有效的心理健康測(cè)評(píng), 研究者需要針對(duì)研究目的獨(dú)立設(shè)計(jì)游戲或?qū)ι虡I(yè)化游戲進(jìn)行改編, 設(shè)置能夠誘發(fā)特定行為的場(chǎng)景和任務(wù), 并對(duì)相關(guān)的行為特征進(jìn)行埋點(diǎn)記錄。
心理健康問(wèn)題往往伴隨著明顯的生理反應(yīng), 研究者通過(guò)可穿戴設(shè)備采集腦電、眼動(dòng)、心率、皮膚溫度等生理指標(biāo)進(jìn)行心理健康監(jiān)測(cè)。腦電記錄了大腦皮層的電活動(dòng), 反映了個(gè)體對(duì)特定刺激的情緒變化(Alhagry et al., 2017; Song et al., 2018), 因此有研究者使用腦電數(shù)據(jù)來(lái)識(shí)別與情緒相關(guān)的心理健康問(wèn)題。例如, Deng等人(2019)采集高情緒障礙者和低情緒障礙者在觀看不同情感類(lèi)型的影片過(guò)程中的腦電數(shù)據(jù), 采用支持向量機(jī)構(gòu)建預(yù)測(cè)模型, 其準(zhǔn)確率達(dá)到95.20%。Ay等人(2019)基于腦電數(shù)據(jù)構(gòu)建長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(Long Short-Term Memory, LSTM)識(shí)別抑郁癥患者, 模型在左右半球的準(zhǔn)確率分別為97.66%和99.12%。此外, 研究者也基于腦電數(shù)據(jù)分析個(gè)體的注意及認(rèn)知模式, 進(jìn)而檢測(cè)與注意相關(guān)的心理障礙。例如, Dubreuil-Vall等人(2020)采用Flanker任務(wù)收集ADHD患者和正常被試的事件相關(guān)電位, 構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)作為預(yù)測(cè)模型, 模型準(zhǔn)確率為88% ± 1.12% (Dubreuil-Vall et al., 2020)。除此之外, 腦電數(shù)據(jù)也被用來(lái)診斷創(chuàng)傷后應(yīng)激障礙(Laxminarayan et al., 2020; Meyer et al., 2018)和自閉癥(Bosl et al., 2018; Brihadiswaran et al., 2019)等諸多心理健康問(wèn)題。
通過(guò)眼動(dòng)追蹤技術(shù)獲得的眼動(dòng)數(shù)據(jù)也是智能化心理健康測(cè)評(píng)的一類(lèi)重要數(shù)據(jù)。研究者采集被試在特定任務(wù)中或刺激下的眼動(dòng)數(shù)據(jù), 采用機(jī)器學(xué)習(xí)方法提取凝視時(shí)間、凝視移動(dòng)和瞳孔大小等特征并構(gòu)建預(yù)測(cè)模型。例如, de Silva等人(2019)采集被試在不同事件下的眼動(dòng)數(shù)據(jù), 采用決策樹(shù)算法構(gòu)建預(yù)測(cè)模型并實(shí)現(xiàn)了84%的準(zhǔn)確率; Zhang等人(2020)結(jié)合腦電數(shù)據(jù)與眼動(dòng)數(shù)據(jù)來(lái)識(shí)別焦慮癥患者, 采用支持向量機(jī)算法構(gòu)建預(yù)測(cè)模型并實(shí)現(xiàn)了82.70%的準(zhǔn)確率。清華大學(xué)的馬惠敏等人基于眼動(dòng)數(shù)據(jù)提取被試的注意偏向特征來(lái)預(yù)測(cè)抑郁及焦慮狀態(tài), 預(yù)測(cè)模型的準(zhǔn)確率、靈敏性和特異性均在0.8以上(Pan et al., 2019)。
心理健康與情緒和壓力狀態(tài)具有緊密聯(lián)系, 皮膚溫度以及心率等生理指標(biāo)反應(yīng)了個(gè)體的情緒和壓力狀態(tài), 因而具有預(yù)測(cè)個(gè)體心理健康水平的潛力。例如, 采用紅外熱成像技術(shù)測(cè)量皮膚溫度來(lái)檢測(cè)情緒(Cardone & Merla, 2017), 通過(guò)心率和心率變異性等指標(biāo)檢測(cè)壓力狀態(tài)(Castaldo et al., 2019; Pereira et al., 2017; Pluntke et al., 2019)和焦慮水平(Ihmig et al., 2020; Wen et al., 2018)。然而, 影響個(gè)體生理指標(biāo)的因素眾多, 生理指標(biāo)的變化并不完全由心理健康因素造成, 研究者需要結(jié)合更多監(jiān)測(cè)指標(biāo)對(duì)個(gè)體的心理健康狀況進(jìn)行綜合判斷。
近年來(lái)可穿戴設(shè)備不斷升級(jí), EEG耳機(jī)等小巧的便攜式可穿戴設(shè)備不斷涌現(xiàn), 為個(gè)體心理健康狀況的持續(xù)、無(wú)侵?jǐn)_監(jiān)測(cè)提供了可能(Lo et al., 2017; Richer et al., 2018)。除了利用現(xiàn)有的可穿戴設(shè)備外, 研究者也嘗試針對(duì)特定研究問(wèn)題和目標(biāo)群體開(kāi)發(fā)專(zhuān)門(mén)的可穿戴設(shè)備, 例如, 中國(guó)科學(xué)院計(jì)算所的陳益強(qiáng)等人與安定醫(yī)院合作開(kāi)發(fā)了針對(duì)兒童注意力缺陷多動(dòng)癥的可穿戴式輔助診斷評(píng)估系統(tǒng), 該系統(tǒng)能夠感知兒童的敏捷性和沖動(dòng)性, 預(yù)測(cè)準(zhǔn)確率、靈敏性和特異性均達(dá)到0.9以上(Jiang et al., 2020)??梢钥闯? 研究者們致力于采用更加高效、無(wú)侵?jǐn)_的數(shù)據(jù)采集方式, 實(shí)現(xiàn)生態(tài)化的、可融入應(yīng)用場(chǎng)景的心理健康測(cè)評(píng)并且已經(jīng)取得了一定進(jìn)展。
智能化心理健康測(cè)評(píng)是一個(gè)新興的交叉研究領(lǐng)域, 目前正處于起步和探索的階段。該領(lǐng)域的相關(guān)研究多數(shù)由人工智能及計(jì)算機(jī)領(lǐng)域的專(zhuān)家主導(dǎo)開(kāi)展, 研究往往基于公開(kāi)的大規(guī)模在線日志數(shù)據(jù)進(jìn)行挖掘, 從中捕捉與心理健康問(wèn)題相關(guān)的特征及模式并實(shí)現(xiàn)預(yù)測(cè)(Chen & Wojcik, 2016; Kern et al., 2016)。這類(lèi)研究通常缺乏特定的研究假設(shè), 目標(biāo)是實(shí)現(xiàn)更高的模型預(yù)測(cè)準(zhǔn)確率, 經(jīng)常采用數(shù)據(jù)驅(qū)動(dòng)的研究方法來(lái)建模, 這就導(dǎo)致預(yù)測(cè)模型成為一個(gè)“黑匣子”, 難以為外部行為特征與心理健康的關(guān)系提供清晰和明確的解釋(Voosen, 2017)。此外, 已有研究?jī)H能對(duì)個(gè)體是否存在某種心理健康問(wèn)題做二分判斷, 無(wú)法提供細(xì)化的評(píng)估結(jié)果和詳細(xì)的診斷信息, 難以為臨床診斷和治療提供參考。因此, 智能化心理健康測(cè)評(píng)的研究需要強(qiáng)調(diào)心理學(xué)領(lǐng)域的知識(shí)和經(jīng)驗(yàn)的深度介入, 進(jìn)一步提高測(cè)評(píng)的針對(duì)性、可解釋性和精細(xì)化水平, 加強(qiáng)對(duì)測(cè)評(píng)工具的信效度檢驗(yàn), 這對(duì)于智能化心理健康測(cè)評(píng)工具的進(jìn)一步發(fā)展和應(yīng)用至關(guān)重要。
得益于計(jì)算機(jī)技術(shù)的發(fā)展, 越來(lái)越多的機(jī)器學(xué)習(xí)及深度學(xué)習(xí)算法被封裝為程序包, 便于心理學(xué)研究者直接調(diào)用并獨(dú)立開(kāi)展心理健康測(cè)評(píng)的研究(Chen & Wojcik, 2016; Kosinski et al., 2016)。然而, 機(jī)器學(xué)習(xí)模型的表現(xiàn)受到諸多環(huán)境因素的影響, 在實(shí)際應(yīng)用中需要研究者對(duì)模型參數(shù)進(jìn)行精細(xì)調(diào)整甚至針對(duì)具體任務(wù)開(kāi)發(fā)新的算法模型。因此, 智能化心理健康測(cè)評(píng)系統(tǒng)的搭建需要機(jī)器行為(Machine behavior)領(lǐng)域的知識(shí)及經(jīng)驗(yàn)的參與, 關(guān)注并探究算法在不同條件下的表現(xiàn)(Rahwan et al., 2019), 盡管這并非心理健康測(cè)評(píng)直接關(guān)注的問(wèn)題, 但能夠幫助研究者更好地理解和應(yīng)用人工智能技術(shù), 規(guī)避預(yù)測(cè)偏差從而提升測(cè)評(píng)的有效性。
智能化心理健康測(cè)評(píng)需要計(jì)算機(jī)領(lǐng)域與心理學(xué)領(lǐng)域的深度融合。一方面, 強(qiáng)調(diào)心理學(xué)領(lǐng)域的知識(shí)經(jīng)驗(yàn)以提高測(cè)評(píng)的針對(duì)性、可解釋性和精細(xì)化水平, 加強(qiáng)對(duì)新型測(cè)評(píng)工具的信效度檢驗(yàn); 另一方面, 在保證測(cè)評(píng)的有效性和可靠性的基礎(chǔ)上, 采用計(jì)算機(jī)領(lǐng)域的新方法和新進(jìn)展, 獲取多模態(tài)數(shù)據(jù)進(jìn)行協(xié)同分析和建模, 進(jìn)一步提升預(yù)測(cè)準(zhǔn)確率。最后, 智能化心理健康測(cè)評(píng)領(lǐng)域的研究者也必須面對(duì)隱私和倫理問(wèn)題。下面就前述主要問(wèn)題及未來(lái)發(fā)展方向逐一進(jìn)行論述。
為實(shí)現(xiàn)真正高效精準(zhǔn)的智能化心理健康測(cè)評(píng), 研究者需要開(kāi)展更具有針對(duì)性和精細(xì)化的研究。對(duì)在線行為數(shù)據(jù)的探索性分析提供了具有啟發(fā)意義的信息, 研究者需要在此基礎(chǔ)上定位具體的研究問(wèn)題, 基于理論來(lái)設(shè)計(jì)任務(wù)以獲取與目標(biāo)問(wèn)題高度相關(guān)的數(shù)據(jù)。例如, He等人(2012; 2017)基于個(gè)體的語(yǔ)言表達(dá)來(lái)識(shí)別創(chuàng)傷后應(yīng)激障礙患者, 研究者在心理健康論壇中設(shè)置與創(chuàng)傷后應(yīng)激障礙相關(guān)的寫(xiě)作任務(wù), 獲取被試的自述文本。相比于從社交媒體獲取一般性的文本, 針對(duì)性的主題寫(xiě)作任務(wù)能夠更好地激發(fā)與PTSD相關(guān)的文本特征, 例如, 具有多種創(chuàng)傷后應(yīng)激障礙的患者文本中包含更多與事件(如“火災(zāi)”)以及時(shí)間(如“年”)相關(guān)的表達(dá), 而具有單一創(chuàng)傷后應(yīng)激障礙患者的文本中包含更多與癥狀(如“噩夢(mèng)”)相關(guān)的表達(dá), 研究者基于文本特征構(gòu)建的預(yù)測(cè)模型達(dá)到了80%以上的準(zhǔn)確率。
基于可穿戴設(shè)備開(kāi)展的研究大多基于心理學(xué)的實(shí)驗(yàn)范式進(jìn)行任務(wù)設(shè)計(jì), 因而研究的針對(duì)性通常較高。例如, 陳益強(qiáng)等人開(kāi)發(fā)的兒童ADHD可穿戴式輔助診斷評(píng)估系統(tǒng)基于心理學(xué)的ADHD實(shí)驗(yàn)范式, 開(kāi)發(fā)出三大類(lèi)任務(wù):1)實(shí)物交互場(chǎng)景, 如手指戳洞任務(wù)等; 2)屏交互場(chǎng)景, 如多目標(biāo)追蹤任務(wù)等; 3)肢體交互場(chǎng)景, 如小鳥(niǎo)喂水任務(wù)等。任務(wù)覆蓋DSM-5對(duì)ADHD的18項(xiàng)描述(Jiang et al., 2020), 提取的指標(biāo)涵蓋ADHD的各個(gè)維度。再如, 馬惠敏等人(Pan et al., 2019)通過(guò)眼動(dòng)數(shù)據(jù)預(yù)測(cè)抑郁及焦慮的研究中采用以反應(yīng)時(shí)為核心的啟動(dòng)、競(jìng)爭(zhēng)的實(shí)驗(yàn)范式, 該研究基于明尼蘇達(dá)多項(xiàng)人格量表(MMPI)以及心理學(xué)語(yǔ)義與圖像間的映射關(guān)系構(gòu)建了心理圖像庫(kù), 以此作為心理特征提取與分析的素材。該研究不僅能夠提供個(gè)體心理健康問(wèn)題的預(yù)測(cè)結(jié)果, 也能夠輸出被試轉(zhuǎn)移時(shí)間最長(zhǎng)的圖像以便研究者進(jìn)行深入挖掘和根因分析。
研究的精細(xì)化包括預(yù)測(cè)過(guò)程的精細(xì)化和預(yù)測(cè)結(jié)果的精細(xì)化。預(yù)測(cè)過(guò)程的精細(xì)化強(qiáng)調(diào)有意義的特征提取。目前研究者對(duì)于心理健康問(wèn)題的行為指標(biāo)已經(jīng)有了較為明確的認(rèn)識(shí), 但對(duì)其腦特征、生理特征及文本特征等還不夠了解, 深入研究心理健康問(wèn)題的多元指標(biāo)將擴(kuò)展研究者對(duì)于目標(biāo)構(gòu)念的情感、認(rèn)知和行為表現(xiàn)的理解(Kern et al., 2016)。預(yù)測(cè)結(jié)果的精細(xì)化是指從粗糙的二分診斷逐漸細(xì)化到連續(xù)、分型診斷。以抑郁癥為例, 多數(shù)研究?jī)H能區(qū)分重度抑郁患者和正常人群, 為了能夠識(shí)別輕度抑郁患者并避免其發(fā)展為重度抑郁, 研究者需要對(duì)癥狀的嚴(yán)重程度進(jìn)行精細(xì)化診斷。北京師范大學(xué)的鄔霞等人采用Stroop任務(wù)研究抑郁癥患者腦電的功能連通性變化, 創(chuàng)新性地將DTW算法進(jìn)行改進(jìn)并引入到腦網(wǎng)絡(luò)的構(gòu)建中, 實(shí)現(xiàn)了精準(zhǔn)刻畫(huà)線性相關(guān)與非線性相關(guān)同時(shí)存在的腦區(qū)信號(hào), 并通過(guò)層次聚類(lèi)成功分解得到大腦在執(zhí)行情緒任務(wù)時(shí)的多尺度腦信號(hào)特征(Guo et al., 2018)。研究團(tuán)隊(duì)結(jié)合EEG和PPG兩種生理信號(hào), 綜合考慮來(lái)自于大腦和外圍生理指標(biāo)中的信息, 建立了能夠精確評(píng)價(jià)認(rèn)知負(fù)荷的多生理指標(biāo)模型(Yu et al., 2018)。該團(tuán)隊(duì)還提出了稀疏重疊模塊化的高斯圖模型算法, 不僅能夠更準(zhǔn)確地估計(jì)功能連接網(wǎng)絡(luò)結(jié)構(gòu), 也明顯改善了特征提取的精度, 提高了計(jì)算機(jī)輔助診斷腦疾病的性能(Zhu et al., 2020)。
智能化心理健康測(cè)評(píng)不僅需要研究者針對(duì)特定的心理健康問(wèn)題, 基于心理學(xué)理論和范式來(lái)設(shè)計(jì)任務(wù), 同時(shí)也需要充分利用數(shù)據(jù)挖掘技術(shù)來(lái)探索潛在的模式和特征, 拓寬對(duì)特定心理健康問(wèn)題的理解。可以看出, 智能化心理健康測(cè)評(píng)要求研究者探索數(shù)據(jù)驅(qū)動(dòng)與理論驅(qū)動(dòng)相結(jié)合的解決方案, 這與von Davier和Halpin (2013)提出的計(jì)算心理測(cè)量學(xué)的思想不謀而合。計(jì)算心理測(cè)量學(xué)強(qiáng)調(diào)基于理論采用自上而下的方式來(lái)設(shè)計(jì)指標(biāo), 同時(shí)引入機(jī)器學(xué)習(xí)方法進(jìn)行自下而上的數(shù)據(jù)挖掘(von Davier & Halpin, 2013; von Davier, 2019), 這一框架目前主要應(yīng)用于問(wèn)題解決能力評(píng)估(Polyak et al., 2017)以及學(xué)習(xí)評(píng)估(von Davier et al., 2019)等任務(wù)中, 在心理健康測(cè)評(píng)中應(yīng)用較少。Cipresso等人(2019)嘗試基于計(jì)算心理測(cè)量學(xué)框架檢測(cè)個(gè)體的壓力狀態(tài), 該研究基于領(lǐng)域知識(shí)來(lái)設(shè)定需要獲取的生理指標(biāo), 采用Stroop任務(wù)和算術(shù)任務(wù)作為心理壓力源, 收集被試在靜息狀態(tài)和壓力狀態(tài)下的血容量脈沖、胸腔呼吸和皮膚電導(dǎo)率等生理數(shù)據(jù), 通過(guò)重復(fù)方差分析等統(tǒng)計(jì)方法檢驗(yàn)指標(biāo)的有效性, 最后采用機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測(cè)(Cipresso et al., 2019)。該研究顯示出將計(jì)算心理測(cè)量學(xué)應(yīng)用于心理健康測(cè)評(píng)中的潛力。盡管目前的智能化心理健康測(cè)評(píng)的相關(guān)研究中很少涉及對(duì)計(jì)算心理測(cè)量學(xué)的直接探討, 但一些具有針對(duì)性和精細(xì)化的研究中已經(jīng)體現(xiàn)出了計(jì)算心理測(cè)量學(xué)的思想。隨著智能化心理健康測(cè)評(píng)的發(fā)展, 計(jì)算心理測(cè)量學(xué)應(yīng)當(dāng)?shù)玫礁嗟年P(guān)注和應(yīng)用。
為實(shí)現(xiàn)測(cè)評(píng)的針對(duì)性和精細(xì)化, 研究者需要有針對(duì)性地創(chuàng)設(shè)任務(wù)和情境來(lái)激發(fā)被試的相關(guān)行為指標(biāo), 獲取更加真實(shí)、豐富的行為數(shù)據(jù)。近年來(lái), 研究者嘗試采用虛擬仿真以及人機(jī)交互技術(shù)來(lái)呈現(xiàn)測(cè)驗(yàn)任務(wù), 這種測(cè)評(píng)形式被稱(chēng)為“基于仿真的測(cè)評(píng)” (Simulation-Based Assessment) (Mislevy, 2013)。與高度結(jié)構(gòu)化的傳統(tǒng)測(cè)驗(yàn)不同, 基于仿真的測(cè)評(píng)為被試提供了自由探索的環(huán)境, 收集被試在面對(duì)刺激和解決任務(wù)時(shí)的自發(fā)反應(yīng), 在降低被試的測(cè)試焦慮的同時(shí)獲取更加真實(shí)的行為指標(biāo)。被試在虛擬環(huán)境中產(chǎn)生的大量過(guò)程性數(shù)據(jù)也為動(dòng)態(tài)、持續(xù)的測(cè)評(píng)提供了可能(Shute et al., 2016)。
然而, 基于仿真的測(cè)評(píng)在提升測(cè)評(píng)真實(shí)性和生態(tài)性的同時(shí)也帶來(lái)了更高的測(cè)量誤差。過(guò)程性數(shù)據(jù)中混雜著大量與測(cè)評(píng)目標(biāo)無(wú)關(guān)的信息, 如果采用無(wú)規(guī)則的數(shù)據(jù)挖掘則難以保證測(cè)評(píng)的有效性, 指標(biāo)提取與測(cè)評(píng)結(jié)果之間的關(guān)系也缺乏可解釋性。為了在新型測(cè)評(píng)環(huán)境中進(jìn)行有效測(cè)評(píng), Mislevy等人(2003)提出證據(jù)中心設(shè)計(jì)(Evidence-Centered Design, ECD)。證據(jù)中心設(shè)計(jì)是一種圍繞證據(jù)的評(píng)估設(shè)計(jì)和評(píng)估實(shí)施方法, 通過(guò)任務(wù)設(shè)計(jì)來(lái)收集與心理構(gòu)念相關(guān)的證據(jù)。證據(jù)中心設(shè)計(jì)包括學(xué)生模型、證據(jù)模型與任務(wù)模型三部分。學(xué)生模型回答“測(cè)什么”的問(wèn)題, 即依據(jù)相關(guān)理論定義目標(biāo)特質(zhì)的結(jié)構(gòu)。學(xué)生模型通常是多維的, 包括能力、特質(zhì)或態(tài)度等多個(gè)方面(Shute et al., 2011)。證據(jù)模型回答“如何測(cè)”的問(wèn)題, 確定反映目標(biāo)特質(zhì)的指標(biāo)及計(jì)分規(guī)則, 例如, 是否解決了問(wèn)題、是否使用了特定的工具等。研究者需要基于相關(guān)研究基礎(chǔ)及知識(shí)經(jīng)驗(yàn), 將證據(jù)模型與學(xué)生模型進(jìn)行鏈接。任務(wù)模型解決“用什么測(cè)”的問(wèn)題, 在學(xué)生模型與證據(jù)模型的基礎(chǔ)上設(shè)計(jì)情境、任務(wù)形式以及被試的反應(yīng)方式。任務(wù)可以采用多項(xiàng)選擇題等簡(jiǎn)單的形式, 也可以采取更復(fù)雜、交互性更強(qiáng)的形式。
證據(jù)中心設(shè)計(jì)適用于游戲測(cè)評(píng)等基于虛擬環(huán)境或人機(jī)交互的測(cè)評(píng)任務(wù)開(kāi)發(fā)(Shute et al., 2011), 并且已經(jīng)得到廣泛應(yīng)用(Lee & Recker, 2017; Johannes Dechant et al., 2021; Mislevy & Haertel, 2006; Snow et al., 2019)。智能化心理健康測(cè)評(píng)的任務(wù)設(shè)計(jì)也應(yīng)基于證據(jù)中心設(shè)計(jì), 在學(xué)生模型中細(xì)化特定心理健康問(wèn)題的不同維度和分型, 提高測(cè)評(píng)系統(tǒng)的精細(xì)化水平; 在任務(wù)模型中基于特定心理健康問(wèn)題的典型行為表現(xiàn)來(lái)確定指標(biāo)和計(jì)分規(guī)則, 提高特征提取的有效性和可解釋性; 在證據(jù)模型中參考心理學(xué)范式設(shè)置測(cè)評(píng)情境和任務(wù), 同時(shí)結(jié)合虛擬仿真的測(cè)評(píng)形式, 更好地激發(fā)被試的相關(guān)行為指標(biāo)。由此可見(jiàn), 證據(jù)中心設(shè)計(jì)的應(yīng)用將進(jìn)一步提升智能化心理健康測(cè)評(píng)的針對(duì)性和精細(xì)化程度。
智能化心理健康測(cè)評(píng)作為一種新的心理測(cè)量方法, 需要通過(guò)信效度檢驗(yàn)以保證測(cè)評(píng)結(jié)果的有效性和科學(xué)性。信效度檢驗(yàn)回答了預(yù)測(cè)模型是否測(cè)量了目標(biāo)特質(zhì)、測(cè)量結(jié)果是否穩(wěn)定等一系列重要問(wèn)題。只有進(jìn)行了充分的信效度檢驗(yàn), 智能化心理健康測(cè)評(píng)工具才能夠得到大規(guī)模的應(yīng)用, 尤其是在高利害場(chǎng)景中(如, 選拔、考試等)應(yīng)用以避免較大的爭(zhēng)議。
目前, 智能化心理健康測(cè)評(píng)主要采用計(jì)算機(jī)領(lǐng)域的評(píng)估指標(biāo), 如準(zhǔn)確率、召回率等, 考慮信效度檢驗(yàn)的相關(guān)研究非常少見(jiàn)(Tay et al., 2020)。Park等人(2015)在基于社交媒體數(shù)據(jù)預(yù)測(cè)大五人格的研究中檢驗(yàn)了重測(cè)信度, 研究者以6個(gè)月為單位劃分?jǐn)?shù)據(jù), 各維度預(yù)測(cè)結(jié)果在相鄰兩個(gè)時(shí)間單位間的相關(guān)達(dá)到0.70以上。由于個(gè)體的在線行為容易受到網(wǎng)絡(luò)環(huán)境中的諸多因素的影響, 因此檢驗(yàn)工具的跨時(shí)間穩(wěn)定性十分必要, 在未來(lái)的相關(guān)研究中應(yīng)盡可能包含這方面的檢驗(yàn)結(jié)果。
智能化心理健康測(cè)評(píng)中, 機(jī)器學(xué)習(xí)模型充當(dāng)了評(píng)分員的角色, 因此, 模型選擇和構(gòu)建的恰當(dāng)性是影響預(yù)測(cè)結(jié)果的重要因素。Sajjadiani等人(2019)根據(jù)傳統(tǒng)的評(píng)分者一致性信度(inter-rater reliability)提出了算法一致性信度(inter-algorithm reliability), 檢驗(yàn)不同模型在同一批數(shù)據(jù)上的評(píng)分一致性。由于每種模型都存在優(yōu)勢(shì)和弊端, 研究者應(yīng)結(jié)合具體任務(wù)進(jìn)行模型選擇并對(duì)適當(dāng)?shù)膫溥x模型進(jìn)行檢驗(yàn)和比較。
機(jī)器學(xué)習(xí)模型容易對(duì)單次獲取的訓(xùn)練集數(shù)據(jù)過(guò)分?jǐn)M合, 因此智能化心理健康測(cè)評(píng)需要考慮預(yù)測(cè)模型的泛化性能。研究者通常采用交叉驗(yàn)證方法對(duì)模型的泛化能力和穩(wěn)定性進(jìn)行估計(jì)(Kosinski et al., 2016)。交叉驗(yàn)證方法將樣本數(shù)據(jù)隨機(jī)分為K個(gè)大小相似的組, 每次以其中一組用作測(cè)試集, 其它K-1組作為訓(xùn)練集, 以K次測(cè)試結(jié)果的平均值作為模型準(zhǔn)確率的估計(jì)。此外, 研究者也需要驗(yàn)證工具在不同情境中的泛化能力和普適性。不同的社交媒體平臺(tái)具有不同的特點(diǎn), 例如, 推特主要服務(wù)于大眾信息的傳播而臉書(shū)主要服務(wù)于熟人之間的交流, 這些特點(diǎn)均對(duì)個(gè)體特質(zhì)的表現(xiàn)產(chǎn)生影響(Saef et al., 2018), 研究者應(yīng)采用其它樣本數(shù)據(jù)或研究設(shè)計(jì)來(lái)驗(yàn)證原有發(fā)現(xiàn)(Kern et al., 2016)。例如, 中國(guó)科學(xué)院計(jì)算所的朱廷劭等人檢驗(yàn)了抑郁癥患者與正常人群的語(yǔ)音差異的跨情境穩(wěn)定性, 研究表明抑郁者和正常人群之間的語(yǔ)音差異在不同情境下普遍存在, 并且識(shí)別出差異最大的12個(gè)重要特征(Wang et.al., 2019)。因此, 智能化心理健康測(cè)評(píng)應(yīng)重點(diǎn)捕捉具有跨情境穩(wěn)定性的普遍特征, 同時(shí)考慮虛擬環(huán)境對(duì)個(gè)體行為表現(xiàn)的影響以提升測(cè)評(píng)的有效性和可解釋性。
目前, 智能化心理健康測(cè)評(píng)只能做到粗篩, 無(wú)法直接用于診斷, 但加強(qiáng)測(cè)評(píng)的精細(xì)化和針對(duì)性將有助于提高評(píng)估的準(zhǔn)確率, 同時(shí)提供更加豐富的信息幫助醫(yī)生進(jìn)行進(jìn)一步的臨床評(píng)估和診斷。
隨著大數(shù)據(jù)時(shí)代的到來(lái), 數(shù)據(jù)的共享為多模態(tài)數(shù)據(jù)的整合分析提供了可能。個(gè)體的心理健康狀況通過(guò)語(yǔ)言、肢體動(dòng)作、面部表情、生理反應(yīng)等多種途徑表現(xiàn), 不同的數(shù)據(jù)來(lái)源和指標(biāo)有其獨(dú)特優(yōu)勢(shì), 綜合分析各類(lèi)數(shù)據(jù)將實(shí)現(xiàn)更加全面和穩(wěn)健的評(píng)估。計(jì)算機(jī)領(lǐng)域的多模態(tài)數(shù)據(jù)分析方法為智能化心理健康測(cè)評(píng)帶來(lái)了革新, 研究者開(kāi)始嘗試更多元的數(shù)據(jù)采集形式, 獲取多模態(tài)的數(shù)據(jù)進(jìn)行融合建模, 從而發(fā)揮信息的互補(bǔ)作用。例如, Williamson等人(2016)的研究中融合了生理、語(yǔ)音、面孔以及語(yǔ)義四類(lèi)特征構(gòu)建抑郁癥的預(yù)測(cè)模型; 斯坦福大學(xué)的Haque等人(2018)利用面部表情以及語(yǔ)音數(shù)據(jù)構(gòu)建抑郁癥的預(yù)測(cè)模型; 華中科技大學(xué)的陳敏等人采集多場(chǎng)景(工作、學(xué)習(xí)、娛樂(lè))下的多模態(tài)數(shù)據(jù)(腦電、視頻、眼動(dòng)), 構(gòu)建多動(dòng)癥兒童的注意力評(píng)估模型(Chen et al., 2019)。上述研究結(jié)果顯示, 包含多模態(tài)數(shù)據(jù)的模型往往實(shí)現(xiàn)了最優(yōu)的預(yù)測(cè)效果。
游戲能夠同時(shí)記錄玩家的行為、認(rèn)知、運(yùn)動(dòng)、社交以及情感等多種心理健康指標(biāo), 基于游戲的測(cè)評(píng)有望成為多模態(tài)數(shù)據(jù)的重要應(yīng)用場(chǎng)景。已有研究者通過(guò)分析游戲中的發(fā)言?xún)?nèi)容來(lái)預(yù)測(cè)玩家的心理健康(Mandryk & Birk, 2019), 通過(guò)游戲手柄中的傳感器獲取生理數(shù)據(jù)來(lái)分析玩家的情緒和認(rèn)知狀態(tài)(Mandryk et al., 2013), 通過(guò)玩家在游戲中敲擊按鈕的壓力大小來(lái)推斷其心理健康(Vogel, 2018)等。不同類(lèi)別的數(shù)據(jù)和指標(biāo)反映了心理健康的不同側(cè)面, 全面收集各類(lèi)生理、心理及行為數(shù)據(jù)進(jìn)行協(xié)同建模和綜合判斷, 這對(duì)于心理健康問(wèn)題的精準(zhǔn)篩查至關(guān)重要。
目前, 國(guó)內(nèi)外關(guān)于智能化心理健康測(cè)評(píng)的研究尚處于初步階段, 隨著人工智能與大數(shù)據(jù)技術(shù)的發(fā)展, 相關(guān)研究的倫理問(wèn)題將逐步受到重視?;谠诰€行為數(shù)據(jù)的研究中, 被試往往無(wú)法得知自己的信息已被用于研究, 未來(lái)研究中的數(shù)據(jù)獲取和使用應(yīng)盡可能使被試知情。此外, 智能化心理健康測(cè)評(píng)必須考慮被試的隱私保護(hù), 規(guī)避隱私信息泄露的風(fēng)險(xiǎn)。傳統(tǒng)測(cè)評(píng)中研究者能夠通過(guò)刪除被試的身份信息來(lái)保護(hù)被試隱私, 然而在線行為數(shù)據(jù)中包含的個(gè)人信息難以完全剔除(Kern et al., 2016)。隨著研究獲取的數(shù)據(jù)來(lái)源的擴(kuò)展以及信息之間的融合, 個(gè)體身份的識(shí)別將更加容易(Berman, 2013)。研究者應(yīng)站在被試的角度上考慮哪些數(shù)據(jù)可以獲取和分析, 僅采集研究必需的信息(Kern et al., 2016), 例如, Harari等人(2020)通過(guò)個(gè)體的語(yǔ)音數(shù)據(jù)來(lái)評(píng)估心理狀態(tài)的研究中, 研究者僅獲取語(yǔ)音數(shù)據(jù)的參數(shù)而無(wú)法得到原始的語(yǔ)音內(nèi)容, 這樣的數(shù)據(jù)采集及處理方式值得借鑒。
心理健康問(wèn)題的智能化測(cè)評(píng)是人工智能領(lǐng)域與心理學(xué)及醫(yī)學(xué)領(lǐng)域的交叉問(wèn)題, 跨學(xué)科的深度交流和共同努力至關(guān)重要(Kern et al., 2016)。領(lǐng)域間的深度融合和思維碰撞能夠激發(fā)出更多的研究成果, 惠及人類(lèi)的心理健康和幸福生活。本文所介紹的研究絕大多數(shù)是智能化心理健康測(cè)評(píng)領(lǐng)域的初步探索, 相關(guān)研究成果為未來(lái)研究提供了基線標(biāo)準(zhǔn), 研究者構(gòu)建的數(shù)據(jù)庫(kù)也為未來(lái)研究提供了進(jìn)一步探索的寶貴資源。
近年來(lái), 智能化心理健康測(cè)評(píng)的研究問(wèn)題從最常見(jiàn)的抑郁癥、焦慮癥, 擴(kuò)展到注意力缺陷多動(dòng)癥、創(chuàng)傷性應(yīng)激障礙、自閉癥等各類(lèi)心理健康問(wèn)題。如今, AI不僅僅能夠增強(qiáng)人類(lèi)的能力, 使人們看到更多、聽(tīng)到更多, 幫助人類(lèi)思考和計(jì)算, 同時(shí), AI也逐漸變得更加有溫度, 更加關(guān)注人類(lèi)的情緒與情感、人類(lèi)的心理健康及主觀幸福感等。相信未來(lái)的心理測(cè)評(píng)在變得更加智能化的同時(shí)也必然變得更加人性化。
駱?lè)? 姜力銘, 田雪濤, 肖夢(mèng)格, 馬彥珍, 張生. (2021). 小學(xué)生羞怯特質(zhì)預(yù)測(cè)及語(yǔ)言風(fēng)格模型構(gòu)建.,(2), 155–169.
孫鑫, 黎堅(jiān), 符植煜. (2018). 利用游戲log-file預(yù)測(cè)學(xué)生推理能力和數(shù)學(xué)成績(jī)——機(jī)器學(xué)習(xí)的應(yīng)用.,(7), 761–770.
汪靜瑩, 朱廷劭, 郝碧波, 劉天俐. (2016). 微博用戶(hù)生活滿意度微博語(yǔ)言及行為特征分析.,(2), 225–229.
徐俊怡, 李中權(quán). (2021). 基于游戲的心理測(cè)評(píng).,(3), 394–403.
張晗, 賈甜遠(yuǎn), 駱?lè)? 張生, 鄔霞. (2020). 面向網(wǎng)絡(luò)文本的 BERT 心理特質(zhì)預(yù)測(cè)研究.,(8), 1459–1468.
Afshan, A., Guo, J. X., Park, S. J., Ravi, V., Flint, A., & Alwan, A. (2018). Effectiveness of voice quality features in detecting depression., 1676–1680.
Alhagry, S., Fahmy, A. A., & El-Khoribi, R. A. (2017). Emotion recognition based on EEG using LSTM recurrent neural network.,(10), 355–358.
Aung, Z. M. M., & Myint, P. H. (2019 July). Personality prediction based on content of facebook users: A literature review.(pp. 34–38) IEEE.
Ay, B., Yildirim, O., Talo, M., Baloglu, U. B., Aydin, G., Puthankattil, S. D., & Acharya, U. R. (2019). Automated depression detection using deep representation and sequence learning with EEG signals.,(7), 1–12.
Berman, J. J. (2013).. Waltham, MA: Elsevier.
Bosl, W. J., Tager-Flusberg, H., & Nelson, C. A. (2018). EEG analytics for early detection of autism spectrum disorder: A data-driven approach.,(1), 1–20.
Brihadiswaran, G., Haputhanthri, D., Gunathilaka, S., Meedeniya, D., & Jayarathna, S. (2019). EEG-based processing and classification methodologies for autism spectrum disorder: A review.,(8), 1161–1183.
Bzdok, D., & Meyer-Lindenberg, A. (2018). Machine learning for precision psychiatry: Opportunities and challenges.,(3), 223–230.
Cannizzaro, M., Harel, B., Reilly, N., Chappell, P., & Snyder, P. J. (2004). Voice acoustical measurement of the severity of major depression.,(1), 30–35.
Cardone, D., & Merla, A. (2017). New frontiers for applications of thermal infrared imaging devices: Computational psychopshysiology in the neurosciences.,(5), 1042.
Castaldo, R., Montesinos, L., Melillo, P., James, C., & Pecchia, L. (2019). Ultra-short term HRV features as surrogates of short term HRV: A case study on mental stress detection in real life.,(1), 12.
Chen, E. E., & Wojcik, S. P. (2016). A practical guide to big data research in psychology.,(4), 458–474.
Chen, M., Cao, Y., Wang, R., Li, Y., Wu, D., & Liu, Z. C. (2019). DeepFocus: Deep encoding brainwaves and emotions with multi-scenario behavior analytics for human attention enhancement.,(6), 70–77.
Cheng, Q. J., Li, T. M., Kwok, C. L., Zhu, T. S., & Yip, P. S. (2017). Assessing suicide risk and emotional distress in Chinese social media: A text mining and machine learning study.,(7), e243.
Cipresso, P., Colombo, D., & Riva, G. (2019). Computational psychometrics using psychophysiological measures for the assessment of acute mental stress.,(4), 781.
de Melo, W. C., Granger, E., & Lopez, M. B. (2020, May). Encoding temporal information for automatic depression recognition from facial analysis.(pp. 1080–1084). IEEE.
Deng, Y. L., Wu, F., Du, L., Zhou, R. L., & Cao, L. H. (2019, March). EEG-based identification of latent emotional disorder using the machine learning approach.(pp. 2642–2648). IEEE.
DeRosier, M. E., & Thomas, J. M. (2018). Establishing the criterion validity of Zoo U’s game-based social emotional skills assessment for school-based outcomes.,, 52–61.
de Silva, S., Dayarathna, S., Ariyarathne, G., Meedeniya, D., Jayarathna, S., Michalek, A. M. P., & Jayawardena, G. (2019, July). A rule-based system for ADHD identification using eye movement data.(pp. 538–543). IEEE.
DiCerbo, K. E. (2014). Game-based assessment of persistence.,(1), 17–28.
Dubreuil-Vall, L., Ruffini, G., & Camprodon, J. A. (2020). Deep learning convolutional neural networks discriminate adult ADHD from healthy individuals on the basis of event-related spectral EEG., 251.
Eichstaedt, J. C., Smith, R. J., Merchant, R. M., Ungar, L. H., Crutchley, P., Preo?iuc-Pietro, D., ... Schwartz, H. A. (2018). Facebook language predicts depression in medical records.,(44), 11203–11208.
Flynn, R. M., Colo?n-Acosta, N., Zhou, J., & Bower, J. (2019). A game-based repeated assessment for cognitive monitoring: Initial usability and adherence study in a summer camp setting.,(5), 2003–2014.
Guo, Z. H., Wu, X., Liu, J. H., Yao, L., & Hu, B. (2018). Altered electroencephalography functional connectivity in depression during the emotional face-word Stroop task.,(5), 056014.
Haque, A., Guo, M., Miner, A. S., & Fei-Fei, L. (2018). Measuring depression symptom severity from spoken language and 3D facial expressions...
Harari, G. M., Vaid, S. S., Müller, S. R., Stachl, C., Marrero, Z., Schoedel, R., Bühner, M., & Gosling, S. D. (2020). Personality sensing for theory development and assessment in the digital age.,(5), 649–669.
Hautala, J., Heikkila?, R., Nieminen, L., Rantanen, V., Latvala, J. M., & Richardson, U. (2020). Identification of reading difficulties by a digital game-based assessment technology.,(5), 1003–1028.
He, Q. W., Veldkamp, B. P., & de Vries, T. (2012). Screening for posttraumatic stress disorder using verbal features in self narratives: A text mining approach.,(3), 441–447.
He, Q. W., Veldkamp, B. P., Glas, C. A. W., & de Vries, T. (2017). Automated assessment of patients’ self-narratives for posttraumatic stress disorder screening using natural language processing and text mining.,(2), 157–172.
Heinzen, T. E., Landrum, R. E., Gurung, R. A. R., & Dunn, D. S. (2015). Game-based assessment: The mash-up we’ve been waiting for.(pp. 201–217). Springer.
Ihmig, F. R., Gogeascoechea H, A., Neurohr-Parakenings, F., Sch?fer, S. K., Lass-Hennemann, J., & Michael, T. (2020). On-line anxiety level detection from biosignals: Machine learning based on a randomized controlled trial with spider-fearful individuals.,(6), e0231517.
Ive, J., Gkotsis, G., Dutta, R., Stewart, R., & Velupillai, S. (2018, June). Hierarchical neural model with attention mechanisms for the classification of social media text related to mental health.(pp. 69–77).
Jiang, X. L., Chen, Y. Q., Huang, W. L., Zhang, T., Gao, C. L., Xing, Y. B., & Zheng, Y. (2020, April). WeDA: Designing and evaluating a scale-driven wearable diagnostic assessment system for children with ADHD.(pp. 1–12).
Johannes Dechant, M., Frommel, J., & Mandryk, R. (2021, May). Assessing social anxiety through digital biomarkers embedded in a gaming task.(pp. 1–15).
Kern, M. L., Park, G., Eichstaedt, J. C., Schwartz, H. A., Sap, M., Smith, L. K., & Ungar, L. H. (2016). Gaining insights from social media language: Methodologies and challenges.,(4), 507–525.
Kodratoff, Y. (2014).. San Mateo, CA: Morgan Kaufmann.
Kosinski, M., Wang, Y., Lakkaraju, H., & Leskovec, J. (2016). Mining big data to extract patterns and predict real-life outcomes.,(4), 493–506.
Latynov, V., & Shepeleva, E. (2020). Applied aspects of the use of algorithms of digital psychometrics.,(4), 66–77.
Laxminarayan, S., Wang, C., Oyama, T., Cashmere, J. D., Germain, A., & Reifman, J. (2020). Identification of veterans with PTSD based on EEG features collected during sleep.,532623.
Lecun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning.,(7553), 436–444.
Lee, J. E., & Recker, M. (2017).. doi: 10.13140/RG.2.2.24971.75047
Lo, J. C., Sehic, E., & Meijer, S. A. (2017). Measuring mental workload with low-cost and wearable sensors: Insights into the accuracy, obtrusiveness, and research usability of three instruments.,(4), 323–336.
Lynn, V., Balasubramanian, N., & Schwartz, H. A. (2020, July). Hierarchical modeling for user personality prediction: The role of message-level attention.(pp. 5306–5316).
Mandryk, R. L., & Birk, M. V. (2019). The potential of game-based digital biomarkers for modeling mental health.,(4), e13485.
Mandryk, R. L., Dielschneider, S., Kalyn, M. R., Bertram, C. P., Gaetz, M., Doucette, A., ... Keiver, K. (2013, June). Games as neurofeedback training for children with FASD.(pp. 165–172).
Manera, V., Petit, P. D., Derreumaux, A., Orvieto, I., Romagnoli, M., Lyttle, G., ... Robert, P. H. (2015). “Kitchen and cooking”, a serious game for mild cognitive impairment and Alzheimer's disease: A pilot study.,, 24.
Marouf, A. A., Hasan, M. K., Mahmud, H. (2019 February). Identifying neuroticism from user generated content of social media based on psycholinguistic cues.(pp. 1–5).
Meyer, T., Quaedflieg, C. W. E. M., Weijland, K., Schruers, K., Merckelbach, H., & Smeets, T. (2018). Frontal EEG asymmetry during symptom provocation predicts subjective responses to intrusions in survivors with and without PTSD.,(1), e12779.
Mislevy, R. J. (2013). Evidence-centered design for simulation-based assessment.,(10), 107–114.
Mislevy, R. J., Almond, R. G., & Lukas, J. F. (2003). A brief introduction to evidence-centered design.,(1), i–29.
Mislevy, R. J., & Haertel, G. D. (2006). Implications of evidence‐centered design for educational testing.,(4), 6–20.
Mundt, J. C., Vogel, A. P., Feltner, D. E., & Lenderking, W. R. (2012). Vocal acoustic biomarkers of depression severity and treatment response.,(7), 580–587.
Pan, Z. Y., Ma, H. M., Zhang, L., & Wang, Y. H. (2019). Depression detection based on reaction time and eye movement.. IEEE.
Park, G., Schwartz, H. A., Eichstaedt, J. C., Kern, M. L., Kosinski, M., Stillwell, D. J., ... Seligman, M. E. P. (2015). Automatic personality assessment through social media language.,(6), 934–952.
Pereira, T., Almeida, P. R., Cunha, J. P., & Aguiar, A. (2017). Heart rate variability metrics for fine-grained stress level assessment.,, 71–80.
Pluntke, U., Gerke, S., Sridhar, A., Weiss, J., & Michel, B. (2019, July). Evaluation and classification of physical and psychological stress in firefighters using heart rate variability.(pp. 2207–2212). IEEE.
Polyak, S. T., von Davier, A. A., & Peterschmidt, K. (2017). Computational psychometrics for the measurement of collaborative problem solving skills.y,, 2029.
Rahwan, I., Cebrian, M., Obradovich, N., Bongard, J., Bonnefon, J. F., Breazeal, C., ... Wellman, M. (2019). Machine behaviour.,(7753), 477–486.
Richer, R., Zhao, N., Amores, J., Eskofier, B. M., & Paradiso, J. A. (2018, July). Real-time mental state recognition using a wearable EEG.(pp. 5495–5498). IEEE.
Saef, R., Woo, S. E., Carpenter, J., & Tay, L. (2018). Fostering socio-informational behaviors online: The interactive effect of openness to experience and extraversion.,, 93–98.
Sajjadiani, S., Sojourner, A. J., Kammeyer-Mueller, J. D., & Mykerezi, E. (2019). Using machine learning to translate applicant work history into predictors of performance and turnover.,(10), 1207–1225.
Shute, V. J. (2011). Stealth assessment in computer-based games to support learning.,(2), 503–524.
Shute, V. J., Wang, L. B., Greiff, S., Zhao, W. N, & Moore, G. (2016). Measuring problem solving skills via stealth assessment in an engaging video game.,, 106–117.
Snow, E., Rutstein, D., Basu, S., Bienkowski, M., & Everson, H. T. (2019). Leveraging evidence-centered design to develop assessments of computational thinking practices.,(2), 103–127.
Song, H., Yi, D. J., & Park, H. J. (2020). Validation of a mobile game-based assessment of cognitive control among children and adolescents.,(3), 1–18.
Song, T. F., Zheng, W. M., Song, P., & Cui, Z. (2018). EEG emotion recognition using dynamical graph convolutional neural networks.,(3), 532–541.
Song, Y., & Sparks, J. R. (2019). Measuring argumentation skills through a game-enhanced scenario-based assessment.,(8), 1324–1344.
Stachl, C., Au, Q., Schoedel, R., Gosling, S. D., Harari, G. M., Buschek, D., ... Bühner, M. (2020). Predicting personality from patterns of behavior collected with smartphones.,(30), 17680–17687.
Tay, L., Woo, S. E., Hickman, L., & Saef, R. M. (2020). Psychometric and validity issues in machine learning approaches to personality assessment: A focus on social media text mining.,(5), 826–844.
van Nimwegen, C., van Oostendorp, H., Modderman, J., & Bas, M. (2011). A test case for GameDNA: Conceptualizing a serious game to measure personality traits.(pp. 217–222). IEEE.
Ventura, M., & Shute, V. (2013). The validity of a game-based assessment of persistence.,(6), 2568–2572.
Vogel, L. (2018). AI opens new frontier for suicide prevention.,(4), E119–E119.
von Davier, A. A., Deonovic, B., Yudelson, M., Polyak, S. T., & Woo, A. (2019, July). Computational psychometrics approach to holistic learning and assessment systems.,, 69
von Davier, A. A., & Halpin, P. F. (2013). Collaborative problem solving and the assessment of cognitive skills: Psychometric considerations.,(2), i–36.
Voosen, P. (2017). The AI detectives.,, 22–27.
Wang, J. Y., Zhang, L., Liu, T. L., Pan, W., Hu, B., & Zhu, T. S. (2019). Acoustic differences between healthy and depressedpeople: A cross-situation study.,(1), 300.
Wang, Q. X., Yang, H. X., & Yu, Y. H. (2018). Facial expression video analysis for depression detection in Chinese patients.,, 228–233.
Wen, W. H., Liu, G. Y., Mao, Z. H., Huang, W. J., Zhang, X., Hu, H., ... Jia, W. Y. (2018). Toward constructing a real-time social anxiety evaluation system: Exploring effective heart rate features.,(1), 100–110.
Williamson, J. R., Godoy, E., Cha, M., Schwarzentruber, A., Khorrami, P., Gwon, Y., ... Quatieri, T. F. (2016, October). Detecting depression using vocal, facial and semantic communication cues.(pp. 11–18).
Yu, H. B., Li, F., Wu, T., Li, R., Yao, L., Wang, C. Y., & Wu, X. (2018). Functional brain abnormalities in major depressive disorder using the Hilbert-Huang transform.,(6), 1556–1568.
Zhang, X. W., Pan, J., Shen, J., Din, Z. U., Li, J. L., Lu, D. W., ... Hu, B. (2020). Fusing of electroencephalogram and eye movement with group sparse canonical correlation analysis for anxiety detection.,, 1.
Zhao, N., Zhang, Z., Wang, Y. M., Wang, J. Y., Li, B. B., Zhu, T. S., & Xiang, Y. Y. (2019). See your mental state from your walk: Recognizing anxiety and depression through Kinect-recorded gait data.e,(5), e0216591.
Zhu, Z. Y., Zhen, Z. L., Wu, X., & Li, S. (2020).. IEEE/ACM transactions on computational biology and bioinformatics.
A new type of mental health assessment using artificial intelligence technique
JIANG Liming1, TIAN Xuetao2, REN Ping3, LUO Fang1
(1School of Psychology, Beijing Normal University, Beijing 100875, China)(2School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China)(3Collaborative Innovation Center of Assessment toward Basic Education Quality, Beijing Normal University, Beijing 100875, China)
The rapid development and application of artificial intelligence technology has promoted the intelligentization of mental health assessment. Being intelligent could solve the issues of traditional mental health assessment methods and decrease the rate of misdiagnosis and improve diagnosis efficiency, which is critical to the general investigation and early warning of mental health problems. Currently, an intelligent mental health assessment is in the initial stage of development. Related studies have explored the field mainly driven by data, in which researchers use online behavioral data and data from portable devices, aiming to achieve a higher prediction accuracy. However, the interpretability of assessment results is not yet ideal. In view of these problems, more emphasis should be laid on the knowledge and experience in the field of psychology, by which the research could be more pertinent, refined, reliable, and valid. These are essential directions for the further development and application of intelligent mental health assessment.
artificial intelligence, big data, mental health, psychological assessment
R395
2021-02-22
* 國(guó)家自然科學(xué)基金聯(lián)合基金項(xiàng)目(U1911201)。
駱?lè)? E-mail: luof@bnu.edu.cn