關(guān)鍵詞:多模態(tài);深度學(xué)習(xí);抑郁癥檢測(cè);卷積神經(jīng)網(wǎng)絡(luò);特征增強(qiáng);多模態(tài)融合
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A
0 引言(Introduction)
早期診斷抑郁癥在促進(jìn)治療效果方面起著至關(guān)重要的作用。但是目前抑郁癥的診斷依賴于主觀行為,例如患者的自我報(bào)告評(píng)估和臨床判斷癥狀嚴(yán)重程度,而這些因素容易受到環(huán)境因素的影響。
如何有效地進(jìn)行自動(dòng)多模態(tài)抑郁癥檢測(cè),以輔助醫(yī)生實(shí)現(xiàn)早期抑郁癥的診斷,已成為當(dāng)前一個(gè)既重要又具有挑戰(zhàn)性的研究問(wèn)題。因此,運(yùn)用機(jī)器學(xué)習(xí)等技術(shù)進(jìn)行抑郁癥自動(dòng)檢測(cè)[1]的研究受到廣大研究者的關(guān)注。然而,傳統(tǒng)的融合方法通常直接采用簡(jiǎn)單的級(jí)聯(lián)方式融合多模態(tài)特征,這種方式忽略了模態(tài)之間的交互性,無(wú)法充分提取出更全面的特征表示,從而影響了抑郁癥的檢測(cè)效果。
因此,本文探索了一種基于多模態(tài)特征增強(qiáng)網(wǎng)絡(luò)的抑郁癥檢測(cè)方法,該方法融合了音頻、視頻及rPPG信號(hào),其中rPPG模態(tài)作為一種附加模態(tài),增強(qiáng)了多模態(tài)抑郁癥檢測(cè)的效果,通過(guò)堆疊多個(gè)模態(tài)間和模態(tài)內(nèi)Transformer,并配合多頭自注意力機(jī)制,共同獲取輸入序列每個(gè)時(shí)間步的模態(tài)內(nèi)和模態(tài)間的信息交互,以達(dá)到多模態(tài)特征增強(qiáng)的目的,從而提升抑郁癥檢測(cè)性能。
1 相關(guān)研究(Related research)
目前,主流的抑郁癥檢測(cè)方法主要可以分為3類:基于視頻的檢測(cè)、基于音頻的檢測(cè)和基于多模態(tài)的檢測(cè)。
抑郁癥患者常常表現(xiàn)出面部表情的減少或呆滯,他們的面部表情可能缺乏生動(dòng)度和情感表達(dá)。研究者通過(guò)機(jī)器學(xué)習(xí)分析面部特征在輔助診斷抑郁癥方面取得了比較大的進(jìn)展[2]。例如,孫浩浩等[3]基于人臉圖像的全局和局部特征,構(gòu)建了一種融合通道層注意力機(jī)制的多支路卷積網(wǎng)絡(luò)模型。音頻作為傳達(dá)情感的媒介,抑郁癥患者和非抑郁癥患者之間的言語(yǔ)模式存在明顯的差異[4]。MA等[5]提出了DepAudioNet深度模型,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短期記憶(LSTM),用于編碼聲道中的抑郁癥相關(guān)特征,從而提供更全面的音頻表示,取得了較好的檢測(cè)效果。這些深度學(xué)習(xí)架構(gòu)在提取有意義的音頻或視頻特征以及提高抑郁癥檢測(cè)的效果方面發(fā)揮著重要作用。然而,僅依賴音頻或者視頻特征可能會(huì)丟失測(cè)試對(duì)象的其他動(dòng)態(tài)信息,從而限制了抑郁癥檢測(cè)的性能。
除了視頻和音頻模態(tài),rPPG信號(hào)也可用于抑郁癥檢測(cè)。rPPG信號(hào)使用非接觸式光學(xué)技術(shù)測(cè)量和分析心率和血流量等生理信息。一些研究通過(guò)提取rPPG信號(hào)并計(jì)算統(tǒng)計(jì)特征和心率變異性(HRV)特征,探討了抑郁癥與HRV 之間的關(guān)系[6-7]。這些特征隨后被輸入基于隨機(jī)森林和多層感知機(jī)(Multilayer Perceptron,MLP)的機(jī)器學(xué)習(xí)回歸器中。這些發(fā)現(xiàn)證明了基于rPPG的抑郁癥檢測(cè)方法的潛力。然而,很少有研究關(guān)注和探索用于抑郁癥檢測(cè)的rPPG信號(hào)。
除了上述單模態(tài)方法,通過(guò)多模態(tài)信息融合方法整合多種模態(tài)在提高抑郁癥檢測(cè)性能方面也顯示出不錯(cuò)的效果。HE等[8]通過(guò)特征層融合將提取的音頻和視頻特征串聯(lián)成一個(gè)高維特征向量,并使用支持向量回歸(SVR)進(jìn)行抑郁癥預(yù)測(cè)。然而,這種方法容易產(chǎn)生高維特征表示,從而導(dǎo)致維度災(zāi)難。YANG等[9]將獲得的音頻視頻結(jié)果和文本結(jié)果進(jìn)行決策融合,以獲得最終的抑郁癥檢測(cè)結(jié)果。但是,決策層融合單獨(dú)考慮不同模態(tài),無(wú)法捕捉它們之間的內(nèi)在關(guān)系。更多的研究者通過(guò)模型層融合考慮模態(tài)之間的關(guān)系。NIU等[10]采用多模態(tài)注意力特征融合方法整合音頻模態(tài)和視頻模態(tài)。谷明軒等[11]結(jié)合了腦電信號(hào)和音頻特征提出了基于全連接神經(jīng)網(wǎng)絡(luò)的多模態(tài)特征融合模型。但是,這些模型層融合方法在模態(tài)之間的交互性方面仍存在不足。近年來(lái),Transformer[12]技術(shù)引起了廣泛關(guān)注,Transformer模型中的編碼器和解碼器組件利用多頭自注意機(jī)制捕捉輸入序列數(shù)據(jù)的長(zhǎng)距離上下文信息。ILIAS等[13]提出了一種將語(yǔ)言之外的信息融入基于Transformer的模型,用于社交媒體中抑郁癥和壓力檢測(cè),這一方法展現(xiàn)出良好的應(yīng)用前景。
受到Transformer技術(shù)的優(yōu)勢(shì)和rPPG信號(hào)在抑郁癥檢測(cè)中潛力的啟發(fā),本研究提出一種基于多模態(tài)特征增強(qiáng)網(wǎng)絡(luò)的抑郁癥檢測(cè)方法。首先,針對(duì)視頻、音頻和rPPG模態(tài)進(jìn)行多模態(tài)特征提取;其次,通過(guò)基于Transformer的特征增強(qiáng)模塊和多頭自注意力機(jī)制,實(shí)現(xiàn)不同模態(tài)之間的交互;最后,利用多層感知機(jī)實(shí)現(xiàn)最終的抑郁癥檢測(cè)任務(wù)。
2 基于多模態(tài)特征增強(qiáng)網(wǎng)絡(luò)的抑郁癥檢測(cè)方法(Depression detection method based onmultimodal feature enhancement network)
基于多模態(tài)特征增強(qiáng)網(wǎng)絡(luò)的抑郁癥檢測(cè)方法的整體結(jié)構(gòu)如圖1所示,該結(jié)構(gòu)主要包括多模態(tài)特征提取、多模態(tài)特征增強(qiáng)和回歸預(yù)測(cè)3個(gè)部分。(1)多模態(tài)特征提?。簩?duì)于視頻模態(tài)和音頻模態(tài),本文采用深度CNN[14-15]提取高級(jí)視頻和音頻特征。對(duì)于rPPG模態(tài),采用短時(shí)端到端rPPG估計(jì)框架[16]提取rPPG信號(hào)值。(2)多模態(tài)特征增強(qiáng):模態(tài)之間的Transformer通過(guò)與其他模態(tài)之間進(jìn)行信息交互,用于增強(qiáng)目標(biāo)模態(tài)的特征。模態(tài)內(nèi)Transformer聚焦于目標(biāo)模態(tài),對(duì)目標(biāo)模態(tài)內(nèi)部特征進(jìn)行交互,關(guān)注到目標(biāo)模態(tài)中最相關(guān)和有價(jià)值的信息。多頭自注意力機(jī)制提取更豐富、更有用的特征,平均池化聚合目標(biāo)模態(tài)特征。(3)回歸預(yù)測(cè):通過(guò)級(jí)聯(lián)和自注意力機(jī)制處理增強(qiáng)后的特征并輸入多層感知機(jī)網(wǎng)絡(luò)進(jìn)行最終的抑郁癥預(yù)測(cè)。
2.1 多模態(tài)特征提取
對(duì)于視頻模態(tài),首先從每個(gè)視頻樣本中提取100個(gè)連續(xù)的幀,使用多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN)[17]進(jìn)行人臉檢測(cè)任務(wù),其次使用EmoFAN[14]預(yù)訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型提取每個(gè)視頻幀的面部特征。
對(duì)于音頻模態(tài),本文使用預(yù)訓(xùn)練的VGGish[15]深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行特征提取。VGGish模型在一百萬(wàn)個(gè)音頻片段上進(jìn)行了預(yù)訓(xùn)練,并為每個(gè)譜圖段生成128維特征。
對(duì)于rPPG 模態(tài),本文使用短時(shí)端到端rPPG 估計(jì)框架[16],該框架能夠從視頻流中檢測(cè)到由血容量脈搏引起的微小顏色變化,進(jìn)而實(shí)現(xiàn)rPPG的有效估計(jì)。具體來(lái)說(shuō),在人臉檢測(cè)之后,首先使用類似Unet[18]的深度學(xué)習(xí)模型選擇和跟蹤感興趣區(qū)域并進(jìn)行皮膚和非皮膚像素的語(yǔ)義分割訓(xùn)練;其次計(jì)算皮膚分割像素的空間RGB通道均值,并將其投影到垂直于膚色的平面上,通過(guò)調(diào)整投影信號(hào)的alpha值獲得rPPG信號(hào)值。
2.2 多模態(tài)特征增強(qiáng)網(wǎng)絡(luò)
本節(jié)將詳細(xì)介紹多模態(tài)特征增強(qiáng)網(wǎng)絡(luò)的相關(guān)模塊,該網(wǎng)絡(luò)由多個(gè)模態(tài)間Transformer(圖2)、模態(tài)內(nèi)Transformer(圖3)和多頭自注意力機(jī)制組成,旨在共同捕捉輸入序列每個(gè)時(shí)間步的模態(tài)內(nèi)和模態(tài)間的動(dòng)態(tài)關(guān)系,從而學(xué)習(xí)跨模態(tài)的漸進(jìn)綜合特征。
3.3 實(shí)驗(yàn)細(xì)節(jié)
對(duì)于視頻模態(tài),本文從每個(gè)視頻中選擇了100個(gè)連續(xù)幀,并使用EmoFAN[14]預(yù)訓(xùn)練模型提取128維的面部特征,維度為(100,128)。對(duì)于音頻模態(tài),本文使用VGGish[15]預(yù)訓(xùn)練模型提取128維的音頻特征,維度為(num _segments,128),其中num_segments 是分割后的頻譜圖段數(shù)。對(duì)于rPPG模態(tài),獲得了維度為(num_seconds,10)的特征,其中num_seconds 是原始視頻樣本的持續(xù)時(shí)間。對(duì)于音頻和rPPG模態(tài),本文采用自適應(yīng)平均池化[20]將提取的特征轉(zhuǎn)換為(100,128)的固定特征維度供后續(xù)任務(wù)使用。使用的自適應(yīng)平均池化[20]可以將具有任意空間維度的特征圖轉(zhuǎn)換為固定大小的表示。
所有深度學(xué)習(xí)方法都在PyTorch框架上進(jìn)行,并使用NVIDIA RTX 3090 GPU進(jìn)行計(jì)算。使用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰減設(shè)置為0.000 05。采用批量大小為4,并將最大訓(xùn)練輪數(shù)設(shè)置為1 000。
3.4 實(shí)驗(yàn)對(duì)比結(jié)果和分析
3.4.1 AVEC2013數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
本研究在AVEC2013數(shù)據(jù)集上對(duì)比了單模態(tài)和多模態(tài)的結(jié)果。針對(duì)單模態(tài)情況,本文在模型中去除了模態(tài)間Transformer模塊。如表1所示,在AVEC2013數(shù)據(jù)集上,視頻模態(tài)的表現(xiàn)優(yōu)于音頻模態(tài)和rPPG模態(tài)。視頻模態(tài)的MAE為8.67,而音頻模態(tài)和rPPG模態(tài)分別為9.03和10.01。這一優(yōu)勢(shì)可能源于視頻中的面部表情為抑郁癥檢測(cè)提供了更多的線索。對(duì)于多模態(tài)融合方法,綜合考慮3個(gè)模態(tài)的結(jié)果優(yōu)于僅考慮兩個(gè)模態(tài)的結(jié)果,這表明3個(gè)模態(tài)在一定程度上相互補(bǔ)充,為抑郁癥檢測(cè)提供了更全面的線索。同時(shí),驗(yàn)證了rPPG信號(hào)在多模態(tài)抑郁癥檢測(cè)中的有效性,為抑郁預(yù)測(cè)提供了額外的輔助信息。綜上所述,將3個(gè)模態(tài)進(jìn)行融合能夠達(dá)到最佳的性能,驗(yàn)證了本文提出模型的有效性。
3.4.2 消融實(shí)驗(yàn)
為了評(píng)估模型中每個(gè)多模態(tài)特征增強(qiáng)模塊的有效性,在AVEC2013數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。本文進(jìn)行了不同模塊的組合實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。其中,模態(tài)間、模態(tài)內(nèi)和多頭自注意力分別表示模型多模態(tài)特征增強(qiáng)部分僅使用模態(tài)間Transformer、模態(tài)內(nèi)Transformer或多頭自注意力機(jī)制,“+”表示使用兩個(gè)模塊的組合。
表2中的結(jié)果顯示:僅使用模態(tài)間Transformer的性能優(yōu)于僅使用模態(tài)內(nèi)Transformer,但低于這兩個(gè)模塊的組合使用。這表明,通過(guò)模態(tài)間Transformer中的跨模態(tài)注意力機(jī)制,能實(shí)現(xiàn)模態(tài)之間更有效地交互,從而對(duì)目標(biāo)模態(tài)實(shí)現(xiàn)特征增強(qiáng),同時(shí),模態(tài)內(nèi)Transformer也能關(guān)注到目標(biāo)模態(tài)在時(shí)間上的變化信息。因此,將這兩個(gè)模塊結(jié)合使用能夠獲得更好的效果。此外,單獨(dú)使用多頭自注意力機(jī)制模型效果并不理想,然而當(dāng)與模態(tài)間Transformer和模態(tài)內(nèi)Transformer模塊結(jié)合使用時(shí),達(dá)到了本模型的最優(yōu)效果。這表明,多頭自注意力機(jī)制在一定程度上能夠?qū)W習(xí)到模態(tài)交互后更全面的特征,從而實(shí)現(xiàn)整體的特征增強(qiáng)。
3.4.3 不同模型對(duì)比結(jié)果
為了更全面地評(píng)估本文提出模型的有效性,在AVEC2013數(shù)據(jù)集上將其與目前較先進(jìn)的方法進(jìn)行了對(duì)比,對(duì)比結(jié)果如表3所示。根據(jù)所使用的模態(tài)數(shù)量,這些方法可以分為3個(gè)主要類別:基于音頻的抑郁癥檢測(cè)方法、基于視頻的抑郁癥檢測(cè)方法以及基于音頻和視頻的雙模態(tài)抑郁癥檢測(cè)方法。以下是對(duì)一些具有代表性檢測(cè)方法的簡(jiǎn)要介紹,更多的信息可參考表3中列出的相關(guān)文獻(xiàn)。
基于音頻的抑郁癥檢測(cè)方法:VALSTAR 等[19]提取了LLD聲學(xué)特征,并采用支持向量回歸進(jìn)行抑郁癥檢測(cè)。HE等[21]將深度音頻特征與深度CNN和手工紋理特征相結(jié)合后,通過(guò)全連接層進(jìn)行抑郁得分預(yù)測(cè)。NIU等[22]提取短時(shí)MFCC段的分段級(jí)特征并采用支持向量回歸預(yù)測(cè)個(gè)體的抑郁水平。ZHAO等[23]提出了一種混合特征提取網(wǎng)絡(luò),將DCNN與自注意力網(wǎng)絡(luò)集成,用于從語(yǔ)音信號(hào)中檢測(cè)抑郁嚴(yán)重程度。
基于視頻的抑郁癥檢測(cè)方法:ZHU 等[24]提取了LPQTOP特征,并通過(guò)稀疏編碼進(jìn)行學(xué)習(xí),以進(jìn)一步提高抑郁癥檢測(cè)的準(zhǔn)確性。JAZAERY 等[25]使用3D 卷積神經(jīng)網(wǎng)絡(luò)(3DCNN)捕捉面部區(qū)域在兩個(gè)不同尺度上的時(shí)空特征,并在決策層上進(jìn)行融合。HE等[21]提出了一種名為DepNet的集成框架,用于捕捉視頻中面部表情的時(shí)間動(dòng)態(tài)特征,以進(jìn)行抑郁癥分析。
基于音頻和視頻的雙模態(tài)抑郁癥檢測(cè)方法:MENG等[26]使用LLD聲學(xué)特征對(duì)音頻特征進(jìn)行編碼,并使用運(yùn)動(dòng)歷史直方圖捕捉面部區(qū)域內(nèi)每個(gè)像素的運(yùn)動(dòng),最終在決策層上融合音頻和視頻特征后,進(jìn)行最終的抑郁癥預(yù)測(cè)。NIU等[10]提出了一種時(shí)空注意網(wǎng)絡(luò)和多模態(tài)注意特征融合策略,用于通過(guò)音頻和視頻預(yù)測(cè)個(gè)體的抑郁水平。
4 結(jié)論(Conclusion)
針對(duì)自動(dòng)抑郁癥檢測(cè)任務(wù)中傳統(tǒng)的方法存在的問(wèn)題,例如不能充分利用不同模態(tài)信息、未充分考慮多模態(tài)融合過(guò)程中模態(tài)間的交互等,本文提出了一種基于多模態(tài)特征增強(qiáng)網(wǎng)絡(luò)的抑郁癥檢測(cè)方法。該方法通過(guò)與不同模態(tài)之間的交互,實(shí)現(xiàn)目標(biāo)模態(tài)的特征增強(qiáng),并融合了多種模態(tài),將rPPG模態(tài)與視頻模態(tài)和音頻模態(tài)結(jié)合應(yīng)用于多模態(tài)抑郁癥檢測(cè)任務(wù)。本文提出的方法利用模態(tài)間Transformer、模態(tài)內(nèi)Transformer和多頭自注意力機(jī)制逐步學(xué)習(xí)視頻、音頻和rPPG等不同模態(tài)的綜合特征。在AVEC2013公共數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證明,本文提出的方法在多模態(tài)抑郁癥檢測(cè)任務(wù)上展現(xiàn)出良好的性能。
本文提出的模型能更好地挖掘不同模態(tài)中的抑郁線索,為多模態(tài)融合提供了新思路。在未來(lái)工作中,我們將探索跨模態(tài)對(duì)齊的先進(jìn)方法,以期進(jìn)一步提高多模態(tài)融合效果。此外,研究發(fā)現(xiàn),rPPG信號(hào)的性能并不優(yōu)于視頻模態(tài)和音頻模態(tài),這可能是由于提取rPPG信號(hào)值的方法不夠精確。因此,使用更先進(jìn)的方法提取更具表達(dá)力的生理信號(hào),并將其應(yīng)用于多模態(tài)融合具有重要的研究意義。
作者簡(jiǎn)介:
趙小明(1964-),男,碩士,教授。研究領(lǐng)域:模式識(shí)別,情感計(jì)算。
范慧婷(1998-),女,碩士生。研究領(lǐng)域:人工智能。
張石清(1980-),男,博士,教授。研究領(lǐng)域:模式識(shí)別,情感計(jì)算。