亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于多模態(tài)特征增強(qiáng)網(wǎng)絡(luò)的抑郁癥檢測(cè)方法

2024-10-10 00:00:00趙小明范慧婷張石清

軟件工程 2024年10期

關(guān)鍵詞：多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

關(guān)鍵詞：多模態(tài);深度學(xué)習(xí);抑郁癥檢測(cè);卷積神經(jīng)網(wǎng)絡(luò);特征增強(qiáng);多模態(tài)融合

中圖分類號(hào)：TP391.41 文獻(xiàn)標(biāo)志碼：A

0 引言（Introduction）

早期診斷抑郁癥在促進(jìn)治療效果方面起著至關(guān)重要的作用。但是目前抑郁癥的診斷依賴于主觀行為，例如患者的自我報(bào)告評(píng)估和臨床判斷癥狀嚴(yán)重程度，而這些因素容易受到環(huán)境因素的影響。

如何有效地進(jìn)行自動(dòng)多模態(tài)抑郁癥檢測(cè)，以輔助醫(yī)生實(shí)現(xiàn)早期抑郁癥的診斷，已成為當(dāng)前一個(gè)既重要又具有挑戰(zhàn)性的研究問(wèn)題。因此，運(yùn)用機(jī)器學(xué)習(xí)等技術(shù)進(jìn)行抑郁癥自動(dòng)檢測(cè)[1]的研究受到廣大研究者的關(guān)注。然而，傳統(tǒng)的融合方法通常直接采用簡(jiǎn)單的級(jí)聯(lián)方式融合多模態(tài)特征，這種方式忽略了模態(tài)之間的交互性，無(wú)法充分提取出更全面的特征表示，從而影響了抑郁癥的檢測(cè)效果。

因此，本文探索了一種基于多模態(tài)特征增強(qiáng)網(wǎng)絡(luò)的抑郁癥檢測(cè)方法，該方法融合了音頻、視頻及rPPG信號(hào)，其中rPPG模態(tài)作為一種附加模態(tài)，增強(qiáng)了多模態(tài)抑郁癥檢測(cè)的效果，通過(guò)堆疊多個(gè)模態(tài)間和模態(tài)內(nèi)Transformer，并配合多頭自注意力機(jī)制，共同獲取輸入序列每個(gè)時(shí)間步的模態(tài)內(nèi)和模態(tài)間的信息交互，以達(dá)到多模態(tài)特征增強(qiáng)的目的，從而提升抑郁癥檢測(cè)性能。

1 相關(guān)研究（Related research）

目前，主流的抑郁癥檢測(cè)方法主要可以分為3類：基于視頻的檢測(cè)、基于音頻的檢測(cè)和基于多模態(tài)的檢測(cè)。

抑郁癥患者常常表現(xiàn)出面部表情的減少或呆滯，他們的面部表情可能缺乏生動(dòng)度和情感表達(dá)。研究者通過(guò)機(jī)器學(xué)習(xí)分析面部特征在輔助診斷抑郁癥方面取得了比較大的進(jìn)展[2]。例如，孫浩浩等[3]基于人臉圖像的全局和局部特征，構(gòu)建了一種融合通道層注意力機(jī)制的多支路卷積網(wǎng)絡(luò)模型。音頻作為傳達(dá)情感的媒介，抑郁癥患者和非抑郁癥患者之間的言語(yǔ)模式存在明顯的差異[4]。MA等[5]提出了DepAudioNet深度模型，結(jié)合卷積神經(jīng)網(wǎng)絡(luò)（CNN）和長(zhǎng)短期記憶（LSTM），用于編碼聲道中的抑郁癥相關(guān)特征，從而提供更全面的音頻表示，取得了較好的檢測(cè)效果。這些深度學(xué)習(xí)架構(gòu)在提取有意義的音頻或視頻特征以及提高抑郁癥檢測(cè)的效果方面發(fā)揮著重要作用。然而，僅依賴音頻或者視頻特征可能會(huì)丟失測(cè)試對(duì)象的其他動(dòng)態(tài)信息，從而限制了抑郁癥檢測(cè)的性能。

除了視頻和音頻模態(tài)，rPPG信號(hào)也可用于抑郁癥檢測(cè)。rPPG信號(hào)使用非接觸式光學(xué)技術(shù)測(cè)量和分析心率和血流量等生理信息。一些研究通過(guò)提取rPPG信號(hào)并計(jì)算統(tǒng)計(jì)特征和心率變異性（HRV）特征，探討了抑郁癥與HRV 之間的關(guān)系[6-7]。這些特征隨后被輸入基于隨機(jī)森林和多層感知機(jī)（Multilayer Perceptron，MLP）的機(jī)器學(xué)習(xí)回歸器中。這些發(fā)現(xiàn)證明了基于rPPG的抑郁癥檢測(cè)方法的潛力。然而，很少有研究關(guān)注和探索用于抑郁癥檢測(cè)的rPPG信號(hào)。

除了上述單模態(tài)方法，通過(guò)多模態(tài)信息融合方法整合多種模態(tài)在提高抑郁癥檢測(cè)性能方面也顯示出不錯(cuò)的效果。HE等[8]通過(guò)特征層融合將提取的音頻和視頻特征串聯(lián)成一個(gè)高維特征向量，并使用支持向量回歸（SVR）進(jìn)行抑郁癥預(yù)測(cè)。然而，這種方法容易產(chǎn)生高維特征表示，從而導(dǎo)致維度災(zāi)難。YANG等[9]將獲得的音頻視頻結(jié)果和文本結(jié)果進(jìn)行決策融合，以獲得最終的抑郁癥檢測(cè)結(jié)果。但是，決策層融合單獨(dú)考慮不同模態(tài)，無(wú)法捕捉它們之間的內(nèi)在關(guān)系。更多的研究者通過(guò)模型層融合考慮模態(tài)之間的關(guān)系。NIU等[10]采用多模態(tài)注意力特征融合方法整合音頻模態(tài)和視頻模態(tài)。谷明軒等[11]結(jié)合了腦電信號(hào)和音頻特征提出了基于全連接神經(jīng)網(wǎng)絡(luò)的多模態(tài)特征融合模型。但是，這些模型層融合方法在模態(tài)之間的交互性方面仍存在不足。近年來(lái)，Transformer[12]技術(shù)引起了廣泛關(guān)注，Transformer模型中的編碼器和解碼器組件利用多頭自注意機(jī)制捕捉輸入序列數(shù)據(jù)的長(zhǎng)距離上下文信息。ILIAS等[13]提出了一種將語(yǔ)言之外的信息融入基于Transformer的模型，用于社交媒體中抑郁癥和壓力檢測(cè)，這一方法展現(xiàn)出良好的應(yīng)用前景。

受到Transformer技術(shù)的優(yōu)勢(shì)和rPPG信號(hào)在抑郁癥檢測(cè)中潛力的啟發(fā)，本研究提出一種基于多模態(tài)特征增強(qiáng)網(wǎng)絡(luò)的抑郁癥檢測(cè)方法。首先，針對(duì)視頻、音頻和rPPG模態(tài)進(jìn)行多模態(tài)特征提取;其次，通過(guò)基于Transformer的特征增強(qiáng)模塊和多頭自注意力機(jī)制，實(shí)現(xiàn)不同模態(tài)之間的交互;最后，利用多層感知機(jī)實(shí)現(xiàn)最終的抑郁癥檢測(cè)任務(wù)。

2 基于多模態(tài)特征增強(qiáng)網(wǎng)絡(luò)的抑郁癥檢測(cè)方法（Depression detection method based onmultimodal feature enhancement network）

基于多模態(tài)特征增強(qiáng)網(wǎng)絡(luò)的抑郁癥檢測(cè)方法的整體結(jié)構(gòu)如圖1所示，該結(jié)構(gòu)主要包括多模態(tài)特征提取、多模態(tài)特征增強(qiáng)和回歸預(yù)測(cè)3個(gè)部分。（1）多模態(tài)特征提?。簩?duì)于視頻模態(tài)和音頻模態(tài)，本文采用深度CNN[14-15]提取高級(jí)視頻和音頻特征。對(duì)于rPPG模態(tài)，采用短時(shí)端到端rPPG估計(jì)框架[16]提取rPPG信號(hào)值。（2）多模態(tài)特征增強(qiáng)：模態(tài)之間的Transformer通過(guò)與其他模態(tài)之間進(jìn)行信息交互，用于增強(qiáng)目標(biāo)模態(tài)的特征。模態(tài)內(nèi)Transformer聚焦于目標(biāo)模態(tài)，對(duì)目標(biāo)模態(tài)內(nèi)部特征進(jìn)行交互，關(guān)注到目標(biāo)模態(tài)中最相關(guān)和有價(jià)值的信息。多頭自注意力機(jī)制提取更豐富、更有用的特征，平均池化聚合目標(biāo)模態(tài)特征。（3）回歸預(yù)測(cè)：通過(guò)級(jí)聯(lián)和自注意力機(jī)制處理增強(qiáng)后的特征并輸入多層感知機(jī)網(wǎng)絡(luò)進(jìn)行最終的抑郁癥預(yù)測(cè)。

2.1 多模態(tài)特征提取

對(duì)于視頻模態(tài)，首先從每個(gè)視頻樣本中提取100個(gè)連續(xù)的幀，使用多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)（MTCNN）[17]進(jìn)行人臉檢測(cè)任務(wù)，其次使用EmoFAN[14]預(yù)訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型提取每個(gè)視頻幀的面部特征。

對(duì)于音頻模態(tài)，本文使用預(yù)訓(xùn)練的VGGish[15]深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行特征提取。VGGish模型在一百萬(wàn)個(gè)音頻片段上進(jìn)行了預(yù)訓(xùn)練，并為每個(gè)譜圖段生成128維特征。

對(duì)于rPPG 模態(tài)，本文使用短時(shí)端到端rPPG 估計(jì)框架[16]，該框架能夠從視頻流中檢測(cè)到由血容量脈搏引起的微小顏色變化，進(jìn)而實(shí)現(xiàn)rPPG的有效估計(jì)。具體來(lái)說(shuō)，在人臉檢測(cè)之后，首先使用類似Unet[18]的深度學(xué)習(xí)模型選擇和跟蹤感興趣區(qū)域并進(jìn)行皮膚和非皮膚像素的語(yǔ)義分割訓(xùn)練;其次計(jì)算皮膚分割像素的空間RGB通道均值，并將其投影到垂直于膚色的平面上，通過(guò)調(diào)整投影信號(hào)的alpha值獲得rPPG信號(hào)值。

2.2 多模態(tài)特征增強(qiáng)網(wǎng)絡(luò)

本節(jié)將詳細(xì)介紹多模態(tài)特征增強(qiáng)網(wǎng)絡(luò)的相關(guān)模塊，該網(wǎng)絡(luò)由多個(gè)模態(tài)間Transformer（圖2）、模態(tài)內(nèi)Transformer（圖3）和多頭自注意力機(jī)制組成，旨在共同捕捉輸入序列每個(gè)時(shí)間步的模態(tài)內(nèi)和模態(tài)間的動(dòng)態(tài)關(guān)系，從而學(xué)習(xí)跨模態(tài)的漸進(jìn)綜合特征。

3.3 實(shí)驗(yàn)細(xì)節(jié)

對(duì)于視頻模態(tài)，本文從每個(gè)視頻中選擇了100個(gè)連續(xù)幀，并使用EmoFAN[14]預(yù)訓(xùn)練模型提取128維的面部特征，維度為（100，128）。對(duì)于音頻模態(tài)，本文使用VGGish[15]預(yù)訓(xùn)練模型提取128維的音頻特征，維度為（num _segments，128），其中num_segments 是分割后的頻譜圖段數(shù)。對(duì)于rPPG模態(tài)，獲得了維度為（num_seconds，10）的特征，其中num_seconds 是原始視頻樣本的持續(xù)時(shí)間。對(duì)于音頻和rPPG模態(tài)，本文采用自適應(yīng)平均池化[20]將提取的特征轉(zhuǎn)換為（100，128）的固定特征維度供后續(xù)任務(wù)使用。使用的自適應(yīng)平均池化[20]可以將具有任意空間維度的特征圖轉(zhuǎn)換為固定大小的表示。

所有深度學(xué)習(xí)方法都在PyTorch框架上進(jìn)行，并使用NVIDIA RTX 3090 GPU進(jìn)行計(jì)算。使用Adam優(yōu)化器，初始學(xué)習(xí)率設(shè)置為0.001，權(quán)重衰減設(shè)置為0.000 05。采用批量大小為4，并將最大訓(xùn)練輪數(shù)設(shè)置為1 000。

3.4 實(shí)驗(yàn)對(duì)比結(jié)果和分析

3.4.1 AVEC2013數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

本研究在AVEC2013數(shù)據(jù)集上對(duì)比了單模態(tài)和多模態(tài)的結(jié)果。針對(duì)單模態(tài)情況，本文在模型中去除了模態(tài)間Transformer模塊。如表1所示，在AVEC2013數(shù)據(jù)集上，視頻模態(tài)的表現(xiàn)優(yōu)于音頻模態(tài)和rPPG模態(tài)。視頻模態(tài)的MAE為8.67，而音頻模態(tài)和rPPG模態(tài)分別為9.03和10.01。這一優(yōu)勢(shì)可能源于視頻中的面部表情為抑郁癥檢測(cè)提供了更多的線索。對(duì)于多模態(tài)融合方法，綜合考慮3個(gè)模態(tài)的結(jié)果優(yōu)于僅考慮兩個(gè)模態(tài)的結(jié)果，這表明3個(gè)模態(tài)在一定程度上相互補(bǔ)充，為抑郁癥檢測(cè)提供了更全面的線索。同時(shí)，驗(yàn)證了rPPG信號(hào)在多模態(tài)抑郁癥檢測(cè)中的有效性，為抑郁預(yù)測(cè)提供了額外的輔助信息。綜上所述，將3個(gè)模態(tài)進(jìn)行融合能夠達(dá)到最佳的性能，驗(yàn)證了本文提出模型的有效性。

3.4.2 消融實(shí)驗(yàn)

為了評(píng)估模型中每個(gè)多模態(tài)特征增強(qiáng)模塊的有效性，在AVEC2013數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。本文進(jìn)行了不同模塊的組合實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表2所示。其中，模態(tài)間、模態(tài)內(nèi)和多頭自注意力分別表示模型多模態(tài)特征增強(qiáng)部分僅使用模態(tài)間Transformer、模態(tài)內(nèi)Transformer或多頭自注意力機(jī)制，“+”表示使用兩個(gè)模塊的組合。

表2中的結(jié)果顯示：僅使用模態(tài)間Transformer的性能優(yōu)于僅使用模態(tài)內(nèi)Transformer，但低于這兩個(gè)模塊的組合使用。這表明，通過(guò)模態(tài)間Transformer中的跨模態(tài)注意力機(jī)制，能實(shí)現(xiàn)模態(tài)之間更有效地交互，從而對(duì)目標(biāo)模態(tài)實(shí)現(xiàn)特征增強(qiáng)，同時(shí)，模態(tài)內(nèi)Transformer也能關(guān)注到目標(biāo)模態(tài)在時(shí)間上的變化信息。因此，將這兩個(gè)模塊結(jié)合使用能夠獲得更好的效果。此外，單獨(dú)使用多頭自注意力機(jī)制模型效果并不理想，然而當(dāng)與模態(tài)間Transformer和模態(tài)內(nèi)Transformer模塊結(jié)合使用時(shí)，達(dá)到了本模型的最優(yōu)效果。這表明，多頭自注意力機(jī)制在一定程度上能夠?qū)W習(xí)到模態(tài)交互后更全面的特征，從而實(shí)現(xiàn)整體的特征增強(qiáng)。

3.4.3 不同模型對(duì)比結(jié)果

為了更全面地評(píng)估本文提出模型的有效性，在AVEC2013數(shù)據(jù)集上將其與目前較先進(jìn)的方法進(jìn)行了對(duì)比，對(duì)比結(jié)果如表3所示。根據(jù)所使用的模態(tài)數(shù)量，這些方法可以分為3個(gè)主要類別：基于音頻的抑郁癥檢測(cè)方法、基于視頻的抑郁癥檢測(cè)方法以及基于音頻和視頻的雙模態(tài)抑郁癥檢測(cè)方法。以下是對(duì)一些具有代表性檢測(cè)方法的簡(jiǎn)要介紹，更多的信息可參考表3中列出的相關(guān)文獻(xiàn)。

基于音頻的抑郁癥檢測(cè)方法：VALSTAR 等[19]提取了LLD聲學(xué)特征，并采用支持向量回歸進(jìn)行抑郁癥檢測(cè)。HE等[21]將深度音頻特征與深度CNN和手工紋理特征相結(jié)合后，通過(guò)全連接層進(jìn)行抑郁得分預(yù)測(cè)。NIU等[22]提取短時(shí)MFCC段的分段級(jí)特征并采用支持向量回歸預(yù)測(cè)個(gè)體的抑郁水平。ZHAO等[23]提出了一種混合特征提取網(wǎng)絡(luò)，將DCNN與自注意力網(wǎng)絡(luò)集成，用于從語(yǔ)音信號(hào)中檢測(cè)抑郁嚴(yán)重程度。

基于視頻的抑郁癥檢測(cè)方法：ZHU 等[24]提取了LPQTOP特征，并通過(guò)稀疏編碼進(jìn)行學(xué)習(xí)，以進(jìn)一步提高抑郁癥檢測(cè)的準(zhǔn)確性。JAZAERY 等[25]使用3D 卷積神經(jīng)網(wǎng)絡(luò)（3DCNN）捕捉面部區(qū)域在兩個(gè)不同尺度上的時(shí)空特征，并在決策層上進(jìn)行融合。HE等[21]提出了一種名為DepNet的集成框架，用于捕捉視頻中面部表情的時(shí)間動(dòng)態(tài)特征，以進(jìn)行抑郁癥分析。

基于音頻和視頻的雙模態(tài)抑郁癥檢測(cè)方法：MENG等[26]使用LLD聲學(xué)特征對(duì)音頻特征進(jìn)行編碼，并使用運(yùn)動(dòng)歷史直方圖捕捉面部區(qū)域內(nèi)每個(gè)像素的運(yùn)動(dòng)，最終在決策層上融合音頻和視頻特征后，進(jìn)行最終的抑郁癥預(yù)測(cè)。NIU等[10]提出了一種時(shí)空注意網(wǎng)絡(luò)和多模態(tài)注意特征融合策略，用于通過(guò)音頻和視頻預(yù)測(cè)個(gè)體的抑郁水平。

4 結(jié)論（Conclusion）

針對(duì)自動(dòng)抑郁癥檢測(cè)任務(wù)中傳統(tǒng)的方法存在的問(wèn)題，例如不能充分利用不同模態(tài)信息、未充分考慮多模態(tài)融合過(guò)程中模態(tài)間的交互等，本文提出了一種基于多模態(tài)特征增強(qiáng)網(wǎng)絡(luò)的抑郁癥檢測(cè)方法。該方法通過(guò)與不同模態(tài)之間的交互，實(shí)現(xiàn)目標(biāo)模態(tài)的特征增強(qiáng)，并融合了多種模態(tài)，將rPPG模態(tài)與視頻模態(tài)和音頻模態(tài)結(jié)合應(yīng)用于多模態(tài)抑郁癥檢測(cè)任務(wù)。本文提出的方法利用模態(tài)間Transformer、模態(tài)內(nèi)Transformer和多頭自注意力機(jī)制逐步學(xué)習(xí)視頻、音頻和rPPG等不同模態(tài)的綜合特征。在AVEC2013公共數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證明，本文提出的方法在多模態(tài)抑郁癥檢測(cè)任務(wù)上展現(xiàn)出良好的性能。

本文提出的模型能更好地挖掘不同模態(tài)中的抑郁線索，為多模態(tài)融合提供了新思路。在未來(lái)工作中，我們將探索跨模態(tài)對(duì)齊的先進(jìn)方法，以期進(jìn)一步提高多模態(tài)融合效果。此外，研究發(fā)現(xiàn)，rPPG信號(hào)的性能并不優(yōu)于視頻模態(tài)和音頻模態(tài)，這可能是由于提取rPPG信號(hào)值的方法不夠精確。因此，使用更先進(jìn)的方法提取更具表達(dá)力的生理信號(hào)，并將其應(yīng)用于多模態(tài)融合具有重要的研究意義。

作者簡(jiǎn)介：

趙小明（1964-），男，碩士，教授。研究領(lǐng)域：模式識(shí)別，情感計(jì)算。

范慧婷（1998-），女，碩士生。研究領(lǐng)域：人工智能。

張石清（1980-），男，博士，教授。研究領(lǐng)域：模式識(shí)別，情感計(jì)算。