楊鑫城,呂孝梅,展恩德,劉慶海
(青島理工大學(xué)機(jī)械與電子工程系,山東臨沂 276000)
抑郁癥是一種常見的精神類疾病。WHO 預(yù)測,截至2030年,抑郁癥將成為全球疾病負(fù)擔(dān)第一位的疾病。而根據(jù)《柳葉刀》期刊上發(fā)表的題目為《Global prevalence and burden of depressive and anxiety disorders in 204 countries and territories in 2020 due to COVID-19 pandemic》的研究顯示,全球范圍內(nèi)重度抑郁癥增加了28%。根據(jù)Meta的研究顯示,當(dāng)代中國大學(xué)生抑郁癥(或者抑郁情緒)的患病發(fā)生率為30.39%。對于經(jīng)歷過疫情的當(dāng)代的大學(xué)生來說,不斷地接受各種復(fù)雜的負(fù)面消息,且在自我辨別能力不足、心智發(fā)育尚未健全的情況下,很容易被負(fù)面情緒所影響,因此產(chǎn)生低落沮喪的抑郁情緒[1-2]。
本研究通過所設(shè)計(jì)的抑郁度分析系統(tǒng)分析抑郁癥患者臉部表情以及肢體行為的變化與抑郁癥之間的對應(yīng)函數(shù)關(guān)系,進(jìn)而達(dá)到通過人臉識(shí)別以及肢體動(dòng)作判斷是否患有抑郁癥。并且評估深度學(xué)習(xí)模型在識(shí)別抑郁癥表現(xiàn)方面的效用,為深度學(xué)習(xí)算法更好地應(yīng)用于抑郁癥的檢測以及診斷提供強(qiáng)有力的理論依據(jù)。
本項(xiàng)目使用Python語言[3-4]基于MTCNN主要包括兩大部分:人臉表情識(shí)別以及肢體運(yùn)動(dòng)信息識(shí)別,本系統(tǒng)首先會(huì)在一個(gè)周期內(nèi),完成不同角度的人臉圖像的獲取以及肢體運(yùn)動(dòng)信息數(shù)據(jù)的采集。然后將捕捉到的人臉圖像以及采集到的肢體運(yùn)動(dòng)信息進(jìn)行數(shù)據(jù)處理,隨后通過決策網(wǎng)絡(luò)判斷此次數(shù)據(jù)當(dāng)中是否含有可以利用的人臉數(shù)據(jù)并進(jìn)行進(jìn)一步的處理。在得到被檢測人員的面部數(shù)據(jù)特征之后,與肢體運(yùn)動(dòng)的數(shù)據(jù)信息進(jìn)行融合,形成綜合特征數(shù)據(jù)信息。
在面部特征數(shù)據(jù)提取期間,眼部特征檢測模塊會(huì)提前對被檢測人員的眼部圖像進(jìn)行單獨(dú)的提取,并優(yōu)于人臉圖像輸入模型中用以說謊判斷。
最后,通過表情識(shí)別網(wǎng)絡(luò)對得到的綜合數(shù)據(jù)進(jìn)行分析處理,并根據(jù)分析處理結(jié)果判斷屬于哪一種程度的抑郁癥,并通過顯示器給出相應(yīng)的警告。
肢體運(yùn)動(dòng)信息的檢測[5]部分從肢體的時(shí)間序列特征、動(dòng)作位移、動(dòng)作數(shù)據(jù)幀數(shù)以及頻率方面進(jìn)行。肢體運(yùn)動(dòng)信息的時(shí)間序列特征主要表現(xiàn)在,當(dāng)被檢測人的情緒有很明顯的變化之后,人體的骨架關(guān)節(jié)點(diǎn)會(huì)比變化之前有著明顯的位移情況;肢體動(dòng)作位移的變化,主要是根據(jù)收集到的特征數(shù)據(jù)計(jì)算出一個(gè)周期T內(nèi)總的位移量以及平均速度。然后將情緒變化前后的位移與平均速度進(jìn)行對比。將位移總量記為S,則計(jì)算方法由式(1)所示。
平均速度記為Vp,也可由t、x 以及n(周期個(gè)數(shù)計(jì)算)計(jì)算方法由式(2)所示。
本項(xiàng)目對肢體信息的采集使用Kinect 設(shè)備。Kinect是一種基于深度傳感器的肢體動(dòng)作識(shí)別設(shè)備,主要的原理是在深度圖像中快速準(zhǔn)確地推測出身體各個(gè)關(guān)節(jié)骨架關(guān)鍵部位的空間位置。
人臉識(shí)別檢測主要包括面部特征數(shù)據(jù)提取網(wǎng)絡(luò)[6]和表情識(shí)別網(wǎng)絡(luò)[7]。
在面部圖像獲得的過程中,要對圖像進(jìn)行面部檢測、關(guān)鍵點(diǎn)定位和面部關(guān)鍵子區(qū)域的劃分。面部檢測是用于確定所捕獲的圖像中是否存在著人臉圖像數(shù)據(jù),關(guān)鍵點(diǎn)定位是為了確定所要?jiǎng)澐值年P(guān)鍵區(qū)域的位置并根據(jù)關(guān)鍵點(diǎn)劃分出面部的三個(gè)關(guān)鍵子區(qū)域。查閱相關(guān)資料發(fā)現(xiàn),在表情識(shí)別中,有效識(shí)別區(qū)域是左眼區(qū)、右眼區(qū)和嘴部區(qū)。本項(xiàng)目對三個(gè)子區(qū)域劃分進(jìn)行了邊緣擴(kuò)大化,分別為左右眼區(qū)域包含眉毛區(qū)域、嘴部區(qū)域包含鼻子部分。
面部特征數(shù)據(jù)的提取首先要按照特定方式選取的三幀圖像FL、FM、FR輸入定位層網(wǎng)絡(luò)中進(jìn)行處理。處理完畢后,對FL、FM、FR 圖像進(jìn)行標(biāo)記,然后輸入多維特征提取卷積網(wǎng)絡(luò)中。隨后,多維特征提取卷積網(wǎng)絡(luò)根據(jù)輸入進(jìn)來的數(shù)據(jù)前綴分類,送入相應(yīng)的處理模塊進(jìn)行分析,最后將三個(gè)不同維度的面部數(shù)據(jù)進(jìn)行特征融合,形成最后的面部數(shù)據(jù)特征。
本項(xiàng)目面部識(shí)別借鑒多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(Multi-task Cascaded Convolutional Networks,MTCNN),并對其進(jìn)行整改。在MTCNN 的基礎(chǔ)上本項(xiàng)目增加“時(shí)空特征提取模塊”,提取這些面部特征數(shù)據(jù)中包含的時(shí)間、空間等維度的特征數(shù)據(jù),形成多維度的綜合數(shù)據(jù)。時(shí)空特征提取模塊[8]采用的是一個(gè)3×3的卷積核和兩個(gè)殘差模塊串聯(lián)而成,并且采用擴(kuò)大卷積核的方式,針對捕獲的被檢測者人臉圖像中的時(shí)間和空間數(shù)據(jù)進(jìn)行分析提取。面部數(shù)據(jù)提取過程中,對于圖像處理使用的是“滑動(dòng)劃分”。即在分塊處理的時(shí),使用固定大小的窗口(d×d)設(shè)定滑動(dòng)步長(s),然后逐步滑動(dòng)的方式對人臉圖像進(jìn)行滑動(dòng)選取。
表情識(shí)別網(wǎng)絡(luò)由兩個(gè)卷積層、兩個(gè)池化層和一個(gè)softmax分類器組成。卷積和池化的通道數(shù)分別是128和256,卷積核是3×3,步長為1×1。softmax 分類器可以實(shí)現(xiàn)多任務(wù)進(jìn)行分類,這里需要的是三分類任務(wù),即正常、輕度抑郁和重度抑郁三種。
被檢測人的面部數(shù)據(jù)對于本項(xiàng)目的檢測至關(guān)重要,因此被截取的人臉圖像分辨率不能太低。但在一般的人臉識(shí)別網(wǎng)絡(luò)中所使用的圖像金字塔,將minsize設(shè)置為一個(gè)固定的數(shù)值,使得圖片清晰度較低,導(dǎo)致最后的結(jié)果出現(xiàn)誤差。因此本項(xiàng)目使用的是“可變的minsize圖像金字塔”。
可變minsize 圖像金字塔[9],即在被檢測的圖像輸入到卷積網(wǎng)絡(luò)之前,先獲取圖像的寬度(w)和高度(h),并由w和h確定s的值,具體由式(3)所示。
然后根據(jù)s的值,結(jié)合對應(yīng)的函數(shù)關(guān)系f(x)最終確定適合本次變化的minszie 的值。并且其可以根據(jù)輸入的圖像的大小,動(dòng)態(tài)地指定本模型中可以識(shí)別的最小人臉,從而減少迭代的次數(shù),提高系統(tǒng)整體的運(yùn)算速度。
決策網(wǎng)[9]主要是為了解決面部遮擋對檢測結(jié)果產(chǎn)生的影響,剔除遮擋比例較高的區(qū)域,保留遮擋比例較小的區(qū)域,最大程度地關(guān)注非遮擋區(qū)域,提高系統(tǒng)檢測的準(zhǔn)確率。假設(shè)將決策網(wǎng)的判斷結(jié)構(gòu)記為ηi(表示第i個(gè)區(qū)域的判定結(jié)果),則ηi由式(4)所示。
δ(·)是決策網(wǎng)中的一個(gè)基于分類函數(shù)的操作,其表達(dá)式如式(5)所示。
其中Ob表示關(guān)鍵區(qū)域的遮擋比例,β表示提前設(shè)定的遮擋比例的閥值。當(dāng)Ob大于固定的閾值時(shí)置δ(·) = 1,此時(shí)不會(huì)丟棄圖像,反之丟棄。
眼部特征提取模塊基于循環(huán)神經(jīng)網(wǎng)絡(luò)[10](Gated Recurrent Unit,GRU)設(shè)計(jì),通過對周期內(nèi)眼部主要信息進(jìn)行獲取、對比、分析、分類,然后基于檢測的眼部的特征數(shù)據(jù),判斷是否有說謊的行為。在查閱相關(guān)資料后,本項(xiàng)目檢測從:眼部的注視、瞳孔變化以及眨眼這三個(gè)方面進(jìn)行。
GRU網(wǎng)絡(luò)是一種基于門控制的循環(huán)神經(jīng)網(wǎng)絡(luò),它可以直接對前一層進(jìn)行記憶控制,并且參數(shù)相對較少,運(yùn)行速度更快,對短距離記憶效果更好,更容易捕捉眼部細(xì)微的表情變化。GRU中的更新門,幫助模型決定將多少過去的信息傳遞到未來,或者決定有多少信息需要繼續(xù)傳遞的。GRU 中重置門的作用是決定當(dāng)前時(shí)刻的候選狀態(tài)是否需要依賴上一時(shí)刻的網(wǎng)絡(luò)狀態(tài)以及需要依賴多少。
本系統(tǒng)首先由攝像頭及根據(jù)可穿戴設(shè)備實(shí)時(shí)捕捉人臉信息以及肢體信息,作為抑郁度分析的基礎(chǔ)數(shù)據(jù)。在捕捉被檢測者的圖像信息和實(shí)時(shí)收集數(shù)據(jù)的同時(shí),也會(huì)有實(shí)時(shí)反饋,用以監(jiān)督網(wǎng)絡(luò)是否運(yùn)行通暢以及實(shí)現(xiàn)檢測的可視化操作,如圖1所示。
圖1 實(shí)時(shí)顯示
接下來,由“可變minsize金字塔”將捕捉到的人臉圖片進(jìn)行縮放,然后輸入到定位層網(wǎng)絡(luò)。隨后進(jìn)入時(shí)空提取模塊。在此模塊中,會(huì)對于三個(gè)角度的圖像進(jìn)行更加細(xì)致地提取,以更好地保留微小的面部特征數(shù)據(jù),最后完成多維的特征提取后,按照一定的融合方式,將多維數(shù)據(jù)進(jìn)行特征融合。與此同時(shí),實(shí)時(shí)收集到的肢體運(yùn)動(dòng)信息會(huì)在特征提取網(wǎng)絡(luò)中,進(jìn)行肢體的時(shí)間序列、關(guān)節(jié)點(diǎn)的時(shí)空位移以及運(yùn)動(dòng)幀數(shù)以及頻率的提取,完成特征提取后,與面部數(shù)據(jù)特征進(jìn)行不同形態(tài)的特征融合。
特別注意,經(jīng)過相關(guān)研究發(fā)現(xiàn),面部識(shí)別的準(zhǔn)確度、效率等高于肢體識(shí)別,又鑒于真實(shí)的實(shí)驗(yàn)中,面部識(shí)別檢測得準(zhǔn)確更精確,因此在進(jìn)行特征融合時(shí),我們采用的是加權(quán)的方式。(加權(quán)的方式,就是根據(jù)不同的檢測結(jié)果的可靠程度,在特征融合時(shí),乘以其不同的權(quán)重比例,以達(dá)到檢測結(jié)果更加精確的目的)。
將融合后的特征向量特征輸入到表情識(shí)別網(wǎng)絡(luò),經(jīng)過進(jìn)一步的卷積池化,使得數(shù)據(jù)的特征更加明顯,然后經(jīng)過softmax 分類器的分類,得到最終的檢測結(jié)果,如圖2所示。
圖2 最終顯示結(jié)果
本文基于肢體行為檢測和人臉識(shí)別的基礎(chǔ)上,對抑郁癥的識(shí)別分析進(jìn)行了相關(guān)的研究。完成了本文既定的檢測目標(biāo),達(dá)到了預(yù)期效果。主要的研究內(nèi)容包括:以MTCNN 為主題進(jìn)行人臉識(shí)別檢測并且使用Kinect設(shè)備對肢體信息進(jìn)行采集;采用可變minsize圖像金字塔解決圖像清晰度問題并提高模型的檢測效率;將決策網(wǎng)絡(luò)加入模型中用以篩選符合要求的圖像;增加測謊模塊用以減少主觀因素對檢測結(jié)果的影響;引入時(shí)空特征提取模塊用以檢測圖像中包含的時(shí)間與空間信息,最后通過識(shí)別網(wǎng)絡(luò)進(jìn)行分類處理以完成抑郁癥的分析檢測。
在研究的過程中,尚存在一定的不足,比如對MTCNN 模型的熟悉度不高,在模型設(shè)計(jì)的過程中對抑郁癥的認(rèn)知不足,導(dǎo)致在模塊設(shè)計(jì)中沒有與實(shí)際情況相結(jié)合造成部分功能實(shí)現(xiàn)較為困難等。接下來,本項(xiàng)目將深入地了解抑郁癥的相關(guān)知識(shí),逐漸完善系統(tǒng)功能,并且進(jìn)一步提高模型的檢測準(zhǔn)確度以及檢測效率,爭取能夠在抑郁癥分析中更進(jìn)一步。