杜銘浩,劉 爽,劉瀟雅,張文荃,明 東,2
1(天津大學 醫(yī)學工程與轉(zhuǎn)化醫(yī)學研究院,天津 300072) 2(天津大學 精密儀器與光電子工程學院生物醫(yī)學工程與科學儀器系,天津 300072)
抑郁癥是最常見的精神心境障礙,屬神經(jīng)官能病癥之一.根據(jù)國際疾病分類(ICD-10)[1],抑郁癥患者多表現(xiàn)出精神不濟、情緒低落、興趣和愉悅感減退、進而產(chǎn)生自殺觀念與行為等極端癥狀.目前,抑郁癥已是全球疾病負擔的重大因素之一.據(jù)世界衛(wèi)生組織統(tǒng)計[2],截至2017年全球抑郁癥患者已多達3.22億人,占世界人口的4.4%;預計到2030年,抑郁癥將超過心血管疾病而上升為第一致殘誘因.同時,據(jù)中國精神衛(wèi)生調(diào)查顯示[3],我國抑郁癥患者數(shù)量已超過9500萬,其終身患病率達6.9%.顯見,抑郁癥已經(jīng)造成了嚴重的社會健康問題.然而在高患病、高增長率背景下,我國的抑郁癥診斷能力并不樂觀.一方面,目前我國精神科醫(yī)師僅4萬余人,醫(yī)生病患比例不足已成為精神衛(wèi)生健康工作面臨的一大難題.另一方面,抑郁癥病因尚未明確、缺乏客觀診斷生理指標,目前臨床應用中對抑郁癥的診斷多以主觀量表為主,其測試結(jié)果的準確性依賴于醫(yī)生的熟練性以及患者的配合度,故其誤診率目前居高不下[4,5].因此需要尋找客觀的參數(shù)指標,以幫助提升抑郁癥診斷的準確率.
近些年來已有大量研究嘗試利用生理信號、面部視覺特征、生化指標等尋求抑郁癥的客觀診斷指標.其中,生理信號主要有心率[6,7]、腦電[8,9]、腦磁[10]等,具有客觀、不易偽裝的優(yōu)點;但心率和腦電等測量設備穿戴過程頗為復雜,信息采集過程還需被試高度配合,增加了臨床檢測實施難度.隨著計算機視覺技術的發(fā)展,基于面部視覺特征的抑郁癥診斷方法逐漸興起.該方法通過分析患者面部展現(xiàn)的抑郁相關信息對其抑郁程度進行客觀評估,并可以進一步總結(jié)抑郁癥患者的行為特點以指導醫(yī)生的臨床診斷.而且該方法的采集設備僅需要攝像頭,成本較低便于普及推廣;尤其信息采集過程中被試無需接觸設備,可使之始終保持無需防范的自然心態(tài),易于展現(xiàn)真實的精神心境數(shù)據(jù),這對于興趣或愉悅感減退的患者十分友好,具有較高研究價值和發(fā)展空間.
早在20世紀中期,Ekman[11]發(fā)現(xiàn)不同地區(qū)居民的面部表情具有共性情感特點,指出了表情在情感表達中的通用性.1997年,麻省理工學院媒體實驗室首次提出情感計算概念,從靜態(tài)或動態(tài)的表情自動識別情緒變化[12].2013年,視聽情感挑戰(zhàn)賽(Audio/Visual Emotion Challenge,AVEC)將情感計算與精神疾病的診斷結(jié)合,推出了抑郁識別亞挑戰(zhàn)賽,主要內(nèi)容是通過被試訪談時的面部表情和音頻數(shù)據(jù)自動診斷抑郁癥,吸引了世界各地多支隊伍參加,極大推動了該領域的快速發(fā)展.近些年來,基于面部視覺特征的抑郁癥診斷技術憑借其便捷的優(yōu)勢受到廣泛關注,同時特征提取和模式識別技術的不斷發(fā)展也使其具有巨大的發(fā)展?jié)摿?本文將從抑郁癥患者的面部行為特點入手,綜述常用的情緒誘發(fā)實驗范式、面部視覺特征公開數(shù)據(jù)庫及基于面部視覺特征的抑郁癥診斷的最新研究成果,最后討論其存在問題與發(fā)展動向.
抑郁癥患者有廣泛的潛在特征,包括情緒低落、認知能力障礙以及強烈的負性認知.針對其面部特征而言,早期已有文獻證明,抑郁癥患者的表情變化與其精神狀態(tài)有一定關聯(lián),并且患者的面部有陰沉、凄涼、木訥和郁悶,眼神躲閃的特點[13].由此,相關研究通過肌電、特征點、神經(jīng)網(wǎng)絡和眼動等技術探究抑郁癥患者異于常人的面部特點.
早在1976年,Schwartz等[14]從肌電的角度分析了抑郁癥患者和健康人在想象任務時的面部肌肉強度變化,結(jié)果表明,抑郁癥患者的皺眉肌、眼輪匝肌、額肌、下唇降肌的強度存在顯著性差異,從這些肌肉的位置(如圖1所示)可以看出,差異集中于眼睛和嘴部區(qū)域.但是肌電采集過程或?qū)Ρ辉囋斐筛蓴_,Wei等[15]和Scherer等[16]通過分析患者和正常人的訪談視頻從而避免了接觸干擾,其通過提取面部特征點之間距離的變化以表示表情變化的幅度,結(jié)果發(fā)現(xiàn)抑郁癥患者嘴角、臉頰和眼睛特征點間的變化幅度與持續(xù)時間顯著降低,說明患者表情相比于正常人變化遲緩,且持續(xù)時間短.由于提取面部特征點的過程會丟棄其他位置信息,Zhou等[17]從面部整體的角度進行分析,利用神經(jīng)網(wǎng)絡中全局平均池化層保留空間信息的優(yōu)勢,提出了DepressNet架構(gòu)并在186名被試訪談視頻上進行自適應訓練,將結(jié)果可視化后發(fā)現(xiàn)眼睛區(qū)域?qū)︻A測結(jié)果的影響較大,進而得出眼睛區(qū)域包含著大量與抑郁相關信息的結(jié)論,這與之前研究的結(jié)論相一致.
圖1 呈現(xiàn)特殊行為表現(xiàn)的抑郁癥患者面部肌肉Fig.1 Facial muscles of depression patients with special behavior
目前研究認為抑郁癥患者會呈現(xiàn)出特殊的面部行為特點,并且眼睛區(qū)域的差異性較為突出.針對于患者眼睛區(qū)域,Stolicyn等[18]和Shen等[19]指出眼部的微妙變化可直觀反映個人情緒狀態(tài),可作為診斷疾病或檢測治療效果的生理學指標.抑郁癥患者思維遲緩以及具有負性認知偏向的特點在瞳孔反應和眼瞼活動中同樣有所體現(xiàn).Siegle等[20]對比了24名抑郁癥患者和24名健康人在情緒處理任務時的瞳孔反應,發(fā)現(xiàn)抑郁癥患者瞳孔擴張更滯后并且持續(xù)時間更持久.Stolicyn等[18]和Li等[21]分別對比了抑郁癥患者和健康人在觀看情感圖片以及情感詞匯時的眼球運動數(shù)據(jù),發(fā)現(xiàn)抑郁癥患者面對負性刺激時雙眼注視次數(shù)和注視時間都有增加,而正性刺激時并沒有顯著變化.另外,眨眼頻率與抑郁程度也有潛在關聯(lián).Mackintosh等[22]對23名在治療過程中的抑郁癥患者做了縱向追蹤實驗,發(fā)現(xiàn)抑郁癥患者的眨眼頻率相比于正常人較高,且在病情好轉(zhuǎn)過程中逐漸恢復正常.
由此可見,抑郁癥患者情緒低落、思維遲緩的特點在面部的肌肉運動和眼球運動方面有所體現(xiàn),表現(xiàn)出較健康人負性反映強烈、變化遲緩等特點,這論證了基于面部視覺特征的抑郁癥診斷方法的可行性.
抑郁癥患者面部數(shù)據(jù)的質(zhì)量直接決定了由其訓練得到的診斷模型性能的好壞.但文獻[23]指出,抑郁癥患者在自然狀態(tài)下與正常人的面部差異并不顯著,且采集過程中的情緒波動會增加面部特征的辨識難度,從而影響數(shù)據(jù)質(zhì)量.針對這一問題,目前研究通過情緒誘導實驗范式將患者和正常人誘發(fā)至特定的情緒狀態(tài),采集相同情緒狀態(tài)下二者的面部表情數(shù)據(jù),以此建立抑郁癥面部特征數(shù)據(jù)庫.
根據(jù)刺激方式不同,常用的誘發(fā)范式可分為誘導和訪談兩種.
誘導法:通過圖片、短文、單詞等方式誘發(fā)被試的情緒.已有研究指出,抑郁癥患者具有負性情緒反饋增強、正性情緒反饋減弱的典型癥狀[15,24].因而患者在面對不同情緒刺激時,容易呈現(xiàn)出與健康人不同的表情特征.由此,胡斌[25]設計了圖片誘導方式,從中國面孔表情系統(tǒng)中選擇3種帶有正、負和中性的圖片讓被試在限定時間內(nèi)進行描述,同時記錄被試的面部變化.圖片誘導與心理學中的主題統(tǒng)覺測驗過程相似,而后者更具有規(guī)范性和系統(tǒng)性,Valstar等[26]選取了主題統(tǒng)覺測驗中的部分環(huán)節(jié)作為誘導材料,激發(fā)效果明顯.此外,短文和單詞也常作為誘導材料以朗讀的方式激發(fā)被試的情緒[26-28].常用于朗讀的材料來源有寓言《北風和太陽》、情感本體語料庫和漢語情感詞極值表等.Simantiraki等[29]認為被試在朗讀過程中可以更好理解短文或詞語的含義,從而提高誘發(fā)水平.同時,劉振宇[30]認為朗讀固定的文本可以減少其他混淆因素,進而提高分析結(jié)果的可信度.此外,認知測試[18]、發(fā)元音[26,31]、排序[32]、計數(shù)[26,33]、問題解決任務[34]等多種誘導方式也被用于誘發(fā)患者情緒.抑郁癥患者在這些任務中會反應出特殊的認知能力和心理活動,進而產(chǎn)生差異性特征.需要注意的是,誘導法具有流程簡單、耗時短的優(yōu)勢,但只能反應短時間內(nèi)被試的情緒變化,而患者的抑郁癥狀通常是動態(tài)、持續(xù)性變化的,從文獻[15]和文獻[35]的比較結(jié)果可以看出,當誘導材料之間的關聯(lián)性較小或任務量少時,誘導效果并不明顯.并且刺激過程會增加患者的壓力和焦慮,應慎重選擇刺激材料.
訪談法:通過模仿臨床交談的過程以檢測被試的社交能力和認知水平.Girard等[36]指出,抑郁癥患者普遍存在社交功能障礙,在交談過程中會呈現(xiàn)出眼神回避、焦慮不適等特征,由此可以捕獲患者特殊的面部行為模式.通常交談話題由普通平穩(wěn)過渡到更為私密的內(nèi)容,由精神科醫(yī)師、虛擬人物或者幻燈片來呈現(xiàn).Pampouchidou等[37]通過與專業(yè)醫(yī)師視頻連線的方式對被試進行訪談(如圖2(a)所示),醫(yī)師會根據(jù)被試的反應對問題做出調(diào)整,并引導被試在話題間放松從而避免情緒干擾.Dibeklioglu等[38]采用面對面交談的形式對被試進行了漢密頓抑郁量表評測.漢密頓量表是臨床上評定抑郁狀態(tài)時最常用的量表,包括是否存在有罪感、自殺想法、體重減輕等心理和生理指標,患者的回答以及行為表現(xiàn)可以有效反應其抑郁嚴重程度.王剛[39]直接記錄了門診醫(yī)生的問診過程,交談內(nèi)容包括最近身體狀況是否良好、讓患者述說自己最近碰到的比較煩心事情等.通過精神科醫(yī)師進行訪談的形式可以根據(jù)被試的回答或行為表現(xiàn)及時做出反饋,增強被試的互動感從而更好誘發(fā)情緒,但訪談的內(nèi)容和時長會因人而異,增加了后續(xù)數(shù)據(jù)分析的難度.相比之下,通過虛擬人物或幻燈片按照固定次序呈現(xiàn)問題的方式更具有標準性.Scherer等[40]和Ringeval等[41]都設計了虛擬人物對被試進行訪談,訪談場景如圖2(b)所示,虛擬人物Ellie用提前錄制好的問題音頻與被試交談,并對被試的回答做出點頭、拍手等肢體回應.Cai等[27]利用幻燈片將問題呈現(xiàn)給被試,并要求被試在規(guī)定時間內(nèi)做答.目前,訪談過程是否需要專業(yè)醫(yī)師的引導仍存有爭議.Fridlund等[42]研究發(fā)現(xiàn)觀眾在場時,抑郁癥患者的非言語信號會增強.而Scherer等[43]認為虛擬人物可減少監(jiān)視帶來的恐懼和壓力,降低被試的心理負擔,從而增強被試的交流意愿.因此訪談法的問題呈現(xiàn)方式還有待進一步討論.
圖2 訪談形式 Fig.2 Forms of interview
誘導法具有快速誘發(fā)、效果直接的優(yōu)勢,訪談法具有由淺入深、結(jié)構(gòu)性強的特點.由于抑郁癥患者的生活經(jīng)歷存在差異,刺激效果不盡相同,因此采集過程可以將兩種方法相互結(jié)合,優(yōu)勢互補.
表1展示了目前國內(nèi)外相關研究常使用的抑郁癥視覺特征數(shù)據(jù)庫,并對其招募的被試人數(shù)、采集到的樣本數(shù)量、誘發(fā)范式、展現(xiàn)方式、量化標準及其可用性做了說明.其中AVEC2013[26]、AVEC2014[44]、DAIC-WOZ[40]、E-DAIC[41]數(shù)據(jù)庫分別是第3屆、第4屆、第6屆、第9屆視聽情感挑戰(zhàn)賽提供的數(shù)據(jù)庫.Pittsburgh數(shù)據(jù)庫[38]是匹茲堡大學記錄了57名確診抑郁癥患者在治療期間進行漢密頓量表測評過程的訪談視頻.MODMA數(shù)據(jù)庫[27]是蘭州大學記錄了23名門診患者和29名健康人在完成特定任務時的視頻和音頻.鑒于被試的個人隱私,AVEC2013和AVEC2014是目前唯一提供原始視頻文件的數(shù)據(jù)庫.DAIC-WOZ和E-DAIC提供原始音頻文件及其視頻處理后的特征文件.MODMA數(shù)據(jù)庫僅提供原始音頻文件.獲取以上數(shù)據(jù)庫都需要簽署最終用戶許可協(xié)議(EULA).
表1 抑郁癥視覺特征數(shù)據(jù)庫Table 1 Visual characteristics database of depression
提取并量化抑郁相關的面部視覺特征是建立模型的關鍵,目前研究運用計算機圖像處理、機器學習等技術手段分析面部數(shù)據(jù),提出了適用于不同區(qū)域的特征量化和建模方法.以下分別從目前關注度最高以及識別效果最好的眼睛區(qū)域和面部整體區(qū)域,評述抑郁癥自動診斷研究的現(xiàn)狀和取得成果.
正如前文所說,抑郁癥患者面對刺激時會呈現(xiàn)出異常的注視方向、眼瞼活動.由此,一些研究提出多種方法提取注視角度、眨眼頻率,瞳孔運動等眼動特征,并建立分類或回歸模型進行抑郁癥的自動診斷.
眼部區(qū)域常用的特征提取方法是利用主動外觀模型(Active Appearance Model,AAM)、ZFace工具包、MultiSense集成系統(tǒng)等工具分析視頻數(shù)據(jù),或是通過眼動儀設備直接進行采集.其中,AAM可以通過訓練自動獲取感興趣的眼睛區(qū)域特征點的位置信息,并通過分析特征點坐標的變化提取出眨眼頻率、注視角度等行為信息,以此進行抑郁診斷.AAM因其保留了運動的細節(jié)信息,可以反映出被試面部細微的變化,在抑郁識別上取得良好效果,受到廣泛關注.Alghowinem等[19]利用AAM對60名被試(抑郁癥患者和健康人各30名)的訪談視頻進行分析,提取眼睛、眉毛和虹膜中心在內(nèi)74個特征點的坐標,分布如圖3所示,再計算坐標點之間的位移變化從而提取睜閉眼時間、注視方向和眨眼頻率特征,并通過高斯混合模型和支持向量機分類器進行二分類,達到了70%的抑郁識別率.Wang等[35]同樣利用AAM提取到訪談中眼睛區(qū)域特征點的時間序列,并根據(jù)坐標點之間的位移變化提取到瞳孔、眼角和眉毛運動的特征用于抑郁識別,結(jié)合其他模態(tài)識別率達到78%.AAM模型在訓練前需要進行標注,而標注的質(zhì)量會影響到識別精度,Al-Gawwam等[45]使用ZFace工具無需訓練、直接獲取特征點的位置坐標,其通過計算眼瞼之間的位移變化提取眨眼頻率特征并進行二分類,在AVEC數(shù)據(jù)集上的識別率達到88%.此外,有研究利用集成系統(tǒng)直接獲取眼動特征.Lucas等[46]利用MultiSense系統(tǒng)從訪談視頻數(shù)據(jù)中提取患者的注視方向,并以此得到眼睛交流次數(shù)的特征,通過分析其與抑郁程度之間的相關性得出眼睛交流次數(shù)是抑郁癥診斷的潛在指標.Pan等[47]利用眼動儀提取被試在圖片刺激下的注視次數(shù)、持續(xù)時間和掃描路徑等特征,并通過支持向量機分類達到86%的識別率.
圖3 眼睛區(qū)域特征點Fig.3 Eye region feature points
從目前研究結(jié)果可以看出,眼睛區(qū)域憑借其范圍較小、可借助鼻梁、額頭等參照物快速定位以及不宜偽裝的優(yōu)勢,在抑郁癥自動診斷中展現(xiàn)出較高的精確度.但受樣本量的限制,各診斷模型的泛化能力以及其性能還有待進一步優(yōu)化.
抑郁癥的特征并不局限于眼睛區(qū)域,一些研究利用人臉識別、目標檢測和追蹤的技術手段分析臉部區(qū)域,同樣取得優(yōu)異識別效果.所用的特征提取方法大致可以分為動作單元法、特征點標記法和面部整體法.
動作單元法是使用心理學家Ekman[48]提出的面部行為編碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS)對46個獨立的面部動作單元(Action Unit,AU)在強度和持續(xù)時間上量化,將面部表情編碼成特定單元的組合.Stratou等[49]和Girard等[50]分析了被試的訪談視頻,找到了抑郁癥患者獨特的AU特征,并發(fā)現(xiàn)AU特征的強度與被試的抑郁嚴重程度呈正相關,證實了動作單元法在抑郁癥檢測方面的意義.由此,徐璐[51]分析了患者與正常人在訪談過程中AU的出現(xiàn)頻次、變化速率、強度等特征,發(fā)現(xiàn)二者存在明顯差異,并以此通過支持向量機進行分類,抑郁識別率男性達到73.48%、女性達到68.43%.同樣,Nasser等[52]提取了訪談視頻中的18個面部AUs,通過分析發(fā)現(xiàn)只有6個特征(AU 4,5,6,7,10,12)與抑郁相關,在此基礎上利用KNN和LDA分類器進行分類,識別率達到85%.AU特征不僅可以建立二分類模型,Williamson等[53]利用AU特征建立了抑郁程度評估的回歸模型,其在AVEC數(shù)據(jù)庫上提取視頻中AU的時間序列,并通過高斯混合模型和極限學習機分類器識別,最終其均方根誤差為8.12、平均絕對誤差為6.31(標簽為0-63的貝克抑郁量表評分).動作單元法憑借其可解釋性在抑郁診斷或者程度評估上應用廣泛,但需要注意的是,動作單元本質(zhì)上是由面部肌肉運動產(chǎn)生,因而一些不與情緒相關的肌肉運動(如咀嚼、擠眼睛等)會對模型帶來不必要的干擾.
圖4 面部區(qū)域特征點Fig.4 Facial feature points
特征點標記法是通過提取面部固定位置點的坐標,從而得到包含距離和面積特征的面部拓撲結(jié)構(gòu).圖4展示了特征點分布以及常用的劃分方式,可以看出,距離特征包含了張嘴和閉嘴、睜眼和閉眼、提眉等信息,面積特征包含了面部區(qū)域的幾何變化.抑郁癥患者特殊的面部行為模式在距離和面積特征上會有所體現(xiàn).Dibeklioglu等[38]提取了Pittsburgh訪談數(shù)據(jù)庫中被試68個面部特征點的時間變化序列,并通過堆疊3層降噪自動編碼器構(gòu)建了輕、中和重度抑郁癥程度的三分類模型,識別率達到72.59%.此外,在特征點時間變化序列基礎上,通過求導數(shù)以及求二次導數(shù)可以獲得速度和加速度等高級特征,而抑郁癥患者表情變化遲緩的癥狀可以在這些特征上展現(xiàn).魏巍[15]通過獲取特征點變化的速度和加速度特征來分析被試嘴角幅度、眨眼次數(shù)、眼睛面積、臉頰膨脹的情況,并建立機器學習模型達到了男性81.4%和女性80.0%的抑郁識別率.抑郁特征是在動態(tài)變化中體現(xiàn)出來的,而循環(huán)神經(jīng)網(wǎng)絡具有記憶功能,可以有效處理抑郁的動態(tài)特征.Wang等[54]利用長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)提取特征點的時間序列中與抑郁相關的動態(tài)特征并進行二分類,在DAIC數(shù)據(jù)集上測試達到81.8%的識別率.Haque等[55]通過比較發(fā)現(xiàn)時序卷積網(wǎng)絡(Temporal Convolutional Network,TCN)比LSTM在處理時間信息上效果更好,更適合抑郁識別模型的構(gòu)建.相比于動作單元法,面部特征點法可以獲取到面部拓撲結(jié)構(gòu)的變化,提取到的信息量更大,更有助于后續(xù)搭建診斷模型.
面部整體法是直接從整張臉中提取面部特征,避免了在提取AU和特征點的過程中丟失其他部位信息,是目前最流行的方法.該方法可以提取到面部的幾何特征和紋理特征(如邊、角、方向等)進行分析,其中包含了與抑郁相關的細節(jié)特征.Dhall等[56]利用局部二值模式(Local Binary Pattern,LBP)處理視頻數(shù)據(jù)并使用Fisher向量進行編碼,有效捕捉了面部細微的幾何特征,其在AVEC2014數(shù)據(jù)集上建立回歸模型,均方根誤差為8.91優(yōu)于基線水平9.98.為進一步提取面部動態(tài)信息,Pampouchidou等[37]先根據(jù)訪談視頻生成運動歷史圖像(Motion History Image,MHI),再利用LBP提取其紋理特征,并根據(jù)運動的梯度方向生成方向梯度直方圖(Histogram of Oriented Gradients,HOG)作為高級特征,提取過程如圖5所示.該方法在AVEC2014數(shù)據(jù)集上測試平均絕對誤差為7.83優(yōu)于基線水平8.86.此外,卷積神經(jīng)網(wǎng)絡可以自適應提取圖片中的信息,在處理面部整體抑郁特征上具有潛在優(yōu)勢.He等[57]提出了LGA-CNN架構(gòu)提取視頻幀圖像中的全局和局部信息,其在AVEC2013和AVEC2014數(shù)據(jù)集上測試均方根誤差分別為8.39和8.30,展現(xiàn)了卷積神經(jīng)網(wǎng)絡在提取抑郁信息上的優(yōu)勢以及泛化能力.Zhou等[17]在卷積神經(jīng)網(wǎng)絡基礎上加入殘差結(jié)構(gòu)搭建了DepressNet結(jié)構(gòu),該結(jié)構(gòu)有效解決了網(wǎng)絡退化的問題可進一步提升模型性能,其在AVEC2013上測試取得了均方根誤差8.28的優(yōu)異結(jié)果.
圖5 面部整體特征提取結(jié)果Fig.5 Results of full-face feature extraction
目前,多數(shù)基于面部視覺特征的抑郁癥診斷研究是利用不同的特征提取方法對抑郁癥眼神呆滯、視覺回避、少笑等面部行為進行提取和量化,也有研究利用神經(jīng)網(wǎng)絡直接提取高維度特征.由于面部表情復雜多樣,單一的提取方法無法準確全面地提取抑郁信息,從文獻[18]和文獻[58]的結(jié)果來看,融合多個特征之間有效利用特征間的互補信息,從而提升抑郁癥診斷水平.
基于面部視覺特征的抑郁癥診斷技術提供了一套無接觸式、普及性強、客觀、便捷的抑郁癥檢測方式.該技術有望緩解臨床診斷面臨的醫(yī)生患者比例偏低以及誤診率偏高的壓力,有廣闊的應用場景.但目前由于抑郁癥患者情況復雜多樣,該技術走向臨床仍有較遠距離.結(jié)合目前研究進展和臨床應用場景,考慮基于面部視覺特征的抑郁癥診斷研究可有以下幾方面的發(fā)展方向:
1)實驗范式的改進推廣.能有效誘發(fā)抑郁癥患者產(chǎn)生面部特征是設計有效實驗范式的首要前提.但目前所采用的誘發(fā)題材和展現(xiàn)方式仍存有不少爭議,需要從誘發(fā)方式、設備選擇以及量表評定等角度研究出一套完整標準、適用臨床場景并便于推廣應用的實驗范式.
2)數(shù)據(jù)集的完善.近年來,AVEC數(shù)據(jù)庫因其樣本量大、支持多模態(tài)的優(yōu)勢備受青睞,但其抑郁與健康樣本數(shù)量不平衡的問題會對識別模型造成偏差,雖然已有研究提出了隨機抽樣[59]、數(shù)據(jù)增強[60]和生成對抗[61]等數(shù)據(jù)平衡方式,但仍沒有解決根本問題.此外,被試的性別、年齡、受教育經(jīng)歷等因素同樣會對模型帶來偏差,但因樣本數(shù)量較少,這些因素并沒有得到重視.因此,構(gòu)建各因素平衡的完善的數(shù)據(jù)集是今后研究的方向之一.
3)診斷模型的優(yōu)化.當前研究大多利用了人臉識別技術中面部特征的提取方法,而抑郁檢測并不同于個體身份的識別,因而這樣方法可能會忽視對身份鑒別幫助不大但與抑郁相關的信息.因此,結(jié)合抑郁癥的面部特點,構(gòu)建出受個體差異影響小且包含抑郁信息量大的特征提取以及識別模型是未來發(fā)展方向.此外,利用大數(shù)據(jù)量的優(yōu)勢,構(gòu)建端到端的識別模型自適應學習的方法同樣值得探索.同時,如何對抑郁診斷模型做出解釋,幫助臨床醫(yī)生進一步理解抑郁癥同樣有研究價值.
4)多模態(tài)融合實施診斷.已有研究表明,抑郁癥患者的聲音及其語義特征與正常人存在顯著差異[62,63].實驗采集視覺特征的同時可以采集到語音信號,融合視頻、音頻和文本信息進行多方位、多模態(tài)的診斷是值得今后深入探究的發(fā)展方向.
本文從抑郁癥患者的面部行為特點入手,綜合介紹了目前常用的誘發(fā)實驗范式、現(xiàn)有面部視覺特征公開數(shù)據(jù)庫及基于面部視覺特征的抑郁癥診斷的最新研究成果,最后簡要討論了存在問題與發(fā)展動向.相信隨著生物醫(yī)學以及計算機視覺技術的不斷發(fā)展,具有高效識別能力、低廉成本特色的基于面部視覺特征快速檢測抑郁癥診斷新方法能夠及早面世,給醫(yī)生和患者雙方帶來快捷方便.