支瑞聰, 周才霞
(北京科技大學 計算機與通信工程學院, 北京 100083)
國際疼痛研究協(xié)會將“疼痛”定義為“與實際或潛在的組織損傷相關(guān)的令人不快的感覺和情緒體驗, 或?qū)Υ祟悡p傷的描述”.疼痛在醫(yī)學上被當作一個重要指標[1], 正確地判斷疼痛能夠讓治療更加有效, 但目前沒有直接高效檢測疼痛的簡單方法.疼痛檢測的黃金準則是病人的“自我報告”[2-4], 然而這不是對所有病人都適用的一種方法, 例如對于嬰兒、具有語言障礙的人[5]來說, 這種方法就無法實施.對于此類患者, 目前由其代理人, 如專業(yè)的醫(yī)療人士、嬰兒的父母等, 來評估疼痛并進行治療[6].這種方法帶來的另一個問題是評估的不連續(xù)性和不一致性, 而且需要代理人具有非常專業(yè)的醫(yī)療知識, 這對勞動力的需求非常高[7].為了克服上述問題, 很多研究人員都開展了疼痛自動識別方法的探索中, 特別是UNBC-McMaster (McMaster University and University of Northern British Columbia)肩痛數(shù)據(jù)庫[8]和BioVid 熱痛數(shù)據(jù)庫[9]的公布, 推動了這一領(lǐng)域的發(fā)展.
疼痛發(fā)生時會在臉上顯露出來以表達經(jīng)歷痛苦的感覺, 臉上顯露的疼痛表情還可以提供有關(guān)疼痛強度的信息.盡管自我報告的疼痛和面部疼痛表達之間的相關(guān)性存在爭議[10], 但許多文獻發(fā)現(xiàn)這兩者之間存在顯著的關(guān)系[11,12].然而從面部圖像或視頻自動評估疼痛水平是相當具有挑戰(zhàn)性的.這不僅是因為在疼痛與非疼痛面部框架之間缺乏足夠的視覺差異來發(fā)現(xiàn)與疼痛相關(guān)的特征, 也因為存在外部因素導致疼痛表達的復雜性, 如“痛著微笑”現(xiàn)象、性別差異(男性與女性的體驗方式)等對疼痛的影響[13-15].因此除了利用面部圖像的空間[16]和時間信息[17]外, 面部質(zhì)量[18-23]和面部捕獲模態(tài)[24]、頭部姿勢[25]、身體運動[26-28]、語音[29-31]和生理指標[27,32]等許多其他因素也在疼痛自動評估中起了重要作用[33].
本文內(nèi)容安排如下: 第1 節(jié)介紹了疼痛特征的提取方法, 并據(jù)此將現(xiàn)有的代表性研究分為基于行為的、基于語音的、基于生理的、基于多模態(tài)的, 這是本文的主體章節(jié); 第2 節(jié)中介紹了與疼痛研究相關(guān)常見的數(shù)據(jù)庫, 以及該數(shù)據(jù)庫的獲取方式、規(guī)模; 第3 節(jié)介紹了疼痛識別任務(wù)中使用到的常見分類器; 第4 節(jié)說明了疼痛自動識別領(lǐng)域發(fā)展的挑戰(zhàn)及方向; 最后在第5 節(jié)中進行總結(jié).
一個疼痛自動識別模型的設(shè)計主要分為以下過程(圖1): 首先對選取的原始數(shù)據(jù)進行裁剪、旋轉(zhuǎn)等預處理以減少干擾信息, 隨后根據(jù)實驗方案對預處理后數(shù)據(jù)提取特征, 然后將提取出的特征輸入到預先選擇或設(shè)計好的分類器中進行訓練學習, 對分類器的輸出結(jié)果進行各項指數(shù)計算來判斷這個疼痛自動識別模型的好壞.本文主要根據(jù)所提取的特征將近幾年該領(lǐng)域的研究成果進行分類匯總.我們通過查看醫(yī)療專業(yè)人員對成人、嬰兒進行疼痛評估的量表(如NIPS、COMFORT量表等[34,35]), 將特征分成基于行為的、基于語音的、基于生理的以及多模態(tài)的來進行介紹(圖2).
圖1 疼痛自動識別模型的設(shè)計
與疼痛相關(guān)的評判標準中, 行為的變化是肉眼可見的明顯變化之一, 且記錄過程簡單.因此, 有大量文獻基于這方面進行探討.我們將行為方面的特征分為基于面部表情的和基于身體運動的來進行介紹.
1.1.1 基于面部表情的特征
面部表情是疼痛的最常見的指標之一[36], 所有目前公開發(fā)布的疼痛相關(guān)數(shù)據(jù)庫面部表情都是必不可少的一部分.疼痛的面部表情被定義為與疼痛刺激相關(guān)的面部肌肉的運動和扭曲, 面部運動可以由活動單元(AU)描述[37].與成人疼痛相關(guān)的AU[38]包括眉毛下垂(AU4), 臉頰抬高(AU6), 眼瞼收緊(AU7), 鼻子皺紋(AU9), 上唇抬高(AU10), 斜唇抬起(AU12), 水平唇拉伸(AU20), 嘴唇分離(AU25), 下頜下垂(AU26), 嘴拉伸(AU27)和閉眼(AU43).與嬰兒疼痛相關(guān)的AU[39]包括鼻唇溝的加深, 眉毛下垂, 眼睛變窄, 垂直和水平的嘴唇伸展, 唇部噘起, 唇部開口, 舌頭突出, 繃緊的舌頭和下巴顫動.
圖2 疼痛自動識別方法框架
根據(jù)特征提取的對象的差異, 將基于面部表情識別的方法分為基于靜態(tài)圖像的、基于序列的和基于面部動作編碼系統(tǒng)(Facial Action Coding System,FACS)的.基于靜態(tài)圖像的特征提取可能會丟失時間上的一些與疼痛相關(guān)的信息, 造成識別率低下; 基于序列的特征同時獲得空間信息和時間信息, 但因此增加了運算復雜度; 基于靜態(tài)圖像和基于序列的都是對全臉進行分析的, 而基于FACS 的是對人臉肌肉區(qū)域進行分析, 檢測是否發(fā)生與疼痛相關(guān)的活動單元.
1.1.1.1 基于靜態(tài)圖像的特征
對靜態(tài)圖像進行分析時, 確定人臉位置后, 由于我們無法使用時間和空間上的信息, 因此我們利用圖像標志點間的關(guān)系、像素點間的關(guān)系等來構(gòu)造特征向量進行疼痛識別, 其中基于標志點之間關(guān)系的即為幾何特征; 基于像素點間關(guān)系的即為外觀特征.基于幾何特征的方法是早期的人臉識別算法[40-42], 但由于疼痛表達的復雜性, 在靜態(tài)圖像上利用幾何特征來進行疼痛識別十分困難, 相關(guān)文獻幾乎沒有.但是加上時間信息或者紋理特征的幾何特征識別性比較理想, 會在后面進行介紹.本節(jié)將基于外觀的特征分為基于像素點間相對位置和基于像素點間數(shù)學變化來進行介紹.
1.1.1.1.1 基于像素點間相對位置的特征
記錄像素點間相對位置的常用特征是局部二值模式(Local Binary Pattern, LBP), 它是一種用來描述圖像局部紋理特征的算子, 計算簡單, 所以LBP 以及LBP 的變體被廣泛應(yīng)用于人臉特征提取[43-45].原始的LBP 算子定義為在 3×3的窗口內(nèi), 以窗口中心像素為閾值, 將相鄰的8 個像素的灰度值與其進行比較, 若周圍像素值大于中心像素值, 則該像素點的位置被標記為1, 否則為0.這樣, 3×3鄰域內(nèi)的8 個點經(jīng)比較可產(chǎn)生8 位二進制數(shù)(通常轉(zhuǎn)換為十進制數(shù)即LBP 碼, 共256 種), 即得到該窗口中心像素點的LBP 值, 并用這個值來反映該區(qū)域的紋理信息.這種LBP 算子只覆蓋了一個固定范圍內(nèi)的小區(qū)域, 可以通過將 3×3鄰域換為圓形區(qū)域來改進; 原始LBP 算子具有灰度不變性不具有旋轉(zhuǎn)不變形, 通過不斷旋轉(zhuǎn)圓形鄰域得到一系列初始定義的LBP 值, 取其最小值作為該鄰域的LBP 值來保證旋轉(zhuǎn)不變性.
Aung 等[29]為了檢測Emopain 數(shù)據(jù)庫疼痛存在與否, 采用LBP 特征和留一法交叉驗證來訓練SVM, 識別精度相比UNBC 肩痛數(shù)據(jù)庫較低, 這可以通過數(shù)據(jù)集性質(zhì)之間的差異來解釋: Emopain 數(shù)據(jù)庫由長時間遭受慢性疼痛的參與者組成, 他們的許多表達被抑制,這進一步使識別任務(wù)復雜化, 也體現(xiàn)了自然疼痛表情識別的難度很大.Nanni 等[46]提出使用LBP 紋理描述符及其變體(局部三元模式Local Ternary Pattern、細長二元模式Elongated Binary Pattern 和細長三元模式Elongated Ternary Pattern)檢測嬰兒疼痛表達的方法.在預處理階段, 對圖像進行調(diào)整大小、對齊、裁剪以獲得精確的面部區(qū)域, 并將其劃分為 25 ×25維的塊或單元格.為了選擇最有代表的單元格, 將SFFS 特征選擇算法應(yīng)用于訓練集, 結(jié)果表明將整個圖像分成單元格可以改善性能.Li 等[47]使用約束局部模型(CLM)進行嬰兒不適檢測, 將面部形狀與檢測到的面部區(qū)域相對應(yīng).之后, 通過在相似性標準化外觀(SAPP)上使用細長局部二值模式(ELBP)來提取表達特征.
由于數(shù)據(jù)收集和標記的困難, 在實際應(yīng)用中特定人員數(shù)據(jù)非常稀少.從稀疏數(shù)據(jù)中學習可能會嚴重過度擬合, 因此Chen 等[48]提出通過遷移學習來學習特定于人的面部表情模型.通過傳遞來自其他人的信息知識, 它允許我們僅用少量某個人的特定數(shù)據(jù)來學習針對新對象的準確人的特定模型.實驗在UNBC 肩痛數(shù)據(jù)庫上測試, 圓形區(qū)域的LBP 算子用作實驗中的面部圖像特征, 實驗結(jié)果相比較Lucey 等[8]稍有提升, 而且訓練時間顯著縮短.
1.1.1.1.2 基于像素點數(shù)學變化的特征
像素點數(shù)學變化中最常見的是利用主動外觀模型(Active Appearance Model, AAM)和離散余弦變換(Discrete Cosine Transform, DCT).AAM 是廣泛應(yīng)用于模式識別領(lǐng)域的一種特征點提取方法[8,49].基于AAM 的人臉特征定位方法在建立人臉模型過程中, 不但考慮局部特征信息, 而且綜合考慮到全局形狀和紋理信息, 通過對人臉形狀特征和紋理特征進行統(tǒng)計分析, 建立人臉混合模型, 即為最終對應(yīng)的AAM 模型[50].DCT 變換是與傅里葉變換相關(guān)的一種變換, 它與離散傅里葉變換類似, 但是只使用實數(shù).
Lucey 等[8]利用AAM 形狀和外觀來跟蹤患者的面部, 使用跟蹤到的信息從面部推導出相似的歸一化形狀(SPTS)和規(guī)范的歸一化外觀(CAPP)作為特征.Rupenga 等[51]用AAM 提取出特征, 并在UNBC 數(shù)據(jù)庫上評估ELM(超限學習機)和SVM 兩種分類器在疼痛事件檢測中的有效性.Kaltwang 等[52]提出基于面部表情對疼痛進行持續(xù)疼痛估計的模型中將離散余弦變換(DCT)應(yīng)用于對齊的面部圖像而獲得外觀特征.Agrawal 等[53]首先提取面部區(qū)域, 再用Gabor 過濾器提取特征.Fotiadou 等[54]討論了使用AAM 檢測急性疼痛過程中嬰兒的疼痛表現(xiàn), 從跟蹤的面部提取SPTS、SAPP(相似性標準化外觀)和CAPP.8 名嬰兒的15 個視頻被用于構(gòu)建自動化不適檢測系統(tǒng), 結(jié)果表明所提出的系統(tǒng)可以自動檢測不適(AUC=98%).
基于AAM 模型的疼痛檢測算法的限制是面部標注問題, 當已知面部的初始形狀偏差太大、外觀模型估計失敗時, AAM 搜索不到一個很好的匹配來標注面部[55], AAM 的另一個限制是其訓練階段計算復雜性較高.
此外, 進行逐幀標記的成本非常大, 因此Ashraf 等[49]研究序列級分類情況.提供了一種利用AAM 模型非剛性配準的方法來分離外觀和形狀分量, 利用AAM模型提取出SPTS、CAPP 和SAPP.在UNBC 肩痛數(shù)據(jù)庫上利用SVM 分類器進行分類, 實驗結(jié)果為對于幀級疼痛檢測, 正確率為82%, 誤報率為30%; 序列水平標記的相應(yīng)比率分別為77%和44%.結(jié)果表明, 學習幀級標簽最適合于幀級檢測疼痛.然而, 即使在他們未被直接訓練的任務(wù)上進行評估, 序列水平訓練的分類也比幾率好得多.這個結(jié)果推動自動疼痛識別的研究人員在未來標記數(shù)據(jù)集時應(yīng)該如何使用資源問題的探索.繼續(xù)在幀級標記確保學習的數(shù)據(jù)集的大小適中或采用混合標記策略在幀中標記一些部分, 在序列級別標記某些部分, 以便在更大的數(shù)據(jù)集中學習.
基于幀的疼痛自動識別方法匯總見表1.
1.1.1.2 基于序列的特征
基于靜態(tài)圖像的特征丟失了時間信息, 因此我們將靜態(tài)圖像加上時間信息組合成序列, 并從其中提取特征, 從而達到更好的識別效果.在序列上提取特征的方法主要包括光流法、多示例學習、時空局部描述符以及深度學習等.
1.1.1.2.1 光流法提取的特征
光流是一種眾所周知的運動估計方法, 其通過直接估計連續(xù)視頻幀上的像素速度來工作.它依據(jù)亮度守恒原理, 并提供密集的像素到像素的對應(yīng)關(guān)系.將光流法用于人臉提取相關(guān)特征的實驗已有很多, Zhao 等在[56]中應(yīng)用了光流法和累積光流法取得很好的實驗結(jié)果, 表明光流法適用于該領(lǐng)域.
Zamzmi 等[57]提出光流法來檢測視頻中嬰兒的疼痛表現(xiàn).在預處理階段, 在每個幀中檢測嬰兒的面部并提取68 個面部點.然后將這些點用于對齊面部, 將其裁剪, 并將其分成4 個區(qū)域.為了提取與疼痛相關(guān)的特征, 在連續(xù)幀之間計算光學流動矢量并用于估計光學應(yīng)變量值, 以測量面部表情發(fā)生期間的面部形變.然后,將峰值檢測器應(yīng)用于應(yīng)變曲線, 以找到對應(yīng)于面部表情的最大應(yīng)變量值.
與疼痛相關(guān)的數(shù)據(jù)庫在采集過程中保持了亮度恒定, 保證照明條件良好且不變, 因此數(shù)據(jù)比較適合采用光流法處理.但是在現(xiàn)實情況下光流法的亮度恒定不變和小運動假設(shè)不容易滿足, 時效性與精確性難以兼得.在對于運動場景和目標無有效認知、運動模型難以預測、目標特征無法確定的情況下, 若使用光流法構(gòu)建稠密光流場, 并且使用金字塔算法補充對于大幅度運動的檢測精度, 可以有效提高檢測精度.但是, 這樣的算法復雜度很高, 計算量巨大, 時效性較差.
1.1.1.2.2 多示例學習提取的特征
多示例學習(MIL)[58]可以被描述為: 假設(shè)訓練數(shù)據(jù)集中的每個數(shù)據(jù)是一個包(bag), 每個包都是一個示例(instance)的集合, 每個包都有一個訓練標記, 如果包中存在一個以上正標記的示例, 則包被標為正標記; 而對于一個負標記的包, 其中所有的示例均為負標記.通過定義可以看出, 與監(jiān)督學習相比, 多示例學習數(shù)據(jù)集中的樣本示例的標記并不都是已知的, 而監(jiān)督學習的訓練樣本集中, 每個示例都被標記; 與非監(jiān)督學習相比,多示例學習僅僅只有包的標記是已知的, 而非監(jiān)督學習樣本所有示例均沒有標記.多示例學習是一種用于解決不同的弱監(jiān)督問題的流行的建??蚣?
表1 基于幀的疼痛自動識別方法匯總
Sikka 等[59]提出一種多段結(jié)合的多示例學習方法,每個序列表示為包含多個段的包, 這些片段通過序列的多個聚類或運行多尺度時間掃描窗口生成, 并且使用詞袋(BoW)來表示.這種方法數(shù)據(jù)的表示不是作為單獨的幀而是作為段來結(jié)合時間動態(tài), 而且做到僅使用序列級正確標簽來檢測和定位疼痛的幀, 在試驗過程中提取了多個段, 這適用于信號在視頻中具有不確定的時間位置和持續(xù)時間的情況.Ruiz 等[60]提出了新的多實例動態(tài)序數(shù)隨機場(MI-DORF)模型, 這個模型將袋內(nèi)的實例標簽視為潛在的序數(shù)狀態(tài).MIL 假設(shè)通過將與袋和實例標簽相關(guān)的高階基數(shù)潛力結(jié)合到能量函數(shù)中來建模, 這種方法充分考慮目標數(shù)據(jù)中的時間和序數(shù)兩種類型的結(jié)構(gòu).
UNBC、EmoPain 數(shù)據(jù)庫由人工標注時, 因數(shù)據(jù)量巨大, 難免會出現(xiàn)一些錯誤, 是典型的弱監(jiān)督學習問題,這類問題適合應(yīng)用多示例學習來建模解決.多示例學習中存在的問題就是示例標簽的不穩(wěn)定性, 也就是說,如果訓練集出現(xiàn)了輕微的變動(例如數(shù)量略微增加和減少), 那么輸出的示例標簽就會出現(xiàn)不穩(wěn)定的情況.
1.1.1.2.3 時空描述符特征
僅通過面部表情的靜態(tài)圖像來準確判斷疼痛強度十分困難, 可以利用靜態(tài)圖像的上下文信息[61], 也就是在靜態(tài)圖像的時間序列、空間序列上提取相關(guān)特征.
Khan 等[62]使用Viola-Jones 算法[63]檢測視頻中的人臉, 將檢測到的面部分成兩個相等的部分, 上面部分包括鼻子上部、眼睛和皺紋區(qū)域, 下部包括嘴部區(qū)域和鼻子下部, 從上下部分分別提取PHOG(金字塔直方圖)和PLBP(金字塔局部二進制模式)特征, 并將它們連接起來, 形成最終的特征向量, PLBP 是LBP 描述符的基于金字塔的空間表示.
Yang 等[64]提出的方法包括5 個主要步驟.首先根據(jù)眼睛坐標和其他面部標注檢測、分割和對齊人臉圖像.然后, 分別提取來自視頻幀的空間紋理特征和來自視頻序列的時空特征, 即LBP, 局部相位量化(LPQ)和二值化統(tǒng)計圖像特征(BSIF), 它們都是使用3 個正交平面(TOP)從視頻中提取的.使用早期融合將得到的特征向量組合, 作為SVM 的輸入, 從而判別疼痛的表達是否存在于序列中.Werner 等[65]提出了一個新的特征集來描述面部動作及其動態(tài), 將其稱為面部活動描述符.這些描述符通過從時間序列及其第一和第二導數(shù)中提取特征, 將特征信號(幀級特征的時間序列)濃縮成信號描述符.新提出來的特征集的維度較低, 而且運用了時間上的信息.Bourou 等[66]基于Openface 跟蹤面部和檢測標注點并估計頭部姿勢, 從感興趣的區(qū)域提取若干距離及灰度、顏色強度值.隨后, 在整個視頻持續(xù)時間內(nèi), 根據(jù)每個特征的時間序列計算統(tǒng)計指標,如均值、中位數(shù)、模式、最小值、最大值、標準差、方差、平均絕對偏差、偏度、峰度、熵、四分位數(shù)范圍和相關(guān)系數(shù).鼻子和眉毛皺紋和鼻唇溝用于灰度強度值統(tǒng)計, 以估計疼痛表達.使用面頰來提取4 個顏色通道中的值, 以估計面部變紅.通過套索回歸確定最具信息性的特征.特征選擇首次表明, 在YCbCr 顏色空間中編碼的面部顏色確實是用于疼痛表達的高信息量.與Werner 等[65]相比, 該研究中鼻唇溝相關(guān)特征的相對重要性更高具有對稱性.Chen 等[17]提出一種將幀級特征P-HOG、段級特征HOG-TOP, 以及最大池化生成的序列級全局P-HOG 和HOG-TOP 結(jié)合.Zhi 等[67]提出了一種動態(tài)疼痛面部表情表示和融合方案, 用于自動嬰兒疼痛評估, 結(jié)合時間外觀面部特征和時間幾何面部特征, 構(gòu)建不同的自動疼痛評估模型以更好地理解影響嬰兒疼痛反應(yīng)性的各種因素.
使用時空描述符表示的特征維度較低, 但是特征集的特征數(shù)目較多, 需要計算的特征較多, 分類器需要學習的特征也比較多.應(yīng)用時空描述符方法的關(guān)鍵在于如何找到更具有特異性的特征, 需要在實驗中不斷總結(jié)、嘗試.
1.1.1.2.4 基于深度學習提取的特征
深度學習是對人腦處理信息時所采用方法的抽象總結(jié)和模擬.未經(jīng)處理的數(shù)據(jù)(圖像, 聲音信息或者文字信息)被輸入至輸出層的“輸入單元”; 輸入信息經(jīng)過一定的映射輸出至輸出層的“輸出節(jié)點”, 映射的方法根據(jù)用戶定義.深度學習是一種通過多層神經(jīng)網(wǎng)絡(luò)對信息進行抽取和表示, 并實現(xiàn)分類、檢測等復雜任務(wù)的算法架構(gòu).深度學習是近十年來人工智能領(lǐng)域取得的最重要的突破之一, 它在人臉識別方面取得巨大成功[68-72].深度學習架構(gòu)已廣泛用于人臉識別[73-75]、面部表情識別[76-78]和情感檢測[79-81], 近幾年很多研究人員將深度學習應(yīng)用到疼痛識別領(lǐng)域[18,82-84].
Zhou 等[82]將UNBC 視頻序列裁剪出人臉, 再拉平連接成幀向量序列傳入到RCNN 網(wǎng)絡(luò)中預測幀的疼痛強度.Wang 等[83]使用現(xiàn)有的深度學習網(wǎng)絡(luò)結(jié)構(gòu)進行微調(diào), 將現(xiàn)有效果最佳的面部對準網(wǎng)絡(luò)結(jié)構(gòu)[85]去除全連接層而取其卷積層, 然后加入兩個新的全連接層.為了防止過擬合, 將原有網(wǎng)絡(luò)的全連接層的隱藏單元數(shù)從512 改為50, 另外加上center loss[85]來正則化網(wǎng)絡(luò)的回歸損失函數(shù).
Kharghanian 等[86]提出使用無監(jiān)督學習特征的一種方法來實現(xiàn)連續(xù)的疼痛檢測, 使用卷積深度置信網(wǎng)絡(luò)(CDBN)提取特征.提取的特征包括疼痛圖像的不同屬性, 例如頭部運動、形狀和外觀信息.Martinez 等[87]提出了一種層次學習框架, 采用雙向長短期記憶遞歸神經(jīng)網(wǎng)絡(luò)(LSTM-RNN)來估計從面部圖像中提取的面部標注點的PSPI (一種疼痛評估方式, PSPI=AU4+max (AU6, AU7)+max (AU9, AU10)+AU43).然后, PSPI用作隱藏條件隨機場(HCRF)的輸入, 以估計受試者的VAS(視覺類比量表).Egede 等[88]結(jié)合手工提取的特征和深度學習來進行疼痛自動評估.將時間信息包括到學習過程中, 時間t 處的圖像的特征表示包括來自前一幀和后一幀的信息, 將提取出的圖像區(qū)域和二進制掩碼由CNN 學習得到深度學習特征.Rodriguez 等[89]利用CNN-LSTM 模型在數(shù)據(jù)庫提供的面部標記點來裁剪和正面化面部圖像, 并作為CNN 的輸入來學習特征, 然后對無痛數(shù)據(jù)進行欠采樣來平衡數(shù)據(jù)的不均勻分布.
深度學習模型將特征提取和分類過程進行聯(lián)動優(yōu)化, 并在疼痛自動識別中取得了有競爭力的結(jié)果.然而,深度學習也存在一些不足.首先, 網(wǎng)絡(luò)結(jié)構(gòu)復雜致使調(diào)參過程復雜, 且導致結(jié)果的可重復性低; 其次, 深度學習很容易造成過擬合現(xiàn)象, 通過數(shù)據(jù)擴充、預訓練模型微調(diào)、dropout、批標準化等操作可有效改善但不能完全解決; 最后深度學習的網(wǎng)絡(luò)需要大量數(shù)據(jù)才能獲得良好的性能, 而目前在疼痛識別方面公開的數(shù)據(jù)集數(shù)量非常有限, 這使得網(wǎng)絡(luò)模型在學習特征時候無法充分學習到它需要的信息, 阻礙了它在自動疼痛識別中的應(yīng)用.基于序列的疼痛自動識別方法匯總見表2.
1.1.1.3 基于FACS 的方法
面部表情可以表示疼痛存在和嚴重程度, 是一個具有敏感性和特異性的行為指標.上一章節(jié)我們主要討論了針對面部整體進行分析的疼痛自動分析, 此外也可以通過FACS 開展疼痛評估.面部動作編碼系統(tǒng)通過使用稱為AU 的46 個基于解剖學的組件運動來測量面部表情.面部表情自動識別的重大進展推動了其在基于FACS 的情感計算問題中的眾多應(yīng)用[90].
Sikka 等[6]利用計算機表達識別工具箱(CE RT),對闌尾切除術(shù)后兒童疼痛的面部表情進行自動分析.實驗的對象是在過去24 小時內(nèi)接受腹腔鏡闌尾切除術(shù)的50 名年齡在5 至18 歲的青少年, 利用計算機視覺機器學習(CVML)模型進行疼痛二元分析和疼痛評級.CVML 疼痛評估模型在檢測臨床顯著疼痛和評估術(shù)后疼痛嚴重性方面表現(xiàn)良好, CVML 模型與常用的代理性疼痛評估方法一樣, 表明在手術(shù)后監(jiān)測兒科疼痛狀態(tài)的功效.在成人方面, Bartlett 等在[91]中利用CERT 來檢查真正疼痛和虛假疼痛, 該研究成果進一步表明面部表情的動態(tài)變化是人類情感表達的重要區(qū)別特征.
基于FACS 的方法的主要挑戰(zhàn)是在每個視頻幀中人工標記AU 需要大量時間.據(jù)報道, 人類專家需要大約3 小時來編碼1 分鐘的視頻序列.降低標簽成本的方法是開發(fā)一個可靠的系統(tǒng)來自動檢測每個幀中的AU 并將其用作標簽.
表2 基于序列的疼痛自動識別方法匯總
1.1.2 基于身體運動的特征
在疼痛發(fā)生過程中, 除了面部表情的表達, 身體運動也是一個重要的參照指標, 尤其是對慢性病患者和嬰兒來說, 在他們的疼痛發(fā)生過程中, 身體運動的變化會尤為明顯.另外頭部運動和姿勢[8]也可以作為衡量疼痛的標準, Haque 等[21]在BioVid 熱痛數(shù)據(jù)庫、UNBC肩痛數(shù)據(jù)庫和BP4D 數(shù)據(jù)庫上進行了頭部姿勢匯總、頭部運動匯總、特定頭部姿勢發(fā)生、頭部運動聚類的統(tǒng)計分析, 發(fā)現(xiàn)疼痛伴隨著頭部姿勢和運動, 其傾向于向下或朝向疼痛部位.
在成人方面, 大部分的疼痛自動識別的研究都是圍繞面部表情或與生理特征相結(jié)合的多模態(tài)來開展的,這是因為在疼痛領(lǐng)域UNBC 肩痛數(shù)據(jù)庫和BioVid 熱痛數(shù)據(jù)庫的促進作用.對于身體運動的疼痛評估研究相對較少.Olugbade 等[92]提出在身體運動期間根據(jù)特征區(qū)分低慢性疼痛患者、高慢性疼痛患者和非慢性疼痛患者.實驗通過兩層SVM 或隨機森林分類器進行分類, 在EmoPain 數(shù)據(jù)庫上進行驗證.實驗提取了完整軀干屈曲練習的特征集和坐到站練習的特征集, 并加上抑郁分數(shù), 分別來區(qū)分這兩個動作.在完整軀干屈曲中,最好的實驗結(jié)果是在SVM 模型下利用身體運動特征的優(yōu)化, 得到94%的準確率; 在坐到站實驗中, 最好的實驗結(jié)果是80%的準確率.Wang 等[93]首次將諸如LSTM 之類的遞歸神經(jīng)網(wǎng)絡(luò)用于檢測保護行為, 在EmoPain 數(shù)據(jù)庫上達到81.5%的準確率.
當嬰兒經(jīng)歷疼痛時, 嬰兒往往會搖頭, 伸展手臂或腿, 并伸展手指.Stahl 等[94]提出了一種基于光流的算法來預測患有腦癱(CP)疾病風險的嬰兒.采用的數(shù)據(jù)庫包括在10-18 周齡范圍內(nèi)為82 名嬰兒(15 名被診斷為CP 和67 名健康者)記錄的136 個視頻.對于每個視頻, 應(yīng)用光流以生成運動軌跡.然后, 將這些軌跡轉(zhuǎn)移到時間相關(guān)的信號, 并進一步分析以提取3 種類型的特征: 小波系數(shù), 絕對運動距離和相對頻率特征.小波系數(shù)測量嬰兒運動的種類, 另外兩個特征測量運動模式中的活動和發(fā)生的頻率.對于嬰兒分為受損或未受損的分類, 線性SVM 在使用相對頻率特征, 絕對運動距離和小波系數(shù)訓練時分別達到93.7±2.1%,91.7±2.2%和84.7±1.8%平均準確率.
一般來說, 突發(fā)刺激、慢性疾病患者和嬰兒的疼痛發(fā)生過程中更容易引發(fā)身體上的運動, 而對其他人來說疼痛發(fā)生的過程中身體運動不一定存在, 而且目前對于成人來說只在EmoPain 數(shù)據(jù)集采集了參與者身體運動的信息, 因此基于身體運動來進行疼痛分析的實驗很少.此外, 僅通過身體運動來判別疼痛不夠全面,我們應(yīng)將其他特征和身體運動相結(jié)合, 相關(guān)內(nèi)容將在第4 節(jié)進行介紹.
在疼痛表達過程中, 除了行為特征外, 語音特征也是一個重要因素, 特別是對于嬰兒來說, 啼哭是非常重要的一個信號.對于成人來說, 由于在疼痛過程中可能很少會發(fā)出語音信息, 只有少部分的數(shù)據(jù)集記錄與語音相關(guān)的信息, 與成人相關(guān)的基于語音的疼痛識別的相研究還很少見, EmoPain、SenseEmotion 數(shù)據(jù)庫中有相關(guān)語音記錄, 但還沒被適當運用.Thiam 等[95]使用SenseEmotion 數(shù)據(jù)庫上的音頻特征進行二分類任務(wù)得到69±15%的準確率, 效果不太理想.因此接下來重點介紹基于語音的嬰兒疼痛檢測.
嬰兒啼哭是不適、饑餓或疼痛的常見信號[96], 它傳達的信息可以幫助護理人員評估嬰兒的情緒狀態(tài)并做出適當?shù)姆磻?yīng).我們將基于啼哭分析的特征提取方法分為時域方法、頻域方法和倒譜域方法.
1.2.1 時域分析提取的特征
時域分析是關(guān)于時間的信號分析(信號的幅度隨時間的變化).線性預測編碼(LPC)是用于分析聲音的最常見的時域方法之一.LPC 主要原理是使用過去時域樣本的線性組合來預測當前時域樣本.用于嬰兒聲音分析的其他時域特征是能量、幅度和暫停持續(xù)時間.
Vempada 等[30]提出了一種時域方法來檢測與不適相關(guān)的哭泣.所提出的方法在數(shù)據(jù)集上評估, 該數(shù)據(jù)集包括在疼痛(30 個語料庫)、饑餓(60 個語料庫)和濕尿布(30 個語料庫)期間收集的120 個哭泣語料庫.文中沒有提供有關(guān)觸發(fā)疼痛狀態(tài)的刺激信息和數(shù)據(jù)收集程序的信息, 嬰兒的年齡范圍為12-40 周齡.使用索尼數(shù)字記錄儀記錄所有語料庫, 采樣率為44.1 kHz.在特征提取階段, 計算兩個特征: 短時能量(STE), 它是在合適的窗戶樣本值的平方的平均值; 以及在哭泣段內(nèi)暫停持續(xù)時間.部分樣本用于構(gòu)建SVM, 其余樣本用于評估其性能.痛苦哭泣、饑餓哭泣和濕尿布哭泣的識別表現(xiàn)分別為83.33%、27.78%和61.11%, 平均識別率為57.41%.
1.2.2 頻域分析提取的特征
頻域分析顯示信號在特定頻率范圍內(nèi)的分布.基頻(F0)是眾所周知的頻域特性, 表示周期信號的最低頻率.嬰兒的哭聲可以根據(jù)基本頻率分類為:
(1)帶有平滑和諧波結(jié)構(gòu)的發(fā)出嘶嘶聲(phonated cries), 基本頻率范圍為400~500 Hz.
(2)與發(fā)聲的啼聲(phonated cries)相比, 具有較少諧波結(jié)構(gòu)的嗓音.
(3)聲音突然向上移動(高達2000 Hz)的超音速哭聲(Hyperphonated cries).
Pai 等[31]提出了一種光譜方法, 將嬰兒的哭聲分類為嗚咽或有力.這項工作的數(shù)據(jù)庫來自27 名嬰兒, 平均年齡為36 孕周.在急性疼痛程序(即, 足跟穿刺和免疫接種)期間記錄音頻數(shù)據(jù).記錄兩種類型的疼痛哭泣, 嗚咽(14 個樣本)和劇烈哭泣(20 個樣本).記錄樣本的正確標簽由訓練有素的護士使用NIPS 疼痛量表給出.為了獲得每個樣品的功率譜, Welch 的方法應(yīng)用于20 毫秒的窗口.獲得光譜后, 從每個樣本中提取線性預測系數(shù)(LPC)以及其他統(tǒng)計數(shù)據(jù)(例如, 平均值和標準偏差)并用于訓練KNN, 使用10 倍交叉驗證評估的分類器的平均準確率為76.47%.
1.2.3 倒譜域分析提取的特征
通過采用信號頻譜的對數(shù)的逆傅立葉變換(IFT)來生成信號的倒譜域.Mel 頻率倒譜系數(shù)(MFCC)是一種常見的倒譜域方法, 用于從聲音信號中提取有用且有代表性的特征集(即系數(shù)), 并丟棄噪聲和無用的特征.
Abdulaziz 和Ahmad 等[96]引入了一種倒譜域方法,將嬰兒哭泣分類為疼痛或無痛(即饑餓和憤怒).對于年齡范圍從新生兒到12 個月大的嬰兒, 記錄了一組150 個疼痛樣本和30 個無痛樣本.在當?shù)蒯t(yī)院的NICU(新生兒重癥監(jiān)護病房)中的常規(guī)免疫程序期間記錄疼痛樣本, 在嬰兒家中記錄無痛樣本.在180 個記錄的樣本中, 通過創(chuàng)建一個第二段獲得881 個樣本.然后使用這些樣本提取兩組特征, 即Mel 頻率倒譜系數(shù)(12 個MFCC 系數(shù))和線性預測倒譜系數(shù)(16 個LPCC 系數(shù)),并將提取的特征送到用縮放共軛梯度算法訓練的神經(jīng)網(wǎng)絡(luò).該方法分別對LPCC 和MFCC 的準確率分別達到68.5%和76.2%.該結(jié)果表明, MFCC 在檢測嬰兒疼痛哭泣方面的表現(xiàn)優(yōu)于LPCC 特征.
基于生理測量的疼痛分析可以定義為從參與者的生理反應(yīng)中提取疼痛相關(guān)特征的過程, 疼痛的發(fā)生同時會伴隨生理指標的變化[97].與成人相關(guān)[98]的生理反應(yīng)有心電(ECG)、腦電(EEG)、肌電(EMG)、皮膚電導水平(SCL)等生理信號.與嬰兒疼痛相關(guān)的生理反應(yīng)實例包括生命體征的變化和腦血流動力學活性(腦氧合和疼痛的變化), 適合床邊檢測的腦氧合變化測量方法為近紅外光譜(NIRS), 它使用附著在頭部的小探針測量氧合血紅蛋白(HbO2)和脫氧血紅蛋白(HbH)濃度的微小變化.另外, 體溫大于0.5 的變化也可能預示疾病或者疼痛[28].
在成人方面, Werner 等[99]和Walter 等[100]在Biovid 數(shù)據(jù)庫上進行實驗, 在生理特征方面提取電流皮膚反應(yīng)(GSR)、EMG、ECG 的幅度和變化特征用于檢測疼痛.對單一生理特征來說, GSR 具有顯著優(yōu)勢, 在疼痛強度0 和4 二分類上的正確率為73.8%; 將3 種生理特征結(jié)合會使0 和4 二分類正確率提高到75.6%.Walter 等從生理信號的幅度、頻率、平穩(wěn)性、熵、線性和可變性的數(shù)學分組中提取135 個特征并使用前向傳播進行特征選擇, 采用SVM 進行二分類, 達到77.05%正確率.K?chele 等在文獻[101]中提取的基于生理信號的特征有EMG、ECG、SCL, 實驗結(jié)果表明最具有識別性的生理特征為SCL, 在Biovid 數(shù)據(jù)庫上識別正確率為81.9%.Panavaranan 等[102]通過考慮單個通道的功率譜密度的α 和β 譜對EEG 帶來的影響進行疼痛分類.
在嬰兒方面, Faye 等[103]提出了一種分析28 名患有慢性疼痛的嬰兒(年齡>34 孕周)的心率變異性(HRV)的方法.為了研究慢性疼痛和心血管數(shù)據(jù)之間的關(guān)聯(lián), 使用心率(HR), 呼吸率(RR), 血氧飽和度(SpO2)和高頻變異指數(shù)(HFV I)的平均值進行線性回歸分析, 兩組之間的HRV 顯著下降, 而未發(fā)現(xiàn)RR 和SpO2的顯著變化.結(jié)果顯示HFVI(<0.9 閾值)能夠評估疼痛, 實驗結(jié)果為在ROC 曲線下面積(AUC)為0.81, 說明與嬰兒疼痛發(fā)生最相關(guān)的生命體征為心率.Ranger 等[104]提出了一種基于NIRS 的方法, 通過分析大腦區(qū)域的血液動力學活動來評估嬰兒的慢性疼痛.NIRS 數(shù)據(jù)來源于40 名嬰兒(<12 個月)心臟手術(shù)后的胸腔排出移除過程(T2)、脫掉衣服(T1)和基線(T0)3 個階段的記錄.為了驗證NIRS 數(shù)據(jù)和疼痛刺激之間的關(guān)聯(lián), 對提取的測量進行單變量線性回歸, 結(jié)果顯示疼痛期間HbH 顯著增加.
基于生理特征分析的疼痛檢測在機理解釋方面存在一些挑戰(zhàn)[28], 例如藥物、病理狀況、治療、壓力和對疼痛的恐懼可能直接影響這些特征并降低疼痛測量的可靠性.它還受嬰幼兒的一般健康狀況和年齡的影響, 所以僅通過生理信號來確定疼痛的發(fā)作是不合適的, 應(yīng)該與其他指標結(jié)合使用可獲得更好的結(jié)果.
以上介紹的方法都是基于單個模態(tài)特征的, 但是在疼痛發(fā)生的過程中, 這些模態(tài)是同時存在的, 多模態(tài)評估疼痛具有挑戰(zhàn)性但是非常合理的[105].因此接下來介紹的方法是將面部表情、身體運動、語音以及生理等特征融合的多模態(tài)方法, 并根據(jù)特征融合的時期將方法分為特征層級的融合和決策層級的融合.
1.4.1 特征層級融合得到的特征
特征級融合將所有模態(tài)的特征連接成單個高維特征向量, 然后使用級聯(lián)特征向量來訓練單個分類器以進行分類.據(jù)我們所知, 目前沒有工作在特征層面結(jié)合不同的疼痛指標, 以評估嬰兒的疼痛.
在成人疼痛評估方面, Haque 等[24]利用深度學習方法將提取出來的顏色圖像、熱圖像和深度圖3 種模態(tài)輸入分別進行訓練、特征級融合和決策級融合.早期融合為每個視頻幀生成一個5 維的矩陣做為CNN 的新輸入.晚期融合中, 將各個分類器的輸出集成為第二個堆疊分類器的輸入特征向量, 第二個分類器生成最終判定結(jié)果.在單特征中得到的最好結(jié)果是準確率為18.55%, 融合再進行分類后得到的結(jié)果都有提升.Werner 等[99]提出了將視頻和生物醫(yī)學信號結(jié)合起來用于成人疼痛評估.Thiam 等[95]提取了音頻、幾何描述符、頭部姿勢、LBP-TOP 以及ECG、RSP、EMG、EDA 等生理特征, 用RF 分別做特征級融合和決策級融合, 在SenseEmotion 數(shù)據(jù)庫上做了二分類和多分類任務(wù).
從理論上講, 特征級融合可以比決策級融合具有更高的性能, 因為它包含更豐富的信息.但是, 這種融合程度可能會在實踐中引發(fā)一些問題, 對這些問題的不當處理可能會降低性能.例如, 將不同疼痛模態(tài)的特征連接成單個高維特征向量可能導致維度災難等.特征級融合的另一個問題是由于未能記錄特定模態(tài)或在特定時間無法獲得數(shù)據(jù)而導致的數(shù)據(jù)缺失.
1.4.2 決策層級融合得到的特征
決策級融合旨在將多個分類器的決策或結(jié)果合并為一個單獨的決策.換句話說, 決策級方法考慮了多個分類的結(jié)果, 即每個疼痛指標或模態(tài)的分類, 以確定最終的決定或結(jié)果.Wagner 等[106]提出了幾種不同方法來將結(jié)果結(jié)合起來用于決策.
多數(shù)投票是將不同分類器結(jié)果融合起來的最常見方法之一.在多數(shù)投票方案中, 每個指標貢獻一票(即類別標簽), 并且投票得到的多數(shù)標簽被選擇作為最終決定或結(jié)果.K?chele 等[107]在BioVid 熱痛數(shù)據(jù)庫上利用多模態(tài)進行疼痛自動評估的實驗, 提取了生理信號和面部表情、頭部姿勢; K?chele 等[101]利用生理信號EMG、ECG、SCL 特征以及基于面部幾何距離和基于外觀的LBP-TOP 特征, 此外還介紹了一種自適應(yīng)置信度學習來修改參數(shù).Zamzmi 等[27]利用多數(shù)投票方法將不同的疼痛指標結(jié)合起來, 以開發(fā)多模式疼痛評估系統(tǒng).每種模態(tài)的特征(即, 面部表情, 身體運動和生理信號)被單獨使用以構(gòu)建分類器.Worley 等[108]結(jié)合EEG、EMG、ECG、NIRS 和視頻監(jiān)控到的行為動作特征構(gòu)建疼痛事件監(jiān)測系統(tǒng).
決策級融合的一個主要優(yōu)點是易于實現(xiàn), 因為它依賴于組合不同的分類標簽.這種融合水平可能導致信息丟失(即不同模態(tài)之間相關(guān)信息的丟失), 因為它取決于組合指標是獨立的假設(shè).
由疼痛評估標準的量表可知, 疼痛是由多種模態(tài)信息共同作用的, 如身體運動、語音、生理特征等, 因此, 多模態(tài)的特征融合方法會帶來更多有效信息, 如何將這些信息進行有效結(jié)合利用是研究重點.
基于多模態(tài)的疼痛識別方法匯總?cè)绫?.
目前和疼痛相關(guān)的數(shù)據(jù)庫并不是很多, 而且規(guī)模一般偏小[4], 有些數(shù)據(jù)庫的疼痛表達過程不夠自然, 而且記錄的信息有限.下面從成人和嬰兒兩個方面介紹公開發(fā)布的疼痛數(shù)據(jù)庫.
與成人相關(guān)現(xiàn)在被用于研究最多的是Lucey 等在發(fā)布的UNBC 肩痛數(shù)據(jù)庫[8]和Walter 等在發(fā)布的BioVid 熱痛數(shù)據(jù)庫[9].近兩年, Min 等提出EmoPain多模態(tài)數(shù)據(jù)庫[29], Haque 等提出MIntPAIN多模態(tài)數(shù)據(jù)庫, Velana 等提出的SenseEmotion 多模態(tài)數(shù)據(jù)庫[109],還有一些未經(jīng)公開的數(shù)據(jù)庫其具體內(nèi)容我們難以知曉,如文獻[16,110]中提到的自采數(shù)據(jù)庫.與疼痛相關(guān)數(shù)據(jù)庫的歸納如表4 所示.
表3 基于多模態(tài)的疼痛自動識別方法匯總
表4 疼痛相關(guān)數(shù)據(jù)庫匯總
2.1.1 UNBC 肩痛數(shù)據(jù)庫
為了促進自動疼痛檢測這項工作, UNBC 的研究人員招募了129 名被自我識別為肩部疼痛問題的參與者(63 名男性, 66 名女性).參與者中1/4 是學生, 其他人來自社區(qū), 包括各種各樣的職業(yè).參與者的肩痛的診斷類型各不相同, 超過一半的參與者報告使用藥物治療疼痛.
所有參與者參加了8 項標準運動范圍的主動和被動測試.在測試期間, 兩臺相機記錄了參與者的面部表情.每次測試結(jié)束后, 參與者利用兩個Likert-type 刻度的卡片對疼痛進行口頭評級.實驗結(jié)束后, 接受過大量訓練的觀察者獨立評估視頻的疼痛強度(OPI), 范圍從0(無疼痛)到5(強烈疼痛), 通過Pearson 相關(guān)系數(shù)評估了評分的高可靠性.此外, 對視頻中每一幀進FACS 編碼并計算PSPI 分數(shù), 其中83.6%的幀具有0 的PSPI得分, 并且16.4%具有PSPI 得分≥1 的幀.
2.1.2 BioVId 熱痛數(shù)據(jù)庫
共有90 名受試者參加了該實驗, 這些受試者是從18-35 歲、36-50 歲、51-65 歲3 個年齡組中招募, 每個年齡組各30 名受試者, 其中男女性各50%.該實驗測量了包括SCL、ECG、EMG 和EEG 在內(nèi)的生物電位, 另外還采集了視頻信號.
視頻錄制過程使用了3 臺相機, 一臺直接放在參與者面前, 另外兩臺放在兩側(cè)來保證參與者自由地移動頭部.相機以2 5 H z 的幀速同步觸發(fā), 并以1388×1038的分辨率記錄.為了同步視頻流和生物反饋數(shù)據(jù), 使用Nexus 設(shè)備記錄了相機觸發(fā)信號的分頻版本以及生物反饋信號.然后自動分析這個已知觸發(fā)信號的記錄, 以補償生物反饋和相機視頻記錄之間的偏移和漂移.此外, 在正面相機上方使用了Kinect 傳感器來記錄深度圖( 64 0×480像素, 大約30 Hz), 彩色圖像(1 28 0×1024像素, 大約10 Hz)以及Kinect 提供的相關(guān)時間戳.
疼痛誘發(fā)通過右臂的熱電極實現(xiàn), 主要包括6 步:第1 步進行閾值校準來確定每個人的特定疼痛水平溫度; 第2 步疼痛刺激, 用由第1 步確定的4 種個體特定疼痛水平隨機刺激參與者.每個水平被刺激20 次, 總共80 次刺激.每個疼痛水平的最高溫度保持4 秒, 刺激之間隨機暫停在8-12 秒之間; 第3 步參與者提出自己的每一個基本情緒; 第4 步用圖片來啟發(fā)情感; 第5 步通過剪輯的視頻來引發(fā)基本情緒; 第6 步用面部肌電圖來重復第2 步.該數(shù)據(jù)庫的疼痛強度由刺激強度確定, 是在視頻序列上標記, 沒有幀上的標記.
2.1.3 多模態(tài)EmoPain 數(shù)據(jù)集
該實驗招募了50 名參與者, 其中22 名慢性腰背痛患者(7 名男性, 15 名女性, 平均年齡50.5 歲).雖然參與者數(shù)量很小, 但該群體是典型的慢性疼痛尋求治療的人.另外招募了28 名沒有慢性腰背痛病史的健康對照參與者(14 名男性, 14 名女性, 平均年齡37.1 歲),用來記錄在沒有疼痛的情況下自然運動的各種方式.
數(shù)據(jù)采集過程將3 個感覺系統(tǒng)連接到參與者: 4 個無線表面肌電探針, 1 個由18 個基于微機電(MEMS)的慣性測量單元(IMU)組成的動作捕捉套裝和1 個頭戴式麥克風.配置了8 個相機讓參與者在運動期間進行更多不受約束的指令, 從而捕獲自然運動.使用兩個麥克風通道捕獲音頻信號, 以48 kHz 的速率和24 位脈沖編碼調(diào)制進行記錄.
對記錄到的數(shù)據(jù)讓評估者進行面部表情標記, 評分為0-1 之間的任意一個值, 將0.02 作為閾值.專家觀看視頻并進行身體運動的標記, 將身體行為運動分為6 類.數(shù)據(jù)集中的總幀數(shù)為585 487, 其中50 071 (占總數(shù)的8.6%)被判斷為疼痛表情.
2.1.4 多模式強度疼痛(MIntPAIN)數(shù)據(jù)庫
MIntPAIN 數(shù)據(jù)庫除了面部表情以外, 包含使用Kinect 捕獲的正面面部彩色圖像和深度數(shù)據(jù), 以及由熱像儀捕獲的熱數(shù)據(jù).EMG 從受試者左臂記錄, EMG信號經(jīng)過預放大和濾波(10-500 Hz)并存儲為1 s 記錄.受試者的感知疼痛強度在10 cm 電子VAS 上評定,指定0 作為感知閾值, 5 作為感受疼痛值, 10 作為可想象的最強烈疼痛.每個刺激由受試者評定并儲存.
MIntPAIN 數(shù)據(jù)庫通過在20 個健康受試者中給予5 種不同水平(0 級至4 級, 其中0 表示無刺激, 4 表示最高刺激程度)的電刺激而獲得多模式疼痛數(shù)據(jù).每個受試者在數(shù)據(jù)捕獲期間展示兩個試驗, 且每個試驗具有40 次疼痛刺激掃描, 最終獲得9366 個實驗視頻.
2.1.5 SenseEmotion 多模態(tài)數(shù)據(jù)庫
SenseEmotion 數(shù)據(jù)庫通過熱刺激前臂來誘發(fā)疼痛,熱刺激的溫度在32-55 ℃(分為T0-T3 等級, T0 32 ℃為無疼痛).在記錄數(shù)據(jù)之前, 確定每個受試者的特定閾值溫度(T1)和耐受溫度(T3), 通過T1 和T3 的平均值來計算中間溫度(T2).每個溫度的刺激隨機施加30 次并保持4 s, 在連續(xù)刺激之間暫停8-12 s.實驗分為兩個階段, 包括15 分鐘的校準時間、30 分鐘的實驗時間和6 分鐘的評估時間, 每個階段結(jié)束后換另外一個手臂進行實驗.此外, 使用情感圖片和聲音刺激來誘發(fā)情感狀態(tài).
SenseEmotion 數(shù)據(jù)庫記錄了SCL、ECG、EMG和RSP (呼吸)生理信號, 視頻信號以及語音信號.
目前與嬰幼兒相關(guān)的疼痛數(shù)據(jù)庫基本尚未公開,下面描述的COPE 和IPAD 的數(shù)據(jù)集均是在疼痛自動識別相關(guān)文獻實驗數(shù)據(jù)庫介紹部分得到的.
2.2.1 COPE 數(shù)據(jù)庫
該數(shù)據(jù)集包括26 名白人嬰兒, 其中一半為女孩,使用尼康D100 數(shù)碼相機拍攝的204 張彩色圖像.嬰兒的年齡從18 小時到3 天不等, 所有嬰兒健康狀況良好.在經(jīng)歷4 種不同的刺激時拍攝嬰兒的面部圖像: 腳跟穿刺期間的疼痛刺激, 嬰兒從一個嬰兒床運送到另一個嬰兒床期間的休息/哭泣刺激, 空氣刺激鼻子和摩擦刺激, 包括用浸泡在酒精中的棉花接受腳跟外側(cè)表面上的摩擦.盡管在COPE 數(shù)據(jù)庫上的研究已經(jīng)取得了相對較好的疼痛識別效果, 但COPE 數(shù)據(jù)庫仍然存在不足: 它是一個相對較小的數(shù)據(jù)庫, 并且只有劇痛表情照片, 沒有任何有關(guān)疼痛程度的信息.此外, 它是一個靜態(tài)圖像數(shù)據(jù)庫, 可提供的疼痛信息有限.
2.2.2 IPAD 數(shù)據(jù)庫[67]
該數(shù)據(jù)集共記錄了31 名嬰兒, 一半的嬰兒是男性,嬰兒的平均孕齡為36.4 周, 范圍為30.4 至40.6(標準差=2.7).采集在Tampa 綜合醫(yī)院新生兒重癥監(jiān)護病房住院期間, 接受常規(guī)疼痛手術(shù)(如足跟穿刺)刺激中嬰兒的疼痛數(shù)據(jù), 持續(xù)時間約為5 s.妊娠37 周前出生的嬰兒稱為早產(chǎn), 足月妊娠為37 周至42 周.
嬰兒視頻錄像由GoPro Hero3 +相機獲取, 捕捉他們的面部表情, 身體動作和聲音.攝像機設(shè)置在正常臨床環(huán)境中, 記錄急性疼痛治療期間嬰兒的自發(fā)反應(yīng).新生兒嬰兒疼痛量表(NIPS)是早產(chǎn)兒和足月兒的可靠且有效的基于指標的疼痛量表.涉及行為和生理指標,如面部表情, 哭泣, 呼吸模式, 手臂運動, 腿部運動和喚醒狀態(tài).嬰兒的疼痛程度分為3 組, 由專業(yè)醫(yī)護人員根據(jù)NIPS 的總疼痛評分決定, 即無疼痛(0~2), 中度疼痛(3~4)或嚴重疼痛(> 4).護士在疼痛過程中每隔1 分鐘評估嬰兒疼痛指標的嚴重程度, 并將總疼痛評分作為嬰兒疼痛評估的標簽信息.
疼痛檢測及評估的決策階段, 需要選擇合適的分類器, 對學習到的特征進行分類.在疼痛識別任務(wù)中,分類目標包括兩大類, 一種是二分類, 即輸出結(jié)果為疼痛或者無疼痛; 另一種為疼痛強度的估計, 輸出結(jié)果為疼痛的等級, 為0-4 或1-4 等.下面我們根據(jù)分類目標來介紹常用的一些分類器以及它們的原理.
早期的研究往往是對受試者進行疼痛檢測, 目標是判斷疼痛的存在與否, 這是一個典型的二分類問題,最常用的分類器是SVM.
SVM 可以分為線性和非線性兩大類.其主要思想是尋找空間中的一個能夠?qū)⑺袛?shù)據(jù)樣本劃分開的超平面, 并且使得所有數(shù)據(jù)到這個超平面的距離最短.給定訓練樣本集, 在特征空間上找到一個分離超平面, 將樣本點分到不同的類.其中存在唯一的分類超平面, 使得幾何間距最大.其中, 距離超平面最近的點為該超平面的支持向量.對于待測點, 通過計算該點相對于超平面的位置進行分類.距離分離超平面的距離越大, 表示分類預測的確信程度越高.在文獻[8,29,46,47,49,54,59,62,64,67,86,94,111-113]均使用SVM 作為分類器來輸出結(jié)果, 在二分類任務(wù)中, 一般SVM 是我們的首選,因為SVM 非常適用于小樣本集而且泛化能力比較好,目前的疼痛數(shù)據(jù)集數(shù)量都很小, SVM 成為疼痛檢測任務(wù)中首先考慮的分類器.
另一種常見的二分類分類器為KNN, KNN 算法的核心思想是如果一個樣本在特征空間中的k 個最相鄰的樣本中的大多數(shù)屬于某一個類別, 則該樣本也屬于這個類別, 并具有這個類別上樣本的特性.該方法在確定分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別, 在文獻[32,57,62]中應(yīng)用了KNN 來進行二分類.KNN 算法非常簡單有效,重復訓練的代價比較低, 但是該算法比較適用于樣本容量比較大的類域的自動分類, 而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分.
每個分類算法都可用來進行二分類, 但有些算法較復雜或者分類性能不如SVM, 故不常用.在實驗過程中可多嘗試幾種分類算法來找到最好的分類結(jié)果,在結(jié)果相差不大的情況下應(yīng)優(yōu)先選擇計算量簡單的.
疼痛強度估計為多分類任務(wù), 我們關(guān)心的結(jié)果不僅是疼痛的存在與否, 更關(guān)心疼痛的強度, 這項任務(wù)在現(xiàn)實生活中的應(yīng)用價值更大, 可根據(jù)疼痛強度來進行相關(guān)治療.
在疼痛強度估計任務(wù)中, 隨機森林是最常用的分類算法.它通過大多數(shù)單個樹的決策來預測給定測試模式的輸出.每個樹都是在一個訓練集中隨機選擇的一個例子構(gòu)建的.文獻[65,66,101]使用RF 來進行疼痛強度估計, RF 在訓練過程中能夠處理很高維度的數(shù)據(jù),不用做特征選擇, 而且能預測各特征之間的互相影響,利用RF 分類器能判斷出各特征的重要性排名, 這在實驗中廣泛應(yīng)用.
多分類中另一個常用分類算法是神經(jīng)網(wǎng)絡(luò)及其變體, 神經(jīng)網(wǎng)絡(luò)是將一組訓練集送入模型, 根據(jù)網(wǎng)絡(luò)的實際輸出與期望輸出間的差別來調(diào)整權(quán)值.Martinez 等[87]使用HCRF 模型進行多分類, Egede 等[88]應(yīng)用RVR,Rodriguez 等[89]使用LSTM.神經(jīng)網(wǎng)絡(luò)的自學習和自適應(yīng)能力比較強, 但是它的學習過程是一個黑盒模型, 而且需要足夠的數(shù)據(jù)才能學到相應(yīng)信息.此外, SVM 也可被應(yīng)用于多類分類任務(wù), 通過1-1 或者1-all 策略實現(xiàn)多類分類[41,107,114,115].
我們目前獲得的實驗結(jié)果與人為誤差水平還有很大的差距, 大部分性能差距不是由識別系統(tǒng)的技術(shù)弱點引起的, 而是由于疼痛及其表達的復雜性所帶來的挑戰(zhàn).在實驗過程中, 我們遇到的挑戰(zhàn)主要有數(shù)據(jù)庫問題、評判疼痛的標準問題、表現(xiàn)力差異等.
首先, 公開發(fā)布的針對疼痛的數(shù)據(jù)庫極大地推進了疼痛自動識別領(lǐng)域工作的推進, 但每個數(shù)據(jù)庫的參與者人數(shù)和數(shù)據(jù)量完全滿足需求.現(xiàn)存的數(shù)據(jù)庫也存在著一些問題, 比如不是自發(fā)情況下引起的疼痛等.數(shù)據(jù)的局限和數(shù)量的不足是制約自動識別系統(tǒng)算法開發(fā)和泛化應(yīng)用的關(guān)鍵問題之一.針對此問題, 目前可以采取的辦法是根據(jù)現(xiàn)有的數(shù)據(jù)來進行數(shù)據(jù)增強或擴充,如裁剪、翻轉(zhuǎn)、旋轉(zhuǎn)、加入噪音點等, 這些數(shù)據(jù)增強方式可以有效的擴充訓練樣本數(shù)量.另外樣本量較小時可以通過遷移學習來訓練.
其次是疼痛評級的PSPI 標準不足.如人實際上感到疼痛, 但PSPI 評分可能為零.此外, 疼痛可能誘發(fā)的不是PSPI 評分中擁有模式(AU4/6/7/9/10/43)的面部反應(yīng).Kunz 等[61]最近的研究表明有幾個“痛苦的面孔”,包含抬起眉毛(AU1/2)或張開嘴(AU25/ 26/27), 這些都是PSPI 不考慮的.盡管觀察到的受試者不感到疼痛,但PSPI 也可能不為零.最明顯的是, AU43(閉眼)不是與疼痛特定相關(guān), 例如它也發(fā)生在睡眠和放松期間.此外, 情緒的幾種面部表情與PSPI 共享AU, 例如, 厭惡(AU9 或10), 恐懼(AU4), 悲傷(AU4)或幸福(AU6).需要更多的研究來找到更好的疼痛測量方法.不同人由于生活經(jīng)歷文化背景等的差異, 對于同一疼痛刺激,表現(xiàn)出不同的面部表情.一些人對于疼痛刺激表現(xiàn)出的面部活動非常少, 另外有研究顯示對于相同的刺激,男性和女性表現(xiàn)出不同程度的疼痛表現(xiàn).因此, 從面部線索自動估計自我報告的疼痛強度的方法還應(yīng)該考慮個體在疼痛的面部表現(xiàn)力方面的差異.
另外, 深度學習是潛力很大的智能算法, 其在疼痛自動識別中的應(yīng)用價值亟待開發(fā).然而深度學習模型的巨大計算量使得資源消耗和計算時間增加很多.近兩年很多研究提出對網(wǎng)絡(luò)結(jié)構(gòu)進行輕量化, 通過改變卷積方式, 在不減少性能或稍微損失性能的前提下減少參數(shù)量, 從而減小內(nèi)存和運算量、加快運算速度.目前提出的網(wǎng)絡(luò)結(jié)構(gòu)有SqueezeNet、MobileNet、ShuffleNet、Xception 等[116-123].一般而言, 我們的計算資源都是非常有限的, 深度網(wǎng)絡(luò)的輕量化可在節(jié)約計算資源的前提下獲得有效的任務(wù)性能, 將會引起越來越多的關(guān)注.
本文從疼痛自動識別系統(tǒng)的結(jié)構(gòu)組成, 以及疼痛模態(tài)表征多角度方面進行描述, 對疼痛自動識別系統(tǒng)的流程環(huán)節(jié)和主要技術(shù)方法進行了系統(tǒng)性的梳理和總結(jié).疼痛檢測包含多樣化的評估指標, 例如面部表情、身體運動、生理信號等, 其中面部表情是疼痛最常見且最重要的評價指標, 語音信息也是具有潛在應(yīng)用價值的表達模態(tài).由于疼痛表現(xiàn)形式復雜多樣, 多模態(tài)特征融合技術(shù)的應(yīng)用成為趨勢, 模態(tài)特征信息提取、時空域特征融合以及多模態(tài)信息組合方式是重點研究的方向.從眾多文獻的實驗結(jié)果可以看出, 即使在可控條件下的疼痛數(shù)據(jù)庫上, 有關(guān)疼痛檢測任務(wù)的實驗結(jié)果也不樂觀, 距離實際應(yīng)用的精度要求還有很大差距.因此需要提取更合適、更具有特異性的模態(tài)特征, 并通過多特征、多模態(tài)的多角度綜合分析, 促進疼痛自動識別系統(tǒng)的性能.