張嫻靜,褚含冰,劉 鑫
(1.鄭州工業(yè)應用技術學院 信息工程學院,河南 鄭州 451150;2.中南大學 商學院,湖南 長沙 410083)
隨著云計算、邊緣計算、物聯(lián)網設備和下一代網絡的成熟發(fā)展,情感計算或認知計算也逐步成熟,自動情感識別的重要性顯著增加[1]。物聯(lián)網和邊緣計算在移動性、低傳輸成本、高速性和普及性等方面給許多應用帶來了巨大的進步,然而這卻導致數(shù)據(jù)處理量呈指數(shù)級增長[2,3],大數(shù)據(jù)的出現(xiàn)雖然可以解決提煉適當數(shù)據(jù)的問題,但對于任意系統(tǒng)數(shù)據(jù)識別處理的準確性和用戶隱私保護仍是一個問題[4]。
現(xiàn)有的自動情感識別系統(tǒng)通?;趀NTERFACE’05數(shù)據(jù)庫、IEMOCAP數(shù)據(jù)庫、EMOTIW數(shù)據(jù)庫、RML數(shù)據(jù)庫和BAUM-1S數(shù)據(jù)庫實現(xiàn)[5]。文獻[6]提出了一種結合卷積神經網絡和特征選擇過程的多模態(tài)表達式識別系統(tǒng)。在IEMOCAP數(shù)據(jù)庫中,作者發(fā)現(xiàn)根據(jù)不同的參數(shù),準確度在70.46%到73.78%之間相當?shù)?。文獻[7]提出了一種結合多方向回歸(MDR)和深度神經網絡的雙模式情緒分類系統(tǒng),應用于語音光譜儀和面部圖像,以提取雙模特征,并使用eNTERFACE’05數(shù)據(jù)庫測試其精度。文獻[8]使用了語音的預訓練2D CNN模型和視覺圖像的預訓練3D CNN模型識別情感,在eNTERFACE’05數(shù)據(jù)庫中實現(xiàn)了88.74%的準確率,而EML數(shù)據(jù)庫實現(xiàn)了83.9%的準確率。文獻[9]應用不同的融合策略融合雙峰輸入信號進行情感識別,使用eNTERFACE數(shù)據(jù)庫報告了71%的最大準確度。上述方法均未使用邊緣云框架,并且沒有積極考慮用戶隱私。
因此針對物聯(lián)網環(huán)境下數(shù)據(jù)量激增且自動人臉表情識別精確率較低的情況,提出了一種邊緣云框架下結合雙模特征的高效安全人臉表情識別方法。主要創(chuàng)新點總結如下:
(1)物聯(lián)網設備通過多秘密共享技術從用戶獲取面部圖像和語音信號,然后將其分發(fā)到不同的邊緣云,保證了用戶的隱私;
(2)利用邊緣云將預處理后的信號傳輸?shù)胶诵脑埔蕴崛≌Z音特征和圖像特征,同時結合語譜圖和局部二值模式的方法提取語音特征,以及采用差值中心對稱局部二值模式獲得人臉圖像特征,保證了識別準確性;
(3)基于棧式稀疏去噪自編碼器將語音和圖像特征進行融合,使用秘密共享方案將情感信號分布到不同的邊緣,以實現(xiàn)人臉表情的快速準確識別。
本文提出了一種邊緣云框架上結合雙模特征的高效安全人臉表情識別方法,其邊緣云框架如圖1所示。在該系統(tǒng)中,物聯(lián)網通過多秘密共享技術從用戶獲取人臉表情信號,然后將其分發(fā)到不同的邊緣云,保證了用戶的隱私。
圖1 邊緣云框架
所提系統(tǒng)中使用的邊緣計算系統(tǒng)結構如圖2所示,其組成為:小型基站、邊緣緩存和移動邊緣計算(mobile edge computing,MEC)服務器。
圖2 邊緣緩存單元的結構
物聯(lián)網設備收集來自用戶的圖像信號和語音信號,通過藍牙或局域網將其發(fā)送到邊緣緩存單元。小型基站為物聯(lián)網設備和邊緣緩存單元之間的通信提供能量[10]。MEC服務器使用秘密共享技術將信號的不同部分共享給不同的云服務器單元,然后將數(shù)據(jù)發(fā)送到主服務器合并,并執(zhí)行后續(xù)處理以獲得關于人臉表情的決策。內容提供商(content provider,CP)以一種高效的方式使用云服務器、MEC服務器和小蜂窩基站,以保證低延遲和數(shù)據(jù)的無縫傳輸。
所提方法采用基于超遞增序列的多秘密共享技術,即序列中的每個元素都大于該元素前面所有元素的總和,則該序列稱為超遞增序列[11]。
多秘密共享技術分兩步實施,共享分布和秘密重組。
(1)共享發(fā)布
共享分布的步驟如下:
步驟1 定義一個q×1維的秘密矩陣S,其中q為機密數(shù)量,且每個Si有l(wèi)-1個二進制位,則將S定義為一個新的q×(l-1)維矩陣SB如下
(1)
其中,l為劃分參與者的不相交級別數(shù)(服務器單元)。
步驟2 隨機生成一個q×(l-1)維的矩陣RB如下
(2)
步驟3 通過在SB和RB之間執(zhí)行位異或,獲得一個新的矩陣SB′為
(3)
步驟4 生成一個維度(l-1)×1的列矩陣,其中矩陣項XB按遞增順序排列,并從SB′和XB獲取公共矩陣V為
(4)
步驟6 根據(jù)Shamir分布將xi的份額分配給i級參與者pi(1≤i≤l-1),在l級,根據(jù)Shamir分布分配相當于RBi的十進制共享(1≤i≤q)[12]。
(2)秘密重組
重建秘密矩陣元素Sr的步驟如下:
步驟1 至少有t個參與者對水平份額xi執(zhí)行Shamir重建,其中t是Shamir重建的多項式階;
步驟2 創(chuàng)建了一個維數(shù)為q×(l-1)的空矩陣SB″。檢驗v′r,i-1,i≥xi是否成立,如果成立則將輸出位分配給‘1’,否則,將其分配給‘0’。將v′r,i,i+1≥xi=v′r,i-1,i-xi發(fā)送到下一個級別,然后將輸出位加到矩陣SB″中;
步驟3 在l級,應用Shamir重建將結果轉換為l-1位序列,該序列可表示為RBr= [er,l-1,er,l-2,…,er,1],在RBr和SB″r間執(zhí)行異或操作,從而產生SBr;
步驟4 將SBr的二進制表示轉化為十進制表示,獲得秘密Sr。
對于公共實體V、P、l和私人對參與者i:xi,入侵者不能使用公共實體V和P來獲得SBi,矩陣RB和XB只有在所有級別的參與者都參與共享秘密后才可用,只要提供者可信,通信就安全。
人臉表情識別需要提取語音特征和圖像特征,其中利用語譜圖和LBP的方法從語音信息中提取特征,采用改進的中心對稱局部二值模式獲得人臉圖像信息。并基于棧式稀疏去噪自編碼器將語音特征和圖像特征進行融合,以實現(xiàn)人臉表情的識別。
語音特征提取步驟如圖3所示:首先通過加窗分幀,提取語譜圖,并將其歸一化為灰度圖;然后采用Gabor小波對灰度圖進行處理得到Gabor圖譜;最后計算Gabor圖譜的局部二值模式(local binary pattern,LBP),并級聯(lián)獲取語音特征。
圖3 語音特征提取流程
(1)語譜圖圖譜
語譜圖的靜音段直接納入LBP特征的運算會造成偏差。因此需對語譜圖做預處理[13]。預處理分3步進行:
1)對語音進行分幀、加窗及離散傅里葉變換處理,即
(5)
式中:s(n)是語音信號;X是s(n)的傅里葉系數(shù);N是窗長;ω(n)是漢明窗函數(shù)。
2)對語譜圖進行歸一化,即
(6)
式中:L(a,b)為語譜圖;Lmax(a,b)、Lmin(a,b)分別為語譜圖灰度級中的最大值和最小值。
3)采用Gabor小波對灰度圖進行處理,由于其可凸顯相鄰灰度級間的變化。Gabor小波的核函數(shù)定義如下[14]
(7)
通過將生成的Gabor小波與灰度圖像進行卷積運算,可得到30張Gabor圖譜。
(2)LBP特征
(8)
式中:T為LBP編碼后的最大灰度值。
由于LBP圖譜中只有少部分的灰度級占主要作用,因此定義了如下的一致模式
(9)
式中:U為數(shù)值0/1變換次數(shù)。
采用一致模式LBP獲取Gabor圖譜的紋理特征,把Gabor圖譜對應的LBP直方圖進行級聯(lián),獲得特征Q={q1,q2,…,q30}。
LBP 直方圖描述圖像區(qū)域紋理時,直方圖維數(shù)和復雜度會隨著鄰域取樣點個數(shù)增加而增加。為此,文獻[15]提出了中心對稱局部二值模式(center-symmetric local binary pattern,CS-LBP),該編碼方式的直方圖維數(shù)只有2N/2,與LBP算法相比,維數(shù)顯著降低。
考慮到CS-LBP算子沒有考慮中心像素點的灰度值,提出了差值中心對稱局部二值模式(D-value center-symmetric local binary pattern,DCS-LBP)來編碼圖像,即
(10)
式中:N為鄰域像素點個數(shù)(N=9);T為閾值;R為圓形區(qū)域半徑(R=1);xi=pi-pc,xi+(N/2)=pc-pi+(N/2);‖表示或運算;pc為中心像素點灰度值[16]。
自編碼器是無監(jiān)督學習神經網絡,包含輸入層、隱藏層和輸出層。傳統(tǒng)自編碼器在不加任何約束的情況下,其特征表達能力較弱,提出去噪自編碼器(denoising auto-encoder,DAE)。
(11)
式中:λ是權重約束項。利用梯度下降法最小化該損失函數(shù),以獲得DAE的最優(yōu)參數(shù)θ。
自編碼器不僅需要實現(xiàn)輸出與輸入基本一致,還需要其隱藏層具備一定程度的稀疏性,因此對輸入數(shù)據(jù)做相應的壓縮降低維度處理。使用稀疏自編碼器(sparse auto-encoder,SAE),其代價函數(shù)為
(12)
為保證自編碼器具備稀疏性和魯棒性,將SAE與DAE組合以形成稀疏去噪自編碼器(sparse denoising auto-encoder,SDA)。但SDA是淺層神經網絡,難以挖掘數(shù)據(jù)更深層次的特征,需要利用多個SDA堆疊形成棧式稀疏去噪自編碼器(stack sparse denoising auto-encoder,SSDA)。SSDA在微調階段的損失函數(shù)為
(13)
其中,l是SDA堆疊的個數(shù)。所提方法中,SDA的堆疊個數(shù)為2,將語音特征與圖像特征融合。
實驗中使用RML和eNTERFACE這兩個公開的具備圖像和音頻的人臉表情數(shù)據(jù)庫,數(shù)據(jù)庫CK+被用于僅使用圖像的情感識別。
RML數(shù)據(jù)庫包含720個視頻文件,來自8個受試者,其中嵌入了6種基本情緒(高興、悲傷、厭惡、生氣、恐懼和驚訝),音頻采樣頻率為22.05 kHz,16位分辨率。實施人體檢查,以確定受試者對每一種情緒類別的行為是否正確。共有8名參與者,每個參與者的每段視頻長度在3 s-6 s。
eNTERFACE’05數(shù)據(jù)庫包含了43名受試者的1290個視頻樣本和6種基本情緒,音頻采樣頻率為48 kHz,16位分辨率。圖4為eNTERFACE’05數(shù)據(jù)庫中的各種情緒類別的人臉表情樣本。
圖4 eNTERFACE’05數(shù)據(jù)庫中的情緒類別的人臉表情樣本
CK+數(shù)據(jù)庫包含來自123名受試者的593個視頻樣本,錄音前沒有對受試者進行預訓練。數(shù)據(jù)庫中包含6種基本情緒,沒有中性情緒,幀大小為640×490或640×480,幀速率因樣本而異,在每秒10幀-60幀。
圖像幀在5°~35°范圍內旋轉增強,步長為10°。在不同信噪比(signal-to-noise ratio,SNR)下,利用高斯白噪聲對人臉圖像進行污染,其中,SNR=30 dB、10 dB和0 dB。
所提方法是基于邊緣云框架進行,在邊緣高速緩存單元之后將語音和圖像數(shù)據(jù)發(fā)送到所提系統(tǒng),其帶寬消耗如圖5所示。從圖中可看出,隨著時間的延長,對邊緣云框架的計算效率不會有很大的影響,并且因預處理是在邊緣計算端完成的,因此帶寬消耗很低。
圖5 邊緣云框架上數(shù)據(jù)處理的帶寬消耗
此外,針對網絡中常見的網絡威脅,所提方法考慮了在云存儲、云計算、云傳輸?shù)确矫鎸τ诰W絡攻擊的抵抗能力,并模擬標識攻擊后對表情進行了分析實驗。如圖6所示,為所識別表情受到標識攻擊的恢復情況。
圖6 受到攻擊后的表情恢復效果
由圖6可知,當云框架下所需要識別的表情在受到標識攻擊時,所提算法能夠在缺失部分圖像信息的情況下對圖像進行恢復并正確識別。由此可見,所提方法具有較強的網絡攻擊抵御能力。
將所提方法分別在RML、eNTERFACE和CK+這3個數(shù)據(jù)庫進行驗證,實驗結果見表1~表3。
表3 所提的人臉表情識別方法在CK+的混淆矩陣
表1所示為在eNTERFACE’05構建的系統(tǒng)的混淆矩陣?;铱蚓仃噷儆谠鰪姷娜四槇D像,而白框矩陣不屬于增強的,系統(tǒng)增強即增加信噪比,系統(tǒng)經增強(SNR=30 dB),精度達到87.63%,未經增強(SNR=10 dB),精度達到79.53%,其中悲傷情緒的準確率最高,其次是憤怒情緒。因此,可發(fā)現(xiàn)增強顯著地提高了系統(tǒng)性能。
表1 所提的人臉表情識別方法在eNTERFACE的混淆矩陣
表2所示為使用RML數(shù)據(jù)庫的系統(tǒng)的混淆矩陣。增強后(SNR=30 dB),系統(tǒng)精度達到82.3%,未經增強(SNR=10 dB)時達到70.96%。對比表1和表2,可發(fā)現(xiàn)RML數(shù)據(jù)庫的準確性低于eNTERFACE’05數(shù)據(jù)庫,這是由于RML中的受試者沒有受過良好的訓練,每個情感類都與其它情感類有明顯的混淆。
表2 所提的人臉表情識別方法在RML的混淆矩陣
在使用CK+數(shù)據(jù)庫的實驗中,所提方法作了去除語音信號的處理,系統(tǒng)得到的混淆矩陣見表3。其增強后(SNR=30 dB),準確率為97.1%,無增強(SNR=10 dB)準確率為82.15%。恐懼情緒在增強時的準確率為100%。
將所提方法與其它相關方法的性能在RML、eNTERFACE’05和CK+數(shù)據(jù)庫中進行比較分析,結果見表4。從表中可以看出,所提出的系統(tǒng)對所有數(shù)據(jù)庫的精度都比其它系統(tǒng)高。
表4 不同數(shù)據(jù)庫中使用不同方法的準確度百分比
從表4可看出,在eNTERFACE’05和RML數(shù)據(jù)庫中,文獻[5,6]的識別系統(tǒng)準確率較低,由于其僅使用了表情單模態(tài),文獻[7]的識別系統(tǒng)結合語音和圖像雙模特征,但其使用的是卷積神經網絡算法進行特征融合,辨識效果不理想。而所提方法結合語音和圖像雙模特征,并采用SSDA模型,通過稀疏數(shù)據(jù)中可能存在的冗余信息和噪聲,更好地提取數(shù)據(jù)中的特征信息,取得了不錯的識別效果。
由于CK+數(shù)據(jù)庫僅使用圖像的表情識別,不受其它因素的噪音等因素的干擾,其準確率會有所提高。文獻[6]的系統(tǒng)沒有使用相應的圖像特征提取算法,文獻[7,8]中的系統(tǒng)使用了自編碼模型與學習神經網絡,但缺乏稀疏性。而所提方法在SSDA模型的基礎上采用CS-LBP 算法進行圖像特征提取,其辨識人臉表情的準確率更高。
針對物聯(lián)網環(huán)境下用戶的隱私安全以及人臉表情識別準確度的問題,提出了邊緣云框架下結合雙模特征的高效安全人臉表情識別方法。語音和圖像樣本通過一個多秘密共享方案分發(fā)到不同的邊緣云,保護了用戶的隱私。邊緣云中將預處理后的信號傳輸?shù)胶诵脑?,并利用語譜圖和局部二值模式的方法以提取語音特征,以及采用差值中心對稱局部二值模式提取圖像特征,解決了物聯(lián)網環(huán)境下數(shù)據(jù)量劇增且自動人臉表情識別精確率較低的情況?;跅J较∈枞ピ胱跃幋a器將語音和圖像特征的融合,以實現(xiàn)人臉表情的識別,并在RML和eNTERFACE’05數(shù)據(jù)庫上進行了實驗論證。結果表明所提方法對兩個數(shù)據(jù)庫的識別率分別為83.9%和88.74%,明顯高于其它方法的精確度,且抵御網絡攻擊的能力較強。
由于所提方法僅針對人臉表情識別,接下來將針對該系統(tǒng)在其它視聽數(shù)據(jù)庫和跨數(shù)據(jù)庫中的性能做進一步的研究,以及嘗試用其它代替雙模特征的深度融合方法。