亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        注意力分層雙線性池化殘差網絡的表情識別

        2020-12-07 08:20:36張愛梅
        計算機工程與應用 2020年23期
        關鍵詞:池化識別率注意力

        張愛梅,徐 楊

        貴州大學 大數據與信息工程學院,貴陽 550025

        1 引言

        面部表情是傳達人們心理活動、思想狀態(tài)最自然、最直接的方式,因此,人臉表情識別(Facial Expression Recognition,FER)具有極大的應用價值,可在許多領域實現廣泛應用,例如,心理狀態(tài)檢測、安防智能監(jiān)控、商業(yè)營銷推薦、臨床醫(yī)療檢測等。眉毛、眼睛、嘴等的細微變化可能導致截然不同的分類結果使得不同類表情間差異小,另外,受姿態(tài)、背景、照明等因素影響,使得同類表情間差異大,人臉表情識別任務仍然極具挑戰(zhàn)性。

        現有研究大多在給定顯著特征和額外部件標注的情況下,使用卷積層、最大或平均池化層以及全連接層的傳統(tǒng)卷積神經網絡(Convolutional Neural Network,CNN)實現面部表情分類。這些方法忽略了層間部分特征交互作用與人臉表情特征學習相互關聯的事實,限制了模型的學習能力。本文添加分層雙線性池化層來集成多個跨層雙線性特征,學習面部表情分類任務中的細微差異,這有助于顯著提高面部表情識別能力。此外,面部表情識別需要特別關注帶有區(qū)分情感的重要信息的眼睛、嘴、眉毛等特定位置的細微變化。因此,可以借鑒人腦處理信息的方式,特別關注這些關鍵位置以增強特征表示能力。為此,引入注意力機制,為卷積層輸出的通道特征圖分配不同的權重,實現通道特征圖的重新校正,提高網絡的分類能力。

        近年來,卷積神經網絡在圖像特征提取方面顯示出顯著優(yōu)勢,隨著網絡深度的增加,它可以提取圖像的高級語義信息。文獻[1]嵌入注意力模型,確定感興趣區(qū)域來推斷出情感標簽。注意力機制是面部表情識別時,在關鍵特征中定位關鍵點并建立關鍵點的集合關系最直接、最有效的方法。目前幾種有競爭力的視覺注意力方法如下:SE[2]是將通道注意力整合到卷積模塊中的代表性方法,為各種深層CNN 架構帶來了明顯的性能提升。CBAM[3]作為SE-Net的擴展,CBAM沿通道維和空間維結合了全局平均池化和最大池化,但這對于全局上下文建模還不夠有效。GSoP-Net[4]引入了從低層到高層的全局二階池化,網絡性能優(yōu)于大部分一階網絡,但模型復雜度也更高。ECA[5]為無需降維的本地跨通道交互策略,該模塊包含少量參數,同時帶來了具競爭力的性能。

        特征提取是面部表情識別過程中的關鍵步驟。一些細微、小分辨率的面部表情需要深層特征以增強識別能力。雙線性卷積神經網絡(B-CNN)[6]是第一個在細粒度識別任務上可以端到端訓練的協方差池化網絡模型。然而,B-CNN無法利用不同卷積層中固有的信息,且采用兩種不同的CNN 模型致使計算和存儲成本更高。緊湊型雙線性池化(CBP)[7]有與完整雙線性表示形式相同的判別力,且降低了維度。全局高斯分布嵌入網絡(G2DeNet)[8]可以捕獲具有區(qū)別性的一階和二階圖像特征,是最早以端到端的方式將參數概率分布嵌入到深度CNN的工作之一。迭代矩陣平方根歸一化協方差池化(iSQRT-COV)[9]用于全局協方差池化網絡的快速端到端訓練,適合在GPU 上并行實現。分層雙線性池化(HBP)[10]與 B-CNN 相比,HBP 不需要邊界框注釋也能獲得更好的結果,生成改進的圖像表示。

        為了更好地定位面部表情顯著的局部區(qū)域變化,本文提出一種注意力分層雙線性池化殘差網絡(Attention Hierarchical Bilinear Pooling Residual Network,AHBPRN),在分層雙線性池化殘差網絡中嵌入有效的通道注意力機制對潛在空間建模。本文的主要貢獻包括:

        (1)在面部表情識別中,分層雙線性池化用于捕獲層間部分特征關系,對圖像的層間部分特征交互信息進行端到端池化,更適合捕獲精細的面部表情圖像之間的細微差異。

        (2)本文的網絡添加了有效的通道注意力模塊來學習特征圖的權重度量,從而可以自主識別和增強重要的神經元單元。并在不同的網絡上進行了一組實驗,以說明添加的注意力機制的有效性。實驗結果如表1所示。

        (3)模型在兩個公共數據集FER-2013 和CK+上實現了具有競爭力的性能。

        隨著我國高速公路工程行業(yè)的迅猛發(fā)展,在高速公路施工中科學、合理地運用預應力管樁的施工技術,不但可以為施工企業(yè)節(jié)約施工成本,使企業(yè)獲得更多的社會與經濟效益,而且可以確保高速公路橋梁工程的穩(wěn)固性和整體安全性,從而保證工程的施工質量。

        2 本文方法

        2.1 AHBPRN模型結構

        由于面部表情數據量較少,首先使用隨機水平翻轉、隨機剪裁等數據增強方法來擴充數據量,提高模型的泛化能力。再將歸一化的面部表情圖像輸入到殘差網絡中,來自不同卷積層的特征通過獨立的線性映射被擴展到高維空間。為了關注某些特定位置的重要貢獻,在卷積層之后生成注意力特征圖,使網絡能夠提高對可利用區(qū)域特征的敏感性。在提取注意力特征之后,本文借鑒了文獻[11]中分層雙線性池化的概念,使用外積將來自不同卷積層的元素相乘來捕獲層間局部特征交互。該模型將有效的通道注意力嵌入到基于分層雙線性池化的殘差網絡中,以端到端的方式學習。網絡模型如圖1所示。

        2.2 嵌入有效的通道注意力

        假設面部表情圖像被CNN濾波后卷積層的輸出特征圖X∈?h×w×c,Y∈?h×w×c,Z∈?h×w×c,各自包含一組所有通道的二維特征圖,其中w、h和c分別是寬度、高度和通道數。為了根據需求動態(tài)地關注最有用的部分,引入有效的通道注意力[5]自動獲取權重,來增強特征矩陣X、Y、Z的表示能力。以卷積特征圖X為例,有效的通道注意力模塊的結構如圖2所示,給定通過全局平均池化(GAP)獲得的聚合特征,通過考慮每個通道及其k個鄰居來捕獲本地跨通道交互,內核大小k代表本地跨通道交互的覆蓋范圍(即有多少鄰居參與一個通道的注意力預測)。

        圖2的詳細步驟如下:首先,將卷積特征圖X,X∈?h×w×c作為原始輸入,在不降低維數的情下,進行通道級全局平均池化,得到大小為1×1×c的特征向量。為了保證捕獲本地跨通道交互的效率和有效性,使用帶狀矩陣來學習通道注意力。當所有通道共享相同的學習參數時,這種策略可以通過內核大小為k的快速一維卷積有效實現。然后,執(zhí)行Sigmoid 函數以學習有效的通道注意力,生成通道注意力權重Ax,Ax∈?1×1×c。最后,將注意力權重Ax與原特征圖X進行對應元素相乘(element-wise multiplication),得到融合后的注意力特征圖X?,X? ∈ ?h×w×c,用X?替換原始特征圖X。

        圖1 AHBPRN的表情識別網絡模型圖

        圖2 有效的通道注意力模塊

        因此,圖1中通道注意力模塊可由式(1)、(2)表示:

        其中,Ax∈ ?1×1×c,Ay∈ ?1×1×c,Az∈ ?1×1×c為生成的有效通道注意力權重。C1D表示一維卷積,GAP為全局平均池化函數,k表示一維卷積的卷積核大小,σ表示Sigmod激活函數。

        式(1)中交互作用的覆蓋范圍k與輸出通道數C成正比。換句話說,k與C之間存在映射φ:C=φ(k)=γ×k-b。眾所周知,通常將輸出通道數C設置為2 的冪。因此,擴展線性函數到非線性:C=φ(k)=2γ×k-b。所以,在給定輸出通道數C的情況下,卷積核大小k可以通過式(3)自適應地確定:

        2.3 注意力分層雙線性池化

        分層雙線性池化[10]可以對局部成對特征交互進行建模,已被證明是解決細粒度識別任務的強大工具,本文提出了面部表情細粒度識別任務背景下探索它們的強烈動機。為了捕獲更好的特征相關性,本文對人臉表情圖像部分屬性的層間交互進行建模。將來自不同卷積層的特征通過逐元素乘法進行集成,以捕獲更多中間卷積層特征。

        分層雙線性池化模型是基于分解雙線性池化(FBP)[11]模型構建的。由式(2)可知,輸出注意力特征圖為?∈?h×w×c,高度為h,寬度為w,通道數為c。FBP模型由每個空間位置的以下低階外積運算定義:

        通過在其他中間卷積層內進行層間特征交互來改善FBP,利用與來自中間卷積層的補充信息的部分相關性,生成了改進的圖像表示。對于每個空間位置,基于注意力特征圖的分層雙線性池化模型的輸出矢量O∈ ?d′(本文的面部表情分7類,d′=7)定義如式(5):

        3 實驗結果及分析

        提出的模型在Ubuntu18.04 LTS 系統(tǒng)、深度學習框架PyTorch1.1.0 上使用具有11 GB 顯存的NVIDIA GeForce GTX 1080Ti實現。本章將在兩個公共人臉表情數據集上對提出的網絡模型進行實驗,并通過與之前的工作進行比較來展示性能。

        3.1 數據集與實驗設置

        本文選擇數據集FER-2013[12]和CK+[13]評估所提出的注意力分層雙線性池化殘差網絡,數據集示例圖像如圖3所示。FER-2013是使用谷歌圖像搜索API創(chuàng)建的,是一個大規(guī)模的面部表情數據集,包含了27 809張訓練圖像,3 589張驗證圖像和3 589張測試圖像,每種情緒的圖像數量的數據分布如圖4所示,可以看出,數據分布非常不均勻。CK+數據集由來自不同種族群體的18~50歲的123 位受試者的593 個圖像序列組成,選擇帶有標記的327個序列,提取每個序列帶有峰值信息的最后一幀。

        圖3 FER-2013和CK+數據集示例圖像

        圖4 FER-2013每種情緒數據分布

        本文的數據擴充遵循常用的水平翻轉、隨機剪裁等操作。訓練過程中批量大小設置為32,訓練周期為80,初始學習率為0.1,動量為0.9,權重衰減為1×10?5。本文使用經過預訓練的圖像分類模型ResNet-50[14]來構建網絡,殘差網絡最后一層卷積層的輸出特征維數為512,從原始的ResNet-50中刪除了全連接層并插入了所有本文框架中的組件。首先訓練新添加的層,然后微調整個網絡以更新所有層中的參數。

        3.2 AHBPRN模型性能分析

        表1用幾個當前的經典CNN架構AlexNet[15]、VGG-16[16]、ResNet-18[14]、ResNet-50[14]作為提出方法的骨干網絡,分別在FER-2013 和CK+數據集上進行了評估。表1 中,Original 是指將數據輸入到不同的標準網絡進行訓練得到的結果,Attention 是在標準網絡嵌入有效的通道注意力以后的結果,AHBP是指注意力分層雙線性池化。

        表1 FER-2013和CK+上各種標準網絡結構的識別率對比%

        從表1可以看出:

        (1)本文提出的注意力分層雙線性池化方法在ResNet-50 上獲得了最好的分類結果,分別為73.84%、98.79%。與文獻[10]中,在VGG-16 上構建池化模型相比,本文選取ResNet-50作為模型的特征函數部分,能夠獲得更好的分類結果,這是由于殘差結構具有更好的層間相關性。

        (2)嵌入有效的通道注意力后,FER-2013數據集上的識別率提高了2~5個百分點,CK+數據集上的識別率提高了1~4 個百分點。證明注意力塊以略微的額外計算成本為面部表情細粒度識別任務帶來了性能上的顯著改善。

        (3)與未采用分層雙線性池化的網絡相比,FER-2013 和CK+上的識別率分別提高了2~8 個百分點和0.8~4個百分點,這說明了層間特征交互的有效性。

        根據表1 的實驗結果選擇ResNet-50 作為基本網絡,表2中考慮分層雙線性池化不同層的組合。結果表明,relu4_0×relu4_1+relu4_0×relu4_2+relu4_1×relu4_2表現出的性能最好,因為與較淺的層相比,它們包含更多的部分語義信息。因此本文在接下來的實驗中專注于relu4_0、relu4_1和relu4_2層的交互。

        表2 FER-2013數據集上的定量分析結果

        3.3 對比實驗

        本節(jié)評估了在本文提出的網絡框架下,使用不同池化方法進行面部表情識別的效果,實驗結果如圖5 所示。在本次實驗中,根據表1 中的實驗對比結果,選擇在基本網絡ResNet-50中嵌入有效的通道注意力。根據表2中的實驗對比結果,所提網絡模型中分層雙線性池化(HBP)選擇的是relu4_0×relu4_1+relu4_0×relu4_2+relu4_1×relu4_2 的組合。圖5 顯示了本文提出的方法與分別使用全局平均池化(GAvP)方法和雙線性池化方法——雙線性卷積神經網絡(B-CNN)和緊湊雙線性池化(CBP)時,在人臉表情數據集FER-2013 和CK+上識別率的比較結果。從圖5 可以看出:(1)基于雙線性池化的識別率高于基于平均池化的識別率,原因主要在于比起全局平均池化,雙線性池化方法能通過特征融合增強識別能力;(2)相較于另外三種池化方法,所提方法在FER-2013 和CK+數據集上識別率分別有0.5~7 個百分點,1~4 個百分點的提升。結果表明,本文的模型比類似網絡[6-7]的對應的模型具有明顯的優(yōu)勢。

        圖5 AHBPRN與其他池化方法對比

        為了驗證整體算法的可靠性,本文所提方法與不同方法之間每個類別的識別率對比,如表3 所示,為了簡化說明,本文方法表示為AHBPRN??梢钥闯?,高興和驚訝的識別率明顯高于其他,但害怕和生氣的識別率卻略低,因為害怕、生氣、難過和厭惡有某些相似之處,在現實生活中,人們也很難區(qū)分這四種表情。在FER-2013 數據集上與文獻[17-20]對比,本文方法的平均識別率比Khemakhem 等人[17]提出的增強預處理階段的卷積神經網絡高出3.25 個百分點,比Liu 等人[18]提出的將課程學習策略應用于表情識別的訓練階段的平均識別率高出1.73 個百分點。在CK+數據集上與文獻[18-19,21-22]對比,文獻[19,21]與所提方法一樣也是在卷積層嵌入注意力塊的情況下進行表情識別,所提方法相較于它們也具有較優(yōu)的結果。可以看出,與近年來其他參考文獻的識別率相比,本文的算法達到了具有競爭力的結果,這證明了該方法的有效性??梢缘贸鼋Y論,這源于基于 ResNet-50的分層雙線性池化卷積神經網絡和用于增強特征矩陣表示能力的通道注意力的有效性。

        4 結束語

        本文提出了一種新的注意力分層雙線性池化殘差網絡用于人臉表情識別,可以學習具有較強分辨力的面部表情特征。由于面部特征點的細微變化可能導致截然不同的分類結果,首先利用有效的通道注意力模塊來學習權重矩陣,充分利用某些特定位置的重要詳細信息,輸入到可捕獲層間部分特征關系的分層雙線性池化網絡,以端到端的方式學習更具判別性的面部圖像表示。最后,在兩個公開的人臉表情數據集FER-2013 和CK+上設計了多個實驗從多個方面評估了模型,結果表明,注意力分層雙線性池化模塊捕獲的強大鑒別特征可以有效地提高人臉表情的識別率。

        將來,進一步考慮如何有效地融合更多的層特征以獲得多尺度的部分表示。在整合一些弱監(jiān)督方案以主動的方式選擇更好的層進行特征交互方面,進行擴展研究。并且,也可以將本文所提模型泛化到其他任務中,例如其他細粒度分類任務或者人臉性別、年齡識別任務等。

        表3 與FER-2013和CK+上其他參考文獻的識別率對比 %

        猜你喜歡
        池化識別率注意力
        基于緊湊型雙線性網絡的野生茵識別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設計
        讓注意力“飛”回來
        卷積神經網絡中的自適應加權池化
        軟件導刊(2022年3期)2022-03-25 04:45:04
        基于類圖像處理與向量化的大數據腳本攻擊智能檢測
        計算機工程(2020年3期)2020-03-19 12:24:50
        基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
        基于卷積神經網絡和池化算法的表情識別研究
        提升高速公路MTC二次抓拍車牌識別率方案研究
        “揚眼”APP:讓注意力“變現”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        国产精品日本一区二区在线播放| 日本美女性亚洲精品黄色| 免费一本色道久久一区| 精品国产乱码一区二区三区在线| 国产一级做a爱视频在线| av免费在线观看网站大全| 成人久久精品人妻一区二区三区 | 久久精品国产网红主播| 欧美成a人片在线观看久| 四虎永久免费影院在线| 2020久久精品亚洲热综合一本| 黄色网页在线观看一区二区三区| 中文字幕精品久久一区二区三区| 在线播放草猛免费视频| 绝顶高潮合集videos| aa片在线观看视频在线播放| 国产精品无码av天天爽| 男人天堂网在线视频| 日本a级大片免费观看| 亚洲一区二区三区综合网| 丰满又紧又爽又丰满视频| 日韩亚洲精品中文字幕在线观看| 国产成人无码精品久久久露脸| 久久中文字幕无码专区| 亚洲免费视频播放| 精品一区二区三区女同免费| 亚洲精品第四页中文字幕| 少妇高潮惨叫久久久久电影69| 国产精品第一国产精品| 久久久精品人妻一区亚美研究所 | 亚洲成a人无码| 欧美巨大性爽| 亚洲另在线日韩综合色| 国产高潮精品一区二区三区av| av黄色大片久久免费| 免费a级毛片又大又粗又黑| 无码人妻av免费一区二区三区| 日日摸夜夜添狠狠添欧美| 精品人妻少妇一区二区中文字幕 | 中文字幕被公侵犯的丰满人妻| 国产自拍视频在线观看免费|