亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于MobileNetV2特征提取的自修復(fù)表情識別算法

        2024-01-14 09:54:30劉忠旭
        電腦與電信 2023年9期
        關(guān)鍵詞:人臉特征提取卷積

        于 延 劉忠旭

        (哈爾濱師范大學計算機科學與信息工程學院,黑龍江 哈爾濱 150025)

        1 引言

        人臉表情識別是計算機視覺技術(shù)中的熱點問題,在眾多領(lǐng)域得到廣泛關(guān)注。對人臉圖片的特征提取是表情識別技術(shù)中的關(guān)鍵,基于卷積神經(jīng)網(wǎng)絡(luò)的深度學習技術(shù)通過反向傳播與誤差優(yōu)化對權(quán)值進行迭代優(yōu)化,可以提取出人類預(yù)想不到的關(guān)鍵點和特征[1,2],是目前表情識別任務(wù)的主要研究方向。本研究在SCN[3]算法的基礎(chǔ)上針對其特征提取,提出了一種改進的輕量級人臉表情識別算法MSCN,降低了模型的參數(shù)量和計算量,并且模型具有輕量級特征。

        2 理論基礎(chǔ)

        2.1 SCN表情識別算法

        實際中采集的大量人臉表情圖片存在模糊、低質(zhì)量和標注者主觀性等因素的干擾,對大規(guī)模人臉表情數(shù)據(jù)集進行標注是相當困難的。為了克服這一困難Wang K.等人提出了一個簡便且可行的算法即SCN,以抑制大規(guī)模人臉表情識別的不確定性。具體來說SCN由自注意重要性加權(quán)、排序正則化、噪聲重標記3個模塊組成。

        (1)自注意重要性加權(quán)模塊在給定一批圖像的基礎(chǔ)上,首先利用ReNet18[4]提取人臉特征。然后通過全連接層和sigmoid激活函數(shù)為每個圖像分配一個重要性權(quán)重。這些權(quán)重乘以樣本重加權(quán)方案的對數(shù)。捕捉樣本對訓練過程的重要貢獻,對于確定性樣本可以產(chǎn)生很大的重要性權(quán)重,但不確定性樣本的重要性則較少。

        (2)排序正則化模塊首先對學習到的每張圖片的重要性權(quán)重進行降序排序,然后按照β比例將圖片分成兩組,確保高重要性組的平均權(quán)重高于低重要性組的平均權(quán)重,同時定義了秩正則化損失函數(shù)。

        (3)噪聲重標記模塊針對低重要性組中的樣本,將最大預(yù)測概率與給定標簽的概率進行大小比較。假設(shè)最大預(yù)測概率大于給定標簽的預(yù)測概率,那么就為樣本分配一個新的標簽,否則不變。

        2.2 MobileNetV2 卷積神經(jīng)網(wǎng)絡(luò)

        MobileNetV2是由谷歌公司所開發(fā)的輕量級神經(jīng)網(wǎng)絡(luò),它相較于MobileNetV1[5]版本,模型的參數(shù)量減少了20%,然而精度卻超越了MobileNetV1,其主要創(chuàng)新包括:

        (1)采用了深度可分離卷積取代普通卷積,減少了模型的計算量和參數(shù)量。

        (2)提出利用反向殘差結(jié)構(gòu)增強網(wǎng)絡(luò)層數(shù)加深和對特征的表達能力。

        (3)通過線性瓶頸結(jié)構(gòu)以減少對低維特征信息的損失。

        2.3 CA注意力機制

        注意力機制可以用來加強模型注意重點信息和位置,現(xiàn)已經(jīng)被普遍應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)中以提高模型的性能。但是在網(wǎng)絡(luò)大小被嚴格控制的輕量級網(wǎng)絡(luò)中,對注意力機制的使用還是滯后的,因為大多數(shù)注意力機制的計算量開銷是輕量級網(wǎng)絡(luò)所承受不起的。考慮到輕量級神經(jīng)網(wǎng)絡(luò)有限的計算能力,Qibin Hou 等人提供了一個專門針對輕量級網(wǎng)絡(luò)而開發(fā)的注意力機制CA(coordinate attention,CA),該機制將位置信息內(nèi)嵌入到了通道注意力中,能夠通過將其嵌入到卷積神經(jīng)網(wǎng)絡(luò)模塊中實現(xiàn)端到端的訓練,并且只需要少許的計算量。其基本功能設(shè)計如圖3 中展示,每一個CA 模塊都可被認為是一個計算模塊,用以提升模型對信息的表達能力。CA利用精確的位置信息對通道關(guān)系的長期依賴性進行了編碼,具體操作包括協(xié)調(diào)信息嵌入和協(xié)調(diào)注意生成2個階段。深度可分離卷積其原理如圖1所示。

        圖1 深度可分離卷積原理圖

        3 MSCN算法設(shè)計

        本研究以搭建低消耗、高精度同時具有大規(guī)模數(shù)據(jù)集中人臉表情識別不確定性抑制的表情識別算法為目標,提出了一種輕量級的MSCN 人臉表情識別算法。以MobileNetV2為基礎(chǔ)進行特征提取網(wǎng)絡(luò)的改進。調(diào)整原始MobileNetV2網(wǎng)絡(luò)層結(jié)構(gòu),在模型中嵌入CA 注意力機制來增強模型對重要特征的學習;通過增大深度可分離卷積中深度卷積(DW)卷積核為5×5 的方式增大卷積特征感受野;采用一個14×14的全局逐深度卷積(GDConv)代替MobileNetV2中的全局平均池化層,減少特征信息丟失;通過調(diào)整MobileNetV2 的通道因子α,在準確率可承受的范圍內(nèi),進一步減小模型的參數(shù)量和計算量;改進后的網(wǎng)絡(luò)結(jié)構(gòu)如表1以及圖2所示。

        表1 改進后的特征提取網(wǎng)絡(luò)結(jié)構(gòu)表

        圖2 改進后的特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖

        表1 中,t、c、n 和s 分別是MobileNetV2 中瓶頸結(jié)構(gòu)進行升維的通道擴增系數(shù)、輸出特征矩陣深度、bottleneck的循環(huán)次數(shù)和卷積核的步距。表中每個bottleneck模塊如圖3所示。

        余三進野村谷是重陽節(jié)前后,氣候已值深秋,白龍山萬山紅遍,層林皆染。而山谷與山上唱反調(diào),滿谷盡帶黃金甲。密匝匝的銀杏樹林蔭道上,飄落的銀杏葉鋪成一條黃金地毯,鋪向山谷縱深地帶。明黃的、暗黃的、深黃的、淺黃的,細辨又有金黃、谷黃、橙黃、鵝黃……之不同。黃得恣意放肆的銀杏葉,在穿林陽光照射下,折射出精靈古怪的色澤,炫耀成令人迷醉的黃金世界幻象。

        圖3 改進后的網(wǎng)絡(luò)bottleneck模塊圖

        在人臉圖片的特征提取中,一張圖片不同像素點所提取的表情特征對表情分類的貢獻是不同的,圖像中眼睛或嘴角處的權(quán)重自然要比邊緣出的作用大,使用全局平均池化將權(quán)重平均會降低模型性能,所以采用一個14×14的全局逐深度卷(GDConv)積代替全局平均池化層以實現(xiàn)提取特征圖中不同位置具有不同重要程度的特征,使網(wǎng)絡(luò)提取到的特征具有高度泛化性和全局性。全局逐深度卷積由MobileFaceNet[6]所提出,一個GDConv 層就是一個逐深度卷積。其kernel 大小等于輸入的size,pad=0,stride=1。全局逐深度卷積層的輸出如式1:

        這里F是輸入的特征矩陣,其大小為W×H×M;K是逐深度卷積核,其大小為W×H×M;G 是輸出,其大小為1×1×M。其中在G的第m個通道上只有一個元素Gm。(i,j)表示F和K中的空間位置,m表示通道的索引。整個MSCN表情識別算法結(jié)構(gòu)如圖4所示。

        圖4 MSCN表情識別算法結(jié)構(gòu)

        圖5 數(shù)據(jù)集實例圖片

        圖6 ResNet18特征可視化

        4 實驗與結(jié)果

        4.1 實驗環(huán)境和數(shù)據(jù)集

        本研究所作實驗在一臺中央處理器為11th Gen Intel(R)Core(TM)i5-11400H@2.70GHz 2.69 GHz,內(nèi)存16GB,GPU為RTX3050 的計算機,操作系統(tǒng)為64 位Windows 11 家庭中文版,編程環(huán)境為Python3.10 深度學習框架為Pytorch。編譯器為Pycharm 通過python 編程語言實現(xiàn)。訓練總輪數(shù)epoch 設(shè)置為30,訓練中的bitch size 設(shè)置為24。學習率設(shè)置為0.1。

        RAF-DB為真實場景的人臉表情標準數(shù)據(jù)集,該數(shù)據(jù)集包含7 類基本情緒(驚訝、恐懼、厭惡、快樂、悲傷、憤怒、中立);在本實驗中使用了這7 類基本情緒共15339 張圖像,包括訓練集12271張圖像和測試集3068張圖像。

        FERPlus是從FER2013中拓展而來的人臉表情標準數(shù)據(jù)集,它由3589 張驗證圖片,3589 張測試圖片和28709 張訓練圖片組成,它增加了輕蔑表情,因此該數(shù)據(jù)集有8個類別。圖4 為數(shù)據(jù)集樣本圖像展示,第一行是RAF-DB 數(shù)據(jù)集樣本圖像,第二行為FERPlus數(shù)據(jù)集樣本圖像。

        4.2 消融實驗

        為了研究各項改進對模型性能提升的幫助以及計算量和參數(shù)量的變化,將改進后的算法在RAF-DB數(shù)據(jù)集上進行消融實驗。在不加預(yù)訓練的情況下記錄模型在測試集top1準確率。消融實驗包括改變MobileNetV2的寬度因子模塊、是否嵌入CA 注意力機制的瓶頸模塊、是否用全局逐深度卷積(GDConv)代替全局平均池化層模塊和是否改變DW卷積核的大小為5×5模塊。消融實驗結(jié)果如表2所示。

        表2 消融實驗結(jié)果

        實驗分別以寬度因子為0.5的情況下對3種因素進行消融對比實驗。由表中結(jié)果可以看出寬度因子為0.5的本研究算法的精度、參數(shù)量和計算量分別為79.46%、177904 和90.18MFlops。相較于寬度因子為1 時,精度降低了1.19%,參數(shù)量減少了302308,計算量減少了134.98MFlops。表明本研究算法對降低模型的參數(shù)量計算量效果明顯。

        4.3 對比實驗

        4.3.1 與SCN對比實驗

        為了研究本文所提出的MSCN 算法在參數(shù)量、計算量和精度上的優(yōu)勢,將MSCN 與SCN 在數(shù)據(jù)集RAF-DB 和FERPlus 上進行對比實驗,模型在沒有預(yù)訓練的情況下實驗結(jié)果如表3所示。

        表3 改進后的算法與SCN對比實驗表

        相較于SCN,改進后的算法在RAF-DB 和FERPlus 精度分別提高了7.81%和5.37%,參數(shù)量和計算量分別減少了11511608 和1731.21 MFlops,分別是原模型的1.52%和4.95%,參數(shù)量計算量得到了大幅縮減。

        4.3.2 不確定性抑制評估

        為了驗證改進后的MSCN仍具有表情標簽不確定性抑制的特點,對RAF-DB和FERPLus數(shù)據(jù)集各個類別的標簽隨機選取10%、20%和30%比例將其隨機更改為其他類別,將改進后的算法與原SCN進行對比實驗,結(jié)果如表4所示。

        表4 不確定性對比實驗表

        由表4 改進后的MSCN 算法較原SCN 算法在帶有10%、20%和30%不同比例的噪聲標簽下,在RADF-DB上精度分別提升了8.05%、6.11%、7.12%,在FERPlus 上精度分別提升了4.27%、3.9%、3.13%。證明MSCN表情識別算法具備對人臉表情數(shù)據(jù)集大規(guī)模不確定性的抑制效果及魯棒性。

        4.3.3 特征可視化分析

        為了研究本文所提出MSCN算法對圖像特征提取的程度和關(guān)鍵信息捕捉的能力,分別將改進的特診提取模型與SCN算法中ResNet18網(wǎng)絡(luò)模型所提取的淺層、中層、深層的特征圖做特征可視化。證明改進的模型擁有更好的表征能力。如圖所示,圖中用于測試的人臉圖像來自數(shù)據(jù)集RAF-DB。

        圖中第一列是測試原圖,第一行是來自模型淺層的特征提取可視化,結(jié)果表明改進后的模型提取的表情紋理特征更加細致清晰,第二行是來自模型中層的特征提取可視化,結(jié)果表明CA注意力機制對表情眼關(guān)鍵位置的著重定位。第三行是來自模型深層的特征提取可視化,改進后的模型對圖片語義信息的把控更加注重。

        4.3.4 計算量參數(shù)量對比實驗

        為了證明該研究算法在保證高識別準確率的同時模型輕量化的優(yōu)勢,與經(jīng)典網(wǎng)絡(luò)模型AlexNet[7]、VGG16[8]以及其他輕量級網(wǎng)絡(luò)Shufflenet[9]、EfficientNet[10]、MobileFaceNet 在RAF-DB數(shù)據(jù)集上進行對比實驗結(jié)果如表5中給出。可以看出,本研究算法的參數(shù)量和計算量不僅低于其他輕量級網(wǎng)絡(luò),精度也高于其他網(wǎng)絡(luò)模型。

        表5 不同模型在RAF-DB上的性能對比表

        5 結(jié)語

        本文基于MobileNetV2 中的深度可分離卷積,優(yōu)化網(wǎng)絡(luò)層結(jié)構(gòu),在瓶頸模塊中引入CA混合注意力機制,并使用了全局逐深度卷積(GDConv)代替全局平均池化層,增大深度可分離卷積中深度卷積核大小,調(diào)整MobileNetV2 的寬度因子,構(gòu)建出改進的MobileNetV2來做SCN表情識別的特征提取網(wǎng)絡(luò)。RAF-DB和FERPlus數(shù)據(jù)集上的實驗結(jié)果驗證了所提方法的可行性和優(yōu)越性。在沒有預(yù)訓練的前提下所提方法在識別上的正確率為79.46%和81.65%高于原SCN 算法,且參數(shù)量和計算量僅為177904 和90.18 MFlops 得到了大幅度降低,對比其他方法具有明顯優(yōu)勢。

        猜你喜歡
        人臉特征提取卷積
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        有特點的人臉
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        三國漫——人臉解鎖
        動漫星空(2018年9期)2018-10-26 01:17:14
        基于傅里葉域卷積表示的目標跟蹤算法
        Bagging RCSP腦電特征提取算法
        馬面部與人臉相似度驚人
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        長得象人臉的十種動物
        奇聞怪事(2014年5期)2014-05-13 21:43:01
        国产白浆大屁股精品视频拍| 国产精品无码一区二区三级| 欧美大屁股xxxx高跟欧美黑人| 一区二区三区中文字幕在线播放| 人妖一区二区三区视频| 少妇被猛烈进入到喷白浆| 高清不卡一区二区三区| 免费人成毛片乱码| 久久精品国产亚洲5555| 极品少妇在线观看视频| 韩国一区二区三区黄色录像| 国产精品国产av一区二区三区| 国产偷久久久精品专区| 国产人碰人摸人爱视频| 精品国产三级a| 国产三级一区二区三区在线观看| 巨爆中文字幕巨爆区爆乳| 真多人做人爱视频高清免费| 亚洲国产精品久久九色| 亚洲中文字幕免费精品| 久久亚洲精品中文字幕| 怡红院免费的全部视频| 国产91对白在线观看| 中文字幕亚洲中文第一 | 放荡人妻一区二区三区| 在线久草视频免费播放| 亚洲一区二区女搞男| 国产人妻精品一区二区三区不卡| 99精品久久久中文字幕 | 久久99精品久久久久久国产人妖| 亚洲女同免费在线观看| 国产亚洲精品美女久久久| 亚洲自拍另类制服在线| 成av人片一区二区三区久久| 一本色道精品亚洲国产一区| 黄片大全视频在线播放| 熟妇人妻无乱码中文字幕| 日本一本久道| av天堂手机一区在线| 18禁免费无码无遮挡不卡网站| 无码人妻av免费一区二区三区|