亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        輕量級(jí)網(wǎng)絡(luò)在人臉表情識(shí)別上的新進(jìn)展

        2024-05-24 17:34:27蔣斌崔曉梅江宏彬丁漢清袁俊嶺
        關(guān)鍵詞:深度學(xué)習(xí)

        蔣斌 崔曉梅 江宏彬 丁漢清 袁俊嶺

        摘 要:作為人工智能領(lǐng)域的熱門(mén)研究方向,人臉表情識(shí)別(facial expression recognition,F(xiàn)ER)是讓計(jì)算機(jī)獲取人類感情最直接最有效的方式,在人機(jī)交互、智慧醫(yī)療、疲勞駕駛等研發(fā)課題中占據(jù)關(guān)鍵的技術(shù)地位。為了滿足高識(shí)別率的應(yīng)用需求,F(xiàn)ER深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)愈發(fā)復(fù)雜,占用了大量的計(jì)算資源和存儲(chǔ)空間,嚴(yán)重影響了算法實(shí)時(shí)性的要求。圍繞如何在有效提升模型運(yùn)算速度的同時(shí),保障模型的精度這一問(wèn)題展開(kāi)綜述。首先,介紹了利用輕量級(jí)網(wǎng)絡(luò)實(shí)現(xiàn)表情識(shí)別的重要數(shù)據(jù)集;其次,對(duì)用于人臉表情識(shí)別的經(jīng)典輕量級(jí)網(wǎng)絡(luò)模型進(jìn)行了分析;再次,闡述了主要的網(wǎng)絡(luò)輕量化方法的原理、特點(diǎn)及適用場(chǎng)景;最后,總結(jié)了輕量級(jí)網(wǎng)絡(luò)在人臉表情識(shí)別研究中存在的問(wèn)題和挑戰(zhàn),對(duì)未來(lái)的研究方向進(jìn)行展望。

        關(guān)鍵詞:人臉表情識(shí)別;輕量化網(wǎng)絡(luò);網(wǎng)絡(luò)輕量化;深度學(xué)習(xí)

        中圖分類號(hào):TP391?? 文獻(xiàn)標(biāo)志碼:A

        文章編號(hào):1001-3695(2024)03-003-0663-08

        doi:10.19734/j.issn.1001-3695.2023.07.0287

        New advances in lightweight networks for facial expression recognition

        Jiang Bin,Cui Xiaomei,Jiang Hongbin,Ding Hanqing,Yuan Junling

        (School of Computer Science & Technology,Zhengzhou University of Light Industry,Zhengzhou 450001,China)

        Abstract:As a popular research direction in the field of artificial intelligence,F(xiàn)ER is the most direct and effective way for computers to access human emotions.It occupies a key technical position in human-computer interaction,intelligent medical care,fatigue driving,and other R&D topics.In order to meet the application requirements of high recognition rate,the structure of FER deep learning network becomes more and more complex,occupying a large amount of computing resources and storage space,which seriously affects the real-time requirements of the algorithm.This paper focused on the problem of how to guarantee the accuracy of the model while effectively improving its computational speed.Firstly,it introduced the important datasets for expression recognition using lightweight networks.Secondly,it analyzed the classical lightweight network models used for facial expression recognition.Thirdly,it described the principles,characteristics,and applicable scenarios of the main network lightweighting methods.Finally,it summarized the problems and challenges of lightweight networks in facial expression recognition research and looked forward to the future research direction.

        Key words:facial expression recognition;lightweight network;network lightweighting;deep learning

        0 引言

        面部表情是人類表達(dá)情感狀態(tài)最真實(shí)、最有效的信號(hào)之一。人臉表情識(shí)別(FER)通過(guò)人臉檢測(cè)、人臉對(duì)齊、特征提取、分類等幾個(gè)部分[1]識(shí)別人的表情,并在智能控制、心理學(xué)、虛擬現(xiàn)實(shí)、人機(jī)交互、安防等領(lǐng)域得到廣泛應(yīng)用。

        完成FER的關(guān)鍵在于如何有效獲取人臉的表情特征。在深度學(xué)習(xí)熱潮之前,表情識(shí)別研究多采用基于機(jī)器學(xué)習(xí)的方法,從整體、局部、幾何、模型等多個(gè)角度,獲取面部表情特征。經(jīng)典方法,如局部二值模式(LBP)[2]、方向梯度直方圖(HOG)[3]等,依靠手工提取人臉表情樣本的淺層特征,也能夠準(zhǔn)確地分析和判斷部分測(cè)試者的面部表情。然而當(dāng)被識(shí)別者處于復(fù)雜多變的環(huán)境時(shí),上述方法難以維持較高的識(shí)別率。

        深度學(xué)習(xí)技術(shù)的異軍突起給基于機(jī)器學(xué)習(xí)的表情識(shí)別方法注入了新的活力?;谏疃葘W(xué)習(xí)的表情識(shí)別方法主要包含三個(gè)步驟:首先,針對(duì)輸入樣本(圖像或視頻)進(jìn)行預(yù)處理,如去噪、分析定位等,若樣本圖像模糊,還需要先對(duì)樣本圖像進(jìn)行修復(fù),現(xiàn)有技術(shù)已經(jīng)能夠滿足實(shí)驗(yàn)要求[4,5];其次,將處理好的圖像輸送到深度學(xué)習(xí)模型中進(jìn)行特征提取;最后,將提取到的表情特征對(duì)分類器進(jìn)行訓(xùn)練,進(jìn)行依靠訓(xùn)練后的分類器正確地預(yù)測(cè)樣本的表情分類。與傳統(tǒng)方法不同的是,在深度學(xué)習(xí)方法中,特征提取和分類的過(guò)程均可由深度學(xué)習(xí)模型自行完成[6]。文獻(xiàn)[7,8]均采用多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法,提高了FER模型的性能。文獻(xiàn)[9]將LBP與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,在一定程度上解決了旋轉(zhuǎn)問(wèn)題。文獻(xiàn)[10]提出一種加權(quán)混合深度神經(jīng)網(wǎng)絡(luò)(weighted mixture Feep neural network,WMDNN)自動(dòng)提取對(duì)FER任務(wù)有效的特征,可以通過(guò)更簡(jiǎn)單的程序?qū)崿F(xiàn)強(qiáng)大的性能。文獻(xiàn)[11]提出一種模擬粗到細(xì)視覺(jué)注意的新型多注意網(wǎng)絡(luò),以學(xué)習(xí)表達(dá)相關(guān)區(qū)域的判別特征。由此可見(jiàn),深度學(xué)習(xí)的出現(xiàn)使人臉表情識(shí)別取得了很大的進(jìn)展,各種高精度卷積神經(jīng)網(wǎng)絡(luò)陸續(xù)被用于表情識(shí)別研究,但體積大,計(jì)算復(fù)雜阻礙了卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的落地。因此輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)和網(wǎng)絡(luò)模型輕量化方法成為了基于深度學(xué)習(xí)的人臉表情識(shí)別的重要研究方向。

        輕量級(jí)人臉表情識(shí)別研究的識(shí)別任務(wù)是人臉表情樣本,具體實(shí)現(xiàn)過(guò)程包括兩個(gè)方面:a)依托現(xiàn)有輕量級(jí)網(wǎng)絡(luò)進(jìn)行人臉表情識(shí)別;b)對(duì)原有的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行輕量級(jí)處理,再用于人臉表情識(shí)別。因此本文從以上兩方面出發(fā),對(duì)新型輕量級(jí)表情識(shí)別網(wǎng)絡(luò)及模型壓縮方法進(jìn)行綜述。

        1 典型的人臉表情數(shù)據(jù)集

        由于輕量級(jí)表情識(shí)別研究更側(cè)重于人臉表情識(shí)別技術(shù)的實(shí)用化,所以其采用的人臉表情數(shù)據(jù)集更青睞于賦予網(wǎng)絡(luò)在真實(shí)環(huán)境下開(kāi)展表情識(shí)別所面臨的挑戰(zhàn)。例如:光照不均衡、頭部姿態(tài)的不一致、人臉的部分遮擋,以及識(shí)別對(duì)象的復(fù)雜性都增加了表情識(shí)別的難度。

        典型的人臉表情數(shù)據(jù)集如下所示。

        a)CK+數(shù)據(jù)庫(kù)是Lucey等人[12]在Cohn-Kanade數(shù)據(jù)庫(kù)的基礎(chǔ)上創(chuàng)建的。該庫(kù)包含了來(lái)自123位不同民族參與者的593段人臉表情圖像序列,完整展示了人臉表情從開(kāi)始到完全展現(xiàn)的過(guò)程,如圖1所示。

        b)FER2013數(shù)據(jù)集[13]是由Google Research創(chuàng)建的公開(kāi)數(shù)據(jù)庫(kù),其中包含測(cè)試圖28708張,公共驗(yàn)證圖和私有驗(yàn)證圖各3 589張,如圖2所示。該庫(kù)包含了遮擋、姿態(tài)、光照等真實(shí)環(huán)境變化下的表情圖像。

        c)AffectNet數(shù)據(jù)集[14]是由Affectiva公司推出大規(guī)模野外面部表情數(shù)據(jù)集,包含超過(guò)一百萬(wàn)張面部圖片,每個(gè)圖像都標(biāo)記了相應(yīng)的情感類別。它們涵蓋了不同性別、不同年齡和不同種族的面孔,以反映真實(shí)世界中的多樣性。

        d)RaFD數(shù)據(jù)庫(kù)[15]是由不同年齡、性別及膚色的67位表演者拍攝而成,共有8 400張圖像,包含高興、悲傷、厭惡、驚奇、恐懼、生氣、輕蔑以及中立表情8種基本表情。每種表情有5種不同的姿態(tài)和3種不同的眼神方向。

        e)CelebA-Spoof數(shù)據(jù)庫(kù)[16]是由北京交通大學(xué)、商湯科技及香港中文大學(xué)共同創(chuàng)建,包含10 177個(gè)名人超過(guò)62萬(wàn)張的人臉數(shù)據(jù)集,每個(gè)圖像還伴隨著43個(gè)屬性標(biāo)簽,40個(gè)屬于活體圖像面部信息,如皮膚、鼻子、發(fā)型、眼鏡等,3個(gè)屬于欺騙類型標(biāo)注,即使用照片、視頻或面具等非真實(shí)人臉進(jìn)行欺騙的情況。

        上述人臉表情數(shù)據(jù)集的對(duì)比如表1所示。

        2 用于表情識(shí)別的輕量化網(wǎng)絡(luò)

        隨著嵌入式設(shè)備的普及,在嵌入式設(shè)備上部署深度模型已成為一種趨勢(shì)。大多數(shù)高精度模型都需要大量的計(jì)算成本。因此,開(kāi)發(fā)一種運(yùn)行在嵌入式設(shè)備上進(jìn)行表情識(shí)別的輕量級(jí)網(wǎng)絡(luò)模型是當(dāng)前研究的熱點(diǎn)。本文將介紹幾個(gè)比較熱門(mén)的用于人臉與表情識(shí)別的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)表情識(shí)別基本原理如圖3所示。

        2.1 MobileNet系列模型

        從AlexNet [17]通過(guò)贏得ImageNet Challenge:ILSVRC 2012[18]推廣了深度卷積神經(jīng)網(wǎng)絡(luò)以來(lái),卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中已經(jīng)變得無(wú)處不在。為了獲得更高的精度,一般的趨勢(shì)是制作更深入、更復(fù)雜的網(wǎng)絡(luò)[19,20],然而,這會(huì)導(dǎo)致網(wǎng)絡(luò)變得更加龐大和計(jì)算資源消耗更高。自此從2017年開(kāi)始,谷歌先后提出了MobileNetV1[21]、MobileNetV2[22]、MobileNetV3[23],這些都可以應(yīng)用于移動(dòng)和嵌入式設(shè)備中,并且這些模型在ImageNet數(shù)據(jù)集上取得了很高的精度。

        2.1.1 MobileNetV1

        MobileNetV1[21]是一種高效的神經(jīng)網(wǎng)絡(luò)架構(gòu),它使用深度可分離卷積(depthwise separable convolution,DSC)代替標(biāo)準(zhǔn)卷積來(lái)降低模型參數(shù),從而提高網(wǎng)絡(luò)的計(jì)算效率和精度。在MobileNetV1中,深度可分離卷積被用作卷積層的基本構(gòu)建塊,它由深度卷積(depthwise convolution,DW)和逐點(diǎn)卷積(pointwise convolution,PW)組成。

        在人臉與表情識(shí)別方面,MobileNetV1可以用于特征提取。首先,通過(guò)人臉檢測(cè)和對(duì)齊等技術(shù),將人臉部分提取出來(lái)。然后,將人臉圖像輸入MobileNetV1模型進(jìn)行特征提取,得到人臉的表情特征。最后,將特征輸入分類器進(jìn)行訓(xùn)練,實(shí)現(xiàn)人臉與表情的識(shí)別。

        文獻(xiàn)[24]在MobileNetV1的網(wǎng)絡(luò)模型中,引入了注意力模塊,增強(qiáng)了模型對(duì)面部表情局部特征的提取能力,然后結(jié)合中心損耗和softmax損耗對(duì)模型參數(shù)進(jìn)行優(yōu)化,減小類內(nèi)距離,增大類間距離,并加入了dropout技術(shù),防止過(guò)擬合。在不增加模型參數(shù)數(shù)量的情況下,顯著提高了識(shí)別精度,但是還需進(jìn)一步提高模型的分類能力。

        2.1.2 MobileNetV2

        MobileNetV2[22]是一種輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)模型,可以用于人臉和表情識(shí)別等相關(guān)領(lǐng)域。該模型在MobileNetV1的基礎(chǔ)上增加了殘差結(jié)構(gòu),并引入了線性瓶頸和倒殘差結(jié)構(gòu),以解決通道數(shù)較少的feature map上的信息丟失問(wèn)題。在人臉識(shí)別和表情識(shí)別中,低維流形映射到高維空間的特征表達(dá)通常包含重要信息。MobileNetV2通過(guò)在卷積塊中插入線性瓶頸層來(lái)捕獲這些信息,同時(shí)在最后一層卷積中使用線性激活函數(shù)來(lái)避免過(guò)多的信息損失。倒殘差結(jié)構(gòu)可以提高內(nèi)存效率,使得MobileNetV2能夠在保持模型輕量級(jí)的同時(shí),更好地捕獲人臉和表情相關(guān)的特征,提高識(shí)別精度和效率。

        文獻(xiàn)[25]利用MobileNetV2優(yōu)化SSD網(wǎng)絡(luò)結(jié)構(gòu),解決模型參數(shù)過(guò)多的問(wèn)題。并且受注意力機(jī)制提高特征提取能力的啟發(fā),使用卷積塊注意力模塊(convolutional block attention mo-dule,CBAM)[26]從通道和空間兩方面優(yōu)化MobileNetV2網(wǎng)絡(luò),將三個(gè)網(wǎng)絡(luò)的特征結(jié)合起來(lái)。該方法減少了識(shí)別參數(shù)的數(shù)量,但對(duì)于負(fù)面情緒的識(shí)別精度較低。文獻(xiàn)[27]在MobileNetV2的基礎(chǔ)上使用了多層輕量級(jí)卷積和特征融合方法,提高了網(wǎng)絡(luò)的運(yùn)行效率和表情識(shí)別的檢測(cè)精度。

        2.1.3 MobileNetV3

        MobileNetV3[23]適用于資源受限場(chǎng)景的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)提供了MobileNetV3 large和MobileNetV3 small兩個(gè)版本,可根據(jù)具體資源需求進(jìn)行選擇。它結(jié)合了MobileNetV1的深度可分離卷積、MobileNetV2的linear bottleneck和inverted residuals結(jié)構(gòu)以及SE模塊[28],并利用平臺(tái)感知的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索(neural architecture search,NAS)[29]進(jìn)行自動(dòng)網(wǎng)絡(luò)搜索,從而大大提高了MobileNetV3在人臉與表情識(shí)別中的識(shí)別精度。

        MobileNetV3的反向瓶頸結(jié)構(gòu)和變體基于MobileNetV2,并使用1×1卷積作為最后一層,以擴(kuò)展到高維特征空間,提高預(yù)測(cè)性能,但這也會(huì)帶來(lái)額外的延遲。為了進(jìn)一步減少延遲、減少計(jì)算量,MobileNetV3對(duì)原始結(jié)構(gòu)進(jìn)行了優(yōu)化。經(jīng)過(guò)優(yōu)化后,MobileNetV3幾乎不損失精度的情況下有效地減少了7 ms的延遲,相當(dāng)于運(yùn)行時(shí)間的11%,并減少了3 000萬(wàn)個(gè)乘加累積操作數(shù)MAdds的操作數(shù)量[23]。這種優(yōu)化使MobileNetV3更適合于人臉與表情識(shí)別等資源受限的應(yīng)用場(chǎng)景,從而在實(shí)際應(yīng)用中更高效、準(zhǔn)確。文獻(xiàn)[30]在MobileNet網(wǎng)絡(luò)的基礎(chǔ)上增加卷積層的數(shù)量和通道數(shù),增加殘差連接及注意力機(jī)制,實(shí)現(xiàn)了對(duì)人臉圖像的有效分類。

        2.2 ShuffleNet

        ShuffleNet[31]是計(jì)算效率極高的輕量級(jí)CNN架構(gòu),通過(guò)逐點(diǎn)群卷積和通道混洗來(lái)提高計(jì)算效率兩種新的操作。其中,逐點(diǎn)群卷積是對(duì)點(diǎn)卷積的一種改進(jìn),它可以在保持計(jì)算效率的同時(shí)提高精度。通道混洗則是通過(guò)重新分組輸入通道,將不同的通道組合在一起,從而降低計(jì)算成本。

        ShuffleNet的基礎(chǔ)塊采用了瓶頸結(jié)構(gòu)和群卷積,通過(guò)反復(fù)堆疊這些基礎(chǔ)塊來(lái)構(gòu)建整個(gè)網(wǎng)絡(luò)。在群卷積中,將輸入通道分為若干組,每組只進(jìn)行局部卷積操作,從而降低計(jì)算復(fù)雜度。

        ShuffleNetV2[32]在ShuffleNet的基礎(chǔ)上引入了通道拆分算子,可以在不太多群的情況下保持大量和等寬的信道,從而最小化內(nèi)存訪問(wèn)量。這種算子可以避免通道混洗算子破壞數(shù)據(jù)存儲(chǔ)連續(xù)性的問(wèn)題。

        在人臉表情識(shí)別等領(lǐng)域,ShuffleNet可以與MTCNN[33]等其他算法結(jié)合使用,從而實(shí)現(xiàn)快速和準(zhǔn)確的識(shí)別。通過(guò)一系列優(yōu)化操作,包括瓶頸結(jié)構(gòu)、深度可分離卷積、群卷積和通道拆分,ShuffleNet實(shí)現(xiàn)了高效和準(zhǔn)確的特征提取和分類。同時(shí),ShuffleNet還可以適用于計(jì)算資源受限的場(chǎng)景,例如移動(dòng)端和嵌入式設(shè)備。

        文獻(xiàn)[34]從特征提取的角度,對(duì)傳統(tǒng)的ShuffleNetV2網(wǎng)絡(luò)模型作出改進(jìn),進(jìn)一步壓縮了模型的計(jì)算復(fù)雜度,增強(qiáng)模型的性能,通過(guò)標(biāo)簽平滑學(xué)習(xí),利用軟標(biāo)簽監(jiān)督網(wǎng)絡(luò)的學(xué)習(xí)來(lái)解決單標(biāo)簽信息量不足所導(dǎo)致的歧義表情問(wèn)題,相較于目前其他人臉表情識(shí)別方法,其識(shí)別率有一定的提高,同時(shí)模型參數(shù)量和計(jì)算量保持在較低水平,利于其在實(shí)際中的應(yīng)用。文獻(xiàn)[35]改進(jìn)的ShuffleNet設(shè)計(jì),引入了分組卷積和通道隨機(jī)重排等技術(shù),使得網(wǎng)絡(luò)具有較高的識(shí)別精度和較快的推理速度。表2列舉出上述網(wǎng)絡(luò)模型識(shí)別精度與計(jì)算量數(shù)據(jù),可以看出同時(shí)間發(fā)表的MobileNetV3的性能是最好的,ShuffleNetV2次之,而ShuffleNetV1與MobileNetV2顯然要差一些。

        2.3 LA-Net

        LA-Net[36]是一種新穎的輕量級(jí)注意力網(wǎng)絡(luò)模型,用于人臉表情識(shí)別。該模型結(jié)合了SE模塊和CNN網(wǎng)絡(luò),通過(guò)給每個(gè)特征通道分配一定的權(quán)重,重點(diǎn)學(xué)習(xí)人臉的顯著特征,減少冗余信息,從而提取出判別特征。LA-Net包含五個(gè)塊,分別是block 1~5,每個(gè)塊由多個(gè)3×3卷積層組成。對(duì)于所有的五個(gè)塊,步幅都是1。每個(gè)塊后面都有一個(gè)SE-block,用于學(xué)習(xí)有選擇地放大有價(jià)值的特征通道,抑制無(wú)用的特征通道以減少冗余信息。

        由于計(jì)算成本高、模型規(guī)模大的限制,LA-Net采用了網(wǎng)絡(luò)瘦身法,通過(guò)進(jìn)一步減小模型的尺寸,得到一個(gè)精簡(jiǎn)緊湊的網(wǎng)絡(luò),使用更少的運(yùn)行時(shí)內(nèi)存和計(jì)算操作,從而在資源有限的設(shè)備上實(shí)現(xiàn)高性能FER。雖然該方法可以節(jié)省高達(dá)5.6倍的參數(shù),觸發(fā)器的減少量通常在15倍左右,微調(diào)后的網(wǎng)絡(luò)可能比原始模型的識(shí)別精度有所下降。然而,在數(shù)據(jù)集樣本相對(duì)平衡,面部表情特征區(qū)別相對(duì)較大的情況下,LA-Net在人臉表情識(shí)別方面具有較高的準(zhǔn)確率。

        2.4 MFF-CNN

        MFF-CNN(multi-feature fusion based convolutional neural network)[37]是一種用于人臉表情識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)。它采用了多特征融合的策略,包括一個(gè)image分支和一個(gè)patch分支。image branch從全局的角度對(duì)輸入圖像進(jìn)行中層和高層特征的提取,patch branch將輸入圖像分割成16個(gè)重疊的圖像小塊,并從每個(gè)小塊中提取局部特征。通過(guò)特征向量選擇機(jī)制,MFF-CNN選擇最具有辨別性的局部特征,減少后續(xù)全連接層的計(jì)算節(jié)點(diǎn)。最后,image branch和patch branch進(jìn)行聯(lián)合調(diào)優(yōu),將兩個(gè)分支產(chǎn)生的特征進(jìn)行正確融合,提高了人臉與表情識(shí)別的準(zhǔn)確性。

        然而,對(duì)于更復(fù)雜的FER任務(wù),MFF-CNN可能需要使用更深層次的卷積神經(jīng)網(wǎng)絡(luò)以更好地捕獲表情的細(xì)節(jié)和復(fù)雜性。由于MFF-CNN使用的卷積層數(shù)較少,可能在處理不受約束的FER任務(wù)時(shí)存在性能下降的問(wèn)題。因此,在這些情況下,需要使用更先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)提高FER任務(wù)的性能。

        2.5 SDNet

        SDNet[38]是在XceptionNet[39]和DenseNet[40]的啟發(fā)下提出的一種基于深度可分離卷積和密集塊的人臉與表情識(shí)別網(wǎng)絡(luò)模型,旨在降低模型參數(shù)并提高效率。該模型采用殘差結(jié)構(gòu)以解決網(wǎng)絡(luò)退化問(wèn)題,并增強(qiáng)深度特征在不同層間的傳遞性。此外,SDNet還提出了自適應(yīng)類權(quán)重作用以緩解樣品不平衡,并采用RO損失函數(shù)以避免過(guò)擬合。通過(guò)實(shí)驗(yàn)室控制的數(shù)據(jù)集和野外數(shù)據(jù)集的測(cè)試,SDNet在人臉與表情識(shí)別相關(guān)方面表現(xiàn)出色,具有輕量級(jí)和高精度的特點(diǎn)。

        2.6 EfficientFace

        EfficientFace[41]是一種用于面部遮擋表情識(shí)別的輕量級(jí)網(wǎng)絡(luò)。由于實(shí)際場(chǎng)景中存在著遮擋和姿態(tài)變化等問(wèn)題,對(duì)比各種人臉去遮擋技術(shù)[42,43],EfficientFace提出了局部特征提取器和信道空間調(diào)制器來(lái)解決這些問(wèn)題。此外,提出了一種新的標(biāo)簽分布學(xué)習(xí)方法,這與心理學(xué)家Plutchik[44]的理論是一致的。通過(guò)這些技術(shù)手段,EfficientFace可以更準(zhǔn)確地提取人臉局部特征,從而提高模型在野外FER任務(wù)中的效果。

        相較于傳統(tǒng)基于人臉標(biāo)志的局部特征獲取方法,EfficientFace的局部特征提取器可以更高效地提取局部區(qū)域特征,并將其以殘差形式融合到全局特征中,提高了特征提取的效率和準(zhǔn)確性。此外,EfficientFace提出了一種新的標(biāo)簽分布學(xué)習(xí)方法,即標(biāo)簽分發(fā)生成器(label distribution generator,LDG) 用于解決人臉圖像的情感分布標(biāo)注困難的問(wèn)題。LDG可以生成用于訓(xùn)練的標(biāo)簽分發(fā),使模型更好地利用數(shù)據(jù),提高模型的性能。

        總的來(lái)說(shuō),EfficientFace在人臉與表情識(shí)別任務(wù)中,通過(guò)使用輕量級(jí)網(wǎng)絡(luò)、局部特征提取器、信道空間調(diào)制器和標(biāo)簽分布學(xué)習(xí)方法等技術(shù)手段,可以更有效地提取局部特征,同時(shí)解決數(shù)據(jù)標(biāo)注的問(wèn)題,從而取得更好的效果。表3對(duì)相關(guān)網(wǎng)絡(luò)模型進(jìn)行了分析。

        3 用于表情識(shí)別的網(wǎng)絡(luò)輕量化

        在人臉表情識(shí)別領(lǐng)域,小型設(shè)備上無(wú)法部署現(xiàn)有深度神經(jīng)網(wǎng)絡(luò)模型的問(wèn)題一直存在。為了解決這一問(wèn)題,研究者們開(kāi)始探索對(duì)模型進(jìn)行有效壓縮的方法,以在保持模型性能不變的前提下減少計(jì)算量和存儲(chǔ)空間。當(dāng)前的研究熱點(diǎn)包括量化、低秩分解、網(wǎng)絡(luò)修剪、輕量化網(wǎng)絡(luò)設(shè)計(jì)和知識(shí)蒸餾。這些方法有助于在小型設(shè)備上實(shí)現(xiàn)高性能的人臉表情識(shí)別。

        3.1 網(wǎng)絡(luò)量化

        網(wǎng)絡(luò)量化[45]是一種在保證模型精度的前提下,減少模型參數(shù)量、計(jì)算量和存儲(chǔ)空間的壓縮方法,被廣泛應(yīng)用于人臉識(shí)別和表情識(shí)別等領(lǐng)域。其中,二值化權(quán)重是一種常用的量化方法,通過(guò)將權(quán)重限制在兩個(gè)可能值之間來(lái)達(dá)到參數(shù)壓縮的效果。文獻(xiàn)[46]提出了一種稱為binary connect的方法,通過(guò)約束在這些前向和后向傳播中使用的權(quán)重為二進(jìn)制來(lái)消除對(duì)這些乘法的需要,從而將這些乘法運(yùn)算變?yōu)榧訙p運(yùn)算。然而,僅使用二值化權(quán)重可能會(huì)存在信息丟失的問(wèn)題,從而影響模型性能。為了解決這個(gè)問(wèn)題,Qin等人[47]提出了一個(gè)信息保留網(wǎng)絡(luò)(IR-Net)來(lái)保留包含向前激活和向后梯度的信息。文獻(xiàn)[48]采用二值權(quán)重和低比特位激活值的量化方式在保持高準(zhǔn)確性的同時(shí),大大減少了網(wǎng)絡(luò)的計(jì)算和存儲(chǔ)開(kāi)銷(xiāo),使得人臉識(shí)別模型可以更好地適應(yīng)資源受限的小型設(shè)備。文獻(xiàn)[49]通過(guò)將網(wǎng)絡(luò)參數(shù)進(jìn)行量化和壓縮來(lái)減少模型的大小和計(jì)算量,并且不會(huì)顯著降低識(shí)別性能,對(duì)于實(shí)現(xiàn)高效率的人臉識(shí)別具有重要意義。

        LA-Net將SE模塊與CNN模塊相結(jié)合,有效減少了冗余信息,并采用網(wǎng)絡(luò)瘦身法降低網(wǎng)絡(luò)模型規(guī)模與計(jì)算成本非常適合在資源受限的設(shè)備上實(shí)現(xiàn)高性能FER雖然運(yùn)行內(nèi)存使用較少但是其在真實(shí)場(chǎng)景下識(shí)別精度有待提高運(yùn)行內(nèi)存有限,精度要求不高

        MFF-CNN采用image分支和patch分支,進(jìn)行多特征融合,并使用L2范數(shù)選擇最優(yōu)的局部特征,減少后續(xù)全連接層的計(jì)算節(jié)點(diǎn)相較于其他網(wǎng)絡(luò)模型,規(guī)模更小,參數(shù)更少僅適用于約束環(huán)境下人臉表情識(shí)別對(duì)靜態(tài)圖片識(shí)別較多

        SDNET使用自適應(yīng)的分類權(quán)值和RO損失函數(shù)在保持識(shí)別精度的同時(shí)大幅降低網(wǎng)絡(luò)參數(shù)在樣本數(shù)量不平衡的情況下仍保持較高的識(shí)別精度在野外數(shù)據(jù)集的識(shí)別精度較低表情代表性不足且要求識(shí)別精度較高

        EfficientFace在ShuffleNetV2的基礎(chǔ)上提出了局部特征提取器和信道空間調(diào)制器,在遮擋和姿勢(shì)變化的條件下,特征提取結(jié)果仍較準(zhǔn)確在實(shí)際遮擋和姿態(tài)變化明顯的前提下仍能有較高的識(shí)別精度在人臉微表情發(fā)生變化時(shí),識(shí)別精度較大差距面部有遮擋且姿態(tài)易變化

        3.2 低秩分解

        在人臉與表情識(shí)別的相關(guān)領(lǐng)域,低秩壓縮方法也被廣泛應(yīng)用于模型壓縮與加速。

        一種常見(jiàn)的方法是使用低秩濾波器來(lái)近似預(yù)訓(xùn)練模型中的原始濾波器,從而減少模型參數(shù)數(shù)量和計(jì)算復(fù)雜度[50]。文獻(xiàn)[51]提出了一種直接通過(guò)最小化濾波器重構(gòu)誤差來(lái)重構(gòu)原始濾波器的方法,并且可以通過(guò)最小化卷積層輸出的重構(gòu)誤差來(lái)間接逼近卷積層。Tai等人[52]提出了一種新的計(jì)算低秩張量分解的算法,并在BN層將內(nèi)部隱藏單元的激活歸一化。雖然該方法在壓縮模型參數(shù)方面效果顯著,但是分解操作成本過(guò)高,且逐層分解不利于全局參數(shù)壓縮,目前使用較少。文獻(xiàn)[53]提出的低秩矩陣分解算法GoDec+,具有魯棒性強(qiáng),分類速度快的優(yōu)點(diǎn)。

        3.3 模型剪枝

        模型剪枝是一種有效的網(wǎng)絡(luò)壓縮方法,可以通過(guò)刪除冗余的通道或網(wǎng)絡(luò)結(jié)構(gòu),減小模型的大小并提高推理速度[45],同時(shí)保持準(zhǔn)確度。針對(duì)人臉表情識(shí)別任務(wù),可以采用非結(jié)構(gòu)化剪枝、結(jié)構(gòu)化剪枝和自動(dòng)化剪枝等方法。

        3.3.1 非結(jié)構(gòu)化模型剪枝

        非結(jié)構(gòu)化剪枝是隨機(jī)刪除一些通道或權(quán)重,簡(jiǎn)單易行,但可能會(huì)破壞網(wǎng)絡(luò)結(jié)構(gòu)平衡性,影響準(zhǔn)確度。Han等人[54]提出在不改變網(wǎng)絡(luò)結(jié)構(gòu)的情況下通過(guò)刪減不重要的連接,來(lái)減少存儲(chǔ)和計(jì)算所需的神經(jīng)網(wǎng)絡(luò)數(shù)量級(jí)。Zhang等人[55]提出一種新的DNN權(quán)重修剪和模型壓縮的系統(tǒng)框架,通過(guò)將權(quán)重修剪問(wèn)題描述為一個(gè)具有組合約束的約束非凸優(yōu)化問(wèn)題,利用基數(shù)函數(shù)誘導(dǎo)權(quán)重的稀疏性,采用乘數(shù)交替方向法(alternating direction method of multipliers,ADMM)將原非凸優(yōu)化問(wèn)題分解為兩個(gè)子問(wèn)題,迭代求解。

        3.3.2 結(jié)構(gòu)化模型剪枝

        與非結(jié)構(gòu)化剪枝相比,結(jié)構(gòu)化剪枝則是刪除整個(gè)通道或?qū)?,可以保持平衡性和?zhǔn)確度。Liu等人[56]提出一種名為網(wǎng)絡(luò)瘦身的訓(xùn)練方案,對(duì)批處理歸一化層(batch normalization,BN)中的尺度因子進(jìn)行稀疏誘導(dǎo)正則化,從而在訓(xùn)練過(guò)程中自動(dòng)識(shí)別不重要的通道并進(jìn)行修剪,從而導(dǎo)致更緊湊的網(wǎng)絡(luò)。文獻(xiàn)[57]通過(guò)剪枝算法對(duì)GoogLeNet網(wǎng)絡(luò)進(jìn)行訓(xùn)練、修剪低權(quán)重連接和再訓(xùn)練網(wǎng)絡(luò)等操作,添加全局最大池化層并保留檢測(cè)目標(biāo)的位置信息,以sigmoid交叉熵作為訓(xùn)練目標(biāo),獲得全面的人臉表情特征信息。改進(jìn)后網(wǎng)絡(luò)得到較高的識(shí)別率,具有較好的適用性。

        3.3.3 自動(dòng)化模型剪枝

        非結(jié)構(gòu)化剪枝和結(jié)構(gòu)化剪枝依賴于人為設(shè)計(jì)的方案,這樣的設(shè)計(jì)往往會(huì)耗費(fèi)很長(zhǎng)時(shí)間,因此Liu等人[58]提出了一種新的元學(xué)習(xí)(meta learning)方法,用于自動(dòng)通道修剪。首先訓(xùn)練一個(gè)修剪網(wǎng)絡(luò),可生成任一修剪網(wǎng)絡(luò)的權(quán)重,然后通過(guò)進(jìn)化搜索方法搜索出最佳修剪網(wǎng)絡(luò)從而進(jìn)行剪枝。文獻(xiàn)[59]提出了一個(gè)用于細(xì)粒度和結(jié)構(gòu)化修剪的統(tǒng)一自動(dòng)修剪框架NAP(network automatic pruning),幾乎不需要超參數(shù)調(diào)優(yōu),與之前的方法相比顯示出更好的性能。

        除了模型剪枝,還可以結(jié)合其他壓縮方法來(lái)進(jìn)一步壓縮模型。例如,可以使用量化方法將浮點(diǎn)數(shù)參數(shù)轉(zhuǎn)換為整數(shù)參數(shù),減小模型的大小和內(nèi)存占用,同時(shí)提高推理速度,根據(jù)具體任務(wù)和需求,可以選擇不同的剪枝方法并結(jié)合其他壓縮方法。相關(guān)方法優(yōu)劣分析見(jiàn)表4。

        3.4 輕量級(jí)設(shè)計(jì)

        為了實(shí)現(xiàn)在資源有限的設(shè)備上的實(shí)時(shí)性能要求,人臉表情識(shí)別領(lǐng)域也需要采用輕量化網(wǎng)絡(luò)設(shè)計(jì)。其中,調(diào)整卷積核大小和分組卷積運(yùn)算是兩種有效的方法來(lái)減少網(wǎng)絡(luò)的計(jì)算量和參數(shù)數(shù)量。

        3.4.1 調(diào)整卷積核大小

        首次提出調(diào)整卷積核大小思想是在inception V3[20],使用較小的卷積核代替較大的卷積核。其中使用兩個(gè)3×3的卷積替換一個(gè)5×5的卷積,明顯減少了參數(shù)。除了使用3×3的卷積降低參數(shù)以外,SqueezeNet[60]則是用1×1的卷積核來(lái)替換3×3的,這使得參數(shù)減少到原來(lái)的1/9,同時(shí)減少了輸入通道的個(gè)數(shù)。文獻(xiàn)[61]保留了原SqueezeNet模型中的小卷積核去提取圖片特征,采用首尾池化層分別引入對(duì)應(yīng)的后續(xù)卷積層進(jìn)行特征融合并采用L2范數(shù)約束的方法,將最后一層的特征約束在一個(gè)球面內(nèi)。改進(jìn)后網(wǎng)絡(luò)在不降低識(shí)別率的前提下,輸入?yún)?shù)少、模型易于收斂和能夠運(yùn)行在內(nèi)存小的硬件設(shè)備。

        3.4.2 分組卷積運(yùn)算

        除了調(diào)整卷積核大小的方法外,分組卷積運(yùn)算也是一種有效的輕量化網(wǎng)絡(luò)設(shè)計(jì)方法。通過(guò)將輸入特征圖分成多個(gè)組,并在每個(gè)組內(nèi)進(jìn)行卷積運(yùn)算,可以降低計(jì)算量和參數(shù)數(shù)量。例如,將標(biāo)準(zhǔn)卷積運(yùn)算分解為多個(gè)組卷積運(yùn)算,有助于提高網(wǎng)絡(luò)的效率。這些方法可以幫助人臉表情識(shí)別網(wǎng)絡(luò)實(shí)現(xiàn)輕量化,以滿足在資源有限的設(shè)備上的實(shí)時(shí)性能要求。ResNeXt[62]重復(fù)聚合一組具有相同拓?fù)浣Y(jié)構(gòu)的轉(zhuǎn)換的構(gòu)建塊進(jìn)行構(gòu)建,比ResNet[63]有更高的準(zhǔn)確率。IGCNets[64]將標(biāo)準(zhǔn)卷積分解成多個(gè)組卷積,在保持網(wǎng)絡(luò)規(guī)模和計(jì)算復(fù)雜度的同時(shí),比常規(guī)群卷積更寬,效率更高。

        因此,在人臉表情識(shí)別領(lǐng)域的輕量化網(wǎng)絡(luò)設(shè)計(jì)中,調(diào)整卷積核大小和分組卷積運(yùn)算是兩種常用的方法。它們可以有效地減少網(wǎng)絡(luò)的計(jì)算量和參數(shù)數(shù)量,從而提高網(wǎng)絡(luò)的效率和實(shí)時(shí)性能。

        3.5 知識(shí)蒸餾

        知識(shí)蒸餾的概念最早由文獻(xiàn)[65]提出,用于訓(xùn)練具有偽標(biāo)簽的強(qiáng)分類器的壓縮模型。2015年Hinton等人[66]真正實(shí)現(xiàn)了知識(shí)蒸餾(knowledge distilling,KD)技術(shù),其主要思想是使用教師網(wǎng)絡(luò)通過(guò)已學(xué)習(xí)的知識(shí)來(lái)指導(dǎo)學(xué)生網(wǎng)絡(luò),將教師網(wǎng)絡(luò)的知識(shí)壓縮到深度相似的學(xué)生網(wǎng)絡(luò)中[67]。在人臉表情識(shí)別領(lǐng)域,知識(shí)蒸餾技術(shù)被廣泛應(yīng)用。通過(guò)知識(shí)蒸餾技術(shù),小型的學(xué)生模型可以獲得與大型教師模型相似的表現(xiàn),同時(shí)減小模型的體積和計(jì)算復(fù)雜度,適應(yīng)資源有限的設(shè)備,如移動(dòng)設(shè)備和嵌入式系統(tǒng)。在表情識(shí)別任務(wù)中,教師網(wǎng)絡(luò)通常是一個(gè)表現(xiàn)良好的大型網(wǎng)絡(luò),如ResNet或VGG[68]等。學(xué)生網(wǎng)絡(luò)通常是一個(gè)較小的網(wǎng)絡(luò),如MobileNet或ShuffleNet等。KD的基本原理如圖4所示。

        一些研究者將知識(shí)蒸餾技術(shù)與其他方法結(jié)合起來(lái),以提高表情識(shí)別性能,Romero等人[69]提出的FitNets可以結(jié)合知識(shí)蒸餾和中間層對(duì)齊技術(shù),提高學(xué)生網(wǎng)絡(luò)的泛化性能和分類準(zhǔn)確率。文獻(xiàn)[70]提出一種新的軟標(biāo)簽生成方式和知識(shí)蒸餾過(guò)程,把標(biāo)簽置信度估計(jì)網(wǎng)絡(luò)中豐富和獨(dú)特知識(shí)以基于響應(yīng)的方式蒸餾到表情分類網(wǎng)絡(luò)中,有效提高了表情分類網(wǎng)絡(luò)的表征能力和泛化能力。文獻(xiàn)[71]提出基于偽孿生網(wǎng)絡(luò)的知識(shí)蒸餾方法提升網(wǎng)絡(luò)模型的人臉表情識(shí)別準(zhǔn)確率。相關(guān)方法優(yōu)劣分析見(jiàn)表5。

        4 結(jié)束語(yǔ)

        現(xiàn)有的輕量級(jí)網(wǎng)絡(luò)雖然能夠在嵌入式設(shè)備中進(jìn)行人臉表情識(shí)別,但是遇到光照變化、面部遮擋、頭部偏轉(zhuǎn)等非理想狀態(tài)時(shí),表情識(shí)別的準(zhǔn)確率仍然較低[72]。本文認(rèn)為該領(lǐng)域還有很多亟待解決的問(wèn)題與挑戰(zhàn):

        a)數(shù)據(jù)樣本不平衡。在實(shí)際應(yīng)用中,表情數(shù)據(jù)集往往呈現(xiàn)不平衡性,即不同表情類別的樣本數(shù)量存在較大差異。這種不平衡現(xiàn)象會(huì)導(dǎo)致輕量級(jí)表情識(shí)別網(wǎng)絡(luò)在訓(xùn)練過(guò)程中偏向于學(xué)習(xí)樣本較多的表情類別,從而對(duì)樣本較少的表情識(shí)別效果較差。解決數(shù)據(jù)不平衡問(wèn)題并提高對(duì)各種表情的識(shí)別能力是一個(gè)重要且具有挑戰(zhàn)性的任務(wù)。

        b)模型可解釋性差。在輕量級(jí)網(wǎng)絡(luò)的設(shè)計(jì)過(guò)程中,確實(shí)會(huì)面臨模型的可解釋性問(wèn)題。由于這些網(wǎng)絡(luò)通常較為復(fù)雜,缺乏直觀的可解釋性,很難理解網(wǎng)絡(luò)對(duì)表情判別的依據(jù)。提高輕量級(jí)網(wǎng)絡(luò)的可解釋性,使得人們能夠理解網(wǎng)絡(luò)的決策過(guò)程,是一個(gè)值得探索的方向。

        c)實(shí)時(shí)性要求高。在某些實(shí)時(shí)應(yīng)用場(chǎng)景中,如智能手機(jī)和智能駕駛等,表情識(shí)別需要在非常短的時(shí)間內(nèi)完成。如何確保輕量級(jí)網(wǎng)絡(luò)在這些實(shí)時(shí)性要求下保持高準(zhǔn)確率,是一個(gè)重要的挑戰(zhàn)。

        有鑒于此,本文認(rèn)為輕量級(jí)表情識(shí)別網(wǎng)絡(luò)未來(lái)可行的研究方向如下所示。

        a)研究基于遷移學(xué)習(xí)的識(shí)別算法。樣本不平衡會(huì)導(dǎo)致網(wǎng)絡(luò)模型在訓(xùn)練過(guò)程中傾向于偏向樣本較多的表情類別,從而對(duì)樣本較少的表情識(shí)別效果較差,而遷移學(xué)習(xí)可以有效利用大規(guī)模數(shù)據(jù)集中的信息,提高對(duì)少數(shù)類別的識(shí)別能力。將遷移學(xué)習(xí)運(yùn)用到識(shí)別算法是一個(gè)有價(jià)值的研究方向。

        b)研究基于可解釋性圖模型的輕量級(jí)網(wǎng)絡(luò)。通過(guò)使用可解釋性圖模型網(wǎng)絡(luò)結(jié)構(gòu)可以使網(wǎng)絡(luò)的決策過(guò)程更加透明,并且有助于更好地理解網(wǎng)絡(luò)在表情識(shí)別中的工作原理。通過(guò)這些探索和改進(jìn),輕量級(jí)網(wǎng)絡(luò)可以在保持高性能的同時(shí),具備更好的可解釋性,使其在實(shí)際應(yīng)用中更加可信和可用。

        c)研究更快計(jì)算響應(yīng)的網(wǎng)絡(luò)。目前輕量級(jí)網(wǎng)絡(luò)在小型設(shè)備上進(jìn)行目標(biāo)檢測(cè)、物體定位等任務(wù)上已經(jīng)取得了顯著進(jìn)展[73,74],然而人臉表情識(shí)別任務(wù)相對(duì)復(fù)雜,如何在保持高準(zhǔn)確率的同時(shí),實(shí)現(xiàn)輕量級(jí)網(wǎng)絡(luò)的實(shí)時(shí)計(jì)算及響應(yīng)是未來(lái)的奮斗目標(biāo)。

        d)研究更有效的模型壓縮方法。模型壓縮的過(guò)程往往涉及到模型的損失,如何能在保持模型性能,損失可控的前提下尋找有效的模型壓縮方法,來(lái)降低模型的存儲(chǔ)需求和計(jì)算開(kāi)銷(xiāo)是當(dāng)前一個(gè)努力的方向。

        e)研究自主搜索網(wǎng)絡(luò)結(jié)構(gòu)的算法。隨著網(wǎng)絡(luò)的發(fā)展,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索(neural architecture search,NAS)[75,76]初有成效,但依舊受人工設(shè)計(jì)的影響。因此亟需一種不再需要人工干涉搜索空間的解決方法,自動(dòng)組合現(xiàn)有空間,從而得到最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),邁向真正智能的重要一步。

        f)研究特殊場(chǎng)景下針對(duì)小樣本的輕量級(jí)網(wǎng)絡(luò)。由于特殊場(chǎng)景下的識(shí)別樣本采集不易,如痛感識(shí)別、自閉癥兒童心理狀態(tài)等涉及患者隱私的研究,樣本數(shù)量有限,網(wǎng)絡(luò)不易訓(xùn)練。為避免網(wǎng)絡(luò)欠學(xué)習(xí)情況的發(fā)生,亟待研究泛化性更好的輕量級(jí)識(shí)別算法,以應(yīng)對(duì)小樣本學(xué)習(xí)問(wèn)題。

        參考文獻(xiàn):

        [1]Liu Wenting,Zhou Li,Chen Jie.Face recognition based on lightweight convolutional neural networks[J].Information,2021,12(5):article No.191.

        [2]Shan Caifeng,Gong Shaogang,Mcowan P W.Facial expression recognition based on local binary patterns:a comprehensive study[J].Image and Vision Computing,2009,27(6):803-816.

        [3]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2005:886-893.

        [4]姜藝,胥加潔,柳絮,等.邊緣指導(dǎo)圖像修復(fù)算法研究[J].計(jì)算機(jī)科學(xué)與探索,2022,16(3):669-682.(Jiang Yi,Xu Jiajie,Liu Xu,et al.Research on edge guided image restoration algorithm[J].Computer Science and Exploration,2022,16(3):669-682.)

        [5]劉微容,米彥春,楊帆,等.基于多級(jí)解碼網(wǎng)絡(luò)的圖像修復(fù)[J].電子學(xué)報(bào),2022,50(3):12-18.(Liu Weirong,Mi Yanchun,Yang Fan,et al.Image restoration based on multilevel decoding network[J].

        Acta Electronic Sinica,2022,50(3):12-18.)

        [6]蔣斌,鐘瑞,張秋聞,等.采用深度學(xué)習(xí)方法的非正面表情識(shí)別綜述[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(8):48-61.(Jiang Bin,Zhong Rui,Zhang Qiuwen,et al.An overview of nonpositive expression recognition using depth learning methods[J].Computer Engineering and Applications,2021,57(8):48-61.)

        [7]Chou K Y,Cheng Y W,Chen W R,et al.Multi-task cascaded and densely connected convolutional networks applied to human face detection and facial expression recognition system[C]//Proc of International Automatic Control Conference.Piscataway,NJ:IEEE Press,2019:1-6.

        [8]Yu Wenming,Xu Hua.Co-attentive multi-task convolutional neural network for facial expression recognition[J].Pattern Recognition,2022,123:108401.

        [9]Xu Qintao,Zhao Najing.A facial expression recognition algorithm based on CNN and LBP feature [C]//Proc of the 4th Information Technology,Networking,Electronic and Automation Control Confe-rence.Piscataway,NJ:IEEE Press,2020:2304-2308.

        [10]Yang Biao,Cao Jinmeng,Ni Rongrong,et al.Facial expression recognition using weighted mixture deep neural network based on double-channel facial images[J].IEEE Access,2018,6:4630-4640.

        [11]Gan Yanling,Chen Jingying,Yang Zongkai,et al.Multiple attention network for facial expression recognition[J].IEEE Access,2020,8:7383-7393.

        [12]Lucey P,Cohn J F,Kanade T,et al.The extended Cohn-Kanade dataset (CK+):a complete dataset for action unit and emotion-specified expression[C]//Proc of IEEE Computer Society Conference on Compu-ter Vision and Pattern Recognition-Workshops.Piscataway,NJ:IEEE Press,2010:94-101.

        [13]Goodfellow I J,Erhan D,Carrier P L,et al.Challenges in representation learning:a report on three machine learning contests[C]//Proc of International Conference on Neural Information Processing.Berlin:Springer,2013:117-124.

        [14]Mollahosseini A,Hasani B,Mahoor M H.AffectNet:a database for facial expression,valence,and arousal computing in the wild[J].IEEE Trans on Affective Computing,2019,10(1):18-31.

        [15]Langner O,Dotsch R,Bijlstra G,et al.Presentation and validation of the Radboud faces database[J].Cognition and Emotion,2010,24(8):1377-1388.

        [16]Zhang Yuanhan,Yin Zhenfei,Li Yidong,et al.CelebA-Spoof:large-scale face anti-spoofing dataset with rich annotations[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020:70-85.

        [17]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Advances in Neural Information Processing Systems,2012,1(6):1097-1105.

        [18]Russakovsky O,Deng J,Su Hao,et al.ImageNet large scale visual re-cognition challenge[J].International Journal of Computer Vision,2015,115(3):211-252.

        [19]Szegedy C,Ioffe S,Vanhoucke V.Inception-V4,Inception-ResNet and the impact of residual connections on learning[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:4278-4284.

        [20]Szegedy C,Vanhoucke V,Ioffe S,et al.Rethinking the inception architecture for computer vision[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2818-2826.

        [21]Howard A G,Zhu Menglong,Chen Bo,et al.MobileNets:efficient convolutional neural networks for mobile vision applications[EB/OL].(2017-04-17).https://arxiv.org/abs/1704.04861.

        [22]Sandler M,Howard A,Zhu Menglong,et al.MobileNetV2:inverted residuals and linear bottlenecks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4510-4520.

        [23]Howard A,Sandler M,Cheng Bo,et al.Searching for MobileNetV3[C]//Proc of IEEE/CVF International Conference on Computer Vision.2019:1314-1324.

        [24]Nan Yahui,Ju Jianguo,Hua Qingyi,et al.A-MobileNet:an approach of facial expression recognition[J].Alexandria Engineering Journal,2022,61(6):4435-4444.

        [25]Wang Qiuchen,Xu Xiaowei,Tao Ye,et al.A novel facial expression recognition method based on AMSSD model[C]//Proc of the 6th International Conference on Image,Vision and Computing.Piscataway,NJ:IEEE Press,2021:95-99.

        [26]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:3-19.

        [27]Chen Sheng,Liu Yang,Gao Xiang,et al.MobileFaceNets:efficient CNNs for accurate real-time face verification on mobile devices[C]//Proc of Chinese Conference on Biometric Recognition.Berlin:Sprin-ger,2018:428-438.

        [28]Hu Jie,Shen Li,Sun Gang.Squeeze-and-excitation networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2018:7132-7141.

        [29]Zoph B,Le Q V.Neural architecture search with reinforcement lear-ning[EB/OL].(2017-02-15).https://arxiv.org/abs/1611.01578.

        [30]Zhou You,Liu Yiyue,Han Guijin,et al.Face recognition based on the improved MobileNet[C]//Proc of IEEE Symposium Series on Computational Intelligence.Piscataway,NJ:IEEE Press,2019:2776-2781.

        [31]Zhang Xiangyu,Zhou Xinyu,Lin Mengxiao,et al.ShuffleNet:an extremely efficient convolutional neural network for mobile devices[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6848-6856.

        [32]Ma Ningning,Zhang Xiangyu,Zheng Haitao,et al.ShuffleNet V2:practical guidelines for efficient CNN architecture design[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:116-131.

        [33]Ghofrani A,Toroghi R M,Ghanbari S.Realtime face-detection and emotion recognition using MTCNN and miniShuffleNet V2[C]//Proc of the 5th Conference on Knowledge Based Engineering and Innovation.Piscataway,NJ:IEEE Press,2019:817-821.

        [34]劉勁,羅曉曙,徐照興.權(quán)重推斷與標(biāo)簽平滑的輕量級(jí)人臉表情識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(2):254-263.(Liu Jing,Luo Xiaoshu,Xu Zhaoxing.Computer Engineering and Applications.Lightweight facial expression recognition based on weight inference and label smoothing[J].Computer Engineering and Applications,2024,60(2):254-263.)

        [35]Martindez-Díaz Y,Luevano L S,Mendez-Vazquez H,et al.ShuffleFaceNet:a lightweight face architecture for efficient and highly-accurate face recognition[C]//Proc of IEEE/CVF International Confe-rence on Computer Vision Workshop.Piscataway,NJ:IEEE Press,2019:2721-2728.

        [36]Ma Hui,Celik T,Li H C.Lightweight attention convolutional neural network through network slimming for robust facial expression recognition[J].Signal,Image and Video Processing,2021,15(7):1507-1515.

        [37]Zou Wei,Zhang Dong,Lee D J.A new multi-feature fusion based convolutional neural network for facial expression recognition[J].Applied Intelligence,2022,52(3):2918-2929.

        [38]Zhou Lifang,Li Siqin,Wang Yi,et al.SDNET:lightweight facial expression recognition for sample disequilibrium[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2022:2415-2419.

        [39]Chollet F.Xception:deep learning with depthwise separable convolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:1800-1807.

        [40]Huang Gao,Liu Zhuang,Maaten V L D,et al.Densely connected convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:2261-2269.

        [41]Zhao Zengqun,Liu Qingshan,Zhou Feng.Robust lightweight facial expression recognition network with label distribution training[J].Proc of AAAI Conference on Artificial Intelligence,2021,35(4):3510-3519.

        [42]奚琰.基于對(duì)比學(xué)習(xí)的細(xì)粒度遮擋人臉表情識(shí)別[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2022,31(11):175-183.(Xi Yan.Fine grained occlusion facial expression recognition based on contrast learning[J].Compu-ter Systems & Applications,2022,31(11):175-183.)

        [43]劉穎,張藝軒,佘建初,等.人臉去遮擋新技術(shù)研究綜述[J].計(jì)算機(jī)科學(xué)與探索,2021,15(10):1773-1794.(Liu Ying,Zhang Yixuan,She Jianchu,et al.A review of new face occlusion removal technologies[J].Computer Science and Exploration,2021,15(10):1773-1794.)

        [44]Plutchik R.A general psychoevolutionary theory of emotion[M]//Plutchik R,Kellerman H.Theories of Emotion.[S.l.]:Academic Press,1980:3-33.

        [45]Han Song,Mao Huizi,Dally W J.Deep compression:compressing deep neural networks with pruning,trained quantization and Huffman co-ding[EB/OL].(2016-02-15).https://arxiv.org/abs/1510.00149.

        [46]Courbariaux M,Bengio Y,David P J.BinaryConnect:training deep neural networks with binary weights during propagations[C]//Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2015:3123-3131.

        [47]Qin Haotong,Gong Ruihao,Liu Xianglong,et al.Forward and backward information retention for accurate binary neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2020:2247-2256.

        [48]Jacob B,Kligys S,Chen Bo,et al.Quantization and training of neural networks for efficient integer-arithmetic-only inference[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:2704-2713.

        [49]Yamamoto K.Learnable companding quantization for accurate low-bit neural networks [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:5027-5036.

        [50]Liu Jing,Zhuang Bohan,Zhuang Wei,et al.Discrimination-aware network pruning for deep model compression[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,44(8):4035-4051.

        [51]Jaderberg M,Vedaldi A,Zisserman A.Speeding up convolutional neural networks with low rank expansions[EB/OL].(2014-05-15).https://arxiv.org/abs/1405.3866.

        [52]Tai Cheng,Xiao Tong,Zhang Yi,et al.Convolutional neural networks with low-rank regularization[EB/OL].(2016-02-14).https://arxiv.org/abs/1511.06067.

        [53]郭鍇凌.低秩分解及其在計(jì)算機(jī)視覺(jué)中的應(yīng)用[D].廣州:華南理工大學(xué),2017.(Guo Kailing.Low rank decomposition and its application in computer vision[D].Guangzhou:South China University of Technology,2017.)

        [54]Han Song,Pool J,Tran J,et al.Learning both weights and connections for efficient neural networks[C]//Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2015:1135-1143.

        [55]Zhang Tianyun,Ye Shaokai,Zhang Kaiqi,et al.A systematic DNN weight pruning framework using alternating direction method of multipliers[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:191-207.

        [56]Liu Zhuang,Li J,Shen Zhiqiang,et al.Learning efficient convolutional networks through network slimming[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2755-2763.

        [57]張宏麗,白翔宇.利用優(yōu)化剪枝GoogLeNet的人臉表情識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(19):179-188.(Zhang Hongli,Bai Xiangyu.Facial expression recognition method using optimized pruning GoogLeNet[J].Computer Engineering and Applications,2021,57(19):179-188.)

        [58]Liu Zechun,Mu Haoyuan,Zhang Xiangyu,et al.Metapruning:meta learning for automatic neural network channel pruning[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:3295-3304.

        [59]Zeng Wenyuan,Xiong Yuwen,Urtasun R.Network automatic pruning:start nap and take a nap [EB/OL].(2021-01-17).https://arxiv.org/abs/2101.06608.

        [60]Iandola F N,Moskewicz M W,Ashraf K,et al.SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and <0.5 MB model size[EB/OL].(2016-02-24).https://arxiv.org/abs/1602.07360.

        [61]吳軍,邱陽(yáng),盧忠亮.基于改進(jìn)的SqueezeNet的人臉識(shí)別[J].科學(xué)技術(shù)與工程,2019,19(11):218-223.(Wu Jun,Qiu Yang,Lu Zhongliang.Face recognition based on improved SqueezeNet[J].Science,Technology and Engineering,2019,19(11):218-223.)

        [62]Xie Saining,Girshick R,Dollár P,et al.Aggregated residual transformations for deep neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:5987-5995.

        [63]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.

        [64]Zhang Ting,Qi G J,Xiao Bin,et al.Interleaved group convolutions[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:4383-4392.

        [65]Bucil? C,Caruana R,Niculescu-Mizil A.Model compression[C]//Proc of the 12th ACM SIGKDD International Conference on Know-ledge Discovery and Data Mining.New York:ACM Press,2001:535-541.

        [66]Hinton G,Vinyals O,Dean J.Distilling the knowledge in a neural network[EB/OL].(2015-03-09).https://arxiv.org/abs/1503.02531.

        [67]高晗,田育龍,許封元,等.深度學(xué)習(xí)模型壓縮與加速綜述[J].軟件學(xué)報(bào),2021,32(1):68-92.(Gao Han,Tian Yulong,Xu Fengyuan,et al.Summary of compression and acceleration of deep learning model[J].Journal of Software,2021,32(1):68-92.)

        [68]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition [EB/OL].(2015-04-10).https://arxiv.org/abs/1409.1556.

        [69]Romero A,Ballas N,Kahou S E,et al.FitNets:hints for thin deep nets[EB/OL].(2015-03-27).https://arxiv.org/abs/1412.6550.

        [70]許大良.基于標(biāo)簽置信估計(jì)與知識(shí)蒸餾的表情識(shí)別算法研究[D].武漢:華中師范大學(xué),2022.(Xu Daliang.Research on expression recognition algorithm based on label confidence estimation and knowledge distillation[D].Wuhan:Huazhong Normal University,2022.)

        [71]姜慧明.基于生成對(duì)抗網(wǎng)絡(luò)與知識(shí)蒸餾的人臉修復(fù)與表情識(shí)別[D].吉林:吉林大學(xué),2020.(Jiang Huiming.Face restoration and expression recognition based on generative adversarial networks and knowledge distillation[D].Jilin:Jilin University,2020.)

        [72]蔣斌,李南星,鐘瑞,等.人臉部分遮擋條件下表情識(shí)別研究的新進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(12):12-24.(Jiang Bin,Li Nanxing,Zhong Rui,et al.New progress in facial expression recognition under partial occlusion[J].Computer Engineering and App-lications,2022,58(12):12-24.)

        [73]Zhang Menghan,Li Zitian,Song Yuncheng.Optimization and comparative analysis of YOLOV3 target detection method based on lightweight network structure[C]//Proc of IEEE International Conference on Artificial Intelligence and Computer Applications.Piscataway,NJ:IEEE Press,2020:20-24.

        [74]Yang Yumin,Liao Yurong,Ni Shuyan,et al.Study of algorithm for aerial target detection based on lightweight neural network[C]//Proc of IEEE International Conference on Consumer Electronics and Computer Engineering.Piscataway,NJ:IEEE Press,2021:422-426.

        [75]Zoph B,Vasudevan V,Shlens J,et al.Learning transferable architectures for scalable image recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:8697-8710.

        [76]Pham H,Guan M,Zoph B,et al.Efficient neural architecture search via parameters sharing[C]//Proc of the 35th International Conference on Machine Learning.:PMLR,2018:4095-4104.

        猜你喜歡
        深度學(xué)習(xí)
        從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
        面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
        基于自動(dòng)智能分類器的圖書(shū)館亂架圖書(shū)檢測(cè)
        搭建深度學(xué)習(xí)的三級(jí)階梯
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
        利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        亚洲中文字幕久久精品品| 91精品啪在线观看国产色| 亚洲国产精品成人久久av| 韩国日本一区二区在线| 国产午夜精品av一区二区麻豆| 国产在线不卡一区二区三区| 999精品免费视频观看| 成人性生交大片免费看激情玛丽莎| 色欲一区二区三区精品a片| 中文字幕在线播放| 国产国拍亚洲精品午夜不卡17| 日韩亚洲在线一区二区| 免费a级毛片无码免费视频首页| 精品人妻va出轨中文字幕| 一本大道久久a久久综合| 在线观看视频国产一区二区三区| 亚洲人成网站18禁止| 国产在线精品一区二区| 99成人无码精品视频| 国产色第一区不卡高清| 亚洲av无码国产综合专区| 曰本无码人妻丰满熟妇5g影院| 97碰碰碰人妻视频无码| 国产精品熟女一区二区三区| 天天爽天天爽夜夜爽毛片| 福利一区视频| 国内精品国产三级国产avx| 天天躁夜夜躁狠狠躁婷婷| 欧美日韩国产一区二区三区不卡| 色yeye在线观看| 无人视频在线播放免费| 成人免费a级毛片| 日韩另类在线| 亚洲色图偷拍自拍亚洲色图| 欧美顶级少妇作爱| 国产精品va在线播放我和闺蜜| 第九色区Aⅴ天堂| 久久国产成人午夜av免费影院| 少妇无码av无码一区| 久久福利资源国产精品999| 日本一区二区免费看片|