亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Two-Stage MobileNet:一種用于人臉屬性識別的輕量化模型

        2020-10-12 09:20:14范歡喜葉瑤瑤
        現(xiàn)代計算機 2020年24期
        關鍵詞:多任務人臉準確率

        范歡喜,葉瑤瑤

        (上海交通大學電子信息與電氣工程學院,上海 200240)

        0 引言

        近年來,人臉屬性識別的研究得到了廣泛的關注[1-6]。人臉屬性包含豐富的生理特征(如性別、年齡、膚色等)和外在特征(如發(fā)型、是否佩戴帽子等),是人臉的高級特征表示。人臉屬性不僅可以輔助完成人臉驗證、人臉關鍵點回歸,而且具有許多直接的應用,如消費行為預測、人臉檢索。例如在安防領域,人臉屬性識別系統(tǒng)可以快速檢索出具有特定屬性的人臉。

        人臉屬性識別也是一項具有挑戰(zhàn)性的任務,因為在實際環(huán)境中容易受到人臉姿勢和光照等外在條件的影響,而且在某些計算資源受限的情況下,如移動應用中,需要在快速響應的同時保證識別準確率。

        當前在人臉屬性識別相關的研究上,已經(jīng)有大量的工作被提出。Liu 等人[1]訓練了兩個級聯(lián)的卷積神經(jīng)網(wǎng)絡(CNN):LNet 和 ANet,其中 LNet 用于人臉定位,ANet 用于從定位到的人臉區(qū)域提取特征進行人臉屬性的預測。Hand 等人[7]提出了多任務卷積神經(jīng)網(wǎng)絡MTCNN 和輔助網(wǎng)絡AUX,其中MTCNN 將所有人臉屬性劃分成9 大類分開進行預測,AUX 用于挖掘屬性之間的相關性。He[8]提出了一種損失函數(shù)動態(tài)加權算法動態(tài)地調整不同屬性在總損失函數(shù)中所占的比例,解決了每個屬性識別的難度不同和收斂速度不同的問題。在這之后,He[9]又提出了雙通道卷積神經(jīng)網(wǎng)絡,通過生成對抗網(wǎng)絡(GAN)提取人臉不同部位的抽象特征,與原始的人臉圖片相互不中完成人臉屬性識別。

        以上研究雖然解決了人臉屬性識別問題,但是模型的計算量大,復雜度高,無法大規(guī)模應用在嵌入式和移動應用等計算資源受限的場景。本文在Mobile-NetV2[10]的基礎上提出了Two-Stage MobileNet 模型,將網(wǎng)絡分成前后兩個不同的階段stage-1 和stage-2,在不同的階段使用不同的通道擴張系數(shù),最大程度保留信息的同時降低了模型的參數(shù)量和計算量,在CelebA數(shù)據(jù)集上的實驗表明,Two-Stage MobileNet 可以達到高準確率,同時參數(shù)量和計算量大大降低。

        1 背景介紹

        1.1 多任務學習

        在計算機視覺任務中,多任務學習[18]非常流行并且有效,多個任務之間共享特征,互相影響,減少計算量的同時也利用了任務間的相關性。Ranjan[19]利用多任務學習同時完成人臉檢測、關鍵點定位、姿態(tài)和性別的預測,Hand[7]利用多任務學習同時預測人臉的多個屬性。

        人臉具有多個屬性,對每一個屬性的識別可以看作是一個任務,為每一個人臉屬性識別任務訓練一個網(wǎng)絡會導致網(wǎng)絡的規(guī)模異常龐大,而且沒有利用到不同人臉屬性之間的相關性。多任務學習很好地克服了以上問題,通過共享特征來減小網(wǎng)絡規(guī)模,并且使人臉屬性的相關性得以充分利用。多任務學習結構如圖1所示。

        圖1 單任務(左)與多任務(右)結構圖

        1.2 深度可分離卷積

        深度可分離卷積將標準卷積拆分成了兩步:逐深度卷積和逐點卷積。逐深度卷積在輸入的每一個通道上分配一個卷積核,每個卷積核只作用在當前的通道上。逐深度卷積作用后的輸出的通道數(shù)與輸入相同。逐深度卷積提取特征后需要使用逐點卷積,抽象出更高維的特征,即使用1×1 的標準卷積核對逐深度卷積的輸出進行卷積操作。圖2、圖3、圖4 分別為標準卷積核,逐深度卷積核,逐點卷積核。

        標準卷積同時完成了特征提取和融合,進而產(chǎn)生出新的特征圖。深度可分離卷積通過逐深度卷積完成特征提取,通過逐點卷積完成特征額融合,最后產(chǎn)生新的特征圖。

        深度可分離卷積可以大大降低模型的計算量。當輸入高度為DF、寬度為DF、通道數(shù)為M的特征圖,經(jīng)過高度為DK、寬度為DK的卷積核,輸出高度為DF、寬度為DF、通道數(shù)為N的特征圖時,標準卷積的計算量為:

        深度可分離卷積的計算量為:

        (2)式中第一項為逐深度卷積的計算量,第二項為逐點卷積的計算量。

        深度可分離卷積與標準卷積的計算量之比為:

        當卷積核的大小為3×3 時,深度可分離卷積的計算量幾乎為標準卷積計算量的1/9。

        圖2 標準卷積核

        圖3 逐深度卷積核

        圖4 逐點卷積核

        2 基于Two-Stage MobileNet的人臉屬性識別

        基于Two-Stage MobileNet 的人臉屬性識別由兩部分組成,如圖5 所示:首先通過Two-Stage MobileNet 網(wǎng)絡進行特征的提取,抽取出人臉屬性的高級特征,然后將抽取出的特征輸入到全連接層,進行邏輯回歸,完成人臉屬性識別。

        圖5 基于Two-Stage MobileNet的人臉屬性識別

        2.1 損失函數(shù)

        人臉屬性識別任務是輸入一張人臉圖片,判斷某一人臉屬性是否存在。當圖片的標簽上某個人臉屬性存在,那么網(wǎng)絡預測這個屬性存在的概率應該盡可能靠近1,反之亦然。

        單張圖片單個人臉屬性的損失函數(shù)定義如下:

        其中yik∈{0,1}是圖片的標簽,表明第i張圖片中第k個人臉屬性是否存在,0 表示屬性不存在,1 表示屬性存在,是網(wǎng)絡預測的屬性存在的概率值。

        假設數(shù)據(jù)集共有N張人臉圖片,包含M個人臉屬性,則人臉屬性識別損失函數(shù)為:

        2.2 線性瓶頸的倒殘差模塊

        具有線性瓶頸的倒殘差模塊(Bottleneck)如圖4 所示,由三個卷積組成:首先輸入高度為DF、寬度為DF、通道數(shù)為M的特征圖,經(jīng)過一個逐點卷積進行通道數(shù)擴展,通道擴張系數(shù)為t,輸出高度為DF、寬度為DF、通道數(shù)為M·t的特征圖;然后經(jīng)過一個逐深度卷積輸出高度為DF、寬度為DF、通道數(shù)為M·t的特征圖;最后經(jīng)過一個逐點卷積輸出高度為DF、寬度為DF、通道數(shù)為N的特征圖,與原始輸入相加作為模塊最終的輸出。當stride=2 時,原始輸入和最后一個逐點卷積的維度不相同,此時不進行殘差連接。

        圖6 線性瓶頸的倒殘差模塊

        2.3 Two-Stage MobileNet

        在線性瓶頸的倒殘差模塊中,特征圖首先經(jīng)過擴展系數(shù)為t的通道數(shù)擴展,這一步是為了減少信息的損失。由MobileNetV2[10]中知,當特征圖的通道數(shù)較小時,經(jīng)過relu激活函數(shù)后會導致信息的損失,當特征圖的通道數(shù)較大時,信息得以分布在各個通道,經(jīng)過relu激活函數(shù)后信息幾乎不損失。當輸入特征圖的通道數(shù)較小時,可以先將輸入特征圖的通道數(shù)擴大到較大的值,再完成卷積和relu操作。

        MobileNetV2[10]中設定通道擴展系數(shù)t為一個超參數(shù),在其實驗中取t=6,t的大小使得網(wǎng)絡可以達到性能和復雜度的平衡。但是MobileNetV2[10]將所有倒殘差模塊中的擴展系數(shù)設置為同一個值,這是不合理的,因為在網(wǎng)絡的前半段,特征圖的通道數(shù)小,這時需要較大的通道擴張系數(shù)減小信息的損失,然而在網(wǎng)絡的后半段,特征圖的通道數(shù)大,此時需要較小的通道擴展系數(shù),甚至不需要進行通道擴展。

        本文在此基礎上提出了Two-Stage MobileNet,根據(jù)輸入通道數(shù)將MobileNetV2[10]分成前后兩個階段stage-1 和stage-2,在不同的階段使用不同的通道擴展系數(shù)t1和t2。在stage-1 階段,輸入通道數(shù)較小,此時使用較大的通道擴張系數(shù)t1;在stage-2 階段,輸入通道數(shù)較大,此時使用較小的通道擴張系數(shù)t2。由第1章可知,模型的計算量與通道數(shù)成正比,當減小通道擴張系數(shù)時,對應的通道數(shù)也會減小,網(wǎng)絡的計算量和參數(shù)量相應也減少。

        式(6)和式(7)中Cin為輸入特征圖的通道數(shù),Cthreshold為確定stage-1 和stage-2 的通道數(shù)閾值,為一個超參數(shù),本文中取Cthreshold=32。

        完整的Two-Stage MobileNet 結構如表1 所示,包含多個線性瓶頸的倒殘差模塊序列,激活函數(shù)使用relu6,卷積核大小為3×3,其中表1 的每一行表示一個有n個操作(operator)的操作序列,序列中的第一個操作的步長s=2,其余為1。每個序列的輸出通道數(shù)為c,通道擴展系數(shù)為t。

        表1 Two-Stage MobileNet 網(wǎng)絡結構

        為了便于分析,我們將Two-Stage MobileNet 用TM-t1-t2 表示,其中t1 為stage-1 階段的通道擴張系數(shù),t2 為stage-2 階段的通道擴張系數(shù)。

        3 實驗分析

        3.1 實驗數(shù)據(jù)集

        本文采用的人臉屬性數(shù)據(jù)集為CelebA[1],該數(shù)據(jù)集包含超過20 萬張名人身份的照片。每張照片都標注了40 個人臉屬性,包括性別、臉型、是否戴眼鏡等。每一個人臉屬性標注為二元標簽,1 表示屬性存在,0 表示屬性不存在。所有圖片的大小為224×178。數(shù)據(jù)集被分成了訓練集、驗證集、測試集,分別包含162770、19867、19962 張照片。

        3.2 數(shù)據(jù)預處理和實驗設置

        在訓練卷積神經(jīng)網(wǎng)絡時,合理的數(shù)據(jù)預處理十分重要。本文采用的數(shù)據(jù)預處理步驟有隨機水平翻轉、隨機縮放像素值、隨機縮放圖片的亮度、對比度和飽和度,最后將圖片放大為224×224 送入網(wǎng)絡。實驗采用Adam 優(yōu)化器,總訓練輪數(shù)為30,初始學習率為0.001,在第 10、15、20、25 輪時學習率衰減 0.1 倍。實驗采用NIVIDIA RTX 2080Ti GPU,批大小為64,訓練時間為5個小時。

        3.3 實驗結果

        表2 中為不同網(wǎng)絡在CelebA 數(shù)據(jù)集上的測試結果,本文使用平均準確率作為評價結果。由于之前的研究未給出準確的模型計算量和參數(shù)量,本文按照如下方式進行估計:部分模型是通過改善常見模型得到的,這時使用常見模型的計算量和參數(shù)量進行代替,如Adaptive CNN[8]、Dual- path[9]、MTCNN- 2[14]是 基 于ResNet-50[13],使用ResNet-50[13]的計算量和參數(shù)量代替,LNet+ANet[1]和 MTCNN-1[5]基 于 AlexNet[14],使用AlexNet[14]的計算量代替,MOON[3]基于 VGG-16[15],使用VGG-16[15]的計算量代替;對于其他非常見模型,則不列出計算量。

        與基于AlexNet[14]和VGG-16[15]的模型相比,TM-6-2 不僅準確率更高,而且參數(shù)量減小60 倍,計算量減少近20 倍。與基于ResNet-50[13]的模型相比,TM-6-2 的準確率略低,但是計算量和參數(shù)量減小了10 倍;與其他的輕量化模型相比,TM-6-2 比Slim-CNN[16]的準確率更高,在達到相同準確率的情況下,比MobileNetV2[17]的參數(shù)量減少一倍,計算量減少34%;與NAS-Mobile[17]相比,TM-6-2 的準確率略低,但是神經(jīng)網(wǎng)絡搜索得到的結構不整齊,不利于硬件的實現(xiàn)。綜合以上分析,本文提出的Two-Stage MobileNet 在大幅減小計算量和參數(shù)量的同時可以有效的保持高準確率。

        表2 不同網(wǎng)絡在CelebA 上的平均準確率

        3.4 擴展系數(shù)的選取

        Stage-1 階段的通道擴張系數(shù)保持與Mobile-NetV2[10]一致,stage-2 階段的通道擴張系數(shù)設置為可變。

        表3 為stage-2 階段不同通道擴展系數(shù)的實驗結果,可以看出TM-6-2 既可以保持高準確率,又降低了計算量和參數(shù)量,達到了準確率和復雜度的平衡。另外從表3 還可以看出,當合理地減小網(wǎng)絡后半段的通道擴展系數(shù)時,對網(wǎng)絡的性能幾乎不產(chǎn)生影響,但是模型的復雜度卻大幅降低,這也證明了Two-Stage MobileNet 網(wǎng)絡的有效性。

        表3 不同 t2 的Two-Stage MobileNet 網(wǎng)絡在CelebA 上的平均準確率

        4 結語

        本文提出了一種用于人臉屬性識別的輕量化模型:Two-Stage MobileNet,將網(wǎng)絡分成前后兩個階段stage-1 和stage-2,合理地為不同階段設置不同的通道擴張系數(shù),同時采用了深度可分離卷積,大幅減少了模型的參數(shù)量和計算量,在CelebA 數(shù)據(jù)集上的實驗表明,Two-Stage MobileNet 在達到相當高的準確率的同時,減少了模型的計算量和參數(shù)量。接下來的工作為將Two-Stage MobileNet 進行落地,將人臉屬性識別模型應用到手機移動端。

        猜你喜歡
        多任務人臉準確率
        有特點的人臉
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預報參考產(chǎn)品質量檢驗分析
        基于中心化自動加權多任務學習的早期輕度認知障礙診斷
        三國漫——人臉解鎖
        動漫星空(2018年9期)2018-10-26 01:17:14
        高速公路車牌識別標識站準確率驗證法
        基于判別性局部聯(lián)合稀疏模型的多任務跟蹤
        自動化學報(2016年3期)2016-08-23 12:02:56
        基于多任務異步處理的電力系統(tǒng)序網(wǎng)絡拓撲分析
        電測與儀表(2016年5期)2016-04-22 01:13:46
        馬面部與人臉相似度驚人
        亚洲精品亚洲人成在线下载 | 少妇的丰满3中文字幕| 亚洲AV乱码毛片在线播放| 在线久草视频免费播放| 久久久99精品成人片| 人妻丝袜无码国产一区| 亚洲精品成AV无在线观看| 国产一区二区av在线观看| 欧美精品无码一区二区三区| 亚洲精品乱码久久久久久蜜桃不卡| 精品欧美在线| 精品专区一区二区三区| 人妻诱惑中文字幕在线视频| 亚洲av无码一区二区三区人妖| 欧美视频九九一区二区| 在线观看女同一区二区| 尤物yw午夜国产精品视频| 免费国产黄网站在线观看 | 无码av免费一区二区三区| 亚洲国产欧美另类va在线观看| 极品少妇一区二区三区四区视频| 噜噜综合亚洲av中文无码| 日日碰狠狠躁久久躁96avv| 中文字幕有码高清| 加勒比日韩视频在线观看| 亚洲av综合永久无码精品天堂| 国产最新地址| 精品av一区二区在线| 精品无码人妻夜人多侵犯18| 国产精品黄在线观看免费软件| 国产亚洲精品性爱视频| 日本女优激情四射中文字幕| 欧美精品黑人粗大免费| 中文人成影院| 亚洲中文字幕第一页免费| 亚洲午夜久久久久久久久电影网| 少妇内射视频播放舔大片| 91精品人妻一区二区三区蜜臀| 国产一区二区三区四色av| 精品人妻人人做人人爽| 国产在视频线精品视频二代|