亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進殘差網(wǎng)絡與圖聚類的人臉識別

        2021-11-02 11:48:38蘇俊峰劉振宇
        微處理機 2021年5期
        關鍵詞:信息熵人臉殘差

        蘇俊峰,劉振宇

        (沈陽工業(yè)大學信息科學與工程學院,沈陽110870)

        1 引言

        近年來隨著模式識別與計算機視覺技術的快速發(fā)展,人臉識別成為身份識別領域非常熱門的研究內容。人臉在不同個體之間存在差異而個體自身長時間不會有明顯改變,基于這一特性,人臉識別相比于其他的生物特征識別方法更具有直觀性,應用場景更為豐富。在公安系統(tǒng)、證件審查和金融等領域都有良好的應用效果[1]。

        人臉識別的方法分為基于幾何特征的方法、基于子空間的方法、基于局部特征的方法、基于稀疏表示的方法以及基于深度學習的方法等[2]。其中,基于幾何特征的人臉識別方法在遇到表情與姿態(tài)變化較大的情況時,識別率偏低;基于子空間的方法由于缺乏投影矩陣,實用較為困難;基于局部特征的方法特征計算過程復雜,應用受到限制;基于稀疏表示的方法在對原始信號分解過程中丟失很多原始的信息,影響了識別效果。這幾類傳統(tǒng)方法各有局限,人臉識別準確不佳,相比之下,基于深度學習的方法為人臉識別領域提供了全新的研究方向。

        基于深度學習的方法不用特意去設計出人臉特征,而是可以利用深度卷積神經網(wǎng)絡自動地從海量人臉圖片數(shù)據(jù)中學習到人臉特征。2015年,何愷明等人[3]提出了ResNet殘差網(wǎng)絡結構,其包含的殘差單元有效解決了隨著網(wǎng)絡深度的增加,準確率飽和后出現(xiàn)退化的問題,在ILSVRC-2015分類任務以及ImageNet detection等任務中均獲得第一名。ResNet殘差網(wǎng)絡具有很高的人臉特征提取能力與人臉識別準確率。

        在此,運用ResNet殘差網(wǎng)絡在人臉識別上的研究成果[4],針對原模型結構復雜而導致人臉特征提取時間較長的問題,設計出改進殘差網(wǎng)絡模型,以加快提取速度。訓練數(shù)據(jù)為CASIA-WebFace人臉數(shù)據(jù)集,對模型性能分析比較,結合Chinese whispers及k-means聚類算法形成多個方案,在LFW測試集進行人臉聚類識別。

        2 殘差網(wǎng)絡模型

        2.1 相關知識

        ResNet引入了殘差單元來優(yōu)化深層網(wǎng)絡的學習。一個殘差單元包含兩部分:恒等映射(Identity Mapping)和殘差映射(Residual Mapping)。殘差單元結構如圖1所示。殘差映射在前向傳播中增加捷徑連接,執(zhí)行恒等映射[5],這樣不會增加額外參數(shù)和計算復雜度,比原有映射更易優(yōu)化。在每個卷積層之后采用批量歸一化算法[6],算法原理如下:

        其中,ε為小偏置,用以防止分母為0;γ為縮放因子,β為偏移因子。通過BN算法可以增強反向傳播信息流動性,提升訓練速度,使收斂速度加快,改善正則化策略,提高網(wǎng)絡模型泛化能力并防止過擬合現(xiàn)象。

        另有前向傳播公式:

        以圖1為例,x、y分別表示輸入和輸出,W1、W2為兩個卷積層權重張量,σ為激活函數(shù),F(xiàn)(x,{Wi})為表示殘差映射的函數(shù),BN為批量歸一化操作。

        圖1 殘差單元結構圖

        2.2 設計方案

        用人臉數(shù)據(jù)訓練深度殘差網(wǎng)絡的過程中,需要考慮模型的準確率、訓練時間、模型大小、設備的計算能力等。在實際應用中,結構復雜的模型占用內存大且加載時間長,導致識別速度慢,故此提出改進設計方案。設計的目的是以保持較高準確率為前提,能夠滿足在實際工程中縮短模型加載時間的要求,并為后續(xù)聚類算法提供較好的人臉特征向量輸出接口。圖2是以ResNet-30殘差網(wǎng)絡模型為例對這一設計進行說明。

        圖2 ResNet-30殘差網(wǎng)絡整體結構圖

        由圖中可以看出,殘差網(wǎng)絡含有5個卷積塊,各卷積塊包含的卷積層數(shù)分別為6層、8層、6層、4層和4層,加上Input image后的1個卷積層和全連接層,共同構成30層的ResNet網(wǎng)絡模型。下采樣過程使用2×2大小、stride=2的平均池化,為特征圖降維。在此采用Triplet Loss度量損失函數(shù)[7];反向傳播算法采用小批量梯度[8]下降法(Mini-Batch Gradient Descent),因此算法速度更快、精度更高、更容易接近最優(yōu)解。為提高模型的特征表達能力,需要引入非線性激活函數(shù)。在此處采用ReLU(Rectified Linear Unit)激活函數(shù)。

        三種改進模型與ResNet-34、ResNet-18殘差網(wǎng)絡模型結構的對比情況如表1所示。由表中可知,改進殘差網(wǎng)絡模型在各卷積塊中的卷積核數(shù)量相比于原模型大幅減少,訓練參數(shù)也有減少,實現(xiàn)了網(wǎng)絡模型的精簡,同時由于卷積塊數(shù)量增加,使生成特征圖更為簡化,提升了模型泛化能力。輸入人臉圖片后,經過一系列卷積、激活、下采樣運算后,再進行全局平均池化[9](Global Average Pooling,GAP),最后經過Fc全連接層輸出多維人臉特征向量。

        表1 5種殘差模型結構對比

        多線程訓練模式原理框圖如圖3所示。完成訓練需要如下幾步:首先,從訓練集中隨機選取批量圖片加載至6個線程中,采用MSRA方法[10]初始化模型參數(shù),將模型參數(shù)從內存加載到GPU顯存中;然后,調用GPU用于加速訓練過程[11],運用CUDA并行運算架構將圖片輸出為多維特征向量,再通過損失函數(shù)計算平均損失和梯度,通過反向傳播將梯度傳遞至GPU中;最后,把各線程更新參數(shù)值的平均值作為本次迭代模型參數(shù)最終更新值,完成模型參數(shù)的更新并調回內存。迭代進行上述過程,直至訓練完成。

        圖3 多線程訓練模式

        2.3 訓練過程與結果

        訓練數(shù)據(jù)采用CASIA-WebFace人臉數(shù)據(jù)集[12],包含10575個人的49萬張人臉圖片。使用CPU為Intel Core i7-7700HQ、顯卡為NVIDIA GeForce GTX 1060的筆記本電腦。將Fc全連接層節(jié)點數(shù)設置為128,每次迭代的批量設定為36,引用Momentum[13]方法進行優(yōu)化。初始學習速率為0.1,當有1.1萬次迭代的損失值未減少,則把當前學習率乘以0.1后作為新的學習率繼續(xù)訓練,直至學習率降至10-4。訓練完成后對驗證集的300組樣本對進行交叉驗證,訓練結果如圖4曲線所示。

        圖4 基于不同模型的平均損失變化曲線圖

        從圖中的訓練損失結果來看,模型的變化曲線都是在訓練開始時呈快速下降趨勢,而后下降變慢,曲線總體趨于平緩;接下來會在某個迭代區(qū)間產生突降,這是因為隨著訓練的逐步進行會有局部最優(yōu)解產生,從而導致平均損失變化幅度不大,這時降低學習速率可以有效解決局部最優(yōu)解的問題,為實現(xiàn)全局最優(yōu)解奠定基礎;最后損失曲線呈小幅下降趨勢直至訓練結束。訓練結果詳細數(shù)據(jù)如表2所示。由表可知,從模型大小上看,三種改進模型相比于ResNet-34與ResNet-18模型大幅度減少,且訓練時長縮短。從模型加載時間上看,三種改進模型的加載時間相比于原ResNet-34與ResNet-18模型縮短約37%,在實際應用中可以起到快速加載以提升整體識別速度的作用。用驗證準確率評估模型的泛化能力,ResNet-34模型驗證準確率最高,ResNet-30次之,兩個模型精確度較高且泛化能力強,其余模型驗證準確率則較低。

        表2 不同模型訓練情況對比

        為研究Fc全連接層節(jié)點數(shù)對于模型性能的影響,在此將ResNet-30模型Fc層節(jié)點數(shù)分別設置為64、128與256,分別命名為ResNet-30A、ResNet-30A、ResNet-30C,再次進行訓練,得到的訓練結果如圖5所示。

        圖5 基于ResNet-30的平均損失變化曲線圖

        如圖5所示,在改變全連接層節(jié)點數(shù)后,由平均損失與迭代次數(shù)關系曲線可知與圖4中曲線變化趨勢相似。訓練完成時ResNet-30B模型平均損失值最低,同時在改變全連接層參數(shù)后模型性能也隨之發(fā)生變化,詳細情況如表3所示。

        表3 不同設置下的ResNet-30模型訓練情況表

        由表可知,基于ResNet-30的不同設置的三個模型的模型大小、加載時間與訓練時長基本相似,但在驗證準確率上區(qū)別較大。其中ResNet-30B的驗證準確率最高。由本組實驗可知低維向量不足以精準表達人臉特征,而高維向量過于擬合原始樣本會使泛化能力變差。

        綜上所述,模型性能受到網(wǎng)絡結構以及參數(shù)設置的影響,所以在構建模型時需要保持適當?shù)哪P蜕疃纫员闾崛∩顚尤四樚卣?,同時還要選擇恰當?shù)膮?shù)確保訓練高效可靠。

        3 聚類分析

        聚類分析是指根據(jù)數(shù)據(jù)集之間的相似度將其聚類為若干個簇或類,使得同一簇或類之間的數(shù)據(jù)相似度盡可能大、不同類或簇之間的數(shù)據(jù)相似度盡可能小。聚類方法是非監(jiān)督學習中很重要的領域,學習不依賴于標簽的數(shù)據(jù)。在人臉聚類匹配時,除了要求提取精確的人臉特征向量外,還需要選擇合適的聚類方法。

        3.1 Chinese whispers圖聚類算法

        Chinese whispers圖聚類算法具有如下優(yōu)點:第一,無需預先設定聚類中心數(shù),更適用于復雜環(huán)境的聚類;第二,適用于處理不同規(guī)模的數(shù)據(jù),算法可伸縮性較好[14]。

        設X、Y為m維空間內兩點,其空間向量分別為X=(x1,x2,...,xm),Y=(y1,y2,...,ym),則這兩個點的歐式距離為:

        歐式距離越小,相似度越大,其中的原理為[15]:1)構造無向圖,每張人臉都作為一個節(jié)點;

        2)設定一個閾值,如果人臉之間的歐氏距離比閾值小,則兩個人臉對應的節(jié)點間有關聯(lián)邊,相似度權重作為節(jié)點的邊,反之則兩個人臉沒有關聯(lián)邊;

        3)迭代開始時,每個節(jié)點都是一個類別,隨機選取一個節(jié)點,選擇與其有關聯(lián)邊的節(jié)點中相似度權重最大的節(jié)點所對應的類作為該節(jié)點的類別,完成該節(jié)點類別的更新;

        4)如果在關聯(lián)節(jié)點中有屬于相同類別的節(jié)點,則將此類節(jié)點的相似度權重相加作為新權重進行比較。遍歷所有節(jié)點后,就完成了一次迭代,按照上述方法重復迭代至迭代次數(shù)。采用相似度權重歸一化,計算方法可由下式表示:

        對應的算法流程如圖6所示。

        圖6 Chinese whispers算法流程圖

        該算法對于特征向量的精確性要求高,因此算法準確度回歸到深度卷積神經網(wǎng)絡的核心要求:盡量減小類內間距及增大類間間距。

        綜上所述,該算法的影響因素有兩個:設定的閾值與提取的特征向量。因此通過殘差網(wǎng)絡模型可以更精確地提取人臉特征,再通過改變閾值,從而達到準確聚類的目的。

        3.2 k-means聚類算法

        k-means方法是當前聚類分析中使用最廣泛的算法之一,其算法實現(xiàn)過程為:

        ①從樣本集合中隨機選取k個點(k為真實類別數(shù))作為初始簇中心,共分k個類;

        ②計算其余各點到這k個簇中心的距離,每個點歸屬于距離最小的中心點的類簇中。在此將距離度量選擇為歐氏距離;

        ③根據(jù)每個類簇中的所有點重新計算該類簇的中心點,計算公式為:

        式中,Cl表示第l個類簇的中心,滿足1≤l≤k;|Sl|表示第l個類簇中樣本個數(shù);Xi表示第l個類簇中第i個對象的空間向量,滿足1≤i≤|Sl|;

        ④重復步驟②與③直至最大迭代次數(shù)或簇中心點不再變化為止。

        k-means算法適用于不同規(guī)模數(shù)據(jù)的聚類處理,可伸縮性較好[16],聚類形狀為球形,故當樣本特征空間符合歐氏距離且不同類別之間的區(qū)別較明顯時,k-means能取得較好的聚類效果。

        3.3 聚類效果評估

        以TP(True Positive)表示同類人臉被分到同一簇的樣本對數(shù)量;以TN(True Negative)表示異類人臉被分到不同簇的樣本對數(shù)量;以FP(False Positive)表示異類人臉被分到同一簇的樣本對數(shù)量;以FN(False Negative)表示同類人臉被分到不同簇的樣本對數(shù)量。則精確率(Precision)、召回率(Recall)、F1-Measure指標分別為:

        精確率和召回率是信息檢索和統(tǒng)計分類領域用來評價檢索或分類結果質量的度量。精確率和召回率兩者越高,聚類效果越好,但實際上隨著圖片數(shù)量的增多,兩者具有一定的互斥性,即隨著精確率升高召回率降低;或召回率升高精確率降低。F1-Measure是綜合了精確率和召回率的評估指標,反映了整體的聚類效果。另外,在聚類評價中可以采用信息熵(entropy)表示聚類的混雜度:信息熵越低,聚類后每一簇中所含人臉類別數(shù)目越少,聚類的混亂程度越低;反之,聚類后每一簇的人臉類別數(shù)越多,聚類的混亂程度越高。信息熵的定義可由下式表示:

        其中Pmn=cmn/cm,cmn為第m個簇中類別n的數(shù)量,cm是第m個簇的樣本總量。

        4 實驗結果與分析

        4.1 實驗設置

        人臉測試集采用LFW數(shù)據(jù)集[17],一共包含來自5749人的13233張人臉圖像。實驗選用其中部分數(shù)據(jù)進行人臉聚類識別。人數(shù)20~50人,每人2~19張圖像,共計300張。實驗使用的部分測試集如圖7。

        圖7 測試集部分人臉圖片

        首先用Dlib軟件庫中的人臉檢測器[18]對測試集圖片做人臉檢測,采用仿射變換將人臉對齊,將每個人臉縮放至規(guī)格為150×150的樣本;然后將相同尺寸的樣本載入到前文訓練出的殘差網(wǎng)絡模型中,輸出多維特征向量;最后把得到的人臉特征向量進行標注,存儲到本地。在多維矢量空間中,來自于同一個人的矢量將彼此接近,而來自不同人的矢量將距離很遠。

        4.2 實驗結果

        選取前文驗證準確率較高的模型,結合CW圖聚類算法,統(tǒng)計在不同閾值下的聚類結果。此處實驗采用的閾值范圍為0.5~0.8,并對聚類結果進行對比分析。

        4.2.1 不同閾值下各參數(shù)對比

        不同閾值下各方案召回率變化對比實驗結果如圖8所示。

        圖8 不同閾值下各方案召回率變化對比

        總體看來,隨著閾值的增大,各曲線呈逐漸增長的趨勢,召回率從開始時的較小值逐步增大至接近于1。在設定閾值較小時不能把人臉姿態(tài)表情有變化的同一類圖片匹配在一簇,從而也導致了較低的召回率。

        不同閾值下各方案精確率變化對比實驗結果如圖9所示。

        圖9 不同閾值下各方案精確率變化對比

        從總體上看,隨著閾值的增大,各曲線呈逐漸下降的趨勢,精確率從開始時的接近于1逐步減小至較低點。在設定閾值較大時會把不同類人臉匹配至同一簇而導致精確率較低。

        不同閾值下各方案的F1-Measure變化對比實驗結果如圖10所示。

        從整體上看,隨著閾值的增加,各方案的F1-Measure值呈先升高后下降的趨勢。結果顯示不同方案在不同閾值處取得F1-Measure最大值,ResNet-30B模型F1-Measure最大值為0.962,此時閾值為0.59;ResNet-34模型在閾值為0.62時取得F1-Measure最大值,為0.964。由此可見,當取得最優(yōu)閾值時,上述兩種方案的F1-Measure值較其余模型的F1-Measure值大,因此聚類效果較好。部分聚類結果如圖11所示。

        圖11 部分聚類結果

        不同方案的信息熵指標的實驗對比結果如圖12所示。由圖中曲線可以看出,隨著聚類數(shù)目的增加,各條曲線的信息熵也隨之增長,在聚類數(shù)目為50時,ResNet-30A+CW方案的信息熵最高,ResNet-30B模型與ResNet-34模型各自與CW算法結合的信息熵指標較低,可知簇內雜亂程度較低,聚類效果相比于其余方案較好。

        圖12 不同方案的信息熵指標對比

        綜上所述,以F1-Measure與信息熵指標來看,ResNet-30B模型和ResNet-34模型為性能較優(yōu)的模型,故選擇這兩個模型進行人臉特征提取。

        4.2.2 不同聚類方法效果對比

        采用不同聚類方法在實驗中獲得相應的F1-Measure指標,對比情況如圖13所示。

        圖13 不同聚類方法的F1-Measure指標對比

        選擇ResNet-30B與ResNet-34模型,通過對比k-means算法與CW算法的F1-Measure指標,可以看出隨著聚類數(shù)目的增加,四條曲線均呈下降趨勢;兩種模型與CW算法結合的聚類效果要優(yōu)于與kmeans算法結合的效果;ResNet-30B+CW與ResNet-34+CW這兩種方案的F1-Measure相似,說明兩者性能相似。

        采用不同聚類方法進行實驗,獲得的信息熵指標如圖14所示。

        圖14 不同聚類方法的信息熵指標

        從整體上看,四條曲線的信息熵隨聚類數(shù)目的增多而增加;兩種模型與k-means算法結合的信息熵要高于與CW算法結合的信息熵;在聚類數(shù)目為50類時,ResNet-30B+CW的信息熵略高于ResNet-34+CW的信息熵。故ResNet-34+CW方案的混雜程度最低,ResNet-30B+CW次之,這兩種方案較優(yōu)。

        綜上所述,ResNet-30B+CW和ResNet-34+CW的聚類效果要優(yōu)于ResNet-30B+k-means與ResNet-34+k-means方案,且ResNet-30B+CW的綜合性能略差于ResNet-34+CW的綜合性能。但根據(jù)前文可知ResNet-30B比ResNet-34的加載時間短,在人臉特征提取階段加速效果提升約37%,故ResNet-30B+CW方案能在保證聚類效果較優(yōu)的情況下更快地完成人臉識別任務。在實際工程中既需要良好的聚類效果又要兼顧識別速度,因此ResNet-30B+CW為實驗中各方案當中的最優(yōu)選擇。

        5 結束語

        通過改進殘差網(wǎng)絡模型提取人臉特征向量,獲得了比原模型更快的提取速度,將CW與k-means聚類算法相結合,分別進行人臉識別。測試圖片來源于LFW數(shù)據(jù)集,更接近于實際環(huán)境。采用F1-Measure、信息熵等評價指標,在大量實驗數(shù)據(jù)的基礎上,找到各模型在CW算法中的最優(yōu)閾值,并分析不同模型、不同聚類方法與聚類效果之間的關系。實驗結果表明采用改進的ResNet-30B殘差網(wǎng)絡模型可以達到提升整體識別速度的作用,結合CW聚類算法比k-means算法更有效。因此,采用改進殘差網(wǎng)絡與CW聚類的方案可以在保證良好聚類效果的同時加快識別速度。本研究選用的測試人臉數(shù)據(jù)分布比較均勻且類別數(shù)較少,在進一步研究中,還應著重考慮非均勻分布、類別較多的大規(guī)模數(shù)據(jù)集的更接近于現(xiàn)實的情況,對模型結構與性能再作深入探索并加以完善。

        猜你喜歡
        信息熵人臉殘差
        基于信息熵可信度的測試點選擇方法研究
        基于雙向GRU與殘差擬合的車輛跟馳建模
        有特點的人臉
        基于殘差學習的自適應無人機目標跟蹤算法
        基于遞歸殘差網(wǎng)絡的圖像超分辨率重建
        自動化學報(2019年6期)2019-07-23 01:18:32
        三國漫——人臉解鎖
        動漫星空(2018年9期)2018-10-26 01:17:14
        基于信息熵的實驗教學量化研究
        電子測試(2017年12期)2017-12-18 06:35:48
        一種基于信息熵的雷達動態(tài)自適應選擇跟蹤方法
        雷達學報(2017年6期)2017-03-26 07:52:58
        基于信息熵的IITFN多屬性決策方法
        平穩(wěn)自相關過程的殘差累積和控制圖
        河南科技(2015年8期)2015-03-11 16:23:52
        色综合88| 99riav国产精品视频| 亚欧色一区w666天堂| 国产一在线精品一区在线观看| 国产欧美激情一区二区三区| 精品中文字幕精品中文字幕 | 国产成人无码a区在线观看视频| 亚洲手机国产精品| av福利资源在线观看| 丁香花五月六月综合激情| 国产真实乱对白精彩| 日韩中文网| 日本草逼视频免费观看| 青青青爽国产在线视频| av无码精品一区二区三区宅噜噜 | 国产亚洲精品视频在线| 国产精品美女久久久网站三级| 免费国产黄网站在线观看可以下载| 一本大道香蕉视频在线观看| 国产一区二区三区影片| 国产婷婷色一区二区三区深爱网| 一女被多男玩喷潮视频| 久久精品国产福利亚洲av| 国产小车还是日产的好| 精品私密av一区二区三区| 亚洲人成在线播放a偷伦| 天堂蜜桃视频在线观看| 日本强伦姧人妻一区二区| 闺蜜张开腿让我爽了一夜| YW亚洲AV无码乱码在线观看| 精品蜜臀国产av一区二区| av影片在线免费观看| 国产一区二区三区乱码在线| 最新国产午夜福利| 高潮社区51视频在线观看| 亚洲精品中文字幕导航| 99国产精品久久久蜜芽| 操出白浆在线观看| 一区二区三区成人av| av无码小缝喷白浆在线观看| 成年在线观看免费视频|