亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Chinese Whispers的人臉動態(tài)聚類

        2019-11-18 05:22:58張陳歡史燕中
        關(guān)鍵詞:特征向量人臉類別

        張陳歡,史燕中

        (1.北京航天長峰科技工業(yè)集團(tuán)有限公司,北京 100039;2.中國航天科工集團(tuán)第二研究院,北京 100039;3.北京航天長峰股份有限公司,北京 100039)

        0 引 言

        在數(shù)據(jù)大爆炸的時代,人臉數(shù)據(jù)迅速增加。如何對人臉大數(shù)據(jù)進(jìn)行聚類,提取出有價值的信息,是目前亟需解決的問題。一般來說,人臉聚類效果的好壞主要取決于人臉特征的提取和聚類算法的選擇[1-2]。

        人臉特征的提取既要保證具有高精度的可分性,又要盡可能降低特征值的維度,保證分類的效率。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)由于其深層的結(jié)構(gòu)、強(qiáng)大的學(xué)習(xí)能力和分層的非線性映射,成為人臉特征提取的主流方法[3]。

        聚類的本質(zhì)是將數(shù)據(jù)按其特征進(jìn)行分組,使得組內(nèi)數(shù)據(jù)的相似度盡可能大,組間數(shù)據(jù)相似度盡可能小。K-means[4]是較為經(jīng)典同時也是應(yīng)用最為廣泛的聚類算法,但是需要預(yù)先設(shè)定分類數(shù)量K,而K的設(shè)定需要對數(shù)據(jù)集有一定的認(rèn)識。與K-means算法不同,Chinese Whispers[5]算法不需要預(yù)先設(shè)定類別數(shù)量,是一種可以自動查找類別個數(shù)的高效圖形聚類算法,在自然語言處理和人臉聚類應(yīng)用廣泛[6]。但該算法也存在一定的弊端,主要有:第一,聚類結(jié)果會受到相似度門限值的影響;第二,算法在類別數(shù)較多的情況下,可能會有較差的結(jié)果,即類別越多,當(dāng)前空間下的特征向量區(qū)分性越差;第三,對于小的圖形,算法的隨機(jī)性較大;第四,算法相似度矩陣計算的時間復(fù)雜度為O(n2),對于大規(guī)模的人臉聚類,該算法聚類速度緩慢。

        針對Chinese Whispers算法存在的不足,在Chinese Whispers算法的基礎(chǔ)上,文中提出一種對人臉增量數(shù)據(jù)用代表點(diǎn)[7]的算法進(jìn)行處理的人臉動態(tài)聚類方法。該方法保持了Chinese Whispers算法對于一定規(guī)模數(shù)據(jù)聚類的快速有效性,利用類中心作為代表點(diǎn)來描述類別信息,每次對一定規(guī)模的增量數(shù)據(jù)進(jìn)行初步聚類選出代表點(diǎn),然后對這些代表點(diǎn)和已有數(shù)據(jù)的代表點(diǎn)進(jìn)行再聚類,在保證聚類精度的基礎(chǔ)上用可能少的數(shù)據(jù)完成聚類更新,從而達(dá)到提升時間效率的目的。

        1 相關(guān)知識

        1.1 相關(guān)定義

        假設(shè)A={ai|ai∈Rm,i=1,2,…,n}為包含n個數(shù)據(jù)的數(shù)據(jù)集,其中每個數(shù)據(jù)為m維向量,Ci(i=1,2,…,k)表示k個類別,c(C1),c(C2),…,c(Ck)分別表示k個聚類中心。有如下定義:

        定義1:設(shè)向量ai=(ai1,ai2,…,aim)和向量aj=(aj1,aj2,…,ajm)分別表示兩個m維的數(shù)據(jù)對象,它們之間的余弦距離定義為:

        (1)

        定義2:設(shè)相似度門限值為threshold,數(shù)據(jù)ai、aj通過一定的相似度規(guī)則計算后得到的相似度值為S(ai,aj),若S(ai,aj)>threshold,則認(rèn)為數(shù)據(jù)ai、aj是相似的,否則不相似。

        假設(shè)TP(Ture Positive)表示同一類的數(shù)據(jù)被分到同一簇的數(shù)目,TN(Ture Negative)表示不同類的數(shù)據(jù)被分到不同簇的數(shù)目,F(xiàn)P(False Positive)表示不同類的數(shù)據(jù)被分到同一簇的數(shù)目,F(xiàn)N(False Negative)表示同一類的數(shù)據(jù)被分到不同簇的數(shù)目。有如下定義:

        定義3:準(zhǔn)確率(Precision)為:

        (2)

        定義4:召回率(Recall)為:

        (3)

        定義5:F-measure指標(biāo)為:

        (4)

        1.2 Chinese Whispers算法

        Chinese Whispers(簡稱CW)是一種比較簡單的無監(jiān)督的分類方法,描述如下:

        步驟1:構(gòu)建無向圖。對于每一個節(jié)點(diǎn)ai,都賦值一個初始的類class(ai)=i;計算不同節(jié)點(diǎn)之間的相似度,若大于相似度門限值threshold,則形成關(guān)聯(lián)邊,權(quán)重為相似度;

        步驟2:迭代。隨機(jī)選取一個節(jié)點(diǎn)ai,若鄰居中有多個節(jié)點(diǎn)屬于同一類,則將這些節(jié)點(diǎn)權(quán)重相加;選取該節(jié)點(diǎn)下的所有鄰居節(jié)點(diǎn)權(quán)重最大的類別j作為當(dāng)前節(jié)點(diǎn)的類別;

        步驟3:當(dāng)所有節(jié)點(diǎn)都完成后,就完成了一次迭代,重復(fù)步驟2,直到達(dá)到迭代次數(shù);

        步驟4:算法結(jié)束,得到k個簇。

        1.3 Chinese Whispers算法的優(yōu)缺點(diǎn)

        在網(wǎng)絡(luò)具有小世界特性的情況下,用CW算法進(jìn)行聚類具有如下優(yōu)點(diǎn):第一,CW算法不需要預(yù)先設(shè)定聚類類簇的數(shù)目,可以自動查找類別個數(shù),更適用于復(fù)雜環(huán)境下的聚類情況;第二,CW算法對于小世界網(wǎng)絡(luò)聚類的時間復(fù)雜度為O(n),隨著網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)的增加,算法的處理時間呈線性增長,算法的效率較高;第三,CW算法適用于處理大小不同、分布不均勻的類群,算法的可伸縮性較好;第四,CW算法的收斂速度很快,尤其對于加權(quán)圖,只需要幾次迭代就能達(dá)到穩(wěn)定的狀態(tài)。

        當(dāng)然,CW算法也存在一些不足之處:第一,該算法在節(jié)點(diǎn)數(shù)較小的情況下具有不確定性,產(chǎn)生的聚類結(jié)果往往存在顯著性差異,這是因?yàn)樵谛【W(wǎng)絡(luò)中,迭代過程從哪個節(jié)點(diǎn)開始更重要,而在大網(wǎng)絡(luò)中,起點(diǎn)的相關(guān)性消失了,因此CW算法適用于大網(wǎng)絡(luò)的聚類;第二,在真實(shí)情況下,小世界網(wǎng)絡(luò)中邊的權(quán)重是未知的,需要根據(jù)一定規(guī)則計算得到,如人臉聚類,由于構(gòu)建小世界圖的鄰接矩陣的需要計算不同節(jié)點(diǎn)之間的相似度,其時間復(fù)雜度為O(n2),因而導(dǎo)致聚類速度緩慢;第三,聚類結(jié)果會受到相似度門限值的影響;第四,算法在類別數(shù)較多的情況下,可能會有較差的結(jié)果,即類別越多,當(dāng)前空間下的特征向量區(qū)分性越差,因此將該算法應(yīng)用于類別數(shù)較多的情況,需要提取高區(qū)分性的特征向量。

        2 Chinese Whispers動態(tài)聚類算法

        文中提出的Chinese Whispers動態(tài)聚類算法,針對1.3節(jié)的優(yōu)缺點(diǎn),對于大規(guī)模數(shù)據(jù)的聚類,提出兩點(diǎn)優(yōu)化原則:

        (1)將數(shù)據(jù)集按照適合Chinese Whispers算法的數(shù)據(jù)規(guī)模P進(jìn)行分塊聚類,即每次從數(shù)據(jù)集選取數(shù)據(jù)規(guī)模為P的數(shù)據(jù)集進(jìn)行聚類,好的P值既可以保證聚類結(jié)果的穩(wěn)定性,又可以保證聚類算法的性能。

        (2)使用代表點(diǎn)算法在有新增數(shù)據(jù)時快速完成聚類更新。其核心在于用相對較少的數(shù)據(jù)點(diǎn)來描述數(shù)據(jù)集的特點(diǎn),對于新增數(shù)據(jù)和原有數(shù)據(jù)分別利用代表類簇的代表點(diǎn)進(jìn)行聚類,并根據(jù)聚類結(jié)果進(jìn)行類別合并從而完成聚類更新,減少每次參與聚類的數(shù)據(jù)量,提高聚類效率。

        算法流程如圖1所示。

        圖1 改進(jìn)的Chinese Whispers算法流程

        其步驟可總結(jié)如下:

        (1)確定相似度門限threshold值,迭代次數(shù)和P值;

        (2)從數(shù)據(jù)集中選取P個數(shù)據(jù)進(jìn)行Chinese Whispers聚類;

        (3)將新產(chǎn)生的類中心與已有的類中心進(jìn)行Chinese Whispers聚類;

        (4)合并類中心被聚為一類的類;

        (5)從數(shù)據(jù)集中刪除已經(jīng)進(jìn)行聚類的P個數(shù)據(jù);

        (6)若數(shù)據(jù)集非空,跳轉(zhuǎn)至步驟2,否則結(jié)束。

        3 實(shí)驗(yàn)測試

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        實(shí)驗(yàn)采用的人臉數(shù)據(jù)集分別為MS-celeb-1M[8]、LFW[9]、VGGFace2[10]和CASIA-Webface[11]。MS_celeb-1M是微軟公司發(fā)布的百萬級人臉數(shù)據(jù)集,也是目前公開人臉數(shù)據(jù)集中人臉圖片數(shù)量最多的數(shù)據(jù)集,包含100 000個ID超過10M張圖片。因此,文中采用該數(shù)據(jù)集作為人臉特征提取網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù);LFW是目前較主流的人臉驗(yàn)證測試評估數(shù)據(jù)集,包含5 749個ID超過13K張圖片;VGGFace2是從谷歌下載的大規(guī)模人臉數(shù)據(jù)集,包含9 131個ID超過3.31M張圖片;CASIA-Webface是中科院整理發(fā)布的大規(guī)模人臉數(shù)據(jù)集,包含10 575個ID超過494K張圖片。

        對于MS-celeb-1M,由于數(shù)據(jù)集噪聲較大,存在一些錯誤樣本,文中采用Wu X[12]提出的方法進(jìn)行數(shù)據(jù)清洗;對于LFW,由于數(shù)據(jù)集數(shù)據(jù)分布不均勻,文中只選用每人2張以上圖像的數(shù)據(jù)集;對于VGGFace2和CASIA-Webface,數(shù)據(jù)規(guī)模較大,由于實(shí)驗(yàn)設(shè)備的限制,文中只選用人均圖片數(shù)較多的部分?jǐn)?shù)據(jù)進(jìn)行聚類實(shí)驗(yàn)。具體數(shù)據(jù)見表1。

        表1 實(shí)驗(yàn)數(shù)據(jù)集

        數(shù)據(jù)集樣本數(shù)/個類別數(shù)/個人均圖片數(shù)MS-celeb-1M5 049 82479 077≈64LFW7 606901≈8VGGFace2180 826325≈556CASIA-Webface187 266980≈191

        3.2 特征提取模型

        為了提取有效的人臉特征,文中采用目前實(shí)驗(yàn)結(jié)果較好的CNN+ArcFace Loss[13]方法進(jìn)行特征提取,具體步驟如下:

        (1)采用MTCNN[14]進(jìn)行人臉檢測和人臉對齊;

        (2)采用ResNet[15]網(wǎng)絡(luò)框架結(jié)構(gòu)和MS-celeb-1M數(shù)據(jù)集進(jìn)行模型訓(xùn)練,輸出的特征向量維度為512。

        3.3 相關(guān)參數(shù)的確定

        通過對不同規(guī)模(100,200,…,2 000)的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)當(dāng)P值為1 000時,Chinese Whispers算法的聚類結(jié)果開始趨于穩(wěn)定,非確定性消失,且算法性能較好。

        文中采用CNN+ArcFace Loss方法提取的特征向量(512維)的余弦距離作為數(shù)據(jù)的相似性度量值,通過逐個比較不同的相似性門限值以及迭代次數(shù)的聚類結(jié)果,進(jìn)而得到最優(yōu)的相似性門限值和迭代次數(shù)。

        3.4 F-measure指標(biāo)

        在聚類評價中,聚類的準(zhǔn)確率指的是某一類別的數(shù)目與該簇總樣本數(shù)目的比率(式2),衡量的是聚類結(jié)果的查準(zhǔn)率。聚類的召回率指的是某一類別的數(shù)目與該類別樣本總數(shù)的比率(式3),衡量的是聚類結(jié)果的查全率。精度和召回率兩者越接近于1,說明聚類效果越好,但實(shí)際上隨著樣本規(guī)模的增大,兩者具有一定的互斥性,即精度高時,召回率低,召回率高時,精度低。F-measure是綜合精度和召回率的評價指標(biāo)(式4),反映了整體的聚類質(zhì)量。當(dāng)F-measure值越接近于1,說明相應(yīng)的聚類方法越有效。

        3.5 實(shí)驗(yàn)結(jié)果與分析

        由于LFW數(shù)據(jù)集較小,P值設(shè)為1 000,VGGFace2、CASIA-Webface數(shù)據(jù)集較大,P值設(shè)為2 000;threshold分別為0.49、0.40、0.40;迭代次數(shù)為8時,聚類結(jié)果趨于穩(wěn)定。

        分別對不同的數(shù)據(jù)集特征向量采用Chinese Whispers算法和改進(jìn)的Chinese Whispers動態(tài)聚類算法進(jìn)行聚類,并從F-measure值和時間效率兩個方面進(jìn)行評估。實(shí)驗(yàn)結(jié)果見圖2、圖3和表2。

        圖2 不同聚類方法的時間

        由圖2可以看出,隨著數(shù)據(jù)規(guī)模的增大,Chinese Whispers算法的聚類時間呈平方增長趨勢,改進(jìn)的Chinese Whispers動態(tài)聚類算法的聚類時間呈線性增長趨勢。

        圖3 不同聚類方法的F-measure指標(biāo)

        由圖3可以看出,對于不同規(guī)模的數(shù)據(jù),Chinese Whispers動態(tài)聚類算法的F-measure指標(biāo)略低于Chinese Whispers算法的F-measure指標(biāo),但相差不大。

        表2 實(shí)驗(yàn)結(jié)果對比

        由表2可見,Chinese Whispers動態(tài)聚類算法的F-measure值略低于Chinese Whispers 算法的F-measure值,但仍穩(wěn)定在90%以上,時間效率卻分別提高了4倍、65倍、29倍。說明改進(jìn)后的Chinese Whispers算法對于大規(guī)模數(shù)據(jù)有較好的聚類效果,且對于數(shù)據(jù)規(guī)模相近的數(shù)據(jù)集,類別數(shù)越少,聚類效果越好。

        4 結(jié)束語

        文中采用MTCNN進(jìn)行人臉檢測和對齊,采用CNN+ArcFace Loss方法進(jìn)行特征提取,通過對Chinese Whispers算法的改進(jìn),提出一種大規(guī)模數(shù)據(jù)下的人臉動態(tài)聚類算法。在LFW、VGGFace2和CASIA-Webface三個公開人臉數(shù)據(jù)集上進(jìn)行測試,從F-measure和時間效率兩個方面進(jìn)行評估,結(jié)果表明在F-measure稍微下降的情況下,該算法大大提高了時間效率,實(shí)驗(yàn)總體效果有了較大提升,時間復(fù)雜度由原來的O(n2)變?yōu)镺(n*p)。因此,針對大規(guī)模人臉數(shù)據(jù)的聚類,該算法更為有效。但該算法也存在一定不足,即對類別數(shù)較多的數(shù)據(jù)集,時間提升效果不明顯。因此,下一步將著重研究對于類別較多的大規(guī)模數(shù)據(jù)集的有效聚類方法。

        猜你喜歡
        特征向量人臉類別
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        有特點(diǎn)的人臉
        三國漫——人臉解鎖
        動漫星空(2018年9期)2018-10-26 01:17:14
        一類特殊矩陣特征向量的求法
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        馬面部與人臉相似度驚人
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        長得象人臉的十種動物
        奇聞怪事(2014年5期)2014-05-13 21:43:01
        91精品国产91| 成人免费无遮挡在线播放| 性色做爰片在线观看ww| 在线免费观看国产精品| 日韩美女av二区三区四区| 亚洲视频专区一区二区三区| 午夜亚洲av日韩av无码大全| 色翁荡息又大又硬又粗又视频图片| 欧美韩国精品另类综合| 亚洲国产综合精品中文| 无码AⅤ最新av无码专区| 91亚洲最新国语中文字幕| 久久精品亚洲成在人线av乱码| 天堂中文官网在线| 射精情感曰妓女色视频| 国产黄片一区视频在线观看| 国产一区二区免费在线视频| 在线看片免费人成视频电影| 人妻无码aⅴ不卡中文字幕| 亚洲日韩精品欧美一区二区三区不卡 | 夜夜躁狠狠躁日日躁2022| 国产成人www免费人成看片| 无码久久精品蜜桃| 免费一区二区在线观看视频在线| 精品久久久久香蕉网| 精品久久综合亚洲伊人| 亚洲中文字幕黄色小视频| 亚洲第一幕一区二区三区在线观看| 国产综合无码一区二区辣椒| 国产黄三级三·级三级| 久久久亚洲精品蜜臀av| 大奶白浆视频在线观看| 丰满岳妇乱一区二区三区| 国产aⅴ天堂亚洲国产av| 日本高清在线播放一区二区 | 亚洲24小时在线免费视频网站| 青青草成人在线播放视频| 97久久草草超级碰碰碰| www插插插无码视频网站| 美女被搞在线观看一区二区三区| 美女扒开大腿让男人桶|