亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合強(qiáng)化學(xué)習(xí)與遷移對(duì)抗的服裝標(biāo)注

        2022-09-22 13:36:54何儒漢舒啟杰
        軟件導(dǎo)刊 2022年9期
        關(guān)鍵詞:源域特征提取標(biāo)簽

        何儒漢,舒啟杰,黃 晉

        (1.紡織服裝智能化湖北省工程研究中心;2.湖北省服裝信息化工程技術(shù)研究中心;3.武漢紡織大學(xué)計(jì)算機(jī)與人工智能學(xué)院,湖北武漢 430200)

        0 引言

        近年來(lái)隨著互聯(lián)網(wǎng)的迅速發(fā)展,電子商務(wù)如雨后春筍,蓬勃發(fā)展。其中也涉及到大量服裝類圖片,因此如何管理與檢索這些圖片并提高檢索效率,是現(xiàn)階段需要解決的問(wèn)題。目前的圖像標(biāo)注分為人工標(biāo)注和自動(dòng)標(biāo)注,人工標(biāo)注成本較高且速度慢,而且人工標(biāo)注易疲勞,容易影響標(biāo)注精度,因此自動(dòng)圖像標(biāo)注是現(xiàn)階段亟需突破的方向。

        自動(dòng)圖像標(biāo)注是圖像檢索(CBIR)[1]中頗具挑戰(zhàn)性的任務(wù),其需要反映語(yǔ)義內(nèi)容的關(guān)鍵詞,縮小底層視覺特征與高層之間的“語(yǔ)義鴻溝”,利用語(yǔ)義分割提升圖像檢索效率及準(zhǔn)確性[2]。

        目前,在圖像標(biāo)注領(lǐng)域,圖像標(biāo)注方法主要分為5 種:基于生成模型的方法(如MF-pLSA[3])、基于最近鄰模型的方法(如2PKNN[4])、基于標(biāo)簽補(bǔ)充模型的方法(如SCMC[5]、DLSR[6])、基于判別模型的方法(如MLDL[7])與基于深度學(xué)習(xí)模型的方法(如CNN-RNN[8])。其中,生成模型難以優(yōu)化預(yù)測(cè)標(biāo)簽,計(jì)算復(fù)雜;最近鄰模型對(duì)圖像要求很高;標(biāo)簽補(bǔ)充模型和判別模型容易受到參數(shù)變化的影響。因此,本文采用深度學(xué)習(xí)模型,但一般的CNN 深度學(xué)習(xí)模型需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,在數(shù)據(jù)少的情況下容易出現(xiàn)過(guò)擬合問(wèn)題。

        為了解決訓(xùn)練速度慢與數(shù)據(jù)集缺失的問(wèn)題,本文采用遷移學(xué)習(xí),因?yàn)橄啾绕渌P?,基于遷移學(xué)習(xí)的圖像標(biāo)注方法的訓(xùn)練速度和準(zhǔn)確率都有明顯提升。此外,該方法還被運(yùn)用于醫(yī)學(xué)圖像[9]、服裝類圖像[10-11]標(biāo)注等。

        然而,圖像標(biāo)注在許多領(lǐng)域還存在數(shù)據(jù)集樣本不足、標(biāo)簽不均勻等問(wèn)題,導(dǎo)致訓(xùn)練出來(lái)的模型泛化能力不強(qiáng)。為解決該問(wèn)題,研究者提出對(duì)抗網(wǎng)絡(luò)[12]與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,因此本文也嘗試采用遷移學(xué)習(xí)思想解決數(shù)據(jù)集樣本不足的問(wèn)題[13-17],并改善了模型中的邊緣分布[17-18]、條件分布[19]等問(wèn)題,從而提升圖像標(biāo)注的準(zhǔn)確率。本文的創(chuàng)新點(diǎn)如下:

        (1)對(duì)特征提取的模型進(jìn)行改進(jìn),加入強(qiáng)化學(xué)習(xí)思想,利用強(qiáng)化學(xué)習(xí)中的TD(時(shí)間差分法)算法提取出每張圖片特征與文字最匹配的信息進(jìn)行處理、編碼,之后對(duì)生成器進(jìn)行剪裁、標(biāo)準(zhǔn)化操作,通過(guò)將兩者相結(jié)合提升模型精度。

        (2)本文采用DeepFashion2 服裝數(shù)據(jù)集,利用OpenCV將彩色圖片處理成黑白圖片,因此得到DeepFashion2 的兩份數(shù)據(jù)集(彩色與黑白),目的是驗(yàn)證本模型的推論:鮮艷顏色圖片的標(biāo)注效果優(yōu)于一般顏色的圖片。

        1 相關(guān)工作

        1.1 圖像標(biāo)注

        Vinyal 等[20]最早提出編碼解碼模型,其中編碼部分采用CNN 提取圖像特征,解碼部分采用LSTM 對(duì)提取的特征進(jìn)行解碼并轉(zhuǎn)換成文字,最終完成標(biāo)注。

        近年來(lái)為提升字幕生成質(zhì)量,許多研究人員提出用期望的方法解碼生成字幕標(biāo)注TIOW[21],或?qū)φZ(yǔ)義進(jìn)行優(yōu)化[22],這些方法都能一定程度上提升字幕生成質(zhì)量,但其只是在編碼或解碼部分進(jìn)行了優(yōu)化。與之不同的是,本文對(duì)編碼和解碼部分都進(jìn)行了改進(jìn),同時(shí)為進(jìn)一步提升精度,本文對(duì)生成的特征進(jìn)行了剪裁/標(biāo)準(zhǔn)化處理,隨后進(jìn)行標(biāo)注。

        1.2 域適應(yīng)

        遷移學(xué)習(xí)最主要的功能是將源域與目標(biāo)域的特征拉近,該過(guò)程也稱作域適應(yīng)。科研人員之前大多在域適應(yīng)方面作改善,包括邊緣分布與條件分布。如圖1 所示的邊緣分布方法,其用數(shù)學(xué)模型或?qū)惯w移模型將源域與目標(biāo)域相近的特征放到一起,而不考慮特征是不是屬于同一個(gè)類。如上圖的圓圈、三角形和星星都有相似的特征,因此將其劃分成一類,但此方法準(zhǔn)確率不高。如圖2 所示的條件分布方法,其不僅考慮將特征拉近,還要將源域與目標(biāo)域數(shù)據(jù)集中的多個(gè)類別對(duì)齊拉近,可得到比邊緣分布更好的效果。

        Fig.1 Edge distribution圖1 邊緣分布

        Fig.2 Conditional distribution圖2 條件分布

        本文提出的服裝圖像標(biāo)注模型結(jié)合邊緣分布與條件分布兩種方法進(jìn)行域適應(yīng),用動(dòng)態(tài)對(duì)抗因子調(diào)整兩種域適應(yīng)方法的比例,從而提升遷移效果。

        1.3 注意力機(jī)制

        注意力模型(AM)是神經(jīng)網(wǎng)絡(luò)中的一個(gè)重要概念。注意力機(jī)制是按照人觀察事物的特性進(jìn)行設(shè)計(jì)的,即在涉及語(yǔ)言或視覺的問(wèn)題中會(huì)選擇某些對(duì)決策更有幫助的部分,而忽略掉不相關(guān)的信息。本文中有兩部分運(yùn)用到注意力機(jī)制:一個(gè)是特征提取環(huán)節(jié),另一個(gè)是機(jī)器翻譯環(huán)節(jié)。

        1.4 強(qiáng)化學(xué)習(xí)

        強(qiáng)化學(xué)習(xí)很早已被提出,近年來(lái)隨著人工智能的迅速發(fā)展,強(qiáng)化學(xué)習(xí)再次得到人們的重視。2018 年,Banino等[23]在Nature 上發(fā)表了關(guān)于智能主體(Artificial Agent)的論文。之后又有學(xué)者發(fā)表了將機(jī)器翻譯與強(qiáng)化學(xué)習(xí)相結(jié)合的論文[24]。強(qiáng)化學(xué)習(xí)主要通過(guò)智能體、環(huán)境、動(dòng)作、狀態(tài)、獎(jiǎng)勵(lì)5 個(gè)狀態(tài)之間的相互作用得到當(dāng)前最優(yōu)解。本文將強(qiáng)化學(xué)習(xí)中的TD 算法引入特征提取環(huán)節(jié),對(duì)圖片中的每個(gè)特征進(jìn)行分類,分類正確則給予獎(jiǎng)勵(lì),最終將得到獎(jiǎng)勵(lì)最多的標(biāo)簽作為這張圖片的標(biāo)注。

        TD(時(shí)間差分法)結(jié)合了蒙特卡羅的采樣方法和動(dòng)態(tài)規(guī)劃方法的bootstrapping(利用后繼狀態(tài)的值函數(shù)估計(jì)當(dāng)前值函數(shù)),使其可適用于model-free 算法,并且是單步更新,速度更快。TD 算法計(jì)算步驟如下:

        在算法1 中,使用默認(rèn)參數(shù)θ為貼現(xiàn)因子,θ=1 表示將采樣一次的結(jié)果作為下一次的結(jié)果,θ=0.1 表示將采樣10次的均值作為下一次的結(jié)果。

        1.5 遷移對(duì)抗網(wǎng)絡(luò)

        深度遷移網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3 所示。源域數(shù)據(jù)集經(jīng)過(guò)CNN 提取特征,將得到的特征與目標(biāo)域特征進(jìn)行對(duì)比,并不斷進(jìn)行微調(diào),讓源域與目標(biāo)域相似度較高的特征對(duì)齊,最終輸出特征。采用深度學(xué)習(xí)方法要得到較好的分類效果需要大量圖像樣本進(jìn)行訓(xùn)練,但大多數(shù)領(lǐng)域的專業(yè)性標(biāo)注樣本總體還不夠充足。在服裝分類領(lǐng)域提供的有標(biāo)簽數(shù)據(jù)集大多數(shù)是單標(biāo)簽數(shù)據(jù),為了讓服裝標(biāo)注內(nèi)容更豐富,本文將ImageNet 數(shù)據(jù)集訓(xùn)練的resnet50 作為服裝圖像標(biāo)注的語(yǔ)義擴(kuò)充。與DAAN 特征提取的方式類似,本文也是將ImageNet 數(shù)據(jù)集訓(xùn)練出的resnet50 網(wǎng)絡(luò)參數(shù)遷移到卷積神經(jīng)網(wǎng)絡(luò)中獲得網(wǎng)絡(luò)參數(shù),再將參數(shù)加入模型中。

        為了提升遷移效果,本文在域適應(yīng)部分融合了生成對(duì)抗模型。對(duì)抗網(wǎng)絡(luò)生成器的主要作用是生成圖像特征,并將生成的特征與resnet50 遷移特征進(jìn)行相似度對(duì)比,將相似度較高的特征作為圖像的最終標(biāo)注。此方法來(lái)源于DAAN,與此不同的是,本文提出的FLTAN 在DAAN 基礎(chǔ)上加入了TD 算法進(jìn)行特征提取,并對(duì)特征作簡(jiǎn)單的裁剪/標(biāo)準(zhǔn)化處理,使得數(shù)據(jù)更集中,從而進(jìn)一步加快了梯度下降求解速度,提升了標(biāo)注精度。

        Fig.3 Transfer learning model圖3 深度遷移網(wǎng)絡(luò)模型結(jié)構(gòu)

        1.6 機(jī)器翻譯實(shí)現(xiàn)中文標(biāo)注

        考慮到ImageNet 的標(biāo)簽是英文,為了實(shí)現(xiàn)服裝的中文標(biāo)注,本文設(shè)計(jì)了一個(gè)機(jī)器翻譯模型。傳統(tǒng)的機(jī)器翻譯用RNN 作為Seq2Seq 模型的編碼器—解碼器,本文引入了AM(注意力機(jī)制)模型作為解碼器輸出。本模型根據(jù)軟注意力思想,將目標(biāo)句子生成的每個(gè)單詞對(duì)應(yīng)到輸入句子(x1,x2,x3,…,xt)單詞的概率分布,從而得到輸入句子與目標(biāo)單詞的對(duì)齊概率,將相應(yīng)位置概率值更大的單詞作為最終的輸出。

        2 網(wǎng)絡(luò)結(jié)構(gòu)

        2.1 模型結(jié)構(gòu)

        基于強(qiáng)化學(xué)習(xí)的遷移對(duì)抗網(wǎng)絡(luò)流程如圖4 所示,其展示了模型大致結(jié)構(gòu)。

        FLTAN 模型如圖5 所示,給出了圖像標(biāo)注的總體框架:隨機(jī)初始化一張樣本圖片和起始位置Lx-1,結(jié)合注意力機(jī)制與RNN 模型,根據(jù)現(xiàn)階段位置信息提取的特征得到下一個(gè)位置信息的特征ft。ft通過(guò)生成器生成特征,對(duì)圖像進(jìn)行剪裁、標(biāo)準(zhǔn)化操作后與目標(biāo)域特征y一起傳入判別器Gc。判別器通過(guò)計(jì)算并且反向傳播,經(jīng)過(guò)梯度反轉(zhuǎn)更新ft。循環(huán)執(zhí)行此過(guò)程,直到達(dá)到動(dòng)態(tài)平衡,此時(shí)形成了具有生成與判別功能的對(duì)抗網(wǎng)絡(luò)。每個(gè)圖像中每個(gè)顯著位置的特征ft都會(huì)進(jìn)行標(biāo)簽預(yù)測(cè),最后利用強(qiáng)化學(xué)習(xí)中的TD 算法給預(yù)測(cè)的標(biāo)簽類別賦予相應(yīng)的權(quán)重收益,并將收益最大的類標(biāo)簽作為圖像最終的標(biāo)注標(biāo)簽。圖中,ρ(xt,Lt-1)表示感知器用來(lái)提取當(dāng)前位置圖像的ResNet 特征,進(jìn)一步歸一化后經(jīng)過(guò)線性回歸得到層次信息。Fx是注意力網(wǎng)絡(luò),用于選定圖像中要遍歷的范圍,最后將提取到的獨(dú)立層信息與位置信息相結(jié)合,得到最終的特征ft并傳入對(duì)抗模型,判斷屬于哪個(gè)標(biāo)簽,若判別錯(cuò)誤則返回優(yōu)化。

        2.2 強(qiáng)化學(xué)習(xí)特征提取

        本文融合注意力機(jī)制、RNN 與強(qiáng)化學(xué)習(xí)的方式進(jìn)行特征提取。強(qiáng)化學(xué)習(xí)特征提取過(guò)程如圖6 所示。其中,Linear 表示線性回歸處理后的特征,loc 表示位置信息,F(xiàn)x 表示提取的特征,TD 表示強(qiáng)化學(xué)習(xí)的差分算法。根據(jù)提取出的特征,用TD 算法獎(jiǎng)勵(lì)分類正確的位置,循環(huán)此過(guò)程,直到遍歷整張圖片的所有顯著特征。

        Fig.4 Flow of FLTAN圖4 基于強(qiáng)化學(xué)習(xí)的遷移對(duì)抗網(wǎng)絡(luò)流程

        Fig.5 FLTAN model圖5 FLTAN模型

        Fig.6 Feature extraction process of reinforcement learning圖6 強(qiáng)化學(xué)習(xí)特征提取過(guò)程

        由于本文是從局部到整體,而注意力機(jī)制會(huì)一直尋找最優(yōu)步數(shù)和最能判別特征的方向進(jìn)行,因此本文引入注意力機(jī)制。RNN 可進(jìn)行序列決策,但在action 部分不能求導(dǎo),因此加入強(qiáng)化學(xué)習(xí)的期望獎(jiǎng)勵(lì)機(jī)制。相比蒙特卡洛算法,差分算法用時(shí)少、收斂速度快,因此本文最終選擇了強(qiáng)化學(xué)習(xí)中的差分算法。與普通的特征提取不同,該方法對(duì)所有特征都進(jìn)行了分類,并對(duì)分類正確的特征進(jìn)行獎(jiǎng)勵(lì),最后計(jì)算期望最大的標(biāo)簽作為這張圖片最終的標(biāo)簽。普通的特征提取只是提取整體的特征信息,并沒(méi)有考慮到每個(gè)細(xì)節(jié),因此對(duì)于圖像特征不明顯的圖片標(biāo)注效果很差,此方法對(duì)該缺點(diǎn)進(jìn)行了改進(jìn)。

        最終提取的特征包括位置、顏色和層次空間相關(guān)信息,將其合并傳入對(duì)抗網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。融合RNN 與注意力機(jī)制是利用人的視覺過(guò)程,將注意力集中在視覺空間的某些部分,以便在需要的地方獲取信息,并且隨著時(shí)間的推移,大腦將來(lái)自不同注視點(diǎn)的信息結(jié)合起來(lái),構(gòu)建場(chǎng)景的內(nèi)部表征。實(shí)驗(yàn)結(jié)果表明,該模型能更準(zhǔn)確地辨認(rèn)出特征屬于哪個(gè)標(biāo)簽。

        2.3 對(duì)抗攻擊的字幕生成

        圖像字幕的生成對(duì)抗模型如圖7 所示,其中Is、It 表示數(shù)據(jù)集源域與目標(biāo)域的圖片,Ig 表示生成器生成的特征。將提取好的特征傳入生成器,并將生成的特征與源域特征合并后進(jìn)行剪裁/標(biāo)準(zhǔn)化處理,最后將處理后的特征與目標(biāo)域特征(有標(biāo)簽數(shù)據(jù)特征)一起輸入判別器中進(jìn)行相似度對(duì)比(用sofmax 求出概率值),如果不合標(biāo)準(zhǔn)(小于閾值),則反向傳播到生成器并再次優(yōu)化特征。

        3 損失函數(shù)

        本模型的3 個(gè)損失函數(shù)有一定關(guān)系,本模型的總體損失函數(shù)如下:

        Fig.7 Generation adversarial model of image caption圖7 圖像字幕的生成對(duì)抗模型

        其中,λ是權(quán)衡參數(shù)。值得注意的是,雖然本模型有兩個(gè)參數(shù)(λ和α),但是α的值可通過(guò)網(wǎng)絡(luò)自動(dòng)進(jìn)行計(jì)算。

        α→0 表示預(yù)適應(yīng)(邊緣分布更重要),α→1 意味著源域與目標(biāo)域的分布不相同,這種情況更像MADA 模型。因?yàn)樵谟?xùn)練過(guò)程中,條件分布和邊緣分布都不確定,所以通過(guò)動(dòng)態(tài)對(duì)抗因子α 的學(xué)習(xí),本文方法可應(yīng)用于多種場(chǎng)景。

        本文的模型啟發(fā)于生成對(duì)抗網(wǎng)絡(luò),在標(biāo)簽預(yù)測(cè)中,本文使用softmax 作為損失函數(shù),如式(2)所示:

        其中,C是數(shù)據(jù)集中類別的數(shù)量,Pxi→c是第i個(gè)特征x屬于類別C的概率,Gy是輸出標(biāo)簽的分類器,Gf是提取的特征,ns是源域中有標(biāo)簽樣本的數(shù)量。該函數(shù)旨在對(duì)每張圖片中的每個(gè)特征作盡可能準(zhǔn)確地標(biāo)注。

        在本模型中,遷移學(xué)習(xí)過(guò)程中的邊緣分布方法如式(3)所示,即盡可能讓源域與目標(biāo)域?qū)R,表達(dá)式類似DANN。

        式中,ns與nt分別是源域和目標(biāo)域標(biāo)簽的數(shù)量,Ld是域分類器損失函數(shù),Gf是全局特征,di代表輸入的xi屬于哪個(gè)域的標(biāo)簽,此公式旨在對(duì)特征損失求均值。

        接下來(lái)是條件分布,對(duì)源域和目標(biāo)域求損失。與域適應(yīng)相比,條件分布可對(duì)齊多個(gè)模型結(jié)構(gòu),以實(shí)現(xiàn)更好的域適應(yīng)。

        該式與式(3)類似,但里面的具體到每個(gè)類別的損失。

        對(duì)抗因子是一個(gè)很有挑戰(zhàn)性的設(shè)計(jì)方式,在條件分布與邊緣分布之間對(duì)抗,α取值在[0,1]之間,分別取0,0.1…1,求出平均值,具體公式如下:

        dA,g(Ds,Dt)是源域與目標(biāo)域的距離公式,具體如下:

        每個(gè)類別的距離公式采用交叉熵的計(jì)算方法:

        式(8)為特征提取公式,與強(qiáng)化學(xué)習(xí)的策略梯度算法相似。

        上式旨在求出一張圖片的更多特征,讓特征更明顯,其運(yùn)用了循環(huán)神經(jīng)網(wǎng)絡(luò),根據(jù)當(dāng)前情況和狀態(tài)依次求出每個(gè)特征的最優(yōu)位置。

        該模型與其他模型的方法有很大區(qū)別,相比于條件分布與邊緣分布,本模型都表現(xiàn)出明顯優(yōu)勢(shì),其最大優(yōu)點(diǎn)是兼具條件分布與邊緣分布的優(yōu)點(diǎn)。

        4 實(shí)驗(yàn)與分析

        4.1 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)設(shè)計(jì)

        本實(shí)驗(yàn)使用深度學(xué)習(xí)框架Pytorch,GPU 為NVIDIA Quadro K2000,并采用CUDA 以及CDNN 庫(kù)進(jìn)行加速。采用DeepFashion2[25]作為源域的數(shù)據(jù)集,其中有13 類標(biāo)簽,本文取其中8種用于測(cè)試。

        為驗(yàn)證模型的泛化能力以及模型對(duì)圖片的敏感度,將3 種數(shù)據(jù)集進(jìn)行對(duì)比,分別是ImageCLEF-DA、DeepFashion2 以及經(jīng)過(guò)黑白處理后的DeepFashion2。DeepFashion2黑白數(shù)據(jù)集是利用Python 環(huán)境下的OpenCV 對(duì)DeepFashion2 所有圖片進(jìn)行黑白處理最終生成的圖片集合,所有圖片的位置和命名與源圖片保持一致。

        本文采用多標(biāo)簽標(biāo)注,利用遷移特征標(biāo)簽加上本文提供的數(shù)據(jù)集標(biāo)簽作為最后的標(biāo)簽。為方便評(píng)估,采用單標(biāo)簽計(jì)算精度,評(píng)價(jià)標(biāo)準(zhǔn)包括準(zhǔn)確率、召回率以及F-scores。

        本實(shí)驗(yàn)特征提取階段的相關(guān)參數(shù)設(shè)置如表1 所示,依次 為batch_size、patch_size、loc_hidden、glimpse_hidden 及hidden_size。

        Table 1 Setting of feauture parameters表1 特征參數(shù)設(shè)置

        4.2 對(duì)抗因子α

        此模型設(shè)計(jì)的對(duì)抗因子α 可讓條件分布與邊緣分布達(dá)到動(dòng)態(tài)平衡,其取值可以是[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1]。其中,DANN(α=0)表示只考慮邊緣分布模型,MADA(α=1)表示只考慮條件分布模型。

        FLTAN 模型的對(duì)比模型是DAAN 與MEDA,數(shù)據(jù)集取DeeepFashion2中的vest。在不同α 取值情況下的最終訓(xùn)練結(jié)果如圖8 所示。從實(shí)驗(yàn)結(jié)果可以看出,不同α 所對(duì)應(yīng)的結(jié)果相同,如在DAAN 與FLTAN 中,當(dāng)α=0.5 與α=0.8 時(shí)模型都能得到最好的結(jié)果。

        Fig.8 The influence of adversarial factor on accuracy圖8 對(duì)抗因子對(duì)準(zhǔn)確率的影響

        4.3 實(shí)驗(yàn)結(jié)果

        表2 是模型在ImageCLEF-DA 數(shù)據(jù)集上訓(xùn)練后的結(jié)果。此數(shù)據(jù)僅作為對(duì)比實(shí)驗(yàn),用于檢驗(yàn)?zāi)P偷姆夯芰?。此?shù)據(jù)集在訓(xùn)練26 個(gè)epoch 時(shí)會(huì)產(chǎn)生最大值,后面會(huì)有小幅波動(dòng),最終會(huì)在32 個(gè)epoch 時(shí)收斂,平均準(zhǔn)確率達(dá)到89%,比DAAN 提高了2.2%。

        Table 2 Accuracy of the model on ImageCLEF-DA表2 模型在ImageCLEF-DA數(shù)據(jù)集上的準(zhǔn)確率 %

        Fig.9 Accuracy rates of various categories in DeepFashion2圖9 DeepFashion2數(shù)據(jù)集上的準(zhǔn)確率對(duì)比

        Fig.10 Different evaluation criteria for each model圖10 各模型評(píng)價(jià)標(biāo)準(zhǔn)對(duì)比

        圖9、圖10 是在DeepFashion2 數(shù)據(jù)集上訓(xùn)練后的結(jié)果,本文FLTAN 模型的平均準(zhǔn)確率為77.3%,相比DAAN提升了3%,其中長(zhǎng)褲和短褲數(shù)據(jù)集的準(zhǔn)確率最高,分別可達(dá)到92.4%與91.6%,相比黑白DeepFashion2 數(shù)據(jù)集的平均準(zhǔn)確率提高了4.2%,但黑白數(shù)據(jù)集的F1 值比DAAN 高出1.8%。表3 展示了利用模型FLTAN 進(jìn)行標(biāo)注后部分圖像的標(biāo)注結(jié)果。其中,越清晰的圖片標(biāo)注的文字越多,ImageCLEF-DA 數(shù)據(jù)集的平均標(biāo)注單詞數(shù)量為6.2,Deep-Fashion2 數(shù)據(jù)集的平均標(biāo)注單詞數(shù)量為5.9,DeepFashion2黑白數(shù)據(jù)集的平均標(biāo)注單詞數(shù)量為4.3,由此可推斷出標(biāo)注效果與圖片清晰度有著強(qiáng)關(guān)聯(lián)性。

        Table 3 Single label and multi label renderings表3 單標(biāo)簽與多標(biāo)簽效果

        4.4 小結(jié)與分析

        本實(shí)驗(yàn)?zāi)P褪怯苫趯?duì)抗網(wǎng)絡(luò)的深度遷移學(xué)習(xí)模型改進(jìn)而來(lái)的,相比于通用類的標(biāo)注,其在性能上有所提升。根據(jù)FLTAN 模型中的黑白圖像數(shù)據(jù)顯示:普通并不鮮艷的圖片效果明顯沒(méi)有顏色鮮艷的圖片好。由于每張圖片的復(fù)雜度不同,而此模型針對(duì)復(fù)雜度高的圖片(彩色圖片)效果更好。由圖9 可以看出,F(xiàn)LTAN 模型在各個(gè)類別中相比其他模型都有明顯優(yōu)勢(shì)。雖然圖10 中的數(shù)據(jù)顯示其召回率欠佳,這是因?yàn)槟P涂傮w有些復(fù)雜導(dǎo)致的,但其最終得到F1綜合指標(biāo)仍為最優(yōu)。

        5 結(jié)語(yǔ)

        本文提出了融合強(qiáng)化學(xué)習(xí)與遷移對(duì)抗的圖像標(biāo)注方法FLTAN,實(shí)驗(yàn)表明此方法能夠從圖片中提取到更多更優(yōu)的特征,從而提升模型性能。同時(shí)也表明優(yōu)化圖像特征提取、對(duì)生成器進(jìn)行處理可以改善圖像標(biāo)注精度。本文采用的數(shù)據(jù)集是DeepFashion2,該數(shù)據(jù)集目前是最大的服裝類數(shù)據(jù)集,但相比于ImageNet 仍然較小,因此選用更大的數(shù)據(jù)集以進(jìn)一步提升標(biāo)注準(zhǔn)確率將是未來(lái)的研究方向。

        猜你喜歡
        源域特征提取標(biāo)簽
        多源域適應(yīng)方法綜述
        基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)算法
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        Bagging RCSP腦電特征提取算法
        標(biāo)簽化傷害了誰(shuí)
        可遷移測(cè)度準(zhǔn)則下的協(xié)變量偏移修正多源集成方法
        基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        一本色道加勒比精品一区二区| 久久久久无码国产精品不卡| 国产V日韩V亚洲欧美久久| 少妇极品熟妇人妻高清| 偷拍色图一区二区三区| 亚洲中文字幕第一第二页| 国产乱码精品一区二区三区久久| 国产免费拔擦拔擦8x高清在线人| 日日摸夜夜添无码无码av| 国产成年无码AⅤ片日日爱| 日韩精品一区二区亚洲观看av| 97精品人人妻人人| 亚洲av无码一区二区三区网站| 色婷婷精品综合久久狠狠| 国产一区二区三区免费视| 国产强被迫伦姧在线观看无码 | 双腿张开被9个黑人调教影片| 胳膊肘上有白色的小疙瘩| 夜夜高潮夜夜爽免费观看| 亚洲精品久久区二区三区蜜桃臀 | 91香蕉视频网| 国产99视频一区二区三区| 青青草原综合久久大伊人精品| 黑人巨大av在线播放无码| 国产精品每日更新在线观看| 亚洲人成伊人成综合久久| 色综合久久久久综合99| 日韩精品大片在线观看| 国产精品成人久久一区二区| 精品国产亚洲av麻豆| 国产精品对白刺激久久久| 久久中文字幕久久久久| 国产精品高湖呻呤久久av| 国产福利永久在线视频无毒不卡| 精品88久久久久88久久久| 性一交一乱一乱一视频亚洲熟妇| 国产亚洲aⅴ在线电影| 囯产精品一品二区三区| 日本精品久久久久中文字幕1| 日本一二三四高清在线| 亚洲色欲久久久综合网|