亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        增量跨模態(tài)檢索方法

        2021-02-28 08:59:16江朝杰楊良懷范玉雷
        小型微型計算機系統(tǒng) 2021年10期
        關(guān)鍵詞:語義模態(tài)特征

        江朝杰,楊良懷,高 楠,范玉雷

        (浙江工業(yè)大學 計算機科學與技術(shù)學院,杭州 310023)

        1 引 言

        隨著互聯(lián)網(wǎng)和智能設(shè)備的高速發(fā)展,多模態(tài)數(shù)據(jù)每日呈百億量級增長,其中包括文本,圖像和視頻等,多種異質(zhì)數(shù)據(jù)源交叉融合呈現(xiàn).面對海量的多模態(tài)數(shù)據(jù),在各種大數(shù)據(jù)應(yīng)用中迫切的需要高效準確的跨模態(tài)檢索技術(shù).跨模態(tài)檢索的主要挑戰(zhàn)是解決不同模態(tài)之間的語義鴻溝.為了解決這個問題,主流的解決方案是學習一種對應(yīng)關(guān)系,利用該對應(yīng)關(guān)系將不同模態(tài)數(shù)據(jù)映射到一個同維度的公共子空間內(nèi),并通過它們在公共子空間內(nèi)的距離表達數(shù)據(jù)之間的相似性.近幾年研究者們在跨模態(tài)檢索任務(wù)中取得了較大進展[1].但是在許多實際檢索應(yīng)用中,其數(shù)據(jù)源總是不斷增量迭代的,如何從新類別樣本中學習,利用新增數(shù)據(jù)集對檢索系統(tǒng)進一步更新和完善,提升檢索系統(tǒng)性能是面臨的一個新問題.

        為使模型能夠適應(yīng)新數(shù)據(jù)的檢索,這就要求跨模態(tài)檢索模型具有可擴展性,同時兼容舊數(shù)據(jù)集的檢索效能.但目前大多數(shù)跨模態(tài)檢索模型缺乏可擴展性,并且針對現(xiàn)有模型的微調(diào)會導致對舊樣本數(shù)據(jù)集的災難性遺忘,導致在舊數(shù)據(jù)集上的檢索性能下降[2].若采用舊數(shù)據(jù)和新數(shù)據(jù)整合后重新訓練模型的方案,將會導致計算成本和數(shù)據(jù)存儲開銷不斷增加.因此,本文采用基于增量學習的跨模態(tài)檢索方法來實現(xiàn)模型的可擴展性.

        通過增量學習實現(xiàn)跨模態(tài)檢索模型可擴展性有以下優(yōu)點:1)無需更新舊樣本數(shù)據(jù)集的哈希編碼;2)同時支持新、舊類別樣本的檢索;3)節(jié)省模型訓練成本.增量學習是指模型自適應(yīng)地從不斷到達的數(shù)據(jù)流進行學習,且通常是在有限的資源開銷下進行模型擴展.其挑戰(zhàn)在于平衡新知識與舊知識之間的關(guān)系,防止發(fā)生災難性遺忘,即如何在學習新知識的情況下不遺忘舊知識[2].

        目前大多數(shù)研究通過知識蒸餾(Knowledge Distillation,KD)的增量學習方法保留對舊數(shù)據(jù)集的檢索性能.Hinton[3]等在2015年提出知識蒸餾技術(shù),其通過從教師網(wǎng)絡(luò)中提煉出學生網(wǎng)絡(luò)來簡化深度網(wǎng)絡(luò)的訓練過程,該方法將教師網(wǎng)絡(luò)中有用的信息遷移至學生網(wǎng)絡(luò)上進行訓練,將學生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)之間的共同概率分布輸出差異性指標即兩者之間的KL散度作為目標函數(shù),從而使得增量模型保留了舊模型中的關(guān)鍵參數(shù).

        在跨模態(tài)檢索中,由于存在不同模態(tài)成對樣本數(shù)據(jù),因此如何維系不同模態(tài)成對樣本在知識蒸餾網(wǎng)絡(luò)中的相似性成為一個難題.本文利用不同模態(tài)成對樣本間在某些維度上的一致性輸出概率分布來維系兩者之間的相似性.在跨模態(tài)檢索模型中將不同模態(tài)數(shù)據(jù)通過映射函數(shù)投影到公共子空間內(nèi),得到不同模態(tài)相同維度的特征表示.其中不同模態(tài)成對樣本特征表示共享語義標簽信息,因此其特征表示在某些特定維度上保有相似性,本文將此維度稱為語義保留維度.為了使跨模態(tài)檢索模型在擴展的過程中仍支持舊樣本數(shù)據(jù)集的檢索,采用知識蒸餾來保留不同模態(tài)成對樣本間在語義保留維度上特征分布的一致性;同時為了使增量數(shù)據(jù)生成的特征表示在子空間內(nèi)保有真實的語義分布,需要將增量數(shù)據(jù)集中標簽之間的關(guān)聯(lián)程度信息加入到模型訓練中.

        本文研究目的是如何在跨模態(tài)檢索模型擴展中有效防止災難性遺忘,并使所生成哈希編碼中包含更多的標簽關(guān)聯(lián)語義信息.因此提出了增量跨模態(tài)檢索方法ICMR.主要貢獻如下:1)構(gòu)建跨模態(tài)知識蒸餾網(wǎng)絡(luò),學習教師網(wǎng)絡(luò)(跨模態(tài)檢索模型)中成對模態(tài)樣本特征表示在語義保留維度上的輸出概率分布,保留在舊樣本數(shù)據(jù)集上的檢索性能;2)在生成不同模態(tài)哈希編碼特征表示時,將統(tǒng)計得到的新舊標簽共現(xiàn)概率矩陣作為監(jiān)督信息作用于哈希編碼的生成約束,用以標識樣本之間關(guān)于新增類標簽的相似可信度.

        2 相關(guān)工作

        在機器學習中,增量學習一直是一個長期存在的問題.在深度學習開始之前,人們一直在利用線性分類器、弱分類器集成,最近鄰分類器等來開發(fā)增量學習技術(shù)[4,5].應(yīng)對檢索系統(tǒng)增量迭代的需求,近年來基于增量學習方法的研究成為熱點.

        按照是否使用舊數(shù)據(jù)集,可將增量學習分成兩類.第1類方法不需要舊數(shù)據(jù)集,僅使用新增類樣本參與模型擴展.Jung[6]等提出了一種領(lǐng)域遷移學習,試圖通過凍結(jié)最后一層網(wǎng)絡(luò)層并且阻止特征提取層中共享權(quán)重的變化來保持舊樣本數(shù)據(jù)集檢索的性能.James[7]等提出在利用新數(shù)據(jù)集訓練網(wǎng)絡(luò)時,限制重要權(quán)重改變來保留舊數(shù)據(jù)集檢索的性能.但該方法中新舊任務(wù)可能在這些權(quán)重上發(fā)生沖突.Li[8]等通過知識蒸餾與微調(diào)組合的方法來保持舊樣本數(shù)據(jù)集檢索的性能,通過學習而不遺忘的方法來克服災難性遺忘.Konstantin[9]等通過知識蒸餾逐步學習目標檢測器.

        第2類方法需要部分舊數(shù)據(jù)集.Rebuffi[10]等提出只需使用部分舊數(shù)據(jù)而非全部就能同時訓練得到分類器和數(shù)據(jù)特征實現(xiàn)增量學習,減輕新舊類別之間的不平衡.Wu[11]等從數(shù)據(jù)不平衡和對新類別樣本的預測偏差角度研究增量學習,使用平衡的驗證集和偏差校正層來緩解遺忘問題.

        然而,以上方法均局限于單一數(shù)據(jù)模態(tài),不能處理不同模態(tài)類型之間的不一致分布和成對樣本間的復雜語義關(guān)系.Qi[12]等提出了跨媒體終身學習(CMLL)方法,它是我們所知第1個在跨模態(tài)檢索領(lǐng)域中研究增量學習方法的方案,通過域內(nèi)的分布對齊和域間的知識蒸餾,在充分保留原有數(shù)據(jù)關(guān)聯(lián)效果的同時,利用知識遷移促進新增數(shù)據(jù)的關(guān)聯(lián)學習,實現(xiàn)跨媒體檢索.Chen[13]等提出解決可擴展的跨模態(tài)哈希檢索方案,稱為可擴展跨模態(tài)哈希(extensible cross-modal hashing,ECMH).ECMH方法基于跨模態(tài)哈希(CMH)模型進行擴展.ECMH通過精心設(shè)計的“弱約束增量學習”算法,僅使用新數(shù)據(jù)集來擴展模型;其核心思想在增量學習中通過語義選擇性保留的方式維持不同模態(tài)成對樣本間的語義相似性.Mandal[14]等提出了用于跨模態(tài)檢索的增量哈希方法,稱為GrowBit,通過增加不同模態(tài)數(shù)據(jù)的特征編碼位數(shù)以更好的表示新數(shù)據(jù)包含的語義信息;此后,他們又提出了一種新穎的增量跨模態(tài)哈希算法,稱為ICMH[2],它可以適應(yīng)于新增樣本的檢索任務(wù),所提出的方法用于計算新數(shù)據(jù)集的哈希編碼特征表示,使其保留數(shù)據(jù)集本身的語義關(guān)系,它包括兩個連續(xù)的階段,即學習哈希碼和訓練哈希函數(shù).

        然而以上這些方法皆忽略了挖掘樣本類別標簽存在的關(guān)聯(lián)信息.很顯然新增數(shù)據(jù)集的樣本分布受標簽語義的約束,標簽之間的關(guān)聯(lián)程度在一定層面上表示了樣本的相似程度,因此加入有效的標簽關(guān)聯(lián)程度信息能夠使基于增量學習的跨模態(tài)檢索系統(tǒng)精準率更高.

        本文的目標旨在解決跨模態(tài)檢索系統(tǒng)的可擴展問題,通過增量學習方法動態(tài)的學習增量數(shù)據(jù)集包含的語義信息,使得生成不同模態(tài)的哈希編碼特征更具有判別性,滿足了節(jié)約計算成本和提升檢索精度的要求.

        3 基于跨模態(tài)檢索的增量學習方法

        本節(jié)主要介紹基于跨模態(tài)檢索的增量學習網(wǎng)絡(luò)架構(gòu).

        3.1 基本定義

        3.2 特征學習與表示

        對于圖像模態(tài)數(shù)據(jù),采用預訓練VGG16神經(jīng)網(wǎng)絡(luò)模型提取特征,其中包括5個卷積層,3個全連接層以及5個池化層,全連接層fc7作為圖像特征輸出層.對于文本模態(tài)數(shù)據(jù),采用Google-News數(shù)據(jù)集預訓練的word2vec模型來提取詞級別的文本特征.不同模態(tài)通道通過新增多層感知機網(wǎng)絡(luò)以生成相同維度的哈希編碼來解決可擴展問題.將跨模態(tài)模型中圖像、文本模態(tài)通道分別用特征映射Gx(x;θ)和Gy(y;θ)為每一個圖像/文本樣本生成一個同維度特征表示,特征表示矩陣分別為X和Y,其中對于圖像特征矩陣X而言,矩陣列是樣本數(shù)目索引,矩陣行上是特征向量的數(shù)值,文本特征矩陣Y與X是同型矩陣.所提ICMR會將舊參數(shù)θo更新為θn,相應(yīng)得到兩個版本的特征表示矩陣:使用舊模型生成的圖像特征為Xo,文本特征為Yo;使用增量網(wǎng)絡(luò)模型生成的圖像特征為Xn,文本特征為Yn.用舊模型生成新樣本特征表示的通道用n|θo表示,用增量學習模型生成新樣本特征表示的通道用n|θn表示.

        3.3 基于跨模態(tài)的增量學習網(wǎng)絡(luò)

        可擴展的跨模態(tài)檢索模型目的是使得更新后的模型同時適應(yīng)舊樣本和新樣本數(shù)據(jù)集的檢索任務(wù),在保持舊樣本數(shù)據(jù)集的檢索效能的同時支持新樣本數(shù)據(jù)集的檢索.ICMR核心思想之一是不同模態(tài)成對樣本在特征分布空間中語義保留維度上的輸出概率分布是相似的,因此應(yīng)當在模型更新中保留相似的語義分布信息,使得擴展后的模型能夠適應(yīng)舊數(shù)據(jù)集的檢索任務(wù);另一個核心思想是為了使得生成不同模態(tài)的哈希編碼能更貼近原始數(shù)據(jù)集的分布,因此將統(tǒng)計得到的標簽項關(guān)聯(lián)程度信息加入到模型訓練當中.

        如圖1所示,居上部分是預訓練的跨模態(tài)檢索模型,本文選用Jiang[15]在2016年提出的Deep Cross-Modal Hashing(DCMH)跨模態(tài)哈希檢索模型作為預訓練的跨模態(tài)檢索模型,其經(jīng)過舊數(shù)據(jù)集預先訓練,將其作為本文構(gòu)建跨模態(tài)檢索模型的教師網(wǎng)絡(luò),通過約束教師網(wǎng)絡(luò)中語義保留維度上的輸出概率分布一致性來指導學生網(wǎng)絡(luò)進行學習.其中圖像模態(tài)通道和文本模態(tài)通道分別生成同維度的特征,灰色標記代表了語義保留維度,在語義保留維度上通過跨模態(tài)知識蒸餾損失指導各自增量網(wǎng)絡(luò)模塊學習;居左右部分將不同模態(tài)樣本在增量學生網(wǎng)絡(luò)的映射特征作為輸出,將經(jīng)由激活函數(shù)softmax的特征用于分類損失約束;居中部分不同模態(tài)特征輸出經(jīng)激活函數(shù)sign生成哈希編碼,其中將統(tǒng)計得到的新舊標簽項之間的共現(xiàn)概率矩陣作用在哈希編碼的生成學習當中.整體網(wǎng)絡(luò)架構(gòu)的目標函數(shù)由3個損失函數(shù)組成:

        圖1 增量跨模態(tài)檢索方法結(jié)構(gòu)圖

        (1)

        其中θx為增量模型的圖像通道參數(shù),θy為文本通道參數(shù).采用了基于跨模態(tài)的知識蒸餾損失Ld,將原有跨模態(tài)檢索模型對舊樣本數(shù)據(jù)集的檢索性能遷移到增量模型當中.類別誤差損失Lc,使模型從新樣本中學習新類別的語義信息.Lh作用在哈希編碼的生成,目的是使得生成哈希編碼特征表示更貼近新樣本數(shù)據(jù)集的真實語義分布.其中基于紡織品的增量數(shù)據(jù)集如圖2所示.

        圖2 新增樣本類數(shù)據(jù)集示意圖(下滑線字代表新增類標簽)

        3.3.1 基于跨模態(tài)的知識蒸餾損失

        為了得到成對樣本特征表示間的語義保留維度分布位置,首先需要通過預訓練的跨模態(tài)檢索模型分別生成不同模態(tài)的特征表示集合Xn|θo和Yn|θo,將經(jīng)過激活函數(shù)sign的特征在每一個維度上計算相似性,若相等或相應(yīng)維度上的差值小于某個閾值,則代表成對樣本特征在這個維度上的分布概率相似.根據(jù)上述定義維度對齊矩陣Mα:

        (2)

        α表示相應(yīng)維度上的差數(shù)絕對值不能高于這個閾值,因為不同模態(tài)生成的特征維度上的差值太大表示了其包含的語義信息相似程度較低.其中Mα[i,j]表示第i個不同模態(tài)成對樣本特征在第j維度上的相似性,其中1表示相似,0代表了不相似.

        蒸餾學習要求學生網(wǎng)絡(luò)學習教師網(wǎng)絡(luò)的輸出概率分布,如果更新后的模型參數(shù)θn和原有模型參數(shù)θo具有相似的輸出概率分布,那么代表了可擴展跨模態(tài)檢索模型一定程度上保留了舊模型檢索性能.針對不同模態(tài)的樣本實例,首先使用預訓練的跨模態(tài)檢索模型將成對樣本集映射到公共子空間內(nèi),不同模態(tài)數(shù)據(jù)集分別生成特征矩陣集合.然后使用維度對齊矩陣Mα作為特征向量選擇器,使得增量模型輸出的特征在語義保留維度上其輸出概率分布與原模型保持一致.

        KL 散度是一種衡量兩個概率分布的匹配程度的指標,兩個分布差異越大,KL散度越大,定義如下:

        (3)

        在知識蒸餾中p(x)是學生網(wǎng)絡(luò)目標分布,q(x)是教師網(wǎng)絡(luò)去匹配的分布,如果兩個分布完全匹配,那么DKL(p‖q)=0.

        跨模態(tài)蒸餾學習中需要在softmax中增加溫度參數(shù)T.在原有的跨模態(tài)檢索模型中包含了數(shù)據(jù)結(jié)構(gòu)信息以及映射函數(shù)參數(shù),當T值較大時,相當于用很高的“溫度”將關(guān)鍵的分布信息從原有的模型參數(shù)中分離,然后在同樣的溫度下用增量學生模型融合蒸餾的方法學習教師網(wǎng)絡(luò)的特征輸出概率分布,最后恢復溫度,讓兩者充分融合.

        (4)

        T是一個調(diào)節(jié)函數(shù),通常為1;T的數(shù)值越大則所有類的分布越平緩.修改后的softmax也被稱為軟目標(soft target).應(yīng)用在蒸餾網(wǎng)絡(luò)中的學生和教師模塊中,那么不同模態(tài)輸出分別為Xsoft和Ysoft.

        為了使得不同模態(tài)通道增量網(wǎng)絡(luò)輸出與舊模型中的特征映射層網(wǎng)絡(luò)在語義保留維度上保持相似的輸出分布,本文構(gòu)建基于跨模態(tài)的知識蒸餾網(wǎng)絡(luò),其基于跨模態(tài)的知識蒸餾損失Ld定義:

        (5)

        其中°代表了矩陣乘積,不同模態(tài)通道的KL散度度量矩陣和維度對齊矩陣Mα乘積.

        3.3.2 新增類別的分類損失

        為了使不同模態(tài)數(shù)據(jù)投影到公共子空間之后分布特征包含新增類別語義信息,在蒸餾網(wǎng)絡(luò)的學生模塊中構(gòu)建分類誤差學習.在學生網(wǎng)絡(luò)模塊中不同模態(tài)通道分別構(gòu)建多層感知機MLP.將不同模態(tài)公共子空間內(nèi)的特征作為輸入,利用交叉熵損失進行分類訓練.分類誤差損失需要將類標簽集合one-hot編碼化,因此拆解后的樣本舊標簽項one-hot編碼集合為Lo∈[0,1]No×k,其中k表示舊標簽項數(shù)目.樣本新標簽項的one-hot編碼集合為Ln∈[0,1]Nn×(m+k),其中Nn是新增數(shù)據(jù)集的大小,m是新增類標簽項數(shù)目.其誤差為:

        (6)

        pi代表了不同模態(tài)特征類別的概率分布,ci代表了當前新數(shù)據(jù)集中實例的類別標簽,Xi代表了圖像數(shù)據(jù)集的第i個實例特征,Yi代表了文本數(shù)據(jù)集的第i個實例特征,N是訓練批次樣本集的大小.

        3.3.3 蒸餾網(wǎng)絡(luò)總誤差

        蒸餾網(wǎng)絡(luò)的學生模塊經(jīng)過軟目標可以學習跨模態(tài)教師模塊軟化的概率分布,硬目標則是樣本的真實標注.total loss設(shè)計為軟目標與硬目標所對應(yīng)的交叉熵的加權(quán)平均.其中軟目標交叉熵的加權(quán)系數(shù)越大,表明遷移誘導越依賴教師網(wǎng)絡(luò)的貢獻,有助于讓學生網(wǎng)絡(luò)更輕松擁有教師網(wǎng)絡(luò)的檢索性能,但訓練后期需要適當減小軟目標的比重,讓真實標注信息幫助提升檢索新樣本的能力[3].

        LKD(Wstudent)=αT2Ld+(1-α)Lc

        (7)

        其中α是權(quán)值參數(shù),標識蒸餾損失和分類損失所占權(quán)重.在基于跨模態(tài)的蒸餾學習網(wǎng)絡(luò)中,不同模態(tài)的學生網(wǎng)絡(luò)參數(shù)由分類損失Lc和跨模態(tài)知識蒸餾損失Ld加權(quán)訓練而成.

        3.3.4 哈希碼的學習

        Mandal[16]等在2017年提出了基于語義保留的跨模態(tài)哈希生成的方法,通過保持數(shù)據(jù)樣本之間的語義相似性,從而使得生成的哈希碼保有原始數(shù)據(jù)集之中存在的真實語義分布信息.通過樣本標簽之間相似性度量構(gòu)建“親和度”矩陣S,成為哈希編碼生成的監(jiān)督信息,約束不同模態(tài)哈希編碼的語義關(guān)系.

        s.t.A∈{-1,1}N1×q,B∈{-1,1}N2×q

        (8)

        其中q是哈希編碼的長度,A和B分別是不同模態(tài)的哈希編碼,親和度矩陣S由樣本集之間的多標簽one-hot編碼內(nèi)積得到,樣本數(shù)N1=N2.目的是使得生成的不同模態(tài)間的哈希編碼整體相似性接近其類別相似性,從而得到接近“真實”語義結(jié)構(gòu)關(guān)系的特征分布.

        圖3 拆解新舊標簽項分層相似圖嵌入

        將不同模態(tài)樣本的特征表示經(jīng)由sign激活器生成相應(yīng)的哈希編碼.

        (9)

        假定新增樣本集大小為Nn,其中舊數(shù)據(jù)集標簽項數(shù)目為k,新增數(shù)據(jù)集的標簽項數(shù)目為k+m.共現(xiàn)矩陣可以統(tǒng)計出分類標簽同時出現(xiàn)的次數(shù),其基本思想是:統(tǒng)計兩個分類標簽同時出現(xiàn)的概率,如果概率越大,其相關(guān)性就越緊密,關(guān)聯(lián)度越高),構(gòu)建共現(xiàn)矩陣的基本步驟為:首先將每一份樣本的新增類標簽分隔開并轉(zhuǎn)換成列表,同時建立關(guān)于新增類標簽的字典,建立空矩陣用于存放標簽的共現(xiàn)矩陣,然后計算新增類標簽項與舊類標簽項之間的共現(xiàn)頻次,最后可取出標簽之間的共現(xiàn)頻次用于新標簽相似性程度的標識.

        在機器學習中,點互信息PMI通常用來衡量兩個變量之間的相關(guān)性,基本思想是統(tǒng)計兩個詞語在文本中同時出現(xiàn)的概率,如果概率越大,其相關(guān)性就越緊密,關(guān)聯(lián)度越高.已知A標簽和B標簽的累計出現(xiàn)頻次和共現(xiàn)頻次,其PMI值等于log((共現(xiàn)頻次/A標簽的累計出現(xiàn)頻次)*(共現(xiàn)頻次/B標簽的累計出現(xiàn)頻次)).log取自信息論中對概率的量化轉(zhuǎn)換.

        (10)

        利用統(tǒng)計出的新舊標簽共現(xiàn)頻次計算得到共現(xiàn)概率矩陣為:

        (11)

        其中Li來自于樣本新標簽項集合,Lj來自于樣本舊標簽項集合,m和k分別屬于新舊類標簽項個數(shù).

        我抬頭看著楊公子,他的眼中似乎有些許淚光,他轉(zhuǎn)過頭不再看我。那一刻,我明白了,他心中一定曾經(jīng)有個意中人。

        在哈希碼的生成約束中,本文拆解樣本新舊類標簽,通過計算新舊標簽共現(xiàn)概率矩陣約束樣本關(guān)聯(lián)程度,以此使得生成哈希編碼特征分布更貼近真實語義關(guān)系.

        (12)

        其中k代表了舊標簽項的數(shù)目,m代表了新增標簽項數(shù)目,q代表了哈希編碼的長度.Sco表示了新舊標簽共現(xiàn)概率矩陣,其中新標簽項作為行,舊標簽項作為列.μ表示關(guān)于新舊標簽項的樣本集相似矩陣所占權(quán)重.

        基于跨模態(tài)檢索的可擴展網(wǎng)絡(luò)模型要求能夠在保留舊數(shù)據(jù)集語義信息的同時適應(yīng)增量樣本數(shù)據(jù)集的檢索效能.本文通過構(gòu)建雙通道跨模態(tài)蒸餾誤差Ld和類別誤差Lc以及哈希編碼生成約束誤差的Lh來實現(xiàn)其要求.其流程如算法1所示.

        算法1.ICMR.

        輸入:新增圖像數(shù)據(jù)集x、新增文本數(shù)據(jù)集y,標簽集C

        輸出:不同模態(tài)通道學生網(wǎng)絡(luò)參數(shù)θx和θy

        1. 初始化跨模態(tài)通道θo以及增量網(wǎng)絡(luò)θn,不同模態(tài)迭代batch樣本集大小為q,迭代次數(shù)為p;

        2. 拆解新舊標簽項進行統(tǒng)計分析,得到新舊標簽共現(xiàn)概率矩陣Sco;

        3. Repeat:

        4.Xn|θo,Yn|θo=G(x;θo),G(y;θo)

        5.Xn|θn,Yn|θn=G(x;θn),G(y;θn)

        6. 根據(jù)公式(2)得到維度對齊矩陣Mα;

        7. 根據(jù)公式(5)通過計算跨模態(tài)知識蒸餾損失Ld;

        8. 根據(jù)公式(6)計算類別誤差損失Lc;

        9.Hx=sign(Xn|θn),Hy=sign(Yn|θn);

        10. 通過樣本新舊類標簽項計算類相似矩陣Sn和So;

        11. 根據(jù)公式(12)計算哈希編碼生成約束損失Lh;

        12. 根據(jù)公式(1)通過隨機梯度下降更新參數(shù)θx,θy;

        4 實 驗

        在本節(jié)中,使用紡織品面料數(shù)據(jù)集、Flickr25K數(shù)據(jù)集以及Pascal-sentences數(shù)據(jù)集來評估本文提出方法的性能,并將其與近年來最先進的幾種算法進行對比.

        4.1 數(shù)據(jù)準備

        紡織品數(shù)據(jù)集從紹興輕紡城圖來旺網(wǎng)站采集30000張圖像,主要是紡織品的圖樣圖案.采集數(shù)據(jù)的主要方法是利用HTML/XML解析器BeautifulSoup進行網(wǎng)頁解析和數(shù)據(jù)集下載,并按照規(guī)定格式進行數(shù)據(jù)整理.圖像的注釋描述中包含著相應(yīng)的短語描述及類別標簽.其中真實標簽屬性有32種,包括時裝、男/女裝等.為了實現(xiàn)增量樣本迭代,本文將32項的標簽集分為26項的舊標簽集和6項的新標簽集.將包含任一這6項標簽集的所有樣本當作新增樣本集,其余的作為舊樣本集,整理后的新舊類樣本比為 4352∶25648.

        Flickr25K數(shù)據(jù)集[17]包含25000個圖文對,每個實例被24個類別標簽標記,文本數(shù)據(jù)被表示為1386維度的詞袋向量(BOW),圖像特征由預訓練模型VGG16預訓練模型提取,其特征向量為4096維.本文將新舊標簽項拆分為6∶18,整理后的新舊類樣本比為8200∶16800.

        Pascal-sentences數(shù)據(jù)集[18]分為20類,其數(shù)據(jù)集被廣泛地應(yīng)用于多標簽分類的衡量標準,總共包含1000張圖片,每張圖片對應(yīng)著5條文本描述,共有5000個圖文對.數(shù)據(jù)集類標簽包含4個大類:人、動物、車輛、室內(nèi).每個類別包含的樣本數(shù)量相等,因此選用其中4個類別樣本作為增量樣本集,整理后的新舊類樣本比為1000∶4000.

        本文僅使用新增類樣本數(shù)據(jù)集用以訓練增量網(wǎng)絡(luò)模型,樣本同時擁有新舊類標簽項.關(guān)于算法1的參數(shù),本文設(shè)定迭代批次大小q=128.迭代次數(shù)為p為300次.學習速率初始值等于0.01.其中μ和α權(quán)值默認值為0.5.

        4.2 方法比較

        增量模型的設(shè)計是基于原有模型的擴展,本文選用DCMH跨模態(tài)哈希檢索方法作為對比實驗的基準模型,該方法是基于深度學習的跨模態(tài)哈希檢索方法的開始.本文將所提出的增量模型ICMR與DCMH進行聯(lián)合訓練的方法進行實驗.本文僅使用增量數(shù)據(jù)集對實驗進行訓練,選用近兩年提出的跨模態(tài)增量網(wǎng)絡(luò)模型與基準模型進行組合可得ECMH_DCMH[13],GrowBit_DCMH[14],ICMH_DCMH[2]以及本文提出方法ICMR_DCMH.在以下實驗中,我們使用平均精度均值(MAP)和精確率召回率(PR)曲線來評估不同的方法.

        為了表現(xiàn)增量模型在新舊數(shù)據(jù)集上的檢索任務(wù)的對比,分別將DCMH方法和ICMR方法在新舊類樣本集上進行檢索精準度計算,在舊數(shù)據(jù)集上檢索表示為Old Tasks和在增量數(shù)據(jù)集上檢索表示為New Tasks.在方法比較中,將圖像用V表示,文本用T表示.

        評價標準:對于不同的數(shù)據(jù)集檢索效果評價,可在圖像檢索文本(V→T)以及文本檢索圖像(T→V)上由查詢集到被檢索數(shù)據(jù)集合的檢索效果來評價.本文使用的是平均精度均值(MAP)來度量檢索的性能.

        (13)

        其中M是檢索集中相關(guān)實例的數(shù)目,prec(r)表示top r 檢索集中的檢索精度.rel(r)是一個非0即1的函數(shù),代表與不同級別r的相關(guān)性指標.PR曲線是以精準率和召回率這兩個變量做出的曲線,其中recall為橫坐標,precision為縱坐標.表示在不同級別的檢索召回率下的準確率.

        4.3 對比與評估

        如上所述表1給出了所有方法在增量Flickr25K數(shù)據(jù)集和增量紡織品數(shù)據(jù)集以及Pascal-sentences數(shù)據(jù)集的兩個跨模態(tài)檢索任務(wù)和哈希編碼從16到64位的MAP值.表2給出了DCMH深度跨模態(tài)哈希方法以及本文增量方法ICMR在新舊檢索任務(wù)上的對比,圖4給出了Flickr25K數(shù)據(jù)集和紡織品數(shù)據(jù)集對比實驗的PR曲線圖.其中對比實驗哈希編碼特征統(tǒng)一為32位.

        表1 增量學習方法平均精度均值(MAP)對比結(jié)果

        表2 平均精度均值(MAP)在新舊任務(wù)上的對比結(jié)果

        圖4 增量學習方法在Flickr25K和紡織品數(shù)據(jù)集的PR曲線

        從表1可以發(fā)現(xiàn),本文提出的方法在大多數(shù)編碼長度檢索上的MAP值都高于其它方法,證明了本文提出的增量跨模態(tài)檢索方法在面對數(shù)據(jù)樣本增量迭代的場景下檢索性能更優(yōu).其中和其他跨模態(tài)增量方法相比上本方法較其它的方法精準率高出2%-5%左右.

        在表2中發(fā)現(xiàn),ICMR方法在舊樣本數(shù)據(jù)集上的檢索精度較DCMH方法低,其差值保持在1%-2%左右,檢索精度差別不大.這說明增量模型ICMR仍然保留了在舊樣本數(shù)據(jù)集上的檢索性能.同樣在新樣本數(shù)據(jù)集中,明顯表現(xiàn)出DCMH跨模態(tài)檢索模型的檢索精度極大的降低,而ICMR在新樣本數(shù)據(jù)集中保持了較高的檢索精度.其中差距最顯著的是DCMH與增量跨模態(tài)檢索方法ICMR在Flickr25K新數(shù)據(jù)集上的檢索精準率,其差值為9.32%.

        從兩表聯(lián)合觀察,因為DCMH是基于舊數(shù)據(jù)集訓練得到的跨模態(tài)檢索模型,在新增類數(shù)據(jù)集上因為新增的標簽語義的缺失,DCMH模型在增量迭代數(shù)據(jù)集中檢索精度性能上表現(xiàn)出不足.但是對比表1可以得出結(jié)論,基于DCMH的增量學習網(wǎng)絡(luò)的組合,都使得擴展后的DCMH模型在新樣本檢索任務(wù)中精度得到提升,其精度提升區(qū)間為5%-10%.因此可以看出增量網(wǎng)絡(luò)模型在訓練學習過程中,通過跨模態(tài)知識蒸餾不僅有效的保留了舊樣本數(shù)據(jù)集檢索性能,還通過增量學習獲得標簽語義信息以及新增樣本數(shù)據(jù)集樣本之間的真實語義關(guān)系.

        圖4給出了在Flickr25K數(shù)據(jù)集和紡織品數(shù)據(jù)集上哈希編碼為32位的兩個跨模態(tài)檢索任務(wù)的PR-Curve曲線,其值是根據(jù)檢索結(jié)果的所屬類檢索命中率以及漢明排序產(chǎn)生.從各圖的PR-Curve曲線可以看出,本文所提跨模態(tài)增量方法在不同的召回率下均獲得了較其它方法更高的精度.

        5 小 結(jié)

        本文提出了增量跨模態(tài)檢索方法.該方法僅使用新增類樣本進行模型擴展.構(gòu)建跨模態(tài)的知識蒸餾網(wǎng)絡(luò),目的是防止增量學習模型對舊數(shù)據(jù)集的災難性遺忘.在生成不同模態(tài)哈希編碼特征表示時,將新舊標簽“共現(xiàn)概率矩陣”作為監(jiān)督信息作用于增量模型學習,用以標識樣本之間關(guān)于新增類標簽的相似的可信度.實驗結(jié)果表明,本文的算法在增量擴展上具有更好的檢索性能表現(xiàn).

        下一步的工作我們將考慮成對模態(tài)數(shù)據(jù)的細粒度特征表現(xiàn),通過有效的細粒度成對語義特征匹配從而提高檢索系統(tǒng)中的檢索性能.

        猜你喜歡
        語義模態(tài)特征
        語言與語義
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        “上”與“下”語義的不對稱性及其認知闡釋
        國內(nèi)多模態(tài)教學研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        認知范疇模糊與語義模糊
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        亚洲va视频一区二区三区| 国产 精品 自在 线免费| 女人被爽到高潮视频免费国产| 国外精品视频在线观看免费| a级黑人大硬长爽猛出猛进| 欧美成人免费看片一区| 1234.com麻豆性爰爱影| 久久精品这里就是精品| 蜜桃视频第一区免费观看| 国产人成无码视频在线观看| 骚片av蜜桃精品一区| 久久av无码精品一区二区三区| 久久精品熟女不卡av高清| 亚洲熟女av一区少妇| 亚洲av午夜精品无码专区| 7777奇米四色成人眼影| 久久这里都是精品一区| 中文字幕人妻一区二区二区| 无码无套少妇毛多18p| 久久久国产精品黄毛片| 亚洲另类欧美综合久久图片区| 久久久精品国产亚洲av网不卡| 久久熟妇少妇亚洲精品| 亚洲av永久无码天堂网毛片| 日韩国产成人精品视频| 国产精品一区二区三区色| 国产日产高清一区二区三区| 亚洲成a人片在线观看无码专区| 成在人线av无码免观看麻豆| 99精品国产第一福利网站| 亚洲精品国产综合久久 | 欧美成免费a级毛片| 波多野结衣国产一区二区三区| 国产精品三级1区2区3区| 麻豆精品国产专区在线观看| 一本一道久久a久久精品综合| 精品国偷自产在线不卡短视频| 青青草免费在线手机视频| 亚洲不卡av一区二区三区四区| 国产激情无码一区二区三区| 亚洲综合色自拍一区|