亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于公共空間嵌入的端到端深度零樣本學(xué)習(xí)

        2018-11-22 12:02:48秦牧軒荊曉遠(yuǎn)
        關(guān)鍵詞:語義模態(tài)特征

        秦牧軒,荊曉遠(yuǎn),吳 飛

        (南京郵電大學(xué) 自動化學(xué)院,江蘇 南京 210003)

        0 引 言

        在圖像識別技術(shù)中[1-3],零樣本學(xué)習(xí)(ZSL)[4]是一種特殊的問題,在訓(xùn)練集中某幾類樣本標(biāo)簽缺失或者樣本不存在,但是依然能夠在測試任務(wù)中識別出這些樣本的類別。一種全部類別共同映射的中間層特征子空間[5]技術(shù),在零樣本學(xué)習(xí)中被大量使用,通過建立一種訓(xùn)練類別信息與測試類別信息的連接空間,將原本使用類別信息分類能力轉(zhuǎn)化到該中間層,擺脫了必須使用類別信息分類的限制。一般中間層特征空間有兩種:屬性(attribute)特征空間[6-7]和文本(text)特征空間[8-9]。

        屬性是人為定義的特征,如“形狀”“紋理”“是否含有某個屬性”等可以描述類別的語義特性,可以利用屬性信息學(xué)習(xí)到新的類別,如Lampert等[6]提出的直接屬性預(yù)測模型(direct attribute prediction,DAP)。

        但是屬性的分類效果取決于屬性的選擇好壞,同時(shí)會消耗人力物力。利用自然語言處理技術(shù)(NLP)使用文本特征作為中間層表示,是零樣本學(xué)習(xí)中另一種解決模型。文本數(shù)據(jù)容易獲得,且其語義相關(guān)性可以推測出未出現(xiàn)的類別,利用多模態(tài)[10]技術(shù)學(xué)習(xí)將圖像從視覺模態(tài)映射到文本模態(tài),來推測未知圖像。Socher等[8]利用一個2層的神經(jīng)網(wǎng)絡(luò)訓(xùn)練一個映射函數(shù),映射圖像特征與其對應(yīng)的詞向量距離最近。Frome等[9]則直接連接卷積神經(jīng)網(wǎng)絡(luò)的最頂層和skip-gram語言模型的輸出層,并將上述映射關(guān)系稱之為嵌入(embedding)。

        直接將圖像特征嵌入到語義特征會由于維度降低導(dǎo)致樞紐度問題[11]。文獻(xiàn)[12-13]利用一種聯(lián)合嵌入模型(structured joint embedding,SJE),將圖像特征和語義特征嵌入公共特征空間,使得公共特征空間中的各模態(tài)特征內(nèi)積和最大,取得了良好的效果。但這些方法只是單純地使用了CNN的圖像特征,在分類時(shí)仍需要人工參與特征提取,并不是一種端到端的深度學(xué)習(xí)方法。文獻(xiàn)[14]在深度的基礎(chǔ)上應(yīng)用一種特征融合技術(shù),但是由于只使用詞向量而效果不佳。

        基于此,文中結(jié)合端到端的深度學(xué)習(xí)模型與基于公共空間的嵌入模型,提出了一種新的零樣本圖像分類方法,即基于公共空間嵌入的端到端深度零樣本學(xué)習(xí),可以同時(shí)利用屬性特征和文本特征,并通過實(shí)驗(yàn)驗(yàn)證該方法的有效性。

        1 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像特征學(xué)習(xí)(CNN)

        CNN通過逐層對圖像卷積獲得低維的特征,并學(xué)習(xí)這些卷積的參數(shù)。輸入圖像訓(xùn)練集X={x1,x2,…,xi,…,xc1},經(jīng)過CNN后,得到圖像特征。輸入227*227的三通道圖像,經(jīng)過5個卷積層和3個全連接層,輸出n維特征向量,n為樣本類別數(shù)量,每一個參數(shù)對應(yīng)一個類別。神經(jīng)網(wǎng)絡(luò)的卷積層數(shù)據(jù)見表1。

        表1 神經(jīng)網(wǎng)絡(luò)的卷積層數(shù)據(jù)

        經(jīng)過兩個全連接層fc6和fc7之后,在fc8層應(yīng)用softmax損失函數(shù)進(jìn)行分類,同樣在fc6和fc7層之后會有激活函數(shù)和drop函數(shù)。fc8層使用softmax損失函數(shù)分類:

        (1)

        (2)

        其中,aj為第i個樣本被分為j類的概率;1{y(i)=j}表示當(dāng)表達(dá)式成立時(shí)值為1,否則為0。

        首先建立單視覺的Fake-task模型,fc8層特征只作用于預(yù)學(xué)習(xí),在多模態(tài)嵌入時(shí)使用的是fc7層的特征,相較于fc8層,fc7層特征能更好地表達(dá)圖像層級的特征。

        2 基于融合層的語義特征學(xué)習(xí)(Att、W2V)

        由于使用的公共空間不依賴單一模態(tài)的特點(diǎn),可以同時(shí)使用屬性特征和文本特征或者融合訓(xùn)練該模型。如圖1所示,應(yīng)用一個多模態(tài)融合層,其函數(shù)定義如下:

        (3)

        (4)

        不同于屬性特征,文本特征需要使用skip-gram模型訓(xùn)練得到。應(yīng)用維基百科上面570萬文本(約54億單詞)來訓(xùn)練一個三層全連接的神經(jīng)網(wǎng)絡(luò),輸入文本訓(xùn)練集Y={y1,y2,…,yc1,…,yc2},并得到文本特征,注意到文本訓(xùn)練集種類數(shù)量遠(yuǎn)遠(yuǎn)大于圖像訓(xùn)練集種類數(shù)量,即c2?c1。y定義如下:

        (5)

        圖1 視覺模態(tài)和語義模態(tài)公共空間嵌入模型

        輸入層經(jīng)過隱層到達(dá)第三層,第三層實(shí)際上是一個Softmax分類器。同樣文本模塊也是一個Fake-task,目的是得到隱層的參數(shù)作為詞向量。通過比較100維到2 000維的隱層權(quán)重分類效果,發(fā)現(xiàn)將隱層的大小設(shè)置為512維最為合適。

        3 視覺-語義聯(lián)合學(xué)習(xí)部分

        聯(lián)合學(xué)習(xí)將原有模型上的圖像特征和文本特征投影到公共空間并建立一種類別對應(yīng)關(guān)系。去除上文所述的圖像和文本模塊的分類層,替換一個全連接層映射隱層的特征到公共空間,形成一個新的損失層,損失函數(shù)為:

        s.t.

        (6)

        H(x)=sigmoid(WxF)

        H(y)=sigmoid(WyG)

        F=f(X;θx)

        G=g(Y;θy)

        (7)

        在聯(lián)合訓(xùn)練階段,應(yīng)用隨機(jī)梯度下降算法(SGD)交替迭代訓(xùn)練嵌入?yún)?shù):

        (1)固定θy和Wy,優(yōu)化θx和Wx。

        應(yīng)用一種微調(diào)深度學(xué)習(xí)的技術(shù)(fine-tuning)對θx調(diào)優(yōu),θx前5層的參數(shù)固定不變,降低fc6和fc7的學(xué)習(xí)率10倍。在嵌入層,梯度計(jì)算如下:

        (8)

        (2)固定θx,θy和Wx,優(yōu)化Wy。

        同樣應(yīng)用SGD算法優(yōu)化文本嵌入層參數(shù)Wy。由于需要詞向量的語義相關(guān)性,所以只訓(xùn)練Wy,梯度計(jì)算如下:

        (9)

        4 實(shí) 驗(yàn)

        通過在AwA(animals with attributes)數(shù)據(jù)庫和Cub鳥類數(shù)據(jù)庫上的識別率波動圖和平均識別率來比較文中方法與DeViSE、Ba et.al、SJE、LatEm和JLSE方法的識別性能。AwA包含30 745張50個不同動物的圖片。CUB-200-2011(Caltech UCSD Bird)鳥類數(shù)據(jù)庫包含了200種鳥類共11 788張圖片,是目前應(yīng)用廣泛的細(xì)粒度分類參考之一。所有方法均采用基于余弦距離的最近鄰分類器來做分類識別。

        4.1 實(shí)驗(yàn)方法

        在AwA數(shù)據(jù)庫上,選擇40個類別作為已知類,10個類別作為未知類;在CUB數(shù)據(jù)庫上,參考文獻(xiàn)[7]方法選取100個類別組成訓(xùn)練集,50個類別組成驗(yàn)證集,50個類別組成測試集。實(shí)驗(yàn)都采取隨機(jī)挑選的方式運(yùn)行30次。

        對于AwA庫,應(yīng)用文獻(xiàn)[6]提供的85維的屬性特征,而CUB庫上,應(yīng)用文獻(xiàn)[12]提供的312維度的屬性特征。不同于固定的屬性特征,文本特征使用skip-gram模型來訓(xùn)練所需的詞向量,使用維基百科上的570萬文本(約54億單詞)來訓(xùn)練AwA庫和CUB庫,特征維度為512。

        4.2 實(shí)驗(yàn)結(jié)果與分析

        表2給出了所有方法在AwA和CUB兩個數(shù)據(jù)庫上隨機(jī)30次的識別率。圖2給出了AwA庫上使用詞向量作為語義特征的識別率波動,圖3比較了幾種使用公共空間的方法。

        圖2 AwA數(shù)據(jù)庫上所有方法隨機(jī)30次的識別率

        圖3 使用公共空間的所有方法隨機(jī)30次的識別率

        方法語義特征AwACUBDeViSEW56.7/50.433.5Ba et.alW69.3/58.734.0SJEA/W/A+W66.7/60.1/73.950.1/28.4/51.0LatEmA/W/A+W72.5/52.3/76.145.6/33.1/47.4JLSEA80.542.1文中A/W/A+W79.0/62.6/78.847.4/38.1/52.1

        從表2可以看出,在AwA數(shù)據(jù)庫上,文中方法無論是單獨(dú)使用屬性或詞向量,還是同時(shí)使用混合特征,都比DeViSE、Ba et.al、SJE以及LatEm等四種方法的平均識別率提高了至少2.5%(62.6%-60.1%);在CUB數(shù)據(jù)庫上,對比上述方法,文中方法雖然在單屬性特征上略微輸給了SJE,但是在混合特征上取得最好的效果(52.1%)。

        5 結(jié)束語

        建立了應(yīng)用于零樣本學(xué)習(xí)的端到端的深度學(xué)習(xí)模型,并使用了融合屬性信息和文本信息的聯(lián)合語義特征,提出了基于公共空間嵌入的端到端深度零樣本學(xué)習(xí)。在AwA和CUB數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明,該方法有效地提高了識別率。

        猜你喜歡
        語義模態(tài)特征
        語言與語義
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        認(rèn)知范疇模糊與語義模糊
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产av天堂亚洲av刚刚碰| 亚洲AV无码一区二区二三区我 | 亚洲av成人一区二区三区色| 国产丝袜美腿在线播放| 99久久99久久精品免费看蜜桃| 久久婷婷香蕉热狠狠综合| 亚洲精品一区网站在线观看| 亚洲成人av在线播放不卡| 大又大又粗又硬又爽少妇毛片| 国产专区国产av| 亚洲Va中文字幕无码毛片下载| 熟女少妇精品一区二区三区| 国产做无码视频在线观看| 日日碰狠狠丁香久燥| 高潮喷水无遮挡毛片视频| 国产亚洲综合另类色专区| 日本真人做爰免费视频120秒| 国产精品无码日韩欧| 国产一级做a爱视频在线| 青青草成人免费在线视频| 国产日产综合| 99福利网| 偷拍与自偷拍亚洲精品| 久久综合久久美利坚合众国| 中文字幕久无码免费久久| 中文字幕无码免费久久9一区9| 国产一区二区三区小向美奈子| 色欲人妻aaaaaaa无码| 久久久久久av无码免费看大片 | 国产一区二区三区白浆在线观看 | 久久精品国产亚洲av成人无人区| 久久久精品国产亚洲av网深田| 亚洲狠狠婷婷综合久久久久图片 | 国产一区二区三区的区| 精品国产av色一区二区深夜久久| 98bb国产精品视频| 日韩精品高清不卡一区二区三区| 午夜视频在线瓜伦| 久久精品国产亚洲av高清漫画 | 中文在线天堂网www| 日韩人妻av不卡一区二区三区|