亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自適應(yīng)多任務(wù)學(xué)習(xí)的自動(dòng)藝術(shù)分析

        2022-04-24 09:53:44楊冰向?qū)W勤孔萬(wàn)增施妍姚金良
        關(guān)鍵詞:分類藝術(shù)方法

        楊冰,向?qū)W勤,孔萬(wàn)增,施妍,姚金良

        1.杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院,杭州 310018;2.浙江省腦機(jī)協(xié)同智能重點(diǎn)實(shí)驗(yàn)室,杭州 310018;3.杭州凌感科技有限公司,杭州 310051;4.杭州電子科技大學(xué)人文藝術(shù)與數(shù)字媒體學(xué)院,杭州 310018

        0 引 言

        多任務(wù)學(xué)習(xí)(張鈺 等,2020)理論認(rèn)為通用特征相對(duì)于任務(wù)相關(guān)特征具有更強(qiáng)的表達(dá)能力,嘗試同時(shí)解決多個(gè)任務(wù)提高學(xué)習(xí)效率和預(yù)測(cè)準(zhǔn)確性。目前,多任務(wù)學(xué)習(xí)技術(shù)已經(jīng)成功應(yīng)用于眾多計(jì)算機(jī)視覺(jué)任務(wù),例如目標(biāo)跟蹤、目標(biāo)檢測(cè)和識(shí)別、面部特征點(diǎn)檢測(cè)和面部屬性分類等。多任務(wù)學(xué)習(xí)方法大多使用簡(jiǎn)單的加權(quán)損失總和共同學(xué)習(xí)多個(gè)任務(wù),各個(gè)損失之間權(quán)重一般是統(tǒng)一設(shè)置或者手動(dòng)調(diào)整(Garcia等,2019),然而實(shí)際應(yīng)用中手工尋找最優(yōu)的損失權(quán)重非常耗時(shí)。Cipolla等人(2018)提出一種基于同類不確定性原理組合多個(gè)損失函數(shù)同時(shí)學(xué)習(xí)多個(gè)目標(biāo)的方法,針對(duì)每個(gè)任務(wù)選擇正確的損失權(quán)重,有效提升了多任務(wù)學(xué)習(xí)的最終性能,Chen等人(2018)提出一種梯度歸一化方法,通過(guò)動(dòng)態(tài)調(diào)整梯度幅度自動(dòng)平衡多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)模型的訓(xùn)練。

        藝術(shù)品數(shù)字化促進(jìn)了文化遺產(chǎn)的保護(hù)和傳播,自動(dòng)藝術(shù)分析作為最具有發(fā)展前途的方向之一得到了廣泛關(guān)注。自動(dòng)藝術(shù)分析旨在借助人工設(shè)計(jì)(Khan等,2014)的描述符或者深度學(xué)習(xí)方法識(shí)別藝術(shù)繪畫中的特定屬性。自動(dòng)藝術(shù)分析絕大部分早期工作都集中于通過(guò)人工設(shè)計(jì)的描述符提取藝術(shù)繪畫最具代表性的視覺(jué)特征。Johnson等人(2008)使用小波分解方法通過(guò)分析筆跡識(shí)別作者。Khan等人(2014)將顏色、邊緣或紋理特征組合在一起以實(shí)現(xiàn)作者、類型和學(xué)校分類。Carneiro等人(2012)利用SIFT(scale-invariant feature transform)特征將繪畫分組為不同的屬性。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)已成功應(yīng)用于藝術(shù)繪畫的內(nèi)容和風(fēng)格分析,例如在藝術(shù)風(fēng)格遷移領(lǐng)域(Sanakoyeu等,2018)取得了令人驚訝的視覺(jué)效果。楊秀芹和張華熊(2020)為了充分提取版畫、中國(guó)畫、水彩畫和水粉畫等藝術(shù)圖像的整體風(fēng)格和局部細(xì)節(jié)特征,提出通過(guò)雙核壓縮激活模塊和深度可分離卷積搭建卷積神經(jīng)網(wǎng)絡(luò)對(duì)藝術(shù)圖像進(jìn)行分類。一般來(lái)說(shuō),這些方法(Chu和Wu,2018)首先從預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)中提取深度特征,然后使用藝術(shù)繪畫圖像對(duì)提取的深度特征進(jìn)行微調(diào),以期獲取更好的效果。

        大多數(shù)自動(dòng)藝術(shù)分析方法主要是通過(guò)分析藝術(shù)繪畫的風(fēng)格和類型描述藝術(shù)作品的視覺(jué)本質(zhì)。例如盛家川和李玉芝(2018)首先將國(guó)畫風(fēng)格闡述為一系列的藝術(shù)目標(biāo),如馬、人物等,然后使用深度卷積神經(jīng)網(wǎng)絡(luò)描述這些藝術(shù)目標(biāo)的高級(jí)語(yǔ)義特征,并通過(guò)支持向量機(jī)對(duì)各種藝術(shù)目標(biāo)的分類結(jié)果進(jìn)行融合。然而,從藝術(shù)專家的角度來(lái)看(李立紅,2019),藝術(shù)研究不僅涉及藝術(shù)繪畫的視覺(jué)信息,而且包括蘊(yùn)含的社會(huì)、歷史和藝術(shù)信息。盡管自動(dòng)藝術(shù)分析研究已經(jīng)取得了顯著的進(jìn)步,但大多數(shù)研究者都將各種藝術(shù)目標(biāo)作為獨(dú)立的個(gè)體進(jìn)行分析,本文將多任務(wù)學(xué)習(xí)引入自動(dòng)藝術(shù)分析領(lǐng)域,同時(shí)解決多任務(wù)學(xué)習(xí)中每個(gè)任務(wù)損失之間相對(duì)權(quán)重難以決策這一難題,在貝葉斯理論框架下,本文提出一種自適應(yīng)多任務(wù)學(xué)習(xí)模型,同時(shí)利用視覺(jué)外觀和視覺(jué)上下文信息,通過(guò)學(xué)習(xí)合適的損失權(quán)重提升自動(dòng)藝術(shù)分析性能。在藝術(shù)圖像數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)驗(yàn)證了本文方法的優(yōu)越性。

        1 自適應(yīng)多任務(wù)學(xué)習(xí)方法

        本文方法采用硬參數(shù)共享形式的多任務(wù)學(xué)習(xí)框架,流程圖如圖1所示。各個(gè)任務(wù)先共享一個(gè)編碼器網(wǎng)絡(luò),再使用各自的解碼器網(wǎng)絡(luò)提取任務(wù)相關(guān)特征,隨后在貝葉斯理論框架下對(duì)多任務(wù)損失進(jìn)行建模并完成訓(xùn)練,最終實(shí)現(xiàn)自動(dòng)藝術(shù)分析任務(wù)(藝術(shù)圖像分類、跨模態(tài)藝術(shù)圖像檢索等)。

        圖1 本文方法流程Fig.1 The framework of our proposed method

        1.1 多任務(wù)學(xué)習(xí)基本模型

        (1)

        式中,g是以wh為參數(shù)的映射函數(shù),Lh代表第h個(gè)任務(wù)的損失函數(shù),ψh為損失函數(shù)的權(quán)重參數(shù),起著平衡各個(gè)任務(wù)損失的作用。

        本文采用硬參數(shù)共享形式的多任務(wù)學(xué)習(xí)框架,結(jié)合圖1的流程圖和式(1),優(yōu)化目標(biāo)可表示為

        (2)

        (3)

        1.2 基于貝葉斯理論的自適應(yīng)多任務(wù)學(xué)習(xí)模型

        Cipolla等人(2018)率先提出運(yùn)用貝葉斯建模方法自動(dòng)調(diào)節(jié)多任務(wù)學(xué)習(xí)優(yōu)化目標(biāo)。受此啟發(fā),本文方法對(duì)上述方法進(jìn)行了擴(kuò)展,統(tǒng)一在貝葉斯理論框架下對(duì)多任務(wù)學(xué)習(xí)損失函數(shù)進(jìn)行建模。

        (4)

        因此,借助層次貝葉斯理論(Evgeniou和Pontil,2004),本文多任務(wù)學(xué)習(xí)優(yōu)化目標(biāo)可擴(kuò)展為

        (5)

        再者,依據(jù)貝葉斯建模方法,多任務(wù)損失函數(shù)可以通過(guò)最大化不確定性的高斯似然進(jìn)行構(gòu)造(Cipolla等,2018),這種不確定性可以看成是任務(wù)相關(guān)的不確定性。本文采用softmax函數(shù)進(jìn)行藝術(shù)圖像分類,則多任務(wù)學(xué)習(xí)模型的損失函數(shù)最小化目標(biāo)L(w,σ1,…,σh)定義為

        -logP(z1,…,zh=c|gw(x))=-log[softmax(z1=c;gw(x),σ1)×…×softmax (zh=c;gw(x),σh)]

        (6)

        式中,參數(shù)w=[wE,wD]代表網(wǎng)絡(luò)整體參數(shù)。進(jìn)一步將softmax函數(shù)展開(kāi),可以得到

        (7)

        根據(jù)式(7)能夠?qū)W習(xí)到每種損失的相對(duì)權(quán)重。σ取值較大時(shí),其損失貢獻(xiàn)較小;反之,其損失貢獻(xiàn)較大。并且,式(7)最后的正則項(xiàng)能避免σ取值過(guò)大。最終,聯(lián)合式(5)和式(7),本文多任務(wù)學(xué)習(xí)優(yōu)化目標(biāo)定義為

        (8)

        式中,γ是超參數(shù)。

        本文在貝葉斯理論基礎(chǔ)下,構(gòu)建了一種自適應(yīng)多任務(wù)學(xué)習(xí)模型,其優(yōu)化目標(biāo)定義如式(8)所示。這種自適應(yīng)多任務(wù)學(xué)習(xí)模型能夠很便利地?cái)U(kuò)展至任意同類學(xué)習(xí)任務(wù),例如基于多任務(wù)學(xué)習(xí)的藝術(shù)分析任務(wù),從而使本文可以有效地學(xué)習(xí)到每種損失合適的相對(duì)權(quán)重,同時(shí)正則項(xiàng)的引入能夠提升模型的最終性能。值得注意的是,本文方法的性能和任務(wù)數(shù)量沒(méi)有必然關(guān)聯(lián)。在多屬性商品圖像分類、面部屬性分類等領(lǐng)域,本文方法也具備較大的應(yīng)用潛力。

        Cipolla等人(2018)采用類似式(7)的形式構(gòu)造多任務(wù)損失函數(shù)。圖2描述了本文方法和Cipolla等人(2018)方法訓(xùn)練過(guò)程中的訓(xùn)練損失變動(dòng)情況。從圖2中可以明顯看出,使用Cipolla等人(2018)方法進(jìn)行訓(xùn)練時(shí),訓(xùn)練損失會(huì)處于波動(dòng)狀態(tài)且無(wú)法進(jìn)一步收斂。而采用本文方法進(jìn)行訓(xùn)練時(shí),訓(xùn)練損失會(huì)快速下降到某一收斂值,這說(shuō)明通過(guò)層次貝葉斯理論引入的正則項(xiàng)起著較好的約束作用。在藝術(shù)圖像數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)驗(yàn)證了本文方法的有效性。

        圖2 訓(xùn)練過(guò)程中訓(xùn)練損失比較Fig.2 Training loss comparisons during training procedure

        2 自動(dòng)藝術(shù)分析實(shí)驗(yàn)

        為驗(yàn)證本文提出的自適應(yīng)多任務(wù)學(xué)習(xí)模型的性能,在藝術(shù)圖像數(shù)據(jù)庫(kù)上進(jìn)行自動(dòng)藝術(shù)分析實(shí)驗(yàn)。為與Garcia等人(2019)的方法進(jìn)行公平比較,進(jìn)行類似具有代表性的藝術(shù)圖像分類、跨模態(tài)藝術(shù)圖像檢索實(shí)驗(yàn)。

        2.1 藝術(shù)圖像數(shù)據(jù)庫(kù)

        現(xiàn)有多種藝術(shù)圖像數(shù)據(jù)庫(kù),然而一些數(shù)據(jù)庫(kù)存在如下缺陷:數(shù)據(jù)集樣本太小因而無(wú)法訓(xùn)練深度學(xué)習(xí)模型(Crowley和Zisserman,2014)、每個(gè)樣本并不具備多種屬性(Karayev等,2014)或者無(wú)法公開(kāi)下載(Mao等,2017)。本文選取Garcia和Vogiatzis(2018)發(fā)布的SemArt藝術(shù)圖像數(shù)據(jù)庫(kù)作為實(shí)驗(yàn)對(duì)象。該數(shù)據(jù)庫(kù)是一種面向藝術(shù)語(yǔ)義理解的多模態(tài)數(shù)據(jù)庫(kù),可以用于跨模態(tài)檢索以及分類任務(wù)。SemArt藝術(shù)圖像數(shù)據(jù)庫(kù)共有21 382幅藝術(shù)繪畫圖像,本文將其隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,分別包括19 244、1 069和1 069幅圖像。每幅藝術(shù)繪畫圖像都含有詳細(xì)的藝術(shù)文本注釋以及多種屬性(例如作者(author)、標(biāo)題(title)、日期(data)、技術(shù)(technique)、類型(type)、學(xué)校(school)和時(shí)間范圍(TF)等)。SemArt藝術(shù)圖像數(shù)據(jù)庫(kù)中樣本如圖3所示。

        圖3 SemArt藝術(shù)圖像數(shù)據(jù)庫(kù)中繪畫樣本Fig.3 Painting samples in SemArt database

        考慮到SemArt藝術(shù)圖像數(shù)據(jù)庫(kù)中不是所有的繪畫樣本都具有“日期”(data)和“技術(shù)”(technique)屬性,本文選取5種屬性進(jìn)行衡量。1)“作者”(author)屬性。SemArt藝術(shù)圖像數(shù)據(jù)庫(kù)包含3 281位不同的作者,類似Garcia和Vogiatzis(2018)的做法,本文只選擇訓(xùn)練集中至少有10幅藝術(shù)繪畫的作者,而將作品少于10幅的作者設(shè)置為未知畫家。最后共計(jì)收集350位不同的畫家;2)“標(biāo)題”(title屬性)。數(shù)據(jù)庫(kù)中共有14 902個(gè)不同的標(biāo)題,其中38.8%的繪畫具備一個(gè)非唯一性的標(biāo)題。在所有標(biāo)題中,靜物和自畫像是最常見(jiàn)的標(biāo)題;3)“類型”(type)屬性。類型字段根據(jù)肖像、風(fēng)景、宗教、研究、流派、靜物、神話、室內(nèi)、歷史以及其它等10種不同流派對(duì)繪畫進(jìn)行分類;4)“學(xué)?!?school)屬性。數(shù)據(jù)庫(kù)中有26所藝術(shù)學(xué)校,根據(jù)“學(xué)校”屬性,本文丟棄訓(xùn)練集中出現(xiàn)不超過(guò)10幅繪畫的學(xué)校,并將這些學(xué)校命名為未知學(xué)校。共收集25所不同的藝術(shù)學(xué)校,學(xué)校所在地包括意大利、德國(guó)和法國(guó)等;5)“時(shí)間范圍”(TF)屬性。根據(jù)每幅畫的創(chuàng)作時(shí)間構(gòu)建時(shí)間范圍屬性。在公元801—1900年之間按50年一個(gè)周期均勻采樣,得到22個(gè)不同的時(shí)間范圍。類似地,本文只選擇訓(xùn)練集中至少包含10幅繪畫的時(shí)間范圍,總計(jì)收集18個(gè)類別的時(shí)間范圍集合,其中包括一個(gè)未知類別的時(shí)間范圍。上述5種屬性中,標(biāo)題屬性和類型屬性描述了藝術(shù)圖像的種類特征;作者屬性反映了藝術(shù)圖像的風(fēng)格特征;學(xué)校屬性表達(dá)了藝術(shù)圖像的社會(huì)屬性;時(shí)間范圍屬性闡述了藝術(shù)圖像的歷史屬性。因此本文采用的多任務(wù)學(xué)習(xí)方法能夠全面地刻畫藝術(shù)品的內(nèi)在屬性特征。

        2.2 藝術(shù)圖像分類實(shí)驗(yàn)

        2.2.1 分類實(shí)現(xiàn)細(xì)節(jié)及對(duì)比模型

        本文采用去除最后一個(gè)全連接層的ResNet50(residual neural network)(He等,2016)作為圖1所示的視覺(jué)編碼器。ResNet50使用其標(biāo)準(zhǔn)的面向自然圖像分類任務(wù)的預(yù)訓(xùn)練權(quán)重進(jìn)行初始化,其余各層的權(quán)重則隨機(jī)初始化。輸入的藝術(shù)繪畫圖像統(tǒng)一縮放為256 × 256像素,并隨機(jī)裁剪成邊長(zhǎng)為224像素的小圖。訓(xùn)練網(wǎng)絡(luò)模型時(shí),對(duì)繪畫圖像隨機(jī)水平翻轉(zhuǎn)以增加樣本數(shù)量。ResNet50輸出為一個(gè)2 048維度的向量,隨后分別送入幾種不同類型的任務(wù)解碼器中,該任務(wù)解碼器采用一個(gè)全連接層進(jìn)行構(gòu)造,解碼器的大小與每個(gè)任務(wù)中的類別數(shù)相對(duì)應(yīng)。因此,任務(wù)解碼器參數(shù)大小為一個(gè)2 048×(OL)的權(quán)重矩陣(OL為每個(gè)任務(wù)的類別數(shù)目),具體實(shí)現(xiàn)時(shí)為了方便式(8)的計(jì)算,對(duì)上述權(quán)重矩陣按列進(jìn)行平均計(jì)算,最終得到一個(gè)2 048維度的任務(wù)相關(guān)向量代入多任務(wù)學(xué)習(xí)目標(biāo)式(8)。本文選擇動(dòng)量為0.9,學(xué)習(xí)率為0.002 5的隨機(jī)梯度下降器作為優(yōu)化器。訓(xùn)練時(shí),批處理(mini-batch)的大小為28,最大迭代次數(shù)為300。

        為了衡量本文方法的性能,選用如下模型比較:

        1)預(yù)訓(xùn)練模型(pre-trained model)。選用面向自然圖像分類任務(wù)的帶有預(yù)訓(xùn)練權(quán)重的VGG16(Visual Geometry Group network 16-layer)(Simonyan和Zisserman,2015)、ResNet50以及ResNet152模型(He等,2016),隨后修改最后一個(gè)全連接層的輸出大小,使之與每個(gè)任務(wù)類別數(shù)目相等,最后一層全連接層權(quán)重隨機(jī)初始化,模型中其他層權(quán)重保持不變。

        2)微調(diào)模型(fine-tuned model)。類似預(yù)訓(xùn)練模型,選用VGG16、ResNet50以及ResNet152模型,并且修改最后一個(gè)全連接層,模型各層中權(quán)重參數(shù)在訓(xùn)練過(guò)程進(jìn)行微調(diào)。

        3)內(nèi)容感知多任務(wù)學(xué)習(xí)模型(context-aware multi-task learning model,MTL)。為了實(shí)現(xiàn)內(nèi)容感知,Garcia等人(2019)提出一種多任務(wù)學(xué)習(xí)模型(multi-task learning,MTL)共同學(xué)習(xí)多個(gè)藝術(shù)任務(wù),發(fā)掘任務(wù)之間的視覺(jué)相似性。

        4)內(nèi)容感知知識(shí)圖譜模型(context-aware knowledge graph model,KGM)。Garcia等人(2019)采用知識(shí)圖譜用于學(xué)習(xí)藝術(shù)屬性之間的獨(dú)特關(guān)系,首先將一組繪畫與其藝術(shù)相關(guān)的屬性聯(lián)系起來(lái),生成特定的藝術(shù)知識(shí)圖譜,隨后以圖中的節(jié)點(diǎn)鄰域和位置編碼為向量表示上下文內(nèi)容。

        5)權(quán)重不確定性多任務(wù)學(xué)習(xí)模型(weight uncertainty multi-task learning model,WU)。通過(guò)考慮每個(gè)任務(wù)的權(quán)重不確定性,Cipolla等人(2018)試圖在每個(gè)任務(wù)的損失函數(shù)之間學(xué)習(xí)到合適的權(quán)重,從而提高模型的實(shí)際性能。

        6)梯度歸一化多任務(wù)學(xué)習(xí)模型(gradient normalization multi-task learning model,GradNorm)。Chen等人(2018)提出一種梯度歸一化(GradNorm)算法,通過(guò)動(dòng)態(tài)調(diào)整梯度幅度自動(dòng)平衡多任務(wù)學(xué)習(xí)訓(xùn)練。該方法可以提高準(zhǔn)確性并減少多個(gè)任務(wù)之間的過(guò)度擬合。

        上述6種模型中,預(yù)訓(xùn)練模型和微調(diào)模型為傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò)模型;內(nèi)容感知多任務(wù)學(xué)習(xí)模型和內(nèi)容感知知識(shí)圖譜模型為有代表性的固定權(quán)重的多任務(wù)學(xué)習(xí)模型;權(quán)重不確定性多任務(wù)學(xué)習(xí)模型和梯度歸一化多任務(wù)學(xué)習(xí)模型為有代表性的可自動(dòng)調(diào)節(jié)權(quán)重的多任務(wù)學(xué)習(xí)模型。與該6種模型進(jìn)行比較,可全面衡量本文方法的性能。

        2.2.2 分類結(jié)果

        本文在SemArt數(shù)據(jù)庫(kù)上進(jìn)行藝術(shù)圖像分類實(shí)驗(yàn),通過(guò)衡量分類準(zhǔn)確性(即正確分類的繪畫占繪畫總數(shù)的比率)評(píng)估性能,結(jié)果如圖4所示??梢钥闯?,1)除了內(nèi)容感知知識(shí)圖譜模型(KGM)在“類型”(type)任務(wù)上效果最優(yōu)以外,本文方法在大多數(shù)分類任務(wù)中都獲得了最佳的準(zhǔn)確性。2)預(yù)訓(xùn)練模型在所有模型中表現(xiàn)最差,這是因?yàn)樗鼈冴P(guān)注于自然圖像分類,因此在藝術(shù)圖像分類領(lǐng)域沒(méi)有很好的判別能力。而通過(guò)對(duì)這些模型進(jìn)行微調(diào),則可以提高預(yù)訓(xùn)練模型的性能。3)相比于微調(diào)模型,MTL或者KGM模型通過(guò)額外獲取各種藝術(shù)屬性中的關(guān)系,獲得了更高的準(zhǔn)確性。

        圖4 SemArt藝術(shù)圖像數(shù)據(jù)庫(kù)分類實(shí)驗(yàn)Fig.4 Classification experiments of SemArt database

        MTL模型中每個(gè)任務(wù)的權(quán)重均保持固定,而本文提出的自適應(yīng)多任務(wù)學(xué)習(xí)方法通過(guò)自動(dòng)調(diào)節(jié)權(quán)重提高分類性能。例如,在“時(shí)間范圍”分類任務(wù)中,相對(duì)于MTL模型,本文方法性能提升了4.43%。在“學(xué)?!?school)和“時(shí)間范圍”(TF)分類任務(wù)中,MTL模型的性能優(yōu)于KGM模型,而KGM模型在“類型”(type)和“作者”(author)分類任務(wù)中表現(xiàn)更佳。與之對(duì)應(yīng),本文方法的性能保持一致且更加穩(wěn)定。此外,本文方法也優(yōu)于目前流行的自動(dòng)確定多任務(wù)損失權(quán)重方法(Cipolla等,2018;Chen等,2018)。值得注意的是,為了計(jì)算特定的任務(wù)權(quán)重,Chen等人(2018)方法需要兩次反向傳播,既費(fèi)時(shí)又不易于實(shí)現(xiàn)。分類實(shí)驗(yàn)中,本文方法性能優(yōu)于Cipolla等人(2018)方法,驗(yàn)證了本文方法借助層次貝葉斯理論加入正則項(xiàng)約束的必要性。在分類實(shí)驗(yàn)中還發(fā)現(xiàn),本文方法“時(shí)間范圍”(TF)分類任務(wù)的權(quán)重略大于“類型”(type)分類任務(wù)的權(quán)重,說(shuō)明本文方法可自適應(yīng)地調(diào)節(jié)權(quán)重來(lái)關(guān)注相對(duì)較難的分類任務(wù)。

        2.3 藝術(shù)圖像檢索實(shí)驗(yàn)

        2.3.1 檢索實(shí)現(xiàn)細(xì)節(jié)

        本文在SemArt藝術(shù)圖像數(shù)據(jù)庫(kù)上進(jìn)行全面的實(shí)驗(yàn)以衡量各種模型的性能,類似Garcia和Vogiatzis(2018)提出的Text2Art的做法,進(jìn)行根據(jù)藝術(shù)文本檢索相關(guān)繪畫以及根據(jù)繪畫檢索相關(guān)藝術(shù)文本實(shí)驗(yàn)。為了與Garcia等人(2019)模型進(jìn)行公平比較,在視覺(jué)編碼器中添加藝術(shù)分類器,將視覺(jué)表征信息集成到跨模態(tài)的檢索模型中??缒B(tài)的檢索模型詳細(xì)構(gòu)建過(guò)程如下:

        1)視覺(jué)編碼器。輸入的藝術(shù)繪畫圖像統(tǒng)一縮放為256 × 256像素大小,并隨機(jī)裁剪成邊長(zhǎng)為224像素的小圖。隨后將其作為ResNet50輸入圖像,該ResNet50使用標(biāo)準(zhǔn)的預(yù)訓(xùn)練權(quán)重進(jìn)行初始化,輸出大小為1 000維的向量acnn。另一方面,繪畫圖像同時(shí)輸入到已訓(xùn)練完畢的分類器中(例如本文提出的模型、微調(diào)模型、MTL模型或者KGM模型),以期獲得與屬性相關(guān)的向量aatt,該向量含有c個(gè)分量,c表示分類器的輸出類別數(shù)目。視覺(jué)編碼器最終通過(guò)兩個(gè)向量的級(jí)聯(lián)來(lái)表示,即a=acnn⊕aatt。

        2)評(píng)述和屬性編碼器。藝術(shù)繪畫每個(gè)評(píng)述通過(guò)詞頻—逆文檔頻率(tf-idf)策略進(jìn)行編碼,評(píng)述字典庫(kù)大小為9 708,由訓(xùn)練數(shù)據(jù)集中至少重復(fù)出現(xiàn)10次的字母詞構(gòu)成,隨后獲取與評(píng)述相關(guān)的tf-idf向量bcom。類似地,通過(guò)使用大小為9 092的詞匯表,可以將藝術(shù)繪畫的標(biāo)題編碼為另一向量btit。進(jìn)一步,采用一位有效(one-hot)向量batt編碼author、type、school或TF屬性。最終將這3個(gè)向量級(jí)聯(lián)起來(lái)得到b=bcom⊕btit⊕batt。

        3)跨模態(tài)投影。為了衡量跨模態(tài)數(shù)據(jù)的相似性,分別使用非線性函數(shù)Da和Db將a和b轉(zhuǎn)換到128維空間中。非線性函數(shù)通過(guò)一個(gè)全連接層、tanh激活函數(shù)和L2 歸一化來(lái)構(gòu)造。一旦a和b投影完畢,本文采用余弦相似度計(jì)算和匹配排序結(jié)果。

        為了訓(xùn)練提出的檢索模型,本文收集了繪畫樣本的正負(fù)匹配對(duì)。然后基于余弦邊際損失函數(shù),訓(xùn)練檢索模型的權(quán)重(藝術(shù)分類器的權(quán)重保持不變)。具體為

        (9)

        式中,Csim表示余弦相似度比較函數(shù),θ是取值為0.1的固定閾值。

        2.3.2 檢索實(shí)驗(yàn)結(jié)果

        本文通過(guò)在SemArt數(shù)據(jù)庫(kù)上進(jìn)行Text2Art任務(wù)來(lái)評(píng)估各種模型的性能,其中繪圖圖像根據(jù)與其給定的文本相似性進(jìn)行排序,反之亦然。檢索結(jié)果報(bào)告為中位數(shù)排名(median rank,MR)以及K的召回率(R@K),K取值為1、5和10。MR取值越低,K的召回率越高,檢索結(jié)果越好。為了全面衡量檢索效果,與以下幾種方法進(jìn)行比較:1)Garcia和Vogiatzis(2018)提出的CML(context-aware multi-task learning model)模型。該模型對(duì)評(píng)述和標(biāo)題信息進(jìn)行了編碼,而沒(méi)有用到屬性信息;2)CML*。CML*是CML模型的重實(shí)現(xiàn)版本,效果上稍微有所提升;3)AMD模型。該模型在訓(xùn)練過(guò)程中利用屬性推斷視覺(jué)和文字映射,微調(diào)模型采用ResNet152(He等,2016)結(jié)構(gòu)。4)Garcia等人(2019)方法。該方法采用各種內(nèi)容感知相關(guān)分類器,如MTL-author、MTL-type、MTL-school、MTL-timeframe、KGM-author、KGM-type,KGM-school 和 KGM-timeframe。檢索實(shí)驗(yàn)結(jié)果如表1和圖5所示,可以看出,與其他模型相比,本文方法取得最佳性能。例如,與采用“作者”(author)屬性的KGM模型相比,本文方法提升了9.91%。使用“學(xué)校”(school)屬性的MTL模型性能優(yōu)于KGM模型,而KGM模型在“類型”(type)和“作者”(author)屬性方面表現(xiàn)更佳。本文方法性能保持一致并且比較穩(wěn)定,因此更適合于實(shí)際的跨模態(tài)檢索應(yīng)用。同時(shí),與目前流行的自動(dòng)確定多任務(wù)損失權(quán)重方法(Cipolla等,2018;Chen等,2018)進(jìn)行了比較,本文方法在藝術(shù)檢索任務(wù)中取得了更好的效果。

        從表1和圖5還可以看出,將輸出與指定屬性連接起來(lái)的模型(ResNet152、MTL、KGM和本文方法)較AMD模型結(jié)果有較大改善和提升,然而不同屬性之間的性能差異較大,在ResNet152、MTL、KGM和本文方法中,與“類型”(type)、“學(xué)校”(school)和“時(shí)間范圍”(TF)屬性相比,“作者”(author)屬性具有最佳性能。本文推測(cè)這種現(xiàn)象可能起源于每個(gè)屬性的類別數(shù)目有所不同。

        圖5 SemArt藝術(shù)圖像數(shù)據(jù)庫(kù)上Text2Art任務(wù)召回率結(jié)果Fig.5 Recall results on the Text2Art challenge of SemArt database

        表1 SemArt藝術(shù)圖像數(shù)據(jù)庫(kù)上Text2Art任務(wù)的中位數(shù)排名Table 1 Median rank results on the Text2Art challenge of SemArt database

        本文采用Garcia和Vogiatzis(2018)做法,將CCA(Garcia和Vogiatzis,2018)、CML(Garcia和Vogiatzis,2018)、KGM(author)、WU(author)、GradNorm(author)和本文方法(author)等模型與人類識(shí)別效果進(jìn)行比較。對(duì)于給定的藝術(shù)描述,諸如評(píng)述(comment)、標(biāo)題(title)、作者(author)、類型(type)、學(xué)校(school)和時(shí)間范圍(TF),要求人類評(píng)估者從10幅圖像中選擇最合適的圖像。此任務(wù)包含兩種不同的人為定義的難度級(jí)別:1)容易級(jí)別,即從測(cè)試集中的所有繪畫中隨機(jī)選擇圖像;2)困難級(jí)別,即挑選的數(shù)據(jù)集中10幅圖像含有相同的屬性類型(例如肖像、風(fēng)景等)。每種級(jí)別中評(píng)估人員對(duì)100幅藝術(shù)作品進(jìn)行識(shí)別,并統(tǒng)計(jì)最終的準(zhǔn)確度,結(jié)果如表2所示。從表中可以看出,本文方法較其他方法性能更優(yōu),識(shí)別效果接近于人工評(píng)估的結(jié)果。

        表2 Text2Art任務(wù)中各種模型及人類識(shí)別性能比較Table 2 Model performance and human evaluation on the Text2Art challenge

        3 討 論

        本文方法中唯一需要確定的參數(shù)是超參數(shù)γ(式(8)),表3列舉了γ不同取值對(duì)于藝術(shù)圖像分類任務(wù)最終正確率的影響。顯然,γ在不同取值下,本文方法分類精度基本保持穩(wěn)定,其中γ=1時(shí)效果略好。因此本文所有試驗(yàn)中,γ參數(shù)都取固定值。

        表3 不同γ取值對(duì)分類準(zhǔn)確率的影響Table 3 Classification accuracy of different values of γ

        為了探索不同模型如何挖掘藝術(shù)作品信息,本文通過(guò)測(cè)量各種藝術(shù)屬性的可分離性進(jìn)行更深一步研究。具體而言,本文從藝術(shù)圖像分類任務(wù)中收集測(cè)試數(shù)據(jù),并使用Davies-Bouldin(DB)指數(shù)(Garcia等,2019)計(jì)算聚類i和聚類k之間的可分離性,具體為

        (10)

        式中,N代表聚類的數(shù)量,散度(dispersion)εi和分離度(separation)εik分別定義為

        (11)

        式中,Ck代表聚類k的質(zhì)心,Ci代表聚類i的質(zhì)心。計(jì)算時(shí)從訓(xùn)練集中收集藝術(shù)繪畫樣本,同時(shí)設(shè)置P=2。本文利用“作者”(author)、“類型”(type)、“學(xué)?!?school)和“時(shí)間范圍”(TF)屬性評(píng)估不同模型的性能。顯然,DB指數(shù)的值越小,聚類分離趨勢(shì)就越好。

        圖6顯示不同模型不同屬性的DB指數(shù)結(jié)果。顯而易見(jiàn),ResNet152模型結(jié)果最差,而經(jīng)過(guò)微調(diào)的ResNet152模型性能與MTL或KGM模型的性能相當(dāng)。除了“作者”(author)屬性,對(duì)于大多數(shù)屬性例如“類型”(type)、“學(xué)?!?school)以及“時(shí)間范圍”(TF)屬性,KGM模型的性能要優(yōu)于MTL模型。相比其他模型,本文方法由于對(duì)于藝術(shù)作品具有高度的區(qū)分性和一致的表現(xiàn)能力,故而在所有屬性上都取得了最佳性能。值得注意的是,“作者”(author)屬性由于其類別眾多而具有最高的分散性,因此其對(duì)應(yīng)的DB指數(shù)最低。

        圖6 不同模型不同屬性的Davies-Bouldin指數(shù)Fig.6 Davies-Bouldin index for each different attribute of different models

        4 結(jié) 論

        自動(dòng)藝術(shù)分析作為當(dāng)前文化遺產(chǎn)保護(hù)和傳播領(lǐng)域研究熱點(diǎn)之一得到了廣泛關(guān)注。本文在貝葉斯理論框架下,針對(duì)同類型任務(wù)(例如分類任務(wù))提出一種原創(chuàng)的自適應(yīng)多任務(wù)學(xué)習(xí)方法完成自動(dòng)藝術(shù)分析任務(wù),并通過(guò)實(shí)驗(yàn)驗(yàn)證了方法的有效性和優(yōu)越性,可得到以下結(jié)論:1)本文方法可以在多任務(wù)學(xué)習(xí)框架內(nèi)自適應(yīng)地學(xué)習(xí)每個(gè)任務(wù)的權(quán)重,從而提高自動(dòng)藝術(shù)分析任務(wù)的性能。2)在公開(kāi)藝術(shù)圖像數(shù)據(jù)庫(kù)上的藝術(shù)圖像分類、跨模態(tài)藝術(shù)圖像檢索實(shí)驗(yàn)表明,由于本文方法具備較高的和穩(wěn)定的藝術(shù)信息判別能力,因此較目前流行的固定權(quán)重或者可自動(dòng)調(diào)節(jié)權(quán)重的多任務(wù)學(xué)習(xí)方法都取得了更好的識(shí)別效果。3)本文方法僅選用經(jīng)典的深度學(xué)習(xí)模型構(gòu)建多任務(wù)學(xué)習(xí)模型,下一步計(jì)劃研究如何為共享參數(shù)的多任務(wù)學(xué)習(xí)選擇合適的模型,如何將知識(shí)圖譜模型與多任務(wù)學(xué)習(xí)模型結(jié)合進(jìn)一步提高性能。

        猜你喜歡
        分類藝術(shù)方法
        分類算一算
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        紙的藝術(shù)
        教你一招:數(shù)的分類
        可能是方法不對(duì)
        因藝術(shù)而生
        Coco薇(2016年2期)2016-03-22 16:58:59
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        藝術(shù)之手
        讀者(2016年7期)2016-03-11 12:14:36
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        一个人看的在线播放视频| 中文字幕久热精品视频免费| 亚洲自拍愉拍| 久久婷婷国产综合精品| 久久婷婷夜色精品国产| 亚洲色图三级在线观看| 久久人妻精品免费二区| 亚洲精品在线免费视频| 少妇被又大又粗又爽毛片久久黑人 | 欧美日韩亚洲国产无线码| 久久精品国产亚洲av蜜桃av| 亚洲hd高清在线一区二区| 国产精品视频自拍在线| 精品偷拍被偷拍在线观看| 欧洲一卡2卡三卡4卡免费网站| 人人妻人人澡人人爽精品欧美| 被欺辱的高贵人妻被中出| 加勒比一本大道大香蕉| 激情五月天在线观看视频| 亚洲 日本 欧美 中文幕| 在线观看午夜亚洲一区| 无码熟妇人妻AV影音先锋| 午夜视频免费观看一区二区| 香蕉蜜桃av一区二区三区| 欧美群妇大交群| 国产乱码精品一区二区三区四川人 | 国产黄久色一区2区三区| 日本熟妇人妻xxxx| 999国内精品永久免费视频| 久久久亚洲欧洲日产国产成人无码 | 1区2区3区高清视频| 国产思思久99久精品| 日本熟妇裸体视频在线| av中文字幕一区不卡| 国产精品v欧美精品v日韩精品| 在线观看91精品国产免费免费| 亚洲成AV人久久| 国产精品日韩av一区二区三区| 免费av一区二区三区无码| 日韩亚洲av无码一区二区不卡| 亚洲国产精品久久久天堂不卡海量|