稅留成 劉衛(wèi)忠 馮卓明
摘 要:針對基于深度學(xué)習(xí)的圖像標(biāo)注模型輸出層神經(jīng)元數(shù)目與標(biāo)注詞匯量成正比,導(dǎo)致模型結(jié)構(gòu)因詞匯量的變化而改變的問題,提出了結(jié)合生成式對抗網(wǎng)絡(luò)(GAN)和Word2vec的新標(biāo)注模型。首先,通過Word2vec將標(biāo)注詞匯映射為固定的多維詞向量;其次,利用GAN構(gòu)建神經(jīng)網(wǎng)絡(luò)模型——GAN-W模型,使輸出層神經(jīng)元數(shù)目與多維詞向量維數(shù)相等,與詞匯量不再相關(guān);最后,通過對模型多次輸出結(jié)果的排序來確定最終標(biāo)注。GAN-W模型分別在Corel 5K和IAPRTC-12圖像標(biāo)注數(shù)據(jù)集上進(jìn)行實驗,在Corel 5K數(shù)據(jù)集上,GAN-W模型準(zhǔn)確率、召回率和F1值比卷積神經(jīng)網(wǎng)絡(luò)回歸(CNN-R)方法分別提高5%、14%和9%5、14和9個百分點;在IAPRTC-12數(shù)據(jù)集上,GAN-W模型準(zhǔn)確率、召回率和F1值比兩場K最鄰近(2PKNN)模型分別提高2%、6%和3%2、6和3個百分點。實驗結(jié)果表明,GAN-W模型可以解決輸出神經(jīng)元數(shù)目隨詞匯量改變的問題,同時每幅圖像標(biāo)注的標(biāo)簽數(shù)目自適應(yīng),使得該模型標(biāo)注結(jié)果更加符合實際標(biāo)注情形。
關(guān)鍵詞:圖像自動標(biāo)注;深度學(xué)習(xí);生成式對抗網(wǎng)絡(luò);標(biāo)注向量化;遷移學(xué)習(xí)
Abstract: In order to solve the problem that the number of output neurons in deep learning-based image annotation model is directly proportionate to the labeled vocabulary, which leads the change of model structure caused by the change of vocabulary, a new annotation model combining Generative Adversarial Network (GAN) and Word2vec was proposed. Firstly, the labeled vocabulary was mapped to the fixed multidimensional word vector through Word2vec. Secondly, a neural network model called GAN-W (GAN-Word2vec annotation) was established based on GAN, making the number of neurons in model output layer equal to the dimension of multidimensional word vector and no longer relevant to the vocabulary. Finally, the annotation result was determined by sorting the multiple outputs of model. Experiments were conducted on the image annotation datasets Corel 5K and IAPRTC-12. The experimental results show that on Corel 5K dataset, the accuracy, recall and F1 value of the proposed model are increased by 5%, 14% and 9%5,14 and 9 percentage points respectively compared with those of Convolutional Neural Network Regression (CNN-R); on IAPRTC-12 dataset, the accuracy, recall and F1 value of the proposed model are 2%, 6% and 3%2,6 and 3 percentage points higher than those of Two-Pass K-Nearest Neighbor (2PKNN). The experimental results show that GAN-W model can solve the problem of neuron number change in output layer with vocabulary. Meanwhile, the number of labels in each image is self-adaptive, making the annotation results of the proposed model more suitable for actual annotation situation.
Key words: automatic image annotation; deep learning; Generative Adversarial Network (GAN); label vectorization; transfer learning新增修改,migration修改為transfer,翻譯更準(zhǔn)確
0 引言
隨著圖像數(shù)據(jù)的快速增長,通過人工對圖像進(jìn)行標(biāo)注已經(jīng)變得不可取,迫切需要對圖像內(nèi)容進(jìn)行自動標(biāo)注,以實現(xiàn)對圖像的有效管理與檢索,更加高效利用龐大的圖像信息。目前,主要的標(biāo)注方法是通過機(jī)器學(xué)習(xí)構(gòu)建一個圖像標(biāo)注模型,通過學(xué)習(xí)圖像與其對應(yīng)標(biāo)注之間的潛在聯(lián)系,給未知圖像添加描述其內(nèi)容的關(guān)鍵詞,實現(xiàn)對未知圖像的標(biāo)注。
基于機(jī)器學(xué)習(xí)的圖像標(biāo)注模型大致分為3類:生成模型、最鄰近模型及判別模型。生成模型首先提取圖像特征,然后計算圖像特征與圖像標(biāo)簽之間的聯(lián)合概率,最后根據(jù)測試圖像的特征計算各標(biāo)簽的概率,確定圖像對應(yīng)的標(biāo)簽;代表方法有:多貝努利相關(guān)模型(Multiple Bernoulli Relevance Model, MBRM)[1]、跨媒體相關(guān)模型(Cross Media Relevance Model, CMRM)[2]及SKL-CRM(Sparse Kernel Learning Continuous Relevance Model)[3]。最鄰近模型首先根據(jù)某些基于圖像特征的距離找到多幅與預(yù)測圖像相似的圖像,然后根據(jù)這些相似圖像的標(biāo)注確定預(yù)測圖像的標(biāo)注;代表方法有:JEC(Joint Equal Contribution)模型[4]、2PKNN(Two-Pass K-Nearest Neighbor)模型[5]及TagProp_ML(Tag Propagation Metric Learning)模型[6]。
判別模型是將圖像標(biāo)簽視作圖像的一個分類,因此圖像標(biāo)注可以看成是對圖像的多分類,通過圖像的分類結(jié)果確定圖像的標(biāo)簽;代表方法有:CBSA(Content-Based Soft Annotation)模型[7]、PAMIR(Passive-Aggressive Model for Image Retrieval)[8]、ASVM-MIL(Asymmetrical Support Vector Machine-based MILMultiple Instance Learning請補(bǔ)充MIL有英文全稱 algorithm)模型[9]。近幾年,隨著深度學(xué)習(xí)在圖像分類上取得良好效果,深度學(xué)習(xí)的方法也逐漸應(yīng)用于圖像標(biāo)注任務(wù)中。例如2016年黎健成等[10]在CNN(Convolutional Neural Network)模型基礎(chǔ)上增加基于Softmax層的多標(biāo)簽排名損失函數(shù),提出Multi-label CNN標(biāo)注模型;2017年高耀東等[11]提出基于均方誤差損失的CNN-MSE(CNN-Mean Squared Error)模型;2018年汪鵬等[12]提出基于多標(biāo)簽平滑單元的CNN-MLSU(CNN-Multi-Label Smoothing Unit)模型;李志欣等[13]提出結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)和集成分類器鏈的CNN-ECC(CNN-Ensemble of Classifier Chains)模型。這些模型在圖像標(biāo)注任務(wù)上均取得了良好的效果,性能較傳統(tǒng)的標(biāo)注方法有明顯的提高。
然而,這些深度學(xué)習(xí)標(biāo)注模型有一個共同的特點,即模型輸出層神經(jīng)元(或分類器)數(shù)目與標(biāo)注詞匯量成正比。這將導(dǎo)致2個問題:1)隨著數(shù)據(jù)集標(biāo)注詞匯量的增加,輸出層神經(jīng)元數(shù)目會成比例地增加。當(dāng)數(shù)據(jù)集詞匯量較小時,對模型幾乎沒有影響,但是如果選擇較大詞匯量的數(shù)據(jù)集時,模型輸出層神經(jīng)元數(shù)目將將變得非常龐大,如選擇Open Images數(shù)據(jù)集神經(jīng)元數(shù)目將超過2萬。龐大的輸出層神經(jīng)元數(shù)目將導(dǎo)致很難設(shè)計出一個合理的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并且會導(dǎo)致模型參數(shù)量的驟增,增加模型訓(xùn)練難度的同時使得模型權(quán)重文件的大小驟增,不利于模型的實際應(yīng)用。2)當(dāng)標(biāo)注的詞匯量發(fā)生變化時,即使只是增刪某個詞匯,由于模型輸出神經(jīng)元數(shù)目與詞匯量成正比,所以也需要對模型網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行修改。在實際應(yīng)用中新增詞匯幾乎是不可避免的,這將使得模型結(jié)構(gòu)將會被頻繁修改,導(dǎo)致模型穩(wěn)定性較差。
針對此問題,本文將生成式對抗網(wǎng)絡(luò)(Generative Adversarial Net, GAN)[14]和自然語言處理中的Word2vec模型相結(jié)合,構(gòu)建一種新的圖像標(biāo)注模型——GAN-W(GAN-Word2vec annotation)模型。模型的主要步驟是:首先,利用Word2vec將標(biāo)簽轉(zhuǎn)換為一個固定維數(shù)的多維空間向量,多維空間向量的維數(shù)自由選擇,模型輸出層神經(jīng)元數(shù)目將只與多維向量的維數(shù)相關(guān),不再與標(biāo)注詞匯量相關(guān)。另外,當(dāng)詞匯量發(fā)生較小變化時,只需要修改Word2vec的詞向量轉(zhuǎn)換表即可,不再需要修改模型結(jié)構(gòu)。其次,標(biāo)注模型不再一次性輸出圖像對應(yīng)所有標(biāo)注,而是利用GAN網(wǎng)絡(luò)每次輸出一個候選標(biāo)注對應(yīng)的多維空間向量。通過GAN網(wǎng)絡(luò)中隨機(jī)噪聲的擾動,使得GAN網(wǎng)絡(luò)每次可以輸出與圖像相關(guān)并且不同的候選標(biāo)注對應(yīng)的多維空間向量。最終根據(jù)模型多次輸出結(jié)果篩選出圖像的最終標(biāo)注。
1 生成式對抗網(wǎng)絡(luò)
生成式對抗網(wǎng)絡(luò)(GAN)的核心思想源于博弈論的納什均衡[15],其模型如圖1所示,主要由一個生成器(G)和一個判別器(D)構(gòu)成,生成器通過隨機(jī)噪聲生成接近數(shù)據(jù)集分布的假數(shù)據(jù),判別器則需要辨別輸入其中的數(shù)據(jù)是來源于生成器還是數(shù)據(jù)集。
GAN的目標(biāo)函數(shù)為:
GAN網(wǎng)絡(luò)訓(xùn)練時需要交替優(yōu)化生成器與判別器,優(yōu)化生成器時,最小化目標(biāo)函數(shù)V(D,G),使生成的數(shù)據(jù)G(z)愈加接近數(shù)據(jù)集,經(jīng)過判別器后的輸出D(G(z))越來越接近于1,即判別器無法辨別生成數(shù)據(jù)G(z)和真實數(shù)據(jù)x;優(yōu)化判別器時,最大化V(D,G),使得D(G(z))接近于0,同時D(x)接近于1,即讓判別器盡可能準(zhǔn)確判斷輸入數(shù)據(jù)是來自于數(shù)據(jù)集的真實數(shù)據(jù)x還是來自于生成器生成的數(shù)據(jù)G(z)。通過多次交替優(yōu)化生成器和判別器,分別提升其性能,最終生成器與判別器性能達(dá)到納什均衡,使得生成器生成的數(shù)據(jù)分布近似于原數(shù)據(jù)集的分布。
隨機(jī)噪聲z使得生成結(jié)果具有不確定性,給GAN的生成結(jié)果帶來了多樣性,與此同時,由于缺乏約束常導(dǎo)致生成結(jié)果不可控。為解決這個問題,Mirza等[16]提出條件生成對抗網(wǎng)絡(luò)(Conditional Generative Adversarial Net, CGAN),在生成器輸入噪聲z的同時輸入一個條件c,并且將真實數(shù)據(jù)x和條件c作為判別器的輸入,利用條件c對GAN的生成結(jié)果進(jìn)行限制。CGAN的目標(biāo)函數(shù)V(D,G),如式(2)所示:
原始GAN具有訓(xùn)練不穩(wěn)定、模式崩潰等問題,對此Arjovsky等[17]提出Wasserstein-GAN(WGAN)對GAN進(jìn)行改進(jìn),去掉判別器(D)最后sigmoid層,損失函數(shù)不取log,并且對更新后的權(quán)重強(qiáng)制截取到一定范圍。WGAN減小了GAN網(wǎng)絡(luò)的訓(xùn)練難度,但是WGAN強(qiáng)制截取權(quán)重容易導(dǎo)致模型梯度消失或者梯度爆炸。對此,Gulrajani等[18]提出Improved WGAN對WGAN進(jìn)一步改進(jìn),使用梯度懲罰代替強(qiáng)制截取梯度。Improved WGAN網(wǎng)絡(luò)的目標(biāo)函數(shù)為:
2 詞向量
由于神經(jīng)網(wǎng)絡(luò)無法直接處理文本數(shù)據(jù),所以需要對文本數(shù)據(jù)進(jìn)行數(shù)值轉(zhuǎn)換。傳統(tǒng)的方法是將文本數(shù)據(jù)轉(zhuǎn)換成one-hot詞向量,即詞向量維數(shù)與詞匯量相等,所有單詞均分別與向量某一維對應(yīng),并且如果單詞存在,則對應(yīng)維度取值為1,否則只能為0,如在5維的詞向量中cat可能表示為[0 0 0 1 0 0],dog為[0 1 0 0 0 0]。one-hot表示方法是一種高維稀疏的方法,詞向量維度與詞匯量成正比,計算效率低而且每一維度互相正交,無法體現(xiàn)詞之間的語義關(guān)系。
2013年Google開源一款新詞向量生成工具Word2vec可以將詞匯映射成為多維空間向量,如cat可能表示為[0.1,0.25,0.3,0.01,0.9,0.6],目前Word2vec被大量應(yīng)用于自然語言處理(Natural Language Processing, NLP)任務(wù)當(dāng)中。Word2vec的主要思想是具有相同或相似上下文的詞匯,可能具有相似的語義,通過學(xué)習(xí)文本語料,根據(jù)詞匯上下文,將文本中的每個詞匯映射到一個統(tǒng)一N維詞匯空間,并使語義上相近的詞匯在該空間中的位置相近,如cat和kitten對應(yīng)詞向量之間的空間距離小于cat和iPhone之間的距離,從而體現(xiàn)詞匯之間的關(guān)系,從而避免one-hot詞向量的缺點。
3 模型網(wǎng)絡(luò)結(jié)構(gòu)
3.1 模型結(jié)構(gòu)
本文采用的模型結(jié)構(gòu)如圖2所示。模型整體框架采用CGAN網(wǎng)絡(luò)架構(gòu),輸入圖像大小統(tǒng)一為(299,299,3),圖像對應(yīng)的N維特征向量作為條件,真實標(biāo)注對應(yīng)的M維詞向量作為真實數(shù)據(jù),根據(jù)條件和100維隨機(jī)噪聲,生成器輸出M維向量作為生成數(shù)據(jù)。其中CNN特征提取模型選擇Inception-ResNetV2[19]模型,并在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,去除最后分類器層后采用遷移學(xué)習(xí)的方法應(yīng)用到模型中;Word2vec功能采用genism庫的Word2vec模塊實現(xiàn),生成的詞向量維數(shù)統(tǒng)一為500維,生成器和判別器均采用全連接層,將特征向量和隨機(jī)噪聲/詞向量分別全連接映射到不同維數(shù)后拼接,重復(fù)操作2次后映射到輸出全連接層,輸出全連接層神經(jīng)元數(shù)目與詞向量維數(shù)相等。本文訓(xùn)練GAN采用Improved WGAN模型,所以判別器輸出層去除sigmoid激活層。
3.2 損失計算
在圖像標(biāo)注領(lǐng)域,標(biāo)注詞匯的分布不均勻是一個常見的問題,有些標(biāo)注如cafe、butterfly在Corel 5K數(shù)據(jù)集中只出現(xiàn)過2次,而water、sky、tree等標(biāo)注出現(xiàn)次數(shù)多于800次。由于標(biāo)注中不同詞匯的詞頻差異巨大,如果不進(jìn)行處理,模型容易忽略低頻標(biāo)簽的影響,導(dǎo)致對低頻詞匯標(biāo)注的準(zhǔn)確率下降,影響模型性能。針對標(biāo)注分布不均衡問題,本模型對損失函數(shù)進(jìn)行優(yōu)化,對不同標(biāo)注的損失乘以一個平衡系數(shù),使得詞頻低的標(biāo)注具有更大權(quán)重的損失,另外使用L2正則化減小模型過擬合。修改后的損失為:
3.3 標(biāo)注排序
由于本文模型每次輸出一個圖像對應(yīng)的候選標(biāo)注詞向量,所以本文的標(biāo)注排序方法采用出現(xiàn)次數(shù)排序,具體過程為:1)通過已訓(xùn)練模型對圖像進(jìn)行N次預(yù)測,獲得N個詞向量;2)對于每個詞向量,通過Word2vec模型獲取與其對應(yīng)最接近的M個候選標(biāo)注詞及每個標(biāo)注詞對應(yīng)的概率;3)以標(biāo)注詞對應(yīng)的概率作為標(biāo)注詞對應(yīng)的出現(xiàn)次數(shù),統(tǒng)計所有候選標(biāo)注詞出現(xiàn)次數(shù),通過閾值篩選出現(xiàn)次數(shù)大于閾值的候選標(biāo)注作為該圖像最終標(biāo)注。
4 實驗
4.1 數(shù)據(jù)集
本文實驗的數(shù)據(jù)集為圖像標(biāo)注領(lǐng)域常用數(shù)據(jù)集:Corel 5K和IAPRTC-12數(shù)據(jù)集。Corel 5K數(shù)據(jù)集是由科雷爾(Corel)公司收集整理的5000張圖片,該數(shù)據(jù)集常用于圖像分類、檢索等科學(xué)圖像實驗,是圖像實驗的標(biāo)準(zhǔn)數(shù)據(jù)集。IAPRTC-12數(shù)據(jù)集最初用于跨語言檢索任務(wù),每張圖像有英語、德語及西班牙語三種語言的圖像描述,在研究人員用自然語言處理技術(shù)提取圖形描述中的常用名詞作為圖像標(biāo)簽后,也被作為圖像標(biāo)注任務(wù)的常用數(shù)據(jù)集。Corel 5K和IAPRTC-12數(shù)據(jù)集的詳細(xì)信息統(tǒng)計如表1。
4.2 評估方法
實驗采用的評價方法是計算數(shù)據(jù)集中每個標(biāo)簽的準(zhǔn)確率(Precision, P)和召回率(Recall, R)及F1值。假設(shè)一個標(biāo)簽在測試集中相關(guān)圖像為N,測試時模型預(yù)測出的相關(guān)圖像為N1,其中預(yù)測正確的相關(guān)圖像數(shù)量為N2,那么,準(zhǔn)確率P=N2/N1,召回率R=N2/N及F1=2*P*R/(P+R)。
4.3 標(biāo)注結(jié)果
4.3.1 不同閾值對圖像標(biāo)注的影響
不同標(biāo)注閾值對本文模型的最終標(biāo)注性能有巨大影響,為了進(jìn)一步探究不同閾值與標(biāo)注性能的關(guān)系,本文對不同閾值下的模型的標(biāo)注性能進(jìn)行測試。圖3及圖4為模型標(biāo)注的準(zhǔn)確率、召回率、F1值與閾值的關(guān)系。測試時,模型預(yù)測次數(shù)為128,每次選出最接近輸出向量的5個候選標(biāo)注,統(tǒng)計所有候選標(biāo)注,選出出現(xiàn)次數(shù)大于閾值的標(biāo)注作為圖像最終標(biāo)注。
另外,在檢查論文圖時,發(fā)現(xiàn)圖3的b圖(IAPRTC-12數(shù)據(jù)集)中閾值為52的點繪圖時的數(shù)據(jù)有問題,在附件中已上傳修改后的正確圖像,此處修改不影響圖像及論文其它部分。
從圖3和圖4可以看出:標(biāo)注的準(zhǔn)確率P隨閾值先上升后下降,召回率R隨閾值上升而下降,F(xiàn)1值基本上隨閾值略微上漲后下降。出現(xiàn)這種現(xiàn)象的原因為:模型可以學(xué)到圖像特征與標(biāo)簽向量之間的映射關(guān)系,通過對模型的訓(xùn)練,模型有了一定的標(biāo)注能力,對于大多數(shù)標(biāo)簽的預(yù)測結(jié)果中,正確的預(yù)測對應(yīng)的出現(xiàn)次數(shù)一般較高。當(dāng)閾值特別小時,標(biāo)簽對應(yīng)的出現(xiàn)一般次數(shù)大于閾值,標(biāo)簽的預(yù)測結(jié)果基本沒有被閾值過濾,標(biāo)注準(zhǔn)確率P和召回率R都不變;閾值增加到一定值時,部分錯誤的預(yù)測被逐漸過濾,正確的預(yù)測因為出現(xiàn)次數(shù)較大,基本不受影響,準(zhǔn)確率P上升,召回率R基本不變。閾值繼續(xù)增加,正確的預(yù)測也開始被過濾,但是由于正確的預(yù)測情形多集中于出現(xiàn)次數(shù)較高的情形,因此閾值的增加對正確的預(yù)測影響更大,正確預(yù)測的部分被過濾的速度大于錯誤預(yù)測的部分,最終使得標(biāo)注準(zhǔn)確率P和召回率R都減小,直到正確的預(yù)測被閾值完全過濾掉,標(biāo)注準(zhǔn)確率P和召回率R都為0。F1值的變化由準(zhǔn)確率P和召回率R的變化共同確定。模型性能隨閾值變化,為了和其他模型標(biāo)注性能進(jìn)行對比及模型實際標(biāo)注效果展示,需要確定模型的最佳閾值。由于F1值能兼顧準(zhǔn)確率P和召回率R,所以F1值作為模型最佳閾值選取的參考,選取F1值最大時的閾值作為模型最佳閾值。由于不同數(shù)據(jù)集之間存在差異導(dǎo)致對于不同數(shù)據(jù)集模型的最佳閾值也不相同,所以對于Corel 5K和IAPRTC-12數(shù)據(jù)集,在模型預(yù)測次數(shù)為128的情況下,模型分別選擇75和50作為模型的最佳閾值。
4.3.2 不同模型標(biāo)注性能對比
本文將GAN-W模型與其他經(jīng)典的標(biāo)注方進(jìn)行對比,來驗證本文所提出模型的有效性。這里涉及的方法包括:傳統(tǒng)模型方法RF-opt(Random Forest-optimize)[20]、2PKNN[5]、2PKNN-ML(2PKNN-Metric Learning)[5]、SKL-CRM[3]、KSVM-VT[21]和使用深度卷積神經(jīng)網(wǎng)絡(luò)的方法NN-CNN(Nearest Neighbor-CNN)[22]、CNN-R(CNN-Regression)[23]、ADA(Attribute Discrimination Annotation)[24]、SNDF(automatic image annotation combining Semantic Neighbors and Deep Features)[25]、CNN-MSE[11]、CNN-MLSU[12]。表2顯示本文GAN-W模型與其他模型在Corel 5K和IAPRTC-12數(shù)據(jù)集上標(biāo)注性能的對比。
通過表2可以看出,本文提出的GAN-W模型在Corel 5K數(shù)據(jù)集上,性能較傳統(tǒng)方法有了較大提高,召回率取得并列第一二,高于RF-opt方法4%6個百分點本文方法召回率為46%,CNN-MLSU為49%,所應(yīng)該是并列第二吧?另外,RF-opt召回率為40%,準(zhǔn)確率和F1值均為第一,比RF-opt方法分別提高17%和12%17和12個百分點這個應(yīng)該是百分點吧,46-29=17,即17個百分點?請明確。要注意百分號和百分比的區(qū)別。,在使用卷積模型的方法中,召回率比CNN-MSE方法提高了11個百分點,取得第二高的召回率,準(zhǔn)確率和F1值均為第一。在IAPRTC-12數(shù)據(jù)集上,模型也有良好表現(xiàn),準(zhǔn)確率和F1值均為第一,召回率也取得不錯效果。綜合GAN-W模型在Corel 5K和IAPRTC-12數(shù)據(jù)集上的性能指標(biāo)數(shù)據(jù)可以得出,GAN-W模型與其他的方法相比,雖然召回率低于CNN-MLSU方法未取得最高值,但是效果依然良好,同時模型準(zhǔn)確率和F1值均取得較大提升,取得最佳效果,模型的綜合性能與其他模型相比具有明顯的提高。
4.3.3 模型實際標(biāo)注效果
圖54中給出模型自動標(biāo)注的實際結(jié)果,模型統(tǒng)一預(yù)測次數(shù)為一個batch_size,128次,測試Corel 5K數(shù)據(jù)集時選擇的閾值為75,每幅圖像選取出現(xiàn)次數(shù)大于閾值的標(biāo)注作為該圖形最終標(biāo)注。
從圖4中可以看出:
1)與大部分標(biāo)注模型固定每幅圖像的標(biāo)注數(shù)目不同,本文模型對每幅圖像的標(biāo)注數(shù)目不是定值,不同圖像可能有不同的標(biāo)注數(shù)目,更符合實際標(biāo)注情況。通過對GAN-W模型的訓(xùn)練,模型可以學(xué)到圖像特征與標(biāo)簽向量之間的映射關(guān)系,在每次預(yù)測新圖像時,模型就會根據(jù)被預(yù)測圖像的視覺特征中的某種特征輸出一個與之對應(yīng)的標(biāo)簽向量。對于語義簡單的圖像,其圖像視覺特征只包含某個的標(biāo)簽對應(yīng)的特征,所以模型每次輸出的向量基本上都接近該標(biāo)簽,使得該標(biāo)簽對應(yīng)的出現(xiàn)次數(shù)較高,而其他標(biāo)簽出現(xiàn)次數(shù)小于閾值被過濾掉,模型最終標(biāo)注數(shù)目較少;對于復(fù)雜的圖像,其圖像視覺特征可能包含多個標(biāo)簽對應(yīng)的特征,經(jīng)過隨機(jī)噪聲的擾動,使得多個標(biāo)簽中每個標(biāo)簽都有較大概率成為模型輸出標(biāo)簽,所以通過多次測試之后,多個標(biāo)簽中的每個標(biāo)簽出現(xiàn)次數(shù)都不會太小,模型最終的標(biāo)注數(shù)目較多。
2)某些標(biāo)注雖然與原標(biāo)注不符合,但是可能與測試圖像的語義相符或者相關(guān),這是因為某些標(biāo)注之間(如tundra與bear、snow、polar)在數(shù)據(jù)集中共現(xiàn)頻率較高,使得這些標(biāo)注在使用Word2vec進(jìn)行向量化時,它們對應(yīng)的多維向量之間的距離很近,所以在獲取輸出向量對應(yīng)最接近的標(biāo)注詞時常一起出現(xiàn),并且標(biāo)注詞之間對應(yīng)的概率相差很小,導(dǎo)致某些標(biāo)注雖然不是原始標(biāo)注,但是最終統(tǒng)計次數(shù)時出現(xiàn)次數(shù)依然很大,被確定為圖像標(biāo)注之一。同時,由于在數(shù)據(jù)集中這些標(biāo)注經(jīng)常一起出現(xiàn),證明在現(xiàn)實中它們之間的聯(lián)系較深,所以在新的測試圖像中,這些常與原始標(biāo)注一起出現(xiàn)的標(biāo)簽依然有較大概率與測試圖像相關(guān)。例如上表圖4指代哪個表格,請明確中的tundra不在原始標(biāo)注中,但是tundra在數(shù)據(jù)集中多與bear、snow、polar一起出現(xiàn),所以tundra被作為最終輸出之一,依然與圖像內(nèi)容有聯(lián)系。
5 結(jié)語
針對基于深度學(xué)習(xí)的圖像自動標(biāo)注模型其結(jié)構(gòu)受標(biāo)注詞匯量影響的問題,本文基于生成式對抗網(wǎng)絡(luò)和詞向量模型提出一種新標(biāo)注模型——GAN-W,通過在Corel 5K和IAPRTC-12數(shù)據(jù)集上的實驗結(jié)果表明GAN-W模型的準(zhǔn)確率P、召回率R及F1值較其他模型有明顯的提高,證明本文模型能夠較好地應(yīng)用于圖像標(biāo)注任務(wù),標(biāo)注結(jié)果更加符合實際標(biāo)注情況。然而,模型存在一些值得改進(jìn)和研究的方面:1)詞向量的訓(xùn)練結(jié)果缺乏一個較好的評判標(biāo)準(zhǔn);2)生成器和判別器的網(wǎng)絡(luò)模型需要進(jìn)行進(jìn)一步優(yōu)化;3)選擇更優(yōu)的特征提取模型和標(biāo)簽平衡系數(shù)。
參考文獻(xiàn) (References)
[1] FENG S L, MANMATHA R, LAVRENKO V. Multiple Bernoulli relevance models for image and video annotation[C]// Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004: 1002-1009.
[2] JEON J, LAVRENKO V, MANMATHA R. Automatic image annotation and retrieval using cross-media relevance models[C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2003: 119-126.
[3] MORAN S, LAVRENKO V. A sparse kernel relevance model for automatic image annotation[J]. Journal of Multimedia Information Retrieval, 2014, 3(4): 209-229.
[4] MAKADIA A, PAVLOVIC V, KUMAR S. Baselines for image annotation[J]. International Journal of Computer Vision, 2010, 90(1): 88-105.
[5] VERMA Y, JAWAHAR C V. Image annotation using metric learning in semantic neighborhoods[C]// Proceedings of the 12th European Conference on Computer Vision. Berlin: Springer, 2012: 836-849.
[6] GUILLAUMIN M, MENSINK T, VERBEEK J, et al. TagProp: discriminative metric learning in nearest neighbor models for image auto-annotation[C]// Proceedings of the 12th IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 309-316.
[7] CHANG E, GOH K, SYCHAY G, et al. CBSA: content-based soft annotation for multimodal image retrieval using Bayes point machines [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2003, 13(1): 26-38.
[8] GRANGIER D, BENGIO S. A discriminative kernel-based approach to rank images from text queries[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(8): 1371-1384.
[9] YANG C, DONG M, HUA J. Region-based image annotation using asymmetrical support vector machine-based multiple-instance learning[C]// Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2006: 2057-2063.
[10] 黎健成,袁春,宋友.基于卷積神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽圖像自動標(biāo)注[J].計算機(jī)科學(xué),2016,43(7):41-45.(LI J C, YUAN C, SONG Y. Multi-label image annotation based on convolutional neural network[J]. Computer Science, 2016, 43(7): 41-45.)
[11] 高耀東,侯凌燕,楊大利.基于多標(biāo)簽學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注方法[J].計算機(jī)應(yīng)用,2017,37(1):228-232.(GAO Y D, HOU L Y, YANG D L. Automatic image annotation method using multi-label learning convolutional neural network[J]. Journal of Computer Applications, 2017, 37(1): 228-232.)
[12] 汪鵬,張奧帆,王利琴,等.基于遷移學(xué)習(xí)與多標(biāo)簽平滑策略的圖像自動標(biāo)注[J].計算機(jī)應(yīng)用,2018,38(11):3199-3203.(WANG P, ZHANG A F, WANG L Q, et al. Image automatic annotation based on transfer learning and multi-label smoothing strategy[J]. Journal of Computer Applications, 2018, 38(11): 3199-3203.)
[13] 李志欣,鄭永哲,張燦龍,等.結(jié)合深度特征與多標(biāo)記分類的圖像語義標(biāo)注[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2018,30(2):318-326.(LI Z X, ZHENG Y Z, ZHANG C L, et al. Combining deep feature and multi-label classification for semantic image annotation[J]. Journal of Computer-Aided Design and Computer Graphics, 2018, 30(2): 318-326.)
[14] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]// Proceedings of the 2014 Conference on Advances in Neural Information Processing Systems 27. Montreal: Curran Associates, 2014: 2672-2680.
[15] 王坤峰,茍超,段艷杰,等.生成式對抗網(wǎng)絡(luò)GAN的研究進(jìn)展與展望[J].自動化學(xué)報,2017,43(3):321-332.(WANG K F, GOU C, DUAN Y J, et al. Generative adversarial networks: the state of the art and beyond[J]. Acta Automatica Sinica, 2017, 43(3): 321-332.)
[16] MIRZA M, OSINDERO S. Conditional generative adversarial nets[J]. ArXiv Preprint,? 2014, 2014: 1411.1784.
[17] ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein GAN[J]. ArXiv Preprint,? 2017, 2017: 1701.07875.
[18] GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of Wasserstein GANs[C]// Proceedings of the 30th Advances in Neural Information Processing Systems. Long Beach, CA: NIPS, 2017: 5769-5779.
[19] SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-ResNet and the impact of residual connections on learning[C]// Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2017: 4278-4284.
[20] FU H, ZHANG Q, QIU G. Random forest for image annotation[C]// Proceedings of the 12th European Conference on Computer Vision. Berlin: Springer, 2012:86-99.
[21] VERMA Y, JAWAHAR C. Exploring SVM for image annotation in presence of confusing labels[C]// Proceedings of the 24th British Machine Vision Conference. Durham: BMVA Press, 2013: 1-11.
[22] KASHANI M M, AMIRI S H. Leveraging deep learning representation for search-based image annotation[C]// Proceedings of 2017 Artificial Intelligence and Signal Processing Conference. Piscataway, NJ: IEEE, 2017: 156-161.
[23] MURTHY V N, MAJI S, MANMATHA R. Automatic image annotation using deep learning representations[C]// Proceedings of the 5th ACM on International Conference on Multimedia Retrieval. New York: ACM, 2015: 603-606.
[24] 周銘柯,柯逍,杜明智.基于數(shù)據(jù)均衡的增進(jìn)式深度自動圖像標(biāo)注[J].軟件學(xué)報,2017,28(7):1862-1880.(ZHOU M K, KE X, DU M Z. Enhanced deep automatic image annotation based on data equalization[J]. Journal of Software, 2017, 28(7): 1862-1880.)
[25] 柯逍,周銘柯,牛玉貞.融合深度特征和語義鄰域的自動圖像標(biāo)注[J].模式識別與人工智能,2017,30(3):193-203.(KE X, ZHOU M K, NIU Y Z. Automatic image annotation combining semantic neighbors and deep features[J]. Pattern Recognition and Artificial Intelligence, 2017, 30(3): 193-203.)