亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于視覺注意機制和條件隨機場的圖像標注

2016-09-27 06:33:58孫慶美金聰

智能系統(tǒng)學報 2016年4期

關(guān)鍵詞：標簽機場向量

孫慶美，金聰

(華中師范大學計算機學院，湖北武漢 430079)

基于視覺注意機制和條件隨機場的圖像標注

孫慶美，金聰

(華中師范大學計算機學院，湖北武漢 430079)

傳統(tǒng)的圖像標注方法對圖像各個區(qū)域同等標注，忽視了人們對圖像的理解方式。為此提出了基于視覺注意機制和條件隨機場的圖像標注方法。首先，由于人們在對圖像認識的過程中，對顯著區(qū)域會有較多的關(guān)注，因此通過視覺注意機制來取得圖像的顯著區(qū)域，用支持向量機對顯著區(qū)域賦予語義標簽；再利用k-NN聚類算法對非顯著區(qū)域進行標注；最后，又由于顯著區(qū)域的標注詞與非顯著區(qū)域的標注詞在邏輯上存在一定的關(guān)聯(lián)性，因此條件隨機場模型可以根據(jù)標注詞的關(guān)聯(lián)性校正并確定圖像的最終標注向量。在Corel5k、IAPR TC-12和ESP Game圖像庫上進行實驗并且和其他方法進行比較，從平均查準率、平均查全率和F1的實驗結(jié)果驗證了本文方法的有效性。

自動圖像標注；視覺注意；詞相關(guān)性；條件隨機場

中文引用格式：孫慶美，金聰. 基于視覺注意機制和條件隨機場的圖像標注[J]. 智能系統(tǒng)學報， 2016, 11(4): 442-448.

英文引用格式：SUN Qingmei, JIN Cong. Image annotation method based on visual attention mechanism and conditional random field[J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 442-448.

隨著互聯(lián)網(wǎng)的不斷發(fā)展以及移動終端的迅速發(fā)展，圖像數(shù)據(jù)不斷擴大。圖像數(shù)據(jù)大規(guī)模的增長對圖像理解技術(shù)提出了更高的要求。如何從巨大的圖像庫中快速有效地找到想要的圖像，已經(jīng)成為了一個亟待解決且具有很大挑戰(zhàn)性的任務(wù)。而圖像標注技術(shù)是數(shù)字圖像語義文本信息的關(guān)鍵技術(shù)，在數(shù)字圖像處理的各個方面有著廣泛的應(yīng)用[1]。

圖像標注技術(shù)就是為給定的圖像分配相對應(yīng)的語義關(guān)鍵詞以反映其內(nèi)容[2]。早些年的圖像標注技術(shù)需要專業(yè)人員根據(jù)每幅圖像的語義給出關(guān)鍵詞，但那樣的方法會消耗大量時間并且?guī)в幸欢ǖ闹饔^性。因此近幾年來，有不少的研究者將注意力轉(zhuǎn)移到圖像的自動標注技術(shù)上來。就當下的自動標注方法而言大致可以分為兩類：1)基于生成式的圖像自動標注方法[3-4]；2)基于判別式的圖像自動標注方法[5-6]。前者主要是先對后驗概率建模，然后依據(jù)統(tǒng)計的角度表示數(shù)據(jù)的分布情況，以此來反映同類數(shù)據(jù)本身的相似度。文獻[3]就屬于該模型，它將標注問題轉(zhuǎn)化成一個將視覺語言翻譯為文本的過程，再收集圖像與概念之間的關(guān)系以此來計算圖像各個區(qū)域的翻譯概率。文獻[4]提出的跨媒體相關(guān)模型，將分割得到的團塊進行聚類，得到可視化詞匯，然后建立圖像和語義關(guān)鍵詞之間的概率相關(guān)模型，估計圖像區(qū)域集合與關(guān)鍵詞集合總體的聯(lián)合分布。與此類似的方法還包括基于連續(xù)圖像特征的相關(guān)模型，該類方法也存在一定的問題，如當遇到圖像過分割和欠分割的時候標注性能大大降低，雖然可以通過改進算法來提高標注結(jié)果，但這樣增加了計算的復(fù)雜性，不具備在真實環(huán)境應(yīng)用的條件。另外，可以構(gòu)建圖像特征與標注詞之間的關(guān)系模型，然而該模型一般情況下復(fù)雜度較高，而且無法確定主題的個數(shù)。而后者則是通過尋找不同類別之間的最優(yōu)分類超平面，從而反映異構(gòu)數(shù)據(jù)之間的不同。也就是說，該模型為每個類訓(xùn)練一個分類器，以此來判斷測試圖像是否屬于這個類。文獻[2]提出了MRESVM算法，即一個基于映射化簡的可擴展的分布式集成支持向量機算法的圖像標注。為了克服單一支持向量機的局限性，利用重采樣對訓(xùn)練集進行訓(xùn)練，建立了一種支持向量機集成方法。在文獻[5-6]中提到的方法也屬于判別模型。這兩者既有優(yōu)點又有缺點。相比之下，判別式模型可以實現(xiàn)更好的性能。已有的圖像標注方法沒有得到較好的標注準確率，主要是由于它們使用的圖像內(nèi)容描述方法和人們對圖像的理解方式相距甚遠。實際上，當人們看一幅圖像的時候，不會把注意力平均分配到圖像的各個區(qū)域，而是會有選擇地把注意力集中到顯著區(qū)域。由此本文提出了一種基于視覺注意機制和條件隨機場的圖像自動標注方法。

1　顯著區(qū)域的標注過程

本文使用的圖像標注算法，主要是將傳統(tǒng)依據(jù)底層特征的標注方法和人們認識圖像的方式結(jié)合在一起，然后又利用標簽之間的共生關(guān)系對標注詞進行校正，得到最終標注詞。

在使用本文所提算法之前要先對圖像進行預(yù)處理，然后使用基于視覺注意機制和條件隨機場算法對圖像進行標注。算法主要流程如下：

輸入訓(xùn)練圖像和測試圖像的混合圖像集；

輸出所有圖像對應(yīng)的標簽集。

1)使用支持向量機對顯著區(qū)域進行識別并標注；

2)對于非顯著區(qū)域，結(jié)合訓(xùn)練圖像庫的圖像與標簽關(guān)系進行標注；

3)使用條件隨機場模型對每幅圖像的標簽進行優(yōu)化。

1.1顯著區(qū)域的提取

當人們看一幅圖像時，注意力更多地放在顯著區(qū)域而不是非顯著區(qū)域。圖像的顯著區(qū)域指的是在一幅圖像中最能引起人們視覺興趣的部分，圖像的顯著區(qū)域和圖像要表達的含義往往一致。充分利用這一點能提高圖像標注的準確率?；诖?，本文選擇先對顯著區(qū)域進行標注，然后標注非顯著區(qū)域。這種方法可以消除非顯著區(qū)域?qū)︼@著區(qū)域的影響，由此獲得更好的標注效果。

在圖像處理方面，很多獲取圖像顯著區(qū)域的模型已被提出。例如，文獻[7]提出了一種顯著區(qū)域的獲取方法，它主要結(jié)合像素特征和貝葉斯算法。文獻[8]提出了一種視覺顯著性檢測算法，它將生成性和區(qū)分性兩種模型結(jié)合在一個統(tǒng)一的框架中。這些區(qū)域通常具有較大的共同特征，面積相對較大且亮度更高。因此本文提出一個新的方法來提取顯著區(qū)域，也就是視覺注意機制。定義如下：

在利用N-cut算法對圖像分割后，根據(jù)視覺注意機制求得圖像的每個區(qū)域的權(quán)重。視覺注意機制模型為

W=ω·Area+(1-ω)·Brightness

(1)

式中：W表示圖像中每個區(qū)域的顯著度；ω表示權(quán)重。為獲得圖像的顯著區(qū)域，本文通過大量實驗來得到ω。計算并比較各個區(qū)域的顯著度W的大小，W值最大的區(qū)域就是該圖像的顯著區(qū)域。模型(1)中各參數(shù)的意義如下：

a)面積參數(shù)Area。在該模型中，Area是參數(shù)之一，一般情況下，面積越大的區(qū)域越能引起人們的注意，但是不能過大，過大面積的區(qū)域會使得顯著度降低。具體計算式為

Area=Si/S

(2)

式中：Si表示每幅圖像中第i個區(qū)域的像素個數(shù)；S表示整幅圖像的像素個數(shù)。

b)亮度參數(shù)Brightness。亮度參數(shù)是獲得顯著區(qū)域最重要的參數(shù)。HSV顏色模型比較直觀，在圖像處理方面是一種比較常見的模型。定義一個區(qū)域的亮度為該區(qū)域和圖像其他區(qū)域HSV值的方差，用式(3)計算。也就是說，先計算圖像中所有區(qū)域HSV的平均值，然后計算每個區(qū)域HSV的值，最后取得各個區(qū)域的亮度值。具體公式為

(3)

1.2顯著區(qū)域的標注

每一幅圖像中都包含不等個數(shù)的區(qū)域，這些區(qū)域或簡單或復(fù)雜、或大或小，而它們都有不一樣的語義。傳統(tǒng)的標注方法中，對圖像的各個區(qū)域同等對待，而事實上人們往往把更多的注意力集中在顯著區(qū)域。所以可以利用式(1)求出每幅圖像的顯著區(qū)域進行單獨標注，對非顯著區(qū)域的區(qū)域在后續(xù)的步驟中進行標注。

在對顯著區(qū)域進行標注時，用一組訓(xùn)練圖像訓(xùn)練N個支持向量機分類器C= {c1,c2, …,cn}。具體來說，對一組訓(xùn)練圖像利用視覺注意機制提取顯著區(qū)域，再對每個顯著區(qū)域提取它們的底層特征構(gòu)成特征向量，并作為輸入訓(xùn)練支持向量機。

近年來支持向量機已經(jīng)被廣泛地應(yīng)用于圖像標注中，像文獻[2]和[9]。在最簡單的情況下，支持向量機是線性可分的支持向量機，這時必須滿足數(shù)據(jù)是線性可分的。但是在實際應(yīng)用中，線性可分的情況很少，絕大多數(shù)問題都是線性不可分的。在遇到線性不可分的問題時，可以通過非線性變換將它映射到高維空間中，從而轉(zhuǎn)化為線性可分問題。SVM的學習策略就是最大間隔法，可以表示為一個求解凸二次規(guī)劃的問題。設(shè)線性可分樣本集為(xi,yi)，i=1,2，…,n,，i= 1,2，…,n，xi∈Rn,yi∈{+1, -1}是類別標號。通過間隔最大化或等價地求解相應(yīng)的凸二次規(guī)劃問題學習得到的分離超平面為wT·x+b=0，線性判別函數(shù)為g(x)=wT·x+b。然后將判別函數(shù)進行歸一化，使兩類中的所有樣本都必須滿足條件|g(x)|≥1，即讓距離分類面最近的樣本的|g(x)|值等于1，這樣分類間隔就等于 2/‖wT‖，因此使間隔最大等價于使‖wT‖最??；分類線若要對所有樣本都能正確分類，那么它必須滿足以下條件：

(4)

(5)

通過對w和b求解，計算出拉格朗日函數(shù)的極小值。再利用KKT條件對分類決策函數(shù)求出最優(yōu)解，最終結(jié)果為

(6)

式中：α*為最優(yōu)解，b*為分類的閾值。

分類時先提取測試圖像的顯著區(qū)域，然后提取圖像顯著區(qū)域的特征值，構(gòu)成特征向量輸入到訓(xùn)練好的支持向量機分類器中，得到每個顯著區(qū)域的標注詞。

2　非顯著區(qū)域的標注過程

對圖像的非顯著區(qū)域進行標注時，本文將帶有標簽的圖像區(qū)域引入對其進行標注。本文將未被標注的非顯著區(qū)域和帶有標注詞的圖像區(qū)域混合在一起，使用k近鄰法(k-nearestneighbor, k-NN)聚類算法進行聚類，最終求得非顯著區(qū)域的標注詞。k-NN算法的思路：假設(shè)給定一個訓(xùn)練數(shù)據(jù)集，里面的實例都有確定的類別，對測試實例，根據(jù)其k個最近鄰的訓(xùn)練實例的類別，通過多數(shù)表決方式進行預(yù)測。具體的流程如下:

輸入待標注的非顯著區(qū)域和帶標簽的圖像區(qū)域;

輸出非顯著區(qū)域的標注詞。

1)在帶有標簽的圖像區(qū)域中找出與每個待標注的非顯著區(qū)域相似的K個樣本，計算公式為

(7)

2)在每個非顯著區(qū)域的k個近鄰中，分別計算出每個類的權(quán)重，計算公式為

(8)

式中：x為待標注區(qū)域的特征向量，Sim(x,di)為相似性度量計算公式，與上一步驟的計算公式相同，而y(di,Cj)為類別屬性函數(shù)，即如果di屬于類Cj，那么函數(shù)值為 1，否則為0。

3)比較類的權(quán)重，將待標注區(qū)域劃分到權(quán)重最大的那個類別中。這樣非顯著區(qū)域就得到了相應(yīng)的標注詞，同時也得到了獲得該標注詞的概率。

3　標注詞校正

設(shè)每一幅待標注圖像分割為n個子區(qū)域Di(i = 1, 2，…, n)。在得到一幅圖像的顯著區(qū)域標簽和非顯著區(qū)域標簽集合后，將這些標簽整合成圖像的標簽向量：

式中：p(an)表示該圖像的第n個區(qū)域獲得標注詞an的概率。本文使用條件隨機場對圖像已獲取的標注向量進行校正，最終獲得圖像的標注詞。自從條件隨機場被提出以來，已有很多研究者把它引入圖像標注問題的研究中[10]，為了提高圖像標注性能，本文根據(jù)標注詞之間的關(guān)系構(gòu)建合適的條件隨機場模型。條件隨機場可以用在很多不同的預(yù)測問題上。圖像標注問題屬于線性鏈條件隨機場。本文條件隨機場模型是一個無向圖模型，圖中的每一個點代表一個標注詞，而兩個點之間的邊則代表兩個標注詞之間的關(guān)系。

條件隨機場算法對標注詞的校正除了涉及到標注詞之間的共生關(guān)系之外，還將標注詞的概率向量作為標注詞的先驗知識，然后建立標注詞關(guān)系圖并重新計算圖像的標注詞概率向量。該算法構(gòu)建所有標注詞的關(guān)系無向圖，在該無向圖中除了包含有邊勢函數(shù)(即式(9))之外還包含有點勢函數(shù)(即式(10))，其中標注詞概率向量確定圖中點的勢函數(shù)，而邊的勢函數(shù)則由學習訓(xùn)練集中標注詞的關(guān)系所得到。例如標注詞“馬”出現(xiàn)了k1次，標注詞“草地”出現(xiàn)了k2次，兩者同時出現(xiàn)在同一幅圖像的次數(shù)為k3次。那么兩個標注詞的聯(lián)合概率為式(11)。

(9)

(10)

(11)

式中p(ai)是前面得到的圖像被標注為ai的概率。

獲得無向圖中所有點勢和邊勢之后，求取最優(yōu)的圖結(jié)構(gòu)就能得到最終的圖像標注集{afocus,a1,…,an-1}。當圖勢函數(shù)值達到最小時，就得到了最優(yōu)圖結(jié)構(gòu)，即式(12)中M的值最小的圖結(jié)構(gòu)：

(12)

式中：λ表示點勢函數(shù)和邊勢函數(shù)的權(quán)重關(guān)系，本文通過交叉驗證的方法確定λ=0.3。

4 　實驗結(jié)果

4.1圖像庫

為了驗證本文算法的圖像標注性能，使用3個圖像庫。第1個圖像庫是Corel5K，該庫被許多圖像處理研究人員使用。它在許多文獻中都有提及。Corel5k數(shù)據(jù)集有5 000幅圖像，其中包括4 500個訓(xùn)練樣本和500測試樣本。每一幅圖像平均有3.5個關(guān)鍵詞。在訓(xùn)練數(shù)據(jù)集中有371個標簽，在測試數(shù)據(jù)集中有263個標簽。另一個數(shù)據(jù)集是IAPRTC-12。刪除一部分圖像后，留有100類的10 000幅圖像。在實驗過程中，使用80%幅圖像用于訓(xùn)練，20%幅圖像用于測試。所使用的第3個數(shù)據(jù)集是ESPGame?？偣舶?1 844幅圖像。其中，19 659張圖像用作訓(xùn)練集，2 185張圖像用作測試集。

4.2實驗設(shè)置

為了驗證圖像標注性能，采取3種評估方法：召回率、查準率和F-measure值。假設(shè)一個給定的標簽的圖像數(shù)量是|W1|，|W2|為有正確標注詞w的圖像數(shù)量，|W3|是由圖像標注方法得到標簽的圖像的數(shù)量。召回率和查準率可計算如下：

平均查準率(AP)和查全率(AR)可以反映整體標注性能。F-measure可以定義為

在本文實驗中選擇了3種視底層覺特征進行測試，它們分別為顏色直方圖、紋理特征和SIFT。這3種底層特征從不同的角度描述圖像的底層信息，同時使用會使標注性能更好。然后在3個數(shù)據(jù)庫Corel5k、IAPRTC-12 和ESPGame上，將VAMCRF算法和其他著名算法進行比較。這些算法已表現(xiàn)出了良好的性能，并且取得了很好的標注結(jié)果。因此與它們的比較將能證明VAMCRF算法的性能。表1列出了這些算法和相應(yīng)的標引。

表 1　實驗中用到的算法

4.3 實驗結(jié)果和比較

4.3.1參數(shù)影響

在視覺注意機制中有一個參數(shù)ω。該參數(shù)對顯著區(qū)域的提取有著重要的影響，需要通過實驗來確定它的值。

首先從圖像庫中選取100幅有代表性圖像，根據(jù)經(jīng)驗人眼對亮度的敏感度比面積大一些，所以對ω取這樣不同的一組值{0.30, 0.32, 0.34, 0.36, 0.38,0.40, 0.42, 0.44, 0.46, 0.48, 0.50}。通過實驗發(fā)現(xiàn)當ω = 0.42時，提取圖像顯著區(qū)域效果最好。圖1說明了當ω = 0.42時一些類的顯著區(qū)域提取的實例。從表中可以看到，VAM算法能夠預(yù)測并很好地提取圖像的顯著區(qū)域。

圖1　用VAM算法提取顯著區(qū)域的例子Fig.1　Some examples using our proposed VAM

在對圖像的非顯著區(qū)域進行標注時，采用了k-NN聚類算法。k-NN聚類算法是最簡單的機器學習算法之一，其中k值的選擇對結(jié)果至關(guān)重要。實驗測試了參數(shù)k取不同值時對標注結(jié)果的影響。圖2展示的是用k-NN聚類算法在3個圖像庫上對非顯著區(qū)域標注的性能。橫坐標表示參數(shù)k取值的范圍，縱坐標代表對應(yīng)k值時F1的變化?？梢钥吹剑攌=100時F1達到最大值，也就是此時標注效果最好。所以，在下面的實驗當中k取100。

圖2　在3個圖像庫上k取不同值的標注結(jié)果Fig.2　The results of k-NN with different k in the image datasets 1～3

4.3.2標簽數(shù)目對標注的影響

標注性能的好壞有很多影響因素，標簽數(shù)目就是其中一種因素，為了驗證標簽數(shù)目對標注性能的影響，選取了不同的標簽數(shù)進行實驗。圖3分別顯示了在3個數(shù)據(jù)庫上不同的標簽數(shù)目對標注的影響。橫坐標表示所取標簽的個數(shù)從1～8，縱坐標代表對應(yīng)標簽數(shù)時F1的變化。這是在兩種方法下所做的實驗，方法1是使用視覺注意機制和SVM求得顯著區(qū)域的標注詞，然后利用k-NN求得非顯著區(qū)域的標注詞；方法2是在方法1的基礎(chǔ)上利用條件隨機場對所獲得的標注詞進行校正。

(a) Corel5k數(shù)據(jù)庫

(b) IAPR TC-12數(shù)據(jù)庫

(c)ESP Games數(shù)據(jù)庫圖3　不同標簽數(shù)對標注的影響Fig.3　The effect of different tag numbers on annotation

從圖3可以看出，當只給圖像一個標簽時，標注結(jié)果夠不好，隨著使用標簽數(shù)目的增加，標注的準確度都在增加。但是使用的標簽數(shù)不易過多，如果過多反而會使標注準確度下降。方法2比方法1的效果更好些，說明標注詞之間的共生關(guān)系對標注效果也是十分重要的。標簽相關(guān)性的引入使得標注結(jié)果更符合實際的標簽集，由此證明了本文算法的優(yōu)勢。

4.3.3比較和結(jié)果分析

為了驗證本文所提出算法的標注性能，在Corel5k、IAPR TC-12和 ESP Game 3個圖像庫中的測試圖像集進行了實驗，并對AR、AP和F1的值進行對比。在表2～4給出了比較結(jié)果。

表2顯示了VAMCRF算法在Corel5k上得到的AR、AP和F1的值。從表中數(shù)據(jù)可見，VAMCRF算法取得了最高AR值0.48，AP最高值為0.45，F(xiàn)1最大值為0.464。與其他6種算法F1最高值0.439比較，VAMCRF的最大值0.464至少高出了0.014。

表2　在Corel5k數(shù)據(jù)庫上和其他算法標注性能的比較

表3顯示了VAMCRF算法在IAPR TC-12上得到的AR、AP和F1的值。從表中數(shù)據(jù)可見，2PKNN+ML算法和VAMCRF算法取得了最高AR值0.37，AP最高值0.56，F(xiàn)1最大值0.445。與其他6種算法F1最高值0.450比較，VAMCRF的最大值0.445至少高出了0.006。

表4顯示了VAMCRF算法在ESP Game上得到的AR、AP和F1的值。從表中數(shù)據(jù)可見，VAMCRF算法取得了最高AR值0.28，2PKNN+ML最高AP值0.53，F(xiàn)1最大值0.358。與其他6種算法F1最高值0.357比較，VAMCRF的最大值0.358至少高出了0.001。

表3　在IAPR TC-12數(shù)據(jù)庫上與其他算法標注性能的比較

表4　在ESP Game數(shù)據(jù)庫上和其他算法標注性能的比較

5　結(jié)論

本文提出了一種基于視覺注意機制和條件隨機場的算法進行圖像的標注，并在Corel5k, IAPR TC-12 和 ESP Game圖像庫上進行實驗。首先，用視覺注意機制提取圖像的顯著區(qū)域，然后利用SVM進行標注，之后使用k-NN聚類算法對圖像的非顯著區(qū)域進行標注，最后利用條件隨機場對圖像的標注詞向量進行校正。實驗結(jié)果表明，與傳統(tǒng)方法相比，本文所提出的算法在標注性能上取得了很好的效果，但是從時間復(fù)雜度方面來看還需要很多的改進工作，在未來的研究中可以對算法進行進一步改進以期降低時間復(fù)雜度。

[1]WANG Meng, NI Bingbing, HUA Xiansheng, et al. Assistive tagging: a survey of multimedia tagging with human-computer joint exploration[J]. ACM computing surveys, 2012, 44(4): 25.

[2]JIN Cong, JIN Shuwei. Image distance metric learning based on neighborhood sets for automatic image annotation[J]. Journal of visual communication and image representation, 2016, 34: 167-175.

[3]DUYGULU P, BARNARD K, DE FREITAS J F G, et al. Object recognition as machine translation: learning a lexicon for a fixed image vocabulary[C]//Proceedings of the 7th European Conference on Computer Vision. Berlin Heidelberg: Springer-Verlag, 2002: 97-112.

[4]JEON J, LAVRENKO V, MANMATHA R. Automatic image annotation and retrieval using cross-media relevance models[C]//Proceedings of the 26th annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY, USA: ACM, 2003: 119-126.

[5]LOOG M. Semi-supervised linear discriminant analysis through moment-constraint parameter estimation[J]. Pattern recognition letters, 2014, 37: 24-31.

[6]FU Hong, CHI Zheru, FENG Dagan. Recognition of attentive objects with a concept association network for image annotation[J]. Pattern recognition, 2010, 43(10): 3539-3547.

[7]FAREED M M S, AHMED G, CHUN Qi. Salient region detection through sparse reconstruction and graph-based ranking[J]. Journal of visual communication and image representation, 2015, 32: 144-155.

[8]JIA Cong, QI Jinqing, LI Xiaohui, et al. Saliency detection via a unified generative and discriminative model[J]. Neurocomputing, 2016, 173: 406-417.

[9]KHANDOKER A H, PALANISWAMI M, KARMAKAR C K. Support vector machines for automated recognition of obstructive sleep apnea syndrome from ECG recordings[J]. IEEE transactions on information technology in biomedicine, 2009, 13(1): 37-48.

[10]PRUTEANU-MALINICI I, MAJOROS W H, OHLER U. Automated annotation of gene expression image sequences via non-parametric factor analysis and conditional random fields[J]. Bioinformatics, 2013, 29(13): i27-i35.

[11]VERMA Y, JAWAHAR C V. Image annotation using metric learning in semantic neighbourhoods[C]//Proceedings of the 12th European Conference on Computer Vision. Berlin Heidelberg: Springer, 2012: 836-849.

[12]NAKAYAMA H. Linear distance metric learning for large-scale generic image recognition[D]. Tokyo, Japan: The University of Tokyo, 2011.

[13]FENG S L, MANMATHA R, LAVRENKO V. Multiple Bernoulli relevance models for image and video annotation[C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC, USA: IEEE, 2004, 2: II-1002-II-1009.

[14]MAKADIA A, PAVLOVIC V, KUMAR S. A new baseline for image annotation[C]//Proceedings of the European Conference on Computer Vision. Berlin Heidelberg: Springer-Verlag, 2008: 316-329.

[15]GUILLAUMIN M, MENSINK T, VERBEEK J, et al. TagProp: discriminative metric learning in nearest neighbor models for image auto-annotation[C]//Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Kyoto: IEEE, 2009: 309-316.

孫慶美，女，1989年生，碩士研究生，主要研究方向為數(shù)字圖像處理

金聰，女，1960年生，教授，博士。主要研究方向為數(shù)字圖像處理

Image annotation method based on visual attention mechanism and conditional random field

SUN Qingmei, JIN Cong

(School of Computer, Central China Normal University, Wuhan 430079, China)

Traditional image annotation methods interpret all image regions equally, neglecting any understanding of the image. Therefore, an image annotation method based on the visual attention mechanism and conditional random field, called VAMCRF, is proposed. Firstly, people pay more attention to image salient regions during the process of image recognition; this can be achieved through the visual attention mechanism and the support vector machine is then used to assign semantic labels. It then labels the non-salient regions using a k-NN clustering algorithm. Finally, as the annotations of salient and non-salient regions are logically related, the ultimate label vector of the image can be corrected and determined by a conditional random field (CRF) model and inter-word correlation. From the values of average precision, average recall, and F1, the experimental results on Corel5k, IAPR TC-12, and ESP Game confirm that the proposed method is efficient compared with traditional annotation methods.

automatic image annotation; visual attention mechanism; inter-word correlation; conditional random fields

10.11992/tis.201606004

網(wǎng)絡(luò)出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20160808.0831.024.html

2016-06-02. 網(wǎng)絡(luò)出版日期：2016-08-08.

國家社會科學基金項目(13BTQ050).

金聰. E-mail: jinc26@aliyun.com.

TP391

1673-4785(2016)04-0442-07

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于視覺注意機制和條件隨機場的圖像標注

1 顯著區(qū)域的標注過程

2 非顯著區(qū)域的標注過程

3 標注詞校正

4 實驗結(jié)果

5 結(jié)論

1　顯著區(qū)域的標注過程

2　非顯著區(qū)域的標注過程

3　標注詞校正

4 　實驗結(jié)果

5　結(jié)論