亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖正則化與非負(fù)組稀疏的自動(dòng)圖像標(biāo)注

        2015-07-12 13:54:45錢(qián)智明平王潤(rùn)生
        電子與信息學(xué)報(bào) 2015年4期
        關(guān)鍵詞:集上正則語(yǔ)義

        錢(qián)智明 鐘 平王潤(rùn)生

        (國(guó)防科技大學(xué)電子科學(xué)與工程學(xué)院 長(zhǎng)沙 410073)

        基于圖正則化與非負(fù)組稀疏的自動(dòng)圖像標(biāo)注

        錢(qián)智明 鐘 平*王潤(rùn)生

        (國(guó)防科技大學(xué)電子科學(xué)與工程學(xué)院 長(zhǎng)沙 410073)

        設(shè)計(jì)一個(gè)穩(wěn)健的自動(dòng)圖像標(biāo)注系統(tǒng)的重要環(huán)節(jié)是提取能夠有效描述圖像語(yǔ)義的視覺(jué)特征。由于顏色、紋理和形狀等異構(gòu)視覺(jué)特征在表示特定圖像語(yǔ)義時(shí)所起作用的重要程度不同且同一類(lèi)特征之間具有一定的相關(guān)性,該文提出了一種圖正則化約束下的非負(fù)組稀疏(Graph Regularized Non-negative Group Sparsity, GRNGS)模型來(lái)實(shí)現(xiàn)圖像標(biāo)注,并通過(guò)一種非負(fù)矩陣分解方法來(lái)計(jì)算其模型參數(shù)。該模型結(jié)合了圖正則化與l2,1-范數(shù)約束,使得標(biāo)注過(guò)程中所選的組群特征能體現(xiàn)一定的視覺(jué)相似性和語(yǔ)義相關(guān)性。在Corel5K和ESP Game等圖像數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:相較于一些最新的圖像標(biāo)注模型,GRNGS模型的魯棒性更強(qiáng),標(biāo)注結(jié)果更精確。

        圖像標(biāo)注;圖正則化;組稀疏;非負(fù)矩陣分解

        1 引言

        隨著圖像獲取與存儲(chǔ)技術(shù)的不斷進(jìn)步,圖像數(shù)據(jù)呈現(xiàn)井噴式增長(zhǎng)。如何檢索這些圖像是當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域的一大難題。一般而言,用戶(hù)傾向于用文本查找相關(guān)圖像,這使得自動(dòng)圖像標(biāo)注技術(shù)受到了研究者們的廣泛關(guān)注。然而,由于“語(yǔ)義鴻溝”的存在,自動(dòng)圖 像標(biāo)注是一件極具挑戰(zhàn)性的任務(wù)。這里的“語(yǔ)義鴻溝”主要體現(xiàn)在很難建立低層視覺(jué)特征與高層圖像語(yǔ)義之間的相互映射關(guān)系。由于高層語(yǔ)義所對(duì)應(yīng)視覺(jué)內(nèi)容往往非常復(fù)雜,這里主要從多類(lèi)特征選擇和人的認(rèn)知需求兩個(gè)方面來(lái)分析視覺(jué)特征對(duì)語(yǔ)義理解的影響。

        由于圖像內(nèi)容千變?nèi)f化,僅僅使用一類(lèi)視覺(jué)特征往往不足以滿(mǎn)足不同圖像語(yǔ)義的需求,所以圖像通常由多類(lèi)異構(gòu)視覺(jué)特征所共同表示。然而,這種高維的混合圖像特征在表示圖像特定語(yǔ)義時(shí)往往是冗余的。因此,選擇一個(gè)合理而又緊湊的圖像表示方法將能夠大大地提高圖像標(biāo)注的效率。在處理高維特征方面,稀疏表示被證明是極其有效的[1]。對(duì)于圖像標(biāo)注而言,稀疏表示的意義主要體現(xiàn)在:盡管豐富的圖像內(nèi)容需要由高維特征來(lái)表示,但屬于某一特定語(yǔ)義類(lèi)別的圖像往往可以由若干低維空間的視覺(jué)特征來(lái)很好地描述。近年來(lái),有很多圖像標(biāo)注方法[2,3]都通過(guò)對(duì)特征系數(shù)施以l1-范數(shù)約束來(lái)兼顧模型誤差與特征系數(shù)的稀疏性,以獲取更加穩(wěn)健和準(zhǔn)確的標(biāo)注結(jié)果。但是,這些方法僅考慮了各獨(dú)立特征對(duì)圖像標(biāo)注的不同作用,而忽略了特征之間的相關(guān)性對(duì)標(biāo)注結(jié)果的影響。一般情況下,同類(lèi)特征之間往往相關(guān)性較大,而異類(lèi)特征對(duì)某一圖像語(yǔ)義則往往表現(xiàn)出不同的描述能力。例如,紋理特征能夠很好地用于指紋識(shí)別,而形狀特征則對(duì)車(chē)輛檢測(cè)有著較好的效果。這也就是說(shuō),選擇合適的組群特征能夠更加有效地描述圖像語(yǔ)義。為此,組稀疏方法[4?8]結(jié)合了傳統(tǒng)稀疏表示的l1-范數(shù)約束與嶺回歸中的l2-范數(shù)約束,使得在針對(duì)某一圖像語(yǔ)義的特征組選擇上盡可能保持稀疏,而在用同類(lèi)特征表示圖像時(shí)則使損失誤差盡可能小。例如,Wu等人[5]構(gòu)建了一個(gè)結(jié)構(gòu)化的稀疏選擇模型來(lái)應(yīng)對(duì)圖像標(biāo)注過(guò)程中的特征組選擇問(wèn)題。Yang等人[6]則在此基礎(chǔ)上提出了一種拉普拉斯聯(lián)合組稀疏模型(Laplacian Joint Group Lasso, LJGL),用于從訓(xùn)練數(shù)據(jù)中重構(gòu)圖像區(qū)域,并根據(jù)區(qū)域特性來(lái)賦予標(biāo)注信息。考慮到圖像數(shù)據(jù)中的多層特征結(jié)構(gòu),Gao等人[7]提出了一種多層組稀疏編碼的方法來(lái)實(shí)現(xiàn)圖像分類(lèi)與標(biāo)注。最近,Jayaraman等人[8]將結(jié)構(gòu)化組稀疏用于多任務(wù)學(xué)習(xí),以此選擇判別性較強(qiáng)的特征類(lèi),從而保持具有一致性的特征間的相關(guān)性并降低非相關(guān)特征對(duì)結(jié)果的影響。Bahrampour等人[9]則將樹(shù)結(jié)構(gòu)組稀疏方法用于多模分類(lèi),如多視角人臉識(shí)別,多傳感器目標(biāo)分類(lèi)等。此外,組稀疏方法在視頻[10]、文檔[11]以及網(wǎng)頁(yè)數(shù)據(jù)分析[12]上也有著極具前景的應(yīng)用。這些方法表明組稀疏模型能夠提取最具相關(guān)性的低層特征組來(lái)對(duì)高層語(yǔ)義進(jìn)行建模,大大提高了模型的學(xué)習(xí)效率與應(yīng)用性能。

        在人的認(rèn)知需求方面,一些心理學(xué)和生理學(xué)上的證據(jù)表明:基于部件(part-based)的表示方法在一定程度上能夠很好地描述人類(lèi)大腦的認(rèn)知模式[13,14]。這里的部件可以指圖像的局部結(jié)構(gòu)或目標(biāo)的組成部分,也可以指視覺(jué)特征的部分屬性。這一結(jié)論為進(jìn)一步描述圖像語(yǔ)義提供了有力理論支撐。非負(fù)矩陣分解(Non-negative Matrix Factorization, NMF)[13]就是一種典型的用于學(xué)習(xí)目標(biāo)部件的方法。由于NMF在求解過(guò)程中只包含加性的而不含減性的矩陣運(yùn)算,這與目標(biāo)部件表示的過(guò)程相吻合,所以其結(jié)果能夠在一定程度上較好地表示目標(biāo)部件。然而,NMF在處理數(shù)據(jù)時(shí)假設(shè)數(shù)據(jù)的分布是全局線(xiàn)性的,而沒(méi)有考慮數(shù)據(jù)的內(nèi)蘊(yùn)幾何結(jié)構(gòu),這就使得NMF在處理具有非線(xiàn)性流形結(jié)構(gòu)的數(shù)據(jù)時(shí)其效果往往不盡人意。于是,一些研究工作開(kāi)始關(guān)注流形子空間里的數(shù)據(jù)處理問(wèn)題。其中,圖正則化[6,14]是研究數(shù)據(jù)流形結(jié)構(gòu)的最重要的方法之一。這類(lèi)方法一般假設(shè):如果數(shù)據(jù)點(diǎn)在原空間是鄰近點(diǎn),那么對(duì)應(yīng)到新的基下也是鄰近點(diǎn)。根據(jù)這一假設(shè),圖正則化與傳統(tǒng)的線(xiàn)性降維方法相比,能夠更好地保持?jǐn)?shù)據(jù)的內(nèi)在幾何結(jié)構(gòu)。

        本文提出了一種圖正則化約束下的非負(fù)組稀疏(Graph Regularized Non-negative Group Sparsity, GRNGS)模型來(lái)實(shí)現(xiàn)圖像標(biāo)注。相較于以往的組稀疏模型,GRNGS模型考慮到了圖像視覺(jué)特征空間的流形結(jié)構(gòu)和非負(fù)特征對(duì)圖像理解所起到的作用,并根據(jù)這些特性選擇符合人眼視覺(jué)且最具鑒別力的圖像特征,以實(shí)現(xiàn)更高效的圖像標(biāo)注。同時(shí),利用特征的非負(fù)性,該模型參數(shù)可通過(guò)非負(fù)矩陣分解來(lái)有效地求解。

        2 本文方法

        如圖1所示,整個(gè)標(biāo)注框架由模型構(gòu)建與模型測(cè)試兩部分組成。在模型構(gòu)建過(guò)程中,我們根據(jù)多種異構(gòu)視覺(jué)特征和圖像語(yǔ)義信息來(lái)訓(xùn)練模型參數(shù);在模型測(cè)試過(guò)程中,我們首先提取測(cè)試圖像的多種異構(gòu)視覺(jué)特征,然后根據(jù)模型參數(shù)計(jì)算各語(yǔ)義標(biāo)簽的后驗(yàn)概率,并對(duì)所求概率進(jìn)行排序以確定標(biāo)注結(jié)果。

        2.1 組稀疏模型

        給定一圖像訓(xùn)練集{(xi,yi)∈?p×{0,1}C, i=1,2,…,n},其中xi=[xi1xi2…xip]T∈?p表示第i幅圖像的特征向量,yi=[yi1yi2…yiC]T∈{0,1}C表示第i幅圖像所對(duì)應(yīng)的標(biāo)注信息(即如果該圖像的標(biāo)注信息中有標(biāo)簽k,則yik=1;否則,yik=0)。圖像特征一般由多種異構(gòu)視覺(jué)特征所組成,這里我們假設(shè)p維圖像特征中含有G組不同類(lèi)別的特征。用mg表示第g組特征的維數(shù),則有。于是,第i幅圖像的特征向量可重新表示為xi=。令X=[x1x2…xn]T為n×p的訓(xùn)練特征矩陣,Y=[y1y2…yn]T為n×C的標(biāo)注矩陣,則結(jié)合組稀疏方法的圖像標(biāo)注問(wèn)題可表示為

        圖1 基于GRNGS模型的圖像標(biāo)注框架

        其中,λ>0為組稀疏因子,B=[β1β2…βC], βk=[βk1βk2…βkp]T∈?p為標(biāo)記標(biāo)簽k時(shí)的系數(shù)矢量,βk,g為第g組特征所對(duì)應(yīng)的系數(shù)矢量。該方法可通過(guò)調(diào)節(jié)λ選擇對(duì)標(biāo)注問(wèn)題有意義的特征組,即βk,g≠0,并根據(jù)這些特征組來(lái)建立圖像視覺(jué)特征與圖像語(yǔ)義間的映射關(guān)系。由于每一語(yǔ)義標(biāo)簽所對(duì)應(yīng)的特征系數(shù)各不相同,我們將上述矩陣求解問(wèn)題進(jìn)一步細(xì)分為標(biāo)簽k所對(duì)應(yīng)的矢量求解問(wèn)題。

        2.2 GRNGS模型

        為了有效地利用圖像特征的組效應(yīng)、流形結(jié)構(gòu)的緊湊性和非負(fù)性,本文提出了一種GRNGS模型來(lái)實(shí)現(xiàn)圖像標(biāo)注。流形是線(xiàn)性子空間的一種非線(xiàn)性推廣,我們也可以將流形看作是一個(gè)局部可坐標(biāo)化的拓?fù)淇臻g。要保持上一節(jié)所描述的圖像標(biāo)注問(wèn)題中流形結(jié)構(gòu)的緊湊性,可根據(jù)圖正則化方法中較典型的拉普拉斯特征映射(Laplacian Eigenmap, LE)[14]來(lái)尋找一個(gè)最佳映射,使得下面的損失函數(shù)最?。?/p>

        其中,σ為一帶寬參數(shù),NK(·)表示K近鄰搜索函數(shù)。于是,引入模型參數(shù)的非負(fù)約束以及式(3)中的流形約束,我們可將式(2)中的標(biāo)注問(wèn)題改為

        其中,λ1>0為組稀疏參數(shù),用以選擇合適的特征組;λ2>0為圖正則化參數(shù),用以控制模型結(jié)構(gòu)的復(fù)雜度。

        則式(5)可重寫(xiě)為

        對(duì)于一幅測(cè)試圖像xnew,根據(jù)式(6)中所求的βk獲得標(biāo)簽k對(duì)該圖像的后驗(yàn)概率:

        對(duì)所有標(biāo)簽的后驗(yàn)概率進(jìn)行降序排序,則可取后驗(yàn)概率最大的若干標(biāo)簽對(duì)該圖像進(jìn)行標(biāo)注。

        2.3 模型優(yōu)化

        為了求解式(6)中的優(yōu)化問(wèn)題,本文提出一種非負(fù)矩陣分解算法。首先,我們定義拉格朗日函數(shù):

        其中,Φ=[φ1φ2…φp]T為拉普拉斯乘子。對(duì)式(8)求導(dǎo),可得φiβki=0),并使?L/?βk=0,可得

        為了確保算法的收斂性,利用K.K.T.條件[14](即

        其中,“?”表示Hadamard積[15]。于是,我們可得模型優(yōu)化算法的非負(fù)迭代過(guò)程如下:

        這里,矢量商a/b是指矢量a和b中各元素值的商。該優(yōu)化算法的具體過(guò)程如下:

        第1步 計(jì)算Π,Θ,Λg,令迭代次數(shù)t=0,初始化;

        2.4 模型分析

        由于Π,Θ在給定數(shù)據(jù)的情況下是固定的,其計(jì)算復(fù)雜度為O(n2p2)。在每次迭代過(guò)程中,分母項(xiàng)的計(jì)算復(fù)雜度為O(np+p2) ,分子項(xiàng)的計(jì)算復(fù)雜度為O(np2),因而其每次迭代過(guò)程的計(jì)算復(fù)雜度為O(np2),與圖像個(gè)數(shù)是線(xiàn)性相關(guān)的,這對(duì)于大規(guī)模數(shù)據(jù)庫(kù)的標(biāo)注工作是極其有利的。另外,非負(fù)迭代過(guò)程的迭代次數(shù)與所求系數(shù)矢量的維數(shù)一般是成比例的,故總的計(jì)算復(fù)雜度為O(n2p2+np3C)。

        3 實(shí)驗(yàn)

        本文實(shí)驗(yàn)安排如下:首先,給出實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)準(zhǔn)則等信息;然后,對(duì)實(shí)驗(yàn)參數(shù)進(jìn)行了評(píng)估;最后,給出了GRNGS模型與其他模型在圖像標(biāo)注上的性能對(duì)比結(jié)果。

        3.1 實(shí)驗(yàn)設(shè)置

        本文采用的數(shù)據(jù)集包括:Corel5K數(shù)據(jù)集[16]和ESP Game數(shù)據(jù)集[17],其詳細(xì)信息如表1所示。

        表 1 實(shí)驗(yàn)數(shù)據(jù)集詳細(xì)信息

        在特征提取方面,按照特征屬性不同將特征分為不同組群。本文實(shí)驗(yàn)所采用的特征維數(shù)共320維,具體描述如下:128維的CPAM(Colored Pattern Appearance Model)特征[18],96維的RGB和HSV顏色直方圖特征(每個(gè)顏色通道提取16維特征),32維的梯度和方向直方圖特征,64維的形狀特征[19]。對(duì)于每一特征,我們將其值轉(zhuǎn)換到區(qū)間[0,1]上來(lái),并對(duì)轉(zhuǎn)換后的特征值進(jìn)行歸一化處理,即?xi,有。

        為了對(duì)標(biāo)注結(jié)果進(jìn)行合理評(píng)價(jià),本文采用兩種評(píng)價(jià)策略:第一,固定每幅圖像的語(yǔ)義標(biāo)簽數(shù)為5,計(jì)算查準(zhǔn)率(Prec@5)和查全率(Rec@5)[18];第二,針對(duì)不同的查全率,計(jì)算所有平均查準(zhǔn)率的平均值(Mean Average Precision, MAP):

        此外,所有實(shí)驗(yàn)均在Matlab 2010平臺(tái)上運(yùn)行,實(shí)驗(yàn)所用計(jì)算機(jī)的主頻為2.30 GHz, RAM內(nèi)存為8 G。

        3.2 模型參數(shù)對(duì)圖像標(biāo)注的影響

        GRNGS模型主要需考察3個(gè)參數(shù):式(4)中的最近鄰參數(shù)K,式(6)中的組稀疏參數(shù)λ1和圖正則化參數(shù)λ2。由于最近鄰參數(shù)K與另外兩個(gè)參數(shù)的相關(guān)性較弱,我們將分開(kāi)對(duì)其進(jìn)行評(píng)估,并使用MAP來(lái)衡量各參數(shù)取值的實(shí)驗(yàn)結(jié)果。首先,我們令K=100,并考察參數(shù)λ1和λ2。在本實(shí)驗(yàn)中,我們對(duì)這兩參數(shù)分別取值{0.0001,0.001,0.01,0.1,1,10}。

        圖2給出了GRNGS模型在不同參數(shù)設(shè)置下的標(biāo)注結(jié)果。我們發(fā)現(xiàn)當(dāng)λ1=λ2時(shí),標(biāo)注結(jié)果相對(duì)較好。在接下來(lái)的實(shí)驗(yàn)中,我們選取標(biāo)注結(jié)果最好的模型參數(shù)作為實(shí)驗(yàn)參數(shù),即在處理Corel5K和ESP Game數(shù)據(jù)集時(shí)分別選取參數(shù)λ1=λ2=0.1和λ1= λ2=0.01。

        接下來(lái),我們考察最近鄰參數(shù)K對(duì)實(shí)驗(yàn)結(jié)果的影響。由圖3可知,在K值較小時(shí),標(biāo)注結(jié)果隨著K值的增加而逐步改善;而當(dāng)K達(dá)到一定值時(shí),標(biāo)注結(jié)果的MAP值則相對(duì)穩(wěn)定或略微呈下降趨勢(shì)。據(jù)此,我們?cè)诮酉聛?lái)的所有實(shí)驗(yàn)中均令K=200。

        圖2 GRNGS模型在不同組稀疏參數(shù)和圖正則化參數(shù)下的標(biāo)注結(jié)果比較

        圖3 GRNGS模型在不同最近鄰參數(shù)下的標(biāo)注結(jié)果比較

        3.3 算法收斂性分析

        為了驗(yàn)證本文所提的非負(fù)矩陣分解算法的收斂性,我們對(duì)兩個(gè)數(shù)據(jù)庫(kù)的建模過(guò)程進(jìn)行了跟蹤,并通過(guò)計(jì)算式(6)中的目標(biāo)函數(shù)值來(lái)確定其收斂狀態(tài)。如圖4所示,GRNGS模型的優(yōu)化算法在兩個(gè)數(shù)據(jù)集上都是收斂的。具體來(lái)講,該算法在Corel5K數(shù)據(jù)集上僅需不到50次迭代就可達(dá)到收斂條件;而在ESP Game數(shù)據(jù)集上達(dá)到收斂的迭代次數(shù)則需600次左右。另外,僅考慮算法的收斂過(guò)程,本文針對(duì)GRNGS模型所提的優(yōu)化算法在Corel5K和ESP Game數(shù)據(jù)集上的用時(shí)分別為5 min 29 s和12 min 45 s。這些實(shí)驗(yàn)結(jié)果均反映了本文所提的模型優(yōu)化算法具有較好的收斂性能,且計(jì)算復(fù)雜度較低,有利于算法的進(jìn)一步推廣和應(yīng)用。

        3.4 模型參數(shù)結(jié)構(gòu)比較

        為了更好地分析GRNGS模型的模型參數(shù),我們將該參數(shù)與NMF和圖正則化的非負(fù)矩陣分解(Graph-regularized Nonnegative Matrix Factorization, GNMF )[14]所得的模型參數(shù)進(jìn)行稀疏性和結(jié)構(gòu)比較。圖5顯示了這3種方法在Corel5K數(shù)據(jù)集和ESP Game數(shù)據(jù)集上所學(xué)習(xí)得到的模型參數(shù)。這3種模型在Corel5K和ESP Game數(shù)據(jù)集上的參數(shù)矩陣分別為320×374和320×268。從這些結(jié)果可以看出,GNMF的稀疏性一般比GRNGS和NMF差,而GRNGS在較大的ESP GAME數(shù)據(jù)集上的稀疏性明顯強(qiáng)于NMF和GNMF。同時(shí),GRNGS所學(xué)習(xí)得到的矢量具有明顯的組效應(yīng)和較好的一致性,從而體現(xiàn)了組群特征的相關(guān)性且能夠去除不相關(guān)特征的干擾,以更好地滿(mǎn)足圖像部分屬性特征表示的需求。

        3.5 圖像標(biāo)注結(jié)果比較與分析

        為了更好地分析GRNGS模型在圖像標(biāo)注方面的性能,本文所比較的方法包括一些基準(zhǔn)圖像標(biāo)注方法和與本文方法最為接近的若干方法?;鶞?zhǔn)圖像標(biāo)注方法包括:SVM模型和TagProp模型[20]。與本文方法最接近的圖像標(biāo)注方法包括:NMF模型[13]、GNMF模型[14]、基于結(jié)構(gòu)化組稀疏的多標(biāo)注學(xué)習(xí)模型(Multi-label Boosting with structural Grouping Sparsity, MtBGS)[6]、結(jié)合組稀疏與圖正則化的LJGL模型[7]。前兩種模型是非負(fù)分解方法,后3種模型是結(jié)合組稀疏的圖像標(biāo)注模型。與MtBGS模型相比,LJGL模型和GRNGS模型在其基礎(chǔ)上增加了圖正則化項(xiàng)。而與LJGL模型相比,GRNGS模型則又進(jìn)一步結(jié)合了模型的非負(fù)參數(shù)約束,使得模型學(xué)習(xí)過(guò)程更加符合人腦的認(rèn)知模式。表2和表3給出了各方法的標(biāo)注結(jié)果。

        圖4 非負(fù)迭代算法的收斂過(guò)程

        圖5 模型參數(shù)及其稀疏性分析

        表 2 Corel5K數(shù)據(jù)集上的標(biāo)注結(jié)果比較

        表 3 ESP Game數(shù)據(jù)集上的標(biāo)注結(jié)果比較

        從實(shí)驗(yàn)結(jié)果中可以看出,在Corel5K和ESP Game數(shù)據(jù)集上,將結(jié)合組稀疏的標(biāo)注模型(如MtBGS, LJGL和GRNGS)相較于其他標(biāo)注模型(如SVM, TagProp, NMF和GNMF)在實(shí)驗(yàn)結(jié)果上有了一定的提高,這充分說(shuō)明了組稀疏對(duì)圖像高層語(yǔ)義理解有著重要的意義。通過(guò)比較MtBGS, LJGL和GRNGS在兩個(gè)數(shù)據(jù)集上的標(biāo)注結(jié)果,我們可以發(fā)現(xiàn)LJGL模型的標(biāo)注結(jié)果相較于MtBGS的標(biāo)注結(jié)果提高較少,這說(shuō)明單一的流形約束并不能夠顯著地提高模型對(duì)圖像語(yǔ)義的理解;而本文方法在組稀疏和圖正則化的基礎(chǔ)上又進(jìn)一步考慮了模型參數(shù)的非負(fù)性約束條件,使得標(biāo)注結(jié)果相較于其他模型有了較為顯著的提高。

        4 結(jié)束語(yǔ)

        本文研究了組稀疏、圖正則化以及非負(fù)參數(shù)約束對(duì)圖像標(biāo)注的影響,提出了GRNGS模型來(lái)構(gòu)建多種異構(gòu)視覺(jué)特征與圖像語(yǔ)義標(biāo)簽之間的映射關(guān)系。實(shí)驗(yàn)結(jié)果表明,本文方法具有較好的穩(wěn)定性和良好的標(biāo)注性能。在今后的工作中,我們將側(cè)重研究不同視覺(jué)特征在核映射空間上的自適應(yīng)距離測(cè)度,并從層次化語(yǔ)義角度進(jìn)一步改善“語(yǔ)義鴻溝”問(wèn)題的解決方案。

        [1] Wright J, Ma Y, Mairal J, et al.. Sparse representation for computer vision and pattern recognition[J]. Proceedings of the IEEE, 2010, 98(6): 1031-1044.

        [2] Shen L, Yeo C, and Hua B. Intrinsic image decomposition using a sparse representation of reflectance[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2904-2915.

        [3] 宋相法, 焦李成. 基于稀疏編碼和集成學(xué)習(xí)的多示例多標(biāo)記圖像分類(lèi)方法[J]. 電子與信息學(xué)報(bào), 2013, 35(3): 622-628.

        Song Xiang-fa and Jiao Li-cheng. A multi-instance multi-label image classification method based on sparse coding and ensemble learning[J]. Journal of Electronics & Information Technology, 2013, 35(3): 622-628.

        [4] Wu F, Han Y, Liu X, et al.. The heterogeneous feature selection with structural sparsity for multimedia annotation and hashing: a survey[J]. International Journal of Multimedia Information Retrieval, 2012, 1(1): 3-15.

        [5] Wu F, Han Y, Tian Q, et al.. Multi-label boosting for image annotation by structural grouping sparsity[C]. ACM International Conference on Multimedia, Firenze, Italy, 2010: 15-24.

        [6] Yang Y, Huang Z, Yang Y, et al.. Local image tagging via graph regularized joint group sparsity[J]. Pattern Recognition, 2013, 46(5): 1358-1368.

        [7] Gao S, Chia L T, Tsang I W H, et al.. Concurrent single-label image classification and annotation via efficient multi-layer group sparse coding[J]. IEEE Transactions on Multimedia, 2014, 16(3): 762-771.

        [8] Jayaraman D, Sha F, and Grauman K. Decorrelating semantic visual attributes by resisting the urge to share[C]. IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014: 1629-1636.

        [9] Bahrampour S, Ray A, Nasrabadi N M, et al.. Quality-based multimodal classification using tree-structured sparsity[C]. IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014: 4114-4121.

        [10] Cho J, Lee M, Chang H J, et al.. Robust action recognition using local motion and group sparsity[J]. Pattern Recognition, 2014, 47(5): 1813-1825.

        [11] Yogatama D and Smith N A. Making the most of bag of words: sentence regularization with alternating direction method of multipliers[C]. International Conference on Machine Learning, Beijing, 2014, Vol. 32: 656-664.

        [12] Yan L, Yan L, Xue G R, et al.. Coupled group lasso for web-scale CTR prediction in display advertising[C]. International Conference on Machine Learning, Beijing, 2014: 802-810.

        [13] Lee D D and Seung H S. Learning the parts of objects by nonnegative matrix factorization[J]. Nature, 1999, 401(6755): 788-791.

        [14] Cai D, He X, Han J, et al.. Graph regularized nonnegative matrix factorization for data representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1548-1560.

        [15] Zhou B, Zhang F, and Peng L. Compact representation for dynamic texture video coding using tensor method[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2013, 23(2): 280-288.

        [16] Müller H, Marchand-Maillet S, and Pun T. The truth about corel-evaluation in image retrieval[C]. ACM International Conference on Image and Video Retrieval, London, UK, 2002, Vol. 2383: 38-49.

        [17] Von Ahn L and Dabbish L. Labeling images with a computer game[C]. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, New York, USA, 2004: 319-326.

        [18] Zhou N, Cheung W K, Qiu G, et al.. A hybrid probabilistic model for unified collaborative and content-based image tagging[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(7): 1281-1294.

        [19] Oliva A and Torralba A. Modeling the shape of the scene: a holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001, 42(3): 145-175.

        [20] Guillaumin M, Mensink T, Verbeek J, et al.. TagProp: discriminative metric learning in nearest neighbor models for image auto-annotation[C]. International Conference on Computer Vision, Kyoto, Japan, Sept. 2009: 309-316.

        錢(qián)智明: 男,1986年生,博士,研究方向?yàn)閳D像理解與目標(biāo)識(shí)別.

        鐘 平: 男,1979年生,副教授,研究方向?yàn)閳D像理解與目標(biāo)識(shí)別.

        王潤(rùn)生: 男,1941年生,教授,研究方向?yàn)閳D像理解與目標(biāo)識(shí)別.

        Automatic Image Annotation via Graph Regularization and Non-negative Group Sparsity

        Qian Zhi-ming Zhong Ping Wang Run-sheng
        (College of Electronic Science and Engineering, National University of Defense Technology, Changsha 410073, China)

        Extracting an effective visual feature to uncover semantic information is an important work for designing a robust automatic image annotation system. Since different kinds of heterogeneous features (such as color, texture and shape) show different intrinsic discriminative power and the same kind of features are usually correlated for image understanding, a Graph Regularized Non-negative Group Sparsity (GRNGS) model for image annotation is proposed, which can be effectively solved by a new method of non-negative matrix factorization. This model combines graph regularization with l2,1-norm regularization, and is able to select proper group features, which can describe both visual similarities and semantic correlations when performing the task of image annotation. Experimental results reported over the Corel5K and ESP Game databases show the robust capability and good performance of the proposed method.

        Image annotation; Graph regularization; Group sparsity; Non-negative matrix factorization

        TP391

        : A

        :1009-5896(2015)04-0784-07

        10.11999/JEIT141282

        2014-10-09收到,2014-12-30改回

        國(guó)家自然科學(xué)基金(61271439)資助課題

        *通信作者:鐘平 zhongping@nudt.edu.cn

        猜你喜歡
        集上正則語(yǔ)義
        Cookie-Cutter集上的Gibbs測(cè)度
        語(yǔ)言與語(yǔ)義
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        剩余有限Minimax可解群的4階正則自同構(gòu)
        類(lèi)似于VNL環(huán)的環(huán)
        復(fù)扇形指標(biāo)集上的分布混沌
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        有限秩的可解群的正則自同構(gòu)
        幾道導(dǎo)數(shù)題引發(fā)的解題思考
        久久久精品人妻一区二区三区| 国产精品自产拍在线18禁| 亚洲成av人片在www鸭子| 亚洲av日韩av天堂一区二区三区| 中文字幕在线亚洲日韩6页手机版| 成激情人妻视频| 日韩中文字幕久久久老色批| 国产播放隔着超薄丝袜进入| 失禁大喷潮在线播放| 国产av色| 午夜视频在线观看国产19| 疯狂做受xxxx国产| 国产精品麻豆aⅴ人妻| 成人国产精品免费网站| 一本久道久久丁香狠狠躁| 久久久久久欧美精品se一二三四| 吃奶还摸下面动态图gif| 偷拍熟女亚洲另类| 野花视频在线观看免费| 国产人妻熟女高跟丝袜图片| 亚洲AV永久无码制服河南实里| 中文字幕一区二区三区在线视频 | 无码中文字幕免费一区二区三区| 日韩毛片在线看| 亚洲免费人成网站在线观看| 国产av剧情一区二区三区| 亚洲国产精品va在线播放| 日本高清中文字幕一区二区三区| 国产女主播福利一区二区 | 日本二区三区视频在线观看| 日韩在线 | 中文| 色翁荡息又大又硬又粗又视频图片 | 亚洲日韩一区二区一无码| 久久五月精品中文字幕| 成年av动漫网站18禁| 国产精品美女久久久久久久久| 黄色录像成人播放免费99网| 国产一区二区免费在线视频| a级毛片免费完整视频| 乱子伦av无码中文字幕| 麻豆精品国产免费av影片|