王培培,陳斯宇
(吉林大學(xué),吉林 長(zhǎng)春 130000)
由于共享信息的不斷膨脹,網(wǎng)絡(luò)中圖像的數(shù)量也在快速增長(zhǎng),其中隱藏著復(fù)雜且眾多的信息量,因此,如何對(duì)網(wǎng)絡(luò)上的圖像信息進(jìn)行有效而迅速的管理成為了當(dāng)今時(shí)代的熱點(diǎn)問(wèn)題。圖像自動(dòng)標(biāo)注是解決圖像檢索過(guò)程中至關(guān)重要的步驟,這一過(guò)程取決于檢索過(guò)程中圖像的內(nèi)容,計(jì)算機(jī)根據(jù)圖像的內(nèi)容自動(dòng)生成圖像對(duì)應(yīng)的標(biāo)注性關(guān)鍵字[1-3]。在圖像檢索過(guò)程中,經(jīng)常采用三種特征,分別為:顏色特征、形狀特征和紋理特征[4-6]。其中顏色特征可以最簡(jiǎn)單的描述一副圖像的視覺(jué)特征;形狀特征可以最本質(zhì)的決定整幅圖像的含義,同時(shí)可以最直接的用于對(duì)圖像進(jìn)行識(shí)別;紋理特征可以描述圖像結(jié)構(gòu)與顏色分布,是刻畫像素鄰域灰度空間分布的一種特征。圖像自動(dòng)標(biāo)注作為實(shí)現(xiàn)圖像高層語(yǔ)言的理解,通過(guò)計(jì)算機(jī)生成圖像的語(yǔ)言描述,幫助人類迅速有效地理解圖像,具有重要的實(shí)用價(jià)值。文獻(xiàn)[7]融合PLSA和隨機(jī)游走模型的自動(dòng)圖像方法,對(duì)已經(jīng)標(biāo)注的圖像文本信息,構(gòu)建一個(gè)非對(duì)等模態(tài)的PLSA模型,來(lái)計(jì)算圖像初始語(yǔ)言標(biāo)注,然后與相關(guān)聯(lián)的視覺(jué)信息構(gòu)建標(biāo)注圖像,在所構(gòu)建的相似性圖像上隨機(jī)游走,進(jìn)一步分析初始語(yǔ)言標(biāo)注的潛在語(yǔ)言關(guān)聯(lián),最終獲得圖像的精準(zhǔn)化語(yǔ)言標(biāo)注,該方法能夠更好的標(biāo)注圖像效果和檢索性能,然而,該方法過(guò)于依賴圖像的視覺(jué)特性,很容易引起多義和同義現(xiàn)象。文獻(xiàn)[8]采用一種小波域K-Means遙感圖像分類標(biāo)注算法,利用K-Means提取遙感圖像的紋理特征,對(duì)遙感圖像在小波域的分布特征進(jìn)行濾波處理,利用語(yǔ)義對(duì)濾波后的圖像采取矢量分割歸類,對(duì)快速標(biāo)注的圖像進(jìn)行視覺(jué)分析,該方法能夠?qū)ψ兓膱D像得到更好的檢測(cè)結(jié)果,但是在分割的過(guò)程中很容易造成過(guò)分割和欠分割的現(xiàn)象。文獻(xiàn)[9]基于多特征融合與PLSA-GMM的圖像自動(dòng)標(biāo)注方法,在圖像檢索過(guò)程中提取顏色特征、形狀特征和紋理特征,然后融合PLSA與GMM構(gòu)建圖像底層特征和所標(biāo)注的關(guān)鍵詞之間的聯(lián)系,實(shí)現(xiàn)對(duì)圖像的自動(dòng)標(biāo)注,采用Corel 5k數(shù)據(jù)庫(kù)驗(yàn)證結(jié)果表明該方法能夠較好的對(duì)圖像進(jìn)行標(biāo)注,但圖像處理的效率較低。
基于以上研究的優(yōu)缺點(diǎn),本文根據(jù)圖像在空間位置上的特征關(guān)系,將判別模型與生成模型的優(yōu)點(diǎn)相結(jié)合來(lái)提高圖像標(biāo)注的性能,通過(guò)構(gòu)建層疊圖像標(biāo)注模型與自適應(yīng)劃分標(biāo)注的方法相結(jié)合,利用相對(duì)很少的訓(xùn)練圖像實(shí)現(xiàn)更好的標(biāo)注結(jié)果,增強(qiáng)圖像區(qū)域自適應(yīng)劃分標(biāo)注的精度,有利于增強(qiáng)圖像的畫質(zhì)感,提高圖像標(biāo)注的效率。
對(duì)于任意一幅圖像,人類更容易被與周圍事物反差相對(duì)較大的事物所吸引。圖像的位置特征在人類視覺(jué)方面有著至關(guān)重要的影響。相鄰區(qū)域的高度對(duì)比,與相距較遠(yuǎn)區(qū)域的高度對(duì)比,人類的視覺(jué)通常對(duì)前者的沖擊更為敏感。回想人類對(duì)事物觀察的情景,人類常常通過(guò)轉(zhuǎn)動(dòng)視角把吸引自己的事物匯聚在視角中心。與此相似,在圖像采集過(guò)程中,圖像的空間位置特征屬于圖像標(biāo)注的一部分,假設(shè)圖像在空間中的某點(diǎn)Q,其在空間坐標(biāo)系中的坐標(biāo)表示為(X,Y,Z),左右視覺(jué)像的平面坐標(biāo)分別表示為(ul,vl)和(ur,vr),在空間中圖像的位置關(guān)系如圖1所示。
圖1 空間中圖像的位置關(guān)系
在空間視覺(jué)系統(tǒng)中,通過(guò)建立在同一個(gè)視覺(jué)坐標(biāo)系下的圖像,得到兩組關(guān)于空間三維信息的線性方程,可以表示為
(al1-ulcl1)·X+(al2-ulcl2)·Y+(al3-ulcl3)·Z
=ulZl-Xl(bl1-vlcl1)·X+(bl2-vlcl2)·Y
+(bl3-vlcl3)·Z
=vl·Zl-Yl
(1)
(ar1-urcr1)·X+(ar2-urcr2)·Y+(ar3-urcr3)·Z
=urZr-Xr(br1-vrcr1)·X+(br2-vrcr2)·Y
+(br3-vrcr3)·Z
=vr·Zr-Yr
(2)
其中,(al1,al2,al3)、(bl1,bl2,bl3)、(cl1,cl2,cl3)和(Xl,Yl,Zl)分別表示左視覺(jué)的參數(shù)坐標(biāo);(ar1,ar2,ar3)、(br1,br2,br3)、(cr1,cr2,cr3)和(Xr,Yr,Zr)分別表示右視覺(jué)的參數(shù)坐標(biāo)。假設(shè)所使用的左右視覺(jué)參數(shù)均為已知,且對(duì)視覺(jué)模型進(jìn)行構(gòu)建,已知左右視覺(jué)坐標(biāo)(ul,vl)、(ur,vr)和內(nèi)外參數(shù),即可求解點(diǎn)Q的空間位置坐標(biāo)(X,Y,Z),用方程可表示為
aX+bY+cZ=1
(3)
其中,H=(a,b,c)T表示已知的方程系數(shù)。將圖像空間位置引入到測(cè)試過(guò)程中,利用區(qū)域輪廓距離圖像中心的大小構(gòu)建空間位置特征函數(shù),提高圖像區(qū)域顯著性。歸一化后的圖像位置特征函數(shù)表示為
(4)
Ei即表示第i個(gè)圖像區(qū)域的位置特征函數(shù),且滿足Ei∈[0,1];(xi,yi)點(diǎn)表示第i個(gè)圖像區(qū)域的質(zhì)點(diǎn)坐標(biāo);H和W分別表示圖像區(qū)域的高度和寬度。通過(guò)上述公式便可求解出空間中的任意圖像坐標(biāo)點(diǎn),求出對(duì)應(yīng)的空間位置。
本文提出的層疊圖像標(biāo)注模型主要思想是利用自適應(yīng)算法給一幅待標(biāo)注的圖像進(jìn)行聚類,然后判斷這幅待標(biāo)注圖像的類別,選取其中類別概率相對(duì)高的幾種聚類作為該圖像的相關(guān)圖像集合,利用模型和待標(biāo)注圖像的相關(guān)圖像集合對(duì)圖像進(jìn)行標(biāo)注。
在本文的層疊自動(dòng)標(biāo)注模型中,將待標(biāo)注的圖像分配到其對(duì)應(yīng)的聚類里面,這相當(dāng)于圖像標(biāo)注中的第一層標(biāo)注(主題標(biāo)注),主題標(biāo)注是給待標(biāo)注的圖像標(biāo)注幾個(gè)待選擇的主題內(nèi)容,所謂的主題是對(duì)所有的訓(xùn)練圖像進(jìn)行聚類得到的,因此每個(gè)聚類下所有的圖像內(nèi)容都應(yīng)與主題一一對(duì)應(yīng),主題概念只針對(duì)同一個(gè)視覺(jué)下的抽象概念,不具備實(shí)際意義。
本文通過(guò)構(gòu)建圖像和關(guān)鍵詞的方法構(gòu)建兩者之間的聯(lián)系。將每個(gè)關(guān)鍵詞和所對(duì)應(yīng)的圖像構(gòu)成一個(gè)集合,同個(gè)集合中的圖像最少對(duì)應(yīng)某一種相同的關(guān)鍵詞,這樣圖像集合的個(gè)數(shù)便取決于所標(biāo)注的詞匯個(gè)數(shù)。由于實(shí)際生活中同一種場(chǎng)景里面的不同物體之間必然存在著某種客觀聯(lián)系,因此通過(guò)相同的語(yǔ)義目標(biāo)所建立的同一個(gè)集合里不同物體之間一定會(huì)存在著直接或間接的聯(lián)系,這樣就可以方便的建立相似場(chǎng)景里圖像和關(guān)鍵詞之間的關(guān)系了。
根據(jù)以上分析,需要設(shè)計(jì)迭代算法,選擇最優(yōu)圖像集合對(duì)相關(guān)圖像進(jìn)行拓展,在層疊圖像標(biāo)注模型中,對(duì)待標(biāo)注圖像進(jìn)行訓(xùn)練的權(quán)值用公式可表示為
(5)
(6)
(7)
(8)
那么第t+1次迭代時(shí)對(duì)應(yīng)圖像的權(quán)值用公式可表示為
(9)
(10)
(11)
綜上所述,待標(biāo)注圖像集合迭代算法終止條件用公式可表示為:
(12)
其中,αbn表示按降序排列時(shí)相對(duì)應(yīng)圖像的權(quán)值;R表示最終所選定圖像集合的大小;θ表示相鄰兩次迭代相對(duì)應(yīng)圖像差值的閾值大??;?表示迭代次數(shù)閾值大小。
每幅圖像區(qū)域和標(biāo)注詞之間并不是完全對(duì)應(yīng)關(guān)系,上節(jié)的目的只是為了找到整幅待標(biāo)注圖像中最合適的若干標(biāo)注詞,為了準(zhǔn)確找到圖像標(biāo)注詞,本節(jié)采用自適應(yīng)劃分標(biāo)注的方法對(duì)圖像進(jìn)行標(biāo)注。
按照密度運(yùn)行的多樣性可知,應(yīng)在圖像區(qū)域里面確定一個(gè)最優(yōu)的標(biāo)注,把每幅圖片打包成一個(gè)整體,經(jīng)過(guò)自適應(yīng)劃分后,將圖像作為包中的一個(gè)典范。假設(shè)把標(biāo)注集合C(x(t))的圖像bi作為一個(gè)包,圖像塊zi∈bi作為包中的一個(gè)典范,就圖像集合R而言,在自適應(yīng)劃分標(biāo)注中,圖像集合用公式可表示為
G={Fi,Hi}·Ki
(13)
其中,G表示學(xué)習(xí)樣本;Hi表示Fi相對(duì)應(yīng)的標(biāo)注集合;Ki表示學(xué)習(xí)樣本G中圖像的個(gè)數(shù)。就h∈H而言,如果圖像Fi中有一樣的標(biāo)注,可將其規(guī)定為正包,不一樣的標(biāo)注規(guī)定為負(fù)包。通過(guò)計(jì)算zi與正負(fù)包之間的距離,能夠求得zi在不同標(biāo)注值h下的得分值。那么選擇最大得分值所對(duì)應(yīng)的圖像標(biāo)注便是圖像的最佳標(biāo)注,得分值用公式表示為
(14)
其中,F(xiàn)Z(u,v)表示標(biāo)注為v時(shí)圖像u所對(duì)應(yīng)的得分值FZ;minFi表示在圖像空間位置范圍內(nèi),與典范圖像u最近的Fi包中的任何一個(gè)典范圖像;maxFi表示圖像空間位置范圍內(nèi),與典范圖像u最遠(yuǎn)的Fi包中的任何一個(gè)典范圖像;minFi和maxFi應(yīng)分別滿足如下公式
(15)
(16)
綜上所述,可以通過(guò)求得分值FZ最大時(shí)的標(biāo)注作為圖像典范的最佳標(biāo)注,因此便可以實(shí)現(xiàn)圖像區(qū)域的自適應(yīng)劃分標(biāo)注。
為了驗(yàn)證提出的層疊圖像空間位置特征自適應(yīng)標(biāo)注方法的可行性,本文在Corel5k數(shù)據(jù)包上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)包包含多組圖片集合共10000幅圖像,每個(gè)數(shù)據(jù)包中包含相同主題的圖像有200幅,每幅圖像中有2~10個(gè)左右的關(guān)鍵詞,總計(jì)關(guān)鍵詞為520個(gè)。將圖像的視覺(jué)特征劃分為64×64的圖像區(qū)域,并將圖像區(qū)域劃分成1618維度的特征向量,其中顏色特征為162維度、形狀特征為240維度、紋理特征為118維度。最后將這些特征聚集成為視覺(jué)圖像,把每幅圖像打成一個(gè)包,從而構(gòu)建層疊圖像標(biāo)注模型。
為了驗(yàn)證本文設(shè)計(jì)的標(biāo)注性能,在Corel5k數(shù)據(jù)包上,將最佳性能的98個(gè)關(guān)鍵詞和總計(jì)的520個(gè)關(guān)鍵詞分別構(gòu)成集合,基于語(yǔ)義標(biāo)注結(jié)果對(duì)文獻(xiàn)[7]、文獻(xiàn)[8]、文獻(xiàn)[9]和本文的方法進(jìn)行對(duì)比。語(yǔ)義標(biāo)注結(jié)果如表1所示。
表1 語(yǔ)義標(biāo)注結(jié)果
從表1中可以看出,本文提出的自適應(yīng)標(biāo)注算法標(biāo)注結(jié)果明顯優(yōu)于其它幾種算法,即使當(dāng)一些關(guān)鍵詞沒(méi)有顯示在最初標(biāo)注的情況下,但通過(guò)本文算法在某種程度上也能使多數(shù)關(guān)鍵詞標(biāo)注在圖像中。本文提出的算法在最佳性能關(guān)鍵詞為98個(gè)時(shí),語(yǔ)義標(biāo)注的結(jié)果分別高出文獻(xiàn)[7]、文獻(xiàn)[8]和文獻(xiàn)[9]約13%、19%和26%。總關(guān)鍵詞為520個(gè)時(shí),對(duì)圖像語(yǔ)義標(biāo)注結(jié)果明顯優(yōu)于文獻(xiàn)[7]、文獻(xiàn)[8]和文獻(xiàn)[9],且語(yǔ)義標(biāo)注的結(jié)果分別高出18%、20%和28%,表明本文方法具有更好的特征識(shí)別效果與標(biāo)注的全面性。
為了進(jìn)一步驗(yàn)證本文提出方法的可行性,基于Corel5k數(shù)據(jù)包上,在總關(guān)鍵詞為520、標(biāo)注詞由2個(gè)增加到10個(gè)時(shí),將圖像標(biāo)注的準(zhǔn)確性與文獻(xiàn)[7]、文獻(xiàn)[8]和文獻(xiàn)[9]進(jìn)行橫向?qū)Ρ?,有關(guān)準(zhǔn)確性的對(duì)比結(jié)果如圖2所示。
圖2 圖像標(biāo)注準(zhǔn)確性對(duì)比結(jié)果
從圖中可以看出,當(dāng)標(biāo)注詞由2個(gè)增加到10個(gè)時(shí),圖像標(biāo)注的準(zhǔn)確率呈下降的趨勢(shì),但與其它三種方法相比,本文所提的自適應(yīng)劃分標(biāo)注方法具有最好的標(biāo)注性能,準(zhǔn)確率最高。標(biāo)注準(zhǔn)確率在關(guān)鍵詞高達(dá)到10個(gè)時(shí),分別高出文獻(xiàn)[7]、文獻(xiàn)[8]和文獻(xiàn)[9]約15.7%、20.3%和35.2%。
隨著網(wǎng)絡(luò)信息的快速發(fā)展,網(wǎng)絡(luò)上的圖像信息管理成為了人們關(guān)注的重點(diǎn)問(wèn)題,針對(duì)這一情況,本文提出了層疊圖像空間位置特征的自適應(yīng)標(biāo)注方法。首先,類比人類采集圖像的過(guò)程,根據(jù)圖像的空間位置特征求解出空間中的任意圖像坐標(biāo)點(diǎn),歸一化圖像位置特征函數(shù),求出對(duì)應(yīng)的空間位置。其次,對(duì)待標(biāo)注的圖像進(jìn)行聚類,選取其中類別概率相對(duì)高的幾種聚類作為該圖像的相關(guān)圖像集合,利用迭代算法對(duì)待標(biāo)注圖像進(jìn)行擴(kuò)展。最后,按照密度運(yùn)行的多樣性,把標(biāo)注集合的圖像作為一個(gè)包,求解出最大得分值對(duì)應(yīng)的圖像,得到最佳標(biāo)注。實(shí)驗(yàn)結(jié)果表明,本文提出的自適應(yīng)劃分標(biāo)注算法能夠充分利用圖像包含的特征,分析標(biāo)注出更多的關(guān)鍵詞,提高標(biāo)注的全面性,同時(shí)也顯著提高了標(biāo)注的準(zhǔn)確性。