楊曉玲,李志清,劉雨桐
(湘潭大學(xué)智能計(jì)算與信息處理教育部重點(diǎn)實(shí)驗(yàn)室,湖南湘潭411100)(*通信作者電子郵箱xq086515@163.com)
數(shù)字采集技術(shù)、計(jì)算機(jī)硬件、存儲(chǔ)技術(shù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,使得成千上萬(wàn)的圖像資源能夠被大眾所獲取。為了方便有效地獲取和檢索如此大規(guī)模的數(shù)字圖像資源,圖像檢索技術(shù)成為了近年來(lái)的重要研究課題。當(dāng)前圖像檢索技術(shù)主要分為兩類:基于文本的圖像檢索(Text-Based Image Retrieval,TBIR)技術(shù)和基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,CBIR)技術(shù)。TBIR需要利用人工對(duì)圖像進(jìn)行標(biāo)注,建立文本索引,然后通過(guò)傳統(tǒng)的文本搜索引擎來(lái)實(shí)現(xiàn)圖像的檢索。但是,面對(duì)當(dāng)前快速增長(zhǎng)的圖像數(shù)據(jù)庫(kù),手工標(biāo)注需要消耗大量的人力物力,不適用于大的圖像數(shù)據(jù)庫(kù)。而CBIR是根據(jù)圖像本身所包含的視覺內(nèi)容建立檢索依據(jù),圖像的“視覺內(nèi)容”是指圖像的低層視覺信息,如顏色、紋理和形狀等。CBIR通過(guò)提取每幅圖像的低層視覺特征,并將提取到的特征以高維向量的形式存入數(shù)據(jù)庫(kù),針對(duì)不同的應(yīng)用情況,TBIR可以采用不同的特征或特征組合來(lái)描述圖像的視覺內(nèi)容[1]。以CBIR為代表的圖像檢索技術(shù)在近年來(lái)取得了很大的進(jìn)展,但是其檢索效果和其檢索方式仍然不能滿足人們的要求,其主要原因是計(jì)算機(jī)獲取圖像的低層視覺信息與用戶理解的高層語(yǔ)義信息之間存在巨大的語(yǔ)義鴻溝。因此,為了獲得更好的檢索結(jié)果,同時(shí)解決人工標(biāo)注帶來(lái)的問(wèn)題,圖像自動(dòng)標(biāo)注技術(shù)應(yīng)運(yùn)而生。
隨著多媒體技術(shù)和計(jì)算機(jī)視覺領(lǐng)域的蓬勃發(fā)展,圖像自動(dòng)標(biāo)注吸引了越來(lái)越多的研究者的關(guān)注。圖像自動(dòng)標(biāo)注的目標(biāo)是自動(dòng)地為某一幅圖像添加恰當(dāng)?shù)囊粋€(gè)或多個(gè)能表示該圖像的視覺內(nèi)容的關(guān)鍵詞(標(biāo)簽)。在進(jìn)行圖像檢索時(shí),自動(dòng)圖像標(biāo)注是一個(gè)關(guān)鍵的步驟,它在縮小圖像的低層視覺特征與高層語(yǔ)義標(biāo)簽之間的語(yǔ)義鴻溝之間扮演了一個(gè)重要的角色[2-3]。在圖像標(biāo)注的工作中,有時(shí)候由于一幅圖像的內(nèi)容比較復(fù)雜,使得其往往具有多個(gè)標(biāo)簽,據(jù)此許多判別方法被提出并將圖像標(biāo)注視為一個(gè)多標(biāo)簽分類問(wèn)題,如文獻(xiàn)[4]將其分解成一個(gè)獨(dú)立的二分類問(wèn)題,每個(gè)可能的標(biāo)簽是一個(gè)分類器,然而,在這種方法中不同類標(biāo)簽之間的相關(guān)性會(huì)被忽略[5]。文獻(xiàn)[6-9]方法對(duì)稀疏編碼的研究促進(jìn)了圖像標(biāo)注中標(biāo)簽傳播技術(shù)的發(fā)展。
本文提出了一種新的基于多標(biāo)簽判別詞典學(xué)習(xí)的圖像自動(dòng)標(biāo)注方法:1)在經(jīng)過(guò)特征提取后,將判別字典學(xué)習(xí)技術(shù)應(yīng)用在多標(biāo)簽學(xué)習(xí)中,同時(shí)加入標(biāo)簽一致性正則化項(xiàng),使得字典學(xué)習(xí)過(guò)程中能夠融入標(biāo)簽信息;2)將訓(xùn)練圖像樣本空間中學(xué)習(xí)到的一個(gè)完整的具有判別性的字典用于新圖像的預(yù)測(cè)。在Corel 5K數(shù)據(jù)集上進(jìn)行測(cè)試和比較分析,實(shí)驗(yàn)結(jié)果表明,與當(dāng)前流行的幾個(gè)圖像標(biāo)注方法進(jìn)行比較,本方法具有較好的標(biāo)注性能。
圖像自動(dòng)標(biāo)注的目的是為圖像分配若干能描述其內(nèi)容的標(biāo)簽,這通常被看作是一個(gè)典型的多標(biāo)簽學(xué)習(xí)問(wèn)題?,F(xiàn)在的方法大致可以分為三類:以分類為基礎(chǔ)圖像自動(dòng)標(biāo)注[10]、以概率模型為基礎(chǔ)的圖像自動(dòng)標(biāo)注方法[11]和以重構(gòu)方法為基礎(chǔ)的圖像自動(dòng)標(biāo)注方法[12]。
分類方法是將自動(dòng)圖像標(biāo)注看作是多分類的問(wèn)題。每個(gè)語(yǔ)義關(guān)鍵詞作為一個(gè)獨(dú)立的圖像類別標(biāo)記,通過(guò)訓(xùn)練學(xué)習(xí)語(yǔ)義標(biāo)簽分類器來(lái)預(yù)測(cè)待標(biāo)注圖像是否屬于某個(gè)特定的語(yǔ)義關(guān)鍵詞類別。每個(gè)語(yǔ)義分類器的決策經(jīng)過(guò)融合得到測(cè)試圖像的最終標(biāo)注結(jié)果。Cusano等[5]通過(guò)求解多分類問(wèn)題來(lái)實(shí)現(xiàn)標(biāo)注問(wèn)題;吳偉等[13]通過(guò)利用距離測(cè)度學(xué)習(xí)方法來(lái)改進(jìn)最近鄰分類模型,將語(yǔ)義距離融入到模型的構(gòu)建中,有效改善了標(biāo)注效果。基于分類方法的主要局限是需要訓(xùn)練圖像的監(jiān)督標(biāo)簽信息來(lái)訓(xùn)練分類模型。
基于概率建模的方法是從概率統(tǒng)計(jì)角度出發(fā),通過(guò)在視覺特征的基礎(chǔ)上建模圖像特征和圖像標(biāo)簽之間的共生概率關(guān)系,并試圖推斷圖像或注釋關(guān)鍵字之間的相關(guān)性或聯(lián)合概率概率分布,并以此進(jìn)行圖像標(biāo)注。Xia等[11]提出一種基于雙層聚類標(biāo)簽優(yōu)化算法(Tag Refinement based on Bi-Layer Clustering,TR-BLC)算法。首先融合視覺相似性和語(yǔ)義相似性相似的圖像,將其分為更小的組;然后對(duì)每一組圖像使用共現(xiàn)頻率和標(biāo)簽間的相關(guān)性建立標(biāo)簽與圖像子集的概率關(guān)系;最后利用改進(jìn)的Fisher準(zhǔn)則判斷與圖像內(nèi)容無(wú)關(guān)的標(biāo)簽完成圖像標(biāo)簽的修正,該算法增強(qiáng)了低頻詞匯的相關(guān)度,從而提高了圖像標(biāo)注的性能。
基于重構(gòu)方法利用語(yǔ)義概念或視覺圖像的稀疏重建模型來(lái)完成圖像標(biāo)注任務(wù)。Wang等[12]采用稀疏編碼框架得到重構(gòu)系數(shù),利用多標(biāo)簽信息去降低輸入特征空間的維度,它包含了兩個(gè)稀疏編碼時(shí)期:多標(biāo)簽稀疏重構(gòu)和圖像特征稀疏重構(gòu),通過(guò)將標(biāo)簽轉(zhuǎn)移到測(cè)試圖像中得到最終的標(biāo)注詞。此外,臧淼等[14]將語(yǔ)義之間的相關(guān)性融入到稀疏/組稀疏編碼模型中,通過(guò)標(biāo)簽轉(zhuǎn)移尋找測(cè)試圖像的 K最近鄰(K-Nearest Neighbor,KNN)圖像來(lái)實(shí)現(xiàn)圖像自動(dòng)標(biāo)注;Gao等[8]充分利用了圖像類標(biāo)簽和標(biāo)記之間的依賴關(guān)系,提出了基于多層次組稀疏的并行單標(biāo)簽圖像分類和標(biāo)注方法,并取得了較好的標(biāo)注效果;Tang等[15]提出了一種基于圖的半監(jiān)督KNN-sparse(K-Nearest Neighbor-sparse)學(xué)習(xí)方法。這些稀疏編碼方法的提出促進(jìn)了字典學(xué)習(xí)在圖像標(biāo)注方面的應(yīng)用。
為了增強(qiáng)原始圖像標(biāo)簽和視覺特征之間的相關(guān)性,本文提出一種基于多標(biāo)簽判別字典學(xué)習(xí)的圖像自動(dòng)標(biāo)注(Automatic Image Annotation based on Multi-Label Discriminative Dictionary Learning,MLDDL),通過(guò)在字典學(xué)習(xí)的初始輸入空間中加入標(biāo)簽的相關(guān)信息,增強(qiáng)字典的判別性,從而改善標(biāo)注性能,提高標(biāo)注準(zhǔn)確度。
設(shè) {(x1,Y1),(x2,Y2),…,(xN,YN)} 為訓(xùn)練數(shù)據(jù),xi∈Rp是訓(xùn)練集中的圖像,Yi是圖像相應(yīng)的標(biāo)簽,xi∈X,X∈Rp×N,X為訓(xùn)練集,p是每個(gè)圖像的特征維數(shù),N是訓(xùn)練集中的圖片數(shù)量,Yi= [y1,y2,…,yL]T是 xi的所有可能標(biāo)簽,L是標(biāo)簽數(shù)量,如果第l個(gè)標(biāo)簽在圖像xi的標(biāo)簽集合中,則yl=1,否則yl=0。
字典學(xué)習(xí)可以稱之為簡(jiǎn)單的稀疏編碼,傳統(tǒng)的基于逼近的稀疏表示字典訓(xùn)練模型:
標(biāo)簽一致性判別詞典LC-KSVD(Label Consistent KSVD)[17]是通過(guò)在K-SVD的基礎(chǔ)上加入圖像的標(biāo)簽信息來(lái)獲得一個(gè)判別稀疏編碼矩陣A和字典D,它使得擁有相同標(biāo)簽集的樣本特征有非常相似的稀疏表示。被賦予標(biāo)簽正則化項(xiàng)的標(biāo)簽一致性判別字典學(xué)習(xí)的目標(biāo)函數(shù)為:
式中:第一項(xiàng)是重構(gòu)誤差,第二項(xiàng)是標(biāo)簽正則化項(xiàng),第三項(xiàng)是A的稀疏度。λ,β>0控制著重構(gòu)誤差、標(biāo)簽一致性正則化和稀疏度三項(xiàng)之間的相對(duì)貢獻(xiàn),Q= [q1,q2,…,qN]∈RK×N是輸入樣本 X 的判別稀疏編碼,qi= [0,0,…,1,1,…,0,0]T∈ RK是輸入樣本xi對(duì)應(yīng)的判別稀疏編碼。首先假設(shè)第i個(gè)詞典元素di(i=1,2,…,N) 與第i個(gè)樣本xi(i=1,2,…,N) 擁有相同的標(biāo)簽集。如果xi與詞典元素dk共享相同的標(biāo)簽集,則設(shè)qik=1;否則qik=0。W∈RK×K表示一個(gè)線性變換矩陣,確定一個(gè)線性變換矩陣g(a;W)=Wa,轉(zhuǎn)換原始稀疏編碼A使得在稀疏特征空間RK中具有更好的識(shí)別度。標(biāo)簽一致性正則化項(xiàng)‖QWA‖2F表示判別稀疏編碼誤差,使得轉(zhuǎn)換稀疏編碼WA更好地接近判別稀疏編碼Q,增強(qiáng)學(xué)習(xí)字典的判別性。
受文獻(xiàn)[12]的啟發(fā),在LC-KSVD的基礎(chǔ)上,由于多標(biāo)簽具有良好的協(xié)同表達(dá)能力,為了使字典D更好地表示原始特征集X,引入線性轉(zhuǎn)換矩陣P∈ Rp×p,得到多標(biāo)簽判別字典學(xué)習(xí)(Multi-Label Discriminative Dictionary Learning,MDDL)。對(duì)于一個(gè)原始的輸入特征xi,有ci=PTxi(ci∈ Rp),即,C=PTX(C ∈ Rp×N),則式(2)可表示為:
轉(zhuǎn)換矩陣P能夠?qū)⒃紭颖咎卣餍畔⑥D(zhuǎn)換成更具有識(shí)別度的特征空間,其中具有相同標(biāo)簽集的樣本被聚類在一起,而具有部分相同標(biāo)簽集的能夠協(xié)作地表示彼此,線性轉(zhuǎn)換矩陣目標(biāo)函數(shù)包括兩個(gè)部分:
一方面,完全相同的標(biāo)簽集有相似的轉(zhuǎn)換特征空間,目標(biāo)函數(shù)如下:
W1是一個(gè)語(yǔ)義表:如果樣本圖像xi和樣本圖像xj有完全相同的標(biāo)簽集,也就是Yi=Yj,認(rèn)為是完全語(yǔ)義相關(guān)的,則設(shè)
另一方面,具有部分相同標(biāo)簽樣本之間能夠更好協(xié)作地表示對(duì)方,其目標(biāo)函數(shù)為:
W2是一個(gè)語(yǔ)義表:如果樣本圖像xi和樣本圖像的xj標(biāo)簽集中有一個(gè)或多個(gè)相同的標(biāo)簽,則它們有部分語(yǔ)義相關(guān),則設(shè)最后聯(lián)合兩個(gè)目標(biāo)函數(shù):
通過(guò)聯(lián)合目標(biāo)函數(shù)求解轉(zhuǎn)換矩陣P:
這里M被定義為:
這里D1是一個(gè)對(duì)角矩陣i。結(jié)合式(3)化簡(jiǎn)求解后得到式(9):
求得轉(zhuǎn)換矩陣P:
如圖1所示,本文的標(biāo)注算法分為訓(xùn)練算法和測(cè)試算法兩部分。訓(xùn)練算法用于建模訓(xùn)練集中的訓(xùn)練數(shù)據(jù)X和相應(yīng)標(biāo)簽信息Y,最后得到字典D、標(biāo)簽信息有關(guān)的轉(zhuǎn)換矩陣P和稀疏編碼系數(shù)矩陣Α。測(cè)試算法用于處理訓(xùn)練集之外的新圖像dnew,并為其指定特定的相應(yīng)標(biāo)簽。
圖1 本文圖像標(biāo)注基本框架Fig.1 Basic framework of the proposed image annotation
訓(xùn)練算法:
輸入:訓(xùn)練樣本集 X=[x1,x2,…,xN]和相應(yīng)的標(biāo)簽集合 Y= [y1,y2,…,yN],收斂閾值 ε,迭代最大數(shù) T;
1)以隨機(jī)向量初始化字典D,以隨機(jī)矩陣初始化P和W;
2)更新稀疏編碼系數(shù)矩陣 Α,即固定 D,P和W,利用FSSA(Feature-Sign Search Algorithm)[18]求解 Α;
3)更新字典D,即固定Α,P和W,利用式(2)求解字典D;
4)更新轉(zhuǎn)換矩陣P,即固定Α,D和W,利用式(10)求解轉(zhuǎn)換矩陣P;
5)更新線性變換矩陣W,即固定Α,P和D,利用式(3)中的判別稀疏編碼誤差項(xiàng)求解得 W =QAT(AAT)-1;
6)目標(biāo)函數(shù)相鄰兩次迭代誤差小于閾值ε時(shí),或迭代次數(shù)達(dá)到最大值T時(shí),則算法停止,否則轉(zhuǎn)向2)繼續(xù)執(zhí)行;
輸出:稀疏編碼系數(shù)矩陣Α,更新后的字典D,線性轉(zhuǎn)換矩陣P和線性變換矩陣W。
測(cè)試算法:
1)輸入:訓(xùn)練集的標(biāo)簽集合 Y= [y1,y2,…,yN],學(xué)習(xí)到的字典D,編碼系數(shù)矩陣A,轉(zhuǎn)換矩陣P和新圖像dnew。
2)新圖像dnew的標(biāo)簽編碼系數(shù)向量aq可由式(11)得到:
式中χ1,χ2>0是常量,用于平衡重構(gòu)誤差項(xiàng)與稀疏編碼系數(shù)項(xiàng)。
3)新圖像dnew的標(biāo)簽向量yt可由式(12)得到:
4)從標(biāo)簽項(xiàng)向量yt選擇前若干個(gè)值最大標(biāo)注新圖像dnew。
5)輸出:測(cè)試圖像dnew的若干預(yù)測(cè)關(guān)鍵詞。
為了測(cè)試本文方法的精度和性能,實(shí)驗(yàn)在標(biāo)準(zhǔn)圖像庫(kù)Corel5K上進(jìn)行測(cè)試,該數(shù)據(jù)集是現(xiàn)今圖像標(biāo)注方法的通用數(shù)據(jù)集。該數(shù)據(jù)集包含4999幅圖像,圖片大小為192×128,其中4500幅作為訓(xùn)練集,499幅作為測(cè)試集。所有圖像分為50個(gè)語(yǔ)義類別,每個(gè)語(yǔ)義類別中包含100幅圖像,每幅圖像已經(jīng)被標(biāo)注1~5個(gè)關(guān)鍵詞,其中將至少標(biāo)注了8幅圖像的關(guān)鍵詞入選詞匯表,合計(jì)260個(gè)關(guān)鍵詞。
為了評(píng)價(jià)圖像標(biāo)注方法的性能,本文的標(biāo)注性能通過(guò)精度(查準(zhǔn)率,P)、召回率(查全率,R)和F1值來(lái)衡量。對(duì)于一個(gè)給定的標(biāo)注詞wi,查準(zhǔn)率P=A/B,查全率R=A/C,F(xiàn)1=2*P*R/(P+R)。這里A表示測(cè)試集中通過(guò)算法正確標(biāo)注wi的圖像個(gè)數(shù),B表示測(cè)試集中通過(guò)算法自動(dòng)標(biāo)注了wi的圖像個(gè)數(shù),C表示原始標(biāo)注中包含wi的圖像個(gè)數(shù)。最后,通過(guò)計(jì)算查準(zhǔn)率與查全率的平均值來(lái)評(píng)價(jià)算法的標(biāo)注性能,此外,也要考慮查全率大于0的關(guān)鍵詞個(gè)數(shù),用N+來(lái)表示。
在同樣的測(cè)試集上,為保證研究的一致性和方法比較的公平性,本文的方法MLDDL采用與文獻(xiàn)[19]相同的特征表示方法,特征空間中集成了一系列的局部特征和全局特征。局部特征包括SIFT(Scale-Invariant Feature Transform)和Hue顏色描述符,特征是在多尺度網(wǎng)格上或拉普拉斯興趣點(diǎn)上提取的。每一個(gè)局部特征通過(guò)k-means聚類算法進(jìn)行量化得到對(duì)應(yīng)的BOW(Bag of Words)表示。全局特征包括Gist特征和在 RGB(Red-Green-Blue)、HSV(Hue-Saturation-Value)、Lab顏色空間上的顏色直方圖。除了Gist特征外,所有的特征通過(guò)L1規(guī)范進(jìn)項(xiàng)進(jìn)行歸一化處理,最后聯(lián)合成一個(gè)矩陣作為字典學(xué)習(xí)的輸入信號(hào)進(jìn)行實(shí)驗(yàn)。其中,字典大小與訓(xùn)練樣本數(shù)量相同,參數(shù) λ =0.01,β =0.001,χ1=0.01,χ2=0.1。最后將本文方法與不同的圖像自動(dòng)標(biāo)注方法進(jìn)行比較,其中包括MSC(Multi-lable Sparse Coding)[12]、DCGSC(Distance Constraint Group Sparse Coding)[14]、TagProp[19]、SC(Sparse Coding)[20]、 VGSSL (Voronoi Graph Semi-Supervised Learning)[21]、JEC(Joint Equal Contribution)[22]、FastTag[23]、SFR(Sparse Factor Representation)[24]等。
1)不同標(biāo)簽數(shù)目對(duì)圖像標(biāo)注的影響。
為了能夠了解不同標(biāo)簽數(shù)目對(duì)圖像自動(dòng)標(biāo)注的影響,本文給出了不同標(biāo)簽數(shù)目下的查準(zhǔn)率,召回率和F1值的變化曲線,并將結(jié)果與TagProp和FastTag進(jìn)行比較,如圖2所示。從圖2中可以看出,首先本文的標(biāo)注方法MLDDL在評(píng)價(jià)圖像自動(dòng)標(biāo)注性能的三個(gè)指標(biāo)上隨著標(biāo)簽數(shù)目的增加,其查準(zhǔn)率、召回率和F1值不斷上升;其次,與TagProp和FastTag比較,在標(biāo)簽數(shù)目為1時(shí),本文的標(biāo)注性能低于FastTag而優(yōu)于TagProp,隨著標(biāo)簽數(shù)目的增加,本文的標(biāo)注性在三個(gè)指標(biāo)上都優(yōu)于TagProp和FastTag。
圖2中的曲線變化表明,當(dāng)標(biāo)簽數(shù)目為5時(shí)效果最好,這是因?yàn)闃?biāo)簽數(shù)目較少時(shí),圖像的視覺特征與圖像標(biāo)簽信息之間的相關(guān)性較弱,這樣一來(lái)加入標(biāo)簽線性轉(zhuǎn)換矩陣的效果將受到影響。而數(shù)據(jù)集中每幅圖像的最大標(biāo)注詞為5個(gè),當(dāng)標(biāo)簽個(gè)數(shù)大于5時(shí),圖像的無(wú)關(guān)標(biāo)簽數(shù)目將會(huì)增加,降低了圖像自動(dòng)標(biāo)注的性能和準(zhǔn)確度,而且目前大部分標(biāo)注方法均采用5個(gè)作為最終的標(biāo)注個(gè)數(shù),為了便于比較和分析,本文同樣選擇5標(biāo)簽來(lái)進(jìn)行最終的圖像標(biāo)注。
圖2 不同標(biāo)簽數(shù)目下與TagProp和FastTag的查準(zhǔn)率、召回率和F1值的比較Fig.2 Comparison of precision,recall and F1with TagProp and FastTag at different tag numbers
2)不同圖像標(biāo)注算法的比較與分析。
表1給出了本文的標(biāo)注方法MLDDL與其他方法標(biāo)注的結(jié)果比較,其他相關(guān)方法的實(shí)驗(yàn)數(shù)據(jù)來(lái)自其方法對(duì)應(yīng)的參考文獻(xiàn)(參考文獻(xiàn)詳情見實(shí)驗(yàn)設(shè)置部分),其中方法SC中N+的值在原文獻(xiàn)中沒有給出。通過(guò)比較結(jié)果可以看出,與傳統(tǒng)的稀疏編碼方法MSC、距離約束稀疏/組稀疏編碼方法(DCSC/DCGSC)相比,本文通過(guò)在字典學(xué)習(xí)的初始輸入空間中加入原始樣本的標(biāo)簽信息,并融合多種類型的視覺特征作為字典學(xué)習(xí)的輸入信息,以此來(lái)增強(qiáng)字典的判別性,最后使得標(biāo)注準(zhǔn)確度得到了提升。平均查準(zhǔn)率比MSC提高了10個(gè)百分點(diǎn),比DCGSC提高了3個(gè)百分點(diǎn),比VGSSL提高了10個(gè)百分點(diǎn)。在平均召回率方面,本文的算法比MSC提高了16個(gè)百分點(diǎn),比DCGSC提高了14個(gè)百分點(diǎn),比VGSSL提高了20個(gè)百分點(diǎn)。除此之外,F(xiàn)1和N+也較其他算法有相應(yīng)的提高。
表1 標(biāo)注結(jié)果對(duì)比Tab.1 Comparison of annotation results
圖3給出了通過(guò)使用MLDDL方法進(jìn)行標(biāo)注后,部分圖像的標(biāo)注結(jié)果示例。從圖中可見,與人工標(biāo)注相比,本文的標(biāo)注方法完善了對(duì)圖像內(nèi)容的描述,部分所添加的標(biāo)注詞雖然沒有出現(xiàn)在人工標(biāo)注中,但是該標(biāo)注詞也能夠正確表達(dá)圖像的部分內(nèi)容(如第1幅圖像中的sky和第2幅圖像中的grass等),由此可見,該標(biāo)注詞也是屬于正確的標(biāo)注詞。對(duì)于某些圖像內(nèi)容比較復(fù)雜的圖像(如第4幅圖),也存在錯(cuò)誤的標(biāo)注詞(如第4幅自動(dòng)標(biāo)注的beach),但是總體而言標(biāo)注效果較好。
圖3 標(biāo)注結(jié)果對(duì)比Fig.3 Comparison of annotation results
本文在LC-KSVD的基礎(chǔ)上,提出了基于多標(biāo)簽判別字典學(xué)習(xí)的圖像自動(dòng)標(biāo)注方法。通過(guò)在字典學(xué)習(xí)的初始特征輸入空間中加入標(biāo)簽信息,并融合多種類型的圖像視覺特征,以此來(lái)增強(qiáng)圖像的底層視覺與高層語(yǔ)義之間的相關(guān)性,從而使得所學(xué)習(xí)到的字典具有更強(qiáng)的判別能力,降低語(yǔ)義鴻溝的影響。在Corel5K數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法與其他經(jīng)典的標(biāo)注方法相比,具有較好的標(biāo)注性能,但由于語(yǔ)義鴻溝的存在,對(duì)于背景比較復(fù)雜的圖像而言,標(biāo)注效果仍有待提高,所以下一步的工作是改善特征提取方法,使用不同類型的特征組合方式,使得所提取的底層視覺特征能夠更好地表示圖像的視覺內(nèi)容,提高標(biāo)注準(zhǔn)確度。