徐 勇 張 慧*"/>
徐 勇 張 慧
(安徽財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,安徽 蚌埠 233030)
?
·綜述 · 述評(píng)·
圖像自動(dòng)標(biāo)注方法研究綜述*>
徐 勇 張 慧*
(安徽財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,安徽 蚌埠 233030)
隨著Web2.0的逐步發(fā)展,海量用戶生成的圖像信息充斥于各大網(wǎng)絡(luò)平臺(tái),圖像自動(dòng)標(biāo)注技術(shù)逐步成為圖像檢索以及圖像理解的關(guān)鍵問(wèn)題之一。該文主要通過(guò)對(duì)現(xiàn)有圖像自動(dòng)標(biāo)注方法的文獻(xiàn)進(jìn)行收集和整理,在比較、分析各種方法相關(guān)理論和實(shí)現(xiàn)技術(shù)的基礎(chǔ)上,對(duì)圖像自動(dòng)標(biāo)注方法研究進(jìn)展進(jìn)行評(píng)述;并歸納了各種方法的優(yōu)勢(shì)與不足。得出結(jié)論:圖像自動(dòng)標(biāo)注方法和圖像處理技術(shù)仍然需要從機(jī)器學(xué)習(xí)方面進(jìn)一步的研究與改進(jìn),且可以從圖像信息的標(biāo)注拓展到視頻信息的標(biāo)注。
圖像信息;圖像自動(dòng)標(biāo)注;圖像檢索;多示例;多分類;半監(jiān)督模型
近年來(lái),隨著信息技術(shù)的高速發(fā)展以及攝像機(jī)、手機(jī)等圖像采集設(shè)備的普及,圖像信息充斥在世界的每一個(gè)角落,用其清晰、簡(jiǎn)單的方式描述著日常生活的方方面面。比如,用圖像描述情感(朋友圈的圖像信息),家庭影集的管理,醫(yī)學(xué)圖像檢索,人臉識(shí)別及網(wǎng)絡(luò)購(gòu)物、旅游評(píng)論等。據(jù)微信平臺(tái)統(tǒng)計(jì),僅微信朋友圈每日的圖像信息都超過(guò)一個(gè)億。圖像信息給日常生活帶來(lái)方便的同時(shí),也提出了巨大的挑戰(zhàn)——在浩瀚的圖像海洋中,怎樣檢索到用戶需要的信息;怎樣理解大量用戶生成的圖像內(nèi)容的情感信息等問(wèn)題吸引了很多研究者的思考。為了解決這些問(wèn)題,圖像自動(dòng)標(biāo)注技術(shù)應(yīng)運(yùn)而生,并逐步發(fā)展成為圖像檢索以及圖像理解的關(guān)鍵問(wèn)題之一。
圖像自動(dòng)標(biāo)注是指針對(duì)圖像的視覺(jué)內(nèi)容,通過(guò)機(jī)器學(xué)習(xí)的方法自動(dòng)給圖像添加反應(yīng)其內(nèi)容的文本特征信息的過(guò)程。其基本思想是:利用已標(biāo)注圖像集或其他可獲得的信息,自動(dòng)學(xué)習(xí)語(yǔ)義概念空間與視覺(jué)特征空間的潛在關(guān)聯(lián)或者映射關(guān)系,給未知圖像添加文本關(guān)鍵詞。經(jīng)過(guò)圖像自動(dòng)標(biāo)注技術(shù)的處理,圖像信息問(wèn)題可以轉(zhuǎn)化為技術(shù)已經(jīng)相對(duì)較成熟的文本信息處理問(wèn)題。
圖像自動(dòng)標(biāo)注技術(shù)的運(yùn)用使得用戶可以更加容易地獲得海量網(wǎng)絡(luò)圖像,有效地組織、查詢和瀏覽大規(guī)模圖像。這樣,網(wǎng)絡(luò)上數(shù)以萬(wàn)計(jì)的圖像信息就可以被很好的利用和分析。
隨著Twitter,F(xiàn)acebook,微博等社交平臺(tái)上的圖片信息呈指數(shù)增長(zhǎng),圖像自動(dòng)標(biāo)注技術(shù)逐漸成為圖像分析、應(yīng)用領(lǐng)域的關(guān)鍵技術(shù)之一,受到越來(lái)越多的國(guó)內(nèi)外研究人員的關(guān)注。為了更好的了解圖像自動(dòng)標(biāo)注方法的研究現(xiàn)狀,本文對(duì)現(xiàn)有圖像自動(dòng)標(biāo)注方法的文獻(xiàn)進(jìn)行收集和整理,在了解相關(guān)理論和分析的基礎(chǔ)上,對(duì)圖像自動(dòng)標(biāo)注問(wèn)題研究現(xiàn)狀進(jìn)行評(píng)述;在此基礎(chǔ)上對(duì)各種圖像標(biāo)注的方法進(jìn)行了比較。
隨著互聯(lián)網(wǎng)的普及以及多媒體技術(shù)的快速發(fā)展,海量的圖像信息因?yàn)槠浞奖?、?jiǎn)潔、快速的特點(diǎn)充斥于各大網(wǎng)絡(luò)平臺(tái)。為了更好的處理圖像信息,圖像標(biāo)注技術(shù)受到了國(guó)內(nèi)外研究者的關(guān)注,并逐漸發(fā)展成為圖像、圖形領(lǐng)域的熱點(diǎn)問(wèn)題。傳統(tǒng)的圖像標(biāo)注是人工完成的,對(duì)圖像的理解與標(biāo)注相對(duì)準(zhǔn)確,但是在大數(shù)據(jù)環(huán)境下的圖像標(biāo)注中,人工標(biāo)注工作量巨大,并且容易受到主觀經(jīng)驗(yàn)的影響,對(duì)同一幅圖像的標(biāo)注不一致。于是,有學(xué)者利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)圖像的自動(dòng)標(biāo)注。
圖像自動(dòng)標(biāo)注技術(shù)從一開始就得到很多研究者的關(guān)注,研究人員提出了各種圖像自動(dòng)標(biāo)注模型。其中很多模型經(jīng)過(guò)不斷地修改與改進(jìn),都能達(dá)到相對(duì)較高的標(biāo)注精度。
早期,研究人員將語(yǔ)言學(xué)習(xí)領(lǐng)域的方法引入圖像標(biāo)注,通過(guò)理解高層語(yǔ)義,將圖像特征翻譯為對(duì)應(yīng)的文本關(guān)鍵詞,這樣就實(shí)現(xiàn)了從圖像到文本的轉(zhuǎn)化。
要想將圖像翻譯為文本,就需要尋找圖像的構(gòu)成單元。所以研究人員首先將圖像進(jìn)行分割,然后再統(tǒng)計(jì)文本與關(guān)鍵詞之間的共生關(guān)系,實(shí)現(xiàn)圖像標(biāo)注。Mori等人在1999年提出了共生模型(Co-occurrenceModel)[1],從此越來(lái)越多的研究人員開始關(guān)注圖像自動(dòng)標(biāo)注領(lǐng)域。共生模型的基本思想是先將圖像劃分成規(guī)則的區(qū)域,對(duì)分割的圖像區(qū)域進(jìn)行分類,然后統(tǒng)計(jì)圖像區(qū)域與關(guān)鍵詞的共生概率,用共生概率大的關(guān)鍵詞標(biāo)注圖像。此后,Duygulu等人提出了翻譯模型(Translation Modal,簡(jiǎn)稱TM)[2],利用傳統(tǒng)的語(yǔ)言統(tǒng)計(jì)翻譯模型將語(yǔ)義概念翻譯為由圖像區(qū)域聚類產(chǎn)生的blobs。該模型也需要分割圖像并對(duì)圖像區(qū)域進(jìn)行聚類。Jeon等人基于圖像分割提出了跨媒體相關(guān)模型(Cross-Media Relevance Model,CMRM)[3],主要是以底層特征(例如顏色,形狀)對(duì)圖像區(qū)域進(jìn)行聚類。圖像區(qū)域本身與底層特征沒(méi)有密切聯(lián)系,所以圖像標(biāo)注的準(zhǔn)確率不高。
早期的這些方法都是通過(guò)圖像分割、區(qū)域分類和統(tǒng)計(jì)共生概率的方法進(jìn)行圖像自動(dòng)標(biāo)注。這些方法比較簡(jiǎn)單,高層語(yǔ)義關(guān)鍵詞與圖像底層視覺(jué)特征之間沒(méi)有一一對(duì)應(yīng)。早期的方法雖然對(duì)于圖像標(biāo)注的正確率不高,但是建立圖像和語(yǔ)義概念的統(tǒng)計(jì)概率模型,開啟了圖像自動(dòng)標(biāo)注的研究,吸引了許多學(xué)者的關(guān)注,為后續(xù)圖像自動(dòng)標(biāo)注方法提供了參考。
1.1 相關(guān)概念
基于分類的圖像標(biāo)注模型是一種有監(jiān)督的機(jī)器學(xué)習(xí)方法。分類器訓(xùn)練過(guò)程會(huì)不斷地通過(guò)反饋信息調(diào)整分類器,使得分類器達(dá)到某個(gè)精度。分類模型的基本思想是:先對(duì)圖像進(jìn)行分割,過(guò)濾噪聲和過(guò)分割部分,把每一個(gè)語(yǔ)義概念當(dāng)作一個(gè)類別,對(duì)分割后的圖像進(jìn)行分類。圖像的自動(dòng)標(biāo)注實(shí)際上可以看作圖像分類問(wèn)題來(lái)處理。
圖像分類不同于傳統(tǒng)的分類問(wèn)題,每幅圖像由多個(gè)分割區(qū)域組成、同時(shí)屬于多個(gè)語(yǔ)義類別,所以必須用含有該幅圖像語(yǔ)義的多個(gè)特征詞標(biāo)注。比如,一幅圖像中有飛機(jī)、老虎、草坪等信息,這幅圖像就同時(shí)屬于這幾個(gè)語(yǔ)義類別,圖像的標(biāo)注關(guān)鍵詞就為飛機(jī)、老虎、草坪。分割區(qū)域圖像分類結(jié)束,圖像自動(dòng)標(biāo)注問(wèn)題也就解決了。
這種圖像自動(dòng)標(biāo)注方法的重點(diǎn)在分類,分類器的好壞直接影響著圖像標(biāo)注的結(jié)果,其代表方法有SVM方法、貝葉斯方法、k-近鄰方法、決策樹方法等。提高分類器的精度,圖像標(biāo)注的準(zhǔn)確性就會(huì)提高。
從基于分類的圖像自動(dòng)標(biāo)注基本思想可知,對(duì)一幅圖像進(jìn)行自動(dòng)標(biāo)注,主要分為兩個(gè)階段:標(biāo)注模型訓(xùn)練階段(用大量的已分類圖像訓(xùn)練分類器)和圖像標(biāo)注階段。如圖1所示。
1.2 經(jīng)典分類標(biāo)注方法
1.2.1 多示例多標(biāo)記標(biāo)注
一幅圖像由多個(gè)區(qū)域組成,不同的區(qū)域?qū)?yīng)不同的語(yǔ)義關(guān)鍵字。比如一幅圖像中有藍(lán)天、白云、草坪,馬等語(yǔ)義,其中的任何一個(gè)語(yǔ)義只是存在于圖像中的某個(gè)區(qū)域,并不是圖的全局都包含這些語(yǔ)義。所以全局特征不能很好的表示圖像的高層語(yǔ)義。多示例學(xué)習(xí)問(wèn)題被引入解決圖像標(biāo)注的有歧義問(wèn)題。Dietterich[4]等人首先用多示例學(xué)習(xí)模型來(lái)研究藥物活性問(wèn)題,通過(guò)訓(xùn)練正包和反包生成模型,對(duì)未知圖像包進(jìn)行標(biāo)注。在此多示例圖像標(biāo)注研究的基礎(chǔ)上,Yang C等人[5]提出了多示例學(xué)習(xí)領(lǐng)域經(jīng)典的多樣性密度(Diverse Density)算法來(lái)解決標(biāo)注問(wèn)題。算法的基本思想是[5],如果特征空間中某點(diǎn)最能表征某個(gè)給定關(guān)鍵詞的
圖1 圖像自動(dòng)標(biāo)注分類模型
語(yǔ)義,那么正包中應(yīng)該至少存在一個(gè)示例靠近該點(diǎn),而反包中的所有示例應(yīng)該遠(yuǎn)離該點(diǎn)。因此該點(diǎn)周圍應(yīng)當(dāng)密集分布屬于多個(gè)不同正包的示例,同時(shí)遠(yuǎn)離所有反包中的示例。特征空間中如果某點(diǎn)附近出現(xiàn)來(lái)自于不同正包中的示例越多,反包中的示例離得越遠(yuǎn),則該點(diǎn)表征了給定關(guān)鍵詞語(yǔ)義的概率就越大。用多樣性密度來(lái)度量這種概率,具有最大概率的點(diǎn)即為要尋找的目標(biāo)點(diǎn)。
一般來(lái)說(shuō),一幅圖像由多個(gè)示例組成;同時(shí),一幅圖像也屬于多個(gè)語(yǔ)義關(guān)鍵詞,這樣圖像標(biāo)注問(wèn)題就屬于多標(biāo)記問(wèn)題。Tang J,Cusino C等人[6-7]用多標(biāo)記學(xué)習(xí)問(wèn)題的思路解決圖像標(biāo)注問(wèn)題,在多標(biāo)記學(xué)習(xí)過(guò)程中,先將多標(biāo)記學(xué)習(xí)問(wèn)題轉(zhuǎn)化為多個(gè)單標(biāo)記學(xué)習(xí)問(wèn)題,提出了基于支持向量機(jī)的自動(dòng)圖像標(biāo)注算法。
多示例多標(biāo)記的圖像標(biāo)注方法,只是提供了圖像底層特征與高層語(yǔ)義之間的更好的對(duì)應(yīng)的新思路,對(duì)于提取出來(lái)的特征向量仍然需要訓(xùn)練分類模型進(jìn)行分類。
1.2.2 多分類標(biāo)注
為了進(jìn)一步提高圖像標(biāo)注的準(zhǔn)確率,很多研究者提出了多分類模型。Carnerio提出了一種有監(jiān)督的多分類標(biāo)注方法(Supervised Multiclass Labeling,簡(jiǎn)稱SML)[8],這種方法將每個(gè)關(guān)鍵詞看作是一個(gè)類,通過(guò)機(jī)器學(xué)習(xí)中的多示例學(xué)習(xí)方法來(lái)為每個(gè)類生成對(duì)應(yīng)的條件密度函數(shù),并將訓(xùn)練圖像看作是與它相關(guān)的標(biāo)注關(guān)鍵詞所對(duì)應(yīng)的條件密度函數(shù)的一個(gè)高斯混合模型。路晶,金奕江等人[9]提出了使用基于SVM的否定概率和法的圖像標(biāo)注的方法,此標(biāo)注方法的基本思想是:先建立小規(guī)模圖像庫(kù)為訓(xùn)練集,庫(kù)中每個(gè)圖像標(biāo)有單一的語(yǔ)義標(biāo)簽,再利用其底層特征,以SVM為子分類器,“否定概率和”法為合成方法構(gòu)建基于成對(duì)藕合方式(PWC)的多類分類器,并對(duì)未標(biāo)注的圖像進(jìn)行分類,結(jié)果以N維標(biāo)注向量表示。臧淼[10]等人提出了Bayes多分類模型,將圖像標(biāo)注看做多分類問(wèn)題,然后選擇條件概率密度高的作為圖像標(biāo)注詞。吳偉等人[11]改進(jìn)了支持向量機(jī)多分類模型,其中把直方圖交叉距離作為核函數(shù),傳統(tǒng)支持向量機(jī)的輸出值變換為樣本到超平面的距離,選擇圖像特征中冗余較小的視覺(jué)特征,建立分類器,用距離大小來(lái)判斷類別。
1.2.3 其它分類方法
除了以上提到的方法,還有很多分類模型被引入到了圖像自動(dòng)標(biāo)注領(lǐng)域,如基于聚類、決策樹、K-means、貝葉斯模型等。Wanglei等人[12]提出采用基于子空間的聚類算法,用K-means算法生成blob-token,并通過(guò)統(tǒng)計(jì)token和key-word之間關(guān)聯(lián),建立模型,實(shí)現(xiàn)圖像的標(biāo)注。Yeung等人[13]則通過(guò)利用相關(guān)反饋技術(shù)構(gòu)造一個(gè)語(yǔ)義模板,把視覺(jué)特征和高級(jí)語(yǔ)義概念相關(guān)聯(lián),用于圖像的標(biāo)注。Li Wei等人[14]用分類的方法在visual terms和keyword之間建立關(guān)聯(lián),以此構(gòu)建分類器,將分類器用于后續(xù)圖像的標(biāo)注。
以上這幾種聚類方法,通常都是基于視覺(jué)特征,將具有視覺(jué)特征的區(qū)域劃分為同一類別,只要視覺(jué)特征相同就可以歸為一類,不管其語(yǔ)義特征是否相同,都用相同的關(guān)鍵字,所以這種分類方法的圖像標(biāo)注的準(zhǔn)確率不是特別高。很多研究者提出了基于語(yǔ)義的聚類來(lái)提高圖像標(biāo)注的準(zhǔn)確性。張?jiān)澹E杰等人[15]從語(yǔ)義約束的聚類算法方面對(duì)圖像區(qū)域進(jìn)行聚類,然后進(jìn)行圖像標(biāo)注。在圖像標(biāo)注階段,他們使用貝葉斯理論進(jìn)行標(biāo)注。在這種方法中,對(duì)于給定的一幅圖像,計(jì)算語(yǔ)義概念的后驗(yàn)概率。由于聚類區(qū)域彼此之間存在著依賴關(guān)系,不相互獨(dú)立,影響概率的計(jì)算方法,他們提出貪心選擇連接(GSJ)算法計(jì)算出聚類區(qū)域的獨(dú)立子集。經(jīng)過(guò)貪心選擇連接算法后,使用貝葉斯理論進(jìn)行語(yǔ)義標(biāo)注。劉詠梅等人[16]提出了一種場(chǎng)景語(yǔ)義樹圖像標(biāo)注方法(SSTM),采集標(biāo)注字信息,利用PLSA(Probability Latent Semantic Analysis)模型進(jìn)行場(chǎng)景聚類,高斯混合模型(GMM)建立視覺(jué)場(chǎng)景空間,對(duì)特定場(chǎng)景的圖像建立一種樹型結(jié)構(gòu)用于標(biāo)注該場(chǎng)景下的待標(biāo)注圖像。
Hinton[17]提出了深度信念網(wǎng),它由一組受限玻爾茲曼機(jī)(RBM)組成,可以實(shí)現(xiàn)自主地進(jìn)行特征學(xué)習(xí),這一發(fā)現(xiàn)促使了對(duì)深度學(xué)習(xí)[18]領(lǐng)域的研究,并將這項(xiàng)技術(shù)應(yīng)用于圖像分類標(biāo)注領(lǐng)域中。2011年,Marc’ Aurelio Ranzato等人[19]利用深度學(xué)習(xí)的思想,設(shè)計(jì)實(shí)現(xiàn)了深度生成模型完成特征學(xué)習(xí),并將該模型應(yīng)用于圖像識(shí)別和分類工作中。深度學(xué)習(xí)的興起,促進(jìn)了基于圖像分類的圖像標(biāo)注領(lǐng)域的進(jìn)一步完善。
相關(guān)模型圖像自動(dòng)標(biāo)注方法是基于早期的概率關(guān)聯(lián)模型而來(lái),不同于概率關(guān)聯(lián)模型的地方是它不僅僅簡(jiǎn)單地統(tǒng)計(jì)圖像區(qū)域與關(guān)鍵詞出現(xiàn)的共生概率,而是建立圖像與語(yǔ)義關(guān)鍵詞之間的概率相關(guān)模型。通過(guò)關(guān)聯(lián)模型,給待標(biāo)注圖像找到與其相關(guān)性概率最大的一組語(yǔ)義關(guān)鍵詞來(lái)標(biāo)注圖像。
早期Jeon等人的概率統(tǒng)計(jì)模型標(biāo)注效率低,正確性低。很多研究者都通過(guò)改進(jìn)相關(guān)模型來(lái)提高圖像標(biāo)注的準(zhǔn)確性。2003年Lavrenko在CMRM模型的基礎(chǔ)上改進(jìn)并提出了連續(xù)特征相關(guān)模型(Continuous-space Relevance Model,簡(jiǎn)寫CRM)[20]。隨后,F(xiàn)eng S,Lavrenko等人又在CMRM和CRM模型的基礎(chǔ)上改進(jìn)而形成了多伯努利相關(guān)模型(Multiple-Bernoulli Relevance Model,簡(jiǎn)寫MBRM)[21],此模型仍然采用規(guī)則的網(wǎng)格劃分圖像,但是標(biāo)注關(guān)鍵詞的概率分布是通過(guò)MBRM來(lái)估計(jì)的。Pan等人采用了EM算法來(lái)估計(jì)圖像區(qū)域與關(guān)鍵詞的關(guān)系[22]。包翠竹在跨媒體相關(guān)模型的基礎(chǔ)上改進(jìn)了詞匯平滑處理的方法,通過(guò)簡(jiǎn)潔的圖像特征表示方法和相似度計(jì)算方法更準(zhǔn)確地度量了圖像與圖像之間的相關(guān)性[23]。該方法可以快速的進(jìn)行圖像標(biāo)注,不僅提高了圖像標(biāo)注的正確率,而且提高了速率。
2007年,芮曉光,袁平波等人[24]結(jié)合相關(guān)模型,提出了一種比較新穎的自動(dòng)圖像標(biāo)注框架。其主要思想是對(duì)已經(jīng)標(biāo)注過(guò)的圖像集進(jìn)行分割,使其成為比較小的圖像區(qū)域,再利用軟約束的半監(jiān)督圖像聚類算法對(duì)已經(jīng)分割好的圖像區(qū)域進(jìn)行語(yǔ)義聚類,實(shí)現(xiàn)圖像集在視覺(jué)特征空間中的量化表示,每個(gè)子類稱為blobs。然后再結(jié)合概率相關(guān)模型和Manifold排序?qū)W習(xí)算法,建立語(yǔ)義概念和blobs之間的概率關(guān)系。當(dāng)有未標(biāo)注的圖像時(shí),通過(guò)判斷其區(qū)域所屬的blob,即可利用此概率關(guān)系進(jìn)行自動(dòng)標(biāo)注。
以上相關(guān)模型的自動(dòng)圖像標(biāo)注方法,都是先對(duì)圖像進(jìn)行分割,對(duì)分割后的圖像子區(qū)域與特征關(guān)鍵詞利用關(guān)聯(lián)模型求聯(lián)合概率,然后對(duì)圖像進(jìn)行標(biāo)注。在這個(gè)過(guò)程中,圖像標(biāo)注的好壞受到圖像分割技術(shù)的影響。而目前圖像分割問(wèn)題尚沒(méi)有得到很好的解決,因此相關(guān)模型的準(zhǔn)確率和可信度都不是特別高。
為了避免圖像分割造成的圖像信息丟失,提高圖像標(biāo)注的準(zhǔn)確率。郭玉堂,韓昌剛提出基于典型相關(guān)分析和高斯混合模型的自動(dòng)圖像標(biāo)注方法[25]。其主要思想是:使用典型相關(guān)分析(CCA)對(duì)融合后的特征進(jìn)行圖像標(biāo)注,同時(shí)利用高斯混合模型(GMM)估計(jì)每一個(gè)關(guān)鍵詞的先驗(yàn)概率分布,使用GEM算法估計(jì)GMM中的參數(shù)。最后利用貝葉斯分類器進(jìn)行圖像標(biāo)注,選出概率最大的R個(gè)關(guān)鍵詞作為圖像的標(biāo)注詞,并利用詞間語(yǔ)義關(guān)系來(lái)優(yōu)化標(biāo)注結(jié)果。周全等人提出基于多尺度上下文的圖像標(biāo)注方法[26],先對(duì)每層分割后的圖像進(jìn)行識(shí)別,然后再利用貝葉斯定理,通過(guò)線性加權(quán),然后對(duì)每層識(shí)別的結(jié)果進(jìn)行融合,從而達(dá)到對(duì)整幅圖像的自動(dòng)標(biāo)注。改善了因?yàn)閳D像分割造成的圖像信息丟失,提高圖像標(biāo)注的結(jié)果。劉凱等人[27]結(jié)合深度玻爾茲曼機(jī)與典型相關(guān)分析的特點(diǎn),提出了DBM-CCA算法,利用玻爾茲曼機(jī)實(shí)現(xiàn)從低層圖像特征向稀疏高層語(yǔ)義轉(zhuǎn)換,然后通過(guò)典型相關(guān)分析建立子空間的映射關(guān)系,從而實(shí)現(xiàn)圖像標(biāo)注。與典型相關(guān)分析和高斯混合模型的圖像標(biāo)注方法相比,查全率和查準(zhǔn)率都有明顯提高。
3.1 相關(guān)概念
半監(jiān)督模型圖像自動(dòng)標(biāo)注是一種重要的機(jī)器學(xué)習(xí)方法,已經(jīng)標(biāo)注的圖像信息和未被標(biāo)注的圖像信息都要參與到機(jī)器的學(xué)習(xí)過(guò)程中,與前面提到的基于分類的有監(jiān)督機(jī)器學(xué)習(xí)方法不同,在學(xué)習(xí)過(guò)程中可以利用的圖像信息更多,對(duì)信息的了解更加清楚,它適用于圖像信息總量大,而已被標(biāo)注的圖像信息很少的情形。這種圖像標(biāo)注方法在大數(shù)據(jù)環(huán)境下可以得到很好地推廣。
圖學(xué)習(xí)模型是一種重要的半監(jiān)督模型圖像標(biāo)注技術(shù)之一[28]?;趫D學(xué)習(xí)算法的具體步驟是:圖節(jié)點(diǎn)可以用每幅圖像或者標(biāo)注關(guān)鍵詞表示,邊可以用標(biāo)注關(guān)鍵詞之間或者圖像之間的相似關(guān)系來(lái)表示,通過(guò)圖學(xué)習(xí)算法來(lái)實(shí)現(xiàn)標(biāo)注,即信息從訓(xùn)練圖像上傳遞到待標(biāo)注圖像上,以此來(lái)完成標(biāo)注任務(wù)。
基于圖學(xué)習(xí)的標(biāo)注算法,就是想通過(guò)圖像間關(guān)系、詞間關(guān)系、圖像和關(guān)鍵詞的關(guān)系這3種關(guān)系合作的方式,互相配合、互相補(bǔ)充,實(shí)現(xiàn)信息在圖像視覺(jué)層次和高級(jí)語(yǔ)義關(guān)鍵詞之間傳遞。一般來(lái)說(shuō),關(guān)鍵詞和圖像之間有以下幾種關(guān)系[28]:
(1)圖像間關(guān)系,即兩幅圖像之間由視覺(jué)特征所決定的相關(guān)性;
(2)詞間關(guān)系,即兩個(gè)詞對(duì)于一幅圖像的適合程度;
(3)圖像到詞的關(guān)系,即通過(guò)圖像產(chǎn)生語(yǔ)義關(guān)鍵詞的可能性,一般通過(guò)某種模型來(lái)進(jìn)行訓(xùn)練的基礎(chǔ)上估計(jì)產(chǎn)生;
(4)詞到圖像的關(guān)系,即通過(guò)給定的語(yǔ)義關(guān)鍵詞來(lái)取得產(chǎn)生圖像的后驗(yàn)概率。
3.2 半監(jiān)督模型方法
Pan首先將圖學(xué)習(xí)模型應(yīng)用于圖像標(biāo)注領(lǐng)域,提出了一種基于圖模型的自動(dòng)圖像標(biāo)注方法(Graph-based Automatic Caption,GCap)[29],該方法的主要思想是:將圖像、圖像區(qū)域以及標(biāo)注詞分別作為3種不同類型的圖的節(jié)點(diǎn),并根據(jù)它們之間的相關(guān)性來(lái)連接構(gòu)造圖。這種方法初步提出了圖模型標(biāo)注的基本思想,對(duì)于圖像節(jié)點(diǎn)之間的權(quán)值問(wèn)題以及標(biāo)注詞與標(biāo)注詞、圖像與圖像之間的相關(guān)性問(wèn)題考慮的較少。圖像標(biāo)注結(jié)果不理想。
在Pan提出的圖像標(biāo)注方法基礎(chǔ)上,還有其他一些改進(jìn)方法,如Liu提出了一種自適應(yīng)的基于圖模型的圖像標(biāo)注方法(Adaptive Graph-based Annotation method,AGAnn)[30],該方法綜合考慮了圖像與圖像之間的關(guān)系、圖像與標(biāo)注詞之間的關(guān)系以及標(biāo)注詞與標(biāo)注詞之間的關(guān)系,并提出了用WordNet獲得詞間的關(guān)系來(lái)為圖剪枝,設(shè)計(jì)了基于流形排序算法(Manifold-Ranking)的自適應(yīng)相似圖來(lái)對(duì)這些信息進(jìn)行傳播,最終實(shí)現(xiàn)圖像標(biāo)注。在該框架下,基于圖的圖像標(biāo)注被分為兩個(gè)階段來(lái)完成,即基本圖像標(biāo)注與圖像標(biāo)注改善。Tong H等人[31]提出的通過(guò)視覺(jué)相似度來(lái)標(biāo)注關(guān)鍵詞,但是只考慮了圖像間的相似度,構(gòu)建k-NN相似圖,沒(méi)有考慮關(guān)鍵詞間的相關(guān)性。Liu等人[32]在2006年提出的自適應(yīng)圖模型標(biāo)注方法的基礎(chǔ)上提出了一個(gè)基于圖模型的最近鄰生成鏈(Nearest Span-ning Chain,NSC)方法來(lái)標(biāo)注圖像,在該模型中給出了圖像相似性的統(tǒng)計(jì)估計(jì)。將基于圖學(xué)習(xí)的圖像標(biāo)注技術(shù)向前推動(dòng)了一步。
除了基于圖學(xué)習(xí)的半監(jiān)督圖像標(biāo)注的方法,其他半監(jiān)督學(xué)習(xí)的方法也得到關(guān)注,Zhu[33]總結(jié)了半監(jiān)督學(xué)習(xí)的一些方法,其中基于圖拉普拉斯的半監(jiān)督學(xué)習(xí)方法得到了很多關(guān)注,許多相關(guān)算法被用于網(wǎng)絡(luò)圖像標(biāo)注。Ma等人[34]提出了一個(gè)基于稀疏結(jié)構(gòu)化特征選擇的網(wǎng)絡(luò)圖像標(biāo)注方法,主要應(yīng)用了圖拉普拉斯半監(jiān)督學(xué)習(xí)的方法,同時(shí)進(jìn)行特征選擇,考慮了不同特征之間的關(guān)聯(lián)。
盡管圖拉普拉斯有比較好的性能,獲得了較廣泛的應(yīng)用,Kim等人[35]指出圖拉普拉斯的恒定零空間導(dǎo)致其解偏向一個(gè)常函數(shù),對(duì)于動(dòng)態(tài)的情況,具有較差的推斷能力。并提出了二階Hessian能,它可以使函數(shù)值隨著測(cè)地距離線性變化,而不是恒定為某一值,同時(shí)更好地保持局部流形結(jié)構(gòu)。該種方法提出后得到了廣泛的應(yīng)用。在此基礎(chǔ)上,Lu等人[36]提出了基于二階Hessian能的主動(dòng)學(xué)習(xí)算法HOD進(jìn)行最優(yōu)化設(shè)計(jì)。Zheng等人[37]改進(jìn)了Lu等人的工作,提出了Hessian稀疏編碼。
面對(duì)網(wǎng)絡(luò)平臺(tái)圖像信息的大量增長(zhǎng),很多研究人員開始關(guān)注Web2.0大規(guī)模的圖像信息標(biāo)注。史彩娟等人提出了一種基于I2,1/2矩陣范數(shù)和共享子空間的半監(jiān)督稀疏特征選擇算法(即SFSLS)[38]?;趫D拉普拉斯的半監(jiān)督學(xué)習(xí),應(yīng)用I2,1/2矩陣范數(shù)來(lái)選擇稀疏矩陣和特征,學(xué)習(xí)不同圖像特征之間的關(guān)聯(lián)信息,同時(shí)利用了有標(biāo)簽圖像信息和無(wú)標(biāo)簽圖像信息,設(shè)計(jì)迭代算法來(lái)最優(yōu)化目標(biāo)函數(shù),使得該方法更加適用于大規(guī)模圖像標(biāo)注。大規(guī)模的圖像信息是存在很多噪聲的,與小范圍的、明確的圖像標(biāo)注又有差別。田瞡等人提出一種基于概率距離尺度學(xué)習(xí)的圖像標(biāo)注方法[39]。該方法利用距離尺度的方法得到語(yǔ)義上的距離尺度,將概率主題模型的方法用于挖掘網(wǎng)絡(luò)中大量模糊的,潛在的但是不確定的相關(guān)信息,改進(jìn)了圖像標(biāo)注的性能。
對(duì)圖像自動(dòng)標(biāo)注方法進(jìn)行研究、分析后發(fā)現(xiàn)圖像自動(dòng)標(biāo)注方法研究是當(dāng)前熱點(diǎn)問(wèn)題之一。在圖像標(biāo)注方法研究方面,研究者們做出了很多努力,對(duì)圖像自動(dòng)標(biāo)注領(lǐng)域做出了貢獻(xiàn)。但是現(xiàn)階段,圖像標(biāo)注的方法仍然需要不斷的改進(jìn)與創(chuàng)新。
早期的圖像標(biāo)注方法,雖然標(biāo)注的準(zhǔn)確率不高,但是為圖像標(biāo)注領(lǐng)域的發(fā)展提供了很好的方法和思路,開啟了圖像信息處理嶄新的一步。
基于分類的圖像標(biāo)注,國(guó)內(nèi)外學(xué)者提出很多方法,一大部分是通過(guò)先提取訓(xùn)練圖像的底層特征,然后在底層特征和關(guān)鍵詞分類器之間建立分類模型,再對(duì)未標(biāo)注的圖像集運(yùn)用這個(gè)模型進(jìn)行分類,完成圖像標(biāo)注。早期的分類器只能實(shí)現(xiàn)圖像與關(guān)鍵詞之間的一對(duì)一標(biāo)注,后來(lái)經(jīng)過(guò)對(duì)分類器的改進(jìn),可以實(shí)現(xiàn)一對(duì)多的分類。但是基于分類的圖像標(biāo)注,無(wú)論是一對(duì)一的分類方式還是一對(duì)多的分類方法,都在不同程度上受到分類器個(gè)數(shù)的約束和限制,對(duì)于大數(shù)據(jù)環(huán)境下的圖像或者大量關(guān)鍵詞的標(biāo)注情況不適用。但是,基于分類模型的圖像標(biāo)注在圖像識(shí)別和檢索方面有很明顯的優(yōu)越性。
相關(guān)模型的圖像標(biāo)注方法是通過(guò)構(gòu)建一個(gè)概率統(tǒng)計(jì)模型來(lái)計(jì)算圖像內(nèi)容和標(biāo)注關(guān)鍵詞之間的聯(lián)合概率。圖像底層特征與標(biāo)注關(guān)鍵詞之間不是一一對(duì)應(yīng)的,聯(lián)系不是太緊密。與分類模型相比少了圖像底層特征的提取,標(biāo)注過(guò)程相對(duì)簡(jiǎn)潔。但是要想準(zhǔn)確得到圖像內(nèi)容與標(biāo)注詞之間的聯(lián)合概率,就要分析語(yǔ)義關(guān)鍵詞之間存在的共生概率關(guān)系,語(yǔ)義關(guān)鍵詞之間的不獨(dú)立性,會(huì)造成計(jì)算得到聯(lián)合概率不準(zhǔn)確,而影響標(biāo)注結(jié)果。
基于半監(jiān)督模型圖像標(biāo)注方法的優(yōu)點(diǎn)是在學(xué)習(xí)階段可以利用更多的數(shù)據(jù),更加適合于已標(biāo)注的訓(xùn)練數(shù)據(jù)量相對(duì)較小、總數(shù)據(jù)量較大的情況。這種圖像標(biāo)注方法在大數(shù)據(jù)環(huán)境下可以得到很好地推廣。但是該種標(biāo)注方法也有缺點(diǎn),在標(biāo)注的過(guò)程中必須考慮圖像間的權(quán)值問(wèn)題,以及圖像與圖像之間,詞與詞之間,圖像與詞語(yǔ)之間的相關(guān)性問(wèn)題,而這些問(wèn)題也是基于圖像標(biāo)注過(guò)程中的關(guān)鍵點(diǎn)與難點(diǎn)。
基于分類模型的圖像標(biāo)注方法是一種有監(jiān)督的圖像標(biāo)注方法,需要根據(jù)反饋信息調(diào)整分類器,雖然正確率有一定的提高,但是要花大量的人力、物力,標(biāo)注成本較高。相關(guān)模型的圖像標(biāo)注方法是一種無(wú)監(jiān)督的圖像標(biāo)注方法,人力成本低,但是圖像底層特征與高層語(yǔ)義之間的鴻溝以及語(yǔ)義之間的不獨(dú)立性,會(huì)導(dǎo)致聯(lián)合概率計(jì)算的不準(zhǔn)確。半監(jiān)督模型的圖像標(biāo)注方法利用有標(biāo)注的圖像信息和未標(biāo)注的圖像信息進(jìn)行學(xué)習(xí),增加參與學(xué)習(xí)的圖像數(shù)量。但是高層語(yǔ)義與底層視覺(jué)特征之間存在“語(yǔ)義鴻溝”,單純地用增加學(xué)習(xí)的圖片數(shù)量,不能提高圖像標(biāo)注的準(zhǔn)確率。
文中提到的圖像標(biāo)注方法,都在一定程度上解決了語(yǔ)義鴻溝的問(wèn)題。但是圖像處理技術(shù)方面的欠缺,也對(duì)圖像自動(dòng)標(biāo)注技術(shù)的研究與發(fā)展有一定的影響。比如,為了對(duì)圖像區(qū)域進(jìn)行分類,提取圖像的顏色、紋理、形狀等底層特征,原來(lái)的圖像特征會(huì)急劇下降;圖像分割技術(shù)尚不成熟,在很大程度上會(huì)影響語(yǔ)義關(guān)鍵詞的提?。徽Z(yǔ)義映射機(jī)制是基于先驗(yàn)知識(shí)的,往往需要人機(jī)交互;建立能夠表示高層語(yǔ)義與底層特征的模型是很困難的。圖像自動(dòng)標(biāo)注方法有待于進(jìn)一步的研究與改進(jìn)。
近年來(lái),隨著機(jī)器學(xué)習(xí)的出現(xiàn),越來(lái)越多的機(jī)器學(xué)習(xí)方法被用于圖像標(biāo)注,無(wú)監(jiān)督學(xué)習(xí)、有監(jiān)督學(xué)習(xí)與半監(jiān)督學(xué)習(xí)的圖像標(biāo)注技術(shù)都存在不足。研究者們?cè)趫D像標(biāo)注領(lǐng)域仍然需要花費(fèi)大量的時(shí)間進(jìn)行研究。在未來(lái),隨著信息技術(shù)的不斷發(fā)展,機(jī)器學(xué)習(xí)是圖像標(biāo)注領(lǐng)域的重要研究方向。
無(wú)監(jiān)督學(xué)習(xí)直接通過(guò)模型統(tǒng)計(jì),得到底層特征與高層語(yǔ)義之間的聯(lián)合概率來(lái)標(biāo)注圖像。語(yǔ)義與圖像之間沒(méi)有一一對(duì)應(yīng)的關(guān)系,很多時(shí)候得到的結(jié)果說(shuō)服力不強(qiáng)。有監(jiān)督學(xué)習(xí)需要花費(fèi)大量的人力、物力來(lái)訓(xùn)練分類器,并且還會(huì)受到分類器的限制;半監(jiān)督學(xué)習(xí)模型,有標(biāo)注的圖像類別和未標(biāo)注的圖像類別都將被用來(lái)學(xué)習(xí),但是高層語(yǔ)義與底層視覺(jué)特征之間存在“語(yǔ)義鴻溝”[40];如果機(jī)器學(xué)習(xí)可以主動(dòng)的選擇一部分價(jià)值很高的無(wú)標(biāo)簽樣本,進(jìn)行人工標(biāo)注,這無(wú)疑會(huì)增加圖像標(biāo)注的性能。主動(dòng)學(xué)習(xí)的方法雖然已經(jīng)在幾年前提出,但是在圖像自動(dòng)標(biāo)注的應(yīng)用方面仍未得到推廣。如何利用少量的已知標(biāo)簽樣本來(lái)提高分類模型的泛化性能是目前主動(dòng)學(xué)習(xí)算法中需要克服的技術(shù)難點(diǎn)[41],有待于進(jìn)一步改進(jìn),以提高圖像標(biāo)注的準(zhǔn)確率。
隨著微信等網(wǎng)絡(luò)社交平臺(tái)的推廣、普及,社交網(wǎng)絡(luò)用戶量不斷增加,圖像、視頻等多媒體信息已經(jīng)逐漸出現(xiàn)在我們的日常交流中,圖像標(biāo)注將朝著動(dòng)態(tài)畫面標(biāo)注的方向發(fā)展??梢詫D像自動(dòng)標(biāo)注的方法用于視頻的標(biāo)注,這也是我們團(tuán)隊(duì)下一步的主要研究方向。
[1]Mori Y,Takahashi H,Oka R.Image-to-word transformation based on dividing and vector quantizing images with words[C].In MISRM’99 First International Workshop on Multimedia Intelligent Storage and Retrieval Management,1999.
[2]Duygulu P,Barnard K,Freitas N,D.A.Forsyth.Object recognition as machine translation:learning a lexicon for a fixed vocabulary[C].Proceeding of European Conference.On Computer Vision(ECCV.02).Copenhagen,Denmark,2002:97-112.
[3]Jeon J,Lavrenko V,Manmatha R.Automatic image annotation and retrieval using cross-media relevance models[C].Proc.of Int.ACM SIGIR Conf.on Research and Development in Information Retrieval(ACM SIGIR.03).Toronto,Canada,2003:119-126.
[4]Dietterich T G,Lathrop R H,Lozano-Pérez T.Solving the multiple instance problem with axis-parallel rectangles[J].Artificial Intelligence,1997,89(1-2):31-71.
[5]Yang C,Dong M,Fotouhi F.Region-based image annotation through multiple instance learning[C]∥Proc.of ACM Conf.on Multimedia(ACM MM’05).Singapore,Nov.2005:435-438.
[6]Tang J,Lewis P H.A study of quality issues for image auto-an-notation with the Corel dataset[J].IEEE Trans.on Circuits and Systems for Video Technology,2007,17(3):384-389.
[7]Cusano C,Ciocca G,Schettini R.Image annotation using SVM[C]∥Proc.of Int.SPIE Conf.on Imaging IV.San Jose,CA,USA,Feb.2004:330-338.
[8]Carneiro G,Chan A B,Moreno P J,Vasconcelo N.Supervised Learning of Semantic Classes for Image Annotation and Retrieval[J].IEEE Transactions On Pattern Analysis and Machine Intelligence,2007,29(3):394-410.
[9]路晶,金奕江,馬少平,等.使用基于SVM的否定概率和法的圖像標(biāo)注[J].智能系統(tǒng)學(xué)報(bào),2006,(1):62-66.
[10]臧淼,張永梅,李金泉.基于Bayes的自動(dòng)圖像標(biāo)注[J].北方工業(yè)大學(xué)學(xué)報(bào),2014,26(1):7-9.
[11]吳偉,聶建云,高光來(lái).一種基于改進(jìn)的支持向量機(jī)多分類器圖像標(biāo)注方法[J].計(jì)算機(jī)工程與科學(xué),2015,37(7):1338-1343.
[12]Wang lei,Liu Li,Latifu.Automatic image annotation and retrieval using subspace clustering algorithm[C]∥Proceedings of the 2nd ACM International Workshop on Multimedia Databases,2004:263-274.
[13]Yeung M M,Boon-Lock Y,Bouman C A.Apply semantic template to support content-based image retrieval[C]∥Proceedings of SPIE Storaee and Retrieval for Media Databases,2000:442-449.
[14]Li Wei,Sun Mao-song.Automatic image annotation based on WordNet and hierarchical ensembles[C]∥LNCS 3878:CICLing2006.Berlin Heidelberg:Springer-Verlag,2006:417-428.
[15]張?jiān)?,包駿杰,況夯,等.基于貝葉斯理論的圖像標(biāo)注和檢索[J].計(jì)算機(jī)科學(xué),2008,35(8):229-231.
[16]劉詠梅,楊帆,于林森.場(chǎng)景語(yǔ)義樹圖像標(biāo)注方法[J].中國(guó)圖像圖形學(xué)報(bào),2013,18(5):529-536.
[17]Geoffrey Hinton.A Practical Guide to Training Restricted Boltzmann Machines[M].Neural Networks:Tricks of the Trade.Springer Berlin Heidelberg,2010:599-619.
[18]Itamar Arel,Derek C.Rose,Thomas P.Karnowski.Deep Machine Learning-A New Frontier in Artificial Intelligence Research[C].IEEE Computational intelligence Magazine,2009:13-18.
[19]Marc’Aurelio Ranzato,Joshua Susskind,Volodymyr Mnih,Geoffrey Hinton.On deep generative models with applications to recognition[C].Computer Vision and Pattern Recognition(CVPR),2011 IEEE Conference on.IEEE,2011:2857-2864.
[20]Lavrenko V,Manmatha R,Jeon J.A model for learning the semantics of pictures[C].Proc.of Advances in Neural Information Processing Systems(NIPS.03).Vancouver,Canada,2003:553-560.
[21]Feng S,Manmatha R,Lavrenko V.Multiple bernoulli relevance models for image and video annotation[C].Proc.of IEEE Int.Conf.on Computer Vision and Pattern Recognition(CVPR.04).Washington DC,USA,2004:1002-1009.
[22]Pan JiaYu,Yang Hyung Jeong,Duygulu Pinar,Christos Falousos.Automatic image captioning[C].The 2004 IEEE Int’l Conf on Multimedia and Expo(ICME’04),Taipei,Taiwan,2004.
[23]包翠竹,宋海玉,牛軍海,等.快速圖像標(biāo)注的改進(jìn)跨媒體相關(guān)模型[J].計(jì)算機(jī)應(yīng)用,2014,34(5):1439-1441.
[24]芮曉光,袁平波,何芳,等.一種新的基于語(yǔ)義聚類和圖算法的自動(dòng)圖像標(biāo)注方法[J].中國(guó)圖象圖形學(xué)報(bào),2007,12(2):239-244.
[25]郭玉堂,韓昌剛.基于CCA子空間和GMM的自動(dòng)圖像標(biāo)注[J].計(jì)算機(jī)工程,2013,39(6):277-282.
[26]周全,王磊,周亮,等.基于多尺度上下文的圖像標(biāo)注算法[J].自動(dòng)化學(xué)報(bào),2014,40(12):2944-2949.
[27]劉凱,張立民,孫永威,等.利用深度玻爾茲曼機(jī)與典型相關(guān)分析的自動(dòng)圖像標(biāo)注算法[J].西安交通大學(xué)學(xué)報(bào),2015,49(6):33-38.
[28]盧漢清,劉靜.基于圖學(xué)習(xí)的自動(dòng)圖像標(biāo)注[J].計(jì)算機(jī)學(xué)報(bào),2008,31(9):1629-1639.
[29]Pan J Y,Yang H J,Pinar D.Automatic multimedia cross-modal correlation discovery[C]∥The Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004,(8):653-658.
[30]Liu J,Li M J,Ma W,Liu Q,Lu H.An adaptive graph model for automatic image annotation[C]∥Eighth ACM International Workshop on Multimedia Information Retrieval,2006:61-70.
[31]Tong H,He J,Li M,Ma W,Zhang H J,Zhang C.Manifold-ranking based keyword propagation for image retrieval[J].EURASIP J.Appl.Signal Process.Spec.Issue Inf.Min.Multimedia Database,2006,21:1-10.
[32]Liu J,Li M,Liu QS,Lu HQ,Ma SD.Image annotation via graph learning[J].Pattern Recognition,2009,42(2):218-228.
[33]Zhu Xiaojin.Semi-supervised learning literature survey,technical report 1530[R].Madison:University of Wisconsin,2007.
[34]MA Zhi-gang,NIE Fei-ping,YANG Yi,N Sebe.Discriminating joint feature analysis for mul-timedia data understanding[J].IEEE Trans on Multimedia 2012,14(6):1662-672.
[35]KIM K I,STEINKE F,HEIN M.Semi-supervised regression using Hessian energy with an application to semi-supervised dimensionality reduction[C]∥Pros of Annual Conference on Neural Information Processing Systems,2009:979-987.
[36]LU Ke,ZHAO Jin-dong,WU Yue.Hessian optimal design for image retrieval[J].Pattern Recongnition,2011,44(6):1155-1161.
[37]ZHENG Miao,BU Jia-jun,CHEN Chun.Hessian sparse coding[J].Neurocomputing,2014,123(10):247-254.
[38]史彩娟,阮秋琦.基于增強(qiáng)稀疏性特征選擇的網(wǎng)絡(luò)圖像標(biāo)注[J].軟件學(xué)報(bào),2015,26(7):1800-1811.
[40]鮑泓,徐光美,馮松鶴,等.自動(dòng)圖像標(biāo)注技術(shù)研究進(jìn)展[J].計(jì)算機(jī)科學(xué),2011,38(7):35-41.
[41]Culotta A,McCallum A.Reducing labeling effort for structured prediction tasks.In Proceedings of the National Conference on Artificial Intelligence(AAAI),2005:746-751.
(本文責(zé)任編輯:馬 卓)
of Automatic Image Annotation Method
Xu Yong Zhang Hui*
(School of Management Science and Engineering,Anhui University of Finance and Economics,Bengbu 233030,China)
With the progressive development of Web2.0,massive user-generated image informa-tion filled in every network platform,automatic image annotation technology gradually become one of key issues of the image retrieval and image understanding.In this paper,through collecting and organizing documents of the existing automatic image annotation method to understand the theory and analysis of the various methods,On this basis,the status of Automatic Tagging images are reviewed,and comparative analysis of the advantages of each method and insufficient.The conclusion is:automatic image annotation method and image processing technology still needs further research and improvement from the active learning,and can expand the image information from the label to label video information.
image information;automatic image annotation;inage retrieval;multi-category;semi-supervised model
2015-12-25
2015年度國(guó)家社會(huì)科學(xué)基金規(guī)劃項(xiàng)目“跨媒體用戶生成內(nèi)容情感傾向挖掘及其應(yīng)用研究”(項(xiàng)目編號(hào):15BTQ043)。
徐 勇(1978-),男,系副主任,教授,博士,碩士生導(dǎo)師,研安方向:社會(huì)計(jì)算、信息安全、數(shù)據(jù)挖掘。
張 慧(1989-),女,碩士研究生,研究方向:數(shù)據(jù)挖掘與社會(huì)計(jì)算。
10.3969/j.issn.1008-0821.2016.03.024
G254.36
A
1008-0821(2016)03-0144-07