寧建紅
【摘 要】視覺屬性作為圖像表示的中間層,具有人類可理解的語義特征,同時比圖像底層特征存儲方便,簡潔高效,能夠?qū)崿F(xiàn)跨類識別。本文介紹了屬性的定義及分類,討論了屬性預(yù)測方法,并對圖像視覺屬性應(yīng)用的領(lǐng)域進行了探討,分析了在各個應(yīng)用中的優(yōu)勢及不足。最后對視覺屬性的發(fā)展前景進行了展望。
【關(guān)鍵詞】視覺屬性;屬性分類;屬性預(yù)測;應(yīng)用
1.引言
圖像可以用屬性進行語義描述,屬性可以表示圖像中對象是否存在,它可以描述對象的顏色、形狀、材質(zhì)、部件、類別及功能,也可以表示場景的類別以及上下文信息等。如斑馬是黑白相間、有條紋的動物,這里使用了顏色、紋理屬性,飛機可以用有機翼、 輪子、 發(fā)動機等部件屬性進行描述,也可以用是金屬的、能夠飛行的材質(zhì)屬性和功能屬性進行描述。 近年來,屬性被廣泛地應(yīng)用于計算機視覺問題研究,如對象識別[1-3]、人臉識別[4]、場景識別[5]、視頻中的行為識別[6]、服裝的風(fēng)格識別[7-8]、細粒度圖像識別等問題。屬性已經(jīng)成為搭建圖像底層特征到高層語義的橋梁,并且展示了自己獨特功能。
2.屬性定義及分類
2.1二值視覺屬性
視覺屬性的值可以是離散的,或者連續(xù)的。大部分研究者為了使用屬性進行分類,把屬性的值定義為存在或不存在兩種選擇,稱之為二值視覺屬性,即每個屬性的取值范圍只有1或者0。如Farhadi[1]用二值屬性描述動物山羊,有角、有四條腿、有頭、有毛,用二值屬性描述對象的構(gòu)成、形狀、材質(zhì)等信息,建了APascal-aYahoo dataset,收集了15339幅圖像,32個類別,64個二值屬性 ,Lampert建立了Animal with Attribute dataset,收集了30000幅動物圖像,50個類別,85個二值屬性。Patterson and Hay建立了The Sun Attribute dataset,包含了14340幅圖像,717類別,102個二值屬性。
2.2相對視覺屬性
從人類的認知角度出發(fā),認識和理解事物有時并不能從存在或不存在的角度去區(qū)分,有時需要運用比較的方法去區(qū)分。Parikh和Grauman最先提出了相對視覺屬性,相對視覺屬性是指和其他圖像相比,圖像中某個屬性的強度或優(yōu)勢。如一幅圖像開始不能確定人是否有微笑這個屬性。和不同的圖像比較,比A圖像微笑程度弱,比B圖像微笑程度強。如果只用二值屬性來表示,就無法表示。因為這個屬性表示一種程度。相對屬性將屬性的取值范圍擴大,從(0,1)變成(?∞,+∞)。相對屬性的重要作用在于對樣本中同一屬性的屬性值相對關(guān)系進行比較,確定排序關(guān)系。Parikh和Grauman提出通過對每個屬性學(xué)習(xí)排序函數(shù)的方法,給每對樣本給出相對相似性約束。但是對于不同的屬性,不同的屬性值,不具備可比性。
3.屬性預(yù)測
屬性作為圖像的中間層表示,在計算機視覺的各個領(lǐng)域中發(fā)揮了非常重要的作用。因此提取圖像底層特征構(gòu)建屬性分類器,進行屬性預(yù)測是一個必不可少的環(huán)節(jié)。Lampert提出了直接屬性預(yù)測模型DAP(Direct attribute prediction)和間接屬性預(yù)測模型IAP(Indict attribute prediction) 。DAP模型建立了固定的類別-屬性關(guān)系,通過樣本與類別間的訓(xùn)練,蘊含了對屬性值的訓(xùn)練,從而取得了相關(guān)分類器參數(shù)。在測試階段,測試樣本的屬性值可直接獲取,從而可以推知樣本所屬的類別,這個類別也可以是一種訓(xùn)練階段未見樣本的類別。IAP模型通過訓(xùn)練樣本獲得每類的概率,其次獲得這些類別與屬性間的依賴關(guān)系。Wang[3]提出了條件隨機場模型的屬性預(yù)測方法,Yu[14]提出了概率主題模型,Scheirer將屬性分類器輸出轉(zhuǎn)化成基于極值理論的可能性估計問題。Parikh and Grauman進行了相對屬性預(yù)測。
4.視覺屬性應(yīng)用
4.1對象識別
2009年,F(xiàn)arhadi[1]提出用屬性來描述對象,屬性可以是對象的組成部分,可以是形狀,也可以是材質(zhì),并且指明屬性具有區(qū)別對象類的作用,使用了1000個具有類區(qū)分能力的屬性。提取圖像底層特征用線性SVM分類器對屬性分類器進行訓(xùn)練學(xué)習(xí),再通過圖像的屬性中間層表示進行圖像分類,對象的屬性表示不僅能夠識別對象類,而且還可以形成新的對象類。同年,Lampert也提出用屬性表示對象,研究了訓(xùn)練類和測試類不相交的情況下,用屬性表示圖像,缺少訓(xùn)練集圖像的情況下,依然能夠識別新的對象類。并提出了DAP和IAP兩個屬性預(yù)測模型。不同的類別間可以共享屬性,屬性的特殊性使得它在轉(zhuǎn)換學(xué)習(xí)或零命中學(xué)習(xí)領(lǐng)域得到了比較廣泛的應(yīng)用。
4.2人臉識別
Kumar et al.[4]使用了兩種分類器:屬性分類器和Simile分類器。用年齡、性別、頭發(fā)顏色等視覺屬性表示人臉,采用人工標注的人臉圖像學(xué)習(xí)分類器構(gòu)建屬性模型,然后用屬性分類器輸出的屬性值構(gòu)建人臉表示。Simile分類器采用某個具體的人臉區(qū)域作為正例定義屬性,屬性值代表了其它人臉的對應(yīng)區(qū)域與它的相似程度。提出的這兩種分類器加速了自然條件下人臉識別的性能,在LFW (Labeled Faces in the Wild)數(shù)據(jù)集上取得了較好的識別效果。
4.3場景識別
場景識別的目標是使計算機能夠從人類的認知角度來理解圖像的場景語義信息,有效辨別圖像場景類內(nèi)差異性和場景類間相似性。Vogel and Schiele[5]對本地圖像區(qū)域進行語義屬性描述,如一幅圖像可以描述成水、巖石、植物等。圖像可以用這些區(qū)域語義屬性出現(xiàn)的概率來表示,并把它運用到圖像的場景分類和檢索中。
4.4行為識別
Liu J G et al.[6]用屬性來描述人類的各種動作,首先人為設(shè)定動作的一些屬性,作為潛在變量,同時從數(shù)據(jù)中學(xué)習(xí)一些數(shù)據(jù)驅(qū)動屬性,用信息論的方法從訓(xùn)練集推導(dǎo)出這些屬性。建立了潛在SVM模型,潛在變量表示每一個行為類的每一個屬性的重要程度,這些數(shù)據(jù)驅(qū)動屬性擴展了人為設(shè)定屬性的范圍,提高了動作識別的精確性。endprint
5.結(jié)束語
在互聯(lián)網(wǎng)大數(shù)據(jù)時代,在對存儲和計算要求較高的情況下,如大規(guī)模的圖像檢索和移動平臺上的圖像檢索,基于視覺屬性的中層圖像表示往往比基于視覺底層特征的圖像表示更簡潔高效。視覺屬性表達了人類可理解的語義特征,有助于將以往學(xué)習(xí)到的屬性知識遷移到新的對象或類別上,從而減少對訓(xùn)練數(shù)據(jù)的需求。同時視覺屬性有利于人機進行交互。目前,視覺屬性已經(jīng)應(yīng)用于計算機視覺的各個領(lǐng)域,并且會在更多的領(lǐng)域得到廣泛的應(yīng)用。
參考文獻:
[1]Farhadi A,Endres I,Hoiem D,et al. Describing objects by their attributes[C].Computer Vision and Pattern Recognition,IEEE Conference on 20091778 -1785.
[2]Felix X.Yu, Liangliang Cao, Rogerio S. Feris, John R. Smith, Shih-Fu Chang. Designing Category-Level Attributes for Discriminative Visual Recognition[C].IEEE Conference on Computer Vision and Pattern Recognition,2013,771-778.
[3]Wang Y,Mori G.A discriminative latent model of object classes and attributes[C] . Computer Vision–ECCV 2010,Lecture Notes in Computer Science Volume 6315,2010,155-168.
[4]Kumar N,Berg A C, Belhumeur P N et al. Attribute and simile classifiers for face verification[C]. Proceedings of the IEEE International Conference on Computer Vision.2009:365 -372.
[5]Julia Vogel,Bernt Schiele.Semantic Modeling of Natural Scenes for Content-Based Image Retrieval[J].International Journal of Computer Vision,2007,72(2):133–157.
[6]Jingen Liu,B.Kuipers,S. Savarese. Recognizing human actions by attributes[C]. IEEE Conference on Computer Vision and Pattern Recognition,2011,3337-3344.
[7]Lukas Bossard,Matthias Dantone et al. Apparel Classification with Style[C]. Computer Vision–ACCV 2012,Lecture Notes in Computer Science Volume 7727, 2013, 321-335.
[8]M.Hadi Kiapour, Kota Yamaguchi. Hipster Wars: Discovering Elements of Fashion Styles[C].Computer Vision–ECCV 2014,Lecture Notes in Computer Science Volume 8689,2014,472-488.endprint