毛玉萃
MAO Yu-cui
(大連大學 信息工程學院 ,大連 116622)
一種面向用戶需求的圖像描述方法
An image descriptive method oriented user requirement
毛玉萃
MAO Yu-cui
(大連大學 信息工程學院 ,大連 116622)
有效地獲取用戶對所檢索圖像的需求是提高圖像檢索準確性的重要因素之一。提出了面向用戶需求的圖像層次描述模型;針對對象及其特征、對象空間關系、場景、行為和情感層給出了具體的描述規(guī)則和描述方法;并針對一些非結(jié)構(gòu)化描述轉(zhuǎn)換為結(jié)構(gòu)化或半結(jié)構(gòu)化描述提出了建設性意見。提出的這些方法為用戶描述圖像提供了手段,也為按需檢索圖像提供了基礎和條件,使圖像檢索有的放矢。
圖像描述;用戶需求;圖像檢索
由于多媒體技術和網(wǎng)絡互聯(lián)技術的迅猛發(fā)展,圖像已經(jīng)成為重要的信息資源之一,圖像所包含的信息量遠遠超過文字和語音所包含的信息量,為了能夠很好地利用這些信息資源,因而關于圖像的描述和檢索已成為目前研究的熱點之一。
在20世紀90年代,提出了利用底層視覺特征(如形狀、顏色、紋理和區(qū)域等)的基于內(nèi)容的圖像檢索 (content based image retrieval CBIR)。經(jīng)過一段時間的研究,研究者發(fā)現(xiàn)利用CBIR進行檢索存在著圖像簡單視覺特征與用戶需求中蘊含的語義之間存在著巨大的“語義鴻溝”[1,2]。出現(xiàn)這一問題的原因主要有兩方面:1)用戶需求的描述問題;2)底層視覺特征和高層語義之間存在很大差異。
針對第二個問題,研究者提出了基于圖像高層語義信息的圖像檢索方法。在這些方法中,有一些比較好地解決了從底層視覺特征中提取圖像高層語義尤其是對象語義、空間關系語義和場景語義的問題[2~4]。由于圖像的行為語義涉及到對人的動作的分類問題,而人的動作分類算法目前尚不成熟;圖像的情感語義涉及到諸多領域?qū)W科的知識,需要建立超巨大的知識庫和非常復雜的推理庫,目前尚沒好的解決方法[3~8]。
在用戶對所要檢索的圖像進行描述方面,目前主要采用的是人類自然語言,這種方式的主要問題是:1)用自然語言進行描述本身就帶有模糊性、不確定性,計算機在處理的時候就遇到了非常大的困難;2)不能把所要檢索的圖像的特征表示出來[1,4,7,9]。
有些學者研究后提出在特定領域內(nèi)使用的自然語言的詞匯、短語和句子是有限的,這樣在一定程度上解決了用自然語言描述圖像的模糊性、不確定性[3,4]。
為了準確地表達用戶的需求、提高圖像檢索的速度和準確率,本文提出了一種把自然語言描述和圖像各層語義描述相結(jié)合的形式方法來描述用戶對檢索圖像的需求,變非結(jié)構(gòu)化描述為非結(jié)構(gòu)化描述+半結(jié)構(gòu)化描述+結(jié)構(gòu)化描述,使用戶的需求得以比較準確、全面地表達出來,為圖像檢索提供更詳細、全面、準確的查詢要求。
根據(jù)人們在欣賞或觀看一幅畫(圖像)時對畫(圖像)的評價方式和說明方法,以及圖像中各對象的屬性、對象之間的關系,結(jié)合圖像層次化語義模型[3,10,11],可將用戶對圖像的描述進行分層,稱為圖像層次描述模型(如圖1所示)。
圖1 圖像描述層次的劃分
圖像分層描述的基礎是圖像中每一個對象的描述,在對每個對象正確描述的基礎上,進行對象空間關系的描述,進而進行局部場景或全景的描述,再進行相關行為的描述,最后對搜素的圖像所表達的情感進行描述。
圖像中對象的種類繁多,為了有效地描述對象,首先對對象進行分類,再選擇每一類對象的特征,最后對這些特征進行描述。
因為對象之間的包含關系,如半身人物對象就包含了衣物(上衣)對象,上衣對象又可以包含鈕扣對象,因而在對對象進行分類時,首先把最基本的對象選取出來是十分必要的;通過這些基本對象構(gòu)造復雜的對象。如果對象太復雜或太大必要時可作以為兩個或多個對象,把復雜和太大對象作為場景處理,以降低對象描述的復雜度。
在進行對象和對象特征選擇時,主要考慮以下五個方面:
1)用戶的需求;
2)對象本身的特點;
3)當前圖像處理技術;
4)描述的復雜度;
5)計算機的處理速度、效率和查找的準確性。
對象特征的描述方式一部分是采用結(jié)構(gòu)化方式(如顏色用256色位描述),還有一部分是采用半結(jié)構(gòu)化的方式(如形狀長方形的描述)。
通過對象及其特征的描述建立相應的對象描述庫,該庫是一個基礎庫,在進行高層描述時,該庫作為比對庫,保證描述的一致性。
對象空間關系的描述主要是描述出兩個對象之間的空間位置關系。
9-相交模型可以表達兩個對象之間的不接觸、包含、內(nèi)部、相等、接觸、覆蓋、被覆蓋、重疊等8種位置關系[3,12]。利用2D符號數(shù)組可以表達一個對象與多個對象之間的簡單朝向關系[3,7]。結(jié)合這兩種對象空間描述方法,本文采用從四個方面(即方向、相鄰、相交和層次)描述兩個對象之間的空間關系的方法。考慮到定義的復雜性和必要性,對四個方面的取值進行了定義。
在方向上選擇了八個方向:正上、正下、正左、正右、左上、右上、左下和右下。
在相鄰方面,定義了相鄰和不相鄰兩種關系。
在相交方面,定義了包含相交、不包含相交、不相交三種關系。
在層次方面,定義了頂層和底層兩種關系。
如果兩個對象之間的空間關系復雜,那么在四個方面都要定義。通過定義這四個方面即可確定兩個對象之間的空間關系,在確定了兩兩對象之間的空間關系之后,就可以確定多個對象之間的空間關系。
根據(jù)對象空間關系的描述,構(gòu)造對象空間關系庫,該庫作為場景描述的比對庫。
圖2 中所示圖像的描述:A、B和C三個對象,皆為圓形,空間位置關系描述:A在B的右上方,A與B不包含相交,A在頂層;A在C的左上方,A與C不包含相交,A在頂層;B在C的左方,B與C不包含相交,B在頂層。由此可得出三個對象A、B、C的空間關系。
圖2 對象空間關系示例
人們將一組特定對象的特定空間關系的抽象看作為場景[14]。在一幅圖像中可以包含一個或若干個局部場景,包含一個全景。對于場景的描述更接近人類的認識和表達習慣。如果完全用人類的表達方式和表達習慣進行圖像場景描述,計算機處理起來是十分困難的。
既要考慮人類的表達方式和表達習慣,又要考慮計算機的處理,為此需要建立一個描述場景的詞匯庫。
目前在圖像處理領域,已經(jīng)針對一些特定場景建立了相應的詞匯庫。在詞匯庫中,場景是通過場景或?qū)ο笾g的空間位置關系即場景或?qū)ο笾g拓撲結(jié)構(gòu)類表示的[3,15]。圖3和圖4是詞匯庫中草原日出和草原日落場景的定義。
圖3 草原日出場景定義
圖4 草原日落場景定義
在圖3和圖4中,包含的對象是相同的,由于對象紅日和天空的位置關系的不同,描述的局部場景就不同(日出和日落),得到的全景也就不同(草原日出和草原日落)。
行為是人類特有的,是人類有意識的活動,其表現(xiàn)形式為在特定場景下的特定動作或狀態(tài)[3,14]。
情感是人們內(nèi)心對外界事物所持的肯定或否定態(tài)度[14],是圖像所表達的最高境界。由于人們的種族、信仰、風俗習慣、文化背景、所處場合、經(jīng)歷和心情的不同,同一幅圖像對于不同的人群所表達的情感有所不同[1~4]。
人們用更符合自己的認識和習慣的表達方式,來描述圖像中包含行為和圖像所表達的情感。對這樣的非結(jié)構(gòu)化描述必須進行結(jié)構(gòu)化的處理,之后才能再進一步的處理。進行結(jié)構(gòu)化處理的主要方法:建立相應的行為知識庫和情感知識庫,再建立相應的處理機制,把自然語言表達的方式轉(zhuǎn)換為特定結(jié)構(gòu)的便于計算機處理的結(jié)構(gòu)方式。
由于目前還沒有一個有效的方法提取圖像的行為語義和情感語義[1~3],因此獲取用戶需求的行為和情感描述,主要是為了保證描述的一致性,為進一步的研究奠定基礎。
在用戶對圖像進行描述時,可以從最基本的對象開始進行描述,也可以從圖像所表達的情感和包含的行為描述開始。圖像的各個層的描述不是獨立的,是相互關聯(lián)的,各層的描述要保證一致性。在從描述對象開始時,建立對象描述庫,把該庫的知識作為原知識,比對其他描述,保證描述的一致性;如果從情感和行為描述開始,從中分離對象,建立初始對象描述庫,再根據(jù)場景描述和對象及特征描述完善該庫,并保證描述的一致性。 總之保證描述的一致性是非常重要的,是進行進一步處理的前提。
在圖像處理領域中,目前研究的熱點主要集中在對檢索圖像的分析方面,而獲取用戶需求是保證檢索準確率的重要方面之一,目前在這方面進行研究的人員非常少。作者在這方面進行了初步探索,構(gòu)造了圖像描述層次模型,對每層的描述進行了探索,下一步的工作主要在三個方面進行:1)進一步完善每一層描述所需的知識庫;2)用戶需求描述的相關性檢查,保證描述的一致性;3)把獲取的描述采用自動程序設計的方法自動生成與圖像分析的結(jié)果相連接的圖像檢索程序。
[1] 李清勇,胡宏,施智平,史忠植.基于紋理語義特征的圖像檢索研究[J].計算機學報, 2006,29(1):116-123.
[2] 毛玉萃.圖像的物理內(nèi)容和邏輯內(nèi)容[J].微計算機應用,2005,26(6):641-643.
[3] 吳楠,宋方敏.一種基于圖像高層語義信息的圖像檢索方法[J].中國圖象圖形學報,2006,11(124):1774-1780.
[4] 王偉凝,余英林.圖像的情感語義研究進展[J].電路與系統(tǒng)學報,2003,8(5):101-109.
[5] 劉忠偉,章毓晉.綜合利用顏色和紋理特征的圖像檢索[J].通信學報,1999,20(5):36-40.
[6] Pauwel E J,Frederix G. Fingding salient regions in images----Non-para metrie clustering for image segmentation and grouping[J].Computer Vision and Image Understanding,1999,75(1):73-85.
[7] 王惠鋒,孫正興,王箭.語義圖像檢索研究與進展[J].計算機研究與發(fā)展,2002,39(5):513-523.
[8] 羅沄,章毓晉,高水英.基于分析的圖案像有意義區(qū)域提取[J].計算機學報,2003,23(12):1313-1319.
[9] 喬榮華,周明全,耿國華.基于語義分類的文物圖像標注研究[J].計算機技術與發(fā)展,2007,17(7):200-203.
[10]Colombo C.etal.Semantics in visual information retrieval[J].IEEE Multimedia,1999,6(3):38-53.
[11]Cavazza M,Green R .J,Palmer I.J. Multimedia semantic feature and image content description[C] . In : Proceedings of the 5th international ICYC Cnference ,Nanjing China 1999,468-475.
[11]王惠鋒,孫正興.基于內(nèi)容的圖像檢索中的語義處理方法[J].中國圖象圖形學報,2001,6(10):945-952.
[12]Egenhofer M J,Franzosa R.On the epuivalence of topological relation[J].International Joumal of Geographical Information Systems,1992,9(2):133-152.
[14]新華詞典編纂組.新華詞典[M].商務印書館,1986.
[15]王眾托,著.計算機在經(jīng)營管理中的應用——新的系統(tǒng)構(gòu)成[M].大連理工大學出版社,1994.
TP391
A
1009-0134(2010)10(下)-0204-03
10.3969/j.issn.1009-0134.2010.10(下).64
2009-11-05
遼寧省教育廳高校科研計劃項目資助(20080043)
毛玉萃(1964 -), 女,副教授,主要從事圖像檢索、圖像描述以及自動程序設計研究。