鄭 好
(南京理工大學圖書館 江蘇 南京 210094)
基于圖書館應用圖像檢索中的用戶研究綜述
鄭 好
(南京理工大學圖書館 江蘇 南京 210094)
基于圖像內(nèi)容檢索一定程度上提高圖像檢索效果,但抽取出來的圖像低層特征與人對圖像的語義理解之間存在很大的差距,而將用戶作為圖像檢索研究中的一個出發(fā)點能夠很好的減少語義鴻溝現(xiàn)象。本文總結(jié)了基于用戶研究的圖像檢索方法,包括基于相關反饋、基于感興趣區(qū)域、基于用戶情感等相關方法,對每種方法的含義、原理及應用進行總結(jié)。
圖像檢索;用戶研究;相關反饋;感興趣區(qū)域;用戶情感
隨著多媒體技術的高速發(fā)展和Internet的普及,數(shù)字圖像的數(shù)量快速增長,我們已經(jīng)進入讀圖時代。圖像以其內(nèi)容豐富、表現(xiàn)直觀等特點,已在國防軍事、工業(yè)制造、醫(yī)療衛(wèi)生、新聞媒體和大眾娛樂等領域發(fā)揮著重要作用。但是隨著日益增大的圖像數(shù)據(jù)庫,圖像無序化問題也越來越突出,如何在龐大的圖像數(shù)據(jù)庫中快速找到用戶感興趣的圖像已成為一個亟待解決的問題。
Internet網(wǎng)中圖像的檢索經(jīng)歷了兩個階段:第一階段是以關鍵字為基礎的檢索;第二階段是以圖像內(nèi)容為基礎的檢索。以關鍵字為基礎的檢索是基于文本的檢索,由于圖像內(nèi)容復雜,不同個體理解不一致,難以用文字描述圖像,并且對圖像標注費時費力,基于文本的圖像檢索效果并不能很好地滿足用戶的需求。在20c90s開始出現(xiàn)基于內(nèi)容圖像檢索(Content-Based Image Retrieval,CBIR),借助于對圖像從低層到高層進行自動處理和分析來描述其內(nèi)容,并根據(jù)內(nèi)容進行檢索[2]。它是將圖像表示為高維空間中的矢量,這些矢量是由從圖像中提取的顏色、紋理、形狀等底層特征組成的?;趦?nèi)容的圖像檢索在一定程度上提高了圖像檢索的效果,但又出現(xiàn)的一個很嚴重的問題—語義鴻溝:抽取出來的圖像低層特征與人對圖像的語義理解之間存在很大的差距,用戶仍然不能找到滿意的圖像。研究者發(fā)現(xiàn)將用戶作為圖像檢索研究中的一個出發(fā)點能夠很好的減少語義鴻溝現(xiàn)象。目前研究者提出多種方法,包括:(1)相關反饋法,其思想是通過人機交互,讓系統(tǒng)能夠根據(jù)用戶的選擇猜測用戶的檢索意圖,并能自動地調(diào)整相似度量準則;(2)感興趣區(qū)檢測法,其思想是以分割后的區(qū)域的特征來描述圖像,并以區(qū)域為單位來匹配圖像,以找到用戶感興趣的圖像;(3)基于用戶的情感出發(fā),以用戶情感為線索檢索圖像,其目標是以圖像可能激發(fā)的人的主觀體驗(即情感語義特征,或者感性特征)為中間橋梁,實現(xiàn)用戶檢索需求與圖像之間的匹配。
相關反饋法是基于內(nèi)容的圖像檢索中最常用的方法,其檢索過程有如下幾個步驟:(1)提交初始檢索,系統(tǒng)返回初始檢索結(jié)果;(2)用戶對排序前10(或前20)的結(jié)果評價是否和本次檢索相關,相關稱為正反饋樣本,不相關稱為負反饋樣本;(3)系統(tǒng)根據(jù)用戶提交的反饋對檢索優(yōu)化,將新的檢索結(jié)果返回;(4)如果用戶仍不滿意,可重復反饋。
根據(jù)相關反饋算法所采用的檢索模型把算法分為查詢點移動、特征權(quán)重調(diào)整、基于概率模型、基于機器學習、基于聚類分析等方法。
(1)查詢點移動:查詢點移動算法是通過用戶的反饋信息,改變數(shù)據(jù)庫中每幅圖像與查詢圖像之間的距離,使相似點靠近查詢圖像,不相似的點遠離查詢圖像。
(2)特征權(quán)重調(diào)整:對圖像不同的特征賦予不同的權(quán)值,系統(tǒng)根據(jù)用戶的反饋信息,把用戶認為與查詢圖像相似的特征賦予較大的權(quán)重而不相似的特征賦予較小的權(quán)重,然后根據(jù)調(diào)整后的權(quán)重計算圖像間的相似度。曹奎等提出一種新的基于灰關聯(lián)分析(GRA)的相關反饋技術,它使用GRA來描述“例子圖像”與“相關圖像”之間的關系,并據(jù)此更新查詢向量和特征的權(quán)重,據(jù)此自動更新圖像的相似度量和用戶的查詢需求。
(3)基于概率模型:把相關反饋看成是一個分類問題,大部分情況下考慮的是兩類分類問題。以貝葉斯(Bayesian)理論等為基礎,通過用戶的反饋信息,估計每一幅圖像與查詢圖像的相關概率,將高概率的圖像檢索出來,從而提高檢索效率。張亮等提出一種基于動態(tài)學習用戶模型的貝葉斯概率檢索方法。通過對歷史反饋信息的長期學習,動態(tài)估算用戶模型,從而預測目標圖像的概率分布。
(4)基于機器學習:將交互過程看做一個訓練過程,通過對訓練樣本的學習,逐步了解用戶的具體查詢目的,并建立圖像特征與用戶查詢目的間對應的模型,根據(jù)該模型來進行新一輪的檢索。常小紅等從機器學習的角度出發(fā),提出了一種基于RBFN的相關反饋算法。即在檢索階段用戶對檢索結(jié)果標記為相關圖像、模糊相關圖像和不相關圖像,然后將這些反饋信息作為訓練樣本,動態(tài)地建立RBFN的結(jié)構(gòu),這個過程反復進行,直到用戶得到滿意的結(jié)果或失去耐心為止[8]。
(5)基于聚類分析:首先對特征空間進行聚類劃分,形成不同的圖像類,相關圖像落在一類中或距離較近的類中,而不相關圖像則落入距離較遠的類中,然后計算每兩個類之間的權(quán)重作為類間相似度的度量。通過調(diào)整類的大小和類間權(quán)重,進一步減小相似類間距,并使不相似的類遠離。陳光鵬、楊育彬等在圖像檢索中引入蟻群算法的思想,來建立圖像的語義網(wǎng)絡,將用戶反饋日志轉(zhuǎn)化為圖像的語義關聯(lián)信息并存儲在語義關聯(lián)矩陣中。
(6)結(jié)合機器學習和聚類分析:有些學者將以上幾種方法綜合起來應用,如陳旭文等提出了一種綜合用戶反饋信息時空特性的用戶反饋學習方法—時空特性支持向量機(SKSVM)方法。在學習中,時空特性支持向量機(SKSVM)根據(jù)用戶反饋信息的空間特性,強化用戶感興趣的正例集合,弱化用戶不感興趣的負例集合,合理利用正負例子蘊涵的信息;同時在時間上考慮反饋信息的時間特性,強化最近的反饋信息,實現(xiàn)快速準確的跟蹤用戶的查詢需求。
研究表明用戶在觀察圖像的時候,最容易引起用戶注意的部分往往是用戶感興趣的部分,也就是圖像中最“與眾不同”的部分,與周圍其他部分相比更加顯著的部分。于是產(chǎn)生感興趣區(qū)檢測法ROI(region of interest),這種方法的基本思想是以分割后的區(qū)域的特征來描述圖像,選取用戶最感興趣的關鍵區(qū)域來描述圖像,并以區(qū)域為單位來匹配圖像。這種檢索方法區(qū)分了區(qū)域的重要程度,進一步消除冗余信息,回避了精確分割的困難,并明顯地降低圖像處理的復雜度,提高運算速度。
基于感興趣區(qū)域方法的關鍵是獲得用戶感興趣區(qū)域,總結(jié)近年來的研究可以歸納為三種方法:(1)人機交互;(2)自動化方法;(3)視點跟蹤技術。
(1)人機交互
人機交互的方法是目前最常用的獲取感興趣區(qū)域的方法,它是基于各種算法將圖像劃分區(qū)域,由用戶選擇圖像中的若干區(qū)域作為感興趣區(qū)。如郝紅衛(wèi)等提出先由用戶選擇感興趣區(qū)域,然后提取所選區(qū)域的多種特征,分別構(gòu)造相應的分類器,最后通過對各分類器結(jié)果的集成得到檢索結(jié)果。實驗結(jié)果表明,這種方法能夠準確獲取用戶的查詢意圖,具有更高的查準率。金磊等提出了一種基于用戶感興趣區(qū)域的圖像檢索算法。該算法首先對樣例進行多分辨率樹狀分解,再由用戶選擇分解后的任意多個感興趣的子圖,提取子圖的特征以進行相似性度量,并應用相關反饋以更好地捕獲用戶的檢索意圖。高和蓓等采用基于目標的圖像分割的方法把圖像分成幾個目標區(qū)域,提取能表達該區(qū)域內(nèi)容的特征向量并保存在特征庫里,然后再通過與用戶的交互,確定用戶感興趣的區(qū)域,把這些感興趣區(qū)域投射劍目標區(qū)域上,繼而用這些區(qū)域的若干特征來表示該區(qū)域內(nèi)容,并從圖像數(shù)據(jù)庫中查詢具有相應特征區(qū)域的圖片反饋給用戶。
(2)自動化方法
李麗君認為感興趣區(qū)域是圖像中顯著的像素集合,這些像素稱為顯著點或興趣點。基于顯著點劃分圖像,更符合人眼的視覺感知特性,有助于用戶理解圖像,并且顯著點能夠有效地捕捉到圖像的局部信息。李麗君提出的方法是利用最小差錯概率準則,檢測圖像的顯著點。顯著點是顯著度圖的局部最大值,顯著點通過將后面點送到峰值檢測模塊識別出來。
(3)視點跟蹤技術
人眼注視運動傳遞了大量反映個體心理活動的信息。趙孟凱等提出了一種利用視點跟蹤技術檢測感興趣區(qū)的方法,通過實時捕獲人眼的注視點,客觀地獲得用戶興趣信息,根據(jù)注視點位置計算用戶興趣度,最終提取圖像感興趣區(qū)。這種方法在高分辨率及保證精度的前提下,同時滿足交互自然性和實時性的要求。
目前的圖像檢索大多是基于低層物理特征的相似性匹配,對用戶的愛好、情感等主觀感性化因素考慮較少。感性信息處理通過讓計算機能夠模擬和識別用戶的偏好、喜愛等主觀信息,適應不同用戶的不同需求?;诖?,出現(xiàn)了基于用戶情感的圖像檢索。
基于用戶情感的方法的基本原理:借鑒心理學中的“維量”思想,建立情感空間;同時,抽取圖像的主色調(diào)、不變拒、顏色和灰度分布,這些較容易引起情感變化的特征作為圖像的視覺特征,建立圖像的特征空間;采用支持向量機的方法建立圖像的低層特征空間到用戶的高層情感空間之間的映射,自動注釋用戶未曾評估的圖像,實現(xiàn)了圖像情感注釋,在情感空間進行公共情感檢索,快速獲得用戶情感信息。檢索流程包括感性提問的接收和轉(zhuǎn)化、檢索匹配、檢索結(jié)果的反饋、相關反饋。具體的基于情感的圖像檢索過程如下例所示:(1)用戶提出帶有情感色彩的檢索要求,如檢索“美麗的”的圖片,檢索子系統(tǒng)根據(jù)情感用戶模型獲取侯選圖像顯示給用戶;(2)通過交互,系統(tǒng)記錄用戶的反饋信息;(3)采用合適的學習機制,動態(tài)調(diào)節(jié)用戶情感模型,以使系統(tǒng)能夠?qū)崿F(xiàn)個性化的情感圖像檢索。
王勝惠等將可視化交互式遺傳算法應用到情感圖像檢索中,提出了一種可視化交互式遺傳算法(VIGA)模型,允許用戶參加遺傳搜索過程,用戶可以通過對整個搜索過程加一個導向的信號,引導遺傳過程朝用戶的主觀情感方向發(fā)展,這樣不僅能夠加快收斂速度和減少用戶疲勞,而且能夠更準確的反映出用戶的主觀情感,在更高程度上實現(xiàn)圖像的感性搜索。
縱觀圖像檢索技術的發(fā)展,從基于文本的關鍵字檢索發(fā)展到基于內(nèi)容的圖像檢索是圖像檢索領域的重大跨越。但是基于內(nèi)容的圖像檢索中低層次的物理特征與用戶高層次的語義需求之間出現(xiàn)嚴重的不匹配現(xiàn)象,進而發(fā)現(xiàn)在圖像檢索中考慮用戶的因素,從用戶的相關反饋、用戶感興趣區(qū)域、用戶情感、用戶圖像檢索中的交互行為等角度考慮都能不同程度地提高圖像檢索系統(tǒng)的檢索結(jié)果。因此要提高圖像檢索的檢索效果,用戶研究是研究重點。
[1]馬超,唐治德,.相關反饋技術在圖像檢索系統(tǒng)中的應用[J].重慶科技學院學報(自然科學版),2007,(1):81-84.
[2]張亮,周向東,張琪,施伯樂.圖像檢索中基于長期學習的動態(tài)用戶模型[J].軟件學報,2005,(2):233-238.
[3]常小紅,張明,.基于RBFN的交互式圖像檢索方法[J].計算機技術與發(fā)展,2007,(9):31-34.
[10]陳旭文,朱紅麗.一種高效的圖像檢索方法[A]..[C].:,2007.
[4]官倩寧,田卉,覃團發(fā),.基于ROI多特征和相關反饋的圖像檢索算法[J].計算機科學,2008,(5):257-259+269.
[5]趙孟凱,張菁,卓力,沈蘭蓀,.基于視點跟蹤的感興趣區(qū)檢測方法[J].數(shù)據(jù)采集與處理,2010,(1):50-55.
[6]王上飛,陳恩紅,李金龍,王煦法,.基于感性的圖像評估與檢索[J].模式識別與人工智能,2001,(3):297-301
[7]王勝惠,王上飛,王煦法.可視化交互式遺傳算法及其在圖像感性檢索中的應用[J].小型微型計算機系統(tǒng),2004,(3):399-403.