摘 要:基于內(nèi)容的圖像檢索研究(Content-based Image Retrieval, CBIR)的目的是實現(xiàn)自動地#65380;智能地檢索圖像,研究的對象是使查詢者可以方便#65380;快速#65380;準確地從圖像數(shù)據(jù)庫中查找特定圖像的方法和技術(shù)#65377;本文在改進傳統(tǒng)的相關(guān)反饋算法基礎(chǔ)上,引入可更新的特征庫,可以將用戶反饋的信息逐步嵌入到這個可更新特征庫中#65377;實","Introduction":1,"Columns":"算法分析與研究","Volume":1,"Content":"
摘 要:基于內(nèi)容的圖像檢索研究(Content-based Image Retrieval, CBIR)的目的是實現(xiàn)自動地#65380;智能地檢索圖像,研究的對象是使查詢者可以方便#65380;快速#65380;準確地從圖像數(shù)據(jù)庫中查找特定圖像的方法和技術(shù)#65377;本文在改進傳統(tǒng)的相關(guān)反饋算法基礎(chǔ)上,引入可更新的特征庫,可以將用戶反饋的信息逐步嵌入到這個可更新特征庫中#65377;實驗結(jié)果證實了本文改進算法的有效性#65377;
關(guān)鍵詞:圖像檢索;紋理;特征提取;相似性度量;相關(guān)反饋
中圖分類號:TP393文獻標識碼:A
1 前 言
基于內(nèi)容的圖像檢索(CBIR)技術(shù)是由計算機自動提取包含圖像內(nèi)容的可視化特征:顏色#65380;紋理#65380;形狀#65380;輪廓#65380;對象的位置和相互關(guān)系等,對數(shù)據(jù)庫中的圖像和查詢樣本圖像在特征空間進行相似匹配,檢索出與樣本相似的圖像#65377;與傳統(tǒng)標注文本數(shù)據(jù)庫檢索的拓展相比,CBIR在檢索精度#65380;表達方法#65380;檢索速度等方面有著無可比擬的優(yōu)越性#65377;
對CBIR技術(shù)的研究重點大多放在視覺特征的提取,包括顏色#65380;紋理#65380;形狀#65380;輪廓等#65377;近年來研究者又引入了更多領(lǐng)域的知識:從知識表示的角度運用人工智能領(lǐng)域的推理及神經(jīng)網(wǎng)絡(luò)技術(shù)來提取特征和分類圖像;構(gòu)造面向?qū)ο蟮腃BIR系統(tǒng);開發(fā)面向網(wǎng)絡(luò)的CBIR系統(tǒng);并行CBIR技術(shù)也被提上議程#65377;CBIR技術(shù)已經(jīng)成為融合了模式識別#65380;人工智能#65380;圖像處理等多個知識領(lǐng)域的研究熱點,能夠并已經(jīng)開始應用于WWW上的圖像檢索#65380;圖像過濾#65380;數(shù)字圖書館#65380;視頻內(nèi)容檢索#65380;預防犯罪(指紋識別)#65380;軍事#65380;知識產(chǎn)權(quán)(商標)#65380;建筑與工程設(shè)計#65380;文化遺產(chǎn)#65380;醫(yī)療診斷#65380;地理信息系統(tǒng)和遙感等多個領(lǐng)域#65377;
國內(nèi)外眾多的專家學者對基于內(nèi)容的圖像檢索技術(shù)進行了大量研究,并且取得了不少成果#65377;如在利用顏色特征進行檢索方面,Swain提出了直方圖相交法[1];Stricker[2]提出了累加直方圖法等#65377;在利用紋理特征進行圖像檢索方面,Tamura特征法則是Tamura等人通過對6個與人的視覺感受相關(guān)的紋理特征的研究[3],采用粗糙度#65380;對比度#65380;方向性作為紋理特征;Gabor和小波模型法則是對圖像進行多分辨率濾波,提取比付氏法更豐富的紋理特征#65377;Gabor濾波函數(shù)是完備的非正交函數(shù)集,B.S.Manjunath和W.Y.Ma[4]先消除系列Gabor濾波器的元余度(相關(guān)性),然后又設(shè)計了一種自適應濾波器選擇方法,大大降低了計算量,最后以Gabor小波變換系數(shù)的均值和方差作為紋理特征進行圖像檢索#65377;在利用形狀特征進行檢索方面,A.K.Jain[5]利用Canny邊界檢測算子找出圖像的邊界,再統(tǒng)計邊界的方向直方圖,以此作為形狀特征結(jié)合顏色直方圖對400幅商標圖像庫進行檢索,取得了很好的效果#65377;在相關(guān)反饋基礎(chǔ)技術(shù)圖像檢索方面,Rui等提出的修改特征向量和特征分量權(quán)重的方法[6]#65377;
本文主要對已有的相關(guān)反饋算法進行了改進#65377;改進算法在修改特征向量和特征分量權(quán)重的同時,通過拉近和推遠正負反饋圖像的特征,將用戶對系統(tǒng)的反饋信息更新到特征庫中,使以后的檢索請求可以充分利用此信息,實驗測試證實了該算法的高效性#65377;
計算技術(shù)與自動化2007年6月第26卷第2期李慶先:基于內(nèi)容的圖像檢索相關(guān)反饋算法的改進2 基本反饋算法
傳統(tǒng)的相關(guān)反饋檢索過程如下:首先由用戶向系統(tǒng)提出查詢請求系統(tǒng)根據(jù)查詢實例的特征在特征索引庫中查找與之相似的特征向量,從而返回給用戶這些特征向量所對應的圖像#65377;然后,用戶對系統(tǒng)檢索到的圖像與查詢圖像之間的相似度做出評價比如簡單地評價為相似或不相似或標注出檢索到的圖像與查詢實例的相似程度#65377;將此信息反饋給系統(tǒng),系統(tǒng)對查詢實例的特征和特征分量在相似度度量中的權(quán)重進行修改然后再做特征匹配進而返回更接近于用戶查詢意圖的圖像#65377;經(jīng)過這樣一次次的反饋,系統(tǒng)逐漸返回給用戶所期望的結(jié)果#65377;式(1)是系統(tǒng)根據(jù)用戶反饋信息對查詢實例的特征所做的更新#65377;
式中QT表示更新后的查詢特征向量,X是由所有檢索回圖像的特征向量組成的矩陣,N是系統(tǒng)檢索回的圖像個數(shù),πΑ是用戶對每幅圖像的標注權(quán)重組成的向量#65377;
式(2)表示系統(tǒng)根據(jù)用戶反饋信息對各個特征分量的匹配權(quán)重所做的更新#65377;
式中,W為權(quán)值矩陣;C是X的加權(quán)方差陣;K是特征向量的維數(shù),當N 通過以上對特征向量的修改可以使該向量逐漸逼近要檢索圖像類的特征向量中心#65377;而對于特征分量權(quán)重的修改相當于對原特征空間做一次次的空間變換,將原特征空間中比較分散的同一類特征向量映射到新空間的超橢球體內(nèi)#65377; 3 相關(guān)反饋算法的改進 基本反饋算法對特征分量權(quán)重所做的修改,雖然相當于特征空間的一種非線性變換,但并沒有改變特征庫中的特征向量,因此在下一次查詢請求中無法利用這次查詢的結(jié)果#65377;為克服此問題本文對反饋算法的第一個改進是:在修改目標特征向量的同時將相似的反饋圖像的特征向量向目標特征向量移動,位移量由一個收縮因子c來控制,如式(4)所示#65377; 式中,PK#65380;PK+1表示相似圖像在更新前后的特征向量,QK+1表示已更新的查詢向量,通過式(4)使相似圖像的特征向量更加集中#65377; 在實際檢索系統(tǒng)中,為減少用戶操作的復雜程度,用戶的反饋標注往往選用較簡單的方式,即對每一個檢索到的圖像只標注正確或錯誤,因此式(1)中πn的取值為1或0,所以,在對目標特征向量修改時,只有正確的圖像發(fā)揮作用#65377; 針對此問題,本文的另一個改進是:將那些負反饋圖像的特征向量沿著遠離目標特征向量的方向推移#65377;與正反饋圖像類似,選用一個擴散因子來控制推移的距離,如式(5)所示#65377; 式中NK#65380;NK+1表示更新前后負反饋圖像的特征向量#65377;圖1給出了這種拉近和推遠的修改過程#65377; 在圖1中正反饋向量P將向目標向量Q移動,具體移動距離由收縮因子決定;負反饋向量N1將向遠離目標向量Q方向移動,具體移動距離由擴張因子決定#65377;可以預見,當對N1進行外推移動之后,原本在檢索范圍之外的正例樣本P4將有很大機會在下次檢索中進入檢索范圍#65377;實驗證明,這種修改在提高檢索準確率的同時明顯減少了系統(tǒng)的反饋次數(shù)#65377; 4 實驗仿真 根據(jù)上述對紋理圖像檢索技術(shù)的研究,設(shè)計實現(xiàn)了一個實驗系統(tǒng),采用Gabor紋理特征和Tamura紋理特征共同組成檢索用特征向量,完成基于紋理特征的圖像檢索#65377; 在對特征庫進行修改時,為防止正反饋圖像的特征收縮于一個極小的范圍,而不利于下一個用戶的反饋修改,系統(tǒng)作如下限制:當正反饋圖像的個數(shù)在反饋過程中不發(fā)生改變時,系統(tǒng)不再對正反饋圖像特征進行收縮修改,而只對負反饋圖像特征進行擴散修改#65377;目的是為了保證在隨后反饋中,那些尚未進入檢索范圍的相似圖像特征有進入此范圍的可能#65377;而在基本反饋算法中,如果出現(xiàn)上面情況,系統(tǒng)的權(quán)重矩陣往往無法更新,從而導致系統(tǒng)反饋停滯不前#65377; 關(guān)于修改特征庫的變化趨勢,可以從以下兩種極限情況分析#65377;如果低層特征與人的視覺感知是完全一致的,那么,修改特征庫仍將保持原始特征庫的構(gòu)成#65377;如果低層特征與人的視覺感知很不一致,那么,修改特征庫中的特征將按照用戶反饋的信息來分布,低層特征最終將被拋棄,從而使語義相似的圖像特征在特征空間中聚集在一起#65377;而在實際情況下,由于低層特征一般能夠部分反映語義層內(nèi)容,所以修改特征庫將會成為上述兩種情況的中間產(chǎn)物:構(gòu)建在低層特征基礎(chǔ)之上的語義特征庫#65377; 如果能將以上修改信息保存下來,無疑將會提高系統(tǒng)在以后檢索中的性能#65377;但是,當修改了圖像特征庫之后,庫中圖像的特征向量已經(jīng)與最初的圖像特征不同了#65377;修改后的特征向量不再是簡單的低層特征,而是一個綜合了低層特征與語義層特征的新的圖像特征描述#65377;因此在下一次檢索請求中,由于檢索實例的特征向量仍然只是由計算機直接計算的低層特征,所以很可能無法在此修改后的特征庫中找到本應與之匹配的特征向量,從而在系統(tǒng)的第一次返回圖像中沒有相關(guān)圖像,這就使得后面的反饋機制難以實現(xiàn)#65377;為了解決此問題,本文建立兩個特征索引庫,即一個原始特征庫和一個動態(tài)更新特征庫#65377;這兩個庫最初是相同的,系統(tǒng)對特征庫所做的修改僅限于動態(tài)更新特征庫#65377;由于這兩個特征庫最初是同一個庫,所以它們之間存在精確的一一對應關(guān)系#65377;在這種機制下,系統(tǒng)在用戶提出檢索請求之后的第一次檢索計算時使用原始特征庫,然后將得到的特征向量映射到修改特征庫中,從而在以后的反饋檢索中使用修改特征庫,比較有效地解決了上面的問題#65377; 為了驗證本文所述算法的有效性,我們在實驗系統(tǒng)的基礎(chǔ)上設(shè)計了兩大類實驗,分別驗證一次檢索的有效性和用戶反饋的有效性:①一次檢索的查準率(Precision)和查全率(Recall)試驗;②用戶反饋試驗#65377;實驗將分別在Brodatz紋理庫和uni-bonn紋理庫上進行#65377;在檢索精度上,主要是通過其查準率和查全率來進行判斷的#65377;在本文中圖像的查準率為由該圖像檢索返回的15幅圖中與所查詢圖像有相同紋理的圖像的比例,而判斷是否具有相同紋理則是按照圖像是否來源于同一個大圖像,即圖像的名稱中“-”前的部分是否相同#65377; 實驗結(jié)果表明圖像D74-14的圖像查準率11/15=73.3%,用灰度共生矩陣的方法檢索為0/15=0%,用Gabor-Euclid的方法檢索為8/15=53.3%;圖像D27-2的圖像查準率為9/15=60%,用灰度共生矩陣的方法檢索為1/15=6.67%,用Gabor-Euclid的方法檢索為8/15=53.3%,可見本文的方法要明顯優(yōu)于灰度共生矩陣的方法#65377;另外,我們還對兩種紋理圖像測試集做了對比實驗,如圖2#65377; 可以看到,Uni-Bonn紋理對應的總平均查準率比Brodatz紋理的要高#65377;這主要是因為Uni-Bonn測試集中的紋理主要是均勻分布的隨機性紋理,各個子圖之間有較大的相似性,而Brodatz紋理中含有許多結(jié)構(gòu)性紋理和非均勻分布的紋理,4x4分割后的子紋理之間相似度相對較小#65377; 在查全率的實驗中,對圖像庫中的每一個圖像,分別尋找與之最相似的前10,15,20,25和30幅圖中包含有與其切割自同一個紋理類別(大圖)的圖像的個數(shù)n,則每一個圖像的查全率為n/15#65377;最后定義測試集中所有圖像的總平均查全率為圖像庫中所有圖像的查全率的平均值#65377;通過將圖像庫中的每個圖像作為測試圖像進行圖像檢索,用我們的方法獲得了如圖3所示的2個紋理測試集的總平均查全率隨最大檢索匹配數(shù)取值而變化的曲線#65377;可以看到,如前所述Uni-Bonn紋理對應的總平均查全率依然比Brodatz紋理的要高#65377; 為了更精確地研究此算法的性能,并與基本反饋算法做比較,本文選用Brodatz紋理集的非均勻紋理類別D39來進行測試,采用分割自D39的16幅子圖的平均查準率來衡量其性能#65377; 圖4是對基本反饋算法和改進的反饋算法做的測試結(jié)果圖,檢索返回圖像數(shù)為15個#65377;由圖4可以看出,基本反饋算法在5次反饋后只能達到接近40%的查準率,而改進的反饋算法,在4次反饋后可以達到60%的查準率,由此可以看出改進的反饋算法要優(yōu)于基本的反饋算法#65377;由于測試集特意選擇非均勻紋理類別和我們判別檢回圖像是否相似的方法,所以,反饋很難檢回切割自同一紋理類別的所有子圖#65377; 5結(jié)論 通過對由Brodatz紋理和Uni-bonn紋理組成的實驗圖像庫檢索,利用本文的方法與其他常用的方法進行了比較,實驗證明本文提出的方法不僅比其他方法檢索得更精確而且可以通過用戶反饋進行多次檢索,達到圖像低層信息和用戶視覺信息相結(jié)合的目的#65377;但本文提出的圖像檢索方法只是使用了圖像的紋理特征,要使此檢索方法能夠應用到更多的圖像檢索領(lǐng)域中,還需要把更多的圖像特征,如顏色#65380;形狀等特征結(jié)合進來#65377; 注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。