韓建敏,李國(guó)偉,王振飛
(1.河南經(jīng)貿(mào)職業(yè)學(xué)院 計(jì)算機(jī)工程學(xué)院,河南 鄭州 450000;2.中原工學(xué)院 計(jì)算機(jī)學(xué)院,河南 鄭州 450000;3.鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001)
傳統(tǒng)的基于文本的檢索存在主觀性與長(zhǎng)耗時(shí)缺點(diǎn),對(duì)此,出現(xiàn)了基于內(nèi)容的圖像檢索(content based image retrieval,CBIR)[1]。但是,CBIR的主要問題是存在底層特征和高層語(yǔ)義概念之間的語(yǔ)義鴻溝[2,3]。
隨著人們對(duì)圖像檢索的關(guān)注,出現(xiàn)了較多的方法,如符祥等[4]利用興趣點(diǎn)的局部灰度值,獲取局部Zernike。其次,通過得到的Zernike矩,測(cè)量興趣點(diǎn)之間的Euclidean距離,尋找出最優(yōu)匹配點(diǎn)。根據(jù)特征點(diǎn)的空間離散度進(jìn)行相似度量。但是此技術(shù)沒有將人機(jī)交互的相關(guān)反饋應(yīng)用于算法中,致使該方法捕抓的特征并不一定符合用戶的感興趣特征,易導(dǎo)致語(yǔ)義鴻溝。劉保東等[5]設(shè)計(jì)了利用多特征和相關(guān)反饋的圖像檢索技術(shù)。該技術(shù)定義一種自適應(yīng)閾值的SIFT特征算子,有效提取SIFT特征。引入AP簇類技術(shù)對(duì)SIFT特征進(jìn)行簇類,將簇類的中心當(dāng)作視覺單詞,利用得到的視覺單詞建立一個(gè)詞典。再將之前獲得的SIFT特征映射到詞典中,利用VW直方圖來表示圖像。然后,測(cè)量不同直方圖間的相似性,完成圖像檢索任務(wù)。但是,其采用的特征是屬于全局特征,缺乏空間信息,特征之間關(guān)聯(lián)性不強(qiáng)。Mania等[6]利用粒子在空間中的運(yùn)動(dòng)來搜索未知的未知,基于標(biāo)簽的相關(guān)圖和不相關(guān)圖調(diào)節(jié)特征矢量的權(quán)重值,可以改善檢索精度。但該方法中只計(jì)算了相關(guān)圖和不相關(guān)圖的全局信息,沒有根據(jù)局部信息準(zhǔn)確對(duì)圖像完成相關(guān)辨別,檢索率不高。
對(duì)此,為了解決檢索過程中的語(yǔ)義鴻溝現(xiàn)象,進(jìn)一步提高檢索性能,本文提出了基于自適應(yīng)約束的種子繁衍機(jī)制ACSM的交互式圖像檢索,從用戶對(duì)整個(gè)數(shù)據(jù)的交互信息有效地傳播成對(duì)約束。利用ACSM從查詢圖像提取用戶感興趣的區(qū)域(ROI),然后通過測(cè)量圖像與ROI之間的相似度來獲得初始檢索結(jié)果。然后,在整個(gè)數(shù)據(jù)庫(kù)中,利用ACSM機(jī)制,對(duì)用戶的相關(guān)反饋進(jìn)行檢索排序,從而顯著地提高了檢索性能。最后,測(cè)試了所提算法的檢索精度。
給定一對(duì)監(jiān)督約束“鏈接”M和“非鏈接”C,執(zhí)行一個(gè)核映射φ,將樣本X={x1,x2,…,xn}映射到一個(gè)嵌入式內(nèi)核特征空間F中,其中φ=[φ1,φ2,…,φn]=[φ(x1),φ(x2),…,φ(xn)]表示X到F的變換。根據(jù)成對(duì)的假設(shè)來嵌入樣本[8],即兩個(gè)鏈接的樣本被映射得很近,而兩個(gè)非鏈接的樣本則被映射得很遠(yuǎn)。同時(shí)樣本也根據(jù)平滑性假設(shè)來嵌入,使兩個(gè)樣本也變得類似于成對(duì)的樣本那樣接近或遠(yuǎn)離。
將目標(biāo)函數(shù)中的自適應(yīng)約束嵌入到視覺特征分布和監(jiān)督約束的樣本中,根據(jù)整體的數(shù)據(jù)分布使得“鏈接”自適應(yīng)地接近,并且“非鏈接”自適應(yīng)地變遠(yuǎn)。根據(jù)文獻(xiàn)[9]描述,目標(biāo)函數(shù)的核映射定義如下
(1)
其中,tr(·)和·分別為蹤跡和內(nèi)積運(yùn)算;λ、α和β為權(quán)重參數(shù);歸一化圖Laplacian算子L=I-D-1/2WD-1/2,其具有X的關(guān)聯(lián)矩陣W,度矩陣D=[dij]nn、dii=∑jwij;EM=∑(i,j)∈M(ei-ej)(ei-ej)T、EC=∑(i,j)∈C(ei-ej)(ei-ej)T,ei是n×n單位矩陣I的第i列;當(dāng)tr(φ,EMφ)和tr(φ,ECφ)滿足自適應(yīng)約束條件時(shí),tr(φ,Lφ)進(jìn)行全局平滑作用;A=λL+αEM-βEC是一個(gè)廣義Laplacian算子,EM和EC為約束信息。
為了完善模型(1)的應(yīng)用,受到標(biāo)簽傳播(label propagation,LP)的啟發(fā)[10],LP是將種子標(biāo)簽從標(biāo)記樣本傳播至未標(biāo)簽樣本,本文在內(nèi)核學(xué)習(xí)中引入了種子學(xué)習(xí)和傳播,先學(xué)習(xí)一個(gè)種子核映射φl(shuí),再把它擴(kuò)散到未知的子模塊φu以降低計(jì)算復(fù)雜度。將內(nèi)核映射φ分解為φl(shuí)和φu,分別對(duì)應(yīng)于監(jiān)督樣本和非監(jiān)督樣本,并將受限拉普拉斯分成下列計(jì)算
(2)
根據(jù)式(2)描述,式(1)可演變?yōu)?/p>
tr(φ,Aφ)
(3)
φl(shuí)、φu的是根據(jù)將式(3)設(shè)置等于零的偏導(dǎo)數(shù)推導(dǎo)得到的,φu計(jì)算如下
(4)
此外,根據(jù)φl(shuí)的形式可得到φ的表達(dá)式
(5)
其中,Il是與約束樣本相關(guān)的單位矩陣。通過用φ的內(nèi)積定義Mercer核[11]k(xi,xj)=φi,φj,所生成的核矩陣K表示如下
(6)
(7)
利用分解約束Laplacian算子將式(2)中A和式(6)中K求解,得到了如下種子核矩陣Kll所表示的目標(biāo)函數(shù)
(8)
根據(jù)式(8),本文可通過解決以下的種子內(nèi)核學(xué)習(xí)問題來學(xué)習(xí)種子內(nèi)核矩陣Kll,表示為
(9)
Kll(i,i)=1, ?xi∈X
然后,通過式(6)將Kll傳播至K中。本文采用自對(duì)偶嵌入優(yōu)化來執(zhí)行式(9)中的種子學(xué)習(xí),將這種判別性的核矩陣學(xué)習(xí)算法稱作為自適應(yīng)種子繁衍機(jī)制,其過程如下:
輸入:X-樣本集;M-必需連接約束;C-非鏈接約束。
輸出:經(jīng)學(xué)習(xí)的判別性核矩陣K*。
步驟1 形成拉普拉斯算子圖,L,以及監(jiān)督信息的矩陣EM和EC;
步驟2 計(jì)算約束Laplacian算子A:A=λL+αEM-βEC,并且將其分成4個(gè)子矩陣;
感興趣視覺特征耦合種子繁衍機(jī)制的圖像檢索算法的過程主要包含了4部分,其結(jié)構(gòu)如圖1所示。第1部分的交互式前景提取,旨在利用簡(jiǎn)單的用戶交互來分割查詢圖像中的前景目標(biāo),并提取前景目標(biāo)的ROI特征,利用ACSM保存的交互信息的統(tǒng)計(jì)特性。在第2部分中,對(duì)數(shù)據(jù)庫(kù)中的圖像分割,然后,提取局部特征,并存儲(chǔ)于數(shù)據(jù)庫(kù)。在第3部分中,測(cè)量了第1部分和第2部分之間的相似性,并將它們與查詢圖像前景對(duì)象的距離進(jìn)行排序。由于顏色直方圖(color histogram,CH)能有效表示圖像的統(tǒng)計(jì)分布,所以我們使用CH作為圖像檢索的特征。利用RGB彩色空間是用來計(jì)算CH。在4部分,利用ACSM改進(jìn)第3部分中的初始檢索結(jié)果。從相關(guān)反饋中進(jìn)行主動(dòng)學(xué)習(xí)完成對(duì)圖像再排序。
圖1 本文算法的檢索過程
給定一個(gè)圖像,利用ACSM從查詢圖像提取用戶ROI,通過測(cè)量圖像與ROI間的相似度來獲得初始檢索結(jié)果。然后,利用ACSM在整個(gè)數(shù)據(jù)庫(kù)中根據(jù)用戶的相關(guān)反饋進(jìn)行排序。對(duì)于ROI提取,均值平移分割(mean-shift segmentation,MSS)[12]由于具有良好的不連續(xù)性濾波特性,可以顯著減少基本圖像實(shí)體的數(shù)目,同時(shí)保留對(duì)象邊界的顯著特征。因此,本文采用MSS從查詢圖像中生成超像素,然后從超像素中提取出特征。顏色直方圖能有效地代表色彩的統(tǒng)計(jì)分布,因此,其是一個(gè)很好的描述符來表示圖像里的區(qū)域統(tǒng)計(jì)特性。所以,通過顏色直方圖作為前景提取的特征。為了簡(jiǎn)單起見,在RGB色彩空間中計(jì)算CH。首先,將每個(gè)色彩通道平均量化為4組,然后計(jì)算大小為16×16×16=4096的特征空間里的每個(gè)超像素的顏色直方圖。此外,采用巴氏系數(shù)wij來計(jì)算兩個(gè)超像素間的相似性[13],兩個(gè)超像素xi和xj之間的wij計(jì)算公式定義如下
(10)
其中,H(x)是一個(gè)超像素x的歸一化顏色直方圖;M代表維數(shù)。
在ROI提取中,符合前景標(biāo)記的超像素為前景種子,而符合背景標(biāo)記的超像素則為背景種子。從背景中提取前景目標(biāo)時(shí),需要將不確定的超像素確定為其屬于前景還是背景,因?yàn)橹挥幸恍〔糠值那熬昂捅尘俺袼厥怯捎脩糁付ǖ?,因此,想要?zhǔn)確地從背景中提取出前景目標(biāo),仍然是一個(gè)具有挑戰(zhàn)性的問題。為了能有效地捕獲前景/背景種子中的全局判別性結(jié)構(gòu),將ACSM運(yùn)用到所有的查詢圖像像素上。首先,通過式(9)學(xué)習(xí)種子核矩陣,在前景/背景種子中生成對(duì)約束。如果兩個(gè)種子有相同的標(biāo)記,則它們屬于必須鏈接約束,反之,如果兩個(gè)種子有不同的標(biāo)記,則它們屬于非鏈接約束。然后,在式(6)通過將種子核矩陣傳播獲得查詢圖像的完整核矩陣。為了實(shí)現(xiàn)前景提取,在已學(xué)習(xí)的完整核矩陣上進(jìn)行全局k-均值計(jì)算[14],將前景/背景的一個(gè)標(biāo)簽指派給不確定的部分。
ROI提取,如圖2所示。
圖2 ROI提取
在獲取前景目標(biāo)之后,引入Euclidean距離測(cè)量ROI與數(shù)據(jù)庫(kù)中局部特征間的相似性,Euclidean距離的大小反應(yīng)了兩個(gè)像素間的相似性[15],其越小表示其差異越小。Euclidean距離定義如下
(11)
其中,xi,xj分別為ROI與數(shù)據(jù)庫(kù)的局部特征;P為查詢圖像數(shù)量。
在測(cè)量Euclidean距離之后,基于相似性對(duì)圖像進(jìn)行排序。如果檢索性能非盡如人意,用戶可以為檢索結(jié)果提供相關(guān)反饋(相關(guān)/不相關(guān))以用于圖像再排序(圖1中的第4部分)。因此,可從相關(guān)的反饋中生成圖像的成對(duì)約束,從查詢和相關(guān)圖像中生成必須鏈接對(duì),而從查詢和非相關(guān)圖像中生成非鏈接對(duì)。然后,在成對(duì)約束和圖像上執(zhí)行ACSM,將用戶的相關(guān)性反饋傳播至整個(gè)數(shù)據(jù)庫(kù)并且學(xué)習(xí)全局判別性結(jié)構(gòu)用于圖像再排序。通過下文描述的主動(dòng)學(xué)習(xí)部分中的學(xué)習(xí)特征來衡量圖像之間的相似性,以便排序。ACSM對(duì)相關(guān)反饋下的低層圖像特征與高層語(yǔ)義的相關(guān)性的學(xué)習(xí)是非常有效的。
主動(dòng)學(xué)習(xí)主要是通過主動(dòng)選擇策略選取信息量較多的成對(duì)約束,用盡可能少的約束信息來盡量多地提高簇類效果。常用的方法是將無標(biāo)簽的數(shù)據(jù)構(gòu)成一個(gè)樣本池,在根據(jù)選擇策略進(jìn)行估計(jì),從而選擇低置信度的數(shù)據(jù)完成標(biāo)簽。本文選擇最近邊界策略(recent frontier policy,RFP),定義如下
(12)
(13)
(14)
式中:α∈[0,1]為調(diào)整因子。由于不同樣本數(shù)量與分類SVM球面半徑不相等,導(dǎo)致其計(jì)算較為復(fù)雜。為了便于計(jì)算,將初始樣本計(jì)算獲得的無監(jiān)督SVM模型的R進(jìn)行歸一化。當(dāng)數(shù)據(jù)獲得值小于閾值時(shí),說明數(shù)據(jù)是聚類代表樣本點(diǎn),對(duì)優(yōu)化模型最有價(jià)值,選取作為標(biāo)簽樣本。
基于ACSM機(jī)制的圖像檢索算法描述如下:
輸入:查詢圖像和圖像數(shù)據(jù)庫(kù)。
輸出:圖像檢索結(jié)果。
步驟1 從用戶互動(dòng)中生成區(qū)域級(jí)別的成對(duì)約束,并根據(jù)“1基于自適應(yīng)約束的種子繁衍機(jī)制”的過程執(zhí)行ACSM;
步驟2 執(zhí)行全局k-均值算法以從查詢中提取ROI;
步驟3 對(duì)圖像排序并且選擇相關(guān)/不相關(guān)的檢索結(jié)果;
步驟4 從相關(guān)反饋中生成圖像的成對(duì)約束,并再次執(zhí)行ACSM;
步驟5 對(duì)圖像排序以輸出最后檢索結(jié)果。
為測(cè)試本文算法性能,選擇在Corel圖像集中測(cè)試。Corel圖像集由10類圖像組成[16]:非洲、海灘、建筑、公車、恐龍、象、花卉、馬、山川與食物,每類含100幅,共1000幅,如圖3所示。測(cè)試環(huán)境為:Intel i3 8核CPU,3.50 GHz,8 GB RAM,64位WIN8系統(tǒng)。借助Matlab2012作為測(cè)試軟件。為達(dá)到最優(yōu)的性能,通過多次實(shí)驗(yàn)得到了本文算法的參數(shù):α=0.26,β=0.25,λ=0.21。為突顯本文算法的優(yōu)異性,選取當(dāng)前流行的檢索技術(shù)視為對(duì)照組:文獻(xiàn)[4]、文獻(xiàn)[5]和文獻(xiàn)[6],為便于記錄,依次記為A算法、B算法、C算法。
圖3 Corel圖像庫(kù)
為評(píng)估算法檢索性能,選擇常用的3種評(píng)價(jià)指標(biāo):查準(zhǔn)率(Precision)、召回率(Recall)和F值。F值為Precision和Recall的加權(quán)評(píng)價(jià)值[17],其函數(shù)表示如下
(15)
(16)
(17)
其中,Tp為正確識(shí)別偽造數(shù)量;Fp為誤判為偽造數(shù)量;FN為漏檢的偽造數(shù)量,η為常數(shù),通常取1[18]。
為評(píng)估算法的性能,在Corel中,分別通過A算法、B算法、C算法與本文算法進(jìn)行測(cè)驗(yàn),實(shí)驗(yàn)中給定一幅查詢圖像,利用不同的算法返回得到16幅最相似圖像。圖4為查詢圖像(query image,QI)。圖5~圖8分別是本文算法、C算法、B算法、A算法返回的圖像。從圖5~圖8中得知,本文算法返回的結(jié)果均含有大象,與QI相似性最高;圖6中返回的結(jié)果中出現(xiàn)了一匹馬,與QI中的對(duì)象(大象)不相關(guān),見圖中最后一張;圖7中返回的結(jié)果中出現(xiàn)了馬和恐龍2幅圖像,與QI中的對(duì)象(大象)不相關(guān),見圖最后兩張;圖8中返回的結(jié)果中出現(xiàn)了馬和恐龍3幅圖像,與QI中的對(duì)象(大象)不相關(guān),見圖中最后3張。
圖4 查詢圖像
圖5 本文算法檢索結(jié)果
圖6 C算法檢索結(jié)果
圖7 B算法檢索結(jié)果
圖8 A算法檢索結(jié)果
根據(jù)圖5~圖8結(jié)果得出,提出算法取得了優(yōu)良的效果,得到的返回圖像與查詢圖像相似度高。主要是本文引入用戶交互和主動(dòng)學(xué)習(xí)的相關(guān)反饋,根據(jù)種子核映射,定義了ACSM算子,以提取用戶ROI特征。再利用Euclidean距離測(cè)量查詢圖像與數(shù)據(jù)庫(kù)圖像的相似度,利用測(cè)量的相似度來獲得初始檢索結(jié)果。最后,利用ACSM機(jī)制從用戶的相關(guān)反饋中主動(dòng)學(xué)習(xí)來排序,使其能有效從ROI與相關(guān)反饋中學(xué)習(xí)圖像的低層特征和高層語(yǔ)義之間的關(guān)聯(lián),提高圖像檢索精度。A算法中由于沒有將人機(jī)交互的反饋機(jī)制在檢索算法使用,導(dǎo)致該算法獲取的相似區(qū)并不一定符合用戶的興趣區(qū)域,出現(xiàn)了語(yǔ)義鴻溝。B算法中其采用的特征是屬于全局特征,缺乏空間信息,特征之間關(guān)聯(lián)性不強(qiáng)。C算法中計(jì)算了相關(guān)圖和不相關(guān)圖的全局信息,沒有根據(jù)局部信息準(zhǔn)確對(duì)圖像完成相關(guān)辨別,檢索率還有待提高。
為定量評(píng)估算法性能,利用評(píng)價(jià)指標(biāo)Precision、Recall和F值衡量。圖9為在Corel中不同類圖像的評(píng)價(jià)Precision統(tǒng)計(jì),從圖9中看出,對(duì)不同種類圖像,提出算法的Precision取得了良好表現(xiàn)。
圖9 不同類別圖像的平均Precision
圖10為不同檢索方法得到的P-R曲線與F值。圖10(a)為P-R曲線,圖10(b)為F值。根據(jù)圖10中看出,本文算法的P-R曲線走勢(shì)平穩(wěn),相對(duì)性能優(yōu)于其它3個(gè)對(duì)比算法,綜合表現(xiàn)最優(yōu)。F值綜合了P和R的結(jié)果,反映了整體指標(biāo),從圖10(b)中看出,本文算法F表現(xiàn)最佳,說明其綜合檢索性能最優(yōu)。
圖10 不同算法的定量評(píng)價(jià)
為減少檢索中的語(yǔ)義鴻溝現(xiàn)象,提高圖像檢索性能,通過自適應(yīng)傳輸監(jiān)督信息的全局特征空間進(jìn)行判別學(xué)習(xí),設(shè)計(jì)了感興趣視覺特征耦合種子繁衍機(jī)制的圖像檢索算法。為了提高查詢圖像中用戶興趣的捕獲和表示能力,采用區(qū)域分割的局部特征代替全局特征。定義了一種ACSM算子,提取圖像的ROI,從用戶對(duì)整個(gè)數(shù)據(jù)的交互信息有效地傳播成對(duì)約束。ACSM能夠有效地從用戶的互動(dòng)中學(xué)習(xí)圖像的底層特征與高層語(yǔ)義概念之間的相關(guān)性。其在整個(gè)數(shù)據(jù)庫(kù)中根據(jù)用戶的相關(guān)反饋進(jìn)行檢索結(jié)果排序,并有效學(xué)習(xí)給定特征與約束的全局判別結(jié)構(gòu),從而顯著地提高了檢索性能。實(shí)驗(yàn)結(jié)果表明提出的算法檢索性能優(yōu)異,有效降低了語(yǔ)義鴻溝現(xiàn)象。