李 凈,李 桃,富 斌
(上海健康醫(yī)學(xué)院附屬第六人民醫(yī)院東院 計算機中心,上海 201306)
相關(guān)反饋[1]和融合文本特征[2-4]的圖像檢索是解決圖像檢索中“語義鴻溝”最有效的兩種方式。傳統(tǒng)的反饋模式由于沒有明確指出當(dāng)前查詢與特征間的聯(lián)系使得學(xué)習(xí)器很難快速、正確調(diào)整。因此,相關(guān)反饋時通過人工標(biāo)注的方式獲取與當(dāng)前查詢相關(guān)的特征信息會極大提高檢索精度,這種用戶直接標(biāo)注特征的方法被稱為特征標(biāo)注。
特征標(biāo)注由Raghavan等[5]提出并成功應(yīng)用于文本檢索中,此后Shama等[6]研究了基于特征標(biāo)注的主動學(xué)習(xí),解決了特征反饋時最佳文本特征的自動推薦問題;Sindhwani等[7]研究了基于特征標(biāo)注和實例標(biāo)注的主動的雙重學(xué)習(xí),Attenberg等[8]研究了基于池的多項式雙重學(xué)習(xí)方法,證明了特征標(biāo)注、實例標(biāo)注交替學(xué)習(xí)的相關(guān)反饋模式優(yōu)于單獨標(biāo)準(zhǔn)的反饋模式。
受到文獻[5,8]的啟發(fā)再加上圖像文本特征的便捷獲取(網(wǎng)頁標(biāo)簽的便捷獲取和自動文本標(biāo)注技術(shù)的發(fā)展),作者將特征標(biāo)注的思想引入圖像檢索的相關(guān)反饋,但由于文本特征只是圖像的其中一類特征,特征標(biāo)注相關(guān)反饋的成果無法直接應(yīng)用于該領(lǐng)域,因此,本文主要研究:文本特征與底層視覺特征關(guān)聯(lián)方法;基于文本特征及圖像實例的混合反饋模式、標(biāo)注模式;混合反饋主動學(xué)習(xí)中文本特征/實例選擇策略;反饋模式切換策略以及視覺特征的標(biāo)注策略。
圖像檢索系統(tǒng)的流程如圖1所示:用戶首先提供待檢索圖像或文本,系統(tǒng)可以使用任意排序函數(shù)給出Top-n個圖像,當(dāng)用戶對返回的結(jié)果不滿意時,系統(tǒng)給用戶提供待標(biāo)注的文本特征或圖像實例,在獲取用戶標(biāo)注后,標(biāo)注為“相關(guān)”的特征或圖像實例正例點的yi值賦1;負(fù)例點賦0,然后系統(tǒng)自動進行啟發(fā)式視覺特征標(biāo)注(此過程稱為混合反饋),接著使用高斯場和調(diào)和函數(shù)半監(jiān)督學(xué)習(xí)(式(4))計算其它未標(biāo)注圖像實例的f值并對其排序后返回Top-n個圖像實例,然后進行下一輪學(xué)習(xí)直到用戶滿意。
圖1 圖像檢索系統(tǒng)流程
我們采用了基于高斯場和調(diào)和函數(shù)的半監(jiān)督學(xué)習(xí)法[9]進行混合反饋模式下的學(xué)習(xí),該方法是一個基于圖的半監(jiān)督學(xué)習(xí)方法,其算法描述如下。
(1)
圖2 特征標(biāo)注和實例標(biāo)注的雙重監(jiān)督
在圖G上計算一個實數(shù)值函數(shù)f:V→,并對所有的標(biāo)識樣本都滿足約束:f(i)≡fl(i)≡yi?;趫D的半監(jiān)督學(xué)習(xí)一般建立在假設(shè)“相近的點具有相同的標(biāo)記”,同樣的,相近的未標(biāo)識樣本點應(yīng)該具有相似的標(biāo)記,基于此原則可以定義二次能量函數(shù)(式(2))
(2)
然后通過高斯場為f函數(shù)指派了一個概率分布
(3)
為計算方便,將W矩陣分成4塊
Δf=(D-W)·f
則
-Wulfl+(Duu-Wuu)fu=0且(Dll-Wll)fl-Wlufu=fl
-Wulfl+(Duu-Wuu)fu=0
? (Duu-Wuu)fu=Wulfl
?fu=(Duu-Wuu)-1Wulfl
另外,由于f=Pf,則
所以
fu=(Duu-Wuu)-1Wulfl=(I-Puu)-1Pulfu
(4)
式(4)表示雙重監(jiān)督圖中未標(biāo)注結(jié)點的標(biāo)記fu等于(I-Puu)-1Pulfu。
基于特征標(biāo)注和實例標(biāo)注的混合反饋是在傳統(tǒng)的基于實例標(biāo)注的基礎(chǔ)上將特征標(biāo)注引入到系統(tǒng)中的一種新穎的方式,混合反饋模式的學(xué)習(xí)采用上一節(jié)的半監(jiān)督學(xué)習(xí)算法。將文獻[8]中提出的3種標(biāo)注模式(先特征后圖像實例(modeⅠ)、先圖像實例后特征(modeⅡ)和圖像特征交叉(modeⅢ))應(yīng)用于圖像檢索中。
modeⅠ首先對隨機選擇的文本關(guān)鍵字提供標(biāo)記,直到所有的文本關(guān)鍵字標(biāo)注完成后再對隨機抽取的樣例進行標(biāo)記;modeⅡ先對隨機選擇的圖像實例進行標(biāo)記,然后再切換到隨機抽取的文本關(guān)鍵字標(biāo)記階段;modeⅢ隨機選擇標(biāo)注圖像實例或標(biāo)注文本特征。在modeⅢ中,按照文獻[8]的思路某個概率進行取樣。圖3的對比實驗基于Corel5k數(shù)據(jù)庫,我們在50個類別中每個類中隨機選擇20個圖像作為查詢?nèi)缓笥嬎慊旌戏答伳J较碌钠骄龋答佭^程中采用由系統(tǒng)完全正確的方式對文本特征和圖像實例進行標(biāo)注,每次只標(biāo)注一個特征或一個實例。這種方式在Corel5k中可以方便的提供,因為:圖片的編號整除100就可以得到其所述的分類,Corel5k的文本關(guān)鍵字采用4.2的方法對每個圖像進行了文本關(guān)鍵字標(biāo)注,通過查詢圖像的文本標(biāo)注文件可以獲得準(zhǔn)確的特征標(biāo)注情況。圖3的橫坐標(biāo)表示用戶標(biāo)注特征或?qū)嵗臄?shù)目,縱坐標(biāo)表示查詢的平均精度。3種模式在經(jīng)過1000個查詢后最終的系統(tǒng)性能都不錯,3條曲線中,modeⅢ的總體性能比modeⅠ、modeⅡ更好,后續(xù)的標(biāo)注方式采用了modeⅢ。
圖3 3種混合標(biāo)注模式下系統(tǒng)的性能
圖4為modeⅢ分別在50、100、150個查詢時,不同特征/實例選取概率下的系統(tǒng)精度。圖中的橫坐標(biāo)為特征/實例的概率值,縱坐標(biāo)為系統(tǒng)的平均精度。圖中的3條曲線基本都在概率值等于0.1出現(xiàn)了最高點。我們以后的選取概率選擇0.1。其概率值可能與實驗數(shù)據(jù)庫中圖像數(shù)以及文本特征點數(shù)目有關(guān)(Corel5k中共有圖像實例5000個,文本特征點374個,其比值近0.1),因此,在其它數(shù)據(jù)庫中可以以此作為概率值的選取依據(jù)。
圖4 modeⅢ在不同選擇概率下系統(tǒng)的性能
文本特征或圖像實例隨機采樣的混合反饋方式已經(jīng)初步展示了其高效性,不過其需要很大的樣本量,主動學(xué)習(xí)是減少標(biāo)注樣本量最有效的手段。在該框架下,高斯場和調(diào)和函數(shù)半監(jiān)督學(xué)習(xí)模型中文本特征的f值可以用于度量文本特征的不確定性。就某次檢索而言,將abs(0.5-f)作為文本特征的不確定度量值,該值越小表明此特征越不確定,當(dāng)f=0.5時,abs(0.5-f)達(dá)到最小,不確定性也達(dá)到最大,不確定抽象策略選取abs(0.5-f)值小的為標(biāo)準(zhǔn)。確定性策略認(rèn)為半監(jiān)督學(xué)習(xí)中的某結(jié)點的f值在一定程度上反映了結(jié)點與查詢結(jié)點的相似程度,f=0.5表明它是最無法確定的結(jié)點。f=0.5的特征常常是比較中性的關(guān)鍵字,實際上分類器更需要知道那些具有判別能力的特征,該策略選擇f值大的特征。
在我們所使用的半監(jiān)督框架下,圖像和文本特征都是圖中的點,它們具有同等意義,自然的,我們可以將基于特征的不確定抽樣、確定抽樣作為基于圖像實例的主動查詢策略。
圖5是modeⅢ混合反饋模式下,使用不確定抽樣、確定抽樣以及隨機抽樣3種主動學(xué)習(xí)策略下的系統(tǒng)平均準(zhǔn)確率。對比實驗結(jié)果表明,使用基于確定抽樣的主動學(xué)習(xí)優(yōu)于其它兩種策略,大幅度提升了系統(tǒng)的性能。
圖5 modeⅢ中3個主動特征學(xué)習(xí)策略的系統(tǒng)性能
圖6是modeⅢ混合反饋模式下,基于確定抽樣的主動特征學(xué)習(xí)與隨機實例抽樣、確定實例抽樣以及不確定實例抽樣組合使用時的系統(tǒng)性能。對比實驗結(jié)果表明,使用基于確定抽樣的主動學(xué)習(xí)+確定抽樣的實例學(xué)習(xí)方式優(yōu)于其它兩種方式。確定抽樣是將f值大的圖像或文本特征作為查詢返回,讓用戶標(biāo)注,而系統(tǒng)檢索時返回的也是Top-n個f值大的圖像。檢索結(jié)果正是確定策略需要選取的實例,這樣檢索和主動學(xué)習(xí)就是一個統(tǒng)一的過程,系統(tǒng)不再需要進行復(fù)雜的切換工作,解決了基于主動學(xué)習(xí)的圖像檢索系統(tǒng)樣例查詢過程與圖像檢索過程不同、切換復(fù)雜的難題。
圖6 modeⅢ下3個主動圖像實例學(xué)習(xí)策略對比
上面討論中,只是將特征/實例雙重監(jiān)督圖中的視覺特征的f值簡單的設(shè)為0,并沒有進行進一步的學(xué)習(xí)。然而對某類圖像而言,某個視覺特征可能具有更好的分類效果,比如,Corel5k中海灘類與顏色相關(guān)特征應(yīng)該占有較大的權(quán)值;而對于北極熊類別,形狀特征是比其它特征更具判別力的特征。下面通過兩種偽反饋方式對圖像視覺特征進行標(biāo)注。
3.3.1 基于特征/實例雙重監(jiān)督圖的視覺標(biāo)注
在給定l個(特征-標(biāo)記)或(圖像-標(biāo)記)反饋后,計算式(4)后可以得到其它未標(biāo)注特征/實例點的f值,其值就反映了該結(jié)點對原始查詢的相似程度。在雙重監(jiān)督圖上,我們將f>c的視覺點的f值置1,此時將用戶標(biāo)注從文本特征、圖像實例拓展到視覺特征中。為盡量保證這種偽反饋方式下選擇的視覺結(jié)點與查詢相關(guān),將參數(shù)c設(shè)為0.8。為了節(jié)省系統(tǒng)的計算時間,我們將反饋調(diào)整為:①在雙重監(jiān)督圖上學(xué)習(xí),對f值排序,將f>c的視覺結(jié)點在雙重監(jiān)督圖上置1,返回Top-n個圖像實例。②如果用戶不滿意,進行標(biāo)注,將標(biāo)注后的文本特征/實例點在雙重監(jiān)督圖上置1,返回步驟①。調(diào)整后的反饋對系統(tǒng)性能基本沒有影響,但它卻將原本的兩次矩陣運算變?yōu)橐淮?,提高了系統(tǒng)實時性。
3.3.2 啟發(fā)式視覺標(biāo)注
啟發(fā)式的權(quán)重調(diào)整是傳統(tǒng)的相關(guān)反饋中典型的一種方式,它通過用戶標(biāo)注的圖像實例對圖像的視覺特征進行學(xué)習(xí)。這里,我們通過用戶標(biāo)注的文本關(guān)鍵字特征和圖像實例進行視覺權(quán)重的調(diào)整。此方法獨立于雙重監(jiān)督圖,從另一種方式產(chǎn)生視覺特征標(biāo)注。
IPi表示視覺特征Fi的重要程度,m為正例數(shù)目,s為負(fù)例數(shù)目,Poi表示在Top-m個圖像中正例的數(shù)目,Nei表示在末尾s個圖像中反例的數(shù)目;
計算第j個視覺特征的權(quán)值
將Wi>0.8的視覺特征階段的f值置1。
圖7為在無視覺特征標(biāo)注以及兩種視覺特征標(biāo)注方式下系統(tǒng)的性能,圖中的Method 1表示基于特征/實例雙重監(jiān)督圖的方式,Method 2表示啟發(fā)式視覺標(biāo)注方式。對比實驗結(jié)果表明,使用視覺標(biāo)注偽反饋的系統(tǒng)性能比不使用視覺標(biāo)注的基于確定抽樣的特征/實例主動學(xué)習(xí)總體性能好?;趩l(fā)式視覺標(biāo)注的Method 2也更優(yōu)于Method 1。Method 2需要進行額外計算,計算量大于Method 1,但Method 2只對反饋正例和反例圖像進行相似度計算以及排序,計算量增加不大,計算時間基本可以忽略。
圖7 不同視覺標(biāo)注方式下系統(tǒng)性能
目前,幾乎所有關(guān)于特征標(biāo)注的研究都在最佳條件下對算法進行評估,上面章節(jié)已經(jīng)研究并驗證了在最佳特征標(biāo)注情況下的算法效果,不過這類研究與現(xiàn)實中用戶的選擇不完全一致。本章節(jié)對由真實用戶提供特征以及圖像實例標(biāo)注的情況下算法的有效性進行驗證。
我們選用了25個真實的學(xué)生參與者使用系統(tǒng)并對系統(tǒng)的性能進行評估,評估數(shù)據(jù)集為在上章節(jié)介紹的Corel5k和數(shù)據(jù)庫和NUS-WIDE LITE兩個數(shù)據(jù)庫。這些參與者都是本科生,其中有18個男生,17個女生,它們當(dāng)中19個是計算機專業(yè)的學(xué)生,6個信息管理與信息系統(tǒng)專業(yè)的學(xué)生,他們都能夠熟練使用檢索系統(tǒng)。標(biāo)注和記錄方式參照文獻[4]。
雖然Corel5k提供了文本關(guān)鍵字的精確標(biāo)注,但是為了符合現(xiàn)實情況,本文使用文獻[4]的方法進行文本關(guān)鍵字特征的構(gòu)建。對NUS-WIDE LITE,我們采用TF模型。
4.3.1 各主動學(xué)習(xí)方法對比
圖8為SVMactive、主動特征學(xué)習(xí)以及無視覺標(biāo)注下特征/實例雙重學(xué)習(xí)在Corel5k數(shù)據(jù)庫中,每輪返回20張圖像時的對比實驗。圖中的橫坐標(biāo)為用戶返回輪次,縱坐標(biāo)為系統(tǒng)的平均查準(zhǔn)率。實驗做了如下設(shè)置:主動特征學(xué)習(xí)以及無視覺標(biāo)注下特征/實例雙重學(xué)習(xí)每輪在返回20個圖像時,同時返回2個文本關(guān)鍵字特征(Corel5k中特征,實例比為0.1);SVMactive方法標(biāo)注過程和檢索過程是兩個過程,在標(biāo)注輪我們選擇10個圖像,檢索輪返回20個圖像,將兩個過程作為一次反饋。兩個數(shù)據(jù)庫上的實驗結(jié)果表明融入特征標(biāo)注的方法優(yōu)于無特征標(biāo)注的方法;基于實例/特征的雙重學(xué)習(xí)比主動特征學(xué)習(xí)性能更優(yōu)。
圖8 Corel5k的3種主動學(xué)習(xí)方法對比
4.3.2 不同視覺標(biāo)注方法對比
圖9,圖10為3種算法在Corel5k數(shù)據(jù)集上返回不同數(shù)目圖像時的系統(tǒng)查準(zhǔn)率,橫坐標(biāo)為返回的圖像數(shù)目。實驗結(jié)果表明:實際用戶標(biāo)注的場景下,拓展視覺標(biāo)注方式在兩個數(shù)據(jù)集上都優(yōu)于不使用的方式,Method 2(啟發(fā)式視覺標(biāo)注)優(yōu)于Method 1(特征/實例雙重監(jiān)督圖的視覺標(biāo)注)。
圖9 兩種視覺標(biāo)注方法的系統(tǒng)查準(zhǔn)率(第2輪)
圖10 兩種視覺標(biāo)注方法的系統(tǒng)查準(zhǔn)率(第4輪)
本文將主動特征學(xué)習(xí)引入圖像檢索領(lǐng)域,提出了基于文本關(guān)鍵字特征和圖像實例標(biāo)注的混合學(xué)習(xí)模式,該模式的實現(xiàn)基于高斯場及調(diào)和函數(shù)的半監(jiān)督學(xué)習(xí)和主動學(xué)習(xí)。與此同時,對混合標(biāo)注方式、主動特征學(xué)習(xí)、主動實例學(xué)習(xí)等策略進行了詳細(xì)研究。特別的,本文提出了視覺特征標(biāo)注拓展偽反饋的方法。通過最佳特征標(biāo)注和真實用戶標(biāo)注場景下的對比實驗,我們發(fā)現(xiàn)將主動特征標(biāo)注學(xué)習(xí)引入圖像檢索是非常有效的,它不僅僅提高了系統(tǒng)的效率,還將標(biāo)注選擇和結(jié)果返回兩個過程有機統(tǒng)一起來。