亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于文本特征及圖像實例標(biāo)注的反饋策略

2018-12-22 07:40:56李凈，李桃，富斌

計算機工程與設(shè)計 2018年12期

李凈，李桃，富斌

(上海健康醫(yī)學(xué)院附屬第六人民醫(yī)院東院計算機中心，上海 201306)

0 引言

相關(guān)反饋[1]和融合文本特征[2-4]的圖像檢索是解決圖像檢索中“語義鴻溝”最有效的兩種方式。傳統(tǒng)的反饋模式由于沒有明確指出當(dāng)前查詢與特征間的聯(lián)系使得學(xué)習(xí)器很難快速、正確調(diào)整。因此，相關(guān)反饋時通過人工標(biāo)注的方式獲取與當(dāng)前查詢相關(guān)的特征信息會極大提高檢索精度，這種用戶直接標(biāo)注特征的方法被稱為特征標(biāo)注。

特征標(biāo)注由Raghavan等[5]提出并成功應(yīng)用于文本檢索中，此后Shama等[6]研究了基于特征標(biāo)注的主動學(xué)習(xí)，解決了特征反饋時最佳文本特征的自動推薦問題；Sindhwani等[7]研究了基于特征標(biāo)注和實例標(biāo)注的主動的雙重學(xué)習(xí)，Attenberg等[8]研究了基于池的多項式雙重學(xué)習(xí)方法，證明了特征標(biāo)注、實例標(biāo)注交替學(xué)習(xí)的相關(guān)反饋模式優(yōu)于單獨標(biāo)準(zhǔn)的反饋模式。

受到文獻[5,8]的啟發(fā)再加上圖像文本特征的便捷獲取(網(wǎng)頁標(biāo)簽的便捷獲取和自動文本標(biāo)注技術(shù)的發(fā)展)，作者將特征標(biāo)注的思想引入圖像檢索的相關(guān)反饋，但由于文本特征只是圖像的其中一類特征，特征標(biāo)注相關(guān)反饋的成果無法直接應(yīng)用于該領(lǐng)域，因此，本文主要研究：文本特征與底層視覺特征關(guān)聯(lián)方法；基于文本特征及圖像實例的混合反饋模式、標(biāo)注模式；混合反饋主動學(xué)習(xí)中文本特征/實例選擇策略；反饋模式切換策略以及視覺特征的標(biāo)注策略。

1 圖像檢索系統(tǒng)流程

圖像檢索系統(tǒng)的流程如圖1所示：用戶首先提供待檢索圖像或文本，系統(tǒng)可以使用任意排序函數(shù)給出Top-n個圖像，當(dāng)用戶對返回的結(jié)果不滿意時，系統(tǒng)給用戶提供待標(biāo)注的文本特征或圖像實例，在獲取用戶標(biāo)注后，標(biāo)注為“相關(guān)”的特征或圖像實例正例點的yi值賦1；負(fù)例點賦0，然后系統(tǒng)自動進行啟發(fā)式視覺特征標(biāo)注(此過程稱為混合反饋)，接著使用高斯場和調(diào)和函數(shù)半監(jiān)督學(xué)習(xí)(式(4))計算其它未標(biāo)注圖像實例的f值并對其排序后返回Top-n個圖像實例,然后進行下一輪學(xué)習(xí)直到用戶滿意。

圖1 圖像檢索系統(tǒng)流程

2 基于高斯場和調(diào)和函數(shù)的半監(jiān)督學(xué)習(xí)

我們采用了基于高斯場和調(diào)和函數(shù)的半監(jiān)督學(xué)習(xí)法[9]進行混合反饋模式下的學(xué)習(xí)，該方法是一個基于圖的半監(jiān)督學(xué)習(xí)方法，其算法描述如下。

2.1 構(gòu)造特征標(biāo)注和實例標(biāo)注的雙重監(jiān)督圖

(1)

圖2 特征標(biāo)注和實例標(biāo)注的雙重監(jiān)督

2.2 構(gòu)造標(biāo)記推測函數(shù)

在圖G上計算一個實數(shù)值函數(shù)f:V→，并對所有的標(biāo)識樣本都滿足約束：f(i)≡fl(i)≡yi?；趫D的半監(jiān)督學(xué)習(xí)一般建立在假設(shè)“相近的點具有相同的標(biāo)記”，同樣的，相近的未標(biāo)識樣本點應(yīng)該具有相似的標(biāo)記，基于此原則可以定義二次能量函數(shù)(式(2))

(2)

然后通過高斯場為f函數(shù)指派了一個概率分布

(3)

2.3 計算推測函數(shù)

為計算方便，將W矩陣分成4塊

Δf=(D-W)·f

則

-Wulfl+(Duu-Wuu)fu=0且(Dll-Wll)fl-Wlufu=fl
-Wulfl+(Duu-Wuu)fu=0
? (Duu-Wuu)fu=Wulfl
?fu=(Duu-Wuu)-1Wulfl

另外，由于f=Pf，則

所以

fu=(Duu-Wuu)-1Wulfl=(I-Puu)-1Pulfu

(4)

式(4)表示雙重監(jiān)督圖中未標(biāo)注結(jié)點的標(biāo)記fu等于(I-Puu)-1Pulfu。

3 混合反饋模式

3.1 標(biāo)注模式

基于特征標(biāo)注和實例標(biāo)注的混合反饋是在傳統(tǒng)的基于實例標(biāo)注的基礎(chǔ)上將特征標(biāo)注引入到系統(tǒng)中的一種新穎的方式，混合反饋模式的學(xué)習(xí)采用上一節(jié)的半監(jiān)督學(xué)習(xí)算法。將文獻[8]中提出的3種標(biāo)注模式(先特征后圖像實例(modeⅠ)、先圖像實例后特征(modeⅡ)和圖像特征交叉(modeⅢ))應(yīng)用于圖像檢索中。

modeⅠ首先對隨機選擇的文本關(guān)鍵字提供標(biāo)記，直到所有的文本關(guān)鍵字標(biāo)注完成后再對隨機抽取的樣例進行標(biāo)記；modeⅡ先對隨機選擇的圖像實例進行標(biāo)記，然后再切換到隨機抽取的文本關(guān)鍵字標(biāo)記階段；modeⅢ隨機選擇標(biāo)注圖像實例或標(biāo)注文本特征。在modeⅢ中，按照文獻[8]的思路某個概率進行取樣。圖3的對比實驗基于Corel5k數(shù)據(jù)庫,我們在50個類別中每個類中隨機選擇20個圖像作為查詢?nèi)缓笥嬎慊旌戏答伳Ｊ较碌钠骄龋答佭^程中采用由系統(tǒng)完全正確的方式對文本特征和圖像實例進行標(biāo)注，每次只標(biāo)注一個特征或一個實例。這種方式在Corel5k中可以方便的提供，因為：圖片的編號整除100就可以得到其所述的分類，Corel5k的文本關(guān)鍵字采用4.2的方法對每個圖像進行了文本關(guān)鍵字標(biāo)注，通過查詢圖像的文本標(biāo)注文件可以獲得準(zhǔn)確的特征標(biāo)注情況。圖3的橫坐標(biāo)表示用戶標(biāo)注特征或?qū)嵗臄?shù)目，縱坐標(biāo)表示查詢的平均精度。3種模式在經(jīng)過1000個查詢后最終的系統(tǒng)性能都不錯，3條曲線中，modeⅢ的總體性能比modeⅠ、modeⅡ更好，后續(xù)的標(biāo)注方式采用了modeⅢ。

圖3 3種混合標(biāo)注模式下系統(tǒng)的性能

圖4為modeⅢ分別在50、100、150個查詢時，不同特征/實例選取概率下的系統(tǒng)精度。圖中的橫坐標(biāo)為特征/實例的概率值，縱坐標(biāo)為系統(tǒng)的平均精度。圖中的3條曲線基本都在概率值等于0.1出現(xiàn)了最高點。我們以后的選取概率選擇0.1。其概率值可能與實驗數(shù)據(jù)庫中圖像數(shù)以及文本特征點數(shù)目有關(guān)(Corel5k中共有圖像實例5000個，文本特征點374個，其比值近0.1)，因此，在其它數(shù)據(jù)庫中可以以此作為概率值的選取依據(jù)。

圖4 modeⅢ在不同選擇概率下系統(tǒng)的性能

3.2 混合反饋中的主動學(xué)習(xí)

文本特征或圖像實例隨機采樣的混合反饋方式已經(jīng)初步展示了其高效性，不過其需要很大的樣本量，主動學(xué)習(xí)是減少標(biāo)注樣本量最有效的手段。在該框架下，高斯場和調(diào)和函數(shù)半監(jiān)督學(xué)習(xí)模型中文本特征的f值可以用于度量文本特征的不確定性。就某次檢索而言，將abs(0.5-f)作為文本特征的不確定度量值，該值越小表明此特征越不確定，當(dāng)f=0.5時，abs(0.5-f)達(dá)到最小，不確定性也達(dá)到最大，不確定抽象策略選取abs(0.5-f)值小的為標(biāo)準(zhǔn)。確定性策略認(rèn)為半監(jiān)督學(xué)習(xí)中的某結(jié)點的f值在一定程度上反映了結(jié)點與查詢結(jié)點的相似程度，f=0.5表明它是最無法確定的結(jié)點。f=0.5的特征常常是比較中性的關(guān)鍵字，實際上分類器更需要知道那些具有判別能力的特征，該策略選擇f值大的特征。

在我們所使用的半監(jiān)督框架下，圖像和文本特征都是圖中的點，它們具有同等意義，自然的，我們可以將基于特征的不確定抽樣、確定抽樣作為基于圖像實例的主動查詢策略。

圖5是modeⅢ混合反饋模式下，使用不確定抽樣、確定抽樣以及隨機抽樣3種主動學(xué)習(xí)策略下的系統(tǒng)平均準(zhǔn)確率。對比實驗結(jié)果表明，使用基于確定抽樣的主動學(xué)習(xí)優(yōu)于其它兩種策略，大幅度提升了系統(tǒng)的性能。

圖5 modeⅢ中3個主動特征學(xué)習(xí)策略的系統(tǒng)性能

圖6是modeⅢ混合反饋模式下，基于確定抽樣的主動特征學(xué)習(xí)與隨機實例抽樣、確定實例抽樣以及不確定實例抽樣組合使用時的系統(tǒng)性能。對比實驗結(jié)果表明，使用基于確定抽樣的主動學(xué)習(xí)+確定抽樣的實例學(xué)習(xí)方式優(yōu)于其它兩種方式。確定抽樣是將f值大的圖像或文本特征作為查詢返回，讓用戶標(biāo)注，而系統(tǒng)檢索時返回的也是Top-n個f值大的圖像。檢索結(jié)果正是確定策略需要選取的實例，這樣檢索和主動學(xué)習(xí)就是一個統(tǒng)一的過程，系統(tǒng)不再需要進行復(fù)雜的切換工作，解決了基于主動學(xué)習(xí)的圖像檢索系統(tǒng)樣例查詢過程與圖像檢索過程不同、切換復(fù)雜的難題。

圖6 modeⅢ下3個主動圖像實例學(xué)習(xí)策略對比

3.3 混合反饋中的視覺特征標(biāo)注

上面討論中，只是將特征/實例雙重監(jiān)督圖中的視覺特征的f值簡單的設(shè)為0，并沒有進行進一步的學(xué)習(xí)。然而對某類圖像而言，某個視覺特征可能具有更好的分類效果，比如，Corel5k中海灘類與顏色相關(guān)特征應(yīng)該占有較大的權(quán)值；而對于北極熊類別，形狀特征是比其它特征更具判別力的特征。下面通過兩種偽反饋方式對圖像視覺特征進行標(biāo)注。

3.3.1 基于特征/實例雙重監(jiān)督圖的視覺標(biāo)注

在給定l個(特征-標(biāo)記)或(圖像-標(biāo)記)反饋后，計算式(4)后可以得到其它未標(biāo)注特征/實例點的f值，其值就反映了該結(jié)點對原始查詢的相似程度。在雙重監(jiān)督圖上，我們將f>c的視覺點的f值置1，此時將用戶標(biāo)注從文本特征、圖像實例拓展到視覺特征中。為盡量保證這種偽反饋方式下選擇的視覺結(jié)點與查詢相關(guān)，將參數(shù)c設(shè)為0.8。為了節(jié)省系統(tǒng)的計算時間，我們將反饋調(diào)整為：①在雙重監(jiān)督圖上學(xué)習(xí)，對f值排序，將f>c的視覺結(jié)點在雙重監(jiān)督圖上置1，返回Top-n個圖像實例。②如果用戶不滿意，進行標(biāo)注，將標(biāo)注后的文本特征/實例點在雙重監(jiān)督圖上置1，返回步驟①。調(diào)整后的反饋對系統(tǒng)性能基本沒有影響，但它卻將原本的兩次矩陣運算變?yōu)橐淮?，提高了系統(tǒng)實時性。

3.3.2 啟發(fā)式視覺標(biāo)注

啟發(fā)式的權(quán)重調(diào)整是傳統(tǒng)的相關(guān)反饋中典型的一種方式，它通過用戶標(biāo)注的圖像實例對圖像的視覺特征進行學(xué)習(xí)。這里，我們通過用戶標(biāo)注的文本關(guān)鍵字特征和圖像實例進行視覺權(quán)重的調(diào)整。此方法獨立于雙重監(jiān)督圖，從另一種方式產(chǎn)生視覺特征標(biāo)注。

IPi表示視覺特征Fi的重要程度，m為正例數(shù)目，s為負(fù)例數(shù)目，Poi表示在Top-m個圖像中正例的數(shù)目，Nei表示在末尾s個圖像中反例的數(shù)目；

計算第j個視覺特征的權(quán)值

將Wi>0.8的視覺特征階段的f值置1。

圖7為在無視覺特征標(biāo)注以及兩種視覺特征標(biāo)注方式下系統(tǒng)的性能，圖中的Method 1表示基于特征/實例雙重監(jiān)督圖的方式，Method 2表示啟發(fā)式視覺標(biāo)注方式。對比實驗結(jié)果表明，使用視覺標(biāo)注偽反饋的系統(tǒng)性能比不使用視覺標(biāo)注的基于確定抽樣的特征/實例主動學(xué)習(xí)總體性能好?；趩l(fā)式視覺標(biāo)注的Method 2也更優(yōu)于Method 1。Method 2需要進行額外計算，計算量大于Method 1，但Method 2只對反饋正例和反例圖像進行相似度計算以及排序，計算量增加不大，計算時間基本可以忽略。

圖7 不同視覺標(biāo)注方式下系統(tǒng)性能

4 實驗分析

目前，幾乎所有關(guān)于特征標(biāo)注的研究都在最佳條件下對算法進行評估，上面章節(jié)已經(jīng)研究并驗證了在最佳特征標(biāo)注情況下的算法效果，不過這類研究與現(xiàn)實中用戶的選擇不完全一致。本章節(jié)對由真實用戶提供特征以及圖像實例標(biāo)注的情況下算法的有效性進行驗證。

4.1 實驗準(zhǔn)備

我們選用了25個真實的學(xué)生參與者使用系統(tǒng)并對系統(tǒng)的性能進行評估，評估數(shù)據(jù)集為在上章節(jié)介紹的Corel5k和數(shù)據(jù)庫和NUS-WIDE LITE兩個數(shù)據(jù)庫。這些參與者都是本科生，其中有18個男生，17個女生，它們當(dāng)中19個是計算機專業(yè)的學(xué)生，6個信息管理與信息系統(tǒng)專業(yè)的學(xué)生，他們都能夠熟練使用檢索系統(tǒng)。標(biāo)注和記錄方式參照文獻[4]。

4.2 特征提取

雖然Corel5k提供了文本關(guān)鍵字的精確標(biāo)注，但是為了符合現(xiàn)實情況，本文使用文獻[4]的方法進行文本關(guān)鍵字特征的構(gòu)建。對NUS-WIDE LITE，我們采用TF模型。

4.3 實驗分析

4.3.1 各主動學(xué)習(xí)方法對比

圖8為SVMactive、主動特征學(xué)習(xí)以及無視覺標(biāo)注下特征/實例雙重學(xué)習(xí)在Corel5k數(shù)據(jù)庫中，每輪返回20張圖像時的對比實驗。圖中的橫坐標(biāo)為用戶返回輪次，縱坐標(biāo)為系統(tǒng)的平均查準(zhǔn)率。實驗做了如下設(shè)置：主動特征學(xué)習(xí)以及無視覺標(biāo)注下特征/實例雙重學(xué)習(xí)每輪在返回20個圖像時，同時返回2個文本關(guān)鍵字特征(Corel5k中特征，實例比為0.1)；SVMactive方法標(biāo)注過程和檢索過程是兩個過程，在標(biāo)注輪我們選擇10個圖像，檢索輪返回20個圖像，將兩個過程作為一次反饋。兩個數(shù)據(jù)庫上的實驗結(jié)果表明融入特征標(biāo)注的方法優(yōu)于無特征標(biāo)注的方法；基于實例/特征的雙重學(xué)習(xí)比主動特征學(xué)習(xí)性能更優(yōu)。

圖8 Corel5k的3種主動學(xué)習(xí)方法對比

4.3.2 不同視覺標(biāo)注方法對比

圖9，圖10為3種算法在Corel5k數(shù)據(jù)集上返回不同數(shù)目圖像時的系統(tǒng)查準(zhǔn)率，橫坐標(biāo)為返回的圖像數(shù)目。實驗結(jié)果表明：實際用戶標(biāo)注的場景下，拓展視覺標(biāo)注方式在兩個數(shù)據(jù)集上都優(yōu)于不使用的方式，Method 2(啟發(fā)式視覺標(biāo)注)優(yōu)于Method 1(特征/實例雙重監(jiān)督圖的視覺標(biāo)注)。

圖9 兩種視覺標(biāo)注方法的系統(tǒng)查準(zhǔn)率(第2輪)

圖10 兩種視覺標(biāo)注方法的系統(tǒng)查準(zhǔn)率(第4輪)

5 結(jié)束語

本文將主動特征學(xué)習(xí)引入圖像檢索領(lǐng)域，提出了基于文本關(guān)鍵字特征和圖像實例標(biāo)注的混合學(xué)習(xí)模式，該模式的實現(xiàn)基于高斯場及調(diào)和函數(shù)的半監(jiān)督學(xué)習(xí)和主動學(xué)習(xí)。與此同時，對混合標(biāo)注方式、主動特征學(xué)習(xí)、主動實例學(xué)習(xí)等策略進行了詳細(xì)研究。特別的，本文提出了視覺特征標(biāo)注拓展偽反饋的方法。通過最佳特征標(biāo)注和真實用戶標(biāo)注場景下的對比實驗，我們發(fā)現(xiàn)將主動特征標(biāo)注學(xué)習(xí)引入圖像檢索是非常有效的，它不僅僅提高了系統(tǒng)的效率，還將標(biāo)注選擇和結(jié)果返回兩個過程有機統(tǒng)一起來。