譚 敏 張宏源 張海超
(杭州電子科技大學計算機學院 浙江 杭州 310018)
圖像識別一直是計算機視覺領域中最受關注的問題之一。盡管近年來在相關技術方面有了較大的突破和進展,但是如何克服“語義鴻溝”依然是一個巨大的挑戰(zhàn)。為了解決這個問題,近年來一些學者開始使用用戶點擊數(shù)據(jù)來代替視覺特征表示圖像[1-5]。利用點擊數(shù)據(jù),一張圖片可以被表示為一個文本點擊頻率向量,即文本點擊特征[2]。由于點擊數(shù)據(jù)是從商業(yè)搜索引擎中爬取的用戶反饋數(shù)據(jù),與傳統(tǒng)的視覺特征相比,文本點擊特征有更豐富的語義信息,在許多計算機視覺任務上表現(xiàn)更為出色[1-5]。
盡管點擊特征有諸多優(yōu)勢,但直接將這種點擊特征用于圖像識別仍然面臨很多的挑戰(zhàn)。由于查詢文本集的規(guī)模龐大,噪聲較多,原始的點擊特征非常稀疏和冗余。針對此問題,許多學者提出了利用點擊特征進行文本合并的方法[3]來應對傳統(tǒng)自然語言處理方法中的“語義鴻溝”問題。然而這些工作都是利用圖像點擊次數(shù)向量來表征文本。這種特征盡管簡單,但無法刻畫文本的層次化的深度語義特征。為此,我們提出利用深度網(wǎng)絡學習文本的深度點擊特征表達,并基于深度點擊特征表達合并相近語義的查詢文本。
隨著深度模型在視覺分類領域的廣泛應用,近年來,學者們也開始研究基于深度學習的圖像聚類模型[6-7]?;诖祟惸P停疚奶岢隽嗣嫦螯c擊特征的深度文本聚類框架來合并語義相似的查詢文本,其中深度特征和查詢類別通過網(wǎng)絡自主迭代學習。為了克服點擊特征向量的稀疏性,本文提出構建平滑的結構化的點擊特征圖來表征查詢文本,并以此作為深度網(wǎng)絡的輸入來學習查詢文本的深度點擊特征。本文將楊等提出的無監(jiān)督深度聚類框架JULE[6](Joint Unsupervised LEarning of deep representations and image clusters)擴展到點擊數(shù)據(jù)上,并融合弱監(jiān)督學習策略對文本進行加權,利用迭代優(yōu)化交替地學習文本權重和深度點擊特征,從而實現(xiàn)在噪聲文本數(shù)據(jù)中的自動樣本選擇。
JULE是一個端到端的深度圖像聚類模型,它通過迭代更新深度圖像特征和類別標號實現(xiàn)無監(jiān)督的圖像聚類。與傳統(tǒng)的深度圖像識別模型相比,該模型不需要精確的圖像類別信息,只需要為模型初始化粗糙的類標號。鑒于這些優(yōu)勢,我們將此模型擴展到基于點擊數(shù)據(jù)的文本聚類上,以應對原始查詢文本缺乏類別標號的特點。該模型的特點是在訓練過程中聯(lián)合更新圖像的聚類結果和深度特征實現(xiàn)完全自主學習。
該模型通過一個三元加權的損失函數(shù)組進行訓練。實驗證明,該模型在許多圖像識別數(shù)據(jù)集中都具有優(yōu)秀的特征學習能力和圖像聚類效果,如MNIST、USPS、COIL、UMist、FRGC、CMU-PIE、YTF等。
除了JULE外,關于如何將深度學習應用到聚類任務中也有許多其他的研究。如Dizaji等提出了DEPICT模型,它通過將數(shù)據(jù)映射到一個具有差異性的子空間來獲得更好的聚類效果[7];Tian等提出了一種簡單的深度學習方法來進行圖片聚類,該方法首先通過堆疊自動編碼器得到圖片的視覺特征,然后用K-means算法對這些特征進行聚類[8]。
盡管近些年深度聚類的研究工作越來越多,但已有模型都是針對圖像數(shù)據(jù)設計的,而本文研究的查詢文本與圖像本質上具有較大差距。為此,本文基于光滑性假設,為查詢文本構建了點擊特征圖,從而將JULE擴展到文本聚類任務上。此外,本文結合弱監(jiān)督學習策略提出了可對抗文本噪聲的深度聚類網(wǎng)絡。
本文提出了一種基于弱監(jiān)督深度學習的文本聚類方法來進行查詢文本合并,并利用合并后的文本集為圖像構建緊湊的點擊特征,從而實現(xiàn)高效的圖像識別。本文所提出的圖像識別算法流程如圖1所示。在本節(jié)中,首先將簡介點擊數(shù)據(jù)及對應的圖像(文本)點擊特征,接著詳細介紹基于弱監(jiān)督深度學習的文本聚類框架,最后介紹算法在圖像識別中的具體應用。
圖1 基于弱監(jiān)督深度學習的文本聚類與圖像識別框架
假設包含n張圖片的訓練圖片集為{xi|1,2,…,n},圖片所對應的類別標簽為{yi|i=1,2,…,n}。該圖像集在一個包含m條查詢的文本集{qj|j=1,2,…,m}上有非零的用戶點擊次數(shù),且相應點擊矩陣為C∈Rn×m(其中ci,j表示第i張圖片在查詢j下的點擊次數(shù)),每張圖片可以用查詢文本下的用戶點擊頻率向量來表示。
具體而言,利用點擊數(shù)據(jù),任意圖片可表示為ui=(ci,1,ci,2,…,ci,m)。類似地,查詢文本可表示為vj=(c1,j,c2,j,…,cn,j)。注意到原始的點擊向量ui和vj的特征維度分別由點擊數(shù)據(jù)涉及的圖像和查詢文本集大小決定,而高維的點擊數(shù)據(jù)容易導致維度災難。
本文將查詢文本表征為圖像點擊特征,并在此上學習它的深度點擊特征。
2.2.1 點擊特征圖的構建
如前文所述,本文將利用深度學習網(wǎng)絡學習查詢文本的深度點擊特征。與文獻[1,3,9]中類似,利用用戶點擊數(shù)據(jù),輸入的查詢文本可表示為圖像點擊向量。然而,由于互聯(lián)網(wǎng)圖像集龐大,原始的圖像點擊特征往往過于稀疏。為了解決該特征的不平滑性和稀疏性,本文利用原始圖像點擊向量,每個查詢文本構建了點擊特征圖G。
點擊特征圖的構建流程如圖2所示。首先將查詢文本的原始點擊特征轉化為圖像類點擊特征矩陣,再利用視覺相似性將此矩陣轉化為平滑的點擊特征圖。如下將展開介紹這兩個過程。
圖2 點擊特征圖構建流程
1) 圖像類點擊特征矩陣。構建圖像類點擊特征矩陣要利用到上文所述的點擊向量vj及真實標簽yi。利用類別的真實標簽對v進行重排列得到矩陣(Mj)i,使得(Mj)i的每一行對應同一類圖像下的點擊特征向量。由于Clickture-Dog和Clickture-Bird數(shù)據(jù)集類內不平衡,有些種類的圖片過少。為了平衡數(shù)據(jù),本文首先利用圖像擴增算法對圖片數(shù)量少的類別進行擴充操作。對于每一張圖片xi,它的擴充圖像Li定義如下:
Li={τ(xi)|τ(·)∈Γ(·)}
(1)
式中:τ(·)是一種圖像變換,包括遮擋、加噪、改變顏色及其混合。L是增強后的數(shù)據(jù)集,變換后的圖片與原始圖片共享點擊特征。
得到增強過的數(shù)據(jù)后,本文將每個種類的圖片集聚類到NI個子類,這樣文本在同一類圖像下的點擊向量就可以轉化為一個維度NI的類點擊向量。具體來說,對于第j類圖片集,實現(xiàn)基于深度視覺特征的聚類,得到對應的子類圖像集索引{Aj,1,Aj,2,…,Aj,NI}。
聚類完成后,更新后的點擊特征矩陣定義如下:
(2)
相比于利用原始點擊特征構建的點擊特征矩陣,經(jīng)過圖像擴增后聚類操作后得到的結構化的類點擊特征矩陣有效克服了數(shù)據(jù)集中的類別不平衡。
2) 點擊特征圖。為了改善圖像類點擊特征矩陣稀疏不連續(xù)的缺點,本文利用排序和傳播算法將圖像類點擊特征矩陣轉化為平滑的點擊特征圖。受到文獻[3]啟發(fā),本文提出了2-D的重排序和2-D點擊傳播算法。該方法將點擊量在各圖像類和同類不同圖像中傳播,有效改善了點擊矩陣不連續(xù)性和稀疏性的問題。
(2) 點擊傳播 傳播算法主要是為了解決點擊特征稀疏的問題。通過在相似樣本間分享點擊量,使得點擊特征更加平滑均勻。與重排序過程類似,傳播分為類間傳播和類內傳播兩過程。類間傳播是指一個圖像類的點擊量和按照比例分享給其他相似類。
(3)
類間傳播的公式如下:
(4)
式中:ρ為傳播率,E是單位矩陣。
(5)
式中:E和Λ(·)同式(4)一樣分別代表單位矩陣和對角化矩陣。
2.2.2 弱監(jiān)督深度文本聚類框架
弱監(jiān)督深度學習的文本聚類框架旨在學習文本的深度點擊特征。受到文獻[6]中圖像深度聚類網(wǎng)絡“JULE”的啟發(fā),我們構建了面向點擊特征圖的深度聚類模型。
除了構建點擊特征圖作為輸入外,本文還將弱監(jiān)督學習引入到訓練過程中,使得深度網(wǎng)絡在訓練的過程中能自動選擇可靠性較高的文本進行訓練。具體地,我們引入了權重向量ω來衡量查詢文本的可靠性,并使用弱監(jiān)督學習方法使得網(wǎng)絡在訓練過程中自動更新權重ω。設網(wǎng)絡的參數(shù)為θ,則整個模型可形式化為求解如下問題:
βP(w)+γS(Z,w)
(6)
式中:yj是查詢文本的類別,它被初始為k-means算法得到的類別標號,并隨著網(wǎng)絡迭代逐步更新類標號,oj為網(wǎng)絡輸出結果。l(o,y)是樣本分類損失項,P(w)是權重先驗項,依據(jù)文獻[6],本文用文本被點擊的次數(shù)總和來估計相應的權重,即:
(7)
式中:wC是每個查詢文本點擊次數(shù)和構成的向量。式(6)中S(Z,w)是平滑項,與文獻[6]中類似,它是根據(jù)特征一致性假設構建的。由于式(6) 是個過于復雜的非凸優(yōu)化問題,因此本文仿照文獻[6],分兩步來訓練整個網(wǎng)絡。首先固定權重向量ω更新網(wǎng)絡參數(shù)θ,之后利用新的網(wǎng)絡所提取出的特征和產(chǎn)生的新聚類結果來更新權重ω。
整個網(wǎng)絡的構造如圖3所示。
圖3 基于弱監(jiān)督深度學習的文本聚類框架
與文獻[6]中“JULE”網(wǎng)絡的結構不同,本文特別為點擊輸入構建了文本深度網(wǎng)絡結構。由于點擊的稀疏性,該框架采用相對較少的卷積層。表1列出文本深度聚類網(wǎng)絡的結構。
表1 網(wǎng)絡結構細節(jié)
(8)
(9)
值得注意的是,訓練和測試集中的查詢文本往往區(qū)別很大,即在訓練圖像上點擊過的查詢有可能在測試集上點擊次數(shù)為零。為了解決這個問題,本文通過尋求查詢文本在訓練-測試集中映射關系,并利用此關系將測試圖像也表征為訓練文本集上的點擊特征。
在構建文本映射時,需要衡量兩個查詢之間的距離,本文利用文本點擊的圖像視覺特征相似度來度量文本間距離。訓練集與測試集中的查詢文本對(qi,qj)之間的距離公式如下:
f(φ,v)=φ·v
(10)
式中:vi、vj是qi、qj的圖像類點擊特征向量,φt、φs是訓練(測試)圖像集的深度視覺特征矩陣。
和文獻[9]一樣,本文在Clickture-Dog和Clickture-Bird兩個公開的點擊數(shù)據(jù)集上進行了實驗。Clickture數(shù)據(jù)集是從商業(yè)圖像搜索引擎必應的一年點擊日志中抽取的,該數(shù)據(jù)集包含了一系列(圖像、查詢文本、點擊次數(shù))三元組,是目前最為主流和完善的點擊數(shù)據(jù)集。在本節(jié)中,將首先介紹實驗的相關設置;之后通過圖像識別精度展現(xiàn)點擊特征圖及深度聚類網(wǎng)絡的優(yōu)勢;最后將本文方法與一些經(jīng)典算法進行對比驗證。本文利用基于文本類點擊特征的圖像識別精度來度量文本聚類算法的效果,所列出的實驗結果為多次實驗后的平均結果。
和文獻[10]一樣,本文首先對Clickture-Dog和Clickture-Bird數(shù)據(jù)集進行了預處理。并用與文獻[11]同樣的方式劃分數(shù)據(jù)集。
在表2中,我們詳細列出了實驗數(shù)據(jù)的相關信息,包括在上文中提到的圖像擴增操作。下文中,如無特別說明,所列數(shù)據(jù)是在Clickture-Dog上的結果。
表2 數(shù)據(jù)集詳細信息
首先實驗研究各參數(shù)對于點擊特征圖構建的影響,然后對比原始點擊特征向量和點擊特征圖的識別率,以此驗證點擊特征圖的有效性。
3.2.1 參數(shù)實驗
1) 聚類個數(shù) 本文對聚類個數(shù)做了大量實驗,結果如表3所示。對比不同取值的聚類個數(shù)NI后,可發(fā)現(xiàn):(1) 圖像識別精度與聚類個數(shù)NI間呈負相關關系。這種現(xiàn)象表明把某一圖像類細分為太多的子類會打破這類樣本集間的相關性,從而消除相鄰元素間的本征聯(lián)系。(2) 子類個數(shù)太少則使點擊特征矩陣維度過低,而子類個數(shù)過多又會喪失點擊數(shù)據(jù)的特點。因此,本文選擇了一個適中的聚類個數(shù),即NI為30。
表3 聚類個數(shù)對精度的影響
2) 近鄰傳播參數(shù) 本文測試了不同的近鄰傳播參數(shù)為K′與傳播率為ρ對構建點擊特征圖的影響,如圖4所示。
圖4 不同參數(shù)構建的點擊特征圖效果對比
由圖4可知:(1) 除傳播率ρ=1以外,識別精度與傳播率ρ間呈正相關關系??赡苡袃煞矫嬖颍阂皇菍⒆陨睃c擊量全部傳播出去將打破原始點擊信息的有效性,降低圖像識別精度;二是適當?shù)膫鞑ゲ僮骺梢愿纳泣c擊數(shù)據(jù)的稀疏性,令點擊數(shù)據(jù)更加平滑、圖像識別精度更高。(2) 當傳播率ρ<0.5時,識別精度隨K′的增加而增加;當傳播率ρ>0.5時,K′=10或K′=15條件下的識別精度較優(yōu)。
經(jīng)過以上實驗,我們選擇NI=30、ρ=0.8、K′=15。
3.2.2 點擊特征圖有效性
本文通過不同點擊特征形式的精度驗證構建點擊特征圖的有效性。
表4中的“V”、“VP”、“M”、“G”分別表示點擊特征向量、傳播的點擊特征向量(ρ=0.8)、點擊特征矩陣(傳播前)、點擊特征圖(傳播后),對比結果可知:(1) “VP”遠優(yōu)于“V”的結果,證實了K近鄰傳播操作能有效地解決點擊數(shù)據(jù)過于稀疏的問題;(2) “VP”與“M”的識別精度相當,說明圖像聚類操作對文本聚類結果的影響并不明顯;(3)M的效果好于“V”也說明了增強圖片和聚類表達點擊特征具有一定的效果;(4)綜合對比“V”、“VP”、“M”、“G”下的識別精度,可以發(fā)現(xiàn)使用點擊特征圖“G”的圖像識別效果明顯優(yōu)于聚類其他類型的點擊特征的識別結果。
表4 點擊特征圖構造過程結果對比
如上文所述,本文的輸入為點擊特征圖,而傳統(tǒng)的深度網(wǎng)絡的輸入為圖像。為了尋找最適合于點擊數(shù)據(jù)的深度模型,本文充分研究了幾個主要網(wǎng)絡結構參數(shù)的影響,即卷積核大小和網(wǎng)絡層數(shù),結果如表5和表6所示。根據(jù)實驗數(shù)據(jù),最終確定卷積核大小為7×7,網(wǎng)絡結構為3個卷積層加1個全連接層。
對于弱監(jiān)督參數(shù)β、γ和權重更新次數(shù)T,本文進行了如圖5所示的對比實驗。由圖可知,T也對結果有很大影響,權重更新次數(shù)越多,學習到的特征表征能力越強。在最優(yōu)性能下我們設定β=0.1、γ=0.001。
圖5 弱監(jiān)督中參數(shù)不同值的效果對比
本小節(jié)將本文提出的方法和其他常用的深度特征模型進行對比,利用不同模型獲得文本的深度點擊特征,再利用K-means進行文本聚類。本文最終設定查詢聚類的聚類個數(shù)K=500。
本文采用VGG、JULE和DEPICT[7]作為對比網(wǎng)絡。VGG是經(jīng)典的卷積神經(jīng)網(wǎng)絡,而JULE和DEPICT是深度聚類網(wǎng)絡。由于本文的輸入是點擊特征圖,因此我們對JULE和DEPICT進行了調整,將點擊特征圖作為輸入。調整后的模型我們稱為C-JULE和C-DEPICT。本文提出的方法使用點擊特征圖作為輸入,并融合了弱監(jiān)督的訓練方法,因此將本文的方法稱為C-JWLE(Click-data guided Joint Weakly-supervised LEarning of deep representations)。
3.4.1 識別精度
我們在Clickture-Dog和Clickture-Bird上進行對比實驗,結果如表7和表8所示。
表7 在Clickture-Dog上的不同深度模型對比
表8 在Clickture-Bird上的不同深度模型對比
從上述結果可知:
(1) C-DEPICT/C-JULE優(yōu)于VGG/JULE的性能,說明傳統(tǒng)的圖像深度模型(VGG和JULE) 是依據(jù)圖像的視覺特點搭建的,并不適用于點擊數(shù)據(jù)。與之相比,C-DEPICT/C-JULE是專門針對點擊數(shù)據(jù)設計的淺層深度模型。同時,C-JULE明顯優(yōu)于JULE方法的識別精度,也證明了基于點擊數(shù)據(jù)設計專屬模型的必要性。
(2) 與C-JULE相比,C-JWLE由于融合了弱監(jiān)督學習策略,取得了更好的效果。說明弱監(jiān)督的學習策略可以更好地消除點擊數(shù)據(jù)中的噪聲,進而提升模型的整體性能。
3.4.2 聚類可視化分析
進一步地,為了更加直觀地分析弱監(jiān)督算法的效果,本文對基于C-JULE和C-JWLE的聚類結果進行了可視化對比,圖6和圖7分別展示了C-JULE和C-JWLE產(chǎn)生的若干個文本聚類結果,圖中每個查詢類cluster中一行表示一條查詢文本。
圖6 C-JULE聚類效果
圖7 C-JWLE聚類效果
由圖可知,基于C-JWLE得到的每個聚類中,更多的查詢文本擁有相同的主題詞根(黑色劃線),而C-JULE更容易將含有不同意義詞根(黑色加粗)的文本聚成一類。這種現(xiàn)象說明C-JWLE由于能更好地應對文本噪聲,從而產(chǎn)生優(yōu)于C-JULE的文本聚類效果。
本文利用點擊數(shù)據(jù)將圖像表征為文本點擊特征向量進而實現(xiàn)魯棒的圖像識別。針對查詢文本集的規(guī)模龐大、冗余的問題,本文提出面向點擊特征的深度文本聚類框架來合并語義相似的查詢文本。特別地,本文提出了一種新穎的2-D重排和2-D點擊傳播方法來構建一個平滑的結構化的點擊特征圖來表示查詢文本。此外,本文將深度學框架擴展到點擊數(shù)據(jù)上,學習查詢文本的深度表征。本文還結合弱監(jiān)督學習策略自動學習查詢文本權重,利用迭代優(yōu)化的方法交替更新文本權重和深度點擊特征。本文在公共數(shù)據(jù)集Clickture-Dog和Clickture-Bird上進行了實驗。結果表明:(1) 點擊特征圖的構建有效地解決了查詢文本的稀疏性和不平滑性問題;(2) 通過引入弱監(jiān)督學習策略,有效地克服了查詢文本中的噪聲問題。今后,將繼續(xù)對該算法進行改進,以獲得更好的聚類效果。同時,也在考慮利用遷移學習的思想,將點擊數(shù)據(jù)應用到其他公共數(shù)據(jù)集中,輔助完成其他計算機視覺任務。