潘文雯 趙 洲 俞 俊 吳 飛
如今,類似Twitter 的微博服務(wù)系統(tǒng)已經(jīng)成為用戶分享媒體內(nèi)容的重要社交平臺,平臺中一項關(guān)鍵機制是轉(zhuǎn)發(fā)功能.在SMS 中,跟隨其他用戶的用戶被稱為 “跟隨者”,被跟隨的用戶被稱為 “被跟隨者”.轉(zhuǎn)發(fā)預測的核心問題是建立用戶沿著 “被跟隨者?跟隨者”這條推特轉(zhuǎn)發(fā)鏈接的推特共享行為模型,這一點在文獻[1?2]中引起了廣泛的關(guān)注.
已有的轉(zhuǎn)發(fā)預測方法[1,3]能夠從用戶過去轉(zhuǎn)發(fā)的文本推特中學習用戶偏好模型進行預測,但僅限于文字類型的推特.隨著移動設(shè)備的普及,用戶生成圖像推特的數(shù)量急劇增長,現(xiàn)今Twitter 中有17.2 %的推特內(nèi)容與圖像相關(guān)[2].因此,研究社交媒體網(wǎng)站中的圖像轉(zhuǎn)發(fā)預測問題具有重要意義,圖1中給出了一個簡單的圖像轉(zhuǎn)發(fā)預測示例.但由于圖像推特沒有區(qū)分性的特征表征[2],且SMS 的數(shù)據(jù)稀疏,現(xiàn)有的轉(zhuǎn)發(fā)預測方法對圖像轉(zhuǎn)發(fā)問題的預測用處不大.
圖1 圖像推特行為示例Fig.1 An example of image retweet behavior
目前,現(xiàn)有的轉(zhuǎn)發(fā)預測方法[1,3]大多涉及到媒體信息的選擇和表征,包括推特的圖像和標題、用戶的社會角色[3]和情感[4].近年來,利用預先訓練好的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)獲得圖像表征的高層視覺特征在各種視覺識別任務(wù)中都取得不錯的效果[5?6].圖像推文總是視覺數(shù)據(jù),因此可以使用深度卷積神經(jīng)網(wǎng)絡(luò)[7]來學習圖像推文的視覺表示.另一方面,圖像推特通常與文本上下文信息相關(guān)聯(lián),比如用戶的評論和標題[2].背景圖像推文信息通常能傳達重要信息,有助于理解推文,我們利用深度遞歸神經(jīng)網(wǎng)絡(luò)[8]學習其語義表征.目前的研究使用各種模型,如張量分解[9]和概率矩陣分解[10]來模擬用戶的轉(zhuǎn)發(fā)行為,但這些模型缺乏探索圖像推特與其標題或評論之間關(guān)系的能力.我們使用多模態(tài)神經(jīng)網(wǎng)絡(luò)[11]從多模態(tài)內(nèi)容中學習聯(lián)合圖像的推特表征,從而可提供不同形式的互補信息.
SMS 數(shù)據(jù)的稀疏性也是圖像轉(zhuǎn)發(fā)預測的一個挑戰(zhàn)性問題.在SMS 網(wǎng)站中,通過用戶對圖片推文的轉(zhuǎn)發(fā)關(guān)系來構(gòu)建圖像推文與用戶之間的網(wǎng)絡(luò).通常情況下,每個用戶只轉(zhuǎn)發(fā)少量的圖像推文,因此SMS 網(wǎng)絡(luò)是稀疏的.受同質(zhì)性假設(shè)[12]的啟發(fā),我們可以聯(lián)合考慮用戶關(guān)注者和用戶被轉(zhuǎn)發(fā)推文的集合信息來解決圖像轉(zhuǎn)發(fā)預測的稀疏性問題.轉(zhuǎn)發(fā)行為的社會影響在用戶和不同的關(guān)注者之間是不同的.因此我們利用關(guān)注機制[13]自適應地融合用戶關(guān)注者偏好,共同預測目標用戶的圖像轉(zhuǎn)發(fā)行為.
本文從多模態(tài)注意力排序[14]網(wǎng)絡(luò)學習的角度研究圖像轉(zhuǎn)發(fā)預測問題.本文首先提出一個異構(gòu)的圖像轉(zhuǎn)發(fā)模型(Image retweet modeling,IRM)網(wǎng)絡(luò),該模型利用多模態(tài)圖像推特、用戶的轉(zhuǎn)發(fā)行為及其跟蹤關(guān)系三方面進行圖像轉(zhuǎn)發(fā)預測.本文引進由文本引導的兩個子網(wǎng)絡(luò)多模態(tài)神經(jīng)網(wǎng)絡(luò),其中遞歸神經(jīng)網(wǎng)絡(luò)學習圖像推特上下文信息的語義表征,卷積神經(jīng)網(wǎng)絡(luò)學習視覺表征.我們在多模態(tài)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上使用多面注意力排序方法,使多面排序的度量值隱含在用戶偏好表征中來進行圖像轉(zhuǎn)發(fā)預測.本文的主要貢獻如下:
1) 與以往研究不同,本文提出了一種異構(gòu)的IRM 網(wǎng)絡(luò)模型來模擬圖像轉(zhuǎn)發(fā)的預測,該模型利用了用戶過去轉(zhuǎn)發(fā)的圖像推特與相關(guān)上下文、用戶在SMS 中的跟隨關(guān)系和用戶對后續(xù)內(nèi)容的偏好三方面信息.
2)提出了基于文本引導的多模態(tài)神經(jīng)網(wǎng)絡(luò)的注意力多面排序方法來學習基于轉(zhuǎn)發(fā)推文的用戶偏好表示和圖像推文預測的跟蹤關(guān)系.
3)使用從Twitter 收集的數(shù)據(jù)集來評估方法性能.大量實驗表明,本文方法優(yōu)于現(xiàn)有的方法.
轉(zhuǎn)發(fā)預測近年來得到了廣泛而深入的研究.它是當今社會媒體進行信息傳播的一種方式.為了準確地建模用戶的轉(zhuǎn)發(fā)行為,我們將當前的研究工作分為三個方面:用戶轉(zhuǎn)發(fā)行為的特征選擇、轉(zhuǎn)發(fā)模型表征和用戶轉(zhuǎn)發(fā)排序.在本節(jié)中,我們將簡要回顧這三個方面的相關(guān)工作.
用戶轉(zhuǎn)發(fā)行為的特征選擇:如何選擇影響用戶轉(zhuǎn)發(fā)行為的相關(guān)因素的問題已被深入研究.Firdaus等[4]探討了用戶話題特定情緒對其轉(zhuǎn)發(fā)決定的影響.實驗表明,上下文特征對轉(zhuǎn)發(fā)率的貢獻很大,而過去推文的分布并不影響用戶的轉(zhuǎn)發(fā)率.Yang 等[15]將社會角色識別和信息擴散集成到一個整體框架中,對用戶社會角色的相互作用進行建模.Chen 等[16]研究了一些語義特征來學習推文的情感表達.Macskassy 等[17]解釋在不熟悉的領(lǐng)域,通過評估不同的預測模型和特征,可以更好地理解用戶的轉(zhuǎn)發(fā)行為.Xu 等[18]研究了用戶發(fā)布行為的因素,包括突發(fā)新聞、用戶社交好友發(fā)布的帖子和用戶的內(nèi)在興趣,同時提出了一個潛在模型來進一步證明這些因素的有效性.Zhang 等[3]考慮用戶(再)推文行為,重點研究自我網(wǎng)絡(luò)中的朋友如何影響轉(zhuǎn)發(fā)行為.與現(xiàn)有的方法不同,我們的方法是收集圖像推特及其標題或評論.我們認為不同的文字或評論不僅代表了圖片廣泛的語義信息,而且由于用戶的社會互動而相互關(guān)聯(lián).
轉(zhuǎn)發(fā)模型表征:已有大量的研究針對用戶轉(zhuǎn)發(fā)表征的建模.Zhang 等[1]使用非參數(shù)統(tǒng)計模型結(jié)合結(jié)構(gòu)、文本和時間信息來預測轉(zhuǎn)發(fā)行為.Luo 等[19]開發(fā)了一個學習排名框架來探索各種轉(zhuǎn)發(fā)特性.Bourigault 等[20]從時間信息擴散的角度考慮任務(wù).該模型學習了一個擴散核,其中級聯(lián)的感染時間用投影空間中節(jié)點的距離表示.Jiang 等[10]提出了一種基于概率矩陣分解方法的轉(zhuǎn)發(fā)預測模型,將觀測到的轉(zhuǎn)發(fā)數(shù)據(jù)、社會影響和消息語義進行整合,提高了預測的準確性.Hoang 等[9]將轉(zhuǎn)發(fā)行為視為推文、推文作者及其追隨者的三維張量,并通過張量分解同時表示它們.Bi 等[21]在轉(zhuǎn)發(fā)數(shù)據(jù)上使用了兩種新的貝葉斯非參數(shù)模型URM 和UCM.兩者都能將對推文文本的分析和用戶的轉(zhuǎn)發(fā)行為整合在同一個概率框架中.Jiang 等[22]采用矩陣補全方法優(yōu)化用戶轉(zhuǎn)發(fā)表示的因子分解.盡管先前的研究探索學習廣泛的表示用戶的轉(zhuǎn)發(fā)模型,其中大多數(shù)沒有特別考慮的共同表示圖像轉(zhuǎn)發(fā)和他們的標題或評論,我們提出了文本指導多通道網(wǎng)絡(luò)數(shù)據(jù)集和評估其有效性使用推特網(wǎng)站.
用戶轉(zhuǎn)發(fā)排序:轉(zhuǎn)發(fā)預測的中心問題是對用戶轉(zhuǎn)發(fā)的推文分享行為進行建模,用戶通過 “被跟隨者——跟隨者”鏈接轉(zhuǎn)發(fā)推文,并對社交媒體中出現(xiàn)的所有推文進行排序,讓更多的用戶通過短信獲得消息,這一點最近在Wang 等的工作[23]中引起了相當大的關(guān)注.Liu 等[24]利用模糊理論設(shè)計了根基函數(shù)神經(jīng)網(wǎng)絡(luò),對用戶熱點話題的轉(zhuǎn)發(fā)行為進行建模.Firdaus 等[25]提出了基于用戶作者和轉(zhuǎn)發(fā)行為的轉(zhuǎn)發(fā)預測模型.Zhang 等[1]提出了非參數(shù)模型,將結(jié)構(gòu)信息、文本信息和時間信息結(jié)合在一起來預測轉(zhuǎn)發(fā)行為.Wang 等[23]提出了一個推薦模型來解決tweet 中提到的問題,該模型使用了深度神經(jīng)網(wǎng)絡(luò)來整合上下文和社會信息.Feng 等[26]提出特征感知因子分解模型對推文進行重新排序,該模型統(tǒng)一了線性判別模型和低秩因子分解模型.Peng 等[27]對轉(zhuǎn)發(fā)行為進行建模,并使用條件隨機字段對推文進行排序,研究了劃分社交圖和構(gòu)建轉(zhuǎn)發(fā)預測網(wǎng)絡(luò)關(guān)系的方法.
在這一部分,我們首先會闡述如何使用異構(gòu)IRM 網(wǎng)絡(luò)進行圖像轉(zhuǎn)發(fā)預測.然后在此基礎(chǔ)上,提出基于跟隨偏好的多面注意力排序方法.同時提出文本引導的多模態(tài)網(wǎng)絡(luò),通過用戶的上下文注意力機制來引導圖像區(qū)域來共同表征相關(guān)信息.
首先,在闡述基本模型之前,我們需要先介紹模型所涉及的基本概念和專業(yè)術(shù)語.我們用I={i1,i2,···,in}表示一組圖像推特,用D={d1,d2,···,dn}來表示文本內(nèi)容,其中di={di1,di2,···,dik}表示第i個圖像推特不同標題和評論的文字嵌入.用戶集表示為U={u1,u2,···,um},用戶偏好的排序模型表示為R={r1,r2,···,rm},其中ri是第i個用戶ui的偏好表征嵌入.
利用上述符號將圖像轉(zhuǎn)發(fā)預測的問題定義如下:考慮到用戶U和輸入圖像推特I及其相關(guān)上下文D,我們的目標是學習所有用戶偏好R的多方面排序度量值表征,然后對目標用戶的圖像推特進行排序以實現(xiàn)圖像轉(zhuǎn)發(fā)預測.
為探索圖像特征和上下文信息的作用,我們用z={z1,z2,···,zn}來表示聯(lián)合圖像推特表征.其中,zi是由第i個圖像推特的視覺表征ii和上下文語義表征di的聯(lián)合表征組成,具體的融合方式可見第3.3 節(jié).
已有的轉(zhuǎn)發(fā)預測方法[1,3]只從用戶過去轉(zhuǎn)發(fā)的文本推特中學習用戶偏好模型,進而預測用戶的推文共享行為.與以往的研究不同,本文提出了多維度注意力排序度量異構(gòu)IRM 網(wǎng)絡(luò),該網(wǎng)絡(luò)利用多模態(tài)圖像推特、用戶過去的轉(zhuǎn)發(fā)行為及其后續(xù)關(guān)系進行圖像轉(zhuǎn)發(fā)預測.我們將提出的異構(gòu)IRM 網(wǎng)絡(luò)表示為G=(V;E) ,其中節(jié)點集V由聯(lián)合圖像表征Z和用戶偏好表征R組成,邊集E由用戶過去的轉(zhuǎn)發(fā)行為H及其跟隨關(guān)系S組成,用矩陣H ∈Rn×m表示圖像推特與用戶之間的轉(zhuǎn)發(fā)行為,其中,如果第i個圖像推特被第j個用戶轉(zhuǎn)發(fā),則條目hi,j=1,否則hi,j=0 .然后通過矩陣S∈Rm×m考慮用戶之間的跟隨關(guān)系,其中,如果第i個用戶跟隨第j個用戶,則sij=1 .之后用Ni表示第i個用戶的跟隨集合(如果sij=1 ,則為uj ∈Ni),用N={N1,N2,···,Nm}表示用戶的跟隨集合.
之后,將從IRM 網(wǎng)絡(luò)中導出異質(zhì)三元組約束作為用戶訓練多面注意力排序網(wǎng)絡(luò)的相關(guān)偏好.根據(jù)現(xiàn)有的Twitter 分析工作[28],我們認為用戶可能會對被追隨者的未轉(zhuǎn)發(fā)圖像推特表現(xiàn)出隱性的負面興趣.設(shè)定第i個聯(lián)合圖像推特表征為zi,第j個用戶為uj,將uj的被跟隨者的非轉(zhuǎn)發(fā)圖像推特zk進行采樣.通過有序元組 (j,i,k,Nj) 對用戶的相對偏好進行建模,表示第j個用戶更喜歡第i個圖像推特,而非第k個圖像推特.設(shè)T={(j,i,k,Nj)}表示從IRM 網(wǎng)絡(luò)獲得的一組有序元組,用于一組n個圖像推特和m個用戶.將有序異構(gòu)元組視為學習用戶偏好表示的約束,即學習用于圖像轉(zhuǎn)發(fā)預測的多面排序度量函數(shù).對于任何 (j,i,k,Nj)∈T,以下不等式成立:
于是,可將圖像轉(zhuǎn)發(fā)預測問題重新表述如下:給出聯(lián)合圖像推特表征Z、用戶相對偏好T的有序元組集和異構(gòu)IRM 網(wǎng)絡(luò)G,學習所有用戶偏好R的表征,然后由多方面用戶偏好函數(shù)Fu(·) 對將要發(fā)送給用戶u的圖像推特進行排序.
在這一部分中,我們提出基于文本引導的多模層多面注意力排序網(wǎng)絡(luò).
我們選擇合適的多模態(tài)神經(jīng)網(wǎng)絡(luò)[29]來表示IRM 網(wǎng)絡(luò)中的圖像推特,它由兩個子網(wǎng)絡(luò)組成:用于圖像數(shù)據(jù)可視化表示的深度卷積神經(jīng)網(wǎng)絡(luò)[30]和用于文本上下文數(shù)據(jù)語義表征的深遞歸神經(jīng)網(wǎng)絡(luò)[8].這兩個子網(wǎng)絡(luò)在多模融合層中相互作用形成聯(lián)合表征,如圖2 所示.對于一組圖像I={i1,i2,···,in},首先通過預訓練的CNN (Convolution neural network) 最后一層卷積層學習圖像推特的卷積特征X={x1,x2,···,xn},其中xi是包含圖像視覺信息的三維特征.通過與F={f1,f2,···,fn}相同的卷積神經(jīng)網(wǎng)絡(luò)最后一層全連接層來學習圖像的視覺嵌入.具體來說,使用預訓練初始網(wǎng)絡(luò)[30]進行視覺表征,它在許多視覺表征任務(wù)[31?33]中得到了廣泛的應用.同時訓練LSTM (Long short-term memory)網(wǎng)絡(luò)[8]以獲得圖像推特的相關(guān)上下文,對于一組文本上下文D={d1,d2,···,dn},將LSTM 最后一個隱藏層的潛在狀態(tài)作為文本上下文的語義嵌入Y={y1,y2,···,yn},將yi={yi1,yi2,···,yik}表示圖像推特的不同標題和注釋的語義嵌入.
為了學習不同模式圖像推特的聯(lián)合表征,建立多模態(tài)層,將遞歸神經(jīng)網(wǎng)絡(luò)部分的文本表示和卷積神經(jīng)網(wǎng)絡(luò)部分的視覺表征連接起來,如圖2 所示.從而,可以將圖像推特的視覺表征和文本上下文的語義表征映射到同一個多模態(tài)特征融合空間中,并將它們相加以獲得多模態(tài)融合層的激活,如
圖2 用于圖像轉(zhuǎn)發(fā)預測的注意多方面排序網(wǎng)絡(luò)學習縱覽Fig.2 The overview of textually guided ranking network for attentional image retweet modeling
其中矩陣Wi)和W(d)是權(quán)重矩陣.g(·) 是非飽和激活函數(shù)ReLU (Rectified linear unit)[34].
然而,這種簡單的方法并沒有利用不同的評論與其匹配的圖像推特之間的上下文關(guān)系.為了獲得更相關(guān)的圖像推特和文本評論表征,本文提出文本引導的多模態(tài)融合層,如圖2 所示,細節(jié)如圖3 所示.由于每個圖像推特都有來自其發(fā)布者和訂閱者的許多標題和評論,可假設(shè)不同的評論表達了圖像的關(guān)聯(lián)和擴展信息.因此,本文沒有直接使用來自預訓練CNN 最后一層全連接層的視覺特征,而是使用圖像的卷積特征來生成用戶對圖像推特注意力表征.在此多模融合網(wǎng)絡(luò)中,使用注意力機制來進行一定的約束,同時以文本信息yi來達到注意力機制的實現(xiàn),將文本信息與其圖像中的內(nèi)容進行關(guān)聯(lián),如圖3 所示.注意力模塊可以定位圖像中適合用戶聚焦的區(qū)域L={l0,l1,···,lk},其中l(wèi)i={lxi,lyi}分別表示圖像卷積特征中的x軸和y軸坐標.給定卷積特征xi和位置映射向量lj,圖3 中的卷積采樣自xi中心的lj處的 3×3×S圖像特征,其中S是卷積特征的大小.將采樣的3 維圖像特征η(xi,lj)={ηi1,ηi2,···,ηi9}調(diào)整為 9×S.在選擇圖像的卷積特征通過位置映射向量之后,使用注意機制將文本嵌入與提取的卷積特征fc融合.給定第i個圖像yij的第j個評論和多維特征η(xi,lj) 的語義特征,可得到第j個評論和第k個卷積特征的文本注意力分數(shù)為
圖3 文本引導的多模融合網(wǎng)絡(luò)Fig.3 Textually guided multi-modal fusion network
+為不同形式的元素相加. W(j)和 W(c)是權(quán)重矩陣. g (·) 是按單元縮放的雙曲正切函數(shù).定義TG(lj,xi,yij,fi)為文本指導過程,通過將模型與遞歸神經(jīng)網(wǎng)絡(luò)疊加,可以得到下一個位置映射向量和RNN 的隱藏狀態(tài).
在此基礎(chǔ)上提出多面注意力排序函數(shù)學習方法用于圖像轉(zhuǎn)發(fā)預測.受注意機制[14,35]的啟發(fā),在圖2中設(shè)計了鄰域注意模塊,對社會影響函數(shù) hNj(·) 進行計算.基于有序元組約束 T ={(j,i,k,Nj)} 計算(·) .給定用戶偏好表征 R ={r1,r2,···,rn},用戶與其跟隨者的社會影響注意力分數(shù)表示為
其中 W(s)和 W(n)是模型訓練更新的參數(shù)矩陣.b是偏向量,p 是計算社會影響注意力得分的參數(shù)向量.
最后,我們可以定義注意多面排名損失函數(shù)如下:
1)數(shù)據(jù)集信息:我們從Twitter 收集數(shù)據(jù),Twitter是一種流行的微博服務(wù),供網(wǎng)絡(luò)用戶分享他們的媒體內(nèi)容[36].用戶通常通過在社交媒體網(wǎng)站上轉(zhuǎn)發(fā)圖片來顯示他們對圖像推特的積極偏好.我們抓取用戶的個人資料,包括他們過去轉(zhuǎn)發(fā)的圖像推特和他們的跟隨關(guān)系.已知,信息擴散有隨距離和用戶興趣指數(shù)衰減的趨勢.圖像轉(zhuǎn)發(fā)作為信息級聯(lián)的一種形式,在用戶關(guān)系網(wǎng)絡(luò)中呈現(xiàn)出重尾分布.為了盡可能避免這種現(xiàn)象,數(shù)據(jù)集在 “推特?用戶?推特”循環(huán)中被爬取.也就是說,我們首先選擇一條轉(zhuǎn)發(fā)次數(shù)超過5 次的微博,找到它的發(fā)布者.然后,我們收集出版商最近一個月的圖像推特,并找到轉(zhuǎn)發(fā)這些推特的用戶.只有不到8 個關(guān)注者的用戶被過濾,然后我們再次使用其余的用戶找到他們的圖片推特.我們將 “推特用戶”循環(huán)5 次,抽取所有用戶、其追隨者和關(guān)注者的信息,構(gòu)建圖像轉(zhuǎn)發(fā)建模網(wǎng)絡(luò).我們總共收集了15500 個用戶,74927 條圖片推文和274851 條跟隨關(guān)系.
2)圖像特征提取:我們對收集到的圖像tweets進行如下預處理.我們從預訓練的Inception-V4 網(wǎng)絡(luò)的最后一個全連接層中提取全局特征用于圖像的特征嵌入,共1536 維向量.為了滿足文本引導多模網(wǎng)絡(luò)的需求,我們還從同一個預訓練網(wǎng)絡(luò)的最后一個卷積層提取圖像特征,從而得到每個圖像的8×8×1536 特征向量.
3)文本特征提取:我們首先過濾所有的表情符號和感嘆詞獲得所有的標題和注釋.然后對句子中的每一個詞,我們采用預訓練Glove 模型[37]來提取語義表征.字向量的維數(shù)是300.具體來說,為每個圖片推特設(shè)置了四個句子,每個句子的長度為12.對于那些少于4 個標題或評論的圖像推特,我們復制最后一條評論作為填充.對于我們的數(shù)據(jù)集,詞匯表的大小設(shè)置為12500.因此,我們使用單詞標記
在大多數(shù)在線媒體服務(wù)中,轉(zhuǎn)發(fā)預測任務(wù)旨在向用戶提供前K個圖片推送.為了評估我們的方法在排名前K位的圖像推特方面的有效性,我們采用了兩個基于排名的評估標準Precision@K[2]和ROC (Receiver operating characteristic curve)曲線下與坐標軸圍成的面積(Area under curve,AUC)[38?40]來評估圖像轉(zhuǎn)發(fā)預測的性能.給定用戶Ut和圖像推特it的測試集,用表示測試集中某個用戶ui的前K個圖像推特的預測排名,其中排名列表|的大小為K.
評估本文的方法AMNL (僅使用線性融合方法)和AMNL+(使用文本引導的多模態(tài)網(wǎng)絡(luò))的性能,以及其他五個最新的圖像轉(zhuǎn)發(fā)預測問題的解決方案.
表1、表2 和表3 分別顯示了所有方法對排名標準Precision@1,Precision@3 和AUC 的評價結(jié)果.本文以60 %、70 %和80 %的數(shù)據(jù)為訓練集進行評價,使用三個等級評估標準比較所有方法的結(jié)果值.然后,比較模型在不同模式下的性能,其中用戶偏好表示的維度設(shè)置為400,80 %的數(shù)據(jù)用于培訓.所有其他參數(shù)和超參數(shù)也被選擇以保證驗證集的最佳性能.我們在六種方法上評估所有三個標準的平均值.這些實驗結(jié)果揭示了一些有趣的觀點:
表1 不同方法的Precision@1 結(jié)果Table 1 Experimental results on precision@1 of different approaches
表2 不同方法的Precision@3 結(jié)果Table 2 Experimental results on precision@3 of different approaches
表3 不同方法的AUC 結(jié)果Table 3 Experimental results on AUC of different approaches
1)以內(nèi)容特征作為學習排序度量的輔助信息的方法CITING、D-RNN 和VBPR 的性能優(yōu)于低秩因子化排序度量方法ADABPR 和RRFM,這說明同時包含圖像推送和相關(guān)上下文信息的深層神經(jīng)網(wǎng)絡(luò)對圖像轉(zhuǎn)發(fā)預測問題至關(guān)重要.
2)與其他含邊信息的排序方法相比,AMNLi的性能優(yōu)于VBPR,AMNLd的性能優(yōu)于CITING.這表明多方面的排名指標很重要.
3)與AMNL 方法相比,AMNL+方法具有更好的性能.這表明通過文本引導的多模態(tài)融合方法,可以更好地將圖像推特與包含相關(guān)語義信息的不同標題或評論聯(lián)合表征,從而在圖像轉(zhuǎn)發(fā)預測中獲得更好的性能.
4)在所有情況下,AMNL+方法都能達到最佳性能.這表明利用多模態(tài)圖像推特的聯(lián)合圖像推特表征及其關(guān)聯(lián)上下文和多維度排序度量的注意多維度排序網(wǎng)絡(luò)學習框架可以進一步提高圖像轉(zhuǎn)發(fā)預測的性能.
圖4 (a)和4 (b)展示了AMNL+對一些用戶的圖像轉(zhuǎn)發(fā)預測的實驗結(jié)果實例.在文本選取方面,我們主要選取了與圖像推特相關(guān)聯(lián)程度和語法語義復雜程度不同的句子組合,比如有不同的對象等,從而來測試注意力機制的實際效用.而且在實際現(xiàn)象中,有推薦意義的推特往往具有比較精彩和相對復雜的語義內(nèi)容.而在圖4 列舉的例子中,由于篇幅有限,以3 個句子為例.圖4 由兩個部分組成,其中圖4 (a)顯示用戶和用戶的跟隨者發(fā)布的圖像和模型所預測的排名分數(shù),圖4 (b)顯示的是預測的推特圖像及其注釋對于注意力模塊的反饋效果.圖4 (a)列舉出了對不同推特的預測喜愛程度,其低排名分數(shù)表明越不值得推薦.我們可以發(fā)現(xiàn),其中關(guān)注者發(fā)布的未被轉(zhuǎn)發(fā)的圖像推特獲得了比較差的排名分數(shù).這說明這些推特更容易被用戶看到,但不受用戶歡迎,與事實的情況相吻合.圖4 (b)顯示的是幾個圖像推特中注釋得分較高的例子,不同的注釋評論中的關(guān)鍵詞在圖像中得到了很好的注意力顯現(xiàn).這表明,用我們的方法預測的圖像對于圖4 (a)中的用戶是可取的.值得一提的是,一些特定的詞語與圖像中顏色相同的物體相匹配,體現(xiàn)注釋和字幕對預測有一定引導效果.
圖4 AMNL+在圖像轉(zhuǎn)發(fā)預測任務(wù)中的實驗結(jié)果Fig.4 Experimental results of AMNL+on the image retweet prediction task
本文所提出的注意力多面排名網(wǎng)絡(luò)學習方法的訓練更新規(guī)則本質(zhì)上是迭代的.接著,本文將繼續(xù)研究AMNL 方法收斂的方式.圖5 (a)和圖5 (b)分別為AMNL 方法的收斂曲線和運行時間曲線.圖中x軸表示迭代次數(shù).圖5 (a)中的y軸為目標值,圖5 (b)中的y軸為本文所提方法的運行時間.每個Epoch 包含231539 次迭代更新.我們將用戶偏好表示的維數(shù)設(shè)置為500,并使用80 %的數(shù)據(jù)進行訓練.結(jié)果表明,該方法在10 輪后完成收斂,計算時間約為500 分鐘.這項研究驗證了AMNL 的有效性.
圖5 隨著Epoch 客觀價值和運行時間的變化Fig.5 Objective value and running time versus the number of epochs
我們評估了我們的模型模塊部分的貢獻,主要評估了文本引導的多模式融合網(wǎng)絡(luò)和社會影響功能.同時,我們還評估了圖像推特的視覺表征、關(guān)聯(lián)上下文的語義表征和聯(lián)合圖像推文表示對模型的影響.
為了理解組件的貢獻和不同介質(zhì)對我們的模型的影響,我們提出消融研究并在表模型:AMNLi方法意味著我們只使用圖像推特的視覺表征.AMNLd方法意味著只對相關(guān)上下文進行語義表征.AMNL+i模型是在文本引導的多模態(tài)融合網(wǎng)絡(luò)中,將圖像推特卷積特征的平均池化直接輸入到遞歸神經(jīng)網(wǎng)絡(luò)中,而不是在文本表示中使用注意機制.AMNLhfunc和AMNL+hfunc模型是指我們直接對兩個模型的排名函數(shù)進行計算,而不使用社會影響函數(shù).如表4所示,我們還發(fā)現(xiàn)了一些有趣的結(jié)果:
表4 用80 %的數(shù)據(jù)進行訓練,消融實驗的實驗結(jié)果Table 4 Experimental results with different modalities and components using 80 % of the data for training
1)與AMNLi和AMNLd方法相比,AMNL 方法取得了更好的性能.這表明相比于只利用視覺特征或者文本特征,注意力多方面的排名網(wǎng)絡(luò)學習框架利用多模式圖像的聯(lián)合圖像推特表征及其相關(guān)的上下文可以獲得更好的性能.
2)與AMNL+hfunc的結(jié)果相比,AMNL+在三項標準中得分較高.這表明社會影響函數(shù)可以幫助提高我們的方法的性能.而AMNL+hfunc和AMNL的實驗結(jié)果進一步證明了我們的上述結(jié)果在不同分量之間是一致的.
本文提出了一種基于異構(gòu)IRM 網(wǎng)絡(luò)的圖像轉(zhuǎn)發(fā)預測模型.具體來說,我們的IRM 網(wǎng)絡(luò)利用用戶過去轉(zhuǎn)發(fā)的圖像推文、關(guān)聯(lián)的文本上下文和用戶的后續(xù)關(guān)系來采樣用戶轉(zhuǎn)發(fā)行為的適當表示.在此基礎(chǔ)上,我們提出了一種基于文本引導的多模態(tài)神經(jīng)網(wǎng)絡(luò)的注意多方面排序方法,以學習聯(lián)合圖像推特表征和用戶偏好表征,從而將多方面的排序度量嵌入到表示中進行預測.我們使用來自Twitter 的數(shù)據(jù)集來評估我們的方法的性能.大量的實驗表明,我們的方法比幾種最新的解決方案能獲得更好的性能.