蔣希然,周麗華,王麗珍,陳紅梅,肖 清
(云南大學(xué) 信息學(xué)院,云南 昆明 650500)
互聯(lián)網(wǎng)應(yīng)用如豆瓣、淘寶等逐漸滲入人們的日常生活,成為人們獲取信息、表達(dá)觀點(diǎn)、交流交易的網(wǎng)絡(luò)活動(dòng)平臺(tái),由此產(chǎn)生的大量網(wǎng)絡(luò)平臺(tái)數(shù)據(jù)被廣泛應(yīng)用于鏈路預(yù)測(cè)、推薦系統(tǒng)等研究領(lǐng)域.由于網(wǎng)絡(luò)平臺(tái)數(shù)據(jù)的內(nèi)容復(fù)雜多樣且通常蘊(yùn)含著豐富的語(yǔ)義,如平臺(tái)用戶對(duì)平臺(tái)相關(guān)物品的評(píng)分、評(píng)價(jià)等數(shù)據(jù)不僅能夠表示用戶與物品間存在關(guān)聯(lián),還能反映出用戶對(duì)于物品的喜歡或不滿的情感傾向.在利用數(shù)據(jù)進(jìn)行分析研究時(shí),相比于將數(shù)據(jù)建模為同質(zhì)網(wǎng)絡(luò)[1],基于多類型對(duì)象和多種關(guān)系鏈路共存的異質(zhì)網(wǎng)絡(luò)進(jìn)行研究,能夠保留更全面的語(yǔ)義及結(jié)構(gòu)信息,提高研究工作的可解釋性和準(zhǔn)確率[2].
鏈路情感傾向預(yù)測(cè)即是對(duì)網(wǎng)絡(luò)平臺(tái)上存在關(guān)聯(lián)的兩個(gè)對(duì)象之間情感傾向的預(yù)測(cè),如豆瓣用戶對(duì)于觀看過的電影或書籍是否喜歡,淘寶用戶對(duì)于購(gòu)買的商品滿意與否等.對(duì)基于平臺(tái)數(shù)據(jù)所構(gòu)建的異質(zhì)網(wǎng)絡(luò),利用網(wǎng)絡(luò)鏈路中的情感傾向信息能夠幫助社區(qū)網(wǎng)站的用戶找到適合的興趣小組,指導(dǎo)網(wǎng)絡(luò)零售平臺(tái)合理調(diào)整宣傳策略,還有助于社會(huì)學(xué)、心理學(xué)等領(lǐng)域的研究應(yīng)用.因此,針對(duì)異質(zhì)網(wǎng)絡(luò)中鏈路情感傾向的研究具有很強(qiáng)的現(xiàn)實(shí)意義.
現(xiàn)有的鏈路情感傾向預(yù)測(cè)方法主要分為基于協(xié)同過濾的方法、基于矩陣分解的方法及基于網(wǎng)絡(luò)嵌入的方法.協(xié)同過濾的方法[3-5]利用節(jié)點(diǎn)間的相似度來進(jìn)行預(yù)測(cè),這類方法通常以余弦相似度、歐式距離等方式來判斷節(jié)點(diǎn)相似性,未對(duì)用戶行為進(jìn)行深度挖掘.此外,該方法對(duì)稀疏的評(píng)分矩陣及冷啟動(dòng)的問題處理效果欠佳.矩陣分解的方法[6-9]將高維的評(píng)分矩陣映射為節(jié)點(diǎn)的低維特征矩陣,能處理冷啟動(dòng)問題.但這些方法都忽略了節(jié)點(diǎn)本身的屬性特征,且模型不具有很好的可解釋性.網(wǎng)絡(luò)嵌入的方法首先學(xué)習(xí)網(wǎng)絡(luò)節(jié)點(diǎn)的低維潛在特征,再用學(xué)到的節(jié)點(diǎn)特征來完成預(yù)測(cè)任務(wù)[10-11].很多研究者提出了不同的網(wǎng)絡(luò)嵌入方法[12-15],這些方法能夠捕獲網(wǎng)絡(luò)拓?fù)?、?jié)點(diǎn)屬性等信息.由于不同的網(wǎng)絡(luò)嵌入方式對(duì)信息提取的側(cè)重點(diǎn)不同,且僅利用網(wǎng)絡(luò)嵌入難以精準(zhǔn)捕獲到預(yù)測(cè)所需的全部信息,因此網(wǎng)絡(luò)嵌入的方法常與其他方法結(jié)合完成預(yù)測(cè)任務(wù).
基于以上原因,本文提出一種異質(zhì)網(wǎng)絡(luò)中融合多類型信息的鏈路情感傾向預(yù)測(cè)模型,簡(jiǎn)稱為HNPS模型.模型首先對(duì)節(jié)點(diǎn)間鏈路的情感傾向進(jìn)行粗略評(píng)估,用于設(shè)置鏈路的預(yù)測(cè)基值,然后分別從節(jié)點(diǎn)的相似關(guān)系及節(jié)點(diǎn)的屬性數(shù)據(jù)中提取信息,最后將所得信息與鏈路的預(yù)測(cè)基值結(jié)合完成預(yù)測(cè)任務(wù).模型中預(yù)測(cè)基值的設(shè)置通過分析節(jié)點(diǎn)的交互數(shù)據(jù)完成,是節(jié)點(diǎn)間情感傾向差異性的初步體現(xiàn).對(duì)于新加入的節(jié)點(diǎn),模型利用網(wǎng)絡(luò)鏈路中情感傾向的總體情況設(shè)置預(yù)測(cè)基值,有效緩解了因節(jié)點(diǎn)信息缺失導(dǎo)致的冷啟動(dòng)問題.模型融合的信息包括相似節(jié)點(diǎn)的情感傾向信息以及節(jié)點(diǎn)的屬性信息,多種信息的融合能夠全面揭示影響鏈路預(yù)測(cè)的因素,從而有效提升預(yù)測(cè)結(jié)果的準(zhǔn)確性.其中,在捕獲網(wǎng)絡(luò)中的相似節(jié)點(diǎn)時(shí),本文提出了一種基于限制路徑類型元路徑的遍歷游走方法,該方法能通過約束鏈路類型提取有特定情感聯(lián)系的節(jié)點(diǎn).
本文主要貢獻(xiàn)如下:
(1)提出了一種異質(zhì)網(wǎng)絡(luò)中融合多種類型信息預(yù)測(cè)鏈路情感傾向的模型,模型利用節(jié)點(diǎn)的交互信息設(shè)置預(yù)測(cè)基值,并融合相似節(jié)點(diǎn)的情感傾向信息及節(jié)點(diǎn)的屬性信息完成預(yù)測(cè)任務(wù);
(2)提出了一種基于限制路徑類型的元路徑從異質(zhì)網(wǎng)絡(luò)中捕獲相似節(jié)點(diǎn)的方法,該方法對(duì)節(jié)點(diǎn)關(guān)系的利用更加充分,能提取到更精確的信息;
(3)在5個(gè)公共數(shù)據(jù)集上進(jìn)行了充分的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證實(shí)了HNPS模型的有效性及對(duì)于稀疏矩陣及冷啟動(dòng)問題的處理能力.
1.1 基 于 協(xié) 同 過 濾 的 預(yù) 測(cè)傳統(tǒng)的協(xié)同過濾(Collaborative Filtering, CF)算法根據(jù)基于用戶或基于項(xiàng)目分為兩類[16].基于用戶的協(xié)同過濾算法[17]通過發(fā)現(xiàn)用戶群中與目標(biāo)用戶行為相似的鄰居用戶,并綜合這些鄰居用戶對(duì)某一項(xiàng)目的情感傾向,推斷目標(biāo)用戶對(duì)特定項(xiàng)目的情感傾向.基于項(xiàng)目的協(xié)同過濾算法[5]認(rèn)為,用戶對(duì)不同項(xiàng)目的情感傾向存在相似性,當(dāng)需要預(yù)測(cè)用戶對(duì)某個(gè)項(xiàng)目的情感傾向時(shí),可以通過用戶對(duì)該項(xiàng)目的若干相似項(xiàng)目的情感傾向進(jìn)行推測(cè).此外,部分研究工作將基于用戶及基于項(xiàng)目的協(xié)同過濾結(jié)合起來,形成混合的協(xié)同過濾模型[18],能有效提升預(yù)測(cè)效果.基于神經(jīng)網(wǎng)絡(luò)的協(xié)同過濾通用框架(Neural Collaborative Filtering, NCF)[19],將深度學(xué)習(xí)引入?yún)f(xié)同過濾算法中,補(bǔ)充了用于協(xié)同過濾的主流淺層模型,為基于深度學(xué)習(xí)的情感傾向預(yù)測(cè)方法開辟了新的研究途徑.
1.2 基于矩陣分解的預(yù)測(cè)基本矩陣分解(Basic Matrix Factorization,Basic MF)[6]也稱為隱語(yǔ)義模型(Latent Factor Model,LFM),是最基礎(chǔ)的矩陣分解方式.正則化矩陣分解(Regularized MF)[6]通過加入正則化參數(shù)解決基本矩陣分解的過擬合問題.基于概率的矩陣分解(Probabilistic Matrix Factorization,PMF)[8]方法則引入概率模型對(duì)矩陣分解進(jìn)一步優(yōu)化.Bias SVD模型[6]在基本矩陣分解模型的基礎(chǔ)上加入了用戶及物品的偏置項(xiàng),SVD++算法[7]在Bias SVD算法的基礎(chǔ)上加入了用戶的隱式反饋.BMFDE模型[20]通過引入用戶嵌入隨時(shí)間的偏移規(guī)律對(duì)PMF模型進(jìn)行了擴(kuò)展.除此之外,還有很多不同形式的矩陣分解方法的模型變形,這些方法為解決鏈路情感傾向預(yù)測(cè)問題提供了不同的思路.
1.3 基 于 網(wǎng) 絡(luò) 嵌 入 的 預(yù) 測(cè)在 網(wǎng) 絡(luò) 嵌 入 方 法 中,Deepwalk模型[12]是開拓性的研究,它通過深度優(yōu)先搜索的隨機(jī)游走方法生成節(jié)點(diǎn)序列.Metapath2vec模型[13]將基于元路徑的隨機(jī)游走形式化,構(gòu)造出節(jié)點(diǎn)的異質(zhì)鄰居節(jié)點(diǎn)序列,利用異質(zhì)的跳字模型(Skip-Gram)[21]生成節(jié)點(diǎn)的嵌入.HERec模型[10]將Metapath2vec模型的嵌入方法進(jìn)行改進(jìn)后,結(jié)合矩陣分解的方法完成評(píng)分預(yù)測(cè)及推薦.HopRec模型[22]利用外積對(duì)用戶與項(xiàng)目節(jié)點(diǎn)間的成對(duì)關(guān)系進(jìn)行建模,從而對(duì)HERec模型進(jìn)行改進(jìn).SHINE模型[11]是針對(duì)用戶對(duì)于公眾人物的情感傾向進(jìn)行的預(yù)測(cè),模型利用六層的自編碼器分別對(duì)情感鏈路網(wǎng)絡(luò)、社會(huì)關(guān)系網(wǎng)絡(luò)及人物特征網(wǎng)絡(luò)進(jìn)行嵌入,再將結(jié)果聚合后用于完成預(yù)測(cè).這些方法通過不同形式的網(wǎng)絡(luò)嵌入對(duì)數(shù)據(jù)信息進(jìn)行挖掘,為準(zhǔn)確預(yù)測(cè)鏈路情感傾向提供條件.
2.1 相關(guān)概念在異質(zhì)網(wǎng)絡(luò)[23]G={V,E}中 ,V為節(jié)點(diǎn)集合,E為鏈路集合, φ:V→A以 及 φ:E→R為節(jié)點(diǎn)類型及鏈路類型的映射函數(shù),A和R分別代表節(jié)點(diǎn)和鏈路的類型集合.
元路徑[24]P是在網(wǎng)絡(luò)模式[23]Q=(A,R)上定義的路徑,若兩節(jié)點(diǎn)類型間沒有多種節(jié)點(diǎn)關(guān)系,則利用節(jié)點(diǎn)類型表示元路徑,記為P=A1A2···Al.節(jié)點(diǎn)和鏈路具體化的元路徑p稱為元路徑實(shí)例.基于元路徑的隨機(jī)游走是指節(jié)點(diǎn)根據(jù)給定的元路徑在網(wǎng)絡(luò)中不斷轉(zhuǎn)移的過程[13].
限制路徑類型的元路徑是指對(duì)節(jié)點(diǎn)之間關(guān)系的類型進(jìn)行了限制的一種擴(kuò)展的元路徑,記為:P(R)=A1(R1)A2(R2)···(Rl-1)Al.當(dāng) 節(jié) 點(diǎn) 類 型Ai與Ai+1間存在多種節(jié)點(diǎn)關(guān)系時(shí),限制路徑類型的元路徑P(R)僅 選取節(jié)點(diǎn)關(guān)系為Ri的路徑作為路徑實(shí)例.
遍歷游走是指對(duì)于根節(jié)點(diǎn)vi,依次訪問其鄰居節(jié)點(diǎn)集Ni中的每個(gè)節(jié)點(diǎn).給定一條限制路徑類型的元路徑P(R)=A1(R1)···At(Rt)At+1···(Rl)Al+1,基于P(R)在 異質(zhì)信息網(wǎng)絡(luò)G={V,E}上遍歷游走時(shí),要求初始節(jié)點(diǎn)vi(1)=vi滿足 φ(vi)=A1,此時(shí)T1=vi.對(duì)于第t步的節(jié)點(diǎn)集Tt,遍歷其中的節(jié)點(diǎn)得到第t+1步的節(jié)點(diǎn)集合:At+1,vy∈Nx,rx,y=Rt} ,其中Nx表 示節(jié)點(diǎn)vi(t)=vx的鄰居節(jié)點(diǎn)集,rx,y表 示節(jié)點(diǎn)vx與節(jié)點(diǎn)vy的節(jié)點(diǎn)關(guān)系.整個(gè)遍歷游走的過程根據(jù)給定的限制路徑類型的元路徑P(R)進(jìn) 行,直至完成節(jié)點(diǎn)集Tl的 遍歷得到Tl+1,游走過程結(jié)束.
2.2 模型框架HNPS模型的整體框架如圖1所示.模型引入了預(yù)測(cè)基值,并融合反饋信息來進(jìn)行預(yù)測(cè).其中,預(yù)測(cè)基值根據(jù)節(jié)點(diǎn)的歷史評(píng)分?jǐn)?shù)據(jù)設(shè)置,能初步反映不同節(jié)點(diǎn)間情感傾向的差異性.反饋信息包括顯式及隱式反饋信息.顯式反饋指能明確反映用戶情感傾向的信息,如評(píng)分?jǐn)?shù)據(jù).模型利用基于限制路徑類型元路徑的遍歷游走方法從中找到興趣相似的用戶及內(nèi)容相似的項(xiàng)目.隱式反饋指不直接表現(xiàn)節(jié)點(diǎn)的情感傾向的信息,如節(jié)點(diǎn)屬性.模型基于元路徑的隨機(jī)游走方法從中學(xué)習(xí)節(jié)點(diǎn)表征.模型將從評(píng)分?jǐn)?shù)據(jù)及節(jié)點(diǎn)屬性中提取到的信息與預(yù)測(cè)基值結(jié)合起來,經(jīng)過不斷迭代訓(xùn)練后得到最終的預(yù)測(cè)結(jié)果.
2.3 預(yù)測(cè)基值的設(shè)置現(xiàn)實(shí)生活中,用戶對(duì)即將接觸的事物存在一個(gè)預(yù)期的情感傾向值,通常用戶與事物最終所建立鏈路的情感傾向會(huì)基于這個(gè)預(yù)期值上下波動(dòng),即當(dāng)事物的表現(xiàn)高于用戶預(yù)期時(shí),用戶與事物間鏈路的情感傾向會(huì)高于預(yù)期值,反之則低于預(yù)期值.模型引入預(yù)測(cè)基值bu,m作 為節(jié)點(diǎn)vu與vm之間鏈路的預(yù)期情感傾向值,計(jì)算方式為:
式 中:Nu,Nm分別表示節(jié)點(diǎn)vu及vm的鄰居節(jié)點(diǎn),分別表示對(duì)節(jié)點(diǎn)vu及 節(jié)點(diǎn)vm的所有評(píng)分?jǐn)?shù)值求和,Y分?jǐn)?shù)據(jù)集,表示對(duì)評(píng)分?jǐn)?shù)據(jù)集中的所有評(píng)分?jǐn)?shù)值求和.
圖1 HNPS模型整體框架圖Fig.1 The overall framework of HNPS model
2.4 顯式反饋的信息提取模型基于評(píng)分?jǐn)?shù)據(jù)集Y構(gòu)建出一個(gè)異質(zhì)網(wǎng)絡(luò)Gr={V,Er},其中V為包含用戶及項(xiàng)目的節(jié)點(diǎn)集,Er為不同評(píng)分轉(zhuǎn)化的節(jié)點(diǎn)間不同類型鏈路的集合.利用限制路徑類型元路徑的遍歷游走方法可以從Gr中找出節(jié)點(diǎn)的相似節(jié)點(diǎn),并計(jì)算出節(jié)點(diǎn)間的相似度.設(shè)置用于提取信息的限制路徑類型元路徑集合:Wr={P(R)|P(R)=Ai(Rk)Aj(Rk)Ai,k=1,···,|RY|},其中Rk表示第k種 評(píng)分,|RY|為評(píng)分的類型數(shù).節(jié)點(diǎn)va的 相似節(jié)點(diǎn)集Sa以及節(jié)點(diǎn)間相似度值的集合Z由算法1得出.
算法1節(jié)點(diǎn)的相似節(jié)點(diǎn)集與節(jié)點(diǎn)間相似度的算法
輸入Gr={V,Er};Wr;va;Z
輸出Sa,Z
1 初始化Sa=[];
2 forP(R) inWrdo
3 if φ (va)=Aithen
4 根據(jù)P(R)遍 歷游走Gr得到節(jié)點(diǎn)集Sa;
5 對(duì)于Sa中 節(jié)點(diǎn)va′,計(jì)算va與va′間路徑實(shí)例的條數(shù)sa,a′,將其添加進(jìn)Z中;
6 end if
7 end for
8 returnSa,Z.
在算法1中,Sa中 包含了與va相 似的節(jié)點(diǎn),Z中保存了節(jié)點(diǎn)間相似度值的信息,sa,a′∈Z表示節(jié)點(diǎn)va與va′間的相似度.
2.5 隱式反饋的信息提取節(jié)點(diǎn)的屬性信息能輔助情感傾向的預(yù)測(cè).例如,某用戶十分欣賞諾蘭導(dǎo)演的藝術(shù)風(fēng)格,因此會(huì)對(duì)諾蘭執(zhí)導(dǎo)的《星際穿越》、《盜夢(mèng)空間》等電影表示喜歡.從節(jié)點(diǎn)屬性信息中能夠?qū)W到節(jié)點(diǎn)表征,在預(yù)測(cè)時(shí)用于描述節(jié)點(diǎn)屬性對(duì)鏈路情感傾向的影響.
模型利用節(jié)點(diǎn)屬性信息構(gòu)建異質(zhì)網(wǎng)絡(luò)G={V,E},并設(shè)置用于提取節(jié)點(diǎn)屬性信息的元路徑P=A1A2···Al.根據(jù)metapath2vec++模型[13],節(jié)點(diǎn)基于單條元路徑的嵌入由算法2得出.
算法2節(jié)點(diǎn)基于單條元路徑的嵌入算法
輸入G={V,E}; 元路徑P;路徑長(zhǎng)度wl;節(jié)點(diǎn)嵌入維度d;游走次數(shù)wt; 近鄰數(shù)ns
輸出節(jié)點(diǎn)基于單條元路徑的嵌入
1 初始化
2 forvainVand φ (va)=A1do
3 fori=1→wtdo
4 找到第i條 路徑實(shí)例pi;
5 基于pi利用跳字模型(SkipGram)[12]迭代更新
6 end for
7 end for
8 return
模型設(shè)置了多條元路徑來提取節(jié)點(diǎn)不同屬性的信息,最終的節(jié)點(diǎn)表征是對(duì)各條元路徑所提取到的節(jié)點(diǎn)嵌入進(jìn)行融合后的結(jié)果.根據(jù)HERec模型[10],采用個(gè)性化非線性融合函數(shù)對(duì)各元路徑提取的節(jié)點(diǎn)嵌入進(jìn)行融合,得到節(jié)點(diǎn)va的表征:
式中:W為用于提取信息的元路徑集合,P為其中的元路徑,M(P)∈RD×d及b(P)∈RD分別為對(duì)于元路徑P的變換矩陣和偏置向量,為節(jié)點(diǎn)va對(duì)于元路徑P的偏好權(quán)重,即sigmoid函數(shù),為個(gè)性化非線性融合函數(shù).
2.6 鏈路情感傾向預(yù)測(cè)HNPS模型結(jié)合預(yù)測(cè)基值及提取到的信息進(jìn)行預(yù)測(cè).節(jié)點(diǎn)vu與vm之間鏈路情感傾向的預(yù)測(cè)值r?u,m為:
式中:bu,m為 節(jié)點(diǎn)vu與vm間的預(yù)測(cè)基值,由式(1)計(jì)算得出;Xu(vm) 及Xm(vu)為節(jié)點(diǎn)的預(yù)測(cè)偏離值,由式(4)計(jì)算.αu及 αm為對(duì)節(jié)點(diǎn)預(yù)測(cè)偏離值的調(diào)整系數(shù);為節(jié)點(diǎn)vu與vm的表征,按式(2)的方式融合節(jié)點(diǎn)嵌入后得出; βu及 βm為對(duì)節(jié)點(diǎn)表征的調(diào)整向量.
節(jié)點(diǎn)的預(yù)測(cè)偏離值通過節(jié)點(diǎn)的相似節(jié)點(diǎn)來計(jì)算,節(jié)點(diǎn)vx關(guān)于節(jié)點(diǎn)vy的預(yù)測(cè)偏離值為:
式中:vx′為 節(jié)點(diǎn)vx的相似節(jié)點(diǎn),即vx′∈Sx,rx′,y表示節(jié) 點(diǎn)vx′與vy間 實(shí) 際 的 評(píng) 分 值,bx′,y為 節(jié) 點(diǎn)vx′與vy間的預(yù)測(cè)基值,sx′,y為 節(jié)點(diǎn)vx′與vy的相似度.
模型中的參數(shù)通過設(shè)置損失函數(shù)對(duì)模型進(jìn)行不斷訓(xùn)練后得出.損失函數(shù)為:
式中: 〈vu,vm,ru,m〉為評(píng)分?jǐn)?shù)據(jù)集Y中的一條數(shù)據(jù);ru,m為 用戶vu對(duì) 項(xiàng)目vm的 實(shí)際評(píng)分值;r?u,m為 用戶vu對(duì)項(xiàng)目vm的 預(yù)測(cè)評(píng)分值,由式(3)計(jì)算得到;λ為正則化參數(shù); Θu及 Θm分 別為節(jié)點(diǎn)vu與vm嵌入融合時(shí)的參數(shù).
使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)的方法來訓(xùn)練模型參數(shù),參數(shù)更新方式為:
式中:L為損失函數(shù),即式(5),ωi表示損失函數(shù)中的參數(shù)包括 α,β,Θ經(jīng) 過i次 迭代后得到的值,γ為隨機(jī)梯度下降迭代時(shí)的學(xué)習(xí)率.
整個(gè)HNPS模型的算法框架如算法3所示.
算法3HNPS模型
輸入評(píng)分?jǐn)?shù)據(jù)集Y;學(xué)習(xí)率γ ;正則化參數(shù)λ;元路徑集W
輸出對(duì)節(jié)點(diǎn)預(yù)測(cè)偏離值的調(diào)整系數(shù)集 αV,對(duì)節(jié)點(diǎn)表征的調(diào)整向量集 βV,個(gè)性化非線性融合函數(shù)中的參數(shù)集ΘV
1 初始化參數(shù)集中的參數(shù) α ,β,Θ,隨機(jī)排序評(píng)分?jǐn)?shù)據(jù)集Y;
2while 結(jié)果不收斂 do
3 選取一條評(píng)分?jǐn)?shù)據(jù)〈vu,vm,ru,m〉;
6 由式(6)迭代更新參數(shù)集中的參數(shù)α ,β,Θ;
7 end while
8 return αV,βV,ΘV.
3.1 數(shù) 據(jù) 集實(shí)驗(yàn)使用的5個(gè)數(shù)據(jù)集分別為:MovieLens(源于https://grouplens.org/datasets/movie lens/);Amazon(源于 http://jmcauley.ucsd.edu/data/ama zon/);Douban Movie(源于http://movie.douban.com);Douban Book(源于http://book.douban.com);Yelp(源于 http://www.yelp.com/dataset-challenge).其 中,MovieLens和Douban Movie屬于電影領(lǐng)域,Amazon屬于商品領(lǐng)域,Douban Book屬于書籍領(lǐng)域,Yelp屬于商業(yè)領(lǐng)域.數(shù)據(jù)集中包含了用戶對(duì)項(xiàng)目的評(píng)分以及與用戶、項(xiàng)目的屬性信息等.各數(shù)據(jù)集情況見表1.其中,數(shù)據(jù)集密度指評(píng)分矩陣中非零元素比例,即: 數(shù) 據(jù)集密度=
5個(gè)數(shù)據(jù)集中用戶對(duì)于項(xiàng)目的評(píng)分范圍皆為1~5分,統(tǒng)計(jì)各數(shù)據(jù)集評(píng)分的分布情況,結(jié)果如圖2所示.由圖2可知,對(duì)于所有數(shù)據(jù)集,評(píng)分主要集中在3~5分,1分及2分所占的比例不超過20%.
表1 數(shù)據(jù)集情況統(tǒng)計(jì)Tab.1 Statistics of data sets
圖2 各類型評(píng)分的分布情況Fig.2 The distribution of various types of scores
3.2 評(píng) 價(jià) 指 標(biāo)本文使用平均絕對(duì)誤差(Mean Absolute Error, MAE)及 均 方 根 誤 差(Root Mean Square Error, RMSE)作為模型質(zhì)量的評(píng)價(jià)指標(biāo),計(jì)算方式分別為:式中,n為 樣本的數(shù)量,yj為真實(shí)評(píng)分值,為預(yù)測(cè)評(píng)分值.MAE及RMSE的值越小,表示預(yù)測(cè)結(jié)果的偏離越小,即模型性能越好.
3.3 對(duì)比方法本文分別從基于協(xié)同過濾、矩陣分解、奇異值分解以及異質(zhì)網(wǎng)絡(luò)嵌入的評(píng)分預(yù)測(cè)模型中選取了4個(gè)具有代表性的方法來作為對(duì)比方法.選取 的方法包括Item-based CF[25]、PMF[8]、SVD++[7]、 HERec[10]及HNPS.在上述5種方法中,PMF、SVD++及HERec方法包含了對(duì)評(píng)分?jǐn)?shù)據(jù)不同形式的矩陣分解,而Item-based CF及HNPS方法則聚焦于從評(píng)分?jǐn)?shù)據(jù)中獲取存在相似行為的節(jié)點(diǎn).在實(shí)驗(yàn)過程中,Item-based CF、PMF及SVD++方法僅使用了數(shù)據(jù)集中的評(píng)分信息,HERec及HNPS模型還引入了節(jié)點(diǎn)的屬性信息.
對(duì)于HERec及HNPS模型,在提取節(jié)點(diǎn)屬性信息時(shí)需設(shè)置元路徑,不同元路徑表示的語(yǔ)義不同,提取到的節(jié)點(diǎn)屬性信息也不相同.例如對(duì)于MovieLens數(shù)據(jù)集,元路徑“UMU”包含的語(yǔ)言信息為“看過同一部電影的用戶”,“MUM”則表示“同一個(gè)用戶看過的電影”.HERec[10]的研究表明,較長(zhǎng)的元路徑所代表的語(yǔ)義相對(duì)復(fù)雜,且可能在提取信息時(shí)引入噪聲,因此元路徑的設(shè)置并非越長(zhǎng)越好.本文實(shí)驗(yàn)選取的元路徑詳見表2.
表2 5個(gè)數(shù)據(jù)集中選用的元路徑Tab.2 The selected meta-paths for five datasets.
3.4 實(shí)驗(yàn)結(jié)果設(shè)置不同的訓(xùn)練比率將評(píng)分記錄分為訓(xùn)練集和測(cè)試集.對(duì)于每個(gè)訓(xùn)練比率,隨機(jī)生成5組包含訓(xùn)練集和測(cè)試集的評(píng)估集,將選用的模型分別運(yùn)用于這5組評(píng)估集,取5組評(píng)估集上實(shí)驗(yàn)結(jié)果的平均值作為最終的實(shí)驗(yàn)結(jié)果加以呈現(xiàn).對(duì)于MovieLens、Amazon、豆瓣電影及豆瓣書籍?dāng)?shù)據(jù)集,設(shè)置訓(xùn)練比率為80%、60%、40%、20%;對(duì)于數(shù)據(jù)集YELP,由于評(píng)分?jǐn)?shù)據(jù)十分稀疏,設(shè)置訓(xùn)練比率為90%、80%、70%、60%[10].
SVD++、HERec及HNPS模型中都包含了隨機(jī)梯度下降的方法,實(shí)驗(yàn)統(tǒng)一設(shè)置學(xué)習(xí)率為0.93.對(duì)于異質(zhì)網(wǎng)絡(luò)中節(jié)點(diǎn)嵌入的融合,根據(jù)HERec模型[10]的表現(xiàn),對(duì)所有數(shù)據(jù)集的實(shí)驗(yàn)都設(shè)置融合后的節(jié)點(diǎn)表征維數(shù)為10,而HNPS模型的實(shí)驗(yàn)對(duì)5個(gè)數(shù)據(jù)集分別設(shè)置融合后的節(jié)點(diǎn)表征維度為50、25、15、10、5.實(shí)驗(yàn)結(jié)果如表3所示.
基于表3,可以得到:
(1)Item-based CF算法無法處理新加入的節(jié)點(diǎn),即,模型無法對(duì)訓(xùn)練集中未包含的節(jié)點(diǎn)進(jìn)行預(yù)測(cè).隨著訓(xùn)練集密度降低,測(cè)試集中出現(xiàn)未訓(xùn)練節(jié)點(diǎn)的概率增大,而只要測(cè)試集中出現(xiàn)未訓(xùn)練的節(jié)點(diǎn),算法將無法正常運(yùn)行,從而無法得出預(yù)測(cè)結(jié)果,這個(gè)問題通常被稱為冷啟動(dòng)問題,表3中的 “Null”表示存在冷啟動(dòng)問題.在參與對(duì)比的方法中,除了Itembased CF算法以外,其余模型均能正常處理冷啟動(dòng)問題.
表3 5個(gè)數(shù)據(jù)集的有效性實(shí)驗(yàn)結(jié)果Tab.3 Results of effectiveness experiments on five datasets
(2)HNPS模型及SVD++模型在兩個(gè)評(píng)價(jià)指標(biāo)上的效果普遍好于其余3個(gè)模型,說明相比利用物品間的相似度或?qū)υu(píng)分?jǐn)?shù)據(jù)進(jìn)行矩陣分解,設(shè)置預(yù)測(cè)基值的方式能有效提升預(yù)測(cè)準(zhǔn)確度及穩(wěn)定性.
(3)對(duì)于MAE指標(biāo),HNPS模型在多數(shù)情況下表現(xiàn)最好,其次是SVD++模型,而對(duì)于RMSE指標(biāo)則是SVD++模型表現(xiàn)較好,HNPS模型次之,說明將預(yù)測(cè)基值細(xì)化到具體節(jié)點(diǎn)并結(jié)合多類信息能預(yù)測(cè)得更加準(zhǔn)確,而奇異值分解的方法則能使預(yù)測(cè)結(jié)果更加穩(wěn)定.
(4)當(dāng)訓(xùn)練集密度較低時(shí),PMF模型及HERec模型的預(yù)測(cè)準(zhǔn)確度及模型穩(wěn)定性都不如HNPS模型,說明矩陣分解的方法在訓(xùn)練數(shù)據(jù)較稀疏時(shí)效果并不理想,而SVD++模型在相同情況下卻有好的表現(xiàn),說明預(yù)測(cè)基值的引入使模型在訓(xùn)練數(shù)據(jù)較少即矩陣稀疏的情況下仍然適用.
(5)HERec模型的預(yù)測(cè)準(zhǔn)確度及模型穩(wěn)定性,指標(biāo)都優(yōu)于同樣使用了矩陣分解方法的PMF模型.隨著訓(xùn)練比率增加,HERec模型的預(yù)測(cè)準(zhǔn)確度及穩(wěn)定性指標(biāo)提升效果最明顯,同樣采用了異質(zhì)網(wǎng)絡(luò)嵌入方法的HNPS模型相比SVD++模型在后4個(gè)數(shù)據(jù)集上的指標(biāo)提升速度也更快,說明從異質(zhì)網(wǎng)絡(luò)中提取的節(jié)點(diǎn)屬性信息對(duì)于提升模型的預(yù)測(cè)效果是有用的,且在訓(xùn)練數(shù)據(jù)豐富時(shí)能發(fā)揮更大的作用.
3.5 模型及參數(shù)分析
3.5.1 冷啟動(dòng)問題 冷啟動(dòng)問題通常發(fā)生在數(shù)據(jù)集較稀疏或數(shù)據(jù)的訓(xùn)練比率較低時(shí).將冷啟動(dòng)問題按新加入節(jié)點(diǎn)的類型細(xì)分為僅引入新用戶(U)、僅引入新項(xiàng)目(I)及同時(shí)引入新用戶及新項(xiàng)目(U&I)3種.設(shè)置前4個(gè)數(shù)據(jù)集的訓(xùn)練比率為20%,設(shè)置Yelp數(shù)據(jù)集的訓(xùn)練比率為60%,從測(cè)試集中篩選出存在冷啟動(dòng)問題的數(shù)據(jù)用于探究不同模型處理各種冷啟動(dòng)問題的效果,實(shí)驗(yàn)結(jié)果如表4所示.表中“Null”表示算法未正常運(yùn)行,“Empty”表示測(cè)試集中未找到對(duì)應(yīng)數(shù)據(jù).由表4可知,Item-based CF算法不能預(yù)測(cè)新用戶的情感傾向,其余方法對(duì)各種類型的冷啟動(dòng)問題都能處理.對(duì)比各方法的實(shí)驗(yàn)結(jié)果,HNPS模型及SVD++模型在遭遇冷啟動(dòng)問題時(shí)仍能進(jìn)行相對(duì)準(zhǔn)確的預(yù)測(cè),而PMF模型及HERec模型的表現(xiàn)則普遍欠佳,這進(jìn)一步說明了預(yù)測(cè)基值的設(shè)置對(duì)于解決冷啟動(dòng)問題是十分有效的.
3.5.2 預(yù)測(cè)基值的設(shè)置 預(yù)測(cè)基值是對(duì)預(yù)測(cè)結(jié)果的粗略估計(jì).通常選取平均值、中位數(shù)、眾數(shù)等描述數(shù)據(jù)趨勢(shì)的統(tǒng)計(jì)量來設(shè)置.由圖1可知,評(píng)分大多集中在3~5分,即情感傾向的預(yù)期值普遍高于評(píng)分區(qū)間的中位數(shù),但并未特別集中于某個(gè)評(píng)分值,因此,相比中位數(shù)或眾數(shù),使用所有評(píng)分?jǐn)?shù)據(jù)的均值作為預(yù)測(cè)基值能更加貼近實(shí)際的預(yù)測(cè)結(jié)果.在此基礎(chǔ)上,HNPS模型將預(yù)測(cè)基值的設(shè)置細(xì)化到具體的節(jié)點(diǎn),通過5個(gè)數(shù)據(jù)集來對(duì)比采用所有評(píng)分?jǐn)?shù)據(jù)的均值作為預(yù)測(cè)基值(Avg)和按HNPS模型的方法設(shè)置預(yù)測(cè)基值(Base)對(duì)指標(biāo)MAE及RMSE的影響,結(jié)果如圖3所示.由圖3可知,HNPS模型的預(yù)測(cè)基值設(shè)置方法能有效提升預(yù)測(cè)效果.
3.5.3 顯式反饋信息及隱式反饋信息對(duì)預(yù)測(cè)基值的調(diào)整效果 為了探究?jī)煞N反饋信息對(duì)于模型預(yù)測(cè)效果的影響程度,本文在5個(gè)數(shù)據(jù)集上進(jìn)行了4種實(shí)驗(yàn):①直接使用預(yù)測(cè)基值進(jìn)行預(yù)測(cè)(記為Base);②僅使用顯式反饋信息對(duì)預(yù)測(cè)基值進(jìn)行調(diào)整(記為BE);③僅使用隱式反饋信息對(duì)預(yù)測(cè)基值進(jìn)行調(diào)整(記為BI);④同時(shí)使用顯式及隱式反饋信息對(duì)預(yù)測(cè)基值進(jìn)行調(diào)整(記為BEI).4種實(shí)驗(yàn)的結(jié)果如圖4所示.從圖4可看出,對(duì)于前4個(gè)數(shù)據(jù)集,兩種反饋信息都能提升模型的預(yù)測(cè)效果,但提升程度有限.Yelp數(shù)據(jù)集的情況較為特殊,反饋信息的引入反而干擾了模型的預(yù)測(cè),說明當(dāng)數(shù)據(jù)信息匱乏時(shí),預(yù)測(cè)基值的合理設(shè)置變得十分重要.
表4 5個(gè)數(shù)據(jù)集的冷啟動(dòng)問題實(shí)驗(yàn)結(jié)果Tab.4 Results of cold-start experiments on five datasets
圖3 預(yù)測(cè)基值對(duì)于預(yù)測(cè)效果的影響Fig.3 The influence of basic estimates on the prediction
圖4 反饋信息對(duì)預(yù)測(cè)效果的影響Fig.4 The influence of feedback information on the prediction
本文提出一種異質(zhì)網(wǎng)絡(luò)中融合多種類型的反饋信息預(yù)測(cè)鏈路情感傾向的方法,即HNPS模型.模型引入預(yù)測(cè)基值,并結(jié)合顯式反饋及隱式反饋中提取的信息進(jìn)行預(yù)測(cè),能有效提升預(yù)測(cè)結(jié)果的準(zhǔn)確度.在信息提取過程中,本文設(shè)計(jì)了一種基于限制路徑類型元路徑的遍歷游走策略用于捕獲網(wǎng)絡(luò)中具有相似情感傾向的節(jié)點(diǎn).將本文模型運(yùn)用于5個(gè)公共數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果證明了HNPS模型的有效性及對(duì)于稀疏矩陣、冷啟動(dòng)問題的處理能力.在以后的工作中將進(jìn)一步探索不同種類信息的提取方法,以解決數(shù)據(jù)量大,數(shù)據(jù)內(nèi)容復(fù)雜等帶來的挑戰(zhàn),同時(shí)也將考慮改進(jìn)信息融合的方式,使得模型的預(yù)測(cè)效果能更加穩(wěn)定.