胡檢華,李 平,2
1.長(zhǎng)沙理工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,長(zhǎng)沙 410114
2.智能交通大數(shù)據(jù)處理湖南省重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙 410114
隨著Facebook、Twitter、微博以及微信等社交媒體在全球流行,Web2.0[1]的普及與應(yīng)用,越來(lái)越多的用戶在社交媒體上發(fā)布或傳播信息[2],尋求或采納其他用戶的意見(jiàn)或建議。社會(huì)媒體系統(tǒng)對(duì)內(nèi)容搜索以及產(chǎn)品推廣等方面具有廣泛的潛在影響,例如幫助用戶快速找到喜歡的音樂(lè)或電影。然而,隨著社交用戶群體的不斷壯大,社交媒體平臺(tái)擁有海量的用戶信息和用戶記錄。因此,信息過(guò)載成為一個(gè)重大的挑戰(zhàn)議題。
推薦系統(tǒng)旨在從海量信息中過(guò)濾篩選,為用戶提供最具吸引力或最相關(guān)的項(xiàng)目(如新聞、音樂(lè)、影像等),以緩解信息過(guò)載問(wèn)題。協(xié)同過(guò)濾是當(dāng)前應(yīng)用最流行的推薦算法,其根據(jù)用戶歷史記錄,預(yù)測(cè)特定用戶的興趣,為其提供個(gè)性化的服務(wù)。協(xié)同過(guò)濾算法可以分為基于記憶的方法和基于模型的方法。基于記憶的方法又可分為基于用戶的方法和基于項(xiàng)目的方法。雖然基于記憶的方法易于實(shí)現(xiàn),但數(shù)據(jù)稀疏時(shí),推薦結(jié)果不可靠。而基于模型的方法為當(dāng)前的主流,包括數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法。例如:基于鄰域的協(xié)同過(guò)濾[3]、矩陣分解[4]、基于圖的方法[5]和基于模糊的協(xié)同過(guò)濾[6]。
然而,用戶反饋信息矩陣是稀疏的,即大多數(shù)的用戶標(biāo)記過(guò)極少數(shù)的項(xiàng)目。數(shù)據(jù)稀疏問(wèn)題導(dǎo)致傳統(tǒng)的協(xié)同過(guò)濾算法僅僅依靠反饋信息很難取得很好的效果。而社交媒體可以為推薦系統(tǒng)提供豐富的輔助信息,例如標(biāo)簽、評(píng)論以及用戶社交關(guān)系。社交媒體與協(xié)同過(guò)濾相結(jié)合,可以有效緩解稀疏性問(wèn)題,提高推薦效果。因此,如何利用社交媒體中豐富的信息來(lái)增強(qiáng)推薦模型,已成為學(xué)術(shù)界和行業(yè)極為關(guān)注的熱點(diǎn)問(wèn)題[7-8]。目前,一些學(xué)者將項(xiàng)目?jī)?nèi)容信息和用戶社交網(wǎng)絡(luò)融入推薦模型,來(lái)提高推薦效果,取得了不錯(cuò)的成果。例如,文獻(xiàn)[9]充分挖掘社交媒體中社會(huì)網(wǎng)絡(luò)信息,在協(xié)同主題回歸模型的基礎(chǔ)之上,提出一種融入社交網(wǎng)絡(luò)信息和協(xié)同主題回歸模型,該模型在推薦精度上有了較大的提高。
本章將回顧與總結(jié)一些關(guān)于基于協(xié)同過(guò)濾推薦的最新技術(shù)方法,可以分為:基于項(xiàng)目?jī)?nèi)容的協(xié)同過(guò)濾,基于社交網(wǎng)絡(luò)的協(xié)同過(guò)濾,以及基于項(xiàng)目?jī)?nèi)容與社交網(wǎng)絡(luò)的協(xié)同過(guò)濾。Wang等人[10]提出了協(xié)同主題模型(Collaborative Topic Regression modeling,CTR),通過(guò)將反饋矩陣和項(xiàng)目(文檔)內(nèi)容信息有效地融合到同一模型,并向用戶推薦文檔,有效地緩解了傳統(tǒng)協(xié)同過(guò)濾預(yù)測(cè)不準(zhǔn)確與不可靠的問(wèn)題。Liu等人[11]在CTR模型的基礎(chǔ)之上,采用流式變分推理來(lái)優(yōu)化組合目標(biāo)函數(shù),實(shí)現(xiàn)CTR模型在線并行處理,在保證推薦精度的同時(shí),提高運(yùn)行效率。Wang等人[12]將深度學(xué)習(xí)應(yīng)用到推薦系統(tǒng)中,利用堆疊去噪自動(dòng)編碼器學(xué)習(xí)項(xiàng)目?jī)?nèi)容,并與概率矩陣分解有效結(jié)合。在項(xiàng)目潛在特征學(xué)習(xí)上有效地去除噪聲,更好地挖掘項(xiàng)目潛在特征表示,推薦精確更高。但是,這類模型在新用戶或非活動(dòng)用戶上,并不能有效地學(xué)習(xí)用戶潛在空間。
Xing等人[13]提出一種基于用戶朋友關(guān)系的社交網(wǎng)絡(luò)項(xiàng)目推薦模型,對(duì)用戶與朋友共同興趣特征進(jìn)行潛在因式分解,預(yù)測(cè)用戶喜歡的項(xiàng)目,該模型推薦效果較好,并具有一定的擴(kuò)展性。Ma等人[14-16]將社會(huì)信息與矩陣分解過(guò)程相結(jié)合提出了三種不同的社會(huì)推薦算法,分別是基于概率矩陣分解的社會(huì)推薦(Social Recommendation,SoRec)、社會(huì)信任集成(Social Trust Ensemble,STE)和社會(huì)正規(guī)化。在SoRec[14]中,通過(guò)共享用戶潛在因素來(lái)同時(shí)因子分解用戶-項(xiàng)目反饋矩陣和用戶-用戶社交矩陣。在STE[15]中,通過(guò)評(píng)分的全局偏移、基于用戶u和項(xiàng)目 j的潛在因素的預(yù)測(cè),以及用戶u所有朋友對(duì)項(xiàng)目j的預(yù)測(cè)評(píng)分的加權(quán)和,來(lái)決定用戶u對(duì)項(xiàng)目 j的預(yù)測(cè)評(píng)分。社會(huì)規(guī)則化模型[16]間接模擬興趣在社交網(wǎng)絡(luò)中的傳遞性,并利用社會(huì)圈和用戶的潛在因素構(gòu)建社會(huì)正則化項(xiàng),來(lái)約束矩陣分解過(guò)程中的目標(biāo)函數(shù)。以上三種模型比最初的矩陣分解能夠獲得更好的預(yù)測(cè)精度。然而,這些模型不能用來(lái)推薦新的項(xiàng)目。
上述文獻(xiàn)都是基于項(xiàng)目?jī)?nèi)容的協(xié)同過(guò)濾或基于社交網(wǎng)絡(luò)的協(xié)同過(guò)濾,因此,如何將兩者有效地與協(xié)同過(guò)濾算法結(jié)合,構(gòu)建一個(gè)聯(lián)合推薦引擎,成為一個(gè)亟待解決的難題。Purushotham等人[17]在CTR的基礎(chǔ)之上,提出一種基于社交矩陣分解的協(xié)同主題回歸(Collaborative Topic Regression with Social Matrix Factorization,CTRSMF),將協(xié)同主題回歸和社交矩陣分解結(jié)合,構(gòu)建一個(gè)動(dòng)態(tài)的推薦系統(tǒng)。但CTRSMF直接分解社交矩陣,缺少物理解釋,很難揭示用戶之間的潛在關(guān)系。Kang等人[18]提出了一種基于社交媒體局部關(guān)注的協(xié)同主題回歸(Limited Attention Collaborative Topic Regression,LACTR),利用在社交媒體中的同質(zhì)效應(yīng)去平滑用戶與朋友之間興趣的相似性,直接學(xué)習(xí)用戶分配多少關(guān)注給朋友,并且利用這些影響去推薦。LACTR隱含了一個(gè)預(yù)設(shè)條件,即用戶之間的社交互動(dòng)通常遵循主題內(nèi)容局部相似。但該假設(shè)條件較強(qiáng),導(dǎo)致LACTR對(duì)數(shù)據(jù)集敏感。Wu等人[19]提出了一種基于社會(huì)信任集成的協(xié)同主題回歸(Collaborative Topic Regression with Social Trust Ensemble,CTRSTE),將社會(huì)信任關(guān)系、主題模型和概率矩陣分解合并。在CTR-STE中,用戶采納項(xiàng)目的決定由用戶自身的興趣和他們信任朋友的興趣共同影響,它隱含了一個(gè)前提假設(shè),即用戶與他們信任的朋友具有相似興趣,但有時(shí)用戶與他們信任的朋友興趣差異較大,這導(dǎo)致推薦效果不佳。
為了將用戶社會(huì)關(guān)系網(wǎng)絡(luò)和項(xiàng)目?jī)?nèi)容信息與協(xié)同過(guò)濾算法有效結(jié)合,本文引入概率鏈接函數(shù)[20]來(lái)挖掘社會(huì)關(guān)系網(wǎng)絡(luò)對(duì)用戶潛在興趣特征的影響,在協(xié)同主題回歸模型的基礎(chǔ)之上,提出一種融入用戶社會(huì)關(guān)系的協(xié)同主題回歸模型。本文的主要貢獻(xiàn)由兩點(diǎn)組成:一是本文提出一個(gè)新的算法框架,將用戶項(xiàng)目反饋信息、項(xiàng)目?jī)?nèi)容和用戶社會(huì)關(guān)系網(wǎng)絡(luò)有效結(jié)合在一起,構(gòu)建一個(gè)基于分層貝葉斯模型的推薦引擎。二是引入鏈接概率函數(shù),將用戶潛在特征與用戶之間的社會(huì)關(guān)系建立聯(lián)系,并以此來(lái)評(píng)估社會(huì)關(guān)系對(duì)用戶興趣的影響,約束目標(biāo)函數(shù),更好地挖掘用戶潛在的興趣特征。
CTR模型將傳統(tǒng)協(xié)同過(guò)濾和主題模型有效結(jié)合。CTR表示用戶具有主題興趣,假定項(xiàng)目是由主題模型生成的。此外,利用項(xiàng)目?jī)?nèi)容信息,CTR可以預(yù)測(cè)新增項(xiàng)目的評(píng)分。圖1展示了CTR模型。
圖1 CTR模型
CTR在主題占比θj和項(xiàng)目潛在向量vj之間引入項(xiàng)目潛在偏移向量εj。偏移表示為項(xiàng)目主題分布θj和項(xiàng)目潛在向量vj之間的差。假定有K個(gè)主題β=β1:K,CTR的生成過(guò)程如下所示。
The description of generative process
1.For each useri,Draw a user latent vector
2.For each item j,
(c)For each wordwjn,
3.Draw the feedbackrijfor each user-item pair(i,j),
用戶有著自己的興趣愛(ài)好,在不同的項(xiàng)目上有著不同的偏好,例如:搖滾音樂(lè)、流行音樂(lè)等。另外,用戶的興趣很容易受到社會(huì)關(guān)系網(wǎng)絡(luò)中其他用戶的影響,人們往往比較容易接受來(lái)自社區(qū)的朋友關(guān)于電影、音樂(lè)或書(shū)籍等方面的推薦。
基于以上動(dòng)機(jī),本文在協(xié)同主題回歸模型的基礎(chǔ)之上,引入概率鏈接函數(shù)來(lái)挖掘社會(huì)關(guān)系網(wǎng)絡(luò)對(duì)用戶潛在興趣特征的影響,以此來(lái)約束目標(biāo)函數(shù),并提出一種融入用戶社會(huì)關(guān)系的協(xié)同主題模型。
圖2展示了UCRCTR模型的圖模型,其中用戶對(duì)項(xiàng)目的評(píng)分rij、項(xiàng)目?jī)?nèi)容信息Wj,n和用戶社會(huì)關(guān)系 fil為觀察量。模型根據(jù)項(xiàng)目?jī)?nèi)容信息Wj,n生成主題特征向量θj,項(xiàng)目潛在特征向量vj的初始值由θj得來(lái)。用戶潛在特征向量ui和項(xiàng)目潛在特征向量vj共同生成用戶對(duì)項(xiàng)目的預(yù)測(cè)評(píng)分。用戶社會(huì)關(guān)系向量si由ui生成,其表示其他用戶對(duì)用戶i的興趣影響。而用戶潛在特征向量ui通過(guò)用戶社會(huì)關(guān)系向量si受到用戶社會(huì)關(guān)系 fil的約束,即sl和si之間存在社會(huì)關(guān)系。η+為控制系數(shù)。
圖2 USRCTR模型
USRCTR模型的生成過(guò)程如下所示。
The description of generative process
1.For each useri,
(a)Draw a user latent vector
(b)Draw user social relation offsetand set user social relation vectorsi=ui+τi;
2.For each item j,
(a)Draw topic proportions θj~Dirichlet(?);
(c)For each wordwjn,
4.For each pair of users(i,j),draw a binary link indicator
5.Draw the feedback rijfor each user-item pair(i,j),
以上生成過(guò)程中,鏈接概率函數(shù)表示某兩個(gè)用戶之間的社會(huì)關(guān)系向量越相似,那么這兩個(gè)用戶之間存在社會(huì)關(guān)系的概率就越大。鏈接概率函數(shù)被定義為:
它表示兩個(gè)用戶之間的社會(huì)關(guān)系鏈接上的分布,其值取決于兩個(gè)用戶的用戶社會(huì)關(guān)系向量si和sl。其中,如果 fi,l=1,則表示用戶i和用戶l存在社會(huì)關(guān)系,v是一個(gè)標(biāo)量值表示偏移量中的符合表示向量標(biāo)量級(jí)聯(lián),運(yùn)算符表示元素級(jí)矢量乘法。通過(guò)約束參數(shù)η和v來(lái)確保函數(shù)ψ的取值在0到1的范圍之內(nèi)。
步驟1的(b),步驟3和4區(qū)分與CTR模型的生成過(guò)程不同。用戶社會(huì)關(guān)系偏移量τi是USRCTR模型中的一個(gè)關(guān)鍵屬性,與項(xiàng)目潛在偏移量εj類似,τi可以使得si在有需要的情況下偏離用戶潛在特征向量ui。用戶潛在特征向量ui表示用戶的自身興趣特征,si表示社會(huì)關(guān)系網(wǎng)絡(luò)中其他用戶對(duì)用戶i興趣特征的影響。λr越大,si和ui就越接近,當(dāng)λr趨于無(wú)窮時(shí),si=ui。
用戶社會(huì)關(guān)系的條件分布可以表示為:
在已知觀測(cè)數(shù)據(jù)用戶-項(xiàng)目評(píng)分矩陣R、項(xiàng)目?jī)?nèi)容信息W和用戶社會(huì)關(guān)系網(wǎng)絡(luò) fi,l=1的情況下,用戶潛在特征矩陣U、項(xiàng)目潛在特征矩陣V、用戶社會(huì)關(guān)系矩陣S、控制系數(shù)η+和主題分布矩陣θ的聯(lián)合后驗(yàn)概率函數(shù),即目標(biāo)函數(shù)可以表示為:
其中,α、λu、λv、λe、λr分別為θ、U 、V 、η+和 si的超參數(shù)。K為主題的個(gè)數(shù),I為單位矩陣。P(W,θ|?,β)表示為潛在狄里克雷分布中文本描述的似然函數(shù),其中狄里克雷先驗(yàn)參數(shù)?被設(shè)定為1,以便計(jì)算簡(jiǎn)單。
給定訓(xùn)練數(shù)據(jù)集,本文將所有參數(shù)視為隨機(jī)變量,采用馬爾可夫鏈蒙特卡羅方法和變分方法,用于學(xué)習(xí)和推理,并找到U、V、S和η+的最大后驗(yàn)估計(jì)。參數(shù)的學(xué)習(xí)和推斷過(guò)程與CTR模型類似。最后,根據(jù)訓(xùn)練得到潛在特征矩陣U和V來(lái)預(yù)測(cè)評(píng)分矩陣R中的缺失值,并通過(guò)預(yù)測(cè)評(píng)分來(lái)推薦。根據(jù)上一節(jié),需求聯(lián)合后驗(yàn)概率函數(shù)公式(3)的最大后驗(yàn),即等價(jià)于求給定超參數(shù)λu、λv、λr、λe、?和 β 的U、V、s1:I、η+和 θ1:J的對(duì)數(shù)似然的最大值,如公式(4)所示:
在協(xié)同主題回歸模型中,主題模型的超參數(shù)α設(shè)置為1。由于L對(duì)于所有變量中很難同時(shí)達(dá)到最優(yōu),因此本文采用坐標(biāo)上升算法來(lái)優(yōu)化目標(biāo)函數(shù),通過(guò)設(shè)計(jì)一個(gè)交替算法來(lái)學(xué)習(xí)參數(shù),即每次優(yōu)化某個(gè)參數(shù)時(shí)將其他參數(shù)固定不變。
對(duì)于ui和vj,通過(guò)將其的梯度設(shè)置為零,可以得到以下更新規(guī)則:
其中,Ci={cij|j=1,2,…J}是一個(gè)對(duì)角矩陣,cij是用戶i對(duì)項(xiàng)目 j評(píng)分rij的置信參數(shù),如果cij越大,rij就越可信。通常,如果rij=1,那么cij=a,如果rij=0,那么cij=b,其中a和b都是置信參數(shù),并滿足a>b>0。是用戶i對(duì)所有項(xiàng)目反饋信息的列向量。對(duì)于每個(gè)項(xiàng)目 j,Cj和Rj被類似定義。
對(duì)于si和η+,由于不能直接求得L關(guān)于si或η+的梯度,并將其設(shè)置為零。因此,梯度上升被用來(lái)更新變量si和η+。L相對(duì)于si和η+的梯度分別為:
對(duì)于θj,首先定義q(zjn=k)=ψjnk,然后在將包含θj的項(xiàng)目分離出來(lái)之后應(yīng)用Jensen不等式:
對(duì)于參數(shù)β,并遵循與LDA中相同的M步更新。
在學(xué)習(xí)到所有最優(yōu)參數(shù)U 、V 、θ1:J、φ 、η+和S之后,本模型可用于用戶對(duì)項(xiàng)目評(píng)分的預(yù)測(cè)。D表示為觀察到的測(cè)試數(shù)據(jù),用戶i對(duì)項(xiàng)目 j的預(yù)測(cè)評(píng)分被估計(jì)為:
對(duì)于非冷啟動(dòng)預(yù)測(cè),使用ui、θj和εj的點(diǎn)估計(jì)值來(lái)估計(jì)用戶i對(duì)項(xiàng)目 j的評(píng)分如下:
對(duì)于項(xiàng)目特定的冷啟動(dòng)預(yù)測(cè),項(xiàng)目剛剛發(fā)布,沒(méi)有觀察到的評(píng)分?jǐn)?shù)據(jù)可用。因此,E[εj]=0。用戶i對(duì)項(xiàng)目 j的評(píng)分如下:
實(shí)驗(yàn)數(shù)據(jù)來(lái)自知名社交音樂(lè)媒體Lastfm上收集的真實(shí)數(shù)據(jù)集。Lastfm是全球最大的社交音樂(lè)平臺(tái),允許用戶標(biāo)記音樂(lè)曲目和藝術(shù)家,本文選用hetrec2011-lastfm-2k數(shù)據(jù)集。該數(shù)據(jù)集,把藝術(shù)家當(dāng)作項(xiàng)目,如果用戶已經(jīng)收聽(tīng)過(guò)某個(gè)藝術(shù)家,那么用戶對(duì)這個(gè)藝術(shù)家的評(píng)分為“1”。該數(shù)據(jù)集包含社交網(wǎng)絡(luò)、標(biāo)簽和用戶對(duì)項(xiàng)目的評(píng)分信息。數(shù)據(jù)集的統(tǒng)計(jì)資料如表1所示。
表1 數(shù)據(jù)集的統(tǒng)計(jì)
準(zhǔn)確性是衡量推薦系統(tǒng)好壞的一個(gè)重要屬性,其特征是產(chǎn)生的推薦是否能準(zhǔn)確地匹配用戶的興趣/喜好。本文同時(shí)采用準(zhǔn)確率和召回率來(lái)評(píng)估推薦的精度。相關(guān)項(xiàng)目(relevance items)為測(cè)試集中的驗(yàn)證項(xiàng)目,top-N項(xiàng)目為預(yù)測(cè)評(píng)分排名前N的項(xiàng)目。給出推薦項(xiàng)目的排名列表,準(zhǔn)確率Precision表示在top-N項(xiàng)目中檢索到相關(guān)項(xiàng)目所占的比例。
召回率Recall表示在所有相關(guān)項(xiàng)目中檢索到相關(guān)項(xiàng)目所占的比例。
推薦的質(zhì)量可以沿著多個(gè)維度進(jìn)行評(píng)估,僅僅依靠推薦的精度可能不足以為每個(gè)用戶找到最有用的項(xiàng)目。推薦的多樣性和覆蓋率也是衡量推薦推薦質(zhì)量的重要標(biāo)準(zhǔn)。在推薦系統(tǒng)中,多樣性可分為用戶間的多樣性和用戶內(nèi)的多樣性。本文只考慮用戶間的多樣性,即向不同用戶推薦不同項(xiàng)目的能力。本文采用漢明距離(Hamming Distance,HD)來(lái)衡量推薦系統(tǒng)的綜合多樣性。
其中,Qut(top-N)為用戶i和用戶 j的推薦列表top-N中相同項(xiàng)目的數(shù)目。
覆蓋率表示所有用戶推薦列表top-N中的項(xiàng)目占全部項(xiàng)目的比例。
其中,Nd(top-N)表示所有用戶推薦列表top-N中不同項(xiàng)目的個(gè)數(shù)。
本文采用五折交叉驗(yàn)證將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,其中80%用于訓(xùn)練,20%用于測(cè)試。通過(guò)網(wǎng)格搜索的方法找到最優(yōu)參數(shù),當(dāng)λu=0.01,λv=100,a=1,b=0.01,k=200時(shí),CTR模型給出的推薦性能最好。為了更好地與其他幾種基于CTR的模型進(jìn)行對(duì)比,對(duì)于USRCTR模型,本文給定參數(shù) λu=0.01,λv=100,a=1,b=0.01,其中a和b為置信參數(shù)。
4.2.1 λr和λe參數(shù)對(duì)推薦精度的影響
首先給定主題的數(shù)目k=200,并向用戶推薦預(yù)測(cè)評(píng)分排名前20的項(xiàng)目,即top-N=20,使用網(wǎng)格搜索的方法來(lái)分析不同用戶社會(huì)關(guān)系參數(shù)λr和系數(shù)參數(shù)λe對(duì)USRCTR推薦的準(zhǔn)確率和召回率的影響,來(lái)獲得更好的項(xiàng)目推薦。當(dāng)λr=0時(shí),USRCTR模型退化為CTR模型,即沒(méi)有考慮用戶社會(huì)關(guān)系。當(dāng)λr=∞時(shí),用戶社會(huì)關(guān)系向量si與用戶潛在特征向量ui相等。在其他情況下,USRCTR模型將主題模型和用戶社會(huì)關(guān)系網(wǎng)絡(luò)融合到矩陣分解,并預(yù)測(cè)用戶評(píng)分。
圖3(a)展示隨著λr和λe值變化時(shí),準(zhǔn)確率變化的3D圖,圖3(b)是其輪廓圖。由圖3可以發(fā)現(xiàn),λr的最優(yōu)值較小,而λe的最優(yōu)值較大,當(dāng)λr=0.1和λe=1 000時(shí),USRCTR模型的準(zhǔn)確率最高。
圖4(a)展示隨著λr和λe的值變化時(shí),召回率變化的3D圖,圖4(b)是其輪廓圖。由圖4可以發(fā)現(xiàn),當(dāng)λr=0.1和λe=1 000時(shí),USRCTR模型的召回率最高。
然后,在給定λr=0.1和λe=1 000的情況下,來(lái)分析主題數(shù)目K=50,K=100和K=200時(shí),其對(duì)推薦前20項(xiàng)目的準(zhǔn)確率和召回率的影響。
圖3 λr和λe對(duì)準(zhǔn)確率的影響
圖4 λr和λe對(duì)召回率的影響
從圖5可以發(fā)現(xiàn),隨著K的增加,準(zhǔn)確率和召回率顯著提高。這說(shuō)明,隨著K的增加,更有意義的主題將會(huì)被發(fā)現(xiàn),這有助于提高用戶興趣模型的粒度,從而提高推薦的性能。和CTRSTE作為參照方法,因?yàn)镃TRSMF、LACTR和CTRSTE這三種模型都是利用社會(huì)信息來(lái)提高CTR模型,CTR模型是這幾種模型的基礎(chǔ)。
圖5 K對(duì)準(zhǔn)確率與召回率的影響
將參數(shù)K=200,λv=0.01,λr=100,λr=0.1,λe=1 000,推薦項(xiàng)目的數(shù)量Top-N設(shè)置為Top-N=5,10,20和50來(lái)比較USRCTR模型和其他基于CTR的模型的精確度、召回率、多樣性和覆蓋率。
圖6表明,隨著推薦項(xiàng)目的數(shù)量Top-N增加,各個(gè)模型的準(zhǔn)確率降低,而召回率明顯提高,USRCTR模型比其他四種模型在準(zhǔn)確率和召回率上表現(xiàn)更加優(yōu)異。當(dāng)Top-N=50時(shí),USRCTR模型比CTR模型,在準(zhǔn)確率上提高2.1%,在召回率上提高4.6%。在Lastfm網(wǎng)站上,大多數(shù)用戶將喜歡的藝術(shù)家(項(xiàng)目)與朋友在線共享。實(shí)驗(yàn)結(jié)果表明,用戶的社會(huì)關(guān)系網(wǎng)絡(luò)在推薦預(yù)測(cè)中扮演重要角色。
圖7表明,隨著推薦項(xiàng)目的數(shù)量Top-N增加,各模型
4.2.2 與其他基于CTR模型的比較
圖6 USRCTR與其他模型在準(zhǔn)確率和召回率上的比較
圖7 USRCTR與其他模型在多樣性和覆蓋率上的比較
通過(guò)使用項(xiàng)目推薦的不同質(zhì)量評(píng)價(jià)指標(biāo)——準(zhǔn)確率、召回率、多樣性和覆蓋率來(lái)比較USRCTR模型和其他四種基于CTR的模型。本文將CTR、CTRSMF、LACTR推薦項(xiàng)目多樣性,即漢明距離略有減少,而各模型的推薦項(xiàng)目覆蓋率顯著提高。CTR模型在推薦項(xiàng)目多樣性和覆蓋率上的表現(xiàn)要優(yōu)于其他幾種模型,即CTR模型給用戶推薦項(xiàng)目的種類較多,推薦多樣新穎的可能性要大。USCTR雖然在推薦的多樣性和覆蓋率上效果不如CTR,但總體表現(xiàn)穩(wěn)定,比其他幾種基于CTR的模型要好。
4.2.3 時(shí)間復(fù)雜度分析
本模型USRCTR與CTR模型都是采用LDA方法進(jìn)行主題建模,因此與傳統(tǒng)矩陣分解不同,時(shí)間復(fù)雜度更高。根據(jù)USRCTR學(xué)習(xí)過(guò)程中的更新規(guī)則,對(duì)于每次迭代,更新η的時(shí)間復(fù)雜度為O(KL),其中K是潛在因素的空間維度,L是用戶社交網(wǎng)絡(luò)中社會(huì)關(guān)系的總數(shù)。對(duì)于每次迭代,更新用戶社會(huì)關(guān)系矩陣S={si|i=1,2,…,I}的時(shí)間復(fù)雜度是O(KL),其他變量更新的時(shí)間復(fù)雜度與CTR模型相同。對(duì)于用戶潛在因素矩陣U,時(shí)間復(fù)雜度是O(IK3+IJK2),對(duì)于項(xiàng)目潛在因素矩陣V,時(shí)間復(fù)雜度也是O(IK3+IJK2),其中I是用戶的數(shù)量,J是項(xiàng)目的數(shù)量。在每一次迭代過(guò)程中,與CTR模型相比,USRCTR模型只增加了額外的時(shí)間復(fù)雜度O(KL)。由于用戶社交網(wǎng)絡(luò)通常是稀疏的,這意味著L可被視為I的常數(shù)倍數(shù)。因此,USRCTR模型的額外時(shí)間成本是最小的。
學(xué)習(xí)參數(shù)的收斂閾值設(shè)定為1E-4,設(shè)置K=50,K=200分別得到CTR模型和USRCTR模型時(shí)間成本。
圖8表明,USRCTR模型每次迭代運(yùn)行的時(shí)間比CTR模型略長(zhǎng),但USRCTR模型達(dá)到收斂條件所需的迭代次數(shù)比CTR模型要小。因此,USRCTR模型的總體時(shí)間復(fù)雜度比CTR模型要低。
圖8 CTR模型和USRCTR模型時(shí)間成本的比較
本文提出融入用戶社會(huì)關(guān)系的協(xié)同主題回歸模型,可以為社交媒體系統(tǒng)提供項(xiàng)目推薦。通過(guò)將用戶社會(huì)關(guān)系網(wǎng)絡(luò)引入?yún)f(xié)同主題回歸模型,USRCTR將用戶-項(xiàng)目反饋信息、項(xiàng)目?jī)?nèi)容和用戶社會(huì)網(wǎng)絡(luò)關(guān)系集成到基于分層貝葉斯模型的算法框架中,并完成項(xiàng)目推薦。實(shí)驗(yàn)結(jié)果表明,USRCTR模型與其他幾種基于CTR的模型相比,推薦結(jié)果更好,預(yù)測(cè)評(píng)分更具解釋性。
今后工作中,希望研究更多先進(jìn)的方法,如深度學(xué)習(xí),使得USRCTR更好地挖掘用戶之間的關(guān)系對(duì)用戶評(píng)分的影響,以提高推薦效果。