辛賢龍
結(jié)合情感信息的個性化推薦算法
辛賢龍
隨著互聯(lián)網(wǎng)的快速發(fā)展,在面臨“信息過載”情況下推薦系統(tǒng)扮演者越來越重要的角色。而在很多場景下人類決策的過程中,情感同樣發(fā)揮非常重要的作用,因此,情感信息在推薦系統(tǒng)中不容忽視。而實(shí)際用戶決策過程中,情感對于不同用戶的重要程度也是不一樣的。針對情感對于用戶的重要程度研究,提出用熵來度量不同情感對于用戶的重要性,并結(jié)合傳統(tǒng)的協(xié)同過濾算法,提出一種結(jié)合情感信息的個性化推薦算法,最后,通過實(shí)驗(yàn)跟傳統(tǒng)的協(xié)同過濾算法進(jìn)行對比發(fā)現(xiàn)準(zhǔn)確度有所提高。
個性化推薦協(xié)同過濾情感信息熵
隨著大數(shù)據(jù)時代的到來,“信息過載[1]”問題日益突出。面臨著大量的信息,用戶必須花費(fèi)大量的時間尋找所需的信息,傳統(tǒng)的信息查找方式越來越難以滿足用戶的需求。個性化推薦系統(tǒng)在20世紀(jì)90年代作為一個獨(dú)立的概念被提出來,在其中發(fā)揮了重大的作用。個性化推薦是根據(jù)用戶和項(xiàng)目的特征以及用戶的歷史行為來預(yù)測他對未知事物的喜好程度,然后向用戶推薦用戶可能感興趣的。推薦算法通常被分為以下幾類:協(xié)同過濾推薦算法[2]、基于內(nèi)容的推薦算法[3]、混合推薦算法[4]。
其中協(xié)同過濾推薦算法是目前應(yīng)用最廣的推薦算法,而其又可以分為兩類:基于用戶的協(xié)同過濾算法[5]和基于項(xiàng)目的協(xié)同過濾算法[6]?;谟脩舻膮f(xié)同過濾算法通過研究用戶的歷史行為來計(jì)算用戶之間的相似性,最后利用用戶之間的相似性來做推薦,這個方法的思想是相似興趣的用戶購買行為也比較相似?;谏唐返膮f(xié)同過濾算法則是通過商品的被購買記錄來計(jì)算商品之間的相似性,以之來推推薦,其思想是用戶往往會購買比較相關(guān)的商品。
近年來隨著自然語言技術(shù)的快速發(fā)展,從文本中提取情感信息作為一個熱點(diǎn)被越來越多的人所關(guān)注。推薦系統(tǒng)本質(zhì)上也只是輔助用戶決策的工具,如何在推薦系統(tǒng)中結(jié)合人類的情感分析逐漸受到關(guān)注。
2010年, ACM Recsys’10(ACM Recommender Systems 2010)主辦了一個面向“上下文感知的電影推薦”的專題研討會,提出了3個方向的上下文感知推薦任務(wù),基于情緒的推薦就是其中之一。Yue Shi[7]等提出基于特別情感的電影相似性計(jì)算方法,提高了預(yù)測精度。YasharMoshfeghi[8]等提出了一種從電影用戶評論中抽取情感信息,然后結(jié)合電影的一些特征來計(jì)算各個特征影響用戶偏好的概率的基于模型的協(xié)同過濾算法。
王立才[9]等提出結(jié)合情緒信息的改進(jìn)的協(xié)同過濾算法,它運(yùn)用“用戶-情感”矩陣計(jì)算用戶情感相似性,結(jié)合傳統(tǒng)的相似性計(jì)算方法來做用戶相似度計(jì)算,并作出推薦。
情感作為人類特有的心理特征,在用戶決策中扮演著很重要的角色。在結(jié)合到推薦算法過程中,情感與隨著web2.0到來而興起的標(biāo)簽有著類似的一面,有學(xué)者通過標(biāo)簽將原來的用戶-項(xiàng)目二部圖轉(zhuǎn)換為用戶-項(xiàng)目-標(biāo)簽三部圖來生成推薦,提高了算法性能,并一定程度上緩解了冷啟動問題。在結(jié)合情感信息進(jìn)行推薦時也可以利用轉(zhuǎn)化為三部圖的思想,但由于情感
與標(biāo)簽的差異性,計(jì)算的時候會有很大的區(qū)別。
本文通過“用戶-情感”矩陣和“情感-情感”關(guān)聯(lián)矩陣計(jì)算情感權(quán)重,通過“用戶-項(xiàng)目”打分矩陣計(jì)算用戶情感打分,通過信息熵[10]計(jì)算情感對于用戶的重要性,得到用戶對項(xiàng)目的情感評分預(yù)測,再結(jié)合傳統(tǒng)的協(xié)同過濾算法得到最終的預(yù)測。
2.1 數(shù)據(jù)定義
2.2 算法描述
結(jié)合情感信息的個性化推薦算法核心算法如下:
(1) 基于“項(xiàng)目-情感”矩陣 M計(jì)算“情感-情感”關(guān)聯(lián)矩陣S
(2) 根據(jù)“項(xiàng)目-情感矩陣”M和“情感-情感”S關(guān)聯(lián)矩陣計(jì)算“情感權(quán)重-項(xiàng)目”矩陣W
(3) 根據(jù)“用戶-項(xiàng)目”打分矩陣以及情感權(quán)重矩陣計(jì)算“用戶-情感”打分矩陣
(4) 通過信息熵計(jì)算情感對于用戶的重要性
(5) 綜合以上的通過公式計(jì)算得到用戶對項(xiàng)目的預(yù)測評分
(6) 將預(yù)測分值最高的N個推薦給用戶
2.3 項(xiàng)目的情感權(quán)重計(jì)算
每一個項(xiàng)目都有相對應(yīng)的一組情感特征,但每個情感特征對于項(xiàng)目的貢獻(xiàn)確實(shí)不同的,為了體現(xiàn)不同情感對項(xiàng)目的權(quán)重差異,需要對項(xiàng)目情感進(jìn)行建模。
項(xiàng)目情感矩陣M(包含n個項(xiàng)目和k個情感特征),如果
用余弦相似度公式計(jì)算i情感和k情感的相似性如公式(1):
根據(jù)項(xiàng)目情感矩陣 M 以及情感-情感關(guān)聯(lián)矩陣 S 計(jì)算情感i在項(xiàng)目j中的權(quán)重為公式(2):
2.4 用戶情感評分
由于用戶個體背景、性格等各方面的差異,每個用戶對不同情感都有不同的偏好程度。由于每個項(xiàng)目包含各種情感,因此可以通過“用戶-項(xiàng)目”打分矩陣來計(jì)算用戶對應(yīng)各個不同情感的評分。有一種簡單的方法,通過用戶對項(xiàng)目的打分間接得到對情感的打分,然后直接把用戶對項(xiàng)目的打分作為用戶對情感的打分,把用戶對包含某情感的商品的評分的平均分?jǐn)?shù)作為用戶對該情感的打分。但此方法在應(yīng)用的時候會發(fā)現(xiàn)一個問題。假設(shè),用戶U對一個包含情感i的項(xiàng)目j評分為90(該項(xiàng)目中情感權(quán)重為80%),用戶U對另一個包含情感i的項(xiàng)目k評分也為90(該項(xiàng)目中情感權(quán)重為10%,按以上方法計(jì)算,這用戶-項(xiàng)目打分對用戶-情感打分的影響是一樣的,直觀上,此方法用在這里顯然有點(diǎn)問題。需要加上一個權(quán)重因子度量用戶對項(xiàng)目的打分對用戶情感打分的影響度,公式(2)計(jì)算得到的W是一個很理想的因子,顯然權(quán)重Wij越大,用戶對項(xiàng)目j的打分對情感打分影響越大,反之越小,如公式(3):表示用戶U對項(xiàng)目j的打分,表示用戶U打分的項(xiàng)目中包含情感e的集合,表示用戶對情感i的打分。
2.5 基于情感信息的用戶評分預(yù)測
根據(jù)以上的情感對項(xiàng)目的權(quán)重以及用戶對情感的評分公式(4):是根據(jù)(3)計(jì)算得到的用戶u對情感i的評分,是根據(jù)(2)計(jì)算得到的情感i對于項(xiàng)目j的權(quán)重。
2.6 情感的信息熵由于每個項(xiàng)目都有一組情感特征,那么用戶對項(xiàng)目的打分就可以映射到情感上去。同一個情感特征可能會在很多項(xiàng)目中出現(xiàn),由上面的計(jì)算我們知道,不同的情感的項(xiàng)目的權(quán)重有差異,用戶對情感的偏好也有差異。我們可以直接利用這些預(yù)測用戶項(xiàng)目評分。但考慮到一個問題,以上用戶對于情感的偏好是利用”用戶-項(xiàng)目”計(jì)算而得的。如果用戶對某個情感毫無偏好,那么該情感在該用于對項(xiàng)目評分的時候完全不發(fā)揮作用,觀察公式(3),會發(fā)現(xiàn)趨向于用戶的平均評分值,導(dǎo)致(4)計(jì)算得到的預(yù)測值趨向于平均值,不能體現(xiàn)出用戶對此情感的不在意性。相反的,如果某個情感對用戶非常重要,對出現(xiàn)該情感的項(xiàng)目的評分都很高,而公式(4)也體現(xiàn)不出此重要性。由于個人的背景、性格、認(rèn)知等方面的不同,不同的情感對于不同的個人重要程度是不一致的,在計(jì)算的時候,需要刻畫出這種不一致性。
從信息論的角度看,熵代表系統(tǒng)的混亂程度,可以體現(xiàn)情感對于不同用戶的重要性差異?;谝陨系目紤]公式(5):
其中是用戶u對包含情感e的項(xiàng)目打分為x的比例,Pui反應(yīng)了打分的分布狀況,越大,表明打分越混亂,那么情感的重要性就比較低,越小就表明打分一致性越高,那么相應(yīng)情感的重要性就比較高。
2.7 改進(jìn)的基于情感信息的用戶評分預(yù)測
2.8 結(jié)合情感信息與傳統(tǒng)協(xié)同過濾算法的用戶評分預(yù)測
本文的實(shí)驗(yàn)平臺是PC(cpu 2.6GHz,內(nèi)存2GB),windows 7操作系統(tǒng)(X86)。
3.1 數(shù)據(jù)集
本文采用公開的 Moviepilot數(shù)據(jù)集,是 2010年CAMRa2010提供的,包含105137個用戶對25058部電影的4544409條評分,評分分?jǐn)?shù)為0到100之間的整數(shù)。數(shù)據(jù)集中的項(xiàng)目都對應(yīng)一組情感特征值,共有6712個情感標(biāo)記,分布在16個維度上。最終經(jīng)過數(shù)據(jù)清洗以及去噪后,篩選出共12562個用戶對2315部電影的338607個打分?jǐn)?shù)據(jù)作為實(shí)驗(yàn)的數(shù)據(jù)集。為了檢驗(yàn)實(shí)驗(yàn)效果,本文跟傳統(tǒng)的基于項(xiàng)目的協(xié)同過濾算法進(jìn)行了對比。
3.2 評價指標(biāo)
本文采用MAE(Mean Absolute Error)[11]作為評價指標(biāo),MAE表示預(yù)測值與實(shí)際評價值的偏差,MAE越小,評價越準(zhǔn)確。設(shè)預(yù)測的評分集合表示為,對應(yīng)的實(shí)際評分集合表示為,則為公式(7):
3.3 實(shí)驗(yàn)結(jié)果分析
為了檢驗(yàn)本文提出的結(jié)合情感信息的個性化推薦算法,本實(shí)驗(yàn)和傳統(tǒng)基于項(xiàng)目的協(xié)同過濾算法進(jìn)行了對比,其中計(jì)算項(xiàng)目之間的相關(guān)性時用的是Pearson相關(guān)系數(shù),而鄰居數(shù)目也調(diào)整到了最佳值。實(shí)驗(yàn)分為兩部分,第一部分通過調(diào)節(jié)值,比較不同值得情況下本文提出的算法與傳統(tǒng)的協(xié)同過濾算法 MAE方面的表現(xiàn)。第二部門,調(diào)整到最優(yōu)值,通過調(diào)節(jié)訓(xùn)練集/測試集的比例,來測試兩者在不同稀疏度情況下MAE的情況,如圖1所示:
圖1 左右的比重。
圖2
可以發(fā)現(xiàn)隨著訓(xùn)練集/測試集的比例的降低,即訓(xùn)練數(shù)據(jù)越來越少,結(jié)合情感信息的個性化推薦算法的效果相對比較穩(wěn)定,而傳統(tǒng)的協(xié)同過濾算法隨著訓(xùn)練集的稀疏,到了一定 的臨界點(diǎn)后,效果急劇下降。這可能是因?yàn)?,隨著訓(xùn)練集數(shù)據(jù)的稀疏,經(jīng)典的協(xié)同過濾算法在計(jì)算鄰居時產(chǎn)生的偏差越來越大,從而導(dǎo)致推薦效果的下降。而本文提出的方法中,由于結(jié)合了情感信息,數(shù)據(jù)稀疏性帶來的影響相對少很多。
本文提出的結(jié)合情感信息的個性化推薦算法,通過“項(xiàng)目-情感”矩陣以及“情感-情感”關(guān)聯(lián)矩陣計(jì)算項(xiàng)目中情感的權(quán)重,通過“用戶-項(xiàng)目”打分矩陣計(jì)算“用戶-情感”打分,然后再根據(jù)情感對于用戶的信息熵來衡量情感對于不同用戶的重要性,最后結(jié)合傳統(tǒng)的協(xié)同過濾算法得到最條件。在Moviepilot數(shù)據(jù)集熵的實(shí)驗(yàn)結(jié)果表明,利用本文算法預(yù)測的評分效果優(yōu)于傳統(tǒng)的協(xié)同過濾算法。
[1] 藺豐奇,劉益.網(wǎng)絡(luò)化信息環(huán)境信息過載問題研究綜述[J].情報科學(xué),2007:36-48.
[2] 馬宏偉,張光衛(wèi),李鵬.協(xié)同過濾推薦算法綜述[J]. 小型微型計(jì)算機(jī)系統(tǒng)2009,30(7):1282-1288.
[3] 劉建國,周濤,汪秉宏.個性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,19(1):1-15
[4] GediminasAdomavicius, Alexander Tuzhilin. Toward the nextgeneration of recommender systems: A survey ofthestate-of-the-art and possible extensions[J]. IEEE Transactions on Knowledge and Data Engineering,2005,17(6): 734-749.
[5] Wang J,DeVries A P, Reinders M J T.Unifying user-based and item-based collaborative filtering approaches by similarity fusion[C].//Proceeding of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval .New York:ACM,2006:501-508:
[6] Sarwar B,KarypisG,KonstanJ,et al. Item based collaborative filtering recommendation algorithms[C].//Proceeding of the 10th International Conference on World Wide Web.New York:ACM,2001:285-295.
[7] Yue Shi, Martha Larson, Alan Hanjalic. Mining mood-specific movie similarity with matrix factorization forcontext-aware recommendation[C].//Proceedings of the Workshop on Context-Aware Movie Recommendation at the 4th ACM Conference on Recommender Systems, New York, USA, 2010: 34-40.
[8] YasharMoshfeghi, Benjamin Piwowarski, Joemon M.Jose. Handling data sparsity in collaborative filteringusing emotion and semantic based features[C].//In Proceedings of the 34thinternational ACM SIGIR conferenceon Research and development in Information,Beijing, China, 2011: 625-634.
[9] Wang LC, Meng XW, Zhang. YJ, Shi YC. New approaches to mood-based hybrid collaborative filtering[C].//In Proceeding of the RecSys2010 Workshop on CAMRa 2010. New York: ACM Press, 2010.
[10] 王衛(wèi)平,楊磊.結(jié)合最大熵模型和tag特征的混合推薦系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2011,20(7):65-68.
[11] 劉建國, 周濤, 郭強(qiáng), 等. 個性化推薦系統(tǒng)評價方法綜述[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué), 2009, 6(3): 1-10.
A Personalized Recommendation Algorithm Based on Emotion Information
Xin Xianlong
(School of Computer Science, Fudan University, Shanghai 200120, China)
As the develop of the Internet, recommendation play a more and more important role in the face of “Information Overload”. In the course of human decision-making in many scenes, emotions play a very important role. So in recommender systems,emotion information can’t be ignored. Actually in the process of human decision-making, the importance of emotion for different users is very different. This paper focuses on the importance of emotion for different users, and presents a method that use tentrop to measure the importance of the emotion, then proposes a personalized recommendation Algorithm based on Mood Information. Experiments show the accuracy of this algorithm is higher than the traditional collaborative filter ingal gorithm.
Personalized Recommendation; Collaborative Filtering; Mood Information; Entropy
TP311
:A
1007-757X(2014)04-0038-03
2014.03.28)
辛賢龍,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,碩士,研究方向:數(shù)據(jù)挖掘、推薦系統(tǒng),上海,200120