王春才,邢暉,李英韜
(1.長(zhǎng)春理工大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,長(zhǎng)春130022;2.長(zhǎng)春市萬(wàn)易科技有限公司工程研究中心,長(zhǎng)春 130000)
個(gè)性化推薦系統(tǒng)冷啟動(dòng)問(wèn)題研究
王春才1,邢暉1,李英韜2
(1.長(zhǎng)春理工大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,長(zhǎng)春130022;2.長(zhǎng)春市萬(wàn)易科技有限公司工程研究中心,長(zhǎng)春130000)
隨著互聯(lián)網(wǎng)的高速發(fā)展,人們已經(jīng)步入信息過(guò)載的時(shí)代。如何為用戶提供個(gè)性化的服務(wù)是推薦系統(tǒng)的主要任務(wù)之一。然而推薦系統(tǒng)需要大量的用戶歷史行為數(shù)據(jù)作為其做出推薦的重要依據(jù),因此對(duì)于新用戶、新物品以及新系統(tǒng)來(lái)說(shuō),如何在缺少用戶行為數(shù)據(jù)時(shí)對(duì)用戶進(jìn)行個(gè)性化推薦,即為冷啟動(dòng)問(wèn)題[1]。目前冷啟動(dòng)問(wèn)題已成為推薦系統(tǒng)領(lǐng)域的研究熱點(diǎn)之一。
冷啟動(dòng)問(wèn)題主要分為以下三類:
(1)用戶冷啟動(dòng)。用戶冷啟動(dòng)問(wèn)題主要是針對(duì)如何給新用戶提供個(gè)性化的推薦服務(wù)。因?yàn)樾掠脩粼L問(wèn)系統(tǒng)時(shí),系統(tǒng)中并沒(méi)有他的歷史行為數(shù)據(jù),因此他的興趣便無(wú)法通過(guò)分析歷史行為數(shù)據(jù)進(jìn)行預(yù)測(cè),個(gè)性化的推薦也就無(wú)法進(jìn)行。
(2)物品冷啟動(dòng)。物品冷啟動(dòng)所要解決的主要是如何將物品推薦給有可能對(duì)其感興趣的用戶的問(wèn)題。
(3)系統(tǒng)冷啟動(dòng)。系統(tǒng)冷啟動(dòng)所要解決的主要是如何在一個(gè)沒(méi)有用戶,沒(méi)有歷史行為數(shù)據(jù),僅有少數(shù)物品信息的全新的網(wǎng)站上對(duì)用戶進(jìn)行個(gè)性化推薦服務(wù)的問(wèn)題。
對(duì)于以上三種冷啟動(dòng)問(wèn)題,有不同的解決方法,下面將介紹其中的一些具體解決方法。
新注冊(cè)的用戶,往往無(wú)法得知其喜好,只能對(duì)他推薦一些較為熱門的物品,這樣的推薦不是個(gè)性化的推薦。但如果可以知道用戶是女性,便可以給她推薦一般女性所喜愛(ài)的熱門物品,這樣的推薦雖然粒度較粗,但精度已得到很大提升。因此,利用用戶的注冊(cè)信息可以很好地解決新用戶的冷啟動(dòng)問(wèn)題[2]。在很多網(wǎng)站的注冊(cè)過(guò)程中,年齡、性別等一般都是注冊(cè)時(shí)的必填信息。
用戶的注冊(cè)信息可以被分為以下三種:
(1)人口統(tǒng)計(jì)學(xué)信息。如年齡、性別、職業(yè)、民族等。
(2)用戶的興趣描述。通過(guò)用戶對(duì)其興趣的文字描述,可以更加詳細(xì)得知其興趣所在。
(3)由其他網(wǎng)站導(dǎo)入的用戶行為數(shù)據(jù)。例如通過(guò)其他合作網(wǎng)站的賬戶登錄,可以獲取到用戶在其他網(wǎng)站的行為數(shù)據(jù)及社交網(wǎng)絡(luò)數(shù)據(jù)。
利用用戶的注冊(cè)信息,從而進(jìn)行個(gè)性化推薦的一般步驟如下:
(1)獲得用戶的注冊(cè)信息。
(2)通過(guò)用戶的注冊(cè)信息,對(duì)用戶進(jìn)行分類。
(3)將用戶所屬分類中其他用戶感興趣的物品推薦給該用戶。
在實(shí)際情況下,可以將用戶的特征進(jìn)行組合,如性別年齡作為一個(gè)組合,性別職業(yè)作為一個(gè)組合。但需要注意組合的合理性,因?yàn)橛脩舨灰欢ň哂兴械奶卣鳎⑶彝ǔS脩粼谙到y(tǒng)的注冊(cè)時(shí),有一些選項(xiàng)并非必填(如職業(yè)信息)。
如何獲得用戶的興趣,在于觀察用戶對(duì)于不同物品所給出的反饋信息。當(dāng)新用戶注冊(cè)時(shí),通過(guò)為其展示一些物品,讓用戶對(duì)這些物品進(jìn)行反饋,然后通過(guò)分析這些反饋信息,就可以為用戶提供個(gè)性化的推薦。目前很多推薦系統(tǒng)都采取了這種方法以解決用戶冷啟動(dòng)的問(wèn)題。這種方法需要解決的首要問(wèn)題是,如何合理地選擇物品讓用戶進(jìn)行反饋。一般情況下,提供給用戶的物品應(yīng)具有以下幾個(gè)特點(diǎn):
(1)物品較熱門。獲得準(zhǔn)確反饋的前提是用戶明白系統(tǒng)展示給自己的物品是什么。通過(guò)展示較為熱門的物品,可以比較準(zhǔn)確地獲取用戶的反饋信息。假如給用戶展示的物品十分冷門,用戶甚至都不知道該物品為何物,便無(wú)法給出準(zhǔn)確的反饋信息。
(2)物品具有代表性。展示具有代表性的物品,可以通過(guò)用戶對(duì)物品的反饋信息將用戶進(jìn)行分類。如果為用戶展示的物品對(duì)用戶的興趣沒(méi)有區(qū)分性,許多用戶都對(duì)該物品感興趣,那么用戶的個(gè)性化需求便難以辨別,個(gè)性化推薦便難以開(kāi)展。
(3)物品多樣性。用戶的興趣是多樣的,因此為了涵蓋用戶更多的興趣點(diǎn),在用戶冷啟動(dòng)時(shí),需要為用戶展示較高覆蓋率的物品集合,這樣所展示的物品才能更好地覆蓋主流的用戶興趣,對(duì)啟動(dòng)并分析用戶的興趣很有幫助。
物品冷啟動(dòng)問(wèn)題主要解決的是如何將新加入系統(tǒng)的物品盡快展示給對(duì)其可能感興趣的用戶。在時(shí)效性很強(qiáng)的網(wǎng)站中,物品冷啟動(dòng)問(wèn)題需要特別重視。因?yàn)榇祟惥W(wǎng)站每時(shí)每刻都有新的物品加入進(jìn)來(lái),而每個(gè)物品都需要盡快展示給用戶。否則一段時(shí)間之后,物品便會(huì)失去時(shí)效性,導(dǎo)致其價(jià)值的降低[3]。
目前兩種主要的推薦算法——基于用戶的協(xié)同過(guò)濾算法和基于物品的協(xié)同過(guò)濾算法,其中基于用戶的協(xié)同過(guò)濾算法對(duì)于物品的冷啟動(dòng)問(wèn)題并不是十分敏感。這主要是因?yàn)榛谟脩舻膮f(xié)同過(guò)濾算法在進(jìn)行推薦時(shí),會(huì)將與用戶最相似的一群用戶所感興趣的物品推薦給該用戶。當(dāng)一個(gè)新物品加入到系統(tǒng)時(shí),總會(huì)有用戶通過(guò)某種途徑對(duì)其產(chǎn)生反饋,由此會(huì)有越來(lái)越多和該用戶興趣相近的用戶便會(huì)在他們的推薦列表中看到新加入的物品。物品冷啟動(dòng)的影響也就不是很明顯。
然而在基于物品的協(xié)同過(guò)濾算法中,物品冷啟動(dòng)的問(wèn)題十分突出。原因是基于物品的協(xié)同過(guò)濾算法的原理是每隔一段時(shí)間(通常為一天),通過(guò)用戶的歷史行為數(shù)據(jù),來(lái)計(jì)算物品之間的相似度,將和用戶所感興趣的物品相似的物品推薦給用戶,并在內(nèi)存中維護(hù)一個(gè)物品相似度矩陣。由于新加入的物品并不在這個(gè)矩陣之中,因此基于物品的協(xié)同過(guò)濾算法便無(wú)法推薦新加入的物品。解決此問(wèn)題的辦法之一是不斷地更新物品相似度矩陣。然而在實(shí)際情況下,用戶的歷史行為數(shù)據(jù)十分龐大,由此計(jì)算物品之間的相似度是一件非常耗時(shí)的事情。另外,新加入的物品倘若無(wú)法對(duì)用戶進(jìn)行展示,用戶便不能對(duì)其產(chǎn)生反饋,通過(guò)用戶歷史行為數(shù)據(jù)便更加計(jì)算不出含有新物品的相似度矩陣。此時(shí),需要利用物品的內(nèi)容信息,以便計(jì)算物品之間的相似度。
物品內(nèi)容信息的種類很多,物品類型不同,內(nèi)容信息也不同。如果物品是圖書(shū),其內(nèi)容信息可以包括書(shū)名、作者、出版社、類型等。一般物品內(nèi)容信息可以通過(guò)向量空間模型來(lái)表示。該模型會(huì)將物品表示為一個(gè)關(guān)鍵詞向量。假如物品是圖書(shū),內(nèi)容信息為書(shū)名、作者等,即可將這些實(shí)體直接用作關(guān)鍵詞向量。如果物品的內(nèi)容信息是文本,則需要引入理解自然語(yǔ)言的相關(guān)技術(shù),將字流變?yōu)樵~流,然后從詞流中抽取實(shí)體,經(jīng)過(guò)和其他重要詞語(yǔ)的組合,形成關(guān)鍵詞集合。最后對(duì)關(guān)鍵詞進(jìn)行排名,計(jì)算每個(gè)關(guān)鍵詞的權(quán)重,生成關(guān)鍵詞向量。
對(duì)物品d,它的關(guān)鍵詞向量可以表示如下:
其中,ei是關(guān)鍵詞,wi是關(guān)鍵詞的權(quán)重。如果物品是文本,可以通過(guò)TF-IDF公式[4]計(jì)算詞的權(quán)重:
在給定物品內(nèi)容信息的關(guān)鍵詞向量后,物品間的內(nèi)容相似度可以通過(guò)向量間的余弦相似度進(jìn)行計(jì)算:
獲得物品內(nèi)容相似度后,就可以通過(guò)基于物品的協(xié)同過(guò)濾算法的思想,為用戶推薦與其感興趣的物品內(nèi)容相似的物品,從而減少物品冷啟動(dòng)對(duì)個(gè)性化推薦的影響。
對(duì)新系統(tǒng)來(lái)說(shuō),往往既沒(méi)有用戶的歷史行為數(shù)據(jù),也沒(méi)有足夠的物品內(nèi)容信息可以用來(lái)計(jì)算準(zhǔn)確的物品間的相似度。因此,為了向用戶提供更好的個(gè)性化推薦,解決新系統(tǒng)的冷啟動(dòng)問(wèn)題,可以采用發(fā)揮專家作用,對(duì)物品進(jìn)行特征標(biāo)注[5]的方法。
以音樂(lè)網(wǎng)站為例。當(dāng)系統(tǒng)中的物品為音樂(lè)時(shí),眾所周知的是,音樂(lè)之間的相似度是比較難以計(jì)算的。首先,因?yàn)橐魳?lè)是多媒體,如果要通過(guò)對(duì)音樂(lè)的音頻進(jìn)行分析,進(jìn)而計(jì)算音樂(lè)之間的相似度,所需要實(shí)現(xiàn)的技術(shù)門檻較高,并且最終所得的計(jì)算結(jié)果也往往難以令人滿意。其次,如果僅僅從音樂(lè)的屬性信息,如音樂(lè)的專輯名、歌手等方面計(jì)算音樂(lè)間的相似度,通常效果也不理想。因?yàn)橐幻枋?,一張專輯往往只有一兩首好歌。為了解決新系統(tǒng)的冷啟動(dòng)問(wèn)題,可以采用的方法是對(duì)物品的各個(gè)維度進(jìn)行特征標(biāo)注。標(biāo)注后每個(gè)物品都可以表示為若干維度的特征向量,之后通過(guò)計(jì)算向量間的相似度即可以得出物品間的相似度。
標(biāo)注的過(guò)程可以是人工的,也可以是人工與機(jī)器學(xué)習(xí)相結(jié)合的。通??梢宰寣<覍?duì)物品先進(jìn)行標(biāo)記,當(dāng)專家標(biāo)記了一定數(shù)量的樣本后,再利用自然語(yǔ)言理解和機(jī)器學(xué)習(xí)技術(shù),通過(guò)分析用戶的歷史行為數(shù)據(jù)以及物品的內(nèi)容信息對(duì)物品進(jìn)行自動(dòng)的標(biāo)記。此外,還可以通過(guò)讓用戶參與到標(biāo)記過(guò)程中,不斷地與系統(tǒng)進(jìn)行反饋,由此達(dá)到持續(xù)改進(jìn)系統(tǒng)的標(biāo)記系統(tǒng)的目的,從而更好地為用戶提供個(gè)性化的推薦服務(wù)。
為改善個(gè)性化推薦系統(tǒng)在新用戶、新物品和新系統(tǒng)時(shí)的冷啟動(dòng)問(wèn)題,本文介紹了多種解決方法,其中針對(duì)新用戶的冷啟動(dòng)問(wèn)題,可以通過(guò)利用用戶注冊(cè)信息或選擇適當(dāng)物品以啟動(dòng)用戶興趣來(lái)解決。針對(duì)物品冷啟動(dòng)問(wèn)題,可以通過(guò)利用物品的內(nèi)容信息來(lái)計(jì)算物品間的相似度,再結(jié)合基于物品的協(xié)同過(guò)濾算法為用戶提供個(gè)性化推薦。對(duì)于新系統(tǒng),則可以通過(guò)對(duì)物品進(jìn)行多維度的特征標(biāo)記來(lái)計(jì)算更為準(zhǔn)確的物品相似度以減少系統(tǒng)冷啟動(dòng)的影響。如何減少冷啟動(dòng)對(duì)個(gè)性化推薦的影響,已成為當(dāng)前推薦系統(tǒng)領(lǐng)域的研究重點(diǎn)。解決冷啟動(dòng)問(wèn)題,不僅需要方法的不斷創(chuàng)新與改善,還應(yīng)重視用戶的參與和反饋。
[1]Francesco Ricci,Lior Rokach,Bracha Shapira et al.Recommender systems handbook[M].Berlin:Springer,2011:461-462.
[2]丘珂瑋.融合用戶注冊(cè)信息的協(xié)同過(guò)濾推薦算法[D].南寧:廣西師范學(xué)院,2014.
[3]沈云斐,沈國(guó)強(qiáng),蔣麗華,等.基于時(shí)效性的Web頁(yè)面?zhèn)€性化推薦模型的研究[J].計(jì)算機(jī)工程,2006.7,32(13):80-81.
[4]HC Wu,RPW Luk,KF Wong,et al.Interpreting TF-IDF term weights as making relevance decisions[J].Acm Transactions on Information Systems,2008,26(3):55-59.
[5]徐雁斐,張亮,劉煒.基于協(xié)同標(biāo)記的個(gè)性化推薦[J].計(jì)算機(jī)應(yīng)用與軟件,2008.1,25(1):9-11.
Personalized Recommendation;Cold Start;Recommendation System;Collaborative Filtering
Research on the Cold Start in Personalized Recommendation Systems
WANG Chun-cai1,XING Hui1,LI Ying-tao2
(1.College of Computer Science and Technology,Changchun University of Science and Technology,Changchun 130022;2.Engineering Research Center,Changchun Why-e Science and Technology Co.,Ltd.,Changchun 130000)
1007-1423(2015)29-0036-04
10.3969/j.issn.1007-1423.2015.29.009
王春才(1974-),男,吉林梅河口人,正高級(jí)工程師,副教授,研究方向?yàn)閿?shù)據(jù)挖掘
邢暉(1990-),男,山西代縣人,碩士研究生,研究方向?yàn)閿?shù)據(jù)庫(kù)系統(tǒng)
李英韜(1972-),男,吉林吉農(nóng)人,碩士,高級(jí)工程師,研究方向?yàn)橹腔鄢鞘?/p>
2015-09-29
2015-10-10
介紹個(gè)性化推薦系統(tǒng)的冷啟動(dòng)問(wèn)題,分析解決冷啟動(dòng)問(wèn)題的多種方案,如利用用戶的注冊(cè)信息、選擇適當(dāng)物品以啟動(dòng)用戶興趣、利用物品內(nèi)容信息,發(fā)揮專家作用,為解決推薦系統(tǒng)的冷啟動(dòng)問(wèn)題提供一定的參考。
個(gè)性化推薦;冷啟動(dòng);推薦系統(tǒng);協(xié)同過(guò)濾
長(zhǎng)春市科技計(jì)劃項(xiàng)目(No.14JR002)、國(guó)家科技支撐計(jì)劃項(xiàng)目(No.2013BAH07F00)
Introduces the cold start in personalized recommendation systems,analyzes several ways to solve the cold start,such as using the register information,starting user's interest with appropriate item,using the content information of item and expert's function,which provides reference for solving the cold start in recommendation systems.