[摘要] 隨著因特網(wǎng)普遍使用和電子商務(wù)迅猛發(fā)展,推薦系統(tǒng)已成為重要研究領(lǐng)域,人們對(duì)推薦技術(shù)作了廣泛的研究。個(gè)性化的推薦系統(tǒng)以個(gè)性化方式向用戶推薦商品,幫助用戶找到他們所需要的商品,并便捷地完成購(gòu)買過(guò)程。介紹了電子商務(wù)系統(tǒng)中的協(xié)同過(guò)濾推薦技術(shù),詳細(xì)分析了基于用戶的協(xié)同過(guò)濾推薦算法,同時(shí)指出了它的優(yōu)點(diǎn)和缺點(diǎn)。
[關(guān)鍵詞] 電子商務(wù) 協(xié)同過(guò)濾 推薦系統(tǒng) 推薦技術(shù)
當(dāng)前,電子商務(wù)系統(tǒng)迅猛發(fā)展,隨之而來(lái)地出現(xiàn)了電子商務(wù)系統(tǒng)中的信息“超載”現(xiàn)象。海量的物品信息無(wú)疑增加了用戶購(gòu)買所需物品的難度,使得用戶很難迅速準(zhǔn)確地找到自己真正中意的商品。為此,許多電子商務(wù)網(wǎng)站引入了推薦系統(tǒng),以提高用戶的點(diǎn)擊率,變網(wǎng)站的瀏覽者為購(gòu)買者,提高用戶購(gòu)買成功率和交叉銷售能力,進(jìn)而提升網(wǎng)站的美譽(yù)度和用戶對(duì)網(wǎng)站的忠誠(chéng)度。所謂電子商務(wù)推薦系統(tǒng)是在了解和學(xué)習(xí)用戶的需求與喜好的基礎(chǔ)上為用戶提供商品信息和建議,模擬商家向用戶推薦其可能感興趣的商品,幫助用戶完成購(gòu)買過(guò)程。提供個(gè)性化服務(wù)已經(jīng)成為進(jìn)一步提高網(wǎng)絡(luò)內(nèi)容服務(wù)質(zhì)量急需解決的重要課題之一,也是未來(lái)網(wǎng)絡(luò)內(nèi)容服務(wù)的一個(gè)發(fā)展方向。目前,幾乎所有著名電子商務(wù)網(wǎng)站,諸如亞馬遜、CDNOW、eBay、淘寶網(wǎng)等都采用了各式各樣不同個(gè)性化水平的推薦系統(tǒng)。推薦系統(tǒng)中最核心和關(guān)鍵的是所采用的推薦技術(shù),它決定了推薦系統(tǒng)性能的好壞。因此,加強(qiáng)對(duì)電子商務(wù)系統(tǒng)個(gè)性化推薦技術(shù)研究具有非常重要的實(shí)際意義?,F(xiàn)在,主要的推薦技術(shù)有:基于內(nèi)容推薦、協(xié)同過(guò)濾推薦、基于關(guān)聯(lián)規(guī)則推薦、基于效用推薦、基于知識(shí)推薦和組合推薦。其中,協(xié)同過(guò)濾推薦是應(yīng)用最早和最為成功的技術(shù)之一,而基于用戶的協(xié)同過(guò)濾推薦又是最容易理解的一種技術(shù)。
一、協(xié)同過(guò)濾推薦
協(xié)同過(guò)濾推薦技術(shù)在個(gè)性化推薦系統(tǒng)中應(yīng)用最廣,主要的可分為基于用戶和基于項(xiàng)目的協(xié)同過(guò)濾算法。它一般采用最近鄰技術(shù),利用用戶的歷史喜好信息計(jì)算用戶之間的距離,然后利用目標(biāo)用戶的“最近鄰居”對(duì)商品評(píng)價(jià)的加權(quán)評(píng)價(jià)值來(lái)預(yù)測(cè)目標(biāo)用戶對(duì)特定商品的喜好程度,系統(tǒng)從而根據(jù)這一喜好程度來(lái)對(duì)目標(biāo)用戶進(jìn)行推薦。協(xié)同過(guò)濾最大優(yōu)點(diǎn)是對(duì)推薦對(duì)象沒(méi)有特殊的要求,能處理如音樂(lè)、電影等這樣非結(jié)構(gòu)化的復(fù)雜對(duì)象。
協(xié)同過(guò)濾是基于這樣的假設(shè):為一用戶找到他真正感興趣的內(nèi)容的好方法是首先找到與此用戶有相似興趣的其他用戶,然后將他們感興趣的內(nèi)容推薦給此用戶。基于協(xié)同過(guò)濾的推薦系統(tǒng)可以說(shuō)是從用戶的角度來(lái)進(jìn)行相應(yīng)推薦的,而且是自動(dòng)的,即用戶獲得的推薦是系統(tǒng)從購(gòu)買模式或?yàn)g覽行為等隱式獲得的,不需要用戶努力地找到適合自己興趣的推薦信息,如填寫一些調(diào)查表格等。
協(xié)同過(guò)濾推薦的一般步驟是:
交易數(shù)據(jù)庫(kù)→測(cè)量用戶間相似性→尋找相似用戶→計(jì)算商品的購(gòu)買可能性→根據(jù)購(gòu)買可能性推薦商品。
二、基于用戶的協(xié)同過(guò)濾推薦
1.算法
基于用戶的協(xié)同過(guò)濾是到目前為止實(shí)際應(yīng)用中最為成功的個(gè)性化推薦技術(shù),算法的基本思想是將具有相同愛(ài)好的用戶感興趣的項(xiàng)目推薦給目標(biāo)用戶。假如目標(biāo)用戶對(duì)項(xiàng)目的評(píng)價(jià)與他的“最近鄰居”相似,而目標(biāo)用戶對(duì)某個(gè)項(xiàng)目的評(píng)價(jià)可以從他的“最近鄰居”的評(píng)價(jià)中綜合得到。
基于用戶的協(xié)同過(guò)濾推薦算法主要包括三個(gè)過(guò)程:
(1)表示:建立一個(gè)用戶-項(xiàng)目評(píng)價(jià)矩陣描述用戶對(duì)項(xiàng)目的評(píng)價(jià)。用戶的判斷和偏好明確地表示為一個(gè)m*n的用戶-項(xiàng)目評(píng)價(jià)矩陣R,這里m是用戶數(shù),n是項(xiàng)目數(shù),R=(rij),元素rij表示用戶i對(duì)項(xiàng)目j的評(píng)價(jià)。在電子商務(wù)推薦系統(tǒng)中,元素rij既可表示用戶是否購(gòu)買商品(例如0或者1),也可表示用戶對(duì)商品的偏好程度(例如評(píng)分從1到10)。
(2)生成“鄰居”:通過(guò)計(jì)算所有用戶對(duì)之間的相似度形成“鄰居”。計(jì)算系統(tǒng)中目標(biāo)用戶與其他所有用戶的相似度,以找出K個(gè)最相似用戶集—“最近鄰居”。K-“最近鄰居”依相似度排序。
(3)產(chǎn)生推薦:通過(guò)加權(quán)目標(biāo)用戶“鄰居”對(duì)目標(biāo)項(xiàng)目的評(píng)價(jià)產(chǎn)生推薦。根據(jù)“最近鄰居”集,可計(jì)算目標(biāo)用戶對(duì)項(xiàng)目的預(yù)測(cè)評(píng)價(jià)值,進(jìn)而產(chǎn)生推薦。假定用戶i的“最近鄰居”集為Si,用戶i對(duì)項(xiàng)目x的預(yù)測(cè)評(píng)價(jià)值為Pi,x,用戶i和用戶j的相似度為sim(i,j),用戶i和用戶j的平均評(píng)價(jià)值分別為和,那么有:
2.相似度計(jì)算方法
計(jì)算兩個(gè)用戶之間相似度的方法主要有三種:余弦相似度、相關(guān)相似度以及修正的余弦相似度,分述如下:
(1)余弦相似度:每個(gè)用戶的評(píng)分作為n維項(xiàng)目空間中的一個(gè)向量。如果某個(gè)用戶沒(méi)有對(duì)一個(gè)項(xiàng)目評(píng)價(jià),則其默認(rèn)評(píng)價(jià)值設(shè)為0。兩個(gè)用戶i和j之間的相似性通過(guò)計(jì)算兩個(gè)向量和夾角的余弦得到,記為sim(i,j),計(jì)算公式如下:
(2)相關(guān)相似度:在余弦相似度計(jì)算中沒(méi)有考慮不同用戶之間評(píng)價(jià)范圍的差別。相關(guān)相似度通過(guò)減去用戶對(duì)項(xiàng)目平均評(píng)價(jià)值來(lái)克服上述缺陷。兩個(gè)用戶i和j之間的相似性通過(guò)計(jì)算Pearson相關(guān)性得到。假定用戶i和用戶j共同評(píng)價(jià)的項(xiàng)目集合為,那么相關(guān)相似度計(jì)算公式如下:
其中:Ri,x為用戶i對(duì)項(xiàng)目j的評(píng)價(jià)值,和分別為用戶i和用戶j的平均評(píng)價(jià)值。
(3)修正的余弦相似度:在相關(guān)相似度計(jì)算公式中,如果同時(shí)考慮用戶i和用戶j的評(píng)價(jià)項(xiàng)目集合,那么得到修正的余弦相似度計(jì)算公式如下:
其中:Ii和Ij分別為用戶i和用戶j的評(píng)價(jià)項(xiàng)目集合。
3.算法優(yōu)點(diǎn)和缺點(diǎn)
基于用戶的協(xié)同過(guò)濾算法很容易理解,與其他眾多實(shí)際應(yīng)用中的推薦算法相比顯示出較高的推薦精度,它具有如下一些優(yōu)點(diǎn):
(1)能夠過(guò)濾難以進(jìn)行機(jī)器自動(dòng)內(nèi)容分析的信息,如藝術(shù)品,音樂(lè)等。
(2)共享其他人的經(jīng)驗(yàn),避免了內(nèi)容分析的不完全和不精確,并且能夠基于一些復(fù)雜的,難以表述的概念(如信息質(zhì)量、個(gè)人品味)進(jìn)行過(guò)濾。
(3)有推薦新信息的能力??梢园l(fā)現(xiàn)內(nèi)容上完全不相似的信息,用戶對(duì)推薦信息的內(nèi)容事先是預(yù)料不到的,可以發(fā)現(xiàn)用戶潛在的但自己尚未發(fā)現(xiàn)的興趣偏好。
(4)能夠有效的使用其他相似用戶的反饋信息,較少用戶的反饋量,加快個(gè)性化學(xué)習(xí)的速度。
雖然基于用戶的協(xié)同過(guò)濾作為一種典型的推薦技術(shù)有其相當(dāng)?shù)膽?yīng)用,但隨著電子商務(wù)系統(tǒng)規(guī)模的不斷擴(kuò)大,用戶空間和項(xiàng)目空間急劇增長(zhǎng),該算法也存在以下缺點(diǎn):
①稀疏性:在一個(gè)大型電子商務(wù)系統(tǒng)中,用戶涉及的信息量相當(dāng)有限,用戶評(píng)價(jià)項(xiàng)目數(shù)少于總項(xiàng)目數(shù)的10%,造成評(píng)價(jià)矩陣數(shù)據(jù)相當(dāng)稀疏,難以找到相似用戶集,導(dǎo)致推薦效果大大降低。
②冷開始:這個(gè)問(wèn)題可看作是極端嚴(yán)重的稀疏性問(wèn)題。一方面,它很難向新用戶提供個(gè)性化推薦服務(wù);另一方面,在這種情況下,僅有少量評(píng)價(jià)數(shù)據(jù)不可能產(chǎn)生精確推薦。
③擴(kuò)展性:基于用戶的協(xié)同過(guò)濾算法的計(jì)算量隨著用戶和項(xiàng)目的增加而急劇增加,其最壞情況下的計(jì)算復(fù)雜度為O(mn)。對(duì)于一個(gè)典型的具有成百上千萬(wàn)用戶和項(xiàng)目的電子商務(wù)系統(tǒng),算法將遭遇到嚴(yán)重的擴(kuò)展性問(wèn)題。
三、結(jié)論
基于用戶的協(xié)同過(guò)濾雖是一種較為成功的推薦技術(shù),但也存在著稀疏性、冷開始、擴(kuò)展性和精確性問(wèn)題。為了解決這些問(wèn)題,目前常用聚類分析的方法,它或者將“最近鄰居”搜索對(duì)象限制在最相近的聚類中,或者用聚類的質(zhì)心提取推薦結(jié)果,但并不能從根本上解決以上問(wèn)題,這些都有待進(jìn)一步研究。
參考文獻(xiàn):
[1]趙亮胡乃靜張守志:個(gè)性化推薦算法設(shè)計(jì)[J].計(jì)算機(jī)研究與發(fā)展,2002,(8)
[2]趙智時(shí)兵:改進(jìn)的個(gè)性化推薦算法[J].長(zhǎng)春大學(xué)學(xué)報(bào),2005,(6)
[3]潘宇林鴻飛楊志豪:基于用戶聚類的電子商務(wù)推薦系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2008,(4)
[4]宋真真王浩楊靜:協(xié)同過(guò)濾技術(shù)在個(gè)性化推薦中的運(yùn)用[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版) ,2008,(7)