張獻(xiàn)忠
摘要:用戶活躍度和商品流行度對(duì)個(gè)性化推薦系統(tǒng)性能影響越來越大。而以前的推薦算法很少考慮這兩個(gè)因素的作用。該文根據(jù)商品流行度對(duì)計(jì)算用戶相似度的影響,提出了一種改進(jìn)的計(jì)算用戶相似度的方法。同時(shí),又根據(jù)用戶活躍度對(duì)目標(biāo)用戶預(yù)測評(píng)分的影響,提出了一種改進(jìn)目標(biāo)用戶計(jì)算預(yù)測評(píng)分的方法。經(jīng)實(shí)驗(yàn)驗(yàn)證,改進(jìn)后的推薦算法在準(zhǔn)確率、召回率和覆蓋率等性能指標(biāo)都優(yōu)于傳統(tǒng)的推薦算法。因此,改進(jìn)后的算法在提高推薦系統(tǒng)的性能上具有較好的理論研究和應(yīng)用價(jià)值。
關(guān)鍵詞:商品流行度;用戶活躍度;協(xié)同過濾;相似度;推薦
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)32-7641-03
目前,常用的個(gè)性化推薦算法是基于協(xié)同過濾的推薦算法。它又分為兩種:基于用戶的協(xié)同過濾算法和基于項(xiàng)目的協(xié)同過濾算法。而基于用戶的協(xié)同過濾算法使用更為普遍。基于用戶的協(xié)同過濾算法原理是如果用戶對(duì)一些項(xiàng)目的評(píng)分比較相似,則他們對(duì)其它項(xiàng)目的評(píng)分也比較相似。其實(shí)現(xiàn)過程是根據(jù)用戶以往對(duì)一些項(xiàng)目的評(píng)價(jià),以及其他與該用戶具有類似興趣的用戶給一些項(xiàng)目的評(píng)價(jià),將一些新的項(xiàng)目推薦給用戶,或者預(yù)測對(duì)用戶有價(jià)值的項(xiàng)目[1]。基于用戶的協(xié)同過濾推薦的過程分為三個(gè)步驟:評(píng)分表示、鄰居形成和推薦生成。
1 基于用戶的協(xié)同過濾算法存在的問題
實(shí)踐發(fā)現(xiàn),該算法在用于個(gè)性化推薦過程中會(huì)存在以下一些問題[2]:
1) 隨著用戶和商品數(shù)量的不斷增加,參與評(píng)分的數(shù)據(jù)規(guī)模也越來越大。如果把所有的用戶評(píng)分記錄數(shù)據(jù)都參與計(jì)算,會(huì)大大增加計(jì)算兩個(gè)用戶間相似度的時(shí)間,必然會(huì)導(dǎo)致系統(tǒng)推薦性能的降低,因而也就無法完成及時(shí)推薦。
2) 越是熱門的商品越容易得到推薦,而使得冷門的商品無法被推薦。如果推薦的商品是熱門商品,那么推薦系統(tǒng)的意義也不大。同時(shí)喜歡某個(gè)冷門商品的用戶的相似度可能會(huì)更高一點(diǎn)。
3) 算法中沒有考慮到用戶活躍度和推薦結(jié)果間的關(guān)系。而事實(shí)上,人們更加傾向于有豐富購物經(jīng)驗(yàn)的VIP用戶的推薦。但該算法中沒有體現(xiàn)VIP用戶的推薦權(quán)值。
2 算法改進(jìn)思路
2.1 用戶活躍度和商品流行度對(duì)推薦結(jié)果的影響
用戶行為對(duì)于商務(wù)網(wǎng)站來說是很重要的,如購買或未購買,購買后的反饋信息是正面的還是負(fù)面的,等等。推薦系統(tǒng)的目的是要找出用戶可能感興趣的商品,而不是對(duì)這個(gè)商品會(huì)評(píng)多少分的問題。因?yàn)橹挥兄烙脩粲袥]有購買的意向,才會(huì)有用戶給這個(gè)商品打多少分[3]。因此,在選擇相似用戶過程中,應(yīng)該盡可能選擇都對(duì)某類或某幾類商品有正面反饋的用戶。正是基于這樣的考慮,可以對(duì)傳統(tǒng)的基于用戶的協(xié)同過濾算法進(jìn)行修改。修改的思路是從兩方面考慮,一是用戶相似度的計(jì)算方法,二是計(jì)算用戶興趣度時(shí)適當(dāng)考慮VIP用戶的權(quán)值。
用戶活躍度是用來反映用戶參與電子商務(wù)系統(tǒng)的積極程度??梢园奄徺I記錄相對(duì)較多的用戶設(shè)定為VIP用戶,而把新用戶稱為不活躍的用戶。不同用戶喜歡的商品流行度也是不同的。新用戶喜歡瀏覽熱門商品,而老用戶會(huì)更傾向于瀏覽冷門的商品[4]。
2.2 推薦公式的改進(jìn)
推薦算法中推薦公式的改進(jìn)分兩個(gè)方面,一個(gè)是計(jì)算相似度的改進(jìn),另一個(gè)是計(jì)算用戶對(duì)商品的興趣度的改進(jìn)。
1) 計(jì)算相似度的改進(jìn)。為提高推薦算法的性能,必須要考慮長尾分布的影響。也就是說,要盡可能降低兩個(gè)用戶喜歡的商品中包含有熱門商品的作用。比如說,兩個(gè)同時(shí)購買了《新華字典》的用戶并不能說明他們的興趣相同。因?yàn)椤缎氯A字典》是一本經(jīng)常使用的工具書,絕大多數(shù)國內(nèi)用戶都會(huì)購買并使用過。但如果這兩個(gè)用戶都同時(shí)購買了《ASP.NET程序設(shè)計(jì)》這本書時(shí),那可以認(rèn)為他們的興趣比較相近,因?yàn)橹挥袑W(xué)計(jì)算機(jī)軟件或應(yīng)用專業(yè)的才會(huì)去買這本書。為此,可以在計(jì)算相似度時(shí)消除雙方都購買了熱門商品的影響[5]。對(duì)于給定用戶u和用戶v,計(jì)算相似度的公式可以改進(jìn)如下:
4 總結(jié)
綜上所述,商品流行度和用戶活躍度對(duì)個(gè)性化推薦系統(tǒng)的性能產(chǎn)生一定的影響。在設(shè)計(jì)推薦算法時(shí)必須很好的考慮這兩個(gè)因素。盡可能減少熱門商品對(duì)用戶產(chǎn)生的影響,同時(shí)要加強(qiáng)VIP用戶對(duì)推薦系統(tǒng)的作用。
參考文獻(xiàn):
[1] 章晉波.推薦系統(tǒng)中協(xié)同過濾算法的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2009.
[2] 楊芳.一種改進(jìn)的協(xié)同過濾推薦算法[J].河北工業(yè)大學(xué)學(xué)報(bào),2010(3).
[3] Meadow C T Bert R. Boyce B R.Kraft D H. Text Information Retrieval Systems Third Edition[M].Emerald Group Publishing Limited.,2007.
[4] Manning C D Raghavan P. Schutze H.Introduction to Information Retrieva [M].England:Cambridge University Press,2008
[5] 曹一鳴.協(xié)同過濾推薦瓶頸問題綜述[J].軟件,2012,33(12).
摘要:用戶活躍度和商品流行度對(duì)個(gè)性化推薦系統(tǒng)性能影響越來越大。而以前的推薦算法很少考慮這兩個(gè)因素的作用。該文根據(jù)商品流行度對(duì)計(jì)算用戶相似度的影響,提出了一種改進(jìn)的計(jì)算用戶相似度的方法。同時(shí),又根據(jù)用戶活躍度對(duì)目標(biāo)用戶預(yù)測評(píng)分的影響,提出了一種改進(jìn)目標(biāo)用戶計(jì)算預(yù)測評(píng)分的方法。經(jīng)實(shí)驗(yàn)驗(yàn)證,改進(jìn)后的推薦算法在準(zhǔn)確率、召回率和覆蓋率等性能指標(biāo)都優(yōu)于傳統(tǒng)的推薦算法。因此,改進(jìn)后的算法在提高推薦系統(tǒng)的性能上具有較好的理論研究和應(yīng)用價(jià)值。
關(guān)鍵詞:商品流行度;用戶活躍度;協(xié)同過濾;相似度;推薦
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)32-7641-03
目前,常用的個(gè)性化推薦算法是基于協(xié)同過濾的推薦算法。它又分為兩種:基于用戶的協(xié)同過濾算法和基于項(xiàng)目的協(xié)同過濾算法。而基于用戶的協(xié)同過濾算法使用更為普遍。基于用戶的協(xié)同過濾算法原理是如果用戶對(duì)一些項(xiàng)目的評(píng)分比較相似,則他們對(duì)其它項(xiàng)目的評(píng)分也比較相似。其實(shí)現(xiàn)過程是根據(jù)用戶以往對(duì)一些項(xiàng)目的評(píng)價(jià),以及其他與該用戶具有類似興趣的用戶給一些項(xiàng)目的評(píng)價(jià),將一些新的項(xiàng)目推薦給用戶,或者預(yù)測對(duì)用戶有價(jià)值的項(xiàng)目[1]?;谟脩舻膮f(xié)同過濾推薦的過程分為三個(gè)步驟:評(píng)分表示、鄰居形成和推薦生成。
1 基于用戶的協(xié)同過濾算法存在的問題
實(shí)踐發(fā)現(xiàn),該算法在用于個(gè)性化推薦過程中會(huì)存在以下一些問題[2]:
1) 隨著用戶和商品數(shù)量的不斷增加,參與評(píng)分的數(shù)據(jù)規(guī)模也越來越大。如果把所有的用戶評(píng)分記錄數(shù)據(jù)都參與計(jì)算,會(huì)大大增加計(jì)算兩個(gè)用戶間相似度的時(shí)間,必然會(huì)導(dǎo)致系統(tǒng)推薦性能的降低,因而也就無法完成及時(shí)推薦。
2) 越是熱門的商品越容易得到推薦,而使得冷門的商品無法被推薦。如果推薦的商品是熱門商品,那么推薦系統(tǒng)的意義也不大。同時(shí)喜歡某個(gè)冷門商品的用戶的相似度可能會(huì)更高一點(diǎn)。
3) 算法中沒有考慮到用戶活躍度和推薦結(jié)果間的關(guān)系。而事實(shí)上,人們更加傾向于有豐富購物經(jīng)驗(yàn)的VIP用戶的推薦。但該算法中沒有體現(xiàn)VIP用戶的推薦權(quán)值。
2 算法改進(jìn)思路
2.1 用戶活躍度和商品流行度對(duì)推薦結(jié)果的影響
用戶行為對(duì)于商務(wù)網(wǎng)站來說是很重要的,如購買或未購買,購買后的反饋信息是正面的還是負(fù)面的,等等。推薦系統(tǒng)的目的是要找出用戶可能感興趣的商品,而不是對(duì)這個(gè)商品會(huì)評(píng)多少分的問題。因?yàn)橹挥兄烙脩粲袥]有購買的意向,才會(huì)有用戶給這個(gè)商品打多少分[3]。因此,在選擇相似用戶過程中,應(yīng)該盡可能選擇都對(duì)某類或某幾類商品有正面反饋的用戶。正是基于這樣的考慮,可以對(duì)傳統(tǒng)的基于用戶的協(xié)同過濾算法進(jìn)行修改。修改的思路是從兩方面考慮,一是用戶相似度的計(jì)算方法,二是計(jì)算用戶興趣度時(shí)適當(dāng)考慮VIP用戶的權(quán)值。
用戶活躍度是用來反映用戶參與電子商務(wù)系統(tǒng)的積極程度??梢园奄徺I記錄相對(duì)較多的用戶設(shè)定為VIP用戶,而把新用戶稱為不活躍的用戶。不同用戶喜歡的商品流行度也是不同的。新用戶喜歡瀏覽熱門商品,而老用戶會(huì)更傾向于瀏覽冷門的商品[4]。
2.2 推薦公式的改進(jìn)
推薦算法中推薦公式的改進(jìn)分兩個(gè)方面,一個(gè)是計(jì)算相似度的改進(jìn),另一個(gè)是計(jì)算用戶對(duì)商品的興趣度的改進(jìn)。
1) 計(jì)算相似度的改進(jìn)。為提高推薦算法的性能,必須要考慮長尾分布的影響。也就是說,要盡可能降低兩個(gè)用戶喜歡的商品中包含有熱門商品的作用。比如說,兩個(gè)同時(shí)購買了《新華字典》的用戶并不能說明他們的興趣相同。因?yàn)椤缎氯A字典》是一本經(jīng)常使用的工具書,絕大多數(shù)國內(nèi)用戶都會(huì)購買并使用過。但如果這兩個(gè)用戶都同時(shí)購買了《ASP.NET程序設(shè)計(jì)》這本書時(shí),那可以認(rèn)為他們的興趣比較相近,因?yàn)橹挥袑W(xué)計(jì)算機(jī)軟件或應(yīng)用專業(yè)的才會(huì)去買這本書。為此,可以在計(jì)算相似度時(shí)消除雙方都購買了熱門商品的影響[5]。對(duì)于給定用戶u和用戶v,計(jì)算相似度的公式可以改進(jìn)如下:
4 總結(jié)
綜上所述,商品流行度和用戶活躍度對(duì)個(gè)性化推薦系統(tǒng)的性能產(chǎn)生一定的影響。在設(shè)計(jì)推薦算法時(shí)必須很好的考慮這兩個(gè)因素。盡可能減少熱門商品對(duì)用戶產(chǎn)生的影響,同時(shí)要加強(qiáng)VIP用戶對(duì)推薦系統(tǒng)的作用。
參考文獻(xiàn):
[1] 章晉波.推薦系統(tǒng)中協(xié)同過濾算法的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2009.
[2] 楊芳.一種改進(jìn)的協(xié)同過濾推薦算法[J].河北工業(yè)大學(xué)學(xué)報(bào),2010(3).
[3] Meadow C T Bert R. Boyce B R.Kraft D H. Text Information Retrieval Systems Third Edition[M].Emerald Group Publishing Limited.,2007.
[4] Manning C D Raghavan P. Schutze H.Introduction to Information Retrieva [M].England:Cambridge University Press,2008
[5] 曹一鳴.協(xié)同過濾推薦瓶頸問題綜述[J].軟件,2012,33(12).
摘要:用戶活躍度和商品流行度對(duì)個(gè)性化推薦系統(tǒng)性能影響越來越大。而以前的推薦算法很少考慮這兩個(gè)因素的作用。該文根據(jù)商品流行度對(duì)計(jì)算用戶相似度的影響,提出了一種改進(jìn)的計(jì)算用戶相似度的方法。同時(shí),又根據(jù)用戶活躍度對(duì)目標(biāo)用戶預(yù)測評(píng)分的影響,提出了一種改進(jìn)目標(biāo)用戶計(jì)算預(yù)測評(píng)分的方法。經(jīng)實(shí)驗(yàn)驗(yàn)證,改進(jìn)后的推薦算法在準(zhǔn)確率、召回率和覆蓋率等性能指標(biāo)都優(yōu)于傳統(tǒng)的推薦算法。因此,改進(jìn)后的算法在提高推薦系統(tǒng)的性能上具有較好的理論研究和應(yīng)用價(jià)值。
關(guān)鍵詞:商品流行度;用戶活躍度;協(xié)同過濾;相似度;推薦
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)32-7641-03
目前,常用的個(gè)性化推薦算法是基于協(xié)同過濾的推薦算法。它又分為兩種:基于用戶的協(xié)同過濾算法和基于項(xiàng)目的協(xié)同過濾算法。而基于用戶的協(xié)同過濾算法使用更為普遍。基于用戶的協(xié)同過濾算法原理是如果用戶對(duì)一些項(xiàng)目的評(píng)分比較相似,則他們對(duì)其它項(xiàng)目的評(píng)分也比較相似。其實(shí)現(xiàn)過程是根據(jù)用戶以往對(duì)一些項(xiàng)目的評(píng)價(jià),以及其他與該用戶具有類似興趣的用戶給一些項(xiàng)目的評(píng)價(jià),將一些新的項(xiàng)目推薦給用戶,或者預(yù)測對(duì)用戶有價(jià)值的項(xiàng)目[1]。基于用戶的協(xié)同過濾推薦的過程分為三個(gè)步驟:評(píng)分表示、鄰居形成和推薦生成。
1 基于用戶的協(xié)同過濾算法存在的問題
實(shí)踐發(fā)現(xiàn),該算法在用于個(gè)性化推薦過程中會(huì)存在以下一些問題[2]:
1) 隨著用戶和商品數(shù)量的不斷增加,參與評(píng)分的數(shù)據(jù)規(guī)模也越來越大。如果把所有的用戶評(píng)分記錄數(shù)據(jù)都參與計(jì)算,會(huì)大大增加計(jì)算兩個(gè)用戶間相似度的時(shí)間,必然會(huì)導(dǎo)致系統(tǒng)推薦性能的降低,因而也就無法完成及時(shí)推薦。
2) 越是熱門的商品越容易得到推薦,而使得冷門的商品無法被推薦。如果推薦的商品是熱門商品,那么推薦系統(tǒng)的意義也不大。同時(shí)喜歡某個(gè)冷門商品的用戶的相似度可能會(huì)更高一點(diǎn)。
3) 算法中沒有考慮到用戶活躍度和推薦結(jié)果間的關(guān)系。而事實(shí)上,人們更加傾向于有豐富購物經(jīng)驗(yàn)的VIP用戶的推薦。但該算法中沒有體現(xiàn)VIP用戶的推薦權(quán)值。
2 算法改進(jìn)思路
2.1 用戶活躍度和商品流行度對(duì)推薦結(jié)果的影響
用戶行為對(duì)于商務(wù)網(wǎng)站來說是很重要的,如購買或未購買,購買后的反饋信息是正面的還是負(fù)面的,等等。推薦系統(tǒng)的目的是要找出用戶可能感興趣的商品,而不是對(duì)這個(gè)商品會(huì)評(píng)多少分的問題。因?yàn)橹挥兄烙脩粲袥]有購買的意向,才會(huì)有用戶給這個(gè)商品打多少分[3]。因此,在選擇相似用戶過程中,應(yīng)該盡可能選擇都對(duì)某類或某幾類商品有正面反饋的用戶。正是基于這樣的考慮,可以對(duì)傳統(tǒng)的基于用戶的協(xié)同過濾算法進(jìn)行修改。修改的思路是從兩方面考慮,一是用戶相似度的計(jì)算方法,二是計(jì)算用戶興趣度時(shí)適當(dāng)考慮VIP用戶的權(quán)值。
用戶活躍度是用來反映用戶參與電子商務(wù)系統(tǒng)的積極程度??梢园奄徺I記錄相對(duì)較多的用戶設(shè)定為VIP用戶,而把新用戶稱為不活躍的用戶。不同用戶喜歡的商品流行度也是不同的。新用戶喜歡瀏覽熱門商品,而老用戶會(huì)更傾向于瀏覽冷門的商品[4]。
2.2 推薦公式的改進(jìn)
推薦算法中推薦公式的改進(jìn)分兩個(gè)方面,一個(gè)是計(jì)算相似度的改進(jìn),另一個(gè)是計(jì)算用戶對(duì)商品的興趣度的改進(jìn)。
1) 計(jì)算相似度的改進(jìn)。為提高推薦算法的性能,必須要考慮長尾分布的影響。也就是說,要盡可能降低兩個(gè)用戶喜歡的商品中包含有熱門商品的作用。比如說,兩個(gè)同時(shí)購買了《新華字典》的用戶并不能說明他們的興趣相同。因?yàn)椤缎氯A字典》是一本經(jīng)常使用的工具書,絕大多數(shù)國內(nèi)用戶都會(huì)購買并使用過。但如果這兩個(gè)用戶都同時(shí)購買了《ASP.NET程序設(shè)計(jì)》這本書時(shí),那可以認(rèn)為他們的興趣比較相近,因?yàn)橹挥袑W(xué)計(jì)算機(jī)軟件或應(yīng)用專業(yè)的才會(huì)去買這本書。為此,可以在計(jì)算相似度時(shí)消除雙方都購買了熱門商品的影響[5]。對(duì)于給定用戶u和用戶v,計(jì)算相似度的公式可以改進(jìn)如下:
4 總結(jié)
綜上所述,商品流行度和用戶活躍度對(duì)個(gè)性化推薦系統(tǒng)的性能產(chǎn)生一定的影響。在設(shè)計(jì)推薦算法時(shí)必須很好的考慮這兩個(gè)因素。盡可能減少熱門商品對(duì)用戶產(chǎn)生的影響,同時(shí)要加強(qiáng)VIP用戶對(duì)推薦系統(tǒng)的作用。
參考文獻(xiàn):
[1] 章晉波.推薦系統(tǒng)中協(xié)同過濾算法的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2009.
[2] 楊芳.一種改進(jìn)的協(xié)同過濾推薦算法[J].河北工業(yè)大學(xué)學(xué)報(bào),2010(3).
[3] Meadow C T Bert R. Boyce B R.Kraft D H. Text Information Retrieval Systems Third Edition[M].Emerald Group Publishing Limited.,2007.
[4] Manning C D Raghavan P. Schutze H.Introduction to Information Retrieva [M].England:Cambridge University Press,2008
[5] 曹一鳴.協(xié)同過濾推薦瓶頸問題綜述[J].軟件,2012,33(12).