鄭 茹
(山西大學(xué),太原 030006)
在互聯(lián)網(wǎng)及相關(guān)技術(shù)迅猛發(fā)展的時代,越來越多的網(wǎng)民在進(jìn)行網(wǎng)購的同時也積極推動著電子商務(wù)化的進(jìn)程。但對普通客戶而言,在享受網(wǎng)購的同時,對接觸到的海量信息也感到迷茫,如淘寶網(wǎng)上數(shù)千萬以上的各類商品。面對如此多的信息,傳統(tǒng)的搜索方式已經(jīng)無法幫助客戶快速定位感興趣的商品,而個性化推薦就是為解決網(wǎng)上信息過載問題而提出的一種智能代理系統(tǒng)。它能根據(jù)客戶的興趣特點(diǎn)和購買行為,向客戶推薦其感興趣的信息和商品,目的是增加商品的交叉銷售,提高企業(yè)銷售額;能夠增強(qiáng)客戶購買興趣,構(gòu)建客戶的忠誠度,提高客戶對網(wǎng)站的訪問頻率和依賴程度[1]?,F(xiàn)在的網(wǎng)站運(yùn)用多種技術(shù)向客戶推薦產(chǎn)品,已給電商領(lǐng)域帶來了巨大利潤,但在數(shù)據(jù)挖掘過程中仍存在不少問題,推薦效果仍待提高。在各種方法的研究中,協(xié)同過濾和基于內(nèi)容的推薦是運(yùn)用最為廣泛的兩種推薦方法。但現(xiàn)今的研究過程中存在未考慮用戶隨時間變化興趣變化問題及推薦產(chǎn)品陳舊問題,本文將提出新的推薦方法加以解決。
最早研究起源于明尼蘇達(dá)大學(xué)的研究小組對一個電影推薦系統(tǒng)的研究。該研究設(shè)計(jì)系統(tǒng)讓用戶對自己喜歡的電影評分,然后通過分析用戶的評分預(yù)測用戶的興趣,給用戶推薦他們沒有評分但可能會喜歡的電影。1995年美國人工智能協(xié)會上,CMU的Robert等人提出了個性化導(dǎo)航系統(tǒng),同期Marko等人推出LIRA,不久Henry在國際人工智能聯(lián)合大會上提出個性化導(dǎo)航智能體。這三個經(jīng)典的系統(tǒng)標(biāo)志了個性化推薦服務(wù)的開始。而21世紀(jì)初亞馬遜等電商網(wǎng)站的迅速崛起使個性化推薦系統(tǒng)逐步發(fā)展起來。我國是從2000年正式開始此項(xiàng)研究的,雖然起步較晚,但也取得了一定的成果,如路海明等提出的“基于多agent混合智能實(shí)現(xiàn)個性化推薦”、陳國青等人提出的ELCM等。
推薦對象隨應(yīng)用領(lǐng)域的不同而不同。目前推薦系統(tǒng)算法有許多,有學(xué)者將其分為被動式和主動式推薦。被動式推薦有分類瀏覽式和關(guān)鍵詞查詢式。主動式推薦有基于內(nèi)容、協(xié)同過濾、混合等推薦。隨著數(shù)據(jù)量的不斷增加,對數(shù)據(jù)挖掘要求也不斷提高,許多學(xué)者結(jié)合計(jì)算機(jī)領(lǐng)域知識對推薦方法進(jìn)行改進(jìn),也提出了基于圖的推薦、基于矩陣分解的推薦等?,F(xiàn)今研究最常用的是基于內(nèi)容推薦和協(xié)同過濾,本文也是基于此二者推薦的改進(jìn)。
基于內(nèi)容推薦的基本思想:利用信息與用戶興趣相似性來過濾信息。簡單說就是為用戶推薦和該用戶之前喜歡的項(xiàng)目在內(nèi)容上相似的其他項(xiàng)目。基于內(nèi)容的推薦算法需要首先提取項(xiàng)目的內(nèi)容特征,并把提取的內(nèi)容特征與用戶模型中的用戶興趣愛好進(jìn)行匹配,最后把匹配度較高的項(xiàng)目推薦給用戶[2]。一般用向量空間模型,該模型先抽取描述項(xiàng)目的關(guān)鍵詞,后利用TF-IDF計(jì)算關(guān)鍵詞權(quán)重。此技術(shù)運(yùn)用時可以脫機(jī)進(jìn)行,所以響應(yīng)時間短。缺點(diǎn)是對項(xiàng)目內(nèi)容的依賴性過高,難區(qū)分商品品質(zhì)和風(fēng)格,缺乏新穎性。
協(xié)同過濾的基本思路:首先找到與此客戶有相似興趣的其他客戶,然后將他們感興趣的商品內(nèi)容給此客戶進(jìn)行推薦。其分為基于用戶的協(xié)同過濾和基于項(xiàng)目的協(xié)同過濾?;谟脩舻膮f(xié)同過濾假設(shè),一個用戶會喜歡和他有相似興趣愛好的用戶喜歡的項(xiàng)目。推薦過程:用戶c,系統(tǒng)通過其歷史記錄如:瀏覽行為、評分記錄等。利用函數(shù)為用戶c尋找n個最相似的用戶作為他的最近鄰居集,且將c的n個最近鄰居感興趣而c未表現(xiàn)出興趣的項(xiàng)目列為候選推薦集,推薦系統(tǒng)用算法計(jì)算為c推薦的候選集中項(xiàng)目的推薦度或評分,選取推薦度排序最高的N個項(xiàng)目為對c的推薦集。而基于項(xiàng)目的協(xié)同過濾推薦算法,其主要思想是通過“用戶一項(xiàng)目”矩陣來識別不同項(xiàng)目之間的關(guān)聯(lián),利用這一關(guān)聯(lián)計(jì)算用戶對特定項(xiàng)目的評分從而產(chǎn)生推薦集。該算法比較好地解決了傳統(tǒng)協(xié)同過濾算法的可擴(kuò)展性問題。
傳統(tǒng)的推薦研究忽略以下幾個問題的存在:(1)用戶-項(xiàng)目矩陣稀疏問題。(2)用戶興趣隨時間的變化而變化的情況。(3)項(xiàng)目內(nèi)容陳舊問題。為解決以上三個問題,本文從以下幾個方面入手:(1)用戶—項(xiàng)目稀疏導(dǎo)致的推薦精度問題可以通過用戶聚類改善。(2)用戶興趣的改變可以在傳統(tǒng)協(xié)同過濾方法中引入非線性遺忘函數(shù),將用戶對項(xiàng)目屬性的興趣度通過函數(shù)形式表示出來。(3)以往的推薦中不考慮項(xiàng)目內(nèi)容問題,會使推薦內(nèi)容陳舊,新穎性不大,所以,可以引入產(chǎn)品生命周期的計(jì)算方式,對已進(jìn)入衰退期的產(chǎn)品進(jìn)行剔除,不僅可以緩解U-I矩陣稀疏帶來的問題還能提高推薦新穎性。
本文提出考慮時間因素的推薦方法,具體推薦步驟如下:Step1-建立用戶興趣模型:首先構(gòu)建用戶—評分矩陣、商品—屬性矩陣,通過在計(jì)算中加入非線性遺忘函數(shù)得到考慮時間因素的用戶-商品屬性評分矩陣。Step2—通過person相關(guān)系數(shù)計(jì)算出用戶間相似性,運(yùn)用社區(qū)劃分法劃分用戶社區(qū),形成帶有社區(qū)性質(zhì)的用戶關(guān)系網(wǎng)。Step3—通過產(chǎn)品生命周期計(jì)算方式對已進(jìn)入衰退期的產(chǎn)品進(jìn)行剔除。Step4—在每個社區(qū)內(nèi)通過評分預(yù)測算法為每位用戶形成項(xiàng)目推薦集。Step5—向用戶推薦排在推薦集前10位的產(chǎn)品。
伴隨推薦系統(tǒng)的產(chǎn)生,推薦系統(tǒng)衡量指標(biāo)也隨之產(chǎn)生。通常,定性描述的指標(biāo)需要對用戶調(diào)查才能獲得,主要方式是調(diào)查問卷。定量實(shí)驗(yàn)預(yù)測準(zhǔn)確度,計(jì)算指標(biāo)通過離線實(shí)驗(yàn)獲得。根據(jù)推薦目的,推薦算法為用戶估計(jì)特定項(xiàng)目的評分,或?yàn)橛脩舢a(chǎn)生一個推薦項(xiàng)目列表。前者常采用平均絕對誤差、均方根誤差評價估計(jì)的準(zhǔn)確性,后者多采用信息檢索領(lǐng)域常用的查全率和查準(zhǔn)率評價推薦列表的準(zhǔn)確性。而一些推薦系統(tǒng)也會通過評分預(yù)測、Top-K推薦、覆蓋率等評價推薦系統(tǒng)發(fā)覺長尾能力。我們可以運(yùn)用以上指標(biāo)來衡量本文提出的新方法。
參考文獻(xiàn):
[1]姜有輝,高琳琦.電子商場中的個性化推薦研究與應(yīng)用[J].商場現(xiàn)代化,2006,(6):121-122.
[2]楊博,趙鵬飛.推薦算法綜述[J].山西大學(xué)學(xué)報,2011,(6):337-350.