(北京印刷學(xué)院 北京 102600)
1.研究背景
當(dāng)前社會(huì)是一個(gè)信息過(guò)載(information overload)的社會(huì),為了解決這種問(wèn)題,人們發(fā)明了搜索引擎。雖然搜索引擎可以有效幫助用戶獲取其需要的信息,但它也有局限性,在大多數(shù)場(chǎng)合,用戶并不明確自己需要的信息,搜索引擎也就不能發(fā)揮其最大的作用。
推薦系統(tǒng),就是為了填補(bǔ)搜索引擎的缺陷而產(chǎn)生的。它以用戶的歷史行為為基礎(chǔ),將用戶的喜好和興趣分析透徹,主動(dòng)地將用戶感興趣的結(jié)果反饋給用戶,而不需要用戶主動(dòng)描述自己所需要的信息。
2.國(guó)內(nèi)外研究現(xiàn)狀
1992年,Goldberg第一次引入了協(xié)同過(guò)濾的思想,1997年Resnick首次在文獻(xiàn)中正式提出了推薦系統(tǒng)這個(gè)詞匯,他定義了推薦系統(tǒng)是“利用電子商務(wù)網(wǎng)站向客戶提供商品信息和建議,幫助用戶決定應(yīng)該購(gòu)買(mǎi)什么產(chǎn)品,仿照銷(xiāo)售人員向客戶推薦商品幫助他們完成購(gòu)買(mǎi)過(guò)程。”這一定義也被沿用至今。
1.推薦系統(tǒng)概述
推薦系統(tǒng)是存在于內(nèi)容平臺(tái)網(wǎng)站中,網(wǎng)站通過(guò)系統(tǒng)向用戶推薦商品信息,幫助用戶決定應(yīng)該選擇什么,或向他們推薦他們可能會(huì)需要的產(chǎn)品,來(lái)幫助用戶完成購(gòu)買(mǎi)行為。
為了解決信息過(guò)載而造成的時(shí)間浪費(fèi),個(gè)性化推薦系統(tǒng)此而產(chǎn)生。該系統(tǒng)是設(shè)立在基于大量數(shù)據(jù)基礎(chǔ)上的一個(gè)高級(jí)商務(wù)智能平臺(tái),幫助電商網(wǎng)站向用戶提供個(gè)性化的解決方案和信息服務(wù)。
推薦系統(tǒng)有三個(gè)重要模塊:用戶建模、推薦對(duì)象建模和推薦算法建模。首先根據(jù)用戶的歷史行為或信息進(jìn)行建模,然后將需要推薦的特征對(duì)象與用戶特征進(jìn)行匹配,通過(guò)某些特定的算法進(jìn)行計(jì)算,將用戶可能會(huì)感興趣的商品推薦給用戶。
2.相關(guān)算法
在構(gòu)成推薦系統(tǒng)的三個(gè)主要模塊中,推薦算法是最關(guān)鍵的。判斷一個(gè)推薦系統(tǒng)是否準(zhǔn)確有效,取決于其是否選用了一個(gè)好的推薦算法。
(1)基于內(nèi)容的推薦(Content-based Recommendation)
基于內(nèi)容的推薦,簡(jiǎn)而言之,是基于用戶以往瀏覽或購(gòu)買(mǎi)過(guò)的商品的特征,并建立起用戶的個(gè)人興趣模型,它將用戶的個(gè)人興趣與物品特征來(lái)進(jìn)行匹配,以推薦用戶可能感興趣的商品。它通常是對(duì)項(xiàng)目本身的內(nèi)容屬性進(jìn)行分析?;趦?nèi)容推薦一般應(yīng)用于基于文本的內(nèi)容推薦,如書(shū)籍、網(wǎng)頁(yè)、新聞等,這些物品通常采用非結(jié)構(gòu)化數(shù)據(jù)來(lái)描述。為了描述這些特征,通常采用特征提取技術(shù)從非結(jié)構(gòu)化的文本中提取關(guān)鍵特征并建立特征向量。
(2)協(xié)同過(guò)濾推薦
協(xié)同過(guò)濾推薦算法主要是利用用戶歷史信息來(lái)為用戶進(jìn)行建模,根據(jù)建模作出推薦的一種算法。根據(jù)不同的實(shí)現(xiàn)方法,可以分為基于記憶的協(xié)同過(guò)濾和基于模型的協(xié)同過(guò)濾。該算法是推薦系統(tǒng)中最成功也是被應(yīng)用最廣泛的算法之一。它是利用記錄用戶各自不同的歷史行為來(lái)計(jì)算用戶與用戶之間的距離,根據(jù)與被評(píng)估用戶的最近鄰居用戶對(duì)某件商品的評(píng)價(jià)值來(lái)判斷被評(píng)估用戶對(duì)某件商品的喜好程度,根據(jù)目標(biāo)用戶的偏好程度來(lái)為他們進(jìn)行推薦。
(3)基于關(guān)聯(lián)規(guī)則推薦(Association Rule-based Recommendation)
該算法是以關(guān)聯(lián)規(guī)則為基礎(chǔ),規(guī)則頭是已購(gòu)商品,推薦對(duì)象視為規(guī)則體。關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)銷(xiāo)售過(guò)程中各種不同商品的相關(guān)性。
(4)基于效用推薦(Utility-based Recommendation)
該算法是基于用戶使用項(xiàng)目的效用情況上計(jì)算的,其核心問(wèn)題是創(chuàng)建一個(gè)覆蓋全用戶的效用函數(shù)。因此,用戶數(shù)據(jù)模型是什么樣的,大部分要取決于系統(tǒng)使用什么樣的效用函數(shù)。該算法的優(yōu)點(diǎn)是它可以考慮非產(chǎn)品的性質(zhì),如供應(yīng)商的可靠性和產(chǎn)品的可用性。
(5)基于知識(shí)推薦(Knowledge-based Recommendation)
該算法并不需要用戶偏好和需要的數(shù)據(jù)來(lái)支持,更像是一種推理技術(shù)。效用知識(shí)(Functional Knowledge)是一種為了滿足某類(lèi)特定用戶而需求的某種項(xiàng)目的知識(shí),它可以解釋用戶需求和系統(tǒng)推薦之間的關(guān)系。
(6)組合推薦
由于上述所有算法都有缺陷,所以在日常工作中最常用的是組合推薦(Hybrid Recommendation),根據(jù)某一問(wèn)題的實(shí)際情況將多種推薦算法組合在一起使用,可以通過(guò)組合后彌補(bǔ)或避免其中單個(gè)推薦系統(tǒng)的缺點(diǎn),提高推薦系統(tǒng)的性能。
1.亞馬遜
著名的電商網(wǎng)站亞馬遜是個(gè)性化推薦系統(tǒng)的頂級(jí)應(yīng)用者和推廣者,被RWW(讀寫(xiě)網(wǎng))稱(chēng)為“推薦系統(tǒng)之王”。其最主要的是個(gè)性化商品推薦列表和相關(guān)商品的推薦列表。它采用協(xié)同過(guò)濾技術(shù),可以準(zhǔn)確分析每個(gè)用戶購(gòu)買(mǎi)的情況,主動(dòng)向用戶推薦,并根據(jù)用戶的歷史行為,給出某個(gè)用戶可能喜歡的書(shū)籍或商品供其選擇。據(jù)美國(guó)著名的科技博客網(wǎng)站Venture Beat統(tǒng)計(jì),亞馬遜有約35%的銷(xiāo)售額來(lái)自于其推薦系統(tǒng)。
2.今日頭條
今日頭條的推薦系統(tǒng)實(shí)際上是建立一個(gè)三維變量函數(shù),其所描述的內(nèi)容是用戶對(duì)內(nèi)容的滿意度。這三個(gè)維度分別是內(nèi)容、用戶特征、環(huán)境特征。將這三個(gè)維度結(jié)合起來(lái),系統(tǒng)能夠得出一個(gè)計(jì)算結(jié)果,用來(lái)預(yù)測(cè)推薦內(nèi)容在某一場(chǎng)景下是否會(huì)得到用戶的喜歡。
1.用戶滿意度(Customer Satisfaction)
在電子商務(wù)平臺(tái)中,用戶滿意度主要是通過(guò)統(tǒng)計(jì)用戶的行為來(lái)得到,如果用戶購(gòu)買(mǎi)了系統(tǒng)為他們推薦的商品,就說(shuō)明用戶對(duì)推薦結(jié)果是滿意的。此外,用戶的滿意度還可以通過(guò)點(diǎn)擊率、轉(zhuǎn)化率、停留時(shí)間等指標(biāo)來(lái)衡量。
2.預(yù)測(cè)準(zhǔn)確度(Prediction Accuracy)
預(yù)測(cè)準(zhǔn)確度是評(píng)判一個(gè)系統(tǒng)是否能夠預(yù)測(cè)用戶行為的能力,它的主要思想是將推薦算法計(jì)算出的推薦結(jié)果與用戶對(duì)某一商品的真實(shí)喜愛(ài)程度進(jìn)行相似度匹配。該指標(biāo)可以通過(guò)離線計(jì)算得出。
3.覆蓋率(Coverage Rate)
覆蓋率是用來(lái)描述一個(gè)推薦系統(tǒng)能否挖掘出這個(gè)內(nèi)容平臺(tái)網(wǎng)站更多長(zhǎng)尾物品的能力。其定義為推薦系統(tǒng)能夠向用戶推薦出的物品占平臺(tái)中總物品的比例。
網(wǎng)絡(luò)技術(shù)的飛速發(fā)展給人類(lèi)生活帶來(lái)了極大的影響,提供了許多便利,但隨之而來(lái)的信息過(guò)載問(wèn)題也不容小覷。在有限的時(shí)間和資源中,用戶并不希望在浩如煙海的信息中漫無(wú)目的地尋找自己所需要的信息,更希望能夠簡(jiǎn)便高效的找到他們所需要的信息。
推薦系統(tǒng)的本質(zhì)就是猜測(cè)用戶的喜好,并向其推薦,從而幫助他們購(gòu)買(mǎi)。而當(dāng)人們的喜好不斷發(fā)生變化時(shí),推薦系統(tǒng)如何準(zhǔn)確及時(shí)地抓住這些變化并滿足人們實(shí)時(shí)的需求,成了現(xiàn)在個(gè)性化推薦系統(tǒng)急需解決的一大問(wèn)題。