吳佳芬
摘 要 本文介紹了網(wǎng)絡(luò)推薦的算法思想、幫助讀者了解這個研究領(lǐng)域。在介紹了推薦系統(tǒng)的概念和定義之后,重點(diǎn)介紹了基于內(nèi)容的互聯(lián)網(wǎng)推薦算法。
關(guān)鍵詞 推薦系統(tǒng) 推薦算法 互聯(lián)網(wǎng)
中圖分類號:TP391.3 文獻(xiàn)標(biāo)識碼:A
1推薦系統(tǒng)概念
互聯(lián)網(wǎng)規(guī)模和覆蓋面的迅速增長帶來了信息超載問題。過量信息的呈現(xiàn)使得用戶付出過高的代價來搜索對自己有用的信息,從而降低了信息使用的效率。推薦系統(tǒng)作為一種信息過濾的重要手段,是當(dāng)前解決信息超載問題非常有潛力的方法。推薦系統(tǒng)與以搜索引擎為代表的信息檢索系統(tǒng)最大的區(qū)別在于:(1)搜索注重結(jié)果之間的關(guān)系和排序,推薦則還研究用戶模型和用戶的喜好,基于社會網(wǎng)絡(luò)進(jìn)行個性化的計(jì)算;(2)搜索的進(jìn)行由用戶主導(dǎo),包括輸入查詢詞和選擇結(jié)果,結(jié)果不好用戶會修改查詢再次搜索,而推薦系統(tǒng)是由系統(tǒng)主導(dǎo)用戶的瀏覽順序,引導(dǎo)用戶發(fā)現(xiàn)需要的結(jié)果。
推薦系統(tǒng)的定義較多,目前被廣泛引用的推薦系統(tǒng)的非形式化概念是Resnick和Varian給出的:“它是利用電子商務(wù)網(wǎng)站向客戶提供商品信息和建議,幫助用戶決定應(yīng)該購買什么產(chǎn)品,模擬銷售人員幫助客戶完成購買過程”。
推薦系統(tǒng)有3個重要的模塊:用戶建模模塊、推薦對象建模模塊、推薦算法模塊。推薦系統(tǒng)把用戶模型中興趣需求信息和推薦對象模型中的特征信息匹配,同時使用相應(yīng)的推薦算法進(jìn)行計(jì)算篩選,找到用戶可能感興趣的推薦對象,然后推薦給用戶。
2效用矩陣
在推薦系統(tǒng)應(yīng)用當(dāng)中,存在兩類元素,一類稱為用戶,另一類稱為項(xiàng)。用戶會偏愛某些項(xiàng),這些偏好信息必須要從數(shù)據(jù)中梳理出來。數(shù)據(jù)本身會表示成一個效用矩陣,該矩陣中每個用戶-項(xiàng)所對應(yīng)的元素值代表的是當(dāng)前用戶對當(dāng)前項(xiàng)的喜好程度。這些喜好程度值來自一個有序集合,比如1~5的整數(shù)集合,這些整數(shù)代表用戶對項(xiàng)的評級。假設(shè)該矩陣是稀疏的,即大部分元素都未知。一個未知的評級也暗示著人們對當(dāng)前用戶對當(dāng)前項(xiàng)的喜好信息還不清楚。推薦系統(tǒng)的目標(biāo)是預(yù)測效用矩陣的空白元素。
3基于內(nèi)容的推薦
基于內(nèi)容的推薦方法根據(jù)用戶已經(jīng)選擇的對象,從推薦對象中選擇其他特征相似的對象作為推薦結(jié)果。這一推薦策略首先提取推薦對象的內(nèi)容特征,和用戶模型中的用戶興趣偏好匹配,匹配度較高的推薦對象就可以作為推薦結(jié)果推薦給用戶。
3.1文檔集的處理
對于文檔對象內(nèi)容特征(content(s))的選取常用的做法是使用TF-IDF值。另一方面,用戶的興趣偏好模型userprofile(c)取決于所用機(jī)器學(xué)習(xí)方法,常用的有決策樹、貝葉斯分類算法、基于向量的表示方法等。結(jié)合對象內(nèi)容特征和用戶興趣偏好模型,計(jì)算二者之間的相似性是該推薦策略中的一個關(guān)鍵部分,如下所示就是計(jì)算該相似性的一個函數(shù):
其中score的計(jì)算方法有很多種,例如使用最簡單的向量夾角余弦的距離計(jì)算方法,按所得值的大小排序,將最靠前的若干個對象作為結(jié)果呈現(xiàn)給用戶。
3.2基于Tag的特征獲取
基于內(nèi)容的推薦策略的關(guān)鍵就是用戶模型描述和推薦對象內(nèi)容特征描述。目前對文本內(nèi)容進(jìn)行特征提取方法比較成熟,如瀏覽頁面的推薦、新聞推薦等。但當(dāng)前網(wǎng)上的多媒體信息大量涌現(xiàn),而對這些多媒體數(shù)據(jù)進(jìn)行特征提取還有待技術(shù)支持。以圖像數(shù)據(jù)為例,圖像的問題在于它們的數(shù)據(jù)通常由像素數(shù)組構(gòu)成,而這些數(shù)據(jù)無法給出任何有關(guān)它們特征的信息。人們可以計(jì)算像素的簡單屬性,比如整幅圖像中紅色的平均數(shù)據(jù),但很少會有用戶去查找紅色圖像或?qū)t色圖像有特別的愛好。
通過邀請用戶采用詞語或短語對圖像進(jìn)行標(biāo)記,則可以從這些標(biāo)記中獲得有關(guān)圖像特征的信息。因此,某個紅色為主的圖像可能被標(biāo)記為“Tiananmen Square”,而另一個圖像被標(biāo)記為“sunset at Malibu”。這兩者之間的區(qū)別很難通過已有的圖像分析程序來發(fā)現(xiàn)。
幾乎任意數(shù)據(jù)都可以基于其標(biāo)簽來發(fā)現(xiàn)特征。一個最早的試圖標(biāo)記大量數(shù)據(jù)的網(wǎng)站是del.icio.us,它邀請用戶來標(biāo)記Web網(wǎng)頁,該網(wǎng)站后來被雅虎收購。這種標(biāo)記的目的是支持一種新的可用的搜索方式,即當(dāng)用戶輸入標(biāo)簽集合作為搜索查詢時,系統(tǒng)會返回采用這些標(biāo)簽來標(biāo)記的Web網(wǎng)頁,在推薦系統(tǒng)中也可以使用這些標(biāo)簽。如果系統(tǒng)發(fā)現(xiàn)用戶檢索或收藏包含某個標(biāo)簽集合的很多網(wǎng)頁,系統(tǒng)就可以將其他包含同樣標(biāo)簽的網(wǎng)頁推薦給他。
參考文獻(xiàn)
[1] 許海玲,吳瀟,李曉東,閻保平,互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報,2009:350-362.
[2] P.Resnick,H.R.Varian,Recommender systems,Commun.ACM,40(1997):56-58.
[3] G.Adomavicius,A.Tuzhilin, Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions, Knowledge and Data Engineering, IEEE Transactions on,17 (2005):734-749.