蔡雄峰 艾麗華 丁丁
摘要:協(xié)同過濾算法是推薦系統(tǒng)中最古老的算法之一,同時(shí)也是當(dāng)今推薦系統(tǒng)中使用最廣泛的一種算法。但是在簡(jiǎn)單,效率高的同時(shí),協(xié)同過濾算法還存在數(shù)據(jù)稀疏性,冷啟動(dòng)等一些問題.本文針對(duì)其數(shù)據(jù)稀疏性的問題,提出了一種根據(jù)興趣度預(yù)測(cè)用戶未評(píng)分項(xiàng)目的方法。最后通過基于Netflix數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,該方法能夠更好的處理稀疏矩陣,能緩解數(shù)據(jù)稀疏問題,從而提高了協(xié)同過濾算法的準(zhǔn)確性。
關(guān)鍵詞:協(xié)同過濾;推薦系統(tǒng);數(shù)據(jù)稀疏;興趣度;填充矩陣
中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1003-6970.2015.03.009
本文著錄格式:蔡雄峰,艾麗華,丁丁.一種緩解協(xié)同過濾算法數(shù)據(jù)稀疏性的方法[J].軟件,2015,36(3):41-47
0.引言
當(dāng)今互聯(lián)網(wǎng)世界中最常見的智能產(chǎn)品可以說是推薦系統(tǒng)了。推薦系統(tǒng)在如今互聯(lián)網(wǎng)的應(yīng)用和產(chǎn)品中已被廣泛采用,比如大家每天都可能會(huì)使用到的相關(guān)搜索、微博上的熱門推薦、電子商務(wù)網(wǎng)站的各種產(chǎn)品推薦、Facebook等社交網(wǎng)站上的好友推薦等等。伴隨著互聯(lián)網(wǎng)信息爆炸式的增長,“信息過載”問題變得越來越嚴(yán)重。人們面對(duì)海量的數(shù)據(jù),非常困難迅速有效的找到自己感興趣,自己所真正需要的信息。目前解決這個(gè)問題大致有兩種方法,第一種是以搜索引擎為代表的信息檢索技術(shù),第二種是以推薦系統(tǒng)為代表的信息過濾技術(shù)。這些技術(shù)都可以從海量數(shù)據(jù)中幫助用戶找到自己想要的信息。
協(xié)同過濾是已被提出的推薦算法中應(yīng)用最多,且最為有效的算法。其已被應(yīng)用到諸多商業(yè)場(chǎng)景中。然而,協(xié)同過濾算法存在例如冷啟動(dòng),數(shù)據(jù)稀疏性等問題仍需要解決。協(xié)同過濾算法是基于用戶與項(xiàng)目之間的評(píng)分信息的。因此,評(píng)分信息的豐富性和完整性則顯得尤為重要。相關(guān)研究表明,一個(gè)網(wǎng)站上用戶對(duì)項(xiàng)目的評(píng)分不會(huì)超過用戶一項(xiàng)目評(píng)分矩陣大小的1%,這就產(chǎn)生了數(shù)據(jù)稀疏性的問題,從而導(dǎo)致推薦系統(tǒng)精度下降。所以,緩解矩陣的稀疏性對(duì)于一個(gè)推薦算法來說是至關(guān)重要的。