陳文靜 尹健
【摘要】隨著互聯(lián)網(wǎng)技術(shù)的興起和信息技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)從原來信息匱乏的時(shí)代走向了信息過載,這也使得用戶想要從海量信息庫中快速并且準(zhǔn)確地找到其感興趣的信息變得愈發(fā)困難,推薦系統(tǒng)應(yīng)用而生。本文對(duì)推薦系統(tǒng)的相關(guān)內(nèi)容和存在的問題進(jìn)行了全面分析,并給出了相應(yīng)的解決策略。
【關(guān)鍵詞】互聯(lián)網(wǎng)? 信息過載? 推薦系統(tǒng)
推薦系統(tǒng)通過將機(jī)器學(xué)習(xí)、用戶行為學(xué)和人機(jī)交互等多個(gè)領(lǐng)域的技術(shù)進(jìn)行結(jié)合,并運(yùn)用大規(guī)模并行數(shù)據(jù)處理框架,進(jìn)而快速并準(zhǔn)確地為每位用戶提供個(gè)性化信息服務(wù)。作為一種提供服務(wù)的技術(shù),推薦系統(tǒng)的宗旨在于利用各種決策過程來支持用戶的興趣變化。同時(shí),推薦系統(tǒng)已漸漸地在娛樂、政務(wù)、電子商務(wù)等領(lǐng)域受到廣泛關(guān)注。
一、推薦系統(tǒng)研究現(xiàn)狀及相關(guān)分析
推薦系統(tǒng)是由Group Lens研究小組對(duì)MovieLens電影數(shù)據(jù)集展開的研究,通過提取物品的特征信息來進(jìn)行推薦,然而這種推薦方法存在一定的局限性,后來研究學(xué)者提出基于協(xié)同過濾、基于關(guān)聯(lián)規(guī)則、基于效用、基于知識(shí)的推薦系統(tǒng)。近幾年,國(guó)際學(xué)術(shù)界對(duì)推薦系統(tǒng)的研究也陸續(xù)產(chǎn)生,ACM曾多次將研討的主題設(shè)為推薦系統(tǒng),并且設(shè)立了推薦系統(tǒng)年會(huì)。許多國(guó)內(nèi)外期刊也將推薦系統(tǒng)作為其研究專題,如SIGCHI、KDD、SIGIR、WWW等,這些期刊對(duì)推薦系統(tǒng)研究文章的收錄也在逐步增加。
二、推薦系統(tǒng)存在的問題分析
推薦系統(tǒng)發(fā)展相對(duì)較快,并取得了較多的成果,但在其發(fā)展過程中,還存在著較多的問題。我們對(duì)相關(guān)問題進(jìn)行了以下分析:
(一)準(zhǔn)確性
預(yù)測(cè)準(zhǔn)確性是目前在推薦系統(tǒng)研究中討論的最多的問題,準(zhǔn)確性是用來衡量真實(shí)評(píng)分和預(yù)測(cè)評(píng)分的誤差值的重要方式。
(二)數(shù)據(jù)稀疏性
數(shù)據(jù)稀疏性是指在大量的用戶和項(xiàng)目信息中,用戶對(duì)項(xiàng)目的評(píng)分對(duì)于海量數(shù)據(jù)來說,只是冰山一角。例如,用戶A和B具有較高的相似度,但是二者對(duì)相同項(xiàng)目的評(píng)分較少,通過相似度計(jì)算可以得到二者的相似度極低,這種情況導(dǎo)致了用戶A和B之間的相似信息的缺失。因此數(shù)據(jù)稀疏性對(duì)推薦系統(tǒng)的推薦性能提出了重大挑戰(zhàn)。
(三)冷啟動(dòng)問題
推薦系統(tǒng)中由于缺少初始評(píng)分而導(dǎo)致系統(tǒng)無法做出個(gè)性化推薦的問題稱為冷啟動(dòng)問題,其主要包括用戶冷啟動(dòng)和項(xiàng)目冷啟動(dòng)。由于協(xié)同過濾推薦算法采用基于目標(biāo)用戶的近鄰或者基于項(xiàng)目的近鄰對(duì)目標(biāo)用戶進(jìn)行推薦。因此,如果系統(tǒng)中新加入用戶和項(xiàng)目,系統(tǒng)很難采用近鄰用戶集合和近鄰項(xiàng)目集合對(duì)目標(biāo)用戶進(jìn)行推薦。所以,冷啟動(dòng)問題降低了協(xié)同過濾推薦算法的性能。
(四)可擴(kuò)展性
隨著時(shí)間的增長(zhǎng),用戶和項(xiàng)目的數(shù)量也隨之增長(zhǎng),采用傳統(tǒng)的協(xié)同過濾推薦算法將會(huì)使得推薦系統(tǒng)遭受很嚴(yán)重的可擴(kuò)展性問題,算法的計(jì)算過程和運(yùn)算量可能呈指數(shù)增長(zhǎng)。同時(shí),系統(tǒng)需要實(shí)時(shí)并且準(zhǔn)確性地為系統(tǒng)中的所有用戶進(jìn)行推薦,而這需要推薦系統(tǒng)具有較高的可擴(kuò)展性。
三、推薦系統(tǒng)解決策略
針對(duì)推薦系統(tǒng)存在的問題,我們對(duì)推薦系統(tǒng)的解決策略進(jìn)行了以下的分析:
對(duì)于準(zhǔn)確性問題,通常我們選用平均絕對(duì)誤差值來驗(yàn)證推薦系統(tǒng)的準(zhǔn)確度。用戶對(duì)推薦的項(xiàng)目越滿意,則會(huì)越來越相信推薦系統(tǒng),推薦系統(tǒng)被使用的概率也會(huì)逐漸提高。相反,如果推薦系統(tǒng)沒有找到用戶感興趣的項(xiàng)目,則會(huì)導(dǎo)致該系統(tǒng)的用戶逐漸流失,系統(tǒng)被使用的概率也逐漸降低。
對(duì)于數(shù)據(jù)稀疏性問題,使用降維技術(shù)來有效地解決數(shù)據(jù)稀疏性問題,例如選用奇異值矩陣分解將不具有代表性的特征或者不重要的用戶和項(xiàng)目信息進(jìn)行刪除,從而有效地降低了用戶對(duì)項(xiàng)目評(píng)分矩陣的維度。也就是說通過采用低維空間中的用戶相似性來代替用戶間的相似性,然后運(yùn)用推薦系統(tǒng)為目標(biāo)用戶進(jìn)行推薦。
對(duì)于冷啟動(dòng)問題,我們分別從用戶冷啟動(dòng)和項(xiàng)目冷啟動(dòng)進(jìn)行分析。當(dāng)一個(gè)新用戶通過注冊(cè)而使用系統(tǒng)時(shí),由于該用戶未對(duì)系統(tǒng)中的項(xiàng)目進(jìn)行評(píng)分,系統(tǒng)從而無法對(duì)該用戶進(jìn)行推薦,這種問題我們稱為新用戶冷啟動(dòng)問題。針對(duì)此問題我們提出了幾種解決策略:利用系統(tǒng)中所有用戶對(duì)項(xiàng)目評(píng)分的平均值作為新用戶對(duì)該項(xiàng)目的評(píng)分;在用戶注冊(cè)時(shí),使用附加信息如性別、年齡、職業(yè)等統(tǒng)計(jì)信息作為新用戶對(duì)相關(guān)項(xiàng)目的評(píng)分來進(jìn)行推薦;通過詢問用戶相關(guān)項(xiàng)目信息來獲取新用戶的興趣愛好,比如登陸視頻網(wǎng)站詢問“喜歡什么樣的電影”從而為用戶推薦相關(guān)項(xiàng)目。當(dāng)一個(gè)新項(xiàng)目被添加到系統(tǒng)中時(shí),它沒有任何被評(píng)分信息,因此也不會(huì)被推薦給用戶,這種問題我們稱為新項(xiàng)目冷啟動(dòng)問題。實(shí)際應(yīng)用中,用戶往往不會(huì)對(duì)不推薦給他們的項(xiàng)目評(píng)分,因此新項(xiàng)目可能會(huì)逐漸被遺忘。針對(duì)此問題,我們提出以下方法進(jìn)行解決:系統(tǒng)隨機(jī)抽取新項(xiàng)目或者評(píng)分信息很少的項(xiàng)目讓用戶進(jìn)行評(píng)分;通過其他的推薦方法進(jìn)行推薦,如基于內(nèi)容或者關(guān)聯(lián)規(guī)則等。
對(duì)于可擴(kuò)展性問題,一方面可以采用皮爾森相關(guān)系數(shù)計(jì)算用戶和用戶以及項(xiàng)目和項(xiàng)目之間的相似度,此計(jì)算方式選用的是與目標(biāo)用戶評(píng)價(jià)過相同項(xiàng)目的近鄰集以及與被用戶評(píng)價(jià)過項(xiàng)目的相似項(xiàng)目集進(jìn)行相似度計(jì)算;另一方面,選擇基于模型的推薦算法如采用基于聚類的協(xié)同過濾推薦算法通過選定與目標(biāo)用戶興趣度相似度較高的簇類中的用戶進(jìn)行推薦。這種方式不僅可以降低計(jì)算復(fù)雜度,同時(shí)可以解決可擴(kuò)展性問題。
四、總結(jié)
推薦系統(tǒng)更新較快,必須通過不斷的對(duì)推薦系統(tǒng)進(jìn)行優(yōu)化,提高推薦系統(tǒng)的推薦精確度,從而保障推薦系統(tǒng)時(shí)效性。
參考文獻(xiàn):
[1]Francesco R, Lior R, Bracha S. Recommender Systems Handbook[M]. Springer, Boston, MA.
[2]弗朗西斯科·里奇. 推薦系統(tǒng)[M].機(jī)械工業(yè)出版社, 2015.
[3]于洪,李俊華.一種解決新項(xiàng)目冷啟動(dòng)問題的推薦算法[J].軟件學(xué)報(bào). 2015, (06).
[4]李歡.新型協(xié)同過濾推薦算法研究[D].安徽大學(xué), 2017.
[5]黃山山.協(xié)同過濾推薦算法的關(guān)鍵性問題研究[D].山東大學(xué),2016.