摘 要:隨著移動(dòng)互聯(lián)網(wǎng)的進(jìn)步和信息量的急劇增長(zhǎng),信息過載使得用戶獲取需求信息更加困難。由于推薦系統(tǒng)可以較好地解決信息過載問題,因而被廣泛應(yīng)用于各種移動(dòng)網(wǎng)絡(luò)平臺(tái)。在推薦系統(tǒng)中,應(yīng)用最為廣泛和成功的一種技術(shù)是協(xié)同過濾推薦。本文首先介紹了協(xié)同過濾推薦技術(shù)的原理、分類和存在的問題,然后簡(jiǎn)要概括了評(píng)價(jià)推薦系統(tǒng)是比較常用的評(píng)估方法,并對(duì)進(jìn)一步需要研究的問題進(jìn)行總結(jié)。
關(guān)鍵詞:推薦系統(tǒng);協(xié)同過濾;信息過載
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2018)10-0021-03
Summary of Collaborative Filtering Recommendation
Technology in Recommendation System
LI Zhuanyun TANG Guilin
(Anhui Post and Telecommunication College,Hefei Anhui 230031)
Abstract: With the progress of mobile Internet and the rapid growth of information, information overload makes it more difficult for users to obtain information. As the recommendation system can solve the problem of information overload well, it is widely used in various mobile network platforms. One of the most widely used and successful applications in recommender systems is collaborative filtering recommendation. This paper first introduced the principle, classification and existing problems of collaborative filtering recommendation technology, and then briefly summarized that the evaluation and recommendation system was a commonly used evaluation method, and summarized the further research problems.
Keywords: recommender system; collaborative filtering;information overload
1 研究背景
互聯(lián)網(wǎng)的普及和4G技術(shù)的快速發(fā)展極大推進(jìn)了通信網(wǎng)絡(luò)與互聯(lián)網(wǎng)的深度融合,使得網(wǎng)絡(luò)中的信息急劇增長(zhǎng),造成“信息超載”,使得用戶獲取有價(jià)值的信息難度越來越大。雖然搜索引擎可以過濾部分信息,但搜索到的信息未必符合用戶的需要。為解決“信息超載”的問題,并提供個(gè)性化服務(wù),基于Web的推薦系統(tǒng)(Recommender Systems)被廣泛應(yīng)用,并且已取得了許多較有影響的研究成果。近年來,移動(dòng)互聯(lián)網(wǎng)服務(wù)和信息內(nèi)容的日益增長(zhǎng),使得智能移動(dòng)設(shè)備逐漸成為人們獲取信息的主要平臺(tái)之一,但同時(shí),也給移動(dòng)用戶帶來了嚴(yán)重的“信息超載”的問題[1],影響了移動(dòng)用戶的體驗(yàn)。隨著移動(dòng)用戶的數(shù)量急劇增長(zhǎng),國(guó)內(nèi)外大學(xué)和研究機(jī)構(gòu)也對(duì)移動(dòng)推薦展開了深入研究,其逐漸成為推薦系統(tǒng)研究領(lǐng)域的熱點(diǎn)之一,隨之研發(fā)出了移動(dòng)推薦系統(tǒng)(Mobile Recommender System,簡(jiǎn)稱MRS)[2]。
目前,推薦系統(tǒng)所采用的關(guān)鍵技術(shù)主要有基于關(guān)聯(lián)規(guī)則、基于內(nèi)容、基于協(xié)同過濾的推薦和混合推薦。對(duì)協(xié)同過濾最早的研究有Grundy system,現(xiàn)在比較著名的基于協(xié)同過濾技術(shù)的推薦系統(tǒng)有Group Lens/Net Perceptions、Tapestry、Ringo、PHOAKS systems、Jester system以及國(guó)內(nèi)的豆瓣網(wǎng)等。
2 協(xié)同過濾推薦技術(shù)
協(xié)同過濾推薦技術(shù)是推薦系統(tǒng)中應(yīng)用最為成功的技術(shù)之一,主要通過收集大量用戶信息、歷史訪問記錄等,根據(jù)用戶或項(xiàng)目間的相似性預(yù)測(cè)其可能感興趣的項(xiàng)目,并將預(yù)測(cè)結(jié)果反饋給用戶。關(guān)于協(xié)同過濾算法,Sarwar等人依據(jù)協(xié)同過濾技術(shù)所使用的事物之間的關(guān)聯(lián)性,將其分為基于項(xiàng)目的(Item-based)協(xié)同過濾算法與基于用戶的(User-based)協(xié)同過濾算法。
2.1 基于項(xiàng)目的協(xié)同過濾推薦
基于項(xiàng)目的協(xié)同過濾推薦,首先根據(jù)用戶對(duì)項(xiàng)目評(píng)價(jià)的二維矩陣數(shù)據(jù)來求出不同項(xiàng)目之間的相似度,然后利用相似度計(jì)算出結(jié)果推薦給用戶。這些推薦結(jié)果是通過發(fā)現(xiàn)與用戶喜歡的項(xiàng)目相似的項(xiàng)目來完成的。若要計(jì)算兩個(gè)項(xiàng)目之間的相似度,主要通過對(duì)兩個(gè)用戶已經(jīng)完成的評(píng)分記錄,然后使用相似性計(jì)算方法得出結(jié)果。在個(gè)性化推薦系統(tǒng)中,各項(xiàng)目之間的關(guān)系相對(duì)來說變化很小,相對(duì)比較穩(wěn)定,然后利用項(xiàng)目之間的相似性,通過在線計(jì)算就能快速得到預(yù)測(cè)結(jié)果。這種方法在提高推薦效率的同時(shí),在某種程度上能解決基于用戶的協(xié)同過濾系統(tǒng)中存在的可擴(kuò)展性問題。
在大部分推薦系統(tǒng)中,數(shù)據(jù)的稀疏性問題比較普遍。傳統(tǒng)的相似性計(jì)算方式存在一定弊端,從而最終影響系統(tǒng)的推薦準(zhǔn)確率。為此,張忠平和郭獻(xiàn)麗[3]提出了一種新的項(xiàng)目相似性度量方法,即PEV相似性度量方法。但是,該算法的前提是要有一定數(shù)量用戶評(píng)分的項(xiàng)目。但是,對(duì)于一個(gè)新項(xiàng)目,由于還沒有任何用戶對(duì)其做出過評(píng)分,造成新項(xiàng)目無法被推薦,即出現(xiàn)冷啟動(dòng)問題。由于項(xiàng)目的特征屬性比較穩(wěn)定,因此,其在一定程度上能解決新項(xiàng)目的冷啟動(dòng)問題。例如,彭玉和程小平[4]提出了一個(gè)基于屬性相似性的協(xié)同過濾算法,彌補(bǔ)以往協(xié)同過濾推薦算法在新項(xiàng)目推薦方面的不足。
2.2 基于用戶的協(xié)同過濾推薦
基于用戶的協(xié)同過濾推薦技術(shù)通過計(jì)算目標(biāo)用戶的最近鄰居集進(jìn)行推薦。其核心概念是假設(shè)人與人之間的興趣具有某種程度的相似性,如觀看相似類型電影的用戶,則會(huì)看相似類型的電影。然而,傳統(tǒng)的協(xié)同過濾算法并未考慮到用戶興趣是動(dòng)態(tài)變化的,過去訪問過的項(xiàng)目的興趣度并不能代表后來對(duì)該項(xiàng)目的興趣度不變,而且在某些項(xiàng)目中,興趣度會(huì)隨著時(shí)間的變化而變化。例如,用戶對(duì)不同衣服的興趣度隨著季節(jié)的變化而變化。董立巖等[5]提出將時(shí)間因素融入用戶項(xiàng)目評(píng)分矩陣中,以解決興趣衰減的問題。但是,該方法過于依賴用戶的歷史訪問記錄與評(píng)價(jià),忽略了用戶數(shù)據(jù)稀疏的問題,最終影響推薦的準(zhǔn)確率。
3 協(xié)同過濾推薦技術(shù)存在的問題
協(xié)同過濾推薦技術(shù)作為一種可以實(shí)現(xiàn)個(gè)性化推薦的技術(shù),雖然在個(gè)性化推薦中被廣泛應(yīng)用并取得了巨大成功,但也存在一些不足之處,如由于數(shù)據(jù)規(guī)模龐大而訪問記錄較少造成的稀疏問題,新用戶或新項(xiàng)目無訪問記錄造成的冷啟動(dòng)問題和數(shù)據(jù)規(guī)模極速增長(zhǎng)或需求不斷更新造成的可擴(kuò)展性問題等。國(guó)內(nèi)外研究人員也針對(duì)這些問題進(jìn)行了廣泛而深入的研究,且取得了一些成果,但對(duì)協(xié)同過濾的研究還要不斷完善。隨著互聯(lián)網(wǎng)的發(fā)展,尤其是移動(dòng)互聯(lián)網(wǎng)的廣泛應(yīng)用,如何滿足新的需求,也是一個(gè)新的挑戰(zhàn)。因此,對(duì)于協(xié)同過濾算法的研究主要集中在處理稀疏性問題、冷開始問題和可擴(kuò)展性問題及推薦系統(tǒng)的快速反應(yīng)能力方面。
3.1 稀疏性問題
隨著互聯(lián)網(wǎng)的發(fā)展,用戶和項(xiàng)目急劇增加,推薦系統(tǒng)的規(guī)模越來越大,用戶和項(xiàng)目之間的項(xiàng)目選擇的重疊則更少,稀疏性問題也將更加突出。目前,解決數(shù)據(jù)稀疏性問題的方法通常有矩陣填充、矩陣分解和改進(jìn)相似度計(jì)算函數(shù)等。對(duì)于預(yù)設(shè)評(píng)分方法,這種預(yù)測(cè)并不能完全代表用戶的真實(shí)興趣,尤其是在用戶-項(xiàng)目數(shù)量急劇增長(zhǎng)的情況下,預(yù)測(cè)的誤差率也相對(duì)增加,從而最終影響項(xiàng)目推薦的準(zhǔn)確性。對(duì)于與人工智能方法的結(jié)合,此方法在解決數(shù)據(jù)稀疏性問題的同時(shí)往往會(huì)犧牲推薦的精度,并且難以解決推薦計(jì)算的可擴(kuò)展性問題。對(duì)于降維方法,降維會(huì)損失重要信息,由于降維的效果與數(shù)據(jù)密切相關(guān),并且在項(xiàng)目空間數(shù)目維數(shù)很高時(shí),降維的效果難以保證。
3.2 冷啟動(dòng)問題
冷啟動(dòng)問題又稱第一評(píng)價(jià)問題(First-rater),或新項(xiàng)目問題(New-item),從一定角度可以看成是稀疏問題的極端情況。協(xié)同過濾推薦依靠的是用戶對(duì)項(xiàng)目的評(píng)分才能給出推薦。在推薦系統(tǒng)中,若增加一個(gè)新項(xiàng)目,由于沒有任何評(píng)價(jià)信息,那么該項(xiàng)目就永遠(yuǎn)沒有機(jī)會(huì)被推薦給用戶,即新項(xiàng)目的冷啟動(dòng)問題。在協(xié)同過濾系統(tǒng)中,針對(duì)每個(gè)項(xiàng)目,都會(huì)有簡(jiǎn)單的項(xiàng)目?jī)?nèi)容分析或簡(jiǎn)介,一般利用這些相關(guān)內(nèi)容,通過計(jì)算項(xiàng)目之間的相似性,建立項(xiàng)目的近鄰模型,然后根據(jù)相似性的大小進(jìn)行推薦。
冷啟動(dòng)問題中還包括新用戶問題,一個(gè)新注冊(cè)加入的用戶由于從未對(duì)系統(tǒng)中的任何項(xiàng)目進(jìn)行評(píng)價(jià),則系統(tǒng)無法獲取其興趣點(diǎn),也就無法對(duì)其進(jìn)行推薦。針對(duì)這一問題,一般解決方案主要是利用對(duì)象熵、受歡迎程度和用戶個(gè)性屬性等進(jìn)行改進(jìn)。
3.3 可擴(kuò)展性問題
在推薦系統(tǒng)中,用戶和項(xiàng)目的數(shù)據(jù)組成一個(gè)用戶數(shù)目為[M],項(xiàng)目數(shù)目為[N]的二維矩陣,計(jì)算用戶或項(xiàng)目的相似度的時(shí)間復(fù)雜度為O([M*N])。系統(tǒng)的可擴(kuò)展性問題(即適應(yīng)系統(tǒng)規(guī)模不斷擴(kuò)大的問題)也是影響推薦系統(tǒng)實(shí)施的重要因素。因此,開發(fā)一種適應(yīng)系統(tǒng)擴(kuò)展的算法也至關(guān)重要。隨著互聯(lián)網(wǎng)的快速發(fā)展,用戶和項(xiàng)目急劇增加,在整個(gè)空間上搜索目標(biāo)用戶的最近鄰居比較耗時(shí),而且現(xiàn)在大多數(shù)的推薦系統(tǒng)是在線給出推薦結(jié)果,難以滿足推薦系統(tǒng)的實(shí)時(shí)性要求。另外,該類算法較為適用于用戶興趣愛好變化比較穩(wěn)定的情況,而且用戶興趣模型和項(xiàng)目模型訓(xùn)練的代價(jià)一般比較大,不適合頻繁地更新數(shù)據(jù)系統(tǒng)。
3.4 移動(dòng)推薦系統(tǒng)中應(yīng)用問題
4G移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展為移動(dòng)網(wǎng)絡(luò)帶來了無盡的應(yīng)用空間,“小巧輕便”及“通訊便捷”兩個(gè)特點(diǎn),決定了移動(dòng)互聯(lián)網(wǎng)與傳統(tǒng)互聯(lián)網(wǎng)的根本不同之處,也為用戶提供了更加豐富的業(yè)務(wù)種類、個(gè)性化服務(wù)和更高質(zhì)量的服務(wù)。由于移動(dòng)設(shè)備便于攜帶,可以隨用戶移動(dòng),這使得推薦的信息要更有針對(duì)性,如根據(jù)所在位置推薦某用戶喜歡的商品、餐飲等信息。目前,針對(duì)移動(dòng)推薦系統(tǒng)的研究也取得了一定的進(jìn)展,在新聞、搜索、旅游、博客、廣告、電影和音樂等領(lǐng)域均有研究成果,如Davidsson C等人的研究[6]是基于位置上下文的個(gè)性化移動(dòng)應(yīng)用程序推薦,位置信息通過移動(dòng)設(shè)備自動(dòng)感知或人為設(shè)定獲取,根據(jù)當(dāng)前位置移動(dòng)應(yīng)用程序的使用情況向用戶推薦。但目前,由于個(gè)人的隱私和信息安全問題,獲取移動(dòng)用戶的位置及訪問記錄等相關(guān)信息相對(duì)比較困難。因此,如何更好地結(jié)合移動(dòng)社會(huì)化網(wǎng)絡(luò)與移動(dòng)推薦,有效評(píng)價(jià)移動(dòng)推薦系統(tǒng)的性能,設(shè)計(jì)符合移動(dòng)設(shè)備的交互方式均是今后的主要研究方向。
4 評(píng)估方法
推薦系統(tǒng)的評(píng)價(jià)是一個(gè)非常重要的問題,如果推薦系統(tǒng)的推薦質(zhì)量較高,會(huì)使得用戶數(shù)據(jù)越來越多,推薦系統(tǒng)所產(chǎn)生的推薦結(jié)果也就越來越精確,從而形成一種良性循環(huán)。試驗(yàn)標(biāo)準(zhǔn)的選擇和設(shè)置是推薦算法試驗(yàn)中的重要組成部分,合理的評(píng)價(jià)標(biāo)準(zhǔn)能有效檢測(cè)出算法性能以及算法中有待改進(jìn)之處。本文使用了推薦系統(tǒng)中評(píng)價(jià)算法預(yù)測(cè)精度的指標(biāo)對(duì)算法進(jìn)行評(píng)價(jià),其被分為統(tǒng)計(jì)精度度量方法SAM(Statical Accuracy Metrics),決策支持精度度量方法DSAM(Decision Support Accuracy Metrics)和準(zhǔn)確率(Precision)三種方法,且本文采用準(zhǔn)確率這種評(píng)價(jià)標(biāo)準(zhǔn)對(duì)協(xié)同過濾算法進(jìn)行實(shí)驗(yàn)分析與評(píng)價(jià)。
4.1 統(tǒng)計(jì)精度度量方法
SAM使用平均絕對(duì)偏差MAE(Mean Absolute Error)。MAE表達(dá)直觀,易于理解,是最常用的一種推薦質(zhì)量度量方法。設(shè)推薦系統(tǒng)預(yù)測(cè)的用戶評(píng)分集合表示為[p1,p2,…,pN],對(duì)應(yīng)的實(shí)際用戶評(píng)分集合為[q1,q2,…,qN],則平均絕對(duì)偏差MAE定義公式為:
[MAE=i=1Npi-qiN] (1)
在這里,MAE越小,推薦質(zhì)量越高。
4.2 決策支持精度度量方法
DSAM最常用的決策支持精度尺度是ROC(Receive Operating Characteristic)。ROC把預(yù)測(cè)過程看作是一個(gè)二進(jìn)制操作,每個(gè)信息項(xiàng)只能被預(yù)測(cè)為好和不好,其把預(yù)測(cè)過程看作是一個(gè)過濾過程。
4.3 準(zhǔn)確率(Precision)
準(zhǔn)確率(Precision)作為該算法的評(píng)價(jià)標(biāo)準(zhǔn),其也是一個(gè)衡量推薦系統(tǒng)準(zhǔn)確度的評(píng)價(jià)標(biāo)準(zhǔn),表示正確推薦數(shù)目占整個(gè)[Top-N]推薦集的比例。如果[Top-N]推薦集中某個(gè)項(xiàng)目[i]出現(xiàn)在目標(biāo)用戶測(cè)試集中的訪問記錄里,則表示生成了一個(gè)正確推薦。具體計(jì)算為:
[Precision=HitsN] (2)
其中,[Hits]表示算法產(chǎn)生的正確推薦數(shù)目,[N]表示算法生成的推薦總數(shù)。
4.4 評(píng)價(jià)指標(biāo)
對(duì)移動(dòng)推薦系統(tǒng)性能的評(píng)價(jià),由于在移動(dòng)推薦領(lǐng)域中公開可以使用的數(shù)據(jù)集較少,主要是用評(píng)價(jià)指標(biāo)來衡量的。通過調(diào)查問卷的方式可以了解到用戶的滿意度、交互體驗(yàn)等指標(biāo)。但不足之處是成本較大,樣本數(shù)量有限。這也是移動(dòng)推薦系統(tǒng)需要解決的問題之一。
5 結(jié)語
推薦系統(tǒng)在過去的十幾年中取得了巨大進(jìn)步,在電子商務(wù)、社會(huì)網(wǎng)絡(luò)、網(wǎng)絡(luò)購(gòu)物和新聞等領(lǐng)域得到了廣泛應(yīng)用。隨著信息技術(shù)的迅速發(fā)展和信息內(nèi)容的急劇增長(zhǎng),未來的網(wǎng)絡(luò)信息個(gè)性化服務(wù)需求日益提高,個(gè)性化推薦系統(tǒng)將會(huì)被更廣泛地關(guān)注和應(yīng)用。協(xié)同過濾推薦技術(shù)是推薦技術(shù)中應(yīng)用最成功的技術(shù)之一,但其仍存在稀疏性、冷啟動(dòng)和可擴(kuò)展性等問題需要進(jìn)行深入、細(xì)致的研究,以提高推薦系統(tǒng)的服務(wù)質(zhì)量。本文對(duì)目前比較流行的協(xié)同過濾推薦系統(tǒng)進(jìn)行概述,歸納總結(jié)了面臨的問題,為今后如何在實(shí)際應(yīng)用中解決這些問題提供參考。
參考文獻(xiàn):
[1]李勇.移動(dòng)互聯(lián)網(wǎng)信息安全威脅與漏洞分析[J].通信技術(shù),2014(4):439-444.
[2]Ricci F. Mobile recommender systems.[J]. Information Technology Tourism,2010(6):205-231.
[3]張忠平,郭獻(xiàn)麗.PEV:一種新的用于Item—Based協(xié)同過濾算法的相似性度量方法[J].小型微型計(jì)算機(jī)系統(tǒng),2009(4):716-720.
[4]彭玉,程小平.基于屬性相似性的Item-based協(xié)同過濾算法[J].計(jì)算機(jī)工程與應(yīng)用,2007(14):144-147.
[5]董立巖,王越群,賀嘉楠,等.基于時(shí)間衰減的協(xié)同過濾推薦算法[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2017(4):1268-1272.
[6]Davidsson C,Moritz S. Utilizing implicit feedback and context to recommend mobile applications from first use[C]// The Workshop on Context-Awareness in Retrieval Recommendation. ACM, 2011.