亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)稀疏背景下基于協(xié)同過濾的推薦算法綜述

        2023-05-30 10:48:04朱夢婷
        關(guān)鍵詞:相似度協(xié)同過濾推薦系統(tǒng)

        朱夢婷

        關(guān)鍵詞:推薦系統(tǒng);協(xié)同過濾;數(shù)據(jù)稀疏;相似度

        1引言

        隨著移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,人們獲取大量信息十分便捷。與此同時(shí),如何從海量信息中高效篩選出所需內(nèi)容變得十分困難。推薦系統(tǒng)能夠在用戶需求不明確或是信息量過大時(shí),根據(jù)用戶的行為判斷其興趣,提供個(gè)性化的信息以滿足用戶需求。另外,為提高轉(zhuǎn)化率,推薦系統(tǒng)還能主動(dòng)將有效信息推送至目標(biāo)用戶。因此,推薦系統(tǒng)既是引導(dǎo)用戶獲取需要信息的助手,又是公司驅(qū)動(dòng)業(yè)務(wù)發(fā)展的重要?jiǎng)恿Α?/p>

        推薦系統(tǒng)最早被應(yīng)用于電子商務(wù)網(wǎng)站,通常是根據(jù)用戶的訂單和評價(jià)來推測偏好和需求,從而向用戶推薦可能感興趣的項(xiàng)目。例如亞馬遜、淘寶等平臺,其中亞馬遜網(wǎng)站上約35%的銷售額來自個(gè)性化推薦,可見推薦系統(tǒng)在電商平臺的意義重大。一個(gè)好的推薦系統(tǒng)可以提高用戶的購買轉(zhuǎn)化率,從而進(jìn)一步提升企業(yè)的收益并增強(qiáng)其用戶黏性。近年來,推薦系統(tǒng)在其他領(lǐng)域也有非常廣泛的應(yīng)用,如社交網(wǎng)絡(luò)、短視頻、教育、智慧醫(yī)療等。

        傳統(tǒng)的推薦方法在一定程度上可以有效解決推薦問題,主要有基于內(nèi)容的推薦、協(xié)同過濾的推薦和混合推薦方法。基于內(nèi)容的推薦主要通過機(jī)器學(xué)習(xí)的方法在內(nèi)容信息中挖掘用戶偏好,不涉及評分?jǐn)?shù)據(jù)。而基于協(xié)同過濾的推薦核心是計(jì)算用戶或項(xiàng)目間的相似度,需要用到“用戶一項(xiàng)目”評分?jǐn)?shù)據(jù)?;旌贤扑]是融合多種推薦技術(shù),充分利用輔助信息,實(shí)現(xiàn)優(yōu)缺點(diǎn)互補(bǔ)。然而,隨著數(shù)據(jù)爆發(fā)式增長,推薦系統(tǒng)面臨十分嚴(yán)重的數(shù)據(jù)稀疏問題。具體地,用戶通常只對極少部分項(xiàng)目有過交互行為(如瀏覽,收藏,加車,購買,評價(jià)等),這為精確建立用戶畫像并推薦合適的項(xiàng)目造成巨大困難。例如,電影推薦網(wǎng)站Movielens中“用戶一項(xiàng)目”矩陣近95%的數(shù)據(jù)是缺失的,在電子商務(wù)網(wǎng)站Amazon、新聞推薦平臺Mind數(shù)據(jù)中,這種缺失程度更是達(dá)到了99.9%以上,這嚴(yán)重影響了推薦的效果[1-3]。因此,如何進(jìn)一步挖掘用戶和項(xiàng)目之間的特征來提升算法準(zhǔn)確率變得尤為重要。

        下文將對基于協(xié)同過濾的推薦算法進(jìn)行詳細(xì)的梳理與分析,針對面臨的數(shù)據(jù)稀疏問題,提出解決方法與對策,并預(yù)測未來研究的幾個(gè)發(fā)展方向。

        2基于協(xié)同過濾的推薦

        2.1基于內(nèi)存的協(xié)同過濾

        基于內(nèi)存的推薦方法核心是利用“用戶一項(xiàng)目”評分矩陣、用戶信息和項(xiàng)目信息來計(jì)算對象之間的相似度,然后根據(jù)相似對象的評分加權(quán)值來預(yù)測目標(biāo)用戶對特定項(xiàng)目的評分,最后按評分高低進(jìn)行推薦。按照相似性度量對象,這類算法可分為基于用戶和基于項(xiàng)目的推薦:前者主要依據(jù)評分情況衡量不同用戶間的相似性,進(jìn)而將相似用戶的偏好項(xiàng)目推薦給目標(biāo)用戶,能夠發(fā)現(xiàn)其潛在的偏好,更能體現(xiàn)社會(huì)性;而基于項(xiàng)目的推薦則是依據(jù)評分情況衡量項(xiàng)目間的相似性,進(jìn)而將已知偏好項(xiàng)目的相似項(xiàng)目推薦給目標(biāo)用戶,更能反映自身的興趣和個(gè)性。二者的性能和適用場景對比如表1所列。

        基于內(nèi)存的協(xié)同過濾技術(shù)的核心是相似度計(jì)算,包括常用的余弦相似度、皮爾遜相關(guān)系數(shù)、歐式距離、杰卡德相關(guān)系數(shù)等,統(tǒng)一符號后具體如表2所列,可以根據(jù)實(shí)際場景和數(shù)據(jù)特點(diǎn)做選擇。

        2.2基于模型的協(xié)同過濾

        基于模型的協(xié)同過濾推薦主要通過訓(xùn)練數(shù)學(xué)模型的方式挖掘用戶和項(xiàng)目之間的特征和潛在聯(lián)系,模擬用戶的評分行為,從而得到未交互項(xiàng)目的評分并作為推薦依據(jù)。模型通常為聚類模型、矩陣分解模型、貝葉斯模型等,其中基于矩陣分解的推薦應(yīng)用較為廣泛[4-6]。

        聚類算法是經(jīng)典的無監(jiān)督機(jī)器學(xué)習(xí)算法,原理是尋找一種劃分,使得類內(nèi)距離小,并盡可能地相似,同時(shí)類間距離盡可能大,以保證差異和區(qū)分度。算法過程是先隨機(jī)指定若干個(gè)聚類中心,然后依據(jù)對象的歐式距離聚成若干簇,并重新計(jì)算每簇對象的均值,將其作為新的聚類中心,不斷重復(fù)以上步驟,直至聚類中心穩(wěn)定下來。聚類是相對直接的方法,對象可以是用戶、項(xiàng)目,也可以是二者聯(lián)合,最后還需在聚類結(jié)果的基礎(chǔ)上進(jìn)行推薦對象的選擇。

        矩陣分解是推薦系統(tǒng)協(xié)同過濾方法中最常用的模型之一,原理是從“用戶一項(xiàng)目”評分矩陣中學(xué)習(xí)用戶潛在信息和項(xiàng)目潛在信息,進(jìn)而預(yù)測未評分部分的分值。目標(biāo)函數(shù)一般形式如下:

        貝葉斯模型用于解決分類問題,屬于有監(jiān)督的機(jī)器學(xué)習(xí),原理是基于條件概率和貝葉斯定理,用決策樹表示用戶和項(xiàng)目間的概率關(guān)系。

        2.3推薦過程

        協(xié)同過濾的推薦過程主要分為三個(gè)步驟:第一步,根據(jù)定義的度量和已知數(shù)據(jù),形成“用戶一項(xiàng)目”評分矩陣;第二步,通過協(xié)同過濾算法預(yù)測未評分?jǐn)?shù)據(jù),補(bǔ)全“用戶一項(xiàng)目”評分矩陣:第三步,根據(jù)評分做出項(xiàng)目推薦?;趦?nèi)存的協(xié)同過濾可解釋性強(qiáng),易于操作實(shí)現(xiàn),但缺少提取特征的方法,無法得到推薦對象和被推薦對象的潛在信息。相比之下,基于模型的協(xié)同過濾可以同時(shí)得到這些潛在信息,但解釋性相對較弱,也難以處理大規(guī)模的推薦。除了這兩類推薦方法,還有融合多種方法揚(yáng)長避短的混合推薦,其克服了普通方法的缺點(diǎn),但過程較為復(fù)雜,難以用顯式的數(shù)學(xué)模型表示。

        推薦系統(tǒng)常用的數(shù)據(jù)集涵蓋電影、電商、音樂、圖書等領(lǐng)域,其中MovieLens是電影評分?jǐn)?shù)據(jù),分為3種大小的數(shù)據(jù)集,包含用戶個(gè)人信息和電影信息:Epinions包含商品和匿名用戶信息,商品至少被評價(jià)過一次;Amazon包含商品數(shù)量、價(jià)格,用戶瀏覽記錄、購買情況等信息;Last. fm是音樂播放數(shù)據(jù),包含最受歡迎的歌手列表和播放量;Book-Crossing是圖書評分?jǐn)?shù)據(jù)。具體規(guī)模和稀疏度如表3所列。

        3面臨的數(shù)據(jù)稀疏問題

        協(xié)同過濾的推薦方法僅需依據(jù)用戶對項(xiàng)目的評分?jǐn)?shù)據(jù),以挖掘用戶偏好,其解釋性強(qiáng),操作簡便,能夠很大程度上解決推薦問題。然而現(xiàn)實(shí)場景中,用戶和項(xiàng)目并不是固定不變的,各大平臺為占領(lǐng)市場份額,會(huì)花費(fèi)大量資金和精力在用戶拉新和產(chǎn)品上新上。當(dāng)有新用戶或新項(xiàng)目出現(xiàn)時(shí),數(shù)據(jù)庫中沒有相關(guān)的歷史數(shù)據(jù),無從判斷用戶的偏好,也沒法預(yù)估項(xiàng)目的交互情況,進(jìn)而使推薦系統(tǒng)難以做出合理的推薦,這種問題稱為冷啟動(dòng)。

        另外,當(dāng)項(xiàng)目數(shù)量遠(yuǎn)大于用戶數(shù)量時(shí),有大部分的項(xiàng)目未經(jīng)交互和評價(jià),導(dǎo)致“用戶一項(xiàng)目”評分矩陣嚴(yán)重稀疏,為提取用戶和項(xiàng)目的潛在特征帶來挑戰(zhàn)。在信息飛漲的時(shí)代,以電子商務(wù)為例,隨著達(dá)人直播帶貨、短視頻引流等新形式的出現(xiàn),規(guī)模不斷擴(kuò)大,用戶信息、商家信息、項(xiàng)目信息、交互信息急劇增長,用戶間共同評分的項(xiàng)目數(shù)量相對不足。在時(shí)間分秒游走的同時(shí),指尖滑動(dòng)產(chǎn)生的數(shù)據(jù)激增,導(dǎo)致用戶與項(xiàng)目間的評分矩陣變得愈發(fā)稀疏,推薦效果差強(qiáng)人意。因此,協(xié)同過濾的推薦方法面臨嚴(yán)峻的數(shù)據(jù)稀疏問題。

        融合多種技術(shù)的混合推薦方法雖然可以利用輔助信息(如社交信息)在一定程度上緩解冷啟動(dòng)和數(shù)據(jù)稀疏問題,但輔助信息形式多樣,普適性較差。另外,相似度計(jì)算在協(xié)同過濾推薦方法中尤為關(guān)鍵,易受數(shù)據(jù)稀疏的影響,直接影響推薦效果。大多數(shù)相似度為兩個(gè)用戶之間的相似性關(guān)系賦予相等的值,這意味著和用戶之間的相似性。這樣刻畫的相似度無法區(qū)分兩個(gè)具有不同評級配置文件的用戶,即二者交集占各自體量比重差距較大的用戶。

        4解決方法與對策

        為解決冷啟動(dòng)和數(shù)據(jù)稀疏問題,協(xié)同過濾推薦方法有三條路徑可以嘗試。

        (1)補(bǔ)全評分?jǐn)?shù)據(jù)。針對多數(shù)場景,“用戶一評分”矩陣極度稀疏的困境,可以應(yīng)用數(shù)學(xué)模型和算法預(yù)測缺失值。例如矩陣分解技術(shù),常用于基于模型的協(xié)同過濾,核心是將“用戶一項(xiàng)目”評分矩陣分解成兩個(gè)低秩矩陣,一個(gè)代表用戶潛在信息,另一個(gè)代表項(xiàng)目潛在信息,然后根據(jù)分解后的兩個(gè)矩陣乘積做預(yù)測。另外,可以將傳統(tǒng)協(xié)同過濾算法和深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法進(jìn)行結(jié)合,以計(jì)算分析用戶和項(xiàng)目之間隱含的復(fù)雜非線性關(guān)系。深度學(xué)習(xí)能夠通過訓(xùn)練集學(xué)習(xí)較為復(fù)雜的內(nèi)在聯(lián)系,深層次地挖掘推薦對象的特征,并模擬用戶評分過程,從而進(jìn)行更為準(zhǔn)確的預(yù)測。

        (2)添加輔助信息。為提高推薦效果,可以考慮除評分矩陣以外的數(shù)據(jù),如用戶的詳細(xì)信息、社交信息、商品的詳細(xì)信息等。當(dāng)有新用戶日寸,根據(jù)性別、年齡等基本信息聚類,將所屬聚類的評分平均值作為新用戶的評分?jǐn)?shù)據(jù)。另外,好友之間興趣偏好相似的概率較高,來自好友的推薦更精準(zhǔn),也更易獲得信任,所以社交關(guān)系可以有效輔助推薦效果的提升。

        (3)遷移知識學(xué)習(xí)。由于實(shí)際場景有生態(tài)化發(fā)展的趨勢,通常涉及不同領(lǐng)域。例如,美團(tuán)外賣和本地生活、美團(tuán)電商等打通,雖然美團(tuán)電商起步較晚,但用戶基數(shù)大,可以根據(jù)外賣數(shù)據(jù)和線下團(tuán)購數(shù)據(jù)推薦線上商品,這里外賣和本地生活是源域,電商是目標(biāo)域。因此,可以將多個(gè)源域的知識遷移到目標(biāo)域,以取得更好的效果,解決數(shù)據(jù)稀疏的問題。

        另外,相似度矩陣通常潛藏用戶之間的關(guān)系,在特征挖掘和興趣發(fā)現(xiàn)中十分關(guān)鍵。為避免對稱相似度在一些場景中的局限性和矛盾,可以使用不對稱相似度,通過用戶之間共同評分項(xiàng)目占各自評分項(xiàng)目的比例將原有計(jì)算結(jié)果標(biāo)準(zhǔn)化。非對稱的用戶相似度計(jì)算方法,可以區(qū)分每一用戶對其相似用戶的影響和相似用戶對該用戶的影響。

        5未來的研究方向

        近年來,推薦系統(tǒng)的深度研究和廣泛應(yīng)用為用戶帶來了便捷,為企業(yè)帶來了收益,為行業(yè)帶來了進(jìn)步。雖然基于協(xié)同過濾的推薦技術(shù)已取得不錯(cuò)的效果,但隨著其他技術(shù)的研究和發(fā)展,以及用戶體驗(yàn)需求的上升,未來仍有許多方面值得研究。其一,將知識圖譜、圖神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)技術(shù)與推薦系統(tǒng)結(jié)合,以符合用戶的個(gè)性化追求。其二,增強(qiáng)推薦模式的動(dòng)態(tài)性和交互性。在實(shí)際生活中,用戶的偏好和興趣會(huì)隨外部環(huán)境改變,如果能考慮環(huán)境因素提供實(shí)時(shí)動(dòng)態(tài)推薦,并給予用戶反饋優(yōu)化的機(jī)會(huì),推薦算法會(huì)更加精準(zhǔn)和智能。其三,數(shù)據(jù)安全與隱私保護(hù)。挖掘用戶特征時(shí)會(huì)用到多維度的信息,用戶希望得到準(zhǔn)確推薦的同時(shí)并不愿意公開隱私。一般通過數(shù)據(jù)模糊和扭曲來保護(hù)隱私,但會(huì)降低推薦準(zhǔn)確性。因此,兼顧效果和隱私的方法會(huì)是眾望所歸。

        6結(jié)束語

        通過對基于協(xié)同過濾的推薦算法的研究,整理常用相似度和數(shù)據(jù)集,分析基于內(nèi)存和模型的推薦方法及過程,易見用戶或項(xiàng)目間的相似性度量尤為重要,且協(xié)同過濾推薦面臨著嚴(yán)重的數(shù)據(jù)稀疏問題和冷啟動(dòng)問題。目前的工作主要是通過模型和深度學(xué)習(xí)算法補(bǔ)全評分?jǐn)?shù)據(jù),添加社交關(guān)系等輔助信息,遷移學(xué)習(xí)其他領(lǐng)域的知識到目標(biāo)領(lǐng)域,定義非對稱的相似性度量等提升推薦效果。未來可以在多技術(shù)結(jié)合、增強(qiáng)推薦的動(dòng)態(tài)性和交互性、兼顧效果和隱私保護(hù)方面進(jìn)行更深入的研究。

        猜你喜歡
        相似度協(xié)同過濾推薦系統(tǒng)
        基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
        改進(jìn)的協(xié)同過濾推薦算法
        模糊Petri網(wǎng)在油田開發(fā)設(shè)計(jì)領(lǐng)域的應(yīng)用研究
        基于鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計(jì)與實(shí)現(xiàn)
        基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過濾推薦算法研究
        基于個(gè)性化的協(xié)同過濾圖書推薦算法研究
        個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
        基于協(xié)同過濾算法的個(gè)性化圖書推薦系統(tǒng)研究
        混合推薦算法在電影推薦中的研究與評述
        淺談Mahout在個(gè)性化推薦系統(tǒng)中的應(yīng)用
        男女一区视频在线观看| 激情久久av一区av二区av三区| 欧美在线专区| 丰满老熟妇好大bbbbb| 动漫在线无码一区| 琪琪av一区二区三区| 色偷偷激情日本亚洲一区二区| 性欧美videofree高清精品| 国产真实露脸4p视频| 亚洲中文字幕高清乱码毛片| 中文乱码字幕精品高清国产| 国产精品狼人久久久久影院| 免费AV一区二区三区无码| 久久深夜中文字幕高清中文| 国产一区二区三区毛片| 亚洲日韩精品无码专区网站| 乱中年女人伦av三区| 国产精品人成在线观看不卡| 刺激一区仑乱| 麻豆高清免费国产一区| 日日噜噜夜夜狠狠2021| 一区二区三区四区黄色av网站| 国产两女互慰高潮视频在线观看| 久久久久国色av∨免费看| 国产精品亚洲精品日产久久久| 99精品国产一区二区三区| 国产深夜男女无套内射| 国产精品无码专区综合网| 国产在线视频一区二区三| 真人抽搐一进一出视频| 大学生被内谢粉嫩无套| 亚洲黄片高清在线观看| 国产黑色丝袜在线看片| 50岁熟妇大白屁股真爽| 免费国产黄片视频在线观看| 国产日产亚洲系列首页| 丰满人妻久久中文字幕| 无码国产69精品久久久孕妇 | 3亚洲日韩在线精品区| 91精品国自产拍老熟女露脸| 日韩毛片无码永久免费看|