摘要:文章深入研究了基于協(xié)同過(guò)濾與內(nèi)容的推薦算法在電影推薦系統(tǒng)中的融合與應(yīng)用。首先,詳細(xì)闡述了兩種推薦算法的基本原理及優(yōu)缺點(diǎn),并對(duì)相似度計(jì)算方法進(jìn)行了深入的分析與針對(duì)性的優(yōu)化。隨后,文章探討了協(xié)同過(guò)濾和內(nèi)容推薦算法有效融合策略和方法。最后,采用MovieLens數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,證明了融合算法在提升推薦系統(tǒng)性能方面的有效性,并討論了未來(lái)可能的研究方向。
關(guān)鍵詞:協(xié)同過(guò)濾推薦算法;內(nèi)容推薦算法;電影推薦系統(tǒng);融合
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)01-0079-03 開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID) :
0 引言
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和數(shù)據(jù)量的爆炸式增長(zhǎng),用戶面臨著前所未有的信息過(guò)載問(wèn)題。如何從海量數(shù)據(jù)中高效、準(zhǔn)確地為用戶推薦個(gè)性化的內(nèi)容,已成為互聯(lián)網(wǎng)企業(yè)提升用戶體驗(yàn)、增強(qiáng)用戶黏性的關(guān)鍵因素。電影作為一種重要的娛樂(lè)形式,其數(shù)量呈爆炸性增長(zhǎng)。面對(duì)海量的電影資源,用戶往往難以在眾多選擇中找到符合自己興趣和偏好的電影。推薦系統(tǒng)是一種學(xué)習(xí)用戶偏好,實(shí)現(xiàn)個(gè)性化推薦的系統(tǒng)化應(yīng)用技術(shù)[1]。在信息過(guò)載的時(shí)代,推薦系統(tǒng)成為重要工具,有效地引導(dǎo)用戶發(fā)現(xiàn)他們感興趣的信息[2]。電影推薦系統(tǒng)通過(guò)分析用戶的歷史行為數(shù)據(jù)、電影的內(nèi)容特征等信息,為用戶提供個(gè)性化的電影推薦,從而提升了用戶的觀影體驗(yàn)。
在眾多的推薦算法中,最為常見且有效的兩種是基于協(xié)同過(guò)濾和基于內(nèi)容的推薦算法。本文旨在探討電影推薦系統(tǒng)中這兩種算法的融合研究。通過(guò)分析和比較現(xiàn)有算法,本文提出了一種混合推薦算法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了其有效性。本文的研究不僅有助于提升電影推薦系統(tǒng)的推薦精準(zhǔn)度和用戶體驗(yàn),同時(shí)也為其他領(lǐng)域的推薦系統(tǒng)提供了有益的參考和借鑒。
1 基于協(xié)同過(guò)濾的推薦算法研究
基于協(xié)同過(guò)濾的推薦算法(Collaborative Filtering,CF) 作為一種成熟的推薦算法,已在電商、文本信息等推薦領(lǐng)域得到廣泛應(yīng)用[3]。協(xié)同過(guò)濾算法主要通過(guò)計(jì)算用戶與用戶之間或者物品與物品之間的相似度,來(lái)向用戶推薦物品[4]。
基于協(xié)同過(guò)濾的推薦算法主要分為基于用戶的協(xié)同過(guò)濾和基于物品的協(xié)同過(guò)濾兩種。在電影推薦系統(tǒng)中,協(xié)同過(guò)濾推薦算法會(huì)收集包括電影評(píng)分、觀看記錄和搜索記錄等用戶歷史行為數(shù)據(jù),并以此作為后續(xù)計(jì)算的依據(jù)。隨后,算法會(huì)利用常用的相似度計(jì)算方法來(lái)計(jì)算用戶之間的相似度或電影之間的相似度。對(duì)于基于用戶的協(xié)同過(guò)濾算法,系統(tǒng)會(huì)找到與目標(biāo)用戶品位相似的鄰居用戶,并根據(jù)這些鄰居用戶喜歡且目標(biāo)用戶未觀看過(guò)的電影來(lái)生成推薦列表;而對(duì)于基于物品的協(xié)同過(guò)濾算法,系統(tǒng)則會(huì)根據(jù)目標(biāo)用戶喜歡的電影,找到與其相似的其他電影進(jìn)行推薦。最后,推薦系統(tǒng)會(huì)通過(guò)準(zhǔn)確率等指標(biāo)對(duì)推薦算法的效果進(jìn)行評(píng)估,并根據(jù)評(píng)估結(jié)果對(duì)算法進(jìn)行不斷的調(diào)整和優(yōu)化,以提升推薦的準(zhǔn)確性和用戶滿意度。
協(xié)同過(guò)濾推薦算法的優(yōu)勢(shì)在于能夠深入挖掘用戶的興趣和偏好,從而為用戶提供高度個(gè)性化的電影推薦服務(wù)。然而,該算法也面臨一些挑戰(zhàn),如冷啟動(dòng)問(wèn)題,即對(duì)于新用戶或新電影,由于歷史數(shù)據(jù)的缺乏,推薦算法可能難以給出準(zhǔn)確建議;數(shù)據(jù)稀疏性問(wèn)題也是一個(gè)難題,當(dāng)用戶評(píng)分矩陣過(guò)于稀疏時(shí),會(huì)直接影響推薦的準(zhǔn)確性和覆蓋范圍;此外,在大規(guī)模系統(tǒng)中,實(shí)時(shí)計(jì)算用戶或物品間的相似度對(duì)計(jì)算資源要求較高,這也是需要克服的一個(gè)挑戰(zhàn)。
2 基于內(nèi)容的推薦算法研究
基于內(nèi)容的推薦算法是通過(guò)分析用戶過(guò)去的行為和電影的內(nèi)容(如類型、導(dǎo)演、演員等) 來(lái)推薦類似的電影,它是一種基于項(xiàng)目特征的推薦方法。內(nèi)容推薦算法的優(yōu)勢(shì)在于能夠捕捉用戶的個(gè)性化需求,但其劣勢(shì)在于過(guò)于依賴電影的特征描述,而忽略了用戶行為的多樣性。在電影推薦系統(tǒng)中,算法首先會(huì)從電影的元數(shù)據(jù)中提取電影的關(guān)鍵特征,并將這些特征進(jìn)一步處理并轉(zhuǎn)換成數(shù)值向量的形式,以便后續(xù)進(jìn)行相似度計(jì)算。與此同時(shí),系統(tǒng)也會(huì)根據(jù)用戶的觀影歷史、評(píng)分記錄等多元數(shù)據(jù),構(gòu)建一個(gè)反映用戶興趣偏好的模型。隨后,算法會(huì)利用相似度的計(jì)算方法,計(jì)算出用戶興趣向量與候選電影特征向量之間的相似度。最后,根據(jù)計(jì)算出的相似度得分,對(duì)所有候選電影進(jìn)行排序,并挑選出相似度最高的若干部電影呈現(xiàn)給用戶作為推薦結(jié)果。
基于內(nèi)容的推薦算法在電影推薦中具有顯著優(yōu)勢(shì),它能夠根據(jù)用戶自身的觀影歷史和電影特征,為用戶提供極具個(gè)性化的推薦結(jié)果。即使對(duì)于新用戶或電影數(shù)量較少的情況,該算法也能提供較為準(zhǔn)確的推薦。然而,算法的效果對(duì)于電影特征提取的質(zhì)量依賴程度很高,如果特征提取不準(zhǔn)確或不全面,就可能會(huì)影響到推薦的準(zhǔn)確率。此外,該算法主要基于用戶已知的觀影歷史和影片特征進(jìn)行推薦,因此在一定程度上限制了其推薦范圍的廣度,挖掘用戶的潛在興趣可能存在一定困難。
3 相似度計(jì)算方法研究
相似度計(jì)算是推薦系統(tǒng)中用于衡量不同實(shí)體(如用戶、商品、電影等) 之間相似性的一個(gè)關(guān)鍵技術(shù)。在協(xié)同過(guò)濾算法中,相似度評(píng)估是協(xié)同過(guò)濾推薦算法的核心[5]。相似度計(jì)算方法包括余弦相似度、杰卡德相似系數(shù)、皮爾遜相關(guān)系數(shù)等,這些方法各有特點(diǎn),適用于不同的場(chǎng)景和需求。
3.1 余弦相似度
余弦相似度通過(guò)計(jì)算兩個(gè)向量之間的夾角的余弦值來(lái)衡量它們之間的相似度。在基于用戶的協(xié)同過(guò)濾(User-CF) 中,余弦相似度用于計(jì)算用戶之間的相似度。余弦相似度計(jì)算公式如式(1) 所示:
式(1) 中:ru為用戶u 的評(píng)分向量;rv為用戶v 的評(píng)分向量。
相似度值越高,表示用戶u 和v 的興趣越相似。在用戶相似度計(jì)算的過(guò)程中,由于許多用戶間無(wú)交集(即分子為0) ,這些計(jì)算是不必要的。因此,針對(duì)稀疏數(shù)據(jù),應(yīng)優(yōu)化算法以避免無(wú)效計(jì)算。
為了避免在不相關(guān)用戶上浪費(fèi)時(shí)間,文章提出以下策略:首先,通過(guò)構(gòu)建物品到用戶的倒排表T,明確每個(gè)物品被哪些用戶互動(dòng)過(guò)。接著,利用這個(gè)倒排表T來(lái)建立用戶相似度矩陣W,該矩陣代表余弦相似度公式中的分子部分。最終,通過(guò)除以相應(yīng)的分母,可以準(zhǔn)確計(jì)算出任意兩個(gè)用戶之間的興趣相似度。
當(dāng)系統(tǒng)中存在熱門商品時(shí),由于熱門商品出現(xiàn)頻率過(guò)高,傳統(tǒng)的余弦相似度計(jì)算方法可能導(dǎo)致推薦結(jié)果過(guò)于偏向這些熱門商品。在計(jì)算相似度時(shí)熱門商品因?yàn)楸淮罅坑脩粝矚g或購(gòu)買會(huì)對(duì)計(jì)算產(chǎn)生較大影響。為了懲罰熱門商品在推薦系統(tǒng)中的影響,即減少它們?cè)谙嗨贫扔?jì)算中的權(quán)重,對(duì)余弦相似度計(jì)算公式進(jìn)行改進(jìn),引入懲罰因子。將熱門商品出現(xiàn)次數(shù)的倒數(shù)作為懲罰因子來(lái)降低其在相似度計(jì)算中的權(quán)重,熱門商品在計(jì)算相似度時(shí)的影響就會(huì)被削弱。通過(guò)引入懲罰因子或采取其他改進(jìn)措施,可以有效懲罰熱門商品在推薦系統(tǒng)中的影響,提高推薦結(jié)果的多樣性和精準(zhǔn)性。
文章中的推薦系統(tǒng)使用基于協(xié)同過(guò)濾的算法在計(jì)算用戶相似度或物品相似度時(shí),引入熱門物品權(quán)重系數(shù),用以懲罰熱門物品對(duì)計(jì)算用戶相似度時(shí)的影響。如此一來(lái),即使兩個(gè)用戶對(duì)熱門商品都有興趣,在計(jì)算的相似度時(shí)這種興趣也不會(huì)占據(jù)過(guò)大的比重,從而對(duì)用戶之間更細(xì)微、更個(gè)性化的相似點(diǎn)進(jìn)行挖掘會(huì)有很大幫助。
3.2 杰卡德相似系數(shù)
杰卡德相似系數(shù)是用于比較兩個(gè)樣本集合相似性的一種指標(biāo)。杰卡德相似系數(shù)的計(jì)算方法為J(A,B)=|A∩B|/|A∪B|,其中,|A∩B|表示集合A與B的交集元素?cái)?shù)量,|A∪B|表示集合A與B的并集元素?cái)?shù)量。
在推薦系統(tǒng)中,杰卡德相似系數(shù)可以用于計(jì)算用戶或物品之間的相似度。余弦相似度適合于衡量向量在方向上的相似度,適用于數(shù)值型數(shù)據(jù)的相似度計(jì)算;而杰卡德相似系數(shù)更適合于衡量集合之間的相似度,適用于布爾型數(shù)據(jù)的相似度計(jì)算。文中在基于內(nèi)容的推薦算法時(shí)使用杰卡德相似系數(shù)來(lái)衡量?jī)蓚€(gè)物品之間的相似度。
4 基于協(xié)同過(guò)濾與內(nèi)容的推薦算法融合策略
基于協(xié)同過(guò)濾的推薦算法在面臨用戶數(shù)據(jù)稀疏性和冷啟動(dòng)問(wèn)題時(shí)可能表現(xiàn)不佳,而基于內(nèi)容的推薦算法則可能過(guò)于依賴電影的特征描述,從而忽略了用戶的個(gè)性化需求。為了克服這兩個(gè)算法的上述缺陷,可以將它們進(jìn)行融合,形成混合推薦算法?;旌贤扑]算法結(jié)合了兩者的優(yōu)勢(shì),能夠更準(zhǔn)確地捕捉用戶的興趣和偏好,提供更加個(gè)性化的推薦服務(wù)。
常見的融合策略包括:
加權(quán)融合:根據(jù)具體場(chǎng)景和需求,為推薦結(jié)果分配不同的權(quán)重,然后加權(quán)求和得到最終的推薦列表。
串行融合:先使用一種算法生成初步推薦列表,然后再使用另一種算法對(duì)初步推薦列表進(jìn)行優(yōu)化和調(diào)整。
文章中的融合策略采用基于用戶的協(xié)同過(guò)濾和基于物品的協(xié)同過(guò)濾進(jìn)行加權(quán)融合得到推薦列表,權(quán)重通?;谒惴ㄔ隍?yàn)證集或測(cè)試集上的性能表現(xiàn)來(lái)確定,最后將加權(quán)融合后的推薦列表與基于內(nèi)容的推薦列表進(jìn)行串行融合得到最終的推薦列表。融合策略如圖1所示。
5 基于協(xié)同過(guò)濾與內(nèi)容推薦的算法融合實(shí)驗(yàn)
5.1 實(shí)驗(yàn)數(shù)據(jù)
基于協(xié)同過(guò)濾與內(nèi)容推薦的算法在推薦系統(tǒng)中的融合研究是一個(gè)熱門且富有成效的領(lǐng)域。研究借助MovieLens數(shù)據(jù)集來(lái)進(jìn)行實(shí)證分析。MovieLens數(shù)據(jù)集是由GroupLens Research團(tuán)隊(duì)提供的一個(gè)公開數(shù)據(jù)集,MovieLens數(shù)據(jù)集包含多個(gè)版本(如100K、1M、10M等) ,各版本數(shù)據(jù)集根據(jù)規(guī)模不同包含數(shù)量不等的用戶對(duì)電影評(píng)分記錄。文章中的實(shí)驗(yàn)采用1M版本,包含超過(guò)一百萬(wàn)條評(píng)分?jǐn)?shù)據(jù)。該數(shù)據(jù)集通常由用戶信息文件、電影信息文件和用戶-電影評(píng)分文件3 個(gè)主要部分組成,分別記錄了用戶的詳細(xì)信息、電影的基本信息及用戶對(duì)電影的評(píng)分和時(shí)間戳。MovieL?ens數(shù)據(jù)集廣泛應(yīng)用于推薦算法的性能驗(yàn)證和評(píng)估,特別是在協(xié)同過(guò)濾、內(nèi)容過(guò)濾和混合推薦系統(tǒng)等領(lǐng)域發(fā)揮著重要作用。
5.2 評(píng)價(jià)指標(biāo)
本實(shí)驗(yàn)選取的評(píng)估準(zhǔn)則為準(zhǔn)確率(Precision) ,準(zhǔn)確率越高,表示系統(tǒng)推薦的物品與用戶實(shí)際興趣匹配度越高,用戶滿意度和參與度也可能隨之提升。準(zhǔn)確率的公式通常定義為正確推薦的項(xiàng)目數(shù)除以推薦的總項(xiàng)目數(shù)。用數(shù)學(xué)符號(hào)表示,準(zhǔn)確率的計(jì)算公式如式(2) 所示:
p = TP/TP + FP (2)
式(2) 中:TP(True Positives) 表示真正例,即推薦系統(tǒng)中被正確推薦且用戶實(shí)際感興趣的項(xiàng)目數(shù);FP(False Positives) 表示假正例,即推薦系統(tǒng)中被錯(cuò)誤推薦而用戶實(shí)際上不感興趣的項(xiàng)目數(shù)。
5.3 實(shí)驗(yàn)結(jié)果與分析
使用混合推薦算法與傳統(tǒng)的基于用戶的協(xié)同過(guò)濾推薦算法和基于物品的協(xié)同過(guò)濾推薦算法進(jìn)行實(shí)驗(yàn)。分別以MovieLens 1M數(shù)據(jù)集進(jìn)行比較測(cè)試,權(quán)重采用預(yù)設(shè)的0.7(User-CF推薦) 和0.3(Item-CF推薦) ,計(jì)算3種方法的準(zhǔn)確率,結(jié)果如表1所示。
根據(jù)表1中的數(shù)據(jù)可知,采用的混合推薦算法在指定推薦個(gè)數(shù)的情況下準(zhǔn)確率均優(yōu)于單個(gè)的推薦方法。權(quán)重確定不是一次性的任務(wù),而應(yīng)隨著數(shù)據(jù)變化、用戶需求變化等因素進(jìn)行持續(xù)優(yōu)化。未來(lái)還將繼續(xù)收集用戶對(duì)推薦結(jié)果的反饋,如點(diǎn)擊率、觀看時(shí)長(zhǎng)、評(píng)分等。根據(jù)用戶反饋來(lái)動(dòng)態(tài)調(diào)整不同推薦算法的權(quán)重,以優(yōu)化用戶體驗(yàn),提高推薦效果,實(shí)現(xiàn)個(gè)性化的推薦。由于協(xié)同過(guò)濾和內(nèi)容推薦算法基于不同的原理生成推薦結(jié)果,為了能夠增加推薦列表的多樣性,滿足用戶的不同需求。最后將加權(quán)融合后的推薦列表與基于內(nèi)容推薦列表進(jìn)行串行融合得到最終的推薦列表。
6 結(jié)束語(yǔ)
文章深入探討了基于協(xié)同過(guò)濾和內(nèi)容的推薦算法在電影推薦系統(tǒng)中的融合研究。通過(guò)對(duì)這兩種算法和相似度計(jì)算的研究以及對(duì)相似度計(jì)算方法進(jìn)行針對(duì)性的優(yōu)化與改進(jìn),創(chuàng)新性地提出了一種算法融合的策略。經(jīng)過(guò)在MovieLens數(shù)據(jù)集上實(shí)驗(yàn)證明,融合后的算法成功提升了推薦系統(tǒng)的推薦性能。相于僅使用單一算法的推薦系統(tǒng),融合了多種算法的推薦系統(tǒng)具有顯著優(yōu)勢(shì):它不僅結(jié)合了協(xié)同過(guò)濾和內(nèi)容推薦等技術(shù),更全面地捕捉用戶興趣與物品特征,從而提升了推薦的準(zhǔn)確性;同時(shí),通過(guò)靈活運(yùn)用多種推薦算法,有效緩解了數(shù)據(jù)稀疏性帶來(lái)的挑戰(zhàn),增強(qiáng)了系統(tǒng)的數(shù)據(jù)利用能力;此外,混合推薦系統(tǒng)還能提供更多樣化的推薦選擇,避免了推薦結(jié)果的單一化;并且,由于融合了多種算法,系統(tǒng)的魯棒性和穩(wěn)定性也得到提升,降低了單一算法失效對(duì)整體性能的影響。研究為電影推薦系統(tǒng)的優(yōu)化提供了新的思路和方法,也為提升用戶體驗(yàn)和滿足用戶個(gè)性化需求提供了有力的支持。未來(lái),隨著大數(shù)據(jù)和人工智能技術(shù)的不斷發(fā)展,推薦系統(tǒng)的算法研究將繼續(xù)深入,為用戶提供更加智能化、個(gè)性化的推薦服務(wù)。
參考文獻(xiàn):
[1] 劉華玲,馬俊,張國(guó)祥.基于深度學(xué)習(xí)的內(nèi)容推薦算法研究綜述[J].計(jì)算機(jī)工程,2021,47(7):1-12.
[2] 徐文濤,王誠(chéng).基于降低數(shù)據(jù)稀疏度的協(xié)同過(guò)濾算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2024,34(5):170-174.
[3] 王小林.基于協(xié)同過(guò)濾算法的信息技術(shù)課程資源推薦系統(tǒng)設(shè)計(jì)與應(yīng)用[J].信息與電腦(理論版),2024,36(5):254-256.
[4] 董慧慧.基于XGBoost的協(xié)同過(guò)濾算法在民宿推薦系統(tǒng)中的應(yīng)用[J].電腦知識(shí)與技術(shù),2024,20(24):67-69.
[5] 錢澤俊,劉潤(rùn)然.融合電影流行性與觀影時(shí)間的協(xié)同過(guò)濾算法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2024,43(2):54-63.
【通聯(lián)編輯:代影】