陽(yáng)甫軍 李博
摘?要:隨著三網(wǎng)融合的不斷發(fā)展,傳統(tǒng)廣電媒體更需要建立一套完善的影視營(yíng)銷推薦系統(tǒng),將海量的影視資源精準(zhǔn)有效的推薦給每一位用戶。在推薦系統(tǒng)中,協(xié)同過(guò)濾算法是應(yīng)用較為廣泛的一種推薦方法。討論了傳統(tǒng)協(xié)同過(guò)濾算法在影視營(yíng)銷中的應(yīng)用,提出一種加權(quán)混合推薦算法,并將算法應(yīng)用在影視營(yíng)銷推薦場(chǎng)景中,推薦算法的精準(zhǔn)度得到了一定提升。
關(guān)鍵詞:協(xié)同過(guò)濾;推薦算法;皮爾遜相似度
中圖分類號(hào):F27?????文獻(xiàn)標(biāo)識(shí)碼:A??????doi:10.19311/j.cnki.1672-3198.2019.17.024
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,三網(wǎng)融合為傳統(tǒng)廣播電視媒介帶來(lái)了新的發(fā)展機(jī)遇。影視行業(yè)也受到大眾的關(guān)注和喜愛(ài),海量的影視資源爆炸性增長(zhǎng)。傳統(tǒng)廣電媒體更需要建立合理的推薦系統(tǒng),將海量的影視資源精準(zhǔn)的推薦給用戶,用戶也能在平臺(tái)上快速找到自己喜歡的電影,提高用戶對(duì)廣電媒體平臺(tái)的依懶性,最終使得個(gè)性化的影視產(chǎn)品營(yíng)銷服務(wù)成為現(xiàn)實(shí)。
本文的主要工作是建立用戶影視評(píng)價(jià)體系、得到用戶與影視產(chǎn)品的評(píng)價(jià)矩陣,結(jié)合協(xié)同過(guò)濾的個(gè)性化推薦思想,綜合考慮推薦系統(tǒng)中的矩陣稀疏性問(wèn)題、冷啟動(dòng)問(wèn)題,對(duì)協(xié)同過(guò)濾算法進(jìn)行改進(jìn),設(shè)計(jì)出一種混合推薦算法,并運(yùn)用到實(shí)際推薦系統(tǒng)中,提高個(gè)性化影視資源推薦的精準(zhǔn)度。
1?數(shù)據(jù)分析
本文的影視產(chǎn)品數(shù)據(jù)包含561288條用戶收視信息數(shù)據(jù),這些數(shù)據(jù)來(lái)自1329位用戶和41876部影視。本文對(duì)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約之后,得到了部分用戶收視信息情況如圖1。
2?構(gòu)建用戶影視評(píng)價(jià)體系
本系統(tǒng)采用隱式評(píng)分的方式構(gòu)建評(píng)價(jià)體系,即根據(jù)用戶的收視行為數(shù)據(jù)進(jìn)行模型構(gòu)建,具體模型如下:
其中,Spij表示用戶i第p次觀看影視產(chǎn)品j的時(shí)長(zhǎng),λ表示用戶i觀看影視產(chǎn)品j的總次數(shù)。Tj表示影視產(chǎn)品j的總時(shí)長(zhǎng)。ξij表示最終評(píng)分,式(3)表示將得到的ξij進(jìn)行標(biāo)準(zhǔn)化處理。
同時(shí),將隱式評(píng)分的等級(jí)分為5個(gè)等級(jí),具體如表1所示。
根據(jù)上述的隱式評(píng)價(jià)模型,我們可以得到一個(gè)關(guān)于用戶與影視作品的評(píng)價(jià)矩陣,其散點(diǎn)圖如圖2所示。
3?協(xié)同過(guò)濾算法設(shè)計(jì)
協(xié)同過(guò)濾算法又稱社會(huì)過(guò)濾,其在不同的場(chǎng)景具有不同的運(yùn)用,故算法種類較多。而在實(shí)踐中較為廣泛利用的協(xié)同過(guò)濾推薦算法主要有兩種,下文將具體分析。
3.1?基于內(nèi)存的協(xié)同過(guò)濾算法
基于內(nèi)存的協(xié)同過(guò)濾算法第一步是計(jì)算用戶之間的相似度,相似度可以衡量?jī)蓚€(gè)用戶對(duì)影視作品之間的興趣程度。常用的相似性度量標(biāo)準(zhǔn)有余弦相似度、改進(jìn)余弦相似度、皮爾遜相似度。其中ξi表示用戶對(duì)所有影視作品j的評(píng)分均值,ξi,j表示用戶i對(duì)影視作品j的評(píng)分值, Sik=Si∩Sk表示用戶i和用戶k都評(píng)價(jià)過(guò)的電影集合。其公式分別如下:
然后,將最大目標(biāo)用戶相似度的用戶作為最鄰近用戶集合,鄰居用戶對(duì)目標(biāo)影視作品未評(píng)分的進(jìn)行預(yù)測(cè)評(píng)分。采用中心加權(quán)平均方法來(lái)計(jì)算目標(biāo)用戶i對(duì)影視作品j的預(yù)測(cè)評(píng)分,評(píng)分r^i,j可表示為:
最后,根據(jù)評(píng)分高低得到推薦結(jié)果,基于內(nèi)存的協(xié)同過(guò)濾算法流程圖如圖3。
3.2?基于模型的協(xié)同過(guò)濾算法
基于模型的協(xié)同過(guò)濾算法在實(shí)踐中運(yùn)用廣泛,它可以通過(guò)矩陣分解、關(guān)聯(lián)算法、神經(jīng)網(wǎng)絡(luò)、聚類算法等方法來(lái)進(jìn)行實(shí)現(xiàn)。本文綜合考慮用戶與影視作品數(shù)據(jù)的稀疏性、算法的計(jì)算效率、影視作品冷啟動(dòng)等問(wèn)題,采用矩陣分解方法(SVD)完成協(xié)同過(guò)濾算法。
因此,需要將誤差平方和SSE降到最小即可。在本文推薦系統(tǒng)中,為了P和Q中所有值都全部更新,故選取常用的梯度下降法對(duì)其進(jìn)行訓(xùn)練。
3.3?混合推薦算法
上述兩種推薦算法都各自具有優(yōu)缺點(diǎn),但在實(shí)際過(guò)程中,不同的推薦算法往往適用于不同的場(chǎng)景,采用混合推薦算法更加精準(zhǔn)。為了發(fā)揮不同推薦算法的優(yōu)缺點(diǎn),本文將上述兩種算法組合,對(duì)其推薦結(jié)果進(jìn)行線性加權(quán)平均得到最終推薦結(jié)果,公式如下:
4?結(jié)果對(duì)比
4.1?評(píng)價(jià)標(biāo)準(zhǔn)
均方根誤差是衡量結(jié)果精準(zhǔn)度的常用評(píng)價(jià)標(biāo)準(zhǔn)之一,其通過(guò)計(jì)算實(shí)際值與預(yù)測(cè)評(píng)值之間的誤差來(lái)判斷推薦結(jié)果的精準(zhǔn)度。在本文場(chǎng)景中,RMSE (均方根誤差)公式見(jiàn)式(13)。均方根誤差越小,推薦系統(tǒng)的精準(zhǔn)度越高。
4.2?評(píng)價(jià)分析
本文隨機(jī)采取5組評(píng)分?jǐn)?shù)據(jù)對(duì)以上3種方法推薦結(jié)果精準(zhǔn)度檢驗(yàn),將方法一記作UB- CF,方法二記作SVD,混合推薦算法記作P-CF。三種推薦算法最終實(shí)驗(yàn)結(jié)果如圖4。
由圖可以看出,隨著測(cè)試次數(shù)的增加,混合推薦算法精準(zhǔn)度更高。
5?結(jié)論
本文首先構(gòu)建了用戶隱式評(píng)分模型,對(duì)于基于內(nèi)存、模型兩種協(xié)同過(guò)濾算法進(jìn)行了討論。針對(duì)這兩種算法的不足,提出了一種加權(quán)混合推薦算法,通過(guò)最后結(jié)果分析,混合推薦算法提高了算法的精準(zhǔn)度和可適應(yīng)性,更能滿足廣電媒體的個(gè)性化推薦影視作品的要求。
參考文獻(xiàn)
[1]劉青文.基于協(xié)同過(guò)濾的推薦算法研究[D].北京:中國(guó)科學(xué)技術(shù)大學(xué),2013.
[2]尹航,常桂然,王興偉.采用聚類算法優(yōu)化的K近鄰協(xié)同過(guò)濾算法[J].小型微型計(jì)算機(jī)系統(tǒng),2013,34(4):806-809.
[3]顧軍華,官磊,張建.基于Hadoop的IPTV隱式評(píng)分模型[J].計(jì)算機(jī)應(yīng)用,2017,(11):156-161.
[4]劉文佳,張駿.改進(jìn)的協(xié)同過(guò)濾算法在電影推薦系統(tǒng)中的應(yīng)用[J].現(xiàn)代商貿(mào)工業(yè),2018,39(17):63-66.
[5]楊文娟,金子馨.基于聚類的協(xié)同過(guò)濾算法的研究[J].電腦知識(shí)與技術(shù),2018,14(16):190-193.