摘 要:如今推薦系統(tǒng)在很多領(lǐng)域都有著較好的應(yīng)用,例如購(gòu)物網(wǎng)站、新聞網(wǎng)站、檢索網(wǎng)站和音樂視頻網(wǎng)站等。尤其是視頻網(wǎng)站,推薦系統(tǒng)各式各樣,不同的視頻網(wǎng)站都使用特定的推薦系統(tǒng)向用戶進(jìn)行個(gè)性化推薦,不同的推薦系統(tǒng)所實(shí)現(xiàn)的推薦效果也是不同的,每個(gè)推薦系統(tǒng)都有各自的優(yōu)點(diǎn)和缺點(diǎn)。本文對(duì)近幾年視頻推薦系統(tǒng)的研究進(jìn)行綜述,介紹常用的推薦算法,并結(jié)合在實(shí)際中使用視頻網(wǎng)站的體驗(yàn),針對(duì)具體的視頻網(wǎng)站指出其存在的問題并提出改進(jìn)建議。
關(guān)鍵詞:推薦系統(tǒng);視頻網(wǎng)站;用戶行為
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)03-0018-03
Video Website Recommendation System Research
LIU Yanxin
(Shanxi University of Finance and Economics,Taiyuan 030006,China)
Abstract:Today’s recommendation system has good applications in many areas,such as shopping websites,news websites,search websites and music video websites. Particular in video websites have various recommendation systems. Different video websites use specific recommendation systems to personalize recommendations to users. Different recommendation systems implement different recommendation effects. Each recommendation system has its own advantages and diSadvantages. This paper summarizes the research of video recommendation system in recent years,introduces the commonly used recommendation algorithm,and combines the experience of using video website in practice,points out the existing problems and proposes improvement suggestions for specific video websites.
Keywords:recommended system;video website;user behavior
1 研究背景和意義
網(wǎng)絡(luò)信息技術(shù)的發(fā)展,使得信息逐漸過載,在過載的信息中,視頻信息由于其自身特性,更加引人注目,由此出現(xiàn)了形式多變的視頻網(wǎng)站。視頻網(wǎng)站上過多的視頻信息導(dǎo)致人們很難從海量的視頻信息中得到自己想要獲取的視頻信息,但是人們對(duì)視頻信息的需求又十分迫切,推薦系統(tǒng)較好地解決了視頻信息過載的問題。視頻網(wǎng)站使用推薦系統(tǒng)向用戶進(jìn)行個(gè)性化視頻推薦,通過對(duì)用戶的觀看記錄等信息進(jìn)行分析,把用戶可能感興趣的視頻推薦給用戶,大大提升了用戶的使用體驗(yàn)。作為視頻網(wǎng)站,采取較好的視頻推薦系統(tǒng),有效地向用戶推薦其感興趣的視頻,才會(huì)吸引更多的用戶訪問,并且節(jié)省費(fèi)用,所以對(duì)視頻推薦系統(tǒng)進(jìn)行研究是十分必要的。本文對(duì)視頻推薦系統(tǒng)的算法和應(yīng)用研究進(jìn)行分析,并針對(duì)嗶哩嗶哩視頻網(wǎng)站提出在推薦視頻時(shí)存在的問題和改進(jìn)建議。
2 視頻推薦算法
推薦算法是推薦系統(tǒng)中最為重要的部分,本文從采用單個(gè)算法推薦和采用混合算法推薦兩個(gè)角度進(jìn)行分析。
2.1 采用單個(gè)算法推薦
基于內(nèi)容的推薦算法一般是通過對(duì)目標(biāo)用戶的歷史行為進(jìn)行統(tǒng)計(jì),而行為又分為顯示反饋、隱式反饋,用戶觀看完視頻后對(duì)視頻所打的分就是對(duì)視頻的顯式反饋數(shù)據(jù),而用戶觀看了視頻但是沒有進(jìn)行打分的這些視頻就是隱式反饋數(shù)據(jù)。根據(jù)與目標(biāo)用戶有過交互的視頻得到用戶的偏好,然后基于用戶行為計(jì)算其他視頻的相似程度,將最相似的視頻推薦給用戶??锟1]等針對(duì)點(diǎn)擊率預(yù)測(cè)準(zhǔn)確性較差的情形將特征工程和機(jī)器學(xué)習(xí)結(jié)合,提高了視頻點(diǎn)擊率預(yù)測(cè)算法的準(zhǔn)確率。對(duì)視頻進(jìn)行特征提取,有效地避免了冷啟動(dòng)的問題,但是特征的提取可能會(huì)比較困難。
基于協(xié)同過濾算法是Goldberg[2]等人提出的,在實(shí)際生活中最為常用的一種推薦算法。算法通過找尋與目標(biāo)用戶相似的用戶進(jìn)而推薦視頻,文獻(xiàn)[3]中將協(xié)同過濾方法分成兩類,基于近鄰和基于模型,基于近鄰是直接使用收集到的數(shù)據(jù)進(jìn)行相似性判斷,基于模型則是對(duì)具體用戶構(gòu)建偏好模型然后進(jìn)行推薦。在傳統(tǒng)的協(xié)同過濾算法的基礎(chǔ)上,李珊珊[4]對(duì)相似度計(jì)算進(jìn)行了改進(jìn),有效地避免了熱門視頻對(duì)推薦結(jié)果的影響;蘇夢(mèng)珂[5]等綜合考慮用戶的行為一致性和信息熵兩個(gè)指標(biāo)對(duì)數(shù)據(jù)進(jìn)行評(píng)價(jià),減少了因?yàn)閿?shù)據(jù)質(zhì)量問題導(dǎo)致推薦結(jié)果出現(xiàn)偏差的可能性。協(xié)同過濾推薦算法使用較為簡(jiǎn)單,效果較好,適用于特征提取較為困難的數(shù)據(jù),例如視頻數(shù)據(jù),但是可能會(huì)因?yàn)橛脩舻臄?shù)據(jù)較少而遇到冷啟動(dòng)問題。
深度學(xué)習(xí)是輸入目標(biāo)用戶和視頻的相關(guān)數(shù)據(jù),使用深度學(xué)習(xí)模型,得到給目標(biāo)用戶的視頻推薦。高睿[6]提出了兩種基于深度神經(jīng)網(wǎng)絡(luò)的視頻個(gè)性化推薦算法,分別為基于深度語義模型和基于概率語言模型的推薦算法,提升了推薦效果。李同歡等[7]提出了一種基于深度學(xué)習(xí)的多交互混合推薦模型,輸入在深度學(xué)習(xí)模型的基礎(chǔ)上得到的信息,使用多層交互的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行學(xué)習(xí),最后聚合進(jìn)行推薦。黃立威等[8]對(duì)基于深度學(xué)習(xí)的推薦系統(tǒng)的研究進(jìn)行分析,提出了未來推薦算法的發(fā)展方向。
除了單純考慮用戶和視頻之間的關(guān)聯(lián),也要考慮目標(biāo)用戶在做出某種行為時(shí)的具體場(chǎng)景,文獻(xiàn)[9]將情境信息添加到傳統(tǒng)的推薦中,使得推薦更加立體。
2.2 采用混合算法推薦
雖然每種推薦算法都有各自的優(yōu)點(diǎn),但是單獨(dú)使用一種推薦算法又有一定的缺陷,所以一般將不同的推薦算法進(jìn)行混合后再進(jìn)行推薦,能夠較好地避免各自的缺陷,提高整體推薦效果。比較常用的是將基于內(nèi)容和基于協(xié)同過濾的兩種算法結(jié)合,湯偉[10]提出了基于Web挖掘的個(gè)性化視頻推薦系統(tǒng),通過對(duì)用戶的Web日志進(jìn)行分析生成目標(biāo)用戶模型,針對(duì)稀疏數(shù)據(jù)使用PCA進(jìn)行降維,并使用內(nèi)容和協(xié)同過濾結(jié)合的算法進(jìn)行推薦。文獻(xiàn)[11]提出將傳統(tǒng)的推薦算法改進(jìn)為可以在分布式平臺(tái)上使用的算法,使用Hadoop平臺(tái)并結(jié)合其他工具來進(jìn)行推薦。翁小蘭等人[12]則針對(duì)在使用傳統(tǒng)協(xié)同過濾算法進(jìn)行推薦時(shí)遇到的數(shù)據(jù)稀疏、冷啟動(dòng)等問題,將協(xié)同過濾算法與大數(shù)據(jù)技術(shù)、社會(huì)網(wǎng)絡(luò)等技術(shù)結(jié)合對(duì)算法進(jìn)行改進(jìn)研究。
3 視頻推薦具體應(yīng)用
視頻推薦也有著很多的應(yīng)用,國(guó)外用戶使用較多的視頻網(wǎng)站有YouTube、Netflix等,YouTube在全世界是被廣泛使用的視頻網(wǎng)站,每個(gè)用戶都可以在網(wǎng)站上上傳和觀看視頻,用戶上傳視頻所標(biāo)記的標(biāo)簽會(huì)影響用戶對(duì)視頻的關(guān)注程度,很多學(xué)者對(duì)視頻標(biāo)簽進(jìn)行了研究,Xu等人[13]提出了可以直接為用戶上傳的視頻生成標(biāo)簽的EventDemo系統(tǒng),保證了標(biāo)簽的準(zhǔn)確性。夏冬晨[14]提出了一種方法,可以提高YouTube視頻的關(guān)注度,使得視頻可能被更多用戶所觀看,增加視頻的點(diǎn)擊率。Netflix[15]是世界最大的收費(fèi)視頻網(wǎng)站,從Netflix的發(fā)展歷史來看,正是舉辦的Netflix Prize比賽,推動(dòng)了視頻推薦的發(fā)展,并且吸引了更多的人來研究推薦系統(tǒng),網(wǎng)站本身也受益很多,早期比賽主要目標(biāo)是預(yù)測(cè)用戶對(duì)視頻的評(píng)分,現(xiàn)在則是通過分析用戶的觀看行為,來為用戶進(jìn)行推薦。
在國(guó)內(nèi),用戶普遍使用的是優(yōu)酷、騰訊、愛奇藝、嗶哩嗶哩等視頻網(wǎng)站,推薦視頻采用的是召回+排序,因?yàn)橐曨l數(shù)量大,全部排序會(huì)低效,所以先進(jìn)行召回找到值得推薦的視頻,然后再對(duì)已經(jīng)篩選過的視頻進(jìn)行排序,將最優(yōu)的視頻推薦給目標(biāo)用戶。
4 具體視頻網(wǎng)站推薦時(shí)存在的問題及相關(guān)建議
嗶哩嗶哩視頻網(wǎng)站視頻內(nèi)容的獨(dú)特性,吸引了很多的用戶使用,但是在向用戶推薦視頻時(shí)可能會(huì)遇到以下問題。
4.1 視頻標(biāo)題、標(biāo)簽與內(nèi)容不匹配
上傳者上傳視頻時(shí)會(huì)給視頻起標(biāo)題,并添加標(biāo)簽,方便用戶進(jìn)行搜索,但是可能會(huì)出現(xiàn)標(biāo)題、標(biāo)簽和視頻的具體內(nèi)容不匹配的情況,這會(huì)降低用戶的觀看體驗(yàn)。針對(duì)這個(gè)問題可以通過分析視頻的具體內(nèi)容,結(jié)合觀看過該視頻的用戶的評(píng)價(jià),對(duì)標(biāo)題和標(biāo)簽進(jìn)行適當(dāng)?shù)男薷?,提高其與視頻的匹配度。
4.2 用戶觀看信息難以區(qū)分
用戶對(duì)視頻的操作不能簡(jiǎn)單的用“是否觀看”“是否評(píng)價(jià)”等標(biāo)準(zhǔn)來評(píng)判,因?yàn)橛脩魧?duì)視頻的喜好程度是不同的。例如用戶觀看視頻時(shí)是否有跳過、加速、手滑點(diǎn)錯(cuò)等行為都會(huì)影響觀看視頻的時(shí)長(zhǎng),用戶的觀看信息也是不同的。所以在特征提取的時(shí)候再進(jìn)行細(xì)化,對(duì)用戶的觀看行為不能用一個(gè)標(biāo)準(zhǔn)來衡量,而是針對(duì)具體情形設(shè)置特征的取值。
4.3 評(píng)價(jià)信息沒有價(jià)值
用戶在手機(jī)上可以對(duì)視頻進(jìn)行點(diǎn)贊、差評(píng)等操作,但是在網(wǎng)頁上卻沒有差評(píng)這個(gè)選項(xiàng),這就導(dǎo)致用戶對(duì)同一視頻的評(píng)價(jià)產(chǎn)生差別。在收集用戶對(duì)視頻的評(píng)價(jià)時(shí),不同等級(jí)的用戶對(duì)視頻的評(píng)價(jià)的重視程度應(yīng)該有一定的差異。還有部分的惡意行為,例如某些用戶不觀看視頻卻對(duì)視頻做出評(píng)價(jià),或者該用戶評(píng)價(jià)與其他用戶評(píng)價(jià)差距較大,這種評(píng)價(jià)會(huì)對(duì)推薦的結(jié)果造成一定影響。視頻網(wǎng)站可以結(jié)合用戶的觀看具體信息來判斷用戶的評(píng)價(jià)的價(jià)值。
5 結(jié) 論
本文通過對(duì)視頻推薦算法進(jìn)行分析,總結(jié)了常用的視頻推薦算法,在此基礎(chǔ)上,針對(duì)嗶哩嗶哩視頻網(wǎng)站在推薦視頻時(shí)存在的問題提出了改進(jìn)的建議,希望能有一些借鑒價(jià)值。
參考文獻(xiàn):
[1] 匡俊,唐衛(wèi)紅,陳雷慧,等.基于特征工程的視頻點(diǎn)擊率預(yù)測(cè)算法 [J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2018(3):77-87.
[2] David Goldberg,David Nichols,Brian M. Oki,et al. Using collaborative filtering to weave an information tapestry [J]. Communications of the ACM,1992,35(12):61-70.
[3] Deshpande M,KarypisG.Item-based top- N,recommendation algorithms [M].ACM,2004.
[4] 李?yuàn)檴?基于協(xié)同過濾的視頻推薦系統(tǒng)設(shè)計(jì) [D].南京:南京郵電大學(xué),2017.
[5] 蘇夢(mèng)珂,楊煜普.基于信息熵和用戶行為一致性的協(xié)同過濾分組推薦 [J/OL].計(jì)算機(jī)應(yīng)用研究:1-6.http://kns.cnki.net/kcms/detail/51.1196.TP.20181009.1405.010.html,2018-10-26.
[6] 高睿.基于深度神經(jīng)網(wǎng)絡(luò)的視頻個(gè)性化推薦系統(tǒng)研究 [D].深圳:深圳大學(xué),2017.
[7] 李同歡,唐雁,劉冰.基于深度學(xué)習(xí)的多交互混合推薦模型 [J/OL].計(jì)算機(jī)工程與應(yīng)用:1-9.http://kns.cnki.net/kcms/detail/11.2127.TP.20180913.0636.010.html,2018-10-26.
[8] 黃立威,江碧濤,呂守業(yè),等.基于深度學(xué)習(xí)的推薦系統(tǒng)研究綜述 [J].計(jì)算機(jī)學(xué)報(bào),2018,41(7):1619-1647.
[9] Gediminas Adomavicius,Ramesh Sankaranarayanan,Shahana Sen,et al. Incorporating contextual information in recommender systems using a multidimensional approach [J]. ACM TranSactions on Information Systems,2005,23(1):103-145.
[10] 湯偉.基于Web挖掘的個(gè)性化視頻推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [J].電子設(shè)計(jì)工程,2018,26(18):102-106+112.
[11] 韓皎.基于分布式平臺(tái)的個(gè)性化推薦算法研究 [D].西安:長(zhǎng)安大學(xué),2017.
[12] 翁小蘭,王志堅(jiān).協(xié)同過濾推薦算法研究進(jìn)展 [J].計(jì)算機(jī)工程與應(yīng)用,2018,54(1):25-31.
[13] Xu H,Ye G,Li Y,et al. Large Video Event Ontology Browsing,Search and Tagging (EventNet Demo) [C]// ACM International Conference on Multimedia. ACM,2015:803-804.
[14] 夏冬晨.基于YouTube的視頻社會(huì)關(guān)注度提高方法的研究 [D].杭州:杭州電子科技大學(xué),2017.
[15] Netflix官網(wǎng).https://lunhem.com/s.php?t=Netflix.
作者簡(jiǎn)介:劉焱昕(1995-),女,漢族,山西長(zhǎng)治人,2016屆計(jì)算機(jī)應(yīng)用技術(shù)專業(yè),碩士研究生,研究方向:數(shù)據(jù)挖掘。