亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于彈幕情感分析和主題模型的視頻推薦算法

        2021-11-05 01:29:00朱思淼魏世偉魏思恒余敦輝
        計(jì)算機(jī)應(yīng)用 2021年10期
        關(guān)鍵詞:情感用戶

        朱思淼,魏世偉*,魏思恒,余敦輝,2

        (1.湖北大學(xué)計(jì)算機(jī)與信息工程學(xué)院,武漢 430062;2.湖北省教育信息化工程技術(shù)研究中心(湖北大學(xué)),武漢 430062)

        0 引言

        隨著Web3.0 時(shí)代的到來(lái),互聯(lián)網(wǎng)應(yīng)用技術(shù)越來(lái)越圍繞用戶個(gè)性化網(wǎng)絡(luò)而蓬勃發(fā)展,隨之而來(lái)的是海量數(shù)據(jù)下信息過(guò)載與數(shù)據(jù)篩選所帶來(lái)的挑戰(zhàn),因此,如何為用戶提供個(gè)性化推薦成為當(dāng)下研究熱點(diǎn)之一。

        近幾年,一種新型的基于視頻時(shí)間軸且可顯示在視頻中的文本評(píng)論方式——“彈幕”迅速占領(lǐng)市場(chǎng),并廣受網(wǎng)民喜愛(ài)。起初彈幕只是小范圍流行于一些動(dòng)漫網(wǎng)站,伴隨彈幕良好的交互性與娛樂(lè)性,越來(lái)越多的主流視頻網(wǎng)站如騰訊視頻、愛(ài)奇藝視頻都增加了彈幕評(píng)論的功能,最初的動(dòng)漫彈幕網(wǎng)站嗶哩嗶哩(Bilibili)視頻網(wǎng)如今也成為了國(guó)內(nèi)最大的互聯(lián)網(wǎng)自制視頻網(wǎng)站,而世界最大的視頻網(wǎng)站YouTube 也出現(xiàn)了彈幕評(píng)論插件。彈幕評(píng)論具有社交性和情感性兩方面特點(diǎn),可用來(lái)作為有效數(shù)據(jù)完成對(duì)視頻推薦系統(tǒng)的改進(jìn)與完善。

        目前,針對(duì)彈幕評(píng)論數(shù)據(jù)的研究并不多,尤其在推薦系統(tǒng)中,彈幕數(shù)據(jù)價(jià)值尚未被充分挖掘,在當(dāng)下海量“短視頻+短評(píng)論”的視頻環(huán)境下,大量用戶的自制視頻缺少評(píng)分和分類,對(duì)于視頻的推薦仍然以傳統(tǒng)的協(xié)同過(guò)濾方法為主。彈幕不同于傳統(tǒng)的文本評(píng)論,其基于視頻時(shí)間軸的即時(shí)性,可以從一定程度上反映視頻的內(nèi)容,所以通過(guò)對(duì)于彈幕的信息挖掘后,可基于視頻內(nèi)容進(jìn)行推薦。通過(guò)對(duì)于彈幕的情感分析,可以更好地發(fā)揮彈幕自身的情感性,同時(shí)也為源源不斷的自制視頻在內(nèi)容上進(jìn)行了情感分類。

        針對(duì)網(wǎng)絡(luò)上大量自制視頻缺少用戶評(píng)分、推薦準(zhǔn)確率不高和對(duì)彈幕數(shù)據(jù)情感性未充分利用的問(wèn)題,本文提出了一種基于彈幕情感分析和主題模型的視頻推薦算法(Video Recommendation algorithm based on Danmaku Sentiment Analysis and topic model,VRDSA)。通過(guò)視頻間的相似度、視頻的播放量、收藏?cái)?shù)、點(diǎn)贊數(shù)等特征計(jì)算視頻的綜合認(rèn)可度,并結(jié)合用戶對(duì)視頻的偏好度來(lái)完成對(duì)視頻的推薦。實(shí)驗(yàn)結(jié)果表明,本文算法對(duì)彈幕進(jìn)行情感分析,并融合主題模型對(duì)視頻進(jìn)行推薦。算法充分挖掘了彈幕數(shù)據(jù)的情感性,使推薦結(jié)果更加準(zhǔn)確。

        1 相關(guān)工作

        1.1 中文彈幕

        當(dāng)前,眾多學(xué)者對(duì)中文彈幕進(jìn)行了研究,并取得一系列成果:文獻(xiàn)[1]從傳播學(xué)角度研究了彈幕的作用與受眾,指出彈幕正以積極的態(tài)勢(shì)發(fā)展,并具有較強(qiáng)研究?jī)r(jià)值和商業(yè)價(jià)值;文獻(xiàn)[2]提出對(duì)視頻中的彈幕進(jìn)行情感分析,雖然主要針對(duì)視頻片段,但為彈幕的研究方式提供了新思路;文獻(xiàn)[3]通過(guò)對(duì)彈幕進(jìn)行分析,并根據(jù)彈幕數(shù)據(jù)提出了一種對(duì)用戶進(jìn)行聚類的算法,主要研究方向是用戶的分類;文獻(xiàn)[4]提出的融合協(xié)同過(guò)濾和主題模型的彈幕視頻推薦算法(Danmaku video Recommendation algorithm combing Collaborative Filtering and Topic model,DRCFT)融合了協(xié)同過(guò)濾和LDA(Latent Dirichlet Allocation)主題模型,基于彈幕對(duì)視頻進(jìn)行了推薦系統(tǒng)的完善,但未從情感維度對(duì)彈幕進(jìn)行分析,沒(méi)有充分利用彈幕的情感性。盡管中文彈幕有較強(qiáng)的研究意義,但目前仍存在一些研究難點(diǎn):1)彈幕文本過(guò)于簡(jiǎn)短、口頭化;2)彈幕中容易出現(xiàn)大量網(wǎng)絡(luò)用語(yǔ),難以使用傳統(tǒng)的情感詞典進(jìn)行分析;3)彈幕往往會(huì)出現(xiàn)與視頻相關(guān)度較低的內(nèi)容。因此,對(duì)彈幕數(shù)據(jù)的預(yù)處理是進(jìn)行彈幕研究過(guò)程中非常關(guān)鍵的步驟。

        1.2 彈幕情感分析

        彈幕的情感分析與傳統(tǒng)中文文本的情感分析緊密相關(guān),但其領(lǐng)域性更強(qiáng),且彈幕評(píng)論會(huì)隨著視頻內(nèi)容變化而不斷變化,因此不能像處理商品評(píng)論一般直接根據(jù)評(píng)論內(nèi)容判斷視頻的情感極性。目前針對(duì)彈幕文本情感分析的主要方法有基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法。情感詞典可通過(guò)人工編寫(xiě)、啟發(fā)式算法來(lái)構(gòu)建,且不同領(lǐng)域的情感詞典對(duì)文本情感分析結(jié)果也有較大的影響,文獻(xiàn)[5]提出了一種基于詞向量的情感詞典構(gòu)建方法,以多部已有中文情感詞典為基礎(chǔ),結(jié)合詞嵌入表示方法,構(gòu)建了一部面向彈幕領(lǐng)域的情感詞典?;跈C(jī)器學(xué)習(xí)的方法需要大量的訓(xùn)練數(shù)據(jù)且依賴對(duì)數(shù)據(jù)一定規(guī)模的人工標(biāo)注,文獻(xiàn)[6]根據(jù)彈幕碎片化、口語(yǔ)化的特點(diǎn)提出了基于詞頻-逆文本頻率指數(shù)(Term Frequency-Inverse Document Frequency,TF-IDF)與支持向量機(jī)(Support Vector Machine,SVM)的情感極性分析模型,利用較少的已標(biāo)注樣本完成對(duì)大量未標(biāo)注彈幕評(píng)論樣本的情感極性分類。文獻(xiàn)[7]利用了彈幕包含時(shí)間序列的特點(diǎn),基于長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)模型提取彈幕評(píng)論的深層特征,利用彈幕評(píng)論文本中的依賴關(guān)系突出關(guān)鍵情感詞的情感權(quán)重。由于彈幕區(qū)別于傳統(tǒng)評(píng)論的多種特性,對(duì)彈幕領(lǐng)域的情感分析研究仍有待發(fā)展。

        1.3 LDA主題模型

        LDA 主題模型是一種文檔主題生成模型,該模型假設(shè)每篇文章都是以一定概率選擇某個(gè)主題,然后從這個(gè)主題中以一定概率選擇一個(gè)詞語(yǔ),最后由若干個(gè)選出的詞語(yǔ)構(gòu)成。LDA 主題模型在概率潛在語(yǔ)義分析(probabilistic Latent Semantic Analysis,pLSA)的基礎(chǔ)上利用Dirichlet 分布得到文檔主題和詞語(yǔ)的先驗(yàn)分布,并通過(guò)Gibbs 采樣來(lái)得到文檔中的文檔-主題分布和主題-詞語(yǔ)分布。LDA 主題模型的圖模型結(jié)構(gòu)如圖1所示。

        圖1 中,α和β都是Dirichlet 分布,通過(guò)Gibbs 抽樣分別得到文檔i的主題分布θi和主題Zi,j的對(duì)應(yīng)詞語(yǔ)分布;通過(guò)主題分布θi得到文檔i中第j個(gè)詞的主題Zi,j;最后從詞語(yǔ)分布中采樣生成詞語(yǔ)Wi,j。

        文獻(xiàn)[8]中提出了基于LDA 主題模型進(jìn)行文本相似度計(jì)算的方法,增強(qiáng)了文檔的向量表示,使相似度的準(zhǔn)確率更高;文獻(xiàn)[9-10]分別將LDA 主題模型用于推薦系統(tǒng)的改進(jìn),但都沒(méi)有對(duì)彈幕數(shù)據(jù)進(jìn)行研究。

        2 基于彈幕情感分析和主題模型的視頻推薦算法

        本文從視頻內(nèi)容的情感分布、視頻的主題和視頻的認(rèn)可度三方面入手,分別對(duì)視頻的彈幕、視頻的標(biāo)簽、視頻的播放數(shù)與收藏?cái)?shù)等用戶互動(dòng)指標(biāo)進(jìn)行量化,提出了VRDSA。VRDSA 通過(guò)視頻彈幕得到視頻間情感向量的相似度,基于視頻標(biāo)簽得到視頻間主題分布的相似度,進(jìn)而得到視頻的綜合相似度,然后結(jié)合用戶的歷史記錄得到用戶對(duì)視頻的偏好度;接下來(lái),基于視頻的播放數(shù)、收藏?cái)?shù)等指標(biāo)對(duì)視頻的大眾認(rèn)可度進(jìn)行量化,并結(jié)合用戶歷史記錄計(jì)算視頻的綜合認(rèn)可度;最后以用戶對(duì)視頻的偏好度為權(quán)重,預(yù)測(cè)用戶對(duì)視頻的認(rèn)可度,實(shí)現(xiàn)對(duì)用戶個(gè)性化的推薦。該算法解決了網(wǎng)絡(luò)自制視頻沒(méi)有用戶評(píng)分,且缺少情感標(biāo)簽因而難以針對(duì)視頻自身內(nèi)容進(jìn)行分析并推薦的問(wèn)題。

        VRDSA的步驟如下:

        1)對(duì)視頻中的彈幕文檔進(jìn)行預(yù)處理,使用情感詞典進(jìn)行情感詞匹配,得到視頻的情感向量,并通過(guò)情感向量計(jì)算視頻間的情感相似度。

        2)對(duì)視頻自帶標(biāo)簽進(jìn)行LDA 主題建模,得到每個(gè)視頻各自標(biāo)簽的主題分布,使用標(biāo)簽的主題分布計(jì)算視頻之間的主題相似度。

        3)將視頻之間的情感相似度和主題相似度進(jìn)行融合,得到視頻之間的綜合相似度,并結(jié)合用戶的歷史記錄計(jì)算用戶對(duì)目標(biāo)視頻的偏好度。

        4)對(duì)視頻的點(diǎn)贊量、播放量等指標(biāo)進(jìn)行量化,得到視頻的大眾認(rèn)可度。然后結(jié)合用戶的歷史記錄與視頻的綜合相似度計(jì)算視頻的綜合認(rèn)可度以調(diào)整目標(biāo)視頻的認(rèn)可度。

        5)基于用戶偏好度和視頻的綜合認(rèn)可度,將用戶對(duì)視頻的偏好度作為權(quán)重來(lái)預(yù)測(cè)用戶對(duì)視頻的認(rèn)可度,最終通過(guò)用戶對(duì)視頻的認(rèn)可度來(lái)生成top-k推薦列表,完成推薦。

        VRDSA的流程如圖2所示。

        圖2 VRDSA流程Fig.2 Flowchart of VRDSA

        2.1 視頻基于彈幕的情感分析

        2.1.1 彈幕數(shù)據(jù)獲取和預(yù)處理

        雖然目前大部分視頻網(wǎng)站和應(yīng)用都加入了彈幕評(píng)論的功能,但較早引入彈幕的Bilibili視頻網(wǎng)依然是國(guó)內(nèi)最大的彈幕視頻網(wǎng)站,它擁有著大量社區(qū)用戶和網(wǎng)絡(luò)自制視頻,并且有獨(dú)特的彈幕文化,是彈幕研究的首選網(wǎng)站。因此本文利用Python中的requests庫(kù)和bs4庫(kù)來(lái)爬取Bilibili 視頻網(wǎng)中的彈幕可擴(kuò)展標(biāo)記語(yǔ)言(eXtensible Markup Language,XML)文件,去除重復(fù)彈幕,利用Jieba庫(kù)并引入文獻(xiàn)[8]中構(gòu)建的彈幕文本情感詞典對(duì)彈幕文檔進(jìn)行分詞,使用停用詞表去除彈幕中無(wú)用詞匯。經(jīng)過(guò)預(yù)處理后的每條彈幕都相當(dāng)于一個(gè)詞語(yǔ)集合。

        2.1.2 視頻情感向量計(jì)算

        本文選用大連理工大學(xué)中文情感詞匯本體庫(kù)及文獻(xiàn)[9]中構(gòu)建的彈幕文本情感詞典來(lái)進(jìn)行視頻情感向量的計(jì)算,處理彈幕中的網(wǎng)絡(luò)語(yǔ)言時(shí),結(jié)合兩種情感詞典可以取得更好的效果。根據(jù)情感詞典中的詞語(yǔ)在7個(gè)情感大類中的情感強(qiáng)度對(duì)每個(gè)詞構(gòu)造一個(gè)7維的情感向量EW=,其中每個(gè)維度代表著一種感情,分別為:樂(lè)、好、怒、哀、懼、惡、驚。如“滑稽”一詞的情感向量EW=(3,0,0,0,0,3,0),表明它在“樂(lè)”與“惡”之間都有一定的感情傾向。通過(guò)對(duì)彈幕的預(yù)處理后,每條彈幕可看作是若干詞語(yǔ)的集合,將該集合中的詞與情感詞典進(jìn)行匹配,在匹配的過(guò)程中,彈幕的其他無(wú)關(guān)詞匯會(huì)被過(guò)濾,然后將匹配后的集合中各個(gè)詞語(yǔ)的情感向量相加且歸一化處理,得到每條彈幕的情感向量為:

        其中:代表彈幕d中第i個(gè)情感詞的情感向量;M為情感詞的向量求和后7 個(gè)維度中的最大值,以此進(jìn)行歸一化處理。若經(jīng)過(guò)預(yù)處理后的彈幕沒(méi)有與情感詞典相匹配的詞,則不對(duì)該條彈幕進(jìn)行計(jì)算。

        對(duì)視頻中所有彈幕的情感向量求平均值,得到視頻的情感向量:

        其中:n為視頻中彈幕的數(shù)量為第k個(gè)彈幕的情感向量。

        2.2 視頻相似度計(jì)算

        2.2.1 視頻的情感相似度

        在計(jì)算得到視頻的情感向量EV后,可通過(guò)余弦相似度(Cosine Similarity)來(lái)計(jì)算兩個(gè)視頻之間的情感相似度:

        其中:是視頻i的情感向量是視頻j的情感向量是視頻i的情感向量中第k個(gè)維度的情感指數(shù)。通過(guò)情感向量的余弦相似度可計(jì)算視頻i與視頻j在情感維度的相似性。

        2.2.2 視頻的主題相似度

        現(xiàn)在大部分視頻網(wǎng)站在用戶上傳視頻時(shí),通常引導(dǎo)用戶為視頻添加標(biāo)簽以確定視頻的主題以便分類。標(biāo)簽一般由多個(gè)短詞語(yǔ)組成,可以從多個(gè)方面體現(xiàn)視頻的主題。這種由多個(gè)主題詞組成的標(biāo)簽可用來(lái)計(jì)算視頻之間的主題相似度。

        針對(duì)視頻標(biāo)簽的處理,本文使用LDA 主題模型以多個(gè)視頻的標(biāo)簽詞語(yǔ)集合作為語(yǔ)料庫(kù),采用Gibbs 采樣算法進(jìn)行建模,得到視頻的標(biāo)簽主題分布矩陣,并計(jì)算視頻標(biāo)簽之間的主題相似度,以此反映視頻之間的主題相似度:

        其中:代表視頻i的主題分布,可將其視作一個(gè)m維的向量(m為L(zhǎng)DA 主題的數(shù)量)代表視頻i的主題分布中第k個(gè)主題的權(quán)重。通過(guò)視頻標(biāo)簽主題分布的余弦相似度計(jì)算出視頻i和j之間的主題相似度。

        計(jì)算出視頻的情感相似度和主題相似度后,通過(guò)加權(quán)求和的方式將兩種相似度融合得到視頻之間的綜合相似度:

        其中:simV(Vi,Vj)代表視頻i,j之間的綜合相似度;代表視頻i,j之間的情感相似度代表視頻i,j之間的主題相似度;α為權(quán)重系數(shù)。當(dāng)α=1 時(shí),視頻的綜合相似度等于視頻的情感相似度,此時(shí)視頻缺少視頻標(biāo)簽;當(dāng)α=0 時(shí),視頻的綜合相似度等于視頻的主題相似度,此時(shí)視頻缺少?gòu)椖弧?/p>

        用戶對(duì)視頻的偏好度利用用戶的歷史觀看視頻集合Hu和集合中視頻與目標(biāo)視頻的相似度得到:

        其中:simV(Vi,Vk)為用戶u歷史觀看視頻Vi與目標(biāo)視頻Vk的相似度;|Hu|為歷史觀看視頻集合的數(shù)量。

        2.3 基于用戶偏好度和視頻認(rèn)可度的推薦

        目前,類似于YouTube、Bilibili 這類綜合視頻網(wǎng)站平臺(tái)擁有大量網(wǎng)絡(luò)自制視頻,由于這些視頻數(shù)量多,主題雜,內(nèi)容、風(fēng)格差異大,難以像電影評(píng)分系統(tǒng)一樣來(lái)衡量視頻的認(rèn)可度,因此可以充分利用視頻的用戶互動(dòng)數(shù)據(jù)如點(diǎn)贊數(shù)、收藏?cái)?shù)、分享數(shù)等來(lái)量化視頻的認(rèn)可度。本文提出了視頻的大眾認(rèn)可度和綜合認(rèn)可度兩個(gè)認(rèn)可度量化值。

        Bilibili 視頻網(wǎng)站中的視頻用戶互動(dòng)指標(biāo)如表1 所示,其中,投幣數(shù)是觀看視頻的用戶將自己的網(wǎng)站虛擬貨幣贈(zèng)送給視頻創(chuàng)作者以此作為激勵(lì),此虛擬貨幣無(wú)需充值。

        表1 視頻用戶互動(dòng)指標(biāo)Tab.1 Video user interaction metrics

        基于Bilibili 視頻的用戶互動(dòng)數(shù)據(jù)的設(shè)置方式,視頻k的大眾認(rèn)可度計(jì)算方式如下:

        其中:β為各用戶互動(dòng)數(shù)據(jù)指標(biāo)的權(quán)值,通過(guò)對(duì)Bilibili 視頻網(wǎng)視頻排行榜中視頻分?jǐn)?shù)的擬合,結(jié)合層次分析法(Analytic Hierarchy Process,AHP)和熵權(quán)法共同確定。考慮到評(píng)論對(duì)于視頻的評(píng)價(jià)有正向和反向,因此未將評(píng)論數(shù)replynum作為衡量視頻大眾認(rèn)可度的指標(biāo)。具體權(quán)重?cái)?shù)值如表2所示。

        表2 視頻用戶互動(dòng)指標(biāo)權(quán)重Tab.2 Weights of video user interaction metrics

        接下來(lái),對(duì)未經(jīng)過(guò)歸一化處理的大眾認(rèn)可度進(jìn)行歸一化處理,得到最終的大眾認(rèn)可度:

        其中MAX代表未歸一化之前大眾認(rèn)可度的最大值。

        為了避免部分視頻大眾認(rèn)可度過(guò)高對(duì)推薦結(jié)果造成的影響,使用綜合認(rèn)可度來(lái)調(diào)整目標(biāo)視頻的認(rèn)可度。通過(guò)視頻的綜合相似度得到視頻k的鄰近項(xiàng)目集Nk,結(jié)合用戶u的歷史記錄項(xiàng)目集Hu得到兩個(gè)集合的交集I,使用式(8)相同方法,可以計(jì)算出交集I中任意視頻i的大眾認(rèn)可度Recpi。最后,計(jì)算交集I中視頻和目標(biāo)視頻的大眾認(rèn)可度平均值,得到目標(biāo)視頻的綜合認(rèn)可度:

        其中:Recpi為視頻k的鄰近項(xiàng)目集與用戶u的歷史記錄項(xiàng)目集Hu的交集I中視頻的大眾認(rèn)可度;Recpk為目標(biāo)視頻的大眾認(rèn)可度;|I|為交集元素個(gè)數(shù)。當(dāng)交集為空集時(shí),即視頻k的鄰近項(xiàng)目集與用戶u的歷史記錄項(xiàng)目集Hu沒(méi)有交集時(shí),目標(biāo)視頻k的綜合認(rèn)可度Recsk為自身的大眾認(rèn)可度Recpk。

        基于用戶偏好度和視頻的綜合認(rèn)可度,將用戶對(duì)視頻的偏好度作為權(quán)重來(lái)預(yù)測(cè)用戶對(duì)視頻的認(rèn)可度:

        其中:preferuk表示用戶u對(duì)視頻k的偏好度;Recsk表示視頻k的綜合認(rèn)可度。

        通過(guò)式(10)可以針對(duì)用戶喜好對(duì)目標(biāo)視頻的認(rèn)可度進(jìn)行調(diào)整:如果用戶對(duì)目標(biāo)視頻的偏好度較高,則用戶對(duì)此視頻的認(rèn)可度也高;如果用戶對(duì)目標(biāo)視頻的偏好度不高,則即使該視頻的綜合認(rèn)可度較高,但對(duì)該用戶而言認(rèn)可度會(huì)降低。根據(jù)VRDSA 預(yù)測(cè)出的用戶對(duì)視頻的認(rèn)可度,可得到目標(biāo)用戶認(rèn)可度最高的top-k個(gè)視頻,最終形成推薦列表并推薦給用戶。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集

        本文實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于BiliBili 視頻網(wǎng)站,使用聚焦爬蟲(chóng)從該視頻網(wǎng)站的Vlog 頻道爬取3 102 個(gè)視頻的所有相關(guān)用戶互動(dòng)數(shù)據(jù),以及3 375 877 條彈幕,涉及用戶1 015 641 個(gè)。通過(guò)數(shù)據(jù)預(yù)處理進(jìn)行彈幕去重、刪除歷史記錄稀疏用戶、剔除部分?jǐn)?shù)據(jù)異常視頻后剩余視頻2 752 條,有效活躍用戶數(shù)量1 071個(gè),每個(gè)用戶平均約有60條歷史觀看記錄。為減小實(shí)驗(yàn)誤差,采用三折交叉驗(yàn)證的方式進(jìn)行實(shí)驗(yàn)。

        3.2 評(píng)價(jià)指標(biāo)

        本文使用準(zhǔn)確率(Precision,P)、召回率(Recall,R)及F值(F1)三個(gè)在推薦系統(tǒng)的評(píng)估中廣泛使用的實(shí)驗(yàn)評(píng)價(jià)指標(biāo)來(lái)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析和評(píng)價(jià)。

        準(zhǔn)確率公式:

        F值公式:

        其中:R(u)為VRDSA 生成top-k推薦列表中的視頻項(xiàng)目;T(u)為測(cè)試集中用戶實(shí)際觀看過(guò)的視頻項(xiàng)目。

        準(zhǔn)確率為成功推薦的視頻數(shù)量與top-k推薦列表中視頻數(shù)量的比值,用于衡量推薦算法的準(zhǔn)確程度;召回率為成功推薦的視頻數(shù)量與用戶觀看記錄數(shù)量的比值。隨著top-k推薦列表中視頻數(shù)量的增加,準(zhǔn)確率會(huì)降低,而召回率會(huì)增加,因而引入準(zhǔn)確率和召回率的加權(quán)調(diào)和平均值F1 來(lái)對(duì)推薦算法進(jìn)行綜合衡量。同等情況下,F(xiàn)1 越高,表明推薦算法的效果越好。

        3.3 結(jié)果分析

        實(shí)驗(yàn)硬件環(huán)境為Intel Core i5-7400 處理器,16 GB 內(nèi)存;軟件環(huán)境為Windows 10 x64 操作系統(tǒng),代碼使用Python3.7.0實(shí)現(xiàn)。實(shí)驗(yàn)數(shù)據(jù)參數(shù)如表3所示。

        表3 實(shí)驗(yàn)數(shù)據(jù)參數(shù)Tab.3 Experimental data parameter

        3.3.1 LDA相關(guān)參數(shù)確定

        在LDA 主題模型的構(gòu)建中,需要確定主題的個(gè)數(shù)和詞語(yǔ)采樣迭代次數(shù)兩個(gè)參數(shù)。設(shè)定歷史記錄數(shù)據(jù)規(guī)模為20 000,推薦數(shù)量為10,融合參數(shù)α為0,即僅使用主題相似度探究主題個(gè)數(shù)和迭代次數(shù)對(duì)精確率、召回率和F 值的影響,得到最優(yōu)參數(shù),結(jié)果如圖3所示。

        圖3 不同主題個(gè)數(shù)和迭代次數(shù)下的評(píng)價(jià)指標(biāo)Fig.3 Evaluation metrics at different numbers of topics and iterations

        由圖3可知,隨著LDA主題數(shù)t增加,3個(gè)評(píng)價(jià)指標(biāo)先逐漸增大,再突然減小后出現(xiàn)波動(dòng),在t為40 或50 時(shí),3 個(gè)評(píng)價(jià)指標(biāo)取得了較高的值,且相較于t=90 在建模過(guò)程中更有效率。而迭代次數(shù)對(duì)評(píng)價(jià)指標(biāo)的影響并不大,從圖3可知,iteration=500 時(shí)算法有最好的效果,故確定LDA 主題個(gè)數(shù)t=40,迭代次數(shù)iteration=500。

        3.3.2 數(shù)據(jù)規(guī)模和融合參數(shù)的確定

        確定LDA 模型構(gòu)建的參數(shù)后,探究不同歷史推薦數(shù)量r和不同融合參數(shù)α的情況下評(píng)價(jià)指標(biāo)的變化。

        1)歷史推薦數(shù)量r的確定。

        確定LDA 主題個(gè)數(shù)t=40,迭代次數(shù)iteration=500,融合參數(shù)設(shè)置為0,探究不同歷史記錄數(shù)據(jù)規(guī)模r下準(zhǔn)確率、召回率、F值的變化,結(jié)果如圖4所示。

        由圖4 可知,隨著歷史記錄數(shù)據(jù)規(guī)模的增加,準(zhǔn)確率、召回率、F 值都在逐漸增大,在r為70 000 時(shí)達(dá)到最大值,故確定實(shí)驗(yàn)所使用的歷史記錄數(shù)據(jù)規(guī)模r為70 000。

        圖4 不同歷史記錄數(shù)據(jù)規(guī)模和推薦數(shù)量下的評(píng)價(jià)指標(biāo)Fig.4 Evaluation metrics at different history record data sizes and numbers of recommendations

        2)融合參數(shù)α的確定。

        得到使算法表現(xiàn)最佳的歷史記錄數(shù)據(jù)規(guī)模r后,在同樣的條件下探究不同的相似度融合參數(shù)α對(duì)準(zhǔn)確率、召回率、F值的影響,結(jié)果如圖5所示。

        由圖5 可知,推薦數(shù)量對(duì)融合參數(shù)并無(wú)明顯影響,隨著α增加,3個(gè)評(píng)價(jià)指標(biāo)均先增加后降低。準(zhǔn)確率、召回率、F值在α取值為0.2~0.5 時(shí)相差不大,在α為0.3 時(shí)達(dá)到最大值,故α取0.3。僅使用主題相似度時(shí)效果較好,通過(guò)融合參數(shù)與情感相似度進(jìn)行融合后可達(dá)到最佳效果。

        圖5 不同融合參數(shù)和推薦數(shù)量下的評(píng)價(jià)指標(biāo)Fig.5 Evaluation metrics at different fusion parameters and numbers of recommendations

        由圖4和圖5可知,推薦個(gè)數(shù)對(duì)于歷史數(shù)量和融合參數(shù)的確定沒(méi)有明顯影響。由于隨著推薦個(gè)數(shù)增加,準(zhǔn)確率增加、召回率降低,故用F值確定最佳推薦個(gè)數(shù),從圖4~5中可知,N為30或40時(shí)算法的效果最佳。

        3.3.3 算法的有效性驗(yàn)證

        在確定LDA 主題個(gè)數(shù)t為40,迭代次數(shù)iteration為500,歷史記錄數(shù)據(jù)規(guī)模r為70 000,融合參數(shù)α為0.3后,將本文提出的VRDSA 與當(dāng)前主流的四種算法,即傳統(tǒng)基于物品的協(xié)同過(guò)濾算法(itembasedCF)、基于標(biāo)簽生成的主題模型tag-LDA 算法、嵌入LDA 主題模型的協(xié)同過(guò)濾算法(Unifying LDA and Ratings Collaborative Filtering,ULR-itemCF)[16]、融合協(xié)同過(guò)濾和主題模型的彈幕視頻推薦算法(DRCFT)[4],基于準(zhǔn)確率、召回率、F值進(jìn)行對(duì)比,驗(yàn)證在不同推薦數(shù)量N下VRDSA的有效性,結(jié)果如圖6所示。

        由圖6 可知,隨著推薦數(shù)量的增加,本文算法的F 值先增加后緩慢下降,評(píng)價(jià)指標(biāo)均優(yōu)于其他四種算法,表明本文算法在不同推薦數(shù)量下推薦的效果均優(yōu)于目前主流的視頻推薦算法。在推薦數(shù)量N為10~40時(shí)均有較好的效果,算法的F值明顯高于其他算法;數(shù)值當(dāng)N超過(guò)40 時(shí),受實(shí)驗(yàn)數(shù)據(jù)集數(shù)據(jù)規(guī)模影響,推薦算法的F 值逐漸趨于平緩下降趨勢(shì),當(dāng)推薦數(shù)量N為60 時(shí),本文算法的效果逐漸接近DRCFT 算法;后續(xù)若再次增大推薦數(shù)量N,所有算法的F 值均會(huì)緩慢下降。若需要進(jìn)一步凸顯本算法的優(yōu)勢(shì),數(shù)據(jù)規(guī)模應(yīng)該進(jìn)行進(jìn)一步擴(kuò)充。

        圖6 各算法不同推薦數(shù)量下的評(píng)價(jià)指標(biāo)Fig.6 Evaluation metrics of different algorithms at different numbers of recommendations

        4 結(jié)語(yǔ)

        本文提出了一種基于彈幕情感分析和主題模型的視頻推薦算法(VRDSA),對(duì)新興的彈幕評(píng)論進(jìn)行情感分析,結(jié)合視頻自帶標(biāo)簽對(duì)視頻的相似度進(jìn)行計(jì)算;并利用視頻的用戶互動(dòng)數(shù)據(jù)對(duì)視頻的認(rèn)可度進(jìn)行量化,解決了網(wǎng)絡(luò)自制視頻缺少合理評(píng)分的問(wèn)題,實(shí)現(xiàn)了基于用戶自身特征與視頻內(nèi)容的綜合推薦,且達(dá)到了較好的效果。針對(duì)冷啟動(dòng)問(wèn)題,一方面通過(guò)基于視頻標(biāo)簽的相似度計(jì)算,可解決因缺少?gòu)椖欢鵁o(wú)法對(duì)視頻進(jìn)行情感分析的問(wèn)題;另一方面對(duì)于缺少歷史播放記錄的新用戶,VRDSA將推薦綜合認(rèn)可度較高的視頻。

        基于視頻內(nèi)容的視頻推薦相較于其他方面的推薦較有難度,而彈幕作為視頻中的實(shí)時(shí)評(píng)論還有很多內(nèi)容可以去挖掘。今后將進(jìn)一步完善彈幕的文本分析處理工作,并結(jié)合單個(gè)用戶的彈幕內(nèi)容和視頻互動(dòng)行為刻畫(huà)用戶畫(huà)像,提高推薦的準(zhǔn)確率。

        猜你喜歡
        情感用戶
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        被情感操縱的人有多可悲
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        關(guān)注用戶
        情感移植
        關(guān)注用戶
        關(guān)注用戶
        Camera360:拍出5億用戶
        日韩精品人妻视频一区二区三区| 亚洲永久无码动态图| 日本久久久免费高清| 一区二区三区国产大片| 亚洲字幕中文综合久久| 国产成人a人亚洲精品无码| 久久亚洲av午夜福利精品一区| 国产网红主播无码精品| 久久婷婷色综合一区二区 | 国产露脸精品产三级国产av| 国产啪精品视频网站丝袜| 免费国产在线精品三区| 蜜桃传媒网站在线观看| 亚洲a∨国产av综合av下载| 欧美一级欧美一级在线播放| 久久麻豆精亚洲av品国产精品| 日韩人妻美乳中文字幕在线| 亚洲精品国产精品乱码在线观看| 免费无码黄动漫在线观看| 91华人在线| 亚洲av成人永久网站一区| 成人爽a毛片免费视频| 国产香蕉一区二区三区在线视频 | 在线人妻va中文字幕| 日韩国产精品无码一区二区三区 | 一级黄片草逼免费视频| 亚洲av免费手机在线观看| 久久青青草原精品国产app| 玩弄放荡人妻一区二区三区| 日韩女优中文字幕在线| 久久一道精品一区三区| 久久久久国产一区二区| 正在播放淫亚洲| 日本免费视频一区二区三区| 丝袜人妻一区二区三区| 免费无码毛片一区二区app| 欧美激情五月| 国产av精品久久一区二区| 日韩在线精品视频一区| 欧美性巨大╳╳╳╳╳高跟鞋| 国产va免费精品高清在线观看|