亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

視頻內容特征與彈幕文本相結合的短視頻推薦模型

2021-06-15 01:08:18鄒寶旭徐紅艷

遼寧大學學報(自然科學版) 2021年2期

馮勇，鄒寶旭，徐紅艷

(遼寧大學信息學院，遼寧沈陽 110036)

0 引言

短視頻成為日活躍用戶規(guī)模增速最快的移動互聯(lián)網(wǎng)細分領域之一，日活躍用戶規(guī)模接近在線視頻用戶規(guī)模的2倍[1].用戶上傳的各類短視頻數(shù)量增長勢頭持續(xù)上漲，例如國外的YouTube，國內的騰訊視頻、愛奇藝以及抖音等各類在線視頻平臺通過積分、排名、推薦等服務激發(fā)用戶貢獻意愿和提升用戶體驗.

個性化推薦一直是處理海量信息的一種有效途徑，在視頻服務領域眾多平臺運用推薦系統(tǒng)向用戶提供優(yōu)質的視頻以增加客戶粘性和提升用戶滿足度[2-4].隨著人工智能的不斷發(fā)展，基于深度學習的推薦系統(tǒng)能夠更好地分析用戶的行為習慣和即時興趣，進而為用戶提供更具個性化的推薦列表.這方面具有代表性的研究成果有：文獻[5]針對視頻當中的物體檢測問題，提出了一種基于深度學習的視頻物體檢測與內容推薦系統(tǒng)方案，通過視頻中的物體檢測和識別，將視頻內容與相關的產(chǎn)品內容進行匹配.文獻[6]對于視頻在推薦過程當中多樣性差的問題提出了一種所屬性聯(lián)合算法，該算法通過用戶的歷史記錄以及系統(tǒng)內容的各項基本屬性進行結合，以此來達到個性化推薦的目的.文獻[7]提出了一種基于深度學習模型的內容推薦策略，引入深度神經(jīng)網(wǎng)絡詞向量方法，根據(jù)視頻自身的相關信息，以及用戶的歷史觀看記錄，以此作為基礎對于用戶進行相似用戶的刪選，進而產(chǎn)生推薦.文獻[8]根據(jù)視頻內容的隱含評論分析，提出了一種視頻推薦算法，其目的主要是為了解決網(wǎng)絡視頻當中某些多媒體信息難以提取的問題.文獻[9]提出了一種端到端的短視頻處理框架，通過該框架能夠將不同元素之間的內容進行特征提取，通過端與端之間的聯(lián)系，以此來實現(xiàn)語義表征.

以上研究成果雖使視頻推薦性能得到一定的提升，但由于沒有考慮短視頻中彈幕文本蘊含的豐富語義信息，導致推薦的準確度不高且效率低下.為此，本文引入彈幕文本分析，提出了一種視頻內容特征與彈幕文本相結合的短視頻推薦模型(A short video recommendation model combined video content characteristics with bullet screen text，CVBT).首先對彈幕文本進行分析，確定彈幕文本的主題；之后通過深度學習方法對短視頻進行處理，利用視頻的高光時刻，提取相應的視頻內容特征；最后基于用戶的最近興趣，確定其所屬主題，經(jīng)相似度計算得到推薦列表.經(jīng)對比實驗驗證，本文所提模型與LDA、RFM、VRFCL等短視頻推薦模型相比，在準確率以及召回率上均有明顯提升，并且具有良好的效率優(yōu)勢[2].

1 相關工作

1.1 短文本分析技術

隨著社交網(wǎng)絡的不斷發(fā)展以及互聯(lián)網(wǎng)技術的逐漸完善，傳統(tǒng)的文本表述方式已經(jīng)難以滿足人們生產(chǎn)以及生活的需求，因此短文本應運而生.在最近幾年的研究當中，國內外相關學者對于短文本的研究浪潮一直處于上升階段.國外的一些研究人員很早就開始對于Twitter和Facebook進行了分析探討.Song等[10]明確指出，進行Twitter內容分類的過程當中，是一件非常復雜且難度很高的工作.主要是因為用戶在發(fā)送Twitter的時候，所使用的詞語十分簡單，同時在用詞方面也十分隨意.文獻[11]提出了一種微博新詞識別方法，微博中存在很多網(wǎng)絡用語，這些網(wǎng)絡用語并沒有在詞典當中進行體現(xiàn)，因此提出了一種關于微博中網(wǎng)絡用語的識別方法.Wang等[12]根據(jù)圖結構的特殊性，提出了一種基于標簽的分類方法，根據(jù)用戶發(fā)送Twitter時的文本內容主題不同，以此來進行標簽劃分，通過圖結構對于各類標簽構建聯(lián)系，然后對Twitter文本的主題情感進行分類.文獻[13]根據(jù)短文本的特點，利用深度學習技術理論，在短文本計算涉及的文本語義表示、中文分詞以及文本相似度計算等環(huán)節(jié)進行了分析和研究，最終形成一個完整的短文本計算框架.

就其根本而言，所有的彈幕文本都是按照時間序列進行排序而得到的短文本，彈幕系統(tǒng)最近幾年才開始被國內一些視頻網(wǎng)站所采用.目前，隨著我國直播行業(yè)以及短視頻平臺的流行，對于彈幕數(shù)據(jù)的研究也越來越多.詹雪美[14]深入分析彈幕視頻的特點，討論了彈幕視頻網(wǎng)站的產(chǎn)生、發(fā)展與意義.文獻[15]提出一種基于深度學習的彈幕視頻片段情感分析模型，結合視頻重要性評分與LSTM網(wǎng)絡模型能夠有效識別短視頻當中的情感主題.

1.2 深度學習技術

深度學習是機器學習研究中的一個重要分支，隨著深度學習技術的不斷發(fā)展，其目的在于能夠建立一個模仿大腦的神經(jīng)網(wǎng)絡系統(tǒng)，并且根據(jù)大腦的運行機制，對于輸入其中的各項數(shù)據(jù)進行分析與解釋，例如圖像、聲音以及文本等.

隨著對深度學習方法研究的不斷深入，越多越多的學者將其應用于視頻以及圖像的內容特征分析中.文獻[16]提出了一種基于深度學習的視頻關鍵幀提取與視頻檢索研究.文獻[17]提出了一種基于深度學習的監(jiān)控視頻中的車輛實時檢測，通過視頻檢測中的車輛特征檢測，能夠有效提高車輛的檢測準確性.文獻[18]提出的方法使用CNN提取圖片特征，利用多尺度滑動窗口算法進行檢測，取得了很好的效果.文獻[19]提出了用深度卷積神經(jīng)網(wǎng)絡來學習人臉的識別性和壓縮性二值表示，用于人臉視頻檢索.文獻[20]提出了一種基于深度學習技術的視頻表示方法，通過內容特征進行視頻的分類與聚類.

2 視頻內容特征與彈幕文本相結合的短視頻推薦

針對目前的短視頻推薦準確度不高，較少利用彈幕信息等問題，本文引入短視頻中彈幕文本進行分析，提出了一種視頻內容特征與彈幕文本相結合的短視頻推薦模型.

對短視頻進行分析，分析對象可以分為兩個部分：一部分是短視頻本身的內容，另一部分則是短視頻中的彈幕文本.彈幕技術的出現(xiàn)使用戶能夠即時地針對觀看的視頻內容發(fā)表文本評論，與視頻瀏覽后的評論相比，彈幕文本能夠更為即時、準確地反映出用戶在觀看短視頻時的體驗與感受，用戶通過發(fā)送彈幕以此來表達自身的情感以及對于視頻內容的評價.本文以短視頻推薦為研究背景，根據(jù)短視頻中大量的彈幕文本，確定該短視頻的彈幕文本主題；再通過深度學習方法分析短視頻中的高光時刻，確定短視頻的內容特征與主題間的關聯(lián)；最后根據(jù)用戶近期看過的視頻，形成相應的推薦列表.下面給出視頻內容特征與彈幕文本相結合的短視頻推薦模型框架如圖1所示，并對彈幕文本分析、短視頻內容特征分析、生成推薦列表進行詳細介紹.

圖1 視頻內容特征與彈幕文本相結合的短視頻推薦模型(CVBT)框架圖

2.1 彈幕文本分析

2.1.1 彈幕處理

對于彈幕信息來說，人們通過發(fā)送彈幕能夠有一種“實時互動”的感覺，彈幕信息是用戶的切實體驗或是情感表達.在同一時刻的短視頻內容當中，發(fā)送的彈幕其主題具有一定的關聯(lián)性，因此本文選擇彈幕相對豐富的位置進行彈幕文本采集.

對于一個短視頻來說，每一秒甚至是每一幀都有可能出現(xiàn)彈幕.在彈幕選取時，彈幕時刻的短視頻內容與其是一一對應的，本文將短視頻當中彈幕最為密集的時刻定義為該短視頻的高光時刻.

2.1.2 文本分析

目前，在短視頻推薦領域很少有人將彈幕文本作為推薦依據(jù).而實際上，隨著短視頻的火爆以及彈幕系統(tǒng)的廣泛應用，用戶通過彈幕發(fā)表自己對短視頻的評論與見解，彈幕文本越來越能夠反映出用戶的喜好.彈幕文本在用戶進行視頻選擇的過程中，可以將其作為重要的參考內容，以此來滿足不同用戶對于各類視頻以及視頻內容的檢索需求.

本文采用LDA[21]模型進行彈幕文本分析.如公式(1)所示，d為彈幕文本，z為彈幕文本中的某個主題，則條件概率P(zi|d)表示在彈幕文本當中某個主題的概率，w為文本主題中的某個單詞，因此P(w|zi)表示在某個彈幕主題當中單詞的分布概率.則對于一個單詞w在整個彈幕文本d中的分布概率為：

(1)

其中，z表示隱含主題的個數(shù)，該數(shù)值大小需要提前進行確定，不同的z值將會對于文本建模結果產(chǎn)生影響.

本文通過Gibbs抽樣進行LDA模型的構建，利用公式(2)計算每個單詞在彈幕文本當中的概率大小，并且通過其概率來確定彈幕文本主題.對于彈幕文本di中的每個單詞wi循環(huán)抽樣，估算由wi生成一個新的主題zi=n的概率P(zi=n|wi，di，z-i)如公式(2)

(2)

通過Gibbs重復抽樣，當抽樣次數(shù)足夠多且滿足要求的時候，彈幕文本中隱含的主題概率將會趨于穩(wěn)定，并且服從狄利克雷分布函數(shù)，而此時對于公式當中的平滑參數(shù)α、β，其達到其收斂值.對于其中的先驗概率可以通過式(3)和式(4)得到.

(3)

(4)

通過LDA模型，得到彈幕文本中的主題分布，進而確定該短視頻的主題，將短視頻按主題進行劃分，同一個主題下有若干短視頻.

2.2 短視頻內容特征分析

2.2.1 視頻片段處理

與傳統(tǒng)的視頻相比，短視頻不僅具有輕量化的特點，同時其包括的內容量大，信息全面，表達方式跟為直觀、具體.用戶能夠在短時間內找到自己感興趣的視頻內容.用戶在觀看短視頻的同時，可以發(fā)送彈幕，彈幕最為密集的時刻，本文將其定義為高光時刻，同時將高光時刻作為生成網(wǎng)絡的輸入，高光時刻是整個短視頻內容中的核心部分，也是用戶更為感興趣的環(huán)節(jié).

高光時刻為短視頻當中彈幕最為密集的時刻，高光時刻的選取跟彈幕的數(shù)量密切相關.與此同時，本文通過對大量短視頻研究發(fā)現(xiàn)，短視頻中彈幕的生存時間為t0=5 s，即一條彈幕出現(xiàn)到消失持續(xù)時間為5 s，因此本文根據(jù)短視頻彈幕的生存時間t0=5 s，按照5 s時間間隔進行彈幕收集，將其中彈幕數(shù)量最多的部分，作為該短視頻的高光時刻.

2.2.2 內容特征提取

經(jīng)2.1節(jié)對所選彈幕文本進行LDA主題模型分類之后，各短視頻能夠根據(jù)其彈幕文本的主題進行劃分.與此同時，根據(jù)彈幕文本的選擇，能夠確定各短視頻中的高光時刻.在同一主題下，將所屬短視頻中的高光時刻作為生成網(wǎng)絡的輸入，提取短視頻內容特征.

深度學習模型能夠準確識別視頻、圖像以及文字等內容，本文采用深度學習方法中的卷積神經(jīng)網(wǎng)絡對短視頻中的“高光時刻”進行處理，如圖2所示，本文采用兩次卷積+池化的方式，以此來保證提取特征的穩(wěn)定性.

圖2 主題模型生成網(wǎng)絡

本文將短視頻中的高光時刻作為生成網(wǎng)絡的輸入，在卷積層當中設置其卷積核大小為5×5的，輸入的通道數(shù)是1，輸出的通道數(shù)是32，經(jīng)過卷積層之后得到6個C1特征圖，并且將其作為第一次池化的輸入，設置池化的步長為2，經(jīng)過池化之后，S2中每個特征圖的大小是C1中特征圖大小的1/4，通過sigmoid激活函數(shù)，得到短視頻高光時刻中的內容特征.

在第二次卷積+池化的過程當中，其卷積核大小與第一次相同，但是其輸入的通道數(shù)增加為32，輸出的通道數(shù)64，S4中每個特征圖的大小是C3中特征圖大小的1/4，在全連接層當中，加上一個偏置，結果通過sigmoid函數(shù)輸出.生成網(wǎng)絡根據(jù)短視頻中視頻內容特征進行模型訓練，最終實現(xiàn)短視頻的主題分類.

2.3 生成推薦列表

根據(jù)用戶的歷史觀看記錄，能夠得到用戶最近所觀看過的短視頻，通過短視頻中高光時刻的內容特征，確定該短視頻的主題.這里借助one-hot[22]編碼的思想，使用N位狀態(tài)寄存器表示N位信息，每一位信息表示一種主題類別.在同一主題下，通過公式(5)進行相似度計算，最終按照相似度大小排序，選擇排序靠前的短視頻形成推薦列表.

(5)

D1表示用戶近期觀看短視頻中的高光時刻，D2表示同一主題下其他視頻的高光時刻，通過one-hot編碼對短視頻的高光時刻進行向量計算，即lk表示短視頻中的向量.分子表示兩個視頻向量的點乘積，分母表示兩個視頻向量的模的乘積，進行其相似度計算.

3 實驗分析

3.1 實驗環(huán)境與數(shù)據(jù)

本文構建的推薦模型開發(fā)工具為pycharm，運行環(huán)境為Windows10-64位系統(tǒng)，計算機采用2.30 GHz，Intel(R)Core(TM)i5-4200U和8 GB內存.

本文中所用數(shù)據(jù)來源于嗶哩嗶哩網(wǎng)站、騰訊視頻以及優(yōu)酷新媒體短視頻，樣本數(shù)據(jù)的統(tǒng)計信息包括：視頻總量為8 000個，視頻類別包含10個大類，34個小類，所有的數(shù)據(jù)處理都是通過Python進行實現(xiàn)的.

3.2 評價指標

本文設置了三組對比試驗以此來驗證模型的準確性和效率.本文還設置了通過用戶的行為分析進行視頻推薦RFM[23]、融合評論分析的視頻推薦模型VRFCL[24]以及基于內容的協(xié)同過濾模型MTER[25]作為本實驗的對比實驗.本實驗采用準確率、召回率和F值三個指標來衡量各模型的有效性，評價指標的計算公式如式(6)-(8)表示.其中TP表示的是方法推薦的并且用戶真實喜歡的視頻數(shù)，F(xiàn)P表示方法推薦的但不是用戶喜歡的視頻數(shù)，F(xiàn)N表示方法沒有推薦但是用戶實際喜歡的視頻數(shù)，而TN則是方法既沒有推薦而且用戶也不喜歡的視頻數(shù).

(6)

(7)

(8)

與此同時，為了保證彈幕文本能夠突出其主題，根據(jù)彈幕文本當中的主題數(shù)量Z進行實驗，由于片段當中的彈幕數(shù)目有成百上千條，其主題數(shù)也有幾十種，為了保證主題簡短而有效，設置Z的數(shù)值為1～10，圖3為彈幕主題個數(shù)對準確性的影響情況.由圖3可知，在主題個數(shù)Z的選取中，當主題數(shù)為3時達到最優(yōu)，超過5個后，對準確率的影響不大.

圖3 彈幕文本主題Z個數(shù)對準確性的影響

圖4 各模型指標的比較

通過圖4的比較可知，模型的召回率更高，其模型的推薦性更高，并且其F值也明顯也高于另外三種模型.圖4中對于4種模型的準確率、召回率以及F值進行了匯總，通過觀察可知，本文通過引入彈幕文本，極大的提高了個性化服務水平，在模型的準確性、召回率以及F值等方面都有了一定程度的提升.

圖5 各模型效率對比圖

在方法四當中，本文提出的CVBT模型充分結合了視頻當中的彈幕信息，彈幕文本能夠在一定程度上反映出用戶的真實情感，用戶在觀看視頻的時候，可以通過彈幕的方式將自己的情感或者是對于內容的評論進行發(fā)送，這樣新型的彈幕文化對于短視頻推薦當中起到的作用是毋庸置疑的，因此推薦的準確率更高一些.同時方法四的召回率更好一些，說明其穩(wěn)定性更好一些.

本文根據(jù)高光時刻進行視頻內容特征的分析，其效率要比對短視頻作整體內容分析要高，圖5所示為模型效率對比，如圖所示，本文提出的CVBT在效率上要比其他模型高很多.

4 結論

基于目前短視頻在推薦過程中的準確性與效率不高，本文提出了一種視頻內容特征與彈幕文本相結合的短視頻推薦模型，融合深度學習方法與彈幕技術的優(yōu)勢，提高短視頻推薦的個性化水平.首先對于彈幕進行文本分析，確定彈幕文本的主題；然后通過深度學習分析短視頻內容的特征，得到相應的主題模型；最后根據(jù)用戶的近期興趣，確定其主題，形成相應的推薦列表通過對比實驗驗證，本文所提模型在準確率、召回率上比RFM以及VRFCL等模型有較顯著的提升，并且效率也有所提高.