莊須強(qiáng) 劉方愛
摘要:彈幕評論能更準(zhǔn)確、具體地反映出用戶在觀看視頻時(shí)的即時(shí)情感和褒貶評價(jià),因此本文提出了一種基于注意力機(jī)制的LSTM(AT-LSTM)情感分析模型。首先基于注意力機(jī)制更好的挖掘出整個(gè)彈幕評論中的情感關(guān)鍵詞;然后利用LSTM模型有效結(jié)合視頻中前后彈幕評論的情感依賴關(guān)系,最終提取出基于主題的“高光”視頻片段。實(shí)驗(yàn)結(jié)果表明所提方法的準(zhǔn)確度比傳統(tǒng)LDA和LSTM方法有了進(jìn)一步的提高。該模型可以幫助用戶更準(zhǔn)確的獲取網(wǎng)絡(luò)視頻彈幕數(shù)據(jù)中包含的情感信息,進(jìn)而提供了一種新的視頻檢索與視頻推薦新途徑。
關(guān)鍵詞:深度學(xué)習(xí);彈幕評論;情感分析;AT-LSTM
中圖分類號:G206 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2018)02-0210-03
1 引言
彈幕視頻是近年來出現(xiàn)的一種將觀眾評論與視頻內(nèi)容相結(jié)合的視頻形式,融合了視頻與社交元素。用戶可以在觀看視頻的同時(shí)發(fā)表評論,且彈幕評論會以彈幕的形式實(shí)時(shí)出現(xiàn)在視頻上。
彈幕評論數(shù)據(jù)包含評論文本及其對應(yīng)的視頻時(shí)間點(diǎn)信息,因此與一般的評論數(shù)據(jù)相比,彈幕數(shù)據(jù)能更準(zhǔn)確、具體地反映出用戶在觀看視頻時(shí)的即時(shí)情感和褒貶評價(jià),這些情感和評價(jià)信息可以為其他用戶在選擇視頻時(shí)提供參考。利用情感分析技術(shù)從網(wǎng)絡(luò)視頻彈幕中提取情感信息,可以幫助用戶獲取視頻評論文本整體的情感傾向,以及評論情感隨時(shí)間的變化情況。隨著彈幕功能在各大主流視頻網(wǎng)站的推廣,彈幕評論中的觀點(diǎn)和情感表達(dá)將更具普遍性和參考性。在彈幕評論情感分析的基礎(chǔ)上,可以建立根據(jù)評論情感的視頻檢索新途徑,滿足更多元、個(gè)性化的檢索需求。
本文結(jié)合彈幕視頻特性設(shè)計(jì)一種基于注意力機(jī)制的LSTM情感分析模型(AT-LSTM)來提取視頻中的精彩片段:
(1)有效的分析了視頻中彈幕評論的前后相關(guān)性,從而更準(zhǔn)確的獲得彈幕評論的主題信息。(2)依據(jù)主題模型對彈幕中的詞進(jìn)行主題分類并計(jì)算視頻片段之間的情感相似度,得到基于主題分布的精彩視頻片段。(3)通過加入注意機(jī)制突出了彈幕評論中關(guān)鍵性情感詞的影響作用,進(jìn)一步提高了模型的準(zhǔn)確率。
2 相關(guān)工作
2.1 彈幕定義
彈幕:彈幕可以定義為一個(gè)三元組,其包含了用戶輸入內(nèi)容、發(fā)送時(shí)間、用戶ID。本文主要對中文、英文、數(shù)字三種形式的彈幕內(nèi)容進(jìn)行分析,其中英文彈幕包含了部分網(wǎng)絡(luò)用語,如“QAQ”( 表示哭泣)等;數(shù)字部分包含了常用網(wǎng)絡(luò)流行詞,如“233”(表示大笑)和“666”(表示厲害)等。
如圖1所示不同語言的彈幕形式,彈幕視頻截圖上方的文字為用戶發(fā)送的彈幕。
2.2 “高光”視頻片段
“高光”視頻片段:本文的宗旨就是找出彈幕視頻的情感鮮明突出的“高光”視頻片段(“Highlights” video shots)。所謂“高光”視頻片段,即視頻中的精彩片段,是指用戶對視頻某一部分內(nèi)容帶有強(qiáng)烈感情色彩討論。
通過研究發(fā)現(xiàn),視頻彈幕評論包含有一定的“時(shí)間相關(guān)性”,即當(dāng)用戶發(fā)送彈幕評論Ci時(shí),他們可以參考當(dāng)前以及先前的彈幕評論內(nèi)容,因此,相鄰的評論在語義向量上可能是相似的,當(dāng)視頻呈現(xiàn)一段精彩內(nèi)容時(shí)(高光片段),用戶通過大量參與評論從而產(chǎn)生了對應(yīng)的“主題”?;谶@種現(xiàn)象,我們在彈幕評論Ci周圍的一定區(qū)域Aj=
2.3 Attention-based LSTM(AT-LSTM)
LSTM(Long Short Term Memory)是一種有效的鏈?zhǔn)窖h(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),被廣泛用于語言模型、機(jī)器翻譯、語音識別等領(lǐng)域。標(biāo)準(zhǔn)的LSTM檢測不到彈幕評論中重要的情感評論。為了解決這個(gè)問題,我們建立了一種注意機(jī)制,它可以捕捉句子的關(guān)鍵部分的注意力機(jī)制。
文本的輸入序列為輸入序列{x1,x2,x3,…,xt}作為歷史節(jié)點(diǎn),歷史節(jié)點(diǎn)的輸入向量的累加求均值,得到文章總體的輸入向量表示X,X作為編碼階段最后的輸入。{h1,h2,h3,…,ht}對應(yīng)于輸入序列{x1,x2,x3,…,xt}的隱藏層狀態(tài)值。Ht對應(yīng)于輸入X的隱藏層狀態(tài)值。
圖2中的ai就是歷史節(jié)點(diǎn)對于最后節(jié)點(diǎn)的注意力概率。Ai越大表示這個(gè)詞在彈幕評論中的情感語義越重要。圖中輸入序列{x1,x2,x3,…,xt}是彈幕評論文本的詞語表示,X是彈幕評論總體的輸入向量表示。計(jì)算出{x1,x2,x3,…,xt}對于彈幕評論總體的影響力權(quán)重,可突出關(guān)鍵詞的作用,減少非關(guān)鍵詞對于文本整體語義的影響。
aki= (公式2-1)
eki=vtanh(Whk+Uhi+b) (公式2-2)
其中aki表示節(jié)點(diǎn)i對于節(jié)點(diǎn)K的注意力概率權(quán)重。T為輸入序列的元素的數(shù)目。V、W、U為權(quán)重矩陣,hk為最后輸入對應(yīng)的隱藏層狀態(tài)。hi表示輸入序列第i個(gè)元素對應(yīng)的隱藏層的狀態(tài)值。主要思想是計(jì)算歷史節(jié)點(diǎn)和最后輸入節(jié)點(diǎn)的關(guān)系分?jǐn)?shù),然后計(jì)算占總體分?jǐn)?shù)的比重,通過這個(gè)公式我們得到了每一個(gè)輸入對于最后輸入的注意力概率。
計(jì)算注意力分布概率的語義編碼和特征向量,計(jì)算公式:
C=akihi (公式2-3)
Hk=H(C,hk,X) (公式2-4)
其中語義編碼C主要是通過注意力概率權(quán)重與歷史輸入節(jié)點(diǎn)的隱藏層狀態(tài)乘積的累加得到。最終的語義編碼是將含有歷史節(jié)點(diǎn)的注意力概率分布的語義編碼和文章總體向量作為傳統(tǒng)LSTM模塊的輸入,然后最后節(jié)點(diǎn)的隱藏層狀態(tài)值Hk就是最終的特征向量。該特征向量,包含了歷史輸入節(jié)點(diǎn)的權(quán)重信息,突出了關(guān)鍵詞的語義信息。
3 基于AT-LSTM的情感分析模型
3.1 準(zhǔn)備工作
時(shí)間標(biāo)簽不僅包含類型信息,還包含視頻中的時(shí)間范圍,我們首先設(shè)置一個(gè)m秒的時(shí)間窗口,將視頻分割成視頻片段。對于每個(gè)視頻片段,我們將其視為基本單元,并提取其時(shí)間標(biāo)簽。
我們傾向于突出顯示標(biāo)注主題的視頻片段,因?yàn)榭梢垣@得更多的“高光”視頻片段,我們對分割后的視頻片段集將進(jìn)行主題聚類處理。因此,我們用對應(yīng)的主題來標(biāo)注每個(gè)評論,對于每個(gè)視頻片段,我們可以簡單地計(jì)算評論是否存在某種主題,并將其頻率表示為f并且,如果我們有一個(gè)存在某種主題的片段,該視頻片段可以識別為“高光”視頻片段。
如果視頻片段S被識別為“高光”視頻片段,則可以用Shighlight={
對于所有視頻片段找到主題頻率f對應(yīng)的最大值max和最小值min,我們可以設(shè)定一個(gè)閾值θ來計(jì)算該片段是否是Shighlight視頻片段(其中α稱為合格率):
θ=α*min+(1-α)*max(0≤α≤1) (公式3-1)
3.2 主題聚類
我們以監(jiān)督的方式處理“高光”視頻片段。由彈幕Ctrain和一系列現(xiàn)有的標(biāo)簽Ltrain={
3.3 主題合并
最后,對于任何相鄰的Shighlight片段
4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)數(shù)據(jù)
本文的實(shí)驗(yàn)數(shù)據(jù)是由國內(nèi)彈幕網(wǎng)站bilibili上下載的視頻及彈幕組成。數(shù)據(jù)包括不同類型的彈幕視頻,過濾掉少于40條彈幕的視頻,如表1所示每條評論數(shù)據(jù)包含評論文本和評論時(shí)間。本文選用NLPIR作為中文分詞工具,通過對彈幕數(shù)據(jù)進(jìn)行分詞、清洗、去噪之后,設(shè)置時(shí)間窗口m=100s,將視頻分割成視頻片段,整理得到1600個(gè)視頻片段以及132850條彈幕評論,并隨機(jī)將其中的一半訓(xùn)練數(shù)據(jù)Ctrain,一半作為測試數(shù)據(jù)Ctest。
4.2 實(shí)驗(yàn)設(shè)置
本文選擇了LDA,LSTM算法作為本文實(shí)驗(yàn)的對比算法。實(shí)驗(yàn)過程包括以下幾個(gè)步驟:
(1)對所有視頻進(jìn)行分段,對每個(gè)視頻片段分別計(jì)算情感向量。(2)利用AT-LSTM模型對視頻片段情感相似度分析。輸出的語義特征維度為50,訓(xùn)練過程中采用dropout策略,且dropout取值0.5。(3)利用LDA算法計(jì)算每個(gè)視頻片段情感相似度分?jǐn)?shù),并取分?jǐn)?shù)最高的Ntop個(gè)視頻片段作為高光視頻片段集。
4.3 評價(jià)指標(biāo)
本文采用正確率(precision)、召回率(recall)和F值(meanF1)三個(gè)標(biāo)準(zhǔn)作為模型性能評價(jià)指標(biāo),指標(biāo)計(jì)算如下:
precision= (公式4-1)
recall= (公式4-2)
meanF1= (公式4-3)
其中:TP表示輸出的判斷正確的關(guān)系個(gè)數(shù),(TP+EP) 表示輸出的所有關(guān)系個(gè)數(shù),(TP+EP)代表測試集Ctrain中的所有該關(guān)系的個(gè)數(shù)。
4.4 參數(shù)設(shè)置
本文主要對模型中的四個(gè)主要參數(shù)進(jìn)行學(xué)習(xí):(1) AT-LSTM模型的訓(xùn)練輪數(shù)Nt;(2)LDA過程的隱含主題個(gè)數(shù)Ntop;(3)主題采樣迭代次數(shù)σ;(4)主題中的有效單詞個(gè)數(shù) P。
參數(shù)學(xué)習(xí)結(jié)果如圖3所示。AT-LSTM模型的訓(xùn)練迭代輪數(shù)Nt為400時(shí),模型效果達(dá)到最佳效果。當(dāng)Nt超過400,實(shí)驗(yàn)結(jié)果相差不大。對于用于識別“高光”視頻片段的合格率α,我們設(shè)置α從0.1到0.5,其結(jié)果如圖所示??梢钥闯?,隨著α從0.1增加到0.5,Precision降低并且Recall增加。α相對較小時(shí),我們的框架可以產(chǎn)生更多的“高光”視頻片段,當(dāng)α設(shè)為0.3時(shí),我們的模型在F1得分上可以達(dá)到最好的表現(xiàn)。從圖3中數(shù)據(jù)可以發(fā)現(xiàn),當(dāng)主題數(shù)量Ntop為25左右,F(xiàn)1達(dá)到最優(yōu)值。當(dāng)Ntop>25時(shí),F(xiàn)1開始迅速下降。而當(dāng)Ntop<25時(shí),對于風(fēng)格不同的視頻片段為同一主題的概率會增大,這樣同樣不能發(fā)揮主題模型在情感識別中的優(yōu)勢。有效單詞個(gè)數(shù)P取100左右,F(xiàn)1達(dá)到最優(yōu)值,此時(shí)采用更多數(shù)量的詞參與計(jì)算,會使得主題情感的準(zhǔn)確性降低。
4.5 實(shí)驗(yàn)結(jié)果
如表2是所有模型的實(shí)驗(yàn)結(jié)果??梢钥闯鯨DA和非基于Attetion機(jī)制的普通LSTM的實(shí)驗(yàn)結(jié)果并不理想,其最好結(jié)果是AT-LSTM在Ntop=25取得,對應(yīng)的F1=0.741。當(dāng)Ntop取得25時(shí),AT-LSTM比LDA模型和LSTM模型均有所提高。LSTM在Ntop取不同值的情況下均優(yōu)于LDA。其主要原因?yàn)長DA根據(jù)視頻片段的主題分布來計(jì)算片段之間的相似度,然而彈幕評論中網(wǎng)絡(luò)用語較多,這種在各個(gè)視頻片段中出現(xiàn)概率都很大的詞可能會在不同的主題中都具有較大的權(quán)重,這樣就降低了主題模型在情感識別中的效果。
表3是Ntop取值25時(shí)3種模型的Precision、Recall、F1-Score詳細(xì)實(shí)驗(yàn)結(jié)果。通過對比分析實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),基于AT-LSTM的視頻片段推薦方法明顯優(yōu)于基于LDA和基于LSTM的推薦方法,其主要原因是結(jié)合了注意力機(jī)制,突出了LSTM關(guān)鍵性輸入對模型的影響,獲取了更多前后關(guān)聯(lián)彈幕評論的語義信息,從而證實(shí)本文方法在彈幕評論的情感分析應(yīng)用中準(zhǔn)確率的優(yōu)勢。
基于AT-LSTM的推薦算法考慮到了當(dāng)遇到?jīng)]有情感標(biāo)注的詞,即一個(gè)完全陌生的新詞,如何通過主題模型計(jì)算出該詞的情感值。相對于其他三種方法,AT-LSTM考慮到當(dāng)一個(gè)陌生的詞在不同場景中可能會有情感差異,并結(jié)合該詞當(dāng)前的主題分布實(shí)時(shí)計(jì)算出該詞在當(dāng)前視頻片段中的情感向量,因此基于AT-LSTM的推薦方法優(yōu)于其他對比方法。
5 結(jié)語
網(wǎng)絡(luò)視頻彈幕評論信息經(jīng)情感分析及可視化處理后獲取網(wǎng)絡(luò)視頻的情感特征及走勢,可作為視頻的情感標(biāo)簽,在此基礎(chǔ)上我們可以建立一種基于評論情感的視頻檢索模式。本文提出了一種基于注意力機(jī)制的LSTM模型(AT-LSTM)對網(wǎng)絡(luò)彈幕評論數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并結(jié)合彈幕評論聚類主題進(jìn)行分析。通過實(shí)驗(yàn)對比該模型與其他算法模型,我們的模型的性能優(yōu)于其他模型。利用情感分析模型得到的“高光”視頻片段,可以推薦用戶觀看感興趣的彈幕視頻,幫助用戶獲取網(wǎng)絡(luò)視頻中包含的情感信息,進(jìn)而提供一種新的視頻檢索途徑。
參考文獻(xiàn)
[1]Wu B, Zhong E, Tan B, et al. Crowdsourced time-sync video tagging using temporal and personalized topic modeling[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2014:721-730.
[2]Chen X, Zhang Y, Ai Q, et al. Personalized Key Frame Recommendation[C]// International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2017:315-324.
[3]鄧揚(yáng),張晨曦,李江峰.基于彈幕情感分析的視頻片段推薦模型[J].計(jì)算機(jī)應(yīng)用,2017,37(04):1065-1070+1134.
[4]何炎祥,孫松濤,牛菲菲,李飛.用于微博情感分析的一種情感語義增強(qiáng)的深度學(xué)習(xí)模型[J].計(jì)算機(jī)學(xué)報(bào),2017,40(04):773-790.
[5]鄭飏飏,徐健,肖卓.情感分析及可視化方法在網(wǎng)絡(luò)視頻彈幕數(shù)據(jù)分析中的應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2015(11):82-90.
[6]梁軍,柴玉梅,原慧斌,高明磊,昝紅英.基于極性轉(zhuǎn)移和LSTM遞歸網(wǎng)絡(luò)的情感分析[J].中文信息學(xué)報(bào),2015,29(05):152-159.