亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于AT—LSTM的彈幕評論情感分析

        2018-05-14 09:57:28莊須強(qiáng)劉方愛
        關(guān)鍵詞:情感分析深度學(xué)習(xí)

        莊須強(qiáng) 劉方愛

        摘要:彈幕評論能更準(zhǔn)確、具體地反映出用戶在觀看視頻時(shí)的即時(shí)情感和褒貶評價(jià),因此本文提出了一種基于注意力機(jī)制的LSTM(AT-LSTM)情感分析模型。首先基于注意力機(jī)制更好的挖掘出整個(gè)彈幕評論中的情感關(guān)鍵詞;然后利用LSTM模型有效結(jié)合視頻中前后彈幕評論的情感依賴關(guān)系,最終提取出基于主題的“高光”視頻片段。實(shí)驗(yàn)結(jié)果表明所提方法的準(zhǔn)確度比傳統(tǒng)LDA和LSTM方法有了進(jìn)一步的提高。該模型可以幫助用戶更準(zhǔn)確的獲取網(wǎng)絡(luò)視頻彈幕數(shù)據(jù)中包含的情感信息,進(jìn)而提供了一種新的視頻檢索與視頻推薦新途徑。

        關(guān)鍵詞:深度學(xué)習(xí);彈幕評論;情感分析;AT-LSTM

        中圖分類號:G206 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2018)02-0210-03

        1 引言

        彈幕視頻是近年來出現(xiàn)的一種將觀眾評論與視頻內(nèi)容相結(jié)合的視頻形式,融合了視頻與社交元素。用戶可以在觀看視頻的同時(shí)發(fā)表評論,且彈幕評論會以彈幕的形式實(shí)時(shí)出現(xiàn)在視頻上。

        彈幕評論數(shù)據(jù)包含評論文本及其對應(yīng)的視頻時(shí)間點(diǎn)信息,因此與一般的評論數(shù)據(jù)相比,彈幕數(shù)據(jù)能更準(zhǔn)確、具體地反映出用戶在觀看視頻時(shí)的即時(shí)情感和褒貶評價(jià),這些情感和評價(jià)信息可以為其他用戶在選擇視頻時(shí)提供參考。利用情感分析技術(shù)從網(wǎng)絡(luò)視頻彈幕中提取情感信息,可以幫助用戶獲取視頻評論文本整體的情感傾向,以及評論情感隨時(shí)間的變化情況。隨著彈幕功能在各大主流視頻網(wǎng)站的推廣,彈幕評論中的觀點(diǎn)和情感表達(dá)將更具普遍性和參考性。在彈幕評論情感分析的基礎(chǔ)上,可以建立根據(jù)評論情感的視頻檢索新途徑,滿足更多元、個(gè)性化的檢索需求。

        本文結(jié)合彈幕視頻特性設(shè)計(jì)一種基于注意力機(jī)制的LSTM情感分析模型(AT-LSTM)來提取視頻中的精彩片段:

        (1)有效的分析了視頻中彈幕評論的前后相關(guān)性,從而更準(zhǔn)確的獲得彈幕評論的主題信息。(2)依據(jù)主題模型對彈幕中的詞進(jìn)行主題分類并計(jì)算視頻片段之間的情感相似度,得到基于主題分布的精彩視頻片段。(3)通過加入注意機(jī)制突出了彈幕評論中關(guān)鍵性情感詞的影響作用,進(jìn)一步提高了模型的準(zhǔn)確率。

        2 相關(guān)工作

        2.1 彈幕定義

        彈幕:彈幕可以定義為一個(gè)三元組,其包含了用戶輸入內(nèi)容、發(fā)送時(shí)間、用戶ID。本文主要對中文、英文、數(shù)字三種形式的彈幕內(nèi)容進(jìn)行分析,其中英文彈幕包含了部分網(wǎng)絡(luò)用語,如“QAQ”( 表示哭泣)等;數(shù)字部分包含了常用網(wǎng)絡(luò)流行詞,如“233”(表示大笑)和“666”(表示厲害)等。

        如圖1所示不同語言的彈幕形式,彈幕視頻截圖上方的文字為用戶發(fā)送的彈幕。

        2.2 “高光”視頻片段

        “高光”視頻片段:本文的宗旨就是找出彈幕視頻的情感鮮明突出的“高光”視頻片段(“Highlights” video shots)。所謂“高光”視頻片段,即視頻中的精彩片段,是指用戶對視頻某一部分內(nèi)容帶有強(qiáng)烈感情色彩討論。

        通過研究發(fā)現(xiàn),視頻彈幕評論包含有一定的“時(shí)間相關(guān)性”,即當(dāng)用戶發(fā)送彈幕評論Ci時(shí),他們可以參考當(dāng)前以及先前的彈幕評論內(nèi)容,因此,相鄰的評論在語義向量上可能是相似的,當(dāng)視頻呈現(xiàn)一段精彩內(nèi)容時(shí)(高光片段),用戶通過大量參與評論從而產(chǎn)生了對應(yīng)的“主題”?;谶@種現(xiàn)象,我們在彈幕評論Ci周圍的一定區(qū)域Aj=(視頻片段的長度為te-ts),則我們把具有某種主題T的評論的視頻片段Aj稱之為“高光”視頻片段。

        2.3 Attention-based LSTM(AT-LSTM)

        LSTM(Long Short Term Memory)是一種有效的鏈?zhǔn)窖h(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),被廣泛用于語言模型、機(jī)器翻譯、語音識別等領(lǐng)域。標(biāo)準(zhǔn)的LSTM檢測不到彈幕評論中重要的情感評論。為了解決這個(gè)問題,我們建立了一種注意機(jī)制,它可以捕捉句子的關(guān)鍵部分的注意力機(jī)制。

        文本的輸入序列為輸入序列{x1,x2,x3,…,xt}作為歷史節(jié)點(diǎn),歷史節(jié)點(diǎn)的輸入向量的累加求均值,得到文章總體的輸入向量表示X,X作為編碼階段最后的輸入。{h1,h2,h3,…,ht}對應(yīng)于輸入序列{x1,x2,x3,…,xt}的隱藏層狀態(tài)值。Ht對應(yīng)于輸入X的隱藏層狀態(tài)值。

        圖2中的ai就是歷史節(jié)點(diǎn)對于最后節(jié)點(diǎn)的注意力概率。Ai越大表示這個(gè)詞在彈幕評論中的情感語義越重要。圖中輸入序列{x1,x2,x3,…,xt}是彈幕評論文本的詞語表示,X是彈幕評論總體的輸入向量表示。計(jì)算出{x1,x2,x3,…,xt}對于彈幕評論總體的影響力權(quán)重,可突出關(guān)鍵詞的作用,減少非關(guān)鍵詞對于文本整體語義的影響。

        aki= (公式2-1)

        eki=vtanh(Whk+Uhi+b) (公式2-2)

        其中aki表示節(jié)點(diǎn)i對于節(jié)點(diǎn)K的注意力概率權(quán)重。T為輸入序列的元素的數(shù)目。V、W、U為權(quán)重矩陣,hk為最后輸入對應(yīng)的隱藏層狀態(tài)。hi表示輸入序列第i個(gè)元素對應(yīng)的隱藏層的狀態(tài)值。主要思想是計(jì)算歷史節(jié)點(diǎn)和最后輸入節(jié)點(diǎn)的關(guān)系分?jǐn)?shù),然后計(jì)算占總體分?jǐn)?shù)的比重,通過這個(gè)公式我們得到了每一個(gè)輸入對于最后輸入的注意力概率。

        計(jì)算注意力分布概率的語義編碼和特征向量,計(jì)算公式:

        C=akihi (公式2-3)

        Hk=H(C,hk,X) (公式2-4)

        其中語義編碼C主要是通過注意力概率權(quán)重與歷史輸入節(jié)點(diǎn)的隱藏層狀態(tài)乘積的累加得到。最終的語義編碼是將含有歷史節(jié)點(diǎn)的注意力概率分布的語義編碼和文章總體向量作為傳統(tǒng)LSTM模塊的輸入,然后最后節(jié)點(diǎn)的隱藏層狀態(tài)值Hk就是最終的特征向量。該特征向量,包含了歷史輸入節(jié)點(diǎn)的權(quán)重信息,突出了關(guān)鍵詞的語義信息。

        3 基于AT-LSTM的情感分析模型

        3.1 準(zhǔn)備工作

        時(shí)間標(biāo)簽不僅包含類型信息,還包含視頻中的時(shí)間范圍,我們首先設(shè)置一個(gè)m秒的時(shí)間窗口,將視頻分割成視頻片段。對于每個(gè)視頻片段,我們將其視為基本單元,并提取其時(shí)間標(biāo)簽。

        我們傾向于突出顯示標(biāo)注主題的視頻片段,因?yàn)榭梢垣@得更多的“高光”視頻片段,我們對分割后的視頻片段集將進(jìn)行主題聚類處理。因此,我們用對應(yīng)的主題來標(biāo)注每個(gè)評論,對于每個(gè)視頻片段,我們可以簡單地計(jì)算評論是否存在某種主題,并將其頻率表示為f并且,如果我們有一個(gè)存在某種主題的片段,該視頻片段可以識別為“高光”視頻片段。

        如果視頻片段S被識別為“高光”視頻片段,則可以用Shighlight={}來表示,其中表示片段的時(shí)間范圍,f表示評論的主題頻率。在某一個(gè)主題中,權(quán)重f越小的詞與該主題的相關(guān)性越低。所以我們只考慮取每個(gè)主題的Np個(gè)有效詞。

        對于所有視頻片段找到主題頻率f對應(yīng)的最大值max和最小值min,我們可以設(shè)定一個(gè)閾值θ來計(jì)算該片段是否是Shighlight視頻片段(其中α稱為合格率):

        θ=α*min+(1-α)*max(0≤α≤1) (公式3-1)

        3.2 主題聚類

        我們以監(jiān)督的方式處理“高光”視頻片段。由彈幕Ctrain和一系列現(xiàn)有的標(biāo)簽Ltrain={}組成的訓(xùn)練集,我們將Ctrain分成等長的視頻片段,然后計(jì)算每個(gè)片段的主題頻率f。本文通過使用LDA算法作為分類器,對Shighlight中的每個(gè)主題片段聚類可以得到主題集合Slabeled={}。

        3.3 主題合并

        最后,對于任何相鄰的Shighlight片段,即T1=T2,我們將合并這兩個(gè)片段得到新的Shighlight片段。 將所有片段合并后,我們獲得了最終的“高光”視頻片段集合。

        4 實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        本文的實(shí)驗(yàn)數(shù)據(jù)是由國內(nèi)彈幕網(wǎng)站bilibili上下載的視頻及彈幕組成。數(shù)據(jù)包括不同類型的彈幕視頻,過濾掉少于40條彈幕的視頻,如表1所示每條評論數(shù)據(jù)包含評論文本和評論時(shí)間。本文選用NLPIR作為中文分詞工具,通過對彈幕數(shù)據(jù)進(jìn)行分詞、清洗、去噪之后,設(shè)置時(shí)間窗口m=100s,將視頻分割成視頻片段,整理得到1600個(gè)視頻片段以及132850條彈幕評論,并隨機(jī)將其中的一半訓(xùn)練數(shù)據(jù)Ctrain,一半作為測試數(shù)據(jù)Ctest。

        4.2 實(shí)驗(yàn)設(shè)置

        本文選擇了LDA,LSTM算法作為本文實(shí)驗(yàn)的對比算法。實(shí)驗(yàn)過程包括以下幾個(gè)步驟:

        (1)對所有視頻進(jìn)行分段,對每個(gè)視頻片段分別計(jì)算情感向量。(2)利用AT-LSTM模型對視頻片段情感相似度分析。輸出的語義特征維度為50,訓(xùn)練過程中采用dropout策略,且dropout取值0.5。(3)利用LDA算法計(jì)算每個(gè)視頻片段情感相似度分?jǐn)?shù),并取分?jǐn)?shù)最高的Ntop個(gè)視頻片段作為高光視頻片段集。

        4.3 評價(jià)指標(biāo)

        本文采用正確率(precision)、召回率(recall)和F值(meanF1)三個(gè)標(biāo)準(zhǔn)作為模型性能評價(jià)指標(biāo),指標(biāo)計(jì)算如下:

        precision= (公式4-1)

        recall= (公式4-2)

        meanF1= (公式4-3)

        其中:TP表示輸出的判斷正確的關(guān)系個(gè)數(shù),(TP+EP) 表示輸出的所有關(guān)系個(gè)數(shù),(TP+EP)代表測試集Ctrain中的所有該關(guān)系的個(gè)數(shù)。

        4.4 參數(shù)設(shè)置

        本文主要對模型中的四個(gè)主要參數(shù)進(jìn)行學(xué)習(xí):(1) AT-LSTM模型的訓(xùn)練輪數(shù)Nt;(2)LDA過程的隱含主題個(gè)數(shù)Ntop;(3)主題采樣迭代次數(shù)σ;(4)主題中的有效單詞個(gè)數(shù) P。

        參數(shù)學(xué)習(xí)結(jié)果如圖3所示。AT-LSTM模型的訓(xùn)練迭代輪數(shù)Nt為400時(shí),模型效果達(dá)到最佳效果。當(dāng)Nt超過400,實(shí)驗(yàn)結(jié)果相差不大。對于用于識別“高光”視頻片段的合格率α,我們設(shè)置α從0.1到0.5,其結(jié)果如圖所示??梢钥闯?,隨著α從0.1增加到0.5,Precision降低并且Recall增加。α相對較小時(shí),我們的框架可以產(chǎn)生更多的“高光”視頻片段,當(dāng)α設(shè)為0.3時(shí),我們的模型在F1得分上可以達(dá)到最好的表現(xiàn)。從圖3中數(shù)據(jù)可以發(fā)現(xiàn),當(dāng)主題數(shù)量Ntop為25左右,F(xiàn)1達(dá)到最優(yōu)值。當(dāng)Ntop>25時(shí),F(xiàn)1開始迅速下降。而當(dāng)Ntop<25時(shí),對于風(fēng)格不同的視頻片段為同一主題的概率會增大,這樣同樣不能發(fā)揮主題模型在情感識別中的優(yōu)勢。有效單詞個(gè)數(shù)P取100左右,F(xiàn)1達(dá)到最優(yōu)值,此時(shí)采用更多數(shù)量的詞參與計(jì)算,會使得主題情感的準(zhǔn)確性降低。

        4.5 實(shí)驗(yàn)結(jié)果

        如表2是所有模型的實(shí)驗(yàn)結(jié)果??梢钥闯鯨DA和非基于Attetion機(jī)制的普通LSTM的實(shí)驗(yàn)結(jié)果并不理想,其最好結(jié)果是AT-LSTM在Ntop=25取得,對應(yīng)的F1=0.741。當(dāng)Ntop取得25時(shí),AT-LSTM比LDA模型和LSTM模型均有所提高。LSTM在Ntop取不同值的情況下均優(yōu)于LDA。其主要原因?yàn)長DA根據(jù)視頻片段的主題分布來計(jì)算片段之間的相似度,然而彈幕評論中網(wǎng)絡(luò)用語較多,這種在各個(gè)視頻片段中出現(xiàn)概率都很大的詞可能會在不同的主題中都具有較大的權(quán)重,這樣就降低了主題模型在情感識別中的效果。

        表3是Ntop取值25時(shí)3種模型的Precision、Recall、F1-Score詳細(xì)實(shí)驗(yàn)結(jié)果。通過對比分析實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),基于AT-LSTM的視頻片段推薦方法明顯優(yōu)于基于LDA和基于LSTM的推薦方法,其主要原因是結(jié)合了注意力機(jī)制,突出了LSTM關(guān)鍵性輸入對模型的影響,獲取了更多前后關(guān)聯(lián)彈幕評論的語義信息,從而證實(shí)本文方法在彈幕評論的情感分析應(yīng)用中準(zhǔn)確率的優(yōu)勢。

        基于AT-LSTM的推薦算法考慮到了當(dāng)遇到?jīng)]有情感標(biāo)注的詞,即一個(gè)完全陌生的新詞,如何通過主題模型計(jì)算出該詞的情感值。相對于其他三種方法,AT-LSTM考慮到當(dāng)一個(gè)陌生的詞在不同場景中可能會有情感差異,并結(jié)合該詞當(dāng)前的主題分布實(shí)時(shí)計(jì)算出該詞在當(dāng)前視頻片段中的情感向量,因此基于AT-LSTM的推薦方法優(yōu)于其他對比方法。

        5 結(jié)語

        網(wǎng)絡(luò)視頻彈幕評論信息經(jīng)情感分析及可視化處理后獲取網(wǎng)絡(luò)視頻的情感特征及走勢,可作為視頻的情感標(biāo)簽,在此基礎(chǔ)上我們可以建立一種基于評論情感的視頻檢索模式。本文提出了一種基于注意力機(jī)制的LSTM模型(AT-LSTM)對網(wǎng)絡(luò)彈幕評論數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并結(jié)合彈幕評論聚類主題進(jìn)行分析。通過實(shí)驗(yàn)對比該模型與其他算法模型,我們的模型的性能優(yōu)于其他模型。利用情感分析模型得到的“高光”視頻片段,可以推薦用戶觀看感興趣的彈幕視頻,幫助用戶獲取網(wǎng)絡(luò)視頻中包含的情感信息,進(jìn)而提供一種新的視頻檢索途徑。

        參考文獻(xiàn)

        [1]Wu B, Zhong E, Tan B, et al. Crowdsourced time-sync video tagging using temporal and personalized topic modeling[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2014:721-730.

        [2]Chen X, Zhang Y, Ai Q, et al. Personalized Key Frame Recommendation[C]// International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2017:315-324.

        [3]鄧揚(yáng),張晨曦,李江峰.基于彈幕情感分析的視頻片段推薦模型[J].計(jì)算機(jī)應(yīng)用,2017,37(04):1065-1070+1134.

        [4]何炎祥,孫松濤,牛菲菲,李飛.用于微博情感分析的一種情感語義增強(qiáng)的深度學(xué)習(xí)模型[J].計(jì)算機(jī)學(xué)報(bào),2017,40(04):773-790.

        [5]鄭飏飏,徐健,肖卓.情感分析及可視化方法在網(wǎng)絡(luò)視頻彈幕數(shù)據(jù)分析中的應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2015(11):82-90.

        [6]梁軍,柴玉梅,原慧斌,高明磊,昝紅英.基于極性轉(zhuǎn)移和LSTM遞歸網(wǎng)絡(luò)的情感分析[J].中文信息學(xué)報(bào),2015,29(05):152-159.

        猜你喜歡
        情感分析深度學(xué)習(xí)
        基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應(yīng)用
        基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價(jià)對象抽取研究
        基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        在線評論情感屬性的動態(tài)變化
        預(yù)測(2016年5期)2016-12-26 17:16:57
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        一本色道久久99一综合| 狠狠色噜噜狠狠狠97影音先锋| 国产护士一区二区三区| 内射白浆一区二区在线观看| 亚洲中文欧美日韩在线人| 亚洲综合av一区二区三区蜜桃| 综合激情网站| 国产亚洲一区二区在线观看| 亚洲免费不卡av网站| 亚洲色在线v中文字幕| 91久久国产露脸国语对白| 日日躁夜夜躁狠狠躁超碰97| 91精品国产乱码久久久| 亚洲精华国产精华液的福利| 你懂的视频网站亚洲视频 | 久久亚洲精彩无码天堂| 男女做爰猛烈啪啪吃奶动| 精品专区一区二区三区| 欧美成年黄网站色视频| 青青草在线免费视频播放| 欧美日韩一区二区三区色综合| 亚洲国产精品无码中文字| 亚洲精品国产第一区三区| 无码aⅴ在线观看| www婷婷av久久久影片| 亚洲av无一区二区三区综合| 午夜不卡久久精品无码免费| 天堂视频在线观看一二区| 黑人一区二区三区在线| 日韩视频第二页| 国产suv精品一区二区6| 日本在线观看不卡一区二区| 久久中文字幕久久久久| 漂亮人妻被中出中文字幕久久 | 亚洲av网站在线免费观看| 爱a久久片| 88久久精品无码一区二区毛片| 91成人黄色蘑菇视频| 国产精品三级国产精品高| 日本a在线看| 亚洲人成色7777在线观看|