亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于彈幕情感分析的視頻片段推薦模型

        2017-06-27 08:10:42張晨曦李江峰
        計(jì)算機(jī)應(yīng)用 2017年4期
        關(guān)鍵詞:彈幕詞典向量

        鄧 揚(yáng),張晨曦,李江峰

        同濟(jì)大學(xué) 軟件學(xué)院,上海 201804)(*通信作者電子郵箱lijf@#edu.cn)

        基于彈幕情感分析的視頻片段推薦模型

        鄧 揚(yáng),張晨曦,李江峰*

        同濟(jì)大學(xué) 軟件學(xué)院,上海 201804)(*通信作者電子郵箱lijf@#edu.cn)

        針對(duì)傳統(tǒng)的視頻情感分析方法計(jì)算效率較低且結(jié)果不易解釋等問(wèn)題,提出一種基于彈幕文本的視頻片段情感識(shí)別算法,并以此作為視頻片段的推薦依據(jù)。首先對(duì)基于情感分析的視頻片段推薦問(wèn)題提出形式化描述。其次,通過(guò)構(gòu)建基于隱含狄利克雷分布(LDA)的彈幕詞語(yǔ)分類,評(píng)估彈幕詞語(yǔ)在視頻片段中的多維情感向量,同時(shí),根據(jù)視頻片段之間的情感依賴關(guān)系推薦視頻的情感片段。所提方法的推薦準(zhǔn)確度比基于詞頻-逆文檔頻率(TF-IDF)的推薦算法提高了28.9%,相對(duì)于傳統(tǒng)LDA模型提高了43.8%。實(shí)驗(yàn)結(jié)果表明所提模型可有效應(yīng)用于信息繁雜的不規(guī)則文本情感分析。

        視頻片段推薦;彈幕情感;主題模型;情感分析;情感向量

        0 引言

        隨著互聯(lián)網(wǎng)的迅速普及,多媒體處理技術(shù)、網(wǎng)絡(luò)傳輸、視頻數(shù)據(jù)處理等相關(guān)技術(shù)快速發(fā)展,來(lái)自不同領(lǐng)域的視頻數(shù)據(jù)正在以驚人的速度增長(zhǎng)。例如YouTube,其每個(gè)月的視頻播放總次數(shù)達(dá)到了46.7億次,另外一個(gè)專業(yè)視頻網(wǎng)站Hulu也有超過(guò)20萬(wàn)個(gè)高質(zhì)量的視頻,其月瀏覽次數(shù)也維持在9億。相對(duì)于觀看一部完整的視頻,有些時(shí)候用戶更愿意觀看其中一些視頻片段。例如一段幽默電影片段的集錦,或者振奮人心的足球進(jìn)球集錦;用戶甚至希望可以根據(jù)之前看過(guò)的視頻,搜索與之情感相似的其他視頻片段。視頻里所蘊(yùn)含的情感通常是多種情感交織的混合情感,所以基于情感的視頻片段推薦是一個(gè)具有挑戰(zhàn)性的研究問(wèn)題。

        近幾年隨著新媒體技術(shù)的發(fā)展,一種新類型的視頻——彈幕視頻在世界范圍內(nèi)變得愈來(lái)愈流行,即用戶可以在觀看網(wǎng)絡(luò)視頻中發(fā)表自己的實(shí)時(shí)評(píng)論,并與其他用戶產(chǎn)生共鳴或者互動(dòng)。在用戶所發(fā)的彈幕中,往往包含著與視頻當(dāng)前片段的情感相吻合的文字,這對(duì)展開(kāi)進(jìn)一步的研究起到很好的幫助作用。作為一種新型的消息傳遞方式,彈幕書(shū)寫(xiě)與傳統(tǒng)短文本存在很大區(qū)別,主要表現(xiàn)在兩個(gè)方面:1)文本更簡(jiǎn)短隨意。多數(shù)評(píng)論者選擇用短語(yǔ)、短句和符號(hào)來(lái)表示內(nèi)心活動(dòng)。2)內(nèi)容口語(yǔ)化、符號(hào)化。用戶往往通過(guò)當(dāng)下流行的熱門(mén)語(yǔ)來(lái)表達(dá)自己當(dāng)前的情感。

        目前,有兩種基于視頻彈幕數(shù)據(jù)的視頻分析技術(shù)可以對(duì)該問(wèn)題起到一定借鑒作用。其中,基于彈幕數(shù)據(jù)的視頻片段自動(dòng)標(biāo)簽技術(shù)[1-2]提供了一種提取視頻片段中彈幕的關(guān)鍵字給這段片段打標(biāo)簽的技術(shù);基于彈幕的視頻精彩鏡頭的檢測(cè)方法[3]主要根據(jù)彈幕內(nèi)容以及數(shù)量的變化曲線分析視頻中的精彩瞬間。這兩種基于內(nèi)容的分析方法往往難以刻畫(huà)出視頻片段的情感趨勢(shì),原因有如下兩點(diǎn):其一,情感鮮明的視頻片段不能等同于精彩片段,精彩片段往往出現(xiàn)在彈幕評(píng)論密集的區(qū)域,而這種判斷模式并不適用于視頻情感檢測(cè);其次,通過(guò)彈幕數(shù)據(jù)提取的文字標(biāo)簽通常來(lái)源于彈幕中的關(guān)鍵字和高頻詞,而這些詞的所蘊(yùn)含的情感可能是不易確定的,所以通過(guò)標(biāo)簽信息來(lái)指代視頻片段的情感并不準(zhǔn)確。

        據(jù)調(diào)查,目前國(guó)內(nèi)外基于彈幕數(shù)據(jù)開(kāi)展的研究工作并不多[1-6]。針對(duì)上述提出的問(wèn)題,本文提出了一種基于情感分析的視頻片段推薦模型,利用彈幕數(shù)據(jù)分析各個(gè)視頻片段中用戶的情感傾向和交互情況,計(jì)算片段的情感以及片段之間的情感相似度,并以此為片段推薦的依據(jù)。為檢測(cè)視頻片段的情感,本文設(shè)計(jì)了一種基于文本主題模型的視頻彈幕情感識(shí)別方法。首先依據(jù)主題模型對(duì)彈幕中的詞進(jìn)行主題分類;其次,基于每個(gè)詞的主題分布和情感詞典提出動(dòng)態(tài)評(píng)估詞語(yǔ)的情感向量的度量算法;最后,通過(guò)計(jì)算每個(gè)視頻片段中的每個(gè)詞的情感向量得到每個(gè)片段的情感向量。此外,針對(duì)如何評(píng)估兩個(gè)視頻片段的情感相似度,本文采用一種基于“全局+局部”的上下文關(guān)聯(lián)情感相似度計(jì)算方法,并通過(guò)情感相似度分?jǐn)?shù)來(lái)推薦視頻片段。

        1 相關(guān)工作

        1.1 針對(duì)中文的情感分析研究

        中文情感識(shí)別技術(shù)主要分為兩種:監(jiān)督式學(xué)習(xí)方法和組合方法。監(jiān)督式學(xué)習(xí)方法中,文獻(xiàn)[7]提出了基于條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)的冗余情感特征的概念,并對(duì)情感分類。文獻(xiàn)[8]基于支持向量機(jī)(Support Vector Machine,SVM)對(duì)長(zhǎng)文本中的主觀性文字和客觀性文字進(jìn)行分類。組合方法中,文獻(xiàn)[9]中研究了四種不同分類方法在中文情感分類中的應(yīng)用,同時(shí)考慮到不同領(lǐng)域需要選擇不同分類才能獲得更好的分類效果,采用了一種基于Stacking的組合分類方法。目前針對(duì)中文的情感分析相對(duì)于英文的情感分析,無(wú)論從資源還是方法上來(lái)說(shuō)都要相對(duì)初步一些,主要存在以下難點(diǎn):1)中文需要分詞;2)中文情感詞典需要構(gòu)建;3)中文理解存在一些難點(diǎn),而目前尚無(wú)較好的解決方法,如“反諷”“褒義貶用”“貶義褒用”;4)對(duì)標(biāo)注數(shù)據(jù)的規(guī)模過(guò)于依賴。

        1.2 情感分析在網(wǎng)絡(luò)評(píng)論領(lǐng)域的應(yīng)用

        目前針對(duì)網(wǎng)絡(luò)評(píng)論的情感分析應(yīng)用研究多集中在網(wǎng)絡(luò)輿論和商品評(píng)論兩個(gè)領(lǐng)域。例如,利用情感分析技術(shù)對(duì)微博輿論中的熱點(diǎn)話題、公眾觀點(diǎn)等進(jìn)行提取,或者面向商品的用戶在線評(píng)論進(jìn)行褒貶識(shí)別。文獻(xiàn)[10]提出一種監(jiān)督式機(jī)器學(xué)習(xí)方法來(lái)利用局部文本特征對(duì)新聞自動(dòng)分類。文獻(xiàn)[11]研究表明,采用一種結(jié)合支持向量機(jī)的機(jī)器學(xué)習(xí)算法、信息增益的特征選取算法和詞頻-逆文檔頻率(Term Frequenc-Inverse Document Frequency,TF-IDF)特征項(xiàng)權(quán)重計(jì)算的組合方法對(duì)微博短文本的情感分類效果最好。作為一種新類型的網(wǎng)絡(luò)評(píng)論方式,彈幕寫(xiě)作簡(jiǎn)單隨意,并無(wú)嚴(yán)格的語(yǔ)法要求,這導(dǎo)致傳統(tǒng)的情感分析方法不能直接適用于彈幕情感研究。

        1.3 隱含狄利克雷模型

        隱狄利克雷分布(Latent Dirichlet Allocation,LDA)模型是由Blei等[12-13]在2003年提出的一種主題模型,由文檔、主題、詞三層結(jié)構(gòu)組成。2004年Griffiths等在Blei的基礎(chǔ)模型上對(duì)β參數(shù)施加了Dirichlet先驗(yàn)分布,使得LDA模型成為一個(gè)完整的概率生成模型。目前LDA模型已經(jīng)廣泛地應(yīng)用到文本挖掘甚至音頻分析領(lǐng)域[14]。對(duì)于語(yǔ)料庫(kù)中的每一篇文檔,LDA模型的主題生成過(guò)程為:1)求主題的多項(xiàng)式分布參數(shù)θ,θ~Dir(α),α為θ的超參數(shù);2)求單詞的多項(xiàng)式分布參數(shù)η,η~Dir(β),β為η的超參數(shù);3)根據(jù)θ生成主題z,z~Multinomial(θ);4)采樣過(guò)程,根據(jù)參數(shù)z和η,從p(w|z,η)中選擇一個(gè)詞w;5)重復(fù)步驟3)~4)直到模型收斂。

        1.4 情感語(yǔ)料

        目前有一些情感詞典被開(kāi)發(fā)出來(lái)用于情感分析,比如WordNet-Affect。本文從Ren_CECps中文情感語(yǔ)料庫(kù)[15]提取多維情感詞典,該語(yǔ)料庫(kù)已經(jīng)廣泛用于中文情感的研究[16-17]。該語(yǔ)料庫(kù)包含了1 487篇中文博客,涵蓋了878 164個(gè)情感詞,每個(gè)情感詞在語(yǔ)料中都被標(biāo)注為(驚訝、悲傷、喜愛(ài)、高興、憎恨、期待、焦慮、生氣)8個(gè)維度表示的向量,每個(gè)維度用0到1表示情感從弱到強(qiáng)。

        考慮到彈幕中有大量的網(wǎng)絡(luò)用語(yǔ),本文采用文獻(xiàn)[18]中所提的針對(duì)網(wǎng)絡(luò)詞匯的情感詞典(簡(jiǎn)稱Catchwords詞典)作為補(bǔ)充。該網(wǎng)絡(luò)用語(yǔ)情感詞典涵蓋了733個(gè)網(wǎng)絡(luò)用語(yǔ),并將將其分為7個(gè)情感分類(樂(lè)、好、怒、愁、驚、惡、懼)。

        2 問(wèn)題描述

        2.1 背景

        本節(jié)介紹本文相關(guān)背景,包括彈幕視頻的特點(diǎn)和結(jié)構(gòu),以及相關(guān)定義。一個(gè)用戶觀看到視頻中某個(gè)場(chǎng)景,可能會(huì)在這個(gè)時(shí)間點(diǎn)寫(xiě)一些文字發(fā)送到視頻中分享他的觀看體驗(yàn),這就是彈幕。當(dāng)后面的用戶再看到該視頻中的這個(gè)場(chǎng)景,之前用戶發(fā)送的彈幕就會(huì)出現(xiàn)在屏幕上。所有的彈幕均為用戶在觀看過(guò)程中發(fā)送的,彈幕反映了用戶在觀看這段片段的情緒,這種影響具有一定的傳播效應(yīng),甚至依據(jù)當(dāng)前這一幕的彈幕可以預(yù)測(cè)視頻后面的情感發(fā)展。

        彈幕可以定義為一個(gè)三元組,其包含了用戶輸入內(nèi)容、發(fā)送時(shí)間、用戶ID。本文主要對(duì)三種形式的彈幕內(nèi)容進(jìn)行分析:中文、英文、數(shù)字。其中:英文包含了部分網(wǎng)絡(luò)用語(yǔ),如“QAQ”(表示哭泣);而考慮數(shù)字的原因,有部分常用網(wǎng)絡(luò)流行詞,如“233”(表示大笑)和“666”(表示厲害)等,對(duì)情感分析很有幫助。

        如圖1所示,彈幕視頻截圖上方的文字為用戶發(fā)送的彈幕,例如“要出事了”是某用戶于該視頻的120min10s到120min40s之間發(fā)送的一條彈幕。

        圖1 bilibili上的彈幕視頻示例

        2.2 形式化描述

        設(shè)視頻集合為V={v1,v2,…,v|V|},|V|為集合大小,其中,視頻vi的時(shí)間長(zhǎng)度為T(mén)vi,切分為|vi|個(gè)視頻片段vi={si,1,si,2,…,si,|vi|},si,k代表第i個(gè)視頻中的第k個(gè)視頻片段(1≤k≤|vi|),si,k的時(shí)間長(zhǎng)度為定值Ts。因此,|vi|=「(Tvi-Ts)/td+1?,其中:td代表視頻片段之間的滑動(dòng)距離,即相鄰兩段片段的相隔時(shí)間距離。視頻片段集合為S,總共包含|S|個(gè)視頻片段。W代表S中的詞集合,包含|W|個(gè)詞。彈幕c定義為三元組(wc,tc,uc),其中:wc代表彈幕c中的詞集合,tc代表彈幕c在視頻中的時(shí)間戳,uc代表發(fā)送彈幕c的用戶。因此片段sk可以定義為:

        sk={〈dwk1:|wk1|〉,〈dwk2:|wk2|〉,…,〈dwknk:|wknk|〉}

        其中:nk代表sk中不一樣的詞的個(gè)數(shù);wki代表片段sk第i個(gè)詞;|wki|代表wki在片段sk中出現(xiàn)的次數(shù);dwknk代表wknk對(duì)應(yīng)的編號(hào)。

        本文要解決的問(wèn)題是給定目標(biāo)片段starget,求解視頻集合中與starget情感相似度高的片段集合:

        Cstarget={cv1,starget,cv2,starget,…,cv|V|,starget}

        3 視頻片段推薦模型

        如圖2視頻片段推薦的工作流程包含三個(gè)子模塊:1)數(shù)據(jù)預(yù)處理;2)視頻片段情感識(shí)別;3)情感相似度分析。

        圖2 視頻片段推薦流程

        3.1 彈幕數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理階段主要包含了視頻片段切分、文本預(yù)處理、詞語(yǔ)編號(hào)化處理三個(gè)步驟。首先根據(jù)Ts和td對(duì)所有視頻的彈幕數(shù)據(jù)進(jìn)行切分,并對(duì)片段進(jìn)行初步的篩選;其次,從Ren_CECps中文情感語(yǔ)料庫(kù)提取情感詞典。本文通過(guò)對(duì)每個(gè)情感詞的向量總和求平均得到情感詞的平均情感向量,公式如下:

        其中:Tw代表情感詞w在Ren_CECps中文情感語(yǔ)料庫(kù)中出現(xiàn)的總次數(shù);ew,i代表情感詞w第i次在語(yǔ)料庫(kù)中出現(xiàn)時(shí)被標(biāo)注的情感向量。后文中用“Ren_CECps詞典”代表本文從該語(yǔ)料庫(kù)中所提取的情感詞典。為縮短模型訓(xùn)練的時(shí)間,本文對(duì)所有詞編號(hào)化處理,并剔除難以識(shí)別的網(wǎng)絡(luò)符號(hào)以及出現(xiàn)概率極低的詞。

        3.2 視頻片段的情感識(shí)別

        彈幕的詞分布可視作一個(gè)概率模型,在同一個(gè)視頻片段中的詞相互之間具有情感依賴,因此,本文提出一種基于多主體的視頻片段情感識(shí)別(Multi-TopicEmotionRecognition,MTER)算法。MTER利用每個(gè)詞的隱含情感主題分布來(lái)評(píng)估詞的情感值,并用情感向量表示??紤]到大量的詞的情感沒(méi)有在Ren_CECps詞典中有標(biāo)注,且中文詞語(yǔ)在不同語(yǔ)境下可能會(huì)有不同的情感含義,本文采用詞的最大權(quán)重的主題來(lái)計(jì)算出該詞在當(dāng)前片段中的臨時(shí)情感。

        3.2.1 基于主題模型計(jì)算視頻片段情感向量

        本文提出的模型中,視頻片段視作一組彈幕詞語(yǔ)構(gòu)成的集合,不考慮詞與詞的先后關(guān)系。將LDA模型的思想引入視頻片段的情感識(shí)別模型,假設(shè)模型訓(xùn)練初始設(shè)置K個(gè)隱含主題{t1,t2,…,tK},所以每個(gè)詞在視頻片段中都能對(duì)應(yīng)一個(gè)主題,每個(gè)視頻片段能計(jì)算得出一個(gè)主題分布。在所提模型中,LDA的訓(xùn)練過(guò)程如下:1)為片段中每個(gè)彈幕詞語(yǔ)初始化一個(gè)主題;2)根據(jù)其他彈幕詞語(yǔ)的主題為每一個(gè)詞重新生成一個(gè)新主題;3)基于GibbsSampling對(duì)每個(gè)詞的主題重新采樣,并指定迭代次數(shù)η。LDA過(guò)程的結(jié)果如表3所示。

        表1 主題分布示例

        如表1所示,字體加粗的詞語(yǔ)代表可以在Ren_CECps詞典中檢索到,且各主題中每個(gè)詞按照權(quán)重降序排列。其中wti代表Topict的第i個(gè)詞,αti代表wti在t中的權(quán)重。隨著i的增加αti逐漸趨于0,這表示在一個(gè)主題中,權(quán)重越小的詞與該主題的相關(guān)性越低。因此,為了保證方法的有效性,本文只考慮每個(gè)主題的topP個(gè)詞。每個(gè)主題的情感向量的計(jì)算公式如下:

        其中:ωkm代表tkm的權(quán)重;Etkm代表tkm的情感向量。因此sk的情感向量計(jì)算公式如下:

        3.2.2 基于上下文信息調(diào)整視頻片段情感向量

        視頻片段的情感具有傳遞性,歸屬于同一個(gè)視頻中的視頻片段具有一定的情感相關(guān)性和相似性,尤其是時(shí)間相隔較近的片段。本文對(duì)視頻片段情感向量的調(diào)整公式如下:

        其中:μ(0<μ<1)是影響因子,μ越大代表si,k之前的片段對(duì)si,k的情感影響也大??傻贸鏊性趕i,k之前的片段都會(huì)影響si,k的情感向量,且si-1,k的影響最大。

        綜上,基于MTER的視頻片段情感識(shí)別算法描述如下。

        算法1 視頻片段情感識(shí)別算法。

        輸入:視頻片段集合S;LDA過(guò)程的隱含主題數(shù)量K;LDA過(guò)程的主題采樣次數(shù)η。 輸出:Esk, ?sk∈S。 數(shù)據(jù)預(yù)處理:對(duì)彈幕文本集合進(jìn)行LDA主題采樣。初始化每個(gè)視頻片段sk的情感向量Esk=(01,02,…,08)。foreachtopictdo: CalculateEt

        endfor

        foreachshotskdoforeachwordwkiinskdoifwki∈RthenUpdateEswithewki

        //把wordw的情感向量累加到Es

        elseCalculateekiforwkiUpdateEswitheki

        endif

        endfor

        endfor

        foreachvideovidoforeachshotsi,kdoAdjustEsi,k

        endfor

        endfor

        3.3 情感相似度分析

        計(jì)算得出每個(gè)視頻片段的情感向量之后,本文提出一種片段間的情感相似度的計(jì)算方法。鑒于片段所屬的視頻的全局情感會(huì)很大程度上影響到片段本身的情感,例如,來(lái)自兩部喜劇的片段的相似度有很大概率高于分別來(lái)自喜劇和悲劇的兩個(gè)片段的情感相似度。因此,本文結(jié)合全局情感(video-level)和局部情感(shot-level)來(lái)計(jì)算兩個(gè)片段之間的情感相似度。計(jì)算方法如下:

        一部完整的視頻包含了一系列視頻片段,而視頻對(duì)應(yīng)的彈幕數(shù)據(jù)中包含的網(wǎng)絡(luò)情感詞匯數(shù)量遠(yuǎn)大于一個(gè)視頻片段。因此,計(jì)算一部完整視頻的情感可直接對(duì)視頻彈幕中的網(wǎng)絡(luò)情感詞的數(shù)量進(jìn)行統(tǒng)計(jì)。本文定義視頻的情感為Ev=(n1,n2,…,n7)(Catchwords詞典共有7個(gè)情感分類),其中ni(1≤i≤7)代表視頻v在Catchwords詞典中的第i個(gè)分類的情感詞的數(shù)量,本文根據(jù)杰卡德距離(JaccardDistance)來(lái)計(jì)算兩個(gè)視頻之間的整體情感相似度:

        根據(jù)本文對(duì)視頻片段的情感定義Es=(e1,e2,…,e8),可根據(jù)余弦相似度(cosine similarity)對(duì)兩個(gè)視頻片段的情感向量求相似度:

        因此,任意兩個(gè)視頻片段的情感相似度的計(jì)算公式定義為:

        Es_sim(Esi,k,Esj,l)=Ev_sim(Evi,Evj)×Es_sim(Esk,Esl)

        最后根據(jù)視頻片段si,k和starget之間的情感相似度對(duì)vi中的視頻片段排名,取前ntop的片段作為cvi,starget最終得到Cstarget。

        綜上,視頻片段推薦算法描述如下。

        算法2 視頻片段推薦算法。

        輸入:視頻片段集合S;目標(biāo)片段starget。 輸出:視頻片段集合Cstarget。foreachshotsdoCalculateEs_sim(Estarget,Es)

        endfor

        foreachvideovdoforeachshotsdoifsistopntopofEs_siminvAddstocvi,starget

        endif

        endfor

        Addcvi,stargettoCstarget

        endfor

        returnCstarget

        4 實(shí)驗(yàn)比較與分析

        4.1 數(shù)據(jù)說(shuō)明

        本文的數(shù)據(jù)由兩部分組成:1)國(guó)內(nèi)視頻網(wǎng)站“優(yōu)酷”的一段混剪視頻,這段混剪視頻由十部不同電影中的一些激勵(lì)人心的片段組成;2)視頻片段集,從國(guó)內(nèi)彈幕視頻網(wǎng)站“bilibili”上下載上述混剪視頻相關(guān)的十部電影的彈幕數(shù)據(jù)。這些彈幕數(shù)據(jù)根據(jù)本文的視頻切分規(guī)則切分為一系列彈幕數(shù)據(jù)塊,每一塊數(shù)據(jù)對(duì)應(yīng)一個(gè)視頻片段。收集所有覆蓋混剪視頻相關(guān)內(nèi)容的勵(lì)志視頻片段作為目標(biāo)片段集合,最后收集得到17個(gè)目標(biāo)片段。

        本文選用的中文分詞工具是Jieba,通過(guò)對(duì)彈幕數(shù)據(jù)進(jìn)行分詞、清洗、去噪之后,最后剩余352 892個(gè)詞。通過(guò)設(shè)置Ts=120 s,td=100s來(lái)把視頻切割成一系列片段,并篩選彈幕數(shù)量至少含有8條的視頻片段,且每一部電影至少包含50個(gè)視頻片段。此外,為了避免視頻中的片頭片尾曲對(duì)情感分析造成干擾,本文剔除每部電影的前兩個(gè)片段和最后兩個(gè)片段。數(shù)據(jù)集概況如表2所示。

        表2 實(shí)驗(yàn)數(shù)據(jù)概況

        4.2 實(shí)驗(yàn)設(shè)置

        本文設(shè)計(jì)了幾組對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證模型的準(zhǔn)確性。TF-IDF是文檔關(guān)鍵詞抽取的典型算法。本文中基于TF-IDF的對(duì)比實(shí)驗(yàn)被分為“TF-IDF-R”和“TF-IDF”。對(duì)于“TF-IDF-R”,本文根據(jù)每個(gè)片段中的詞頻向量和Ren_CECps詞典來(lái)計(jì)算視頻片段的情感向量;而在“TF-IDF”中僅通過(guò)片段中的TF-IDF詞頻向量來(lái)描述視頻片段的情感特征。本文提出的情感相似度計(jì)算方法均適用于這兩種方法?!癟F-IDF-R”和“TF-IDF”都在實(shí)驗(yàn)效果中表現(xiàn)穩(wěn)定。

        本文還設(shè)置了原始LDA模型作為MTER的對(duì)比實(shí)驗(yàn),與TF-IDF不同,LDA和MTER都是基于迭代計(jì)算的方法,原始LDA模型中的參數(shù)和MTER中的LDA過(guò)程的實(shí)驗(yàn)參數(shù)保持一致,主要參數(shù)設(shè)置如下:主題采樣迭代次數(shù)η=400;隱含主題個(gè)數(shù)K=20;LDA中的主題分布的先驗(yàn)值α=0.1;對(duì)于MTER,情感影響因子μ=0.15;主題中的有效單詞個(gè)數(shù)P=100。

        實(shí)驗(yàn)過(guò)程包括以下幾個(gè)步驟:1)對(duì)電影切分后的所有視頻片段(包含上文所述的nobjective個(gè)勵(lì)志片段)分別計(jì)算情感向量(見(jiàn)算法1);2)依次取目標(biāo)片段集合中的視頻片段作為starget,計(jì)算S中其他片段與starget的情感相似度分?jǐn)?shù),并在每個(gè)電影vi的視頻片段中取分?jǐn)?shù)最高的ntop個(gè)視頻片段加入推薦列表(見(jiàn)算法2);3)檢測(cè)每個(gè)starget的推薦準(zhǔn)確度。

        本文分別求出每個(gè)目標(biāo)片段的F1值,并求出平均值meanF1,公式定義如下:

        Precision=ncorrect/|Cstarget|

        Recall=ncorrect/nobjective

        4.3 參數(shù)學(xué)習(xí)

        主要對(duì)MTER中的四個(gè)主要參數(shù)進(jìn)行學(xué)習(xí):1)LDA過(guò)程的隱含主題個(gè)數(shù)K;2)主題采樣迭代次數(shù)η;3)情感影響因子μ;4)主題中的有效單詞個(gè)數(shù)P。參數(shù)學(xué)習(xí)結(jié)果如圖3所示。

        當(dāng)主題數(shù)量為20左右,meanF1達(dá)到最優(yōu)值。當(dāng)K>20時(shí),meanF1開(kāi)始迅速下降。由第3章所述,K越大導(dǎo)致ωkm越小,主題模型對(duì)情感向量的影響降低。而當(dāng)K<10時(shí),對(duì)于風(fēng)格不同的視頻片段,tm為同一主題的概率會(huì)增大,這樣同樣不能發(fā)揮主題模型在情感識(shí)別中的優(yōu)勢(shì)。

        P取100左右,meanF1達(dá)到最優(yōu)值。其原因在于隨著詞在tkm排名越靠后,αtkmi趨于0,詞的影響力也越小。此時(shí)采用更多數(shù)量的詞參與計(jì)算,會(huì)使得主題情感的準(zhǔn)確性降低。

        主題采樣迭代次數(shù)η為400時(shí),模型效果達(dá)到最佳效果。當(dāng)η超過(guò)400,LDA過(guò)程將會(huì)出現(xiàn)過(guò)擬合的現(xiàn)象。

        當(dāng)μ=0.15時(shí),模型達(dá)到最優(yōu);當(dāng)μ>0.15時(shí),meanF1下降的原因?yàn)棣淘龃髮?dǎo)致了片段的情感區(qū)分度降低,導(dǎo)致模型誤差。

        圖3 MTER參數(shù)學(xué)習(xí)結(jié)果

        4.4 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)反映了不同ntop如何影響推薦結(jié)果。當(dāng)ntop=15,推薦總數(shù)遠(yuǎn)大于目標(biāo)片段的數(shù)量,導(dǎo)致四種方法的準(zhǔn)確率都達(dá)到最低值;當(dāng)ntop從15降低到10,MTER的召回率降低了19%,而TF-IDF-R、LDA、TF-IDF分別降低27%、24%、32%;當(dāng)ntop降低到5,每個(gè)電影中只有5個(gè)分?jǐn)?shù)最高的視頻片段加入推薦列表,此時(shí)的推薦結(jié)果正確性非常依賴目標(biāo)片段的彈幕數(shù)據(jù),導(dǎo)致四種方法的差距非常小,即便如此MTER依然優(yōu)于其他方法?;贛TER的推薦方法和其他三種對(duì)比實(shí)驗(yàn)的結(jié)果如圖4~5所示。

        圖4 4種算法準(zhǔn)確率結(jié)果對(duì)比

        將meanF1的實(shí)驗(yàn)結(jié)果列入表3??梢钥闯霾唤柚楦性~典的方法TF-IDF和LDA的實(shí)驗(yàn)結(jié)果并不理想,其最好結(jié)果是TF-IDF在ntop=5取得,對(duì)應(yīng)的meanF1=0.084。借助情感詞典的方法的meanF1最低為0.089。實(shí)驗(yàn)中最優(yōu)的meanF1是MTER在ntop=10取得。當(dāng)ntop取得10和15時(shí),MTER比TF-IDF-R分別提高了30%和19%。然而在不借助詞典的情況下,TF-IDF在ntop取三個(gè)不同值的情況下均優(yōu)于LDA。其主要原因?yàn)長(zhǎng)DA根據(jù)片段的主題分布來(lái)計(jì)算片段之間的相似度,然而部分詞尤其是網(wǎng)絡(luò)用語(yǔ)適用于多種類型的場(chǎng)景,這種在各個(gè)片段中出現(xiàn)概率都很大的詞可能會(huì)在不同的主題中都有很大的權(quán)重,這樣就降低了主題模型在情感識(shí)別中的效果。

        圖5 4種算法的召回率結(jié)果對(duì)比

        方法meanF1ntop=15ntop=10ntop=5TF-IDF0.0720.0700.084LDA0.0630.0680.081TF-IDF-R0.0890.0940.095MTER0.1060.1230.096

        通過(guò)以上實(shí)驗(yàn)分析可以發(fā)現(xiàn),基于MTER的視頻片段推薦方法明顯優(yōu)于基于普通LDA和基于TF-IDF的推薦方法,其主要原因是基于MTER的推薦算法考慮到了當(dāng)遇到?jīng)]有情感標(biāo)注的詞,即一個(gè)完全陌生的詞,如何通過(guò)主題模型計(jì)算出該詞的情感值。相對(duì)于其他三種方法,MTER考慮到當(dāng)一個(gè)陌生的詞在不同場(chǎng)景中可能會(huì)有情感差異,并結(jié)合該詞當(dāng)前的主題分布實(shí)時(shí)計(jì)算出該詞在當(dāng)前視頻片段中的情感向量。而基于TF-IDF的實(shí)驗(yàn)方法只考慮了各片段中詞之間的數(shù)量關(guān)系和已有的情感詞向量來(lái)評(píng)估片段的情感,當(dāng)面對(duì)情感詞典數(shù)據(jù)缺乏的情況下無(wú)法對(duì)未知詞的情感進(jìn)行探索,因此基于MTER的推薦方法優(yōu)于其他對(duì)比方法。

        結(jié)合上述結(jié)果分析,不借助情感詞典的方法TF-IDF和LDA在視頻片段推薦中表現(xiàn)較差,尤其是ntop=15,10時(shí);而當(dāng)ntop=5時(shí),四種方法的效果差距不大。MTER在ntop為三種不同值的情況下均優(yōu)于其他三種方法,且在ntop=10時(shí)表現(xiàn)最佳。

        5 結(jié)語(yǔ)

        本文重點(diǎn)對(duì)視頻片段的情感問(wèn)題進(jìn)行研究,提出了基于彈幕情感分析的視頻片段推薦機(jī)制。作為一種新類型的文本消息,彈幕反映了視頻的情感。本文提出了一種新穎的分析機(jī)制,借助主題模型來(lái)挖掘彈幕文本的情感因子。此外,還提出了基于全局特征和局部特征的視頻片段情感相似度分析方法。實(shí)驗(yàn)結(jié)果表明了所提模型在分析不規(guī)則文本的復(fù)雜情感特征方面的能力,以及彈幕在視頻情感分析領(lǐng)域的適用性。

        )

        [1]WUB,ZHONGE,TANB,etal.Crowdsourcedtime-syncvideotaggingusingtemporalandpersonalizedtopicmodeling[C]//Proceedingsofthe20thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACM, 2014: 721-730.

        [2]LVG,XUT,CHENE,etal.Readingthevideos:temporallabelingforcrowdsourcedtime-syncvideosbasedonsemanticembedding[C]//ProceedingsoftheThirtiethAAAIConferenceonArtificialIntelligence.MenloPark,CA:AAAIPress, 2016:3000-3006.

        [3]XIANY,LIJ,ZHANGC,etal.Videohighlightshotextractionwithtime-synccomment[C]//HOTPOST2015:Proceedingsofthe7thInternationalWorkshoponHotTopicsinPlanet-scaleMobileComputingandOnlineSocialneTworking.NewYork:ACM, 2015: 31-36.

        [4]HAMASAKIM,TAKEDAH,HOPET,etal.Networkanalysisofanemergentmassivelycollaborativecreationcommunity[C]//ProceedingsoftheThirdInternationalICWSMConference.MenloPark,CA:AAAIPress, 2009: 222-225.

        [5]WUZ,ITOE.Correlationanalysisbetweenuser’semotionalcommentsandpopularitymeasures[C]//Proceedingsofthe2014IIAI3rdInternationalConferenceonAdvancedAppliedInformatics.Piscataway,NJ:IEEE, 2014: 280-283.

        [6]YOSHIIK,GOTOM.MusicCommentator:generatingcommentssynchronizedwithmusicalaudiosignalsbyajointprobabilisticmodelofacousticandtextualfeatures[EB/OL]. [2016- 03- 10].https://staff.aist.go.jp/m.goto/PAPER/ICEC2009yoshii.pdf.

        [7]ZHAOJ,LIUK,WANGG.AddingredundantfeaturesforCRFs-basedsentencesentimentclassification[C]//EMNLP2008:ProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2008: 117-126.

        [8]ZHOUL,XIAY,LIB,etal.WIA-opinminesysteminNTCIR-8MOATevaluation[EB/OL]. [2016- 03- 10].http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings8/NTCIR/15-NTCIR8-MOAT-ZhouL.pdf.

        [9] 李壽山, 黃居仁.基于Stacking組合分類方法的中文情感分類研究[J]. 中文信息學(xué)報(bào), 2010, 24(5): 56-61.(LISS,HUANGCR.Chinesesentimentclassificationbasedonstackingcombinationmethod[J].JournalofChineseInformationProcessing, 2010, 24(5): 56-61.)

        [10]YUH,HATZIVASSILOGLOUV.Towardsansweringopinionquestions:separatingfactsfromopinionsandidentifyingthepolarityofopinionsentences[C]//EMNLP2003:Proceedingsofthe2003ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2003: 129-136.

        [11] 劉志明, 劉魯.基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012, 48(1): 1-4.(LIUZM,LIUL.EmpiricalstudyofsentimentclassificationforChinesemicroblogbasedonmachinelearning[J].ComputerEngineeringandApplications, 2012, 48(1): 1-4.)

        [12]BLEIDM,NGAY,JORDANMI.LatentDirichletallocation[J].JournalofMachineLearningResearch, 2003, 3: 993-1022.

        [13] HEINRICH G. Parameter estimation for text analysis [EB/OL]. [2016- 03- 10]. http://www.arbylon.net/publications/text-est2.pdf.

        [14] WU B, ZHONG E, HORNER A, et al. Music emotion recognition by multi-label multi-layer multi-instance multi-view learning[C]// Proceedings of the 22nd ACM International Conference on Multimedia. New York: ACM, 2014: 117-126.

        [15] REN J. Document for Ren-CECps 1.0 [EB/OL]. [2016- 03- 10]. http://a1-www.is.tokushima-u.ac.jp/member/ren/RenCECps1.0/Ren-CECps1.0.html.

        [16] QUAN C, REN F. Sentence emotion analysis and recognition based on emotion words using Ren-CECps[J]. International Journal of Advanced Intelligence, 2010, 2(1): 105-117.

        [17] REN F, QUAN C. Linguistic-based emotion analysis and recognition for measuring consumer satisfaction: an application of affective computing[J]. Information Technology and Management, 2012, 13(4): 321-332.

        [18] 鄭飏飏, 徐健, 肖卓. 情感分析及可視化方法在網(wǎng)絡(luò)視頻彈幕數(shù)據(jù)分析中的應(yīng)用[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù), 2015, 31(11): 82-90.(ZHENG Y Y, XU J, XIAO Z. Utilization of sentiment analysis and visualization in online video bullet-screen comments[J]. New Technology of Library and Information Service, 2015, 31(11): 82-90.)

        DENG Yang, born in 1991, M. S. candidate. His research interests include information retrieval, machine learning.

        ZHANG Chenxi, born in 1960, Ph. D., professor. His research interests include distributed computing, embedded system.

        LI Jiangfeng, born in 1983, Ph. D., lecturer. His research interests include distributed computing, social network computing.

        Videoshotrecommendationmodelbasedonemotionanalysisusingtime-synccomments

        DENGYang,ZHANGChenxi,LIJiangfeng*

        (SchoolofSoftwareEngineering,TongjiUniversity,Shanghai201804,China)

        To solve the problem that traditional video emotional analysis methods can not work effectively and the results are not easy to explain, a video shot emotional analysis approach based on time-sync comments was proposed, as a basis for the recommendation of video shots. First, a formal description of video shots recommendation based on emotion analysis was studied. Then, after analyzing the classification of time sync comments based on Latent Dirichlet Allocation (LDA) topic model, the emotional vector of the words in time-sync comments were evaluated. Meanwhile, the emotion relationships among the video shots were analyzed for video shots recommendation. The recommendation precision of the proposed method was 28.9% higher than that of the method based on Term Frequency-Inverse Document Frequency (TF-IDF), and 43.8% higher than that of traditional LDA model. The experimental results show that the proposed model is effective in analyzing the complex emotion of different kinds of text information.

        video shot recommendation; time-sync comments emotion; topic modeling; emotion analysis; emotional vector

        2016- 10- 25;

        2016- 12- 21。

        鄧揚(yáng)(1991—),男,四川成都人,碩士研究生,主要研究方向:信息檢索、機(jī)器學(xué)習(xí); 張晨曦(1960—),男,福建龍巖人,教授,博士生導(dǎo)師,博士,主要研究方向:分布式計(jì)算、嵌入式系統(tǒng); 李江峰(1983—),男,湖北荊州人,講師,博士,CCF會(huì)員,主要研究方向:分布式計(jì)算、社會(huì)網(wǎng)絡(luò)計(jì)算。

        1001- 9081(2017)04- 1065- 06

        10.11772/j.issn.1001- 9081.2017.04.1065

        TP

        A

        猜你喜歡
        彈幕詞典向量
        彈幕
        向量的分解
        HOLLOW COMFORT
        聚焦“向量與三角”創(chuàng)新題
        “彈幕”防御大師
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        一大撥彈幕正在向你襲來(lái)……
        評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        向量垂直在解析幾何中的應(yīng)用
        未满十八勿入av网免费| 久久亚洲精品中文字幕蜜潮| 风流熟女一区二区三区| 日本少妇浓毛bbwbbwbbw| 日本高清aⅴ毛片免费| 国产91在线精品福利| 在线不卡精品免费视频| 亚洲熟妇无码久久精品| 欧美成人一区二区三区| 日本高清不在线一区二区色| 成年男女免费视频网站点播| 国产精品久久国产精麻豆99网站| 熟女人妻在线视频| 久久免费观看国产精品| 亚洲综合国产精品一区二区| 人妻中文字幕乱人伦在线| 亚洲av男人的天堂在线观看| 欧美综合图区亚洲综合图区| 日产国产亚洲精品系列| 亚洲精品美女久久777777| 中国精学生妹品射精久久| 淫妇日韩中文字幕在线| 亚洲中文字幕久久在线| а天堂中文在线官网| 精品国产av无码一道| 中文字幕久久国产精品| 国产av无码专区亚洲版综合| 亚洲av无码一区二区二三区| 日本一道dvd在线中文字幕| 久久精品熟女亚洲av香蕉| 亚洲色成人www永久在线观看| 91精品福利一区二区| 少妇久久高潮不断免费视频| 国产av无码专区亚洲av果冻传媒| 精品人妻人人做人人爽夜夜爽| 免费一级国产大片| 亚洲日本中文字幕乱码在线| 中文字幕人妻熟在线影院| √最新版天堂资源在线| 青青草成人原视频在线播放视频| 丰满人妻被两个按摩师|