亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合注意力機制的多模態(tài)影評情感分析

        2023-02-28 16:09:56溫作前張云華
        智能計算機與應(yīng)用 2023年11期
        關(guān)鍵詞:模態(tài)特征文本

        溫作前,張云華

        (浙江理工大學(xué)信息學(xué)院,杭州 310018)

        0 引 言

        情感是個人面對客觀事物的態(tài)度體驗。 也是個人對客觀世界智能的、主觀的一種表現(xiàn)。 人們表達(dá)情感的方式是多樣的。 一段文字、一條語音、一張圖片,都是人們在某種場景下對特定事件的情緒表現(xiàn)方式。 而電影評論則是人們對電影本身的一種情感表達(dá)。 通過收集網(wǎng)絡(luò)上海量的影評文本和影評圖片進(jìn)行情感分析,能夠有助于用戶在網(wǎng)絡(luò)上有更好的體驗。 隨著信息技術(shù)的不斷發(fā)展,B 站、優(yōu)酷、騰訊視頻等各類觀影平臺的普及使得文本數(shù)據(jù)和數(shù)據(jù)類型越來越豐富。 自深度學(xué)習(xí)不斷發(fā)展以來,越來越多的學(xué)者開始使用深層神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分析[1]。

        近年來,國內(nèi)外學(xué)者針對影評情感分析做了很多研究。 張尚乾等學(xué)者[2]利用影評本體特征以及影評情感特征與長短期記憶網(wǎng)絡(luò)(LSTM)融合進(jìn)行文本級情感分類。 張碧依等學(xué)者[3]提出基于XLNet預(yù)訓(xùn)練語言模型對影評信息進(jìn)行分布式表示,再利用BiLSTM 進(jìn)行深層語義分析,最后使用softmax函數(shù)實現(xiàn)情感級分類。 辛雨璇等學(xué)者[4]利用TF-IDF和貝葉斯分類對影評文本進(jìn)行情感分析。

        但是單模態(tài)文本數(shù)據(jù)中所包含的信息不夠全面,在某些情況下只依靠目標(biāo)文本難以準(zhǔn)確判斷目標(biāo)的情感狀態(tài)[5]。 一個在影評中較為常見的例子是反諷。 在反諷中,文本內(nèi)容表達(dá)的情感往往是較為中性和積極的,但圖片所表達(dá)的情感往往是消極的。 如,“這電影可真好看啊!”,僅僅從文本上看情緒是積極的,但當(dāng)配上一個”咒罵”的表情,整個句子的情感將發(fā)生本質(zhì)變化。 這種情況使用單模態(tài)模型很難徹底解決問題。

        為此,本文以多模態(tài)影視評論為研究對象,在注意力機制的作用下突出文本中情感信息特征和圖像特征,對高權(quán)重的數(shù)據(jù)向量進(jìn)行特征融合再進(jìn)行情感的分類,最后對普通的單模態(tài)模型效果進(jìn)行分析。通過結(jié)論論證,本文構(gòu)建的VGG16-BiLSTM 多模態(tài)模型對于影視評論有更高的情感識別效率,深入挖掘文本信息,識別隱晦情感。

        1 相關(guān)知識

        1.1 卷積神經(jīng)網(wǎng)絡(luò)VGG16

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種深層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),主要包含卷積層和池化層。 其中,卷積層用于提取圖像特征,池化層用于提取和優(yōu)化特征。卷積神經(jīng)網(wǎng)絡(luò)在低隱藏層通常由卷積層和最大池化層組成,最大池化層可用來強化特征。 高層是全連接層,起到分類器的作用。 第一個全連接層的輸入是由低隱藏層所提取且優(yōu)化的圖像特征。 最后一層輸出層使用邏輯回歸、softmax回歸或者支持向量機對圖像特征進(jìn)行分類。

        VGG16 網(wǎng)絡(luò)模型共有6 個塊結(jié)構(gòu),每個塊結(jié)構(gòu)的通道數(shù)量相同,其中卷積層和全連接層均有權(quán)重系數(shù),故也稱權(quán)重層。 權(quán)重層共16 層,其中卷積層有13層,全連接層有3 層。 VGG 全部采用3?3 的卷積核,步長和Padding均為1,2?2 的最大池化核,步長為2,Padding為0。 VGG 通過疊加多個3?3卷積核使得最終擁有了5?5 的卷積核以及7?7 的卷積核的感受野。 在感受野相同的情況下,多個3?3 的卷積核可以大幅度增加非線性表達(dá)能力。

        1.2 長短期記憶神經(jīng)網(wǎng)絡(luò)

        RNN 常用于自然語言的處理,這依賴于RNN能夠記憶已經(jīng)學(xué)習(xí)到的信息,并結(jié)合當(dāng)前的信息得到當(dāng)前輸出與之前信息的關(guān)系。 RNN 的時序結(jié)構(gòu)如圖1 所示。

        圖1 RNN 結(jié)構(gòu)圖Fig. 1 Structure of RNN

        由圖1 可以看出,t時刻RNN 的輸入包含當(dāng)前時刻的輸入Xt和上一時刻隱藏層的狀態(tài)ht-1。 這樣的設(shè)計在處理長序列時很容易將一些無效的信息也進(jìn)行記憶傳遞,同時會出現(xiàn)梯度爆炸和梯度消失的問題,使得較長距離的文字相關(guān)性下降。

        長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)在RNN 的基礎(chǔ)上利用門(gate)機制控制輸入信息,輸出信息,以此記憶或者遺忘長距離信息。 LSTM 單元結(jié)構(gòu)如圖2 所示。

        圖2 LSTM 單元結(jié)構(gòu)Fig. 2 The unit structure of LSTM

        由圖2 可知,LSTM 的構(gòu)成有記憶細(xì)胞C、更新門i、遺忘門f和輸出門o。 其中,更新門用于決定當(dāng)前時刻的信息對輸出的影響程度;遺忘門用于保存或者遺忘之前記憶的信息;輸出門用于描述當(dāng)前時刻記憶細(xì)胞輸出與下一時刻輸入信息的相關(guān)性。 記憶細(xì)胞C表示某一時刻所處理的特征信息。 LSTM工作過程中主要設(shè)計各符號的闡釋解讀見表1。 研究中,將用到以下數(shù)學(xué)公式:

        表1 符號解釋說明表Tab. 1 Symbolic interpretation

        通常情況下,文檔中每個詞匯不但依賴之前的元素,而且還與之后的元素關(guān)系密切。 為此可知,BiLSTM 是一種雙向的LSTM,如t時刻的BiLSTM 包含的信息為t時刻之前LSTM 的信息加上t時刻之后LSTM 的信息。 如句子向前的LSTML 依次輸入“電影”、“好”、“看”得到3 個向量{al0,al1,al2}。后向的LSTMR 依次輸入“看”、“好”、“電影” 得到3個向量{ar0,ar1,ar2}.再進(jìn)行拼接得到{[al0,ar0],[al1,ar1],[al2,ar2]},即{a0,a1,a2}。

        1.3 注意力機制

        注意力機制是一種篩選信息的方法,能夠進(jìn)一步緩解LSTM 中長期依賴的問題。 注意力機制實現(xiàn)分3 步進(jìn)行,如:

        (1)通過人工設(shè)置的超參數(shù)或者通過動態(tài)生成的向量確定查詢向量。

        (2)使用打分函數(shù)中的加性模型計算出輸入特征與查詢向量的相關(guān)性,得到概率分布。

        (3)利用注意力機制對輸入的特征進(jìn)行加權(quán)平均,得到最終的特征信息。

        2 模型構(gòu)建

        2.1 融合注意力機制的多模態(tài)影評情感分析研究框架

        本文選取騰訊視頻的影評中的文本和圖像作為研究對象,提出融合注意力機制的影評情感分析模型,主要思路是在融合注意力機制的情況下,針對文本和圖像進(jìn)行訓(xùn)練,強化用戶情感詞,更全面地捕獲全文信息。 模型組成部分有:使用Word2Vec 并結(jié)合負(fù)采樣對影評文本進(jìn)行詞向量化;使用BiLSTM模型對影視評論的文本信息進(jìn)行特征信息的提?。辉诒砬閳D像特征識別上,使用VGG16 對表情圖像的特征進(jìn)行提?。焕米⒁饬C制對文本和表情圖像中的情感信息特征進(jìn)行強化;在中間層進(jìn)行多模態(tài)信息特征的融合。 最后,由決策層根據(jù)融合的特征信息進(jìn)行情感分類。 融合注意力機制后如圖3 所示。

        圖3 融合注意力機制的多模態(tài)影評情感分析路線圖Fig. 3 Roadmap of multimodal emotion analysis of movie reviews integrating attention mechanism

        2.2 融合注意力機制的BiLSTM 的文本特征提取

        關(guān)于融合注意力機制的BiLSTM 的模型有3 層,涉及詞向量化、特征提取和注意力層。 Word2Vec 將傳入的文本編碼轉(zhuǎn)化為特征向量,使用卷積過濾器進(jìn)行特征提取,再進(jìn)行注意力分析,最后實現(xiàn)情感分析。形成ATT-BiLSTM 模型。 融合注意力機制的文本情感分析流程如圖4 所示。

        圖4 融合注意力機制的文本情感分析流程圖Fig. 4 Flow chart of text emotion analysis integrating attention mechanism

        2.3 VGG16 圖像特征提取與注意力加權(quán)

        在圖像情感分析中,VGG16 提取影視評論中表情圖像特征,利用注意力機制,提取圖像局部關(guān)鍵位置的信息,形成Att-VGG16 模型,進(jìn)行情感分析。注意力加權(quán)和圖像特征情感分析流程如圖5 所示。

        圖5 注意力加權(quán)和圖像特征情感分析流程圖Fig. 5 Flow chart of attention weighting and image feature emotion

        2.4 圖像文本特征加權(quán)融合

        對于影視評論情感進(jìn)行分析時,雖然圖片能夠直觀提供視覺信息,但是圖片描述情感過于單一。盡管文本特征描述情感更豐富,但是文本描述情感不直觀,所以獨立的文本輸入或者單獨的圖片輸入無法滿足高精度的情感分類需求。 因此,需要融合圖片特征和文本特征。 融合方式采用決策級融合,也稱后期融合。 在決策層將文本分類結(jié)果與圖像情感分類結(jié)果相融合,附上對應(yīng)權(quán)重,能夠較大限度地保留不同模態(tài)對情感傾向的影響,以此獲得最終的結(jié)果分類。

        在權(quán)重分配過程中,Pt表示文本分類的概率,Pi表示圖像的分類的概率,Pc是分別給Pt和Pi分配Wt(文本權(quán)限)、Wi(圖像權(quán)限)并且相加得到,根據(jù)Pc得出后期融合后的輸出分類。 融合函數(shù)Pc如式(7)所示:

        情感分類在圖文特征融合之后,oT作為最終表示,采用softmax函數(shù)作為輸出層。 函數(shù)表達(dá)為:

        其中,bs是可學(xué)習(xí)的偏置向量;Ws是可學(xué)習(xí)的輸出層的權(quán)重矩陣;y是預(yù)測的情感極性分布。

        通過使用交叉熵?fù)p失函數(shù)L(θ) 對所提出的模型進(jìn)行測試。 計算公式如下:

        其中,N是訓(xùn)練集中影評片段;M是情感類別的數(shù)量;ys是第s個影評的真實情感類別。

        3 實驗與分析

        3.1 數(shù)據(jù)集

        本實驗的數(shù)據(jù)集選用騰訊視頻,通過爬蟲軟件,在視頻評論中,爬取評論的文本信息和圖片信息。對于文本數(shù)據(jù)需要進(jìn)行適當(dāng)處理,如刪除不合規(guī)的字符,刪除標(biāo)點符號。 在詞嵌入方面使用Word2Vec,將執(zhí)行詞進(jìn)行向量化。 對于圖像,先刪除廣告圖像等無關(guān)圖像,再將圖像調(diào)整成大小為227×227×3,進(jìn)行圖像裁剪。

        3.2 評價指標(biāo)

        為了更加準(zhǔn)確計算出模型所預(yù)測的情感分類與實際情感分類的區(qū)別,采用多種評價標(biāo)準(zhǔn)。 如準(zhǔn)確率、召回率、F值、AUC等評價指標(biāo)進(jìn)行模型性能的綜合判斷,具體見式(10)~(13):

        其中,TP表示觀眾對影視作品持積極情感、并且預(yù)測為積極情感;FN表示觀眾對影視作品持積極情感、預(yù)測為消極情感;FP表示觀眾對影視作品持消極情感、預(yù)測為積極情感;TN表示觀眾對影視作品持消極情感、預(yù)測也是消極情感。

        3.3 實驗結(jié)果

        利用訓(xùn)練集數(shù)據(jù)訓(xùn)練后統(tǒng)計的訓(xùn)練集損失結(jié)果如圖6 所示。 從圖6 結(jié)果可知,BiLSTM-VGG16 模型的AUC值為0.86.相比于BiLSTM 和VGG16,分別增加了0.127 和0.11。AUC的值越趨近于1,模型的處理能力越好。 這體現(xiàn)了圖像和文本在影視評論的情感分析中起到了相互引導(dǎo)、相互彌補的作用。 模型的訓(xùn)練集損失曲線如圖6 所示。

        圖6 模型的訓(xùn)練集損失Fig. 6 Training loss of the model

        為了進(jìn)一步證實本實驗?zāi)P偷挠行?,基于同一?shù)據(jù)集對VGG16、BiLSTM 、BiLSTM-VGG16 等模型使用準(zhǔn)確率、召回率、F值等指標(biāo)進(jìn)行評估具體評價,結(jié)果見表2。

        表2 預(yù)測模型的評價結(jié)果Tab. 2 Evaluation results of prediction model%

        實驗數(shù)據(jù)表明,相比于單獨使用文本或者圖像,多模態(tài)下對影視評論進(jìn)行情感分析的效果更好。 仿真后可知,準(zhǔn)確率為85.37%、召回率為87.53%、F值為85.41%、AUC為86.07%。 相比于VGG16、BiLSTM 都有所提升。

        4 結(jié)束語

        本文針對現(xiàn)有的單模態(tài)影評情感分析模型研究存在的分類不精準(zhǔn)、各模態(tài)間信息無法共享、難以分辨反諷文本等問題,提出了基于注意力機制的多模態(tài)BiLSTM-VGG16 模型。 利用BiLSTM 和VGG16分別對影視評論的文本和影視評論的表情圖像進(jìn)行特征的提取和分類,再將提取的特征信息進(jìn)行融合。在理論上,不同模態(tài)形式是相互獨立,但是出現(xiàn)在同一語境中時,不同模態(tài)會相互影響。 例如,圖像和文本的情感表達(dá)傾向一致時,會增強情感的表達(dá),當(dāng)二者相反時則會出現(xiàn)反諷的現(xiàn)象。 在注意力機制的作用下,提高對正確情感的捕獲能力。 通過對采集到的影視評論數(shù)據(jù)進(jìn)行實驗,驗證本模型較好的情感分析能力,分析效果好于VGG16、BiLSTM 等模型。該模型可為影評情感分析提供參考。

        猜你喜歡
        模態(tài)特征文本
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        真实国产网爆门事件在线观看| 国产无套粉嫩白浆在线| a级毛片无码久久精品免费| 成人片黄网站色大片免费观看app| 亚洲欧洲日韩另类自拍| 超碰青青草手机在线免费观看| 性色av一二三天美传媒| 乌克兰粉嫩xxx极品hd| 国产AV无码一区精品天堂| 一区二区三区在线日本| 校园春色人妻激情高清中文字幕| 精品三级av无码一区| 麻豆91免费视频| av免费看网站在线观看| 成人av在线久色播放| 国产色无码精品视频国产| 2022Av天堂在线无码| 一级二级三一片内射视频| 久久精品国产99久久久| 亚洲旡码a∨一区二区三区| 国产av一区二区三区丝袜| av毛片亚洲高清一区二区| 中文字幕视频一区二区| 国产在线高清理伦片a| 波多野结衣av手机在线观看| 国产精品白浆视频一区| 中文字幕日本av网站| 四虎国产精品永久在线| 97久久久久人妻精品专区| 亚洲免费视频一区二区三区| 亚洲乱码av中文一区二区第八页 | 午夜亚洲精品视频网站| 亚洲精品国产电影| 欧美丰满熟妇aaaaa片| 欧美日韩国产乱了伦| 久久综合久久综合久久| 欧美a级毛欧美1级a大片免费播放| 国产精品九九九久久九九| 国产三级视频在线观看国产| 国产麻豆剧果冻传媒一区| 波多野结衣aⅴ在线|