亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘的影視彈幕情感分析研究*

        2021-09-08 08:58:04鄒墨馨辛雨璇
        科技創(chuàng)新與應(yīng)用 2021年24期
        關(guān)鍵詞:彈幕分值分類

        鄒墨馨,辛雨璇

        (牡丹江師范學(xué)院 計算機與信息技術(shù)學(xué)院,黑龍江 牡丹江 157000)

        在當(dāng)今網(wǎng)絡(luò)高速發(fā)展的時代,觀看電影成為人們解壓、尋求快樂的主要方式之一。其中大部分用戶對電影的概況、評價等信息也存在一定的需求,但是用戶通過搜索引擎搜索得到的電影評價信息一方面可能存在較大誤差,另一方面搜索得到的數(shù)據(jù)也可能存在限制,因此無法準(zhǔn)確搜集得到有關(guān)該影視作品的有價值信息。隨著時間的流逝,影評數(shù)據(jù)具有大數(shù)據(jù)規(guī)模,比如在動態(tài)彈幕的評論數(shù)據(jù)中,雖然人們可以看到所有的彈幕評論,但是太多的彈幕文本存在相互遮擋、移動速度快等問題,從而使用戶無法看到完整的彈幕評論信息,最終導(dǎo)致無法準(zhǔn)確對電影做出整體評價。因此,本文在基于大數(shù)據(jù)的背景下,采用文本挖掘技術(shù)[1]對彈幕文本數(shù)據(jù)進行爬取,從而找到海量評論下隱含的情感問題。

        1 數(shù)據(jù)收集處理和可視化設(shè)計

        1.1 數(shù)據(jù)獲取

        本文的數(shù)據(jù)來源于某視頻的彈幕文本,首先對網(wǎng)頁進行頁面分析,找到網(wǎng)頁發(fā)送彈幕的異步請求包,并分析目標(biāo)網(wǎng)頁的URL變化,通過觀察分析發(fā)現(xiàn)頁面遵循的規(guī)律,利用變化規(guī)律就可以快速實現(xiàn)數(shù)據(jù)的分段爬取處理。其次對目標(biāo)網(wǎng)頁結(jié)構(gòu)進行分析之后,找到數(shù)據(jù)的接口,由于網(wǎng)頁返回的數(shù)據(jù)是JSON格式,我們可以利用json.loads對數(shù)據(jù)進行直接解析,最后進行數(shù)據(jù)的存儲。其中存儲的數(shù)據(jù)內(nèi)容包含用戶名、會員等級、評論內(nèi)容等字段。

        1.2 數(shù)據(jù)清洗

        其中數(shù)據(jù)清洗[2]是情感分析中的一個重要環(huán)節(jié),主要是對原始數(shù)據(jù)進行處理。比如:缺失值的處理、重復(fù)值的處理等。首先把數(shù)據(jù)全部讀取進來,然后把讀取完成的數(shù)據(jù)進行去重處理、表情刪除等清洗,最后將清洗之后的數(shù)據(jù)重新進行存儲,共計處理了4萬多條彈幕文本數(shù)據(jù)。

        2 數(shù)據(jù)可視化

        數(shù)據(jù)獲取和處理完畢之后,利用Python中的第三方庫Pyecharts庫、WordCloud庫等進行數(shù)據(jù)可視化分析,以《哪吒之魔童降世》為例,本文通過電影情感計算值折線圖和電影評論分析詞云圖進行可視化展示。

        電影情感計算值折線圖可以顯示隨時間變化的趨勢或按順序分類的走向,并可以使用數(shù)據(jù)點來表示單個數(shù)據(jù)值。根據(jù)評論的時間段,讓有關(guān)數(shù)量之間的關(guān)系更加直觀、鮮明。使用Pyecharts庫中的Line模塊實現(xiàn)折線圖的設(shè)計。電影情感計算值折線圖如圖1所示。

        圖1 電影情感計算值折線圖

        電影評論分析詞云圖首先要對爬取的評論信息進行處理,使用jieba.cut()方法把文本進行分詞,然后進行文本的分析,根據(jù)詞語出現(xiàn)的次數(shù)生成詞頻統(tǒng)計,最后在wordcloud模塊,設(shè)置詞云圖顯示詞語的個數(shù)、字體等,最終將生成的詞云圖保存到指定路徑中。電影評論分析詞云圖如圖2所示。

        圖2 電影評論分析詞云圖

        3 基于Bi-LSTM情感傾向性分類模型

        3.1 Bi-LSTM模型原理

        Bi-LSTM模型是一個雙向的LSTM結(jié)構(gòu),該模型把捕獲到的正向和反向信息合二為一輸出。也就是說Bi-LSTM[3]模型是把兩個時序相反的LSTM網(wǎng)絡(luò)連到同一個輸出上,從獲取輸入序列上看,正向LSTM能得到上文信息,反向LSTM能得到下文信息。比如“多”“支持”“國產(chǎn)”“動漫”是Bi-LSTM所捕獲的正向編碼信息,同時該模型還包含“動漫”“國產(chǎn)”“國產(chǎn)”“多”的反向編碼信息,最終把這兩個編碼信息合并成一個輸出。其中基于Bi-LSTM的情感分類模型如圖3所示。在t時刻,也就是輸入會提供兩個反向的LSTM網(wǎng)絡(luò),然后分別進行獨立計算,最后在一起合并輸出[4]。其中在基于更加細粒度的分類時,Bi-LSTM模型能夠更好地捕獲語句中上下文信息,所以該模型對帶有主觀描述的中文文本進行情感極性類別分類時有更好的判斷能力,可以計算出準(zhǔn)確的情感傾向相應(yīng)的分值。

        圖3 基于Bi-LSTM的情感分類模型

        在20世紀(jì)90年代末,Hochreiter[5]等人提出LSTM模型,其中LSTM模型[6]是一種時序模型,含有三個門結(jié)構(gòu),分別為遺忘門、輸入門、輸出門。在t時刻時,Wf、Wi、Wc是權(quán)重矩陣bf、bi、bc、bo是偏置矩陣,Ut、Ui、Uc、Uo表示上一層輸出Wf、Wi、Wc,Ht-1在這一層各個部分的權(quán)重矩陣。其中LSTM模型單元結(jié)構(gòu)如圖4所示。

        圖4 LSTM模型單元網(wǎng)絡(luò)結(jié)構(gòu)

        網(wǎng)絡(luò)內(nèi)部記憶單元:

        3.2 實驗數(shù)據(jù)集

        本文利用python網(wǎng)絡(luò)爬蟲技術(shù)爬取的原始彈幕數(shù)據(jù)共計46441條,經(jīng)過一系列數(shù)據(jù)的預(yù)處理之后,得到的數(shù)據(jù)為45579條,其中得到二分類中積極的評論有29173條,消極的評論有16406條。

        3.3 實驗結(jié)果展示與分析

        本文首先對彈幕文本數(shù)據(jù)進行讀取,然后進行一系列數(shù)據(jù)清洗、分詞等操作之后,把處理好的彈幕文本數(shù)據(jù)通過Bi-LSTM的情感分類模型進行情感分類計算。如表1所示(部分)的情感分值以及情感類型的判斷,其中0代表消極,1代表積極。

        表1 情感傾向分值表

        通過計算分析發(fā)現(xiàn)該影片整體的情感分值在0.5以上如圖1所示,說明用戶對該部影視作品的情感傾向還是比較積極的,總體上看大部分人是持比較滿意的態(tài)度。情感分值的發(fā)展趨勢則是從視頻剛開始表現(xiàn)升高,然后再降低,最后再升高。從情感分值高于0.5的積極評論可以推測出,整體給予評價較高的原因是相比較以前的國產(chǎn)動漫而言,這部作品不僅在人物形象上下足了功夫,而且在觀影質(zhì)感以及所想要傳承的中國傳統(tǒng)文化精神等各個方面都表現(xiàn)的非常出色。對于用戶而言,印象最深刻的就是真切的感受到國產(chǎn)動漫的巨大進步,背后都是工作人員的辛苦付出,才會收獲現(xiàn)在的成績。從情感分值低于0.5的消極評論可以推測出,少部分人對故事中的一些情節(jié)產(chǎn)生不滿,所以評論用戶對此發(fā)表了一些比較消極的評論。

        4 結(jié)論

        本文將基于文本挖掘技術(shù)進行彈幕文本分析,通過對彈幕文本數(shù)據(jù)的情感傾向性分析得到該電影的整體評論,最終得出該電影評論比較中肯的見解。在情感分析中,首先利用python網(wǎng)絡(luò)爬蟲技術(shù)對彈幕文本進行爬取,經(jīng)過一系列數(shù)據(jù)預(yù)處理之后,進行了直觀的詞云展示、柱狀圖展示等,然后采取Bi-LSTM模型對彈幕評價進行情感分類處理,最后計算出情感傾向性分值。目前,在大數(shù)據(jù)的背景下,對于用戶選擇哪部電影是否值得進行觀看提供比較中肯的意見,有助于幫助用戶了解該影片,同時也可以幫助影視公司了解用戶的喜好、分析熱點話題等問題,從而可以給影視公司提供一些有效的策略。

        猜你喜歡
        彈幕分值分類
        彈幕
        一起來看看交通違法記分分值有什么變化
        工會博覽(2022年8期)2022-06-30 12:19:30
        分類算一算
        HOLLOW COMFORT
        漢語世界(2021年2期)2021-04-13 02:36:18
        “彈幕”防御大師
        一大撥彈幕正在向你襲來……
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        宿遷城鎮(zhèn)居民醫(yī)保按病種分值結(jié)算初探
        久久精品国产亚洲av成人文字| 又爽又黄又无遮挡网站动态图| 乱码一二三入区口| 国产视频嗯啊啊啊| 亚洲一区二区不卡日韩| 日本a级免费大片网站 | 免费看黑人男阳茎进女阳道视频 | 亚洲视频在线一区二区| 欧美a级情欲片在线观看免费| 亚洲欧美中文在线观看4| 国产精品久久中文字幕亚洲| 水蜜桃视频在线观看入口| 一本大道av伊人久久综合| 中文人妻熟妇乱又伦精品| 中文无码成人免费视频在线观看| 精品一区二区三区四区少妇 | 特级做a爰片毛片免费看| 亚洲国产精品嫩草影院久久| 亚洲www视频| 91久久精品一区二区| 肉色欧美久久久久久久免费看| 一个人看的视频www免费| 无码精品色午夜| 亚洲女人天堂成人av在线| 国产av综合网站不卡| 中出人妻中文字幕无码| 麻豆久久五月国产综合 | 国产精品福利影院| 国产一区二区三区av香蕉| 国产亚洲视频在线播放| 少妇高清精品毛片在线视频| 一本一本久久a久久精品综合| 日韩精品一区二区三区影音视频| 精品欧美一区二区三区久久久| 国产精品久久久久久影视| 日韩av一区二区三区四区av| 三级国产自拍在线观看| 久久久久久亚洲av成人无码国产 | 精品蜜桃av一区二区三区| 高清在线有码日韩中文字幕| 狠狠色综合7777久夜色撩人ⅰ|