亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)條件下國產(chǎn)電影影評的情感分析

        2022-06-15 13:57:42包淑華石盈鑫
        呼倫貝爾學(xué)院學(xué)報 2022年2期
        關(guān)鍵詞:李煥英共詞詞典

        包淑華 石盈鑫

        (呼倫貝爾學(xué)院 內(nèi)蒙古 海拉爾 021008)

        隨著人們生活質(zhì)量的提高和國內(nèi)電影市場的迅速發(fā)展,去電影院觀看電影已成為人們休閑娛樂的活動之一。有關(guān)數(shù)據(jù)顯示,2020年國產(chǎn)電影達(dá)到了歷史最高,占全年電影放映量的84%,對國產(chǎn)電影影評研究的多樣性也日以展現(xiàn)。

        近年來,自然語言處理技術(shù)得到了以計算機科學(xué)為代表的自然科學(xué)領(lǐng)域到社會科學(xué)領(lǐng)域的廣泛關(guān)注,并且在新聞傳播、輿論管理、觀點分析等問題中展示了不容忽視的價值。[1]

        國外從事情感分析的相關(guān)人員開發(fā)了很多基于實用方向的情感分析文本分類系統(tǒng)。[2]國內(nèi)從20世紀(jì)90年代起,多位學(xué)者開始了對情感分析實用價值的研究,并建立了輔助研究情感分析的自動圖書分類系統(tǒng)。例如,東北大學(xué)圖書館“圖書分類系統(tǒng)”、長春地質(zhì)學(xué)院圖書館“圖書分類系統(tǒng)”[3]。

        每個人都是信息的締造者也是使用者,越來越多的企業(yè)都嘗試從數(shù)據(jù)中挖掘有價值的信息來解決業(yè)務(wù)的問題。[4]身處大數(shù)據(jù)時代,人們?nèi)绾尉_、快速地找到所需信息已經(jīng)成為當(dāng)前研究的焦點。[5]本文正是以此為初衷,針對同一時期上映的相似主題的電影影評進(jìn)行不同角度的情感分析,使觀眾獲得怎樣去“多選一”地觀看電影的參考依據(jù)。為體現(xiàn)所用方法的有效性,文章選取了觀眾所熟悉的兩部國產(chǎn)電影《媽媽再愛我一次》和《你好,李煥英》。邵小青等[6]以Python語言在情感分析中的應(yīng)用為基礎(chǔ),通過爬取豆瓣影評《你好,李煥英》的評論數(shù)據(jù),對電影的情感評價程度進(jìn)行了可視化展示;不足之處是只適用于單個文本的情感分析。本文在它的基礎(chǔ)上改用應(yīng)用軟件Python與ROSTCM6相結(jié)合的方法,對影評進(jìn)行分析。其中,ROSTCM6統(tǒng)計軟件用于電影影評的詞頻統(tǒng)計,它對于較大的影評數(shù)據(jù)操作方便,統(tǒng)計出來的數(shù)據(jù)的估計值也更加精確。通過SnowNLP進(jìn)行影評的情感分析。本文在李伊淑[7]的研究基礎(chǔ)上進(jìn)行了文本的高頻詞提取,估計出電影所要表達(dá)出的情感趨向。這不僅能為媒體、電影市場、社交網(wǎng)站提供口碑及相關(guān)服務(wù),[8]也有助于提高情感分析準(zhǔn)確率的目的。

        1 基礎(chǔ)理論知識介紹

        1.1 情感分析

        情感分析是自然語言處理領(lǐng)域的一個任務(wù),又稱傾向性分析、情感挖掘、主觀性分析等,它是對帶有情感色彩主觀性文本進(jìn)行分析、處理、歸納和推理的過程。[9]

        對于短評的情感分析方法可以分為兩大類:基于情感詞典匹配法和基于Python語句的機器情感分析?;谇楦性~典匹配的情感分析是指,對影評中的文本內(nèi)容進(jìn)行分詞和停用詞處理,然后用Python(相關(guān))軟件結(jié)合情感詞典匹配情感詞語,找出積極和消極詞匯。基于Python語句的機器情感分析也叫基于機器學(xué)習(xí)的情感分析,主要是利用軟件篩選文本中有積極情感與消極情感的語句,再用機器學(xué)習(xí)法對篩選出的語句進(jìn)行分析。

        1.2 中文分詞

        本文利用Python軟件第三方Jieba庫進(jìn)行中文分詞。分詞模式及函數(shù)如表1所示:

        表1 分詞三種模式

        1.3 TF-IDF算法

        TF-IDF算法通過TF來反映文本內(nèi)部特征,[10]可用以評估一詞(字)對于一份文本的重要程度。它實際上是TF(詞頻)與IDF(逆文檔頻率)的乘積,算法如下

        (1)

        其中,ω代表計算的詞或字,N代表語料庫的文檔總數(shù),n代表語料庫中包含ω的文檔數(shù)。

        這里的特征項為詞語或單獨的字。

        2 影評數(shù)據(jù)處理

        2.1 數(shù)據(jù)來源

        利用第三方爬蟲軟件“八爪魚”對所要分析的兩部電影《你好,李煥英》和《媽媽再愛我一次》進(jìn)行電影影評數(shù)據(jù)的爬取。由于軟件的局限性,只爬取了豆瓣電影上的影評數(shù)據(jù),每部電影影評220條。

        2.2 數(shù)據(jù)預(yù)處理

        2.2.1 利用情感詞典分詞

        本文選擇知網(wǎng)HowNet情感詞典與臺灣大學(xué)NTUSD簡體中文情感詞典作為基礎(chǔ)情感詞典。利用情感詞典分詞步驟如下:

        對這兩個情感詞典進(jìn)行整合與去重。將知網(wǎng)HowNet中的正面中文情感詞語和正面評價中文詞語進(jìn)行組合,再與臺灣大學(xué)NTUSD情感詞典中的積極詞語進(jìn)行去重合并作為積極情感詞典導(dǎo)入Python軟件中備用。

        將知網(wǎng)HowNet中的負(fù)面情感中文詞語和負(fù)面評價中文詞語進(jìn)行組合,再與臺灣大學(xué)NTUSD情感詞典中的消極詞語進(jìn)行去重合并作為消極情感詞典導(dǎo)入Python軟件中備用。

        將知網(wǎng)HowNet情感詞典中的程度中文詞語進(jìn)行分類。如,將程度詞“極其”和“最”的意義詞語分為第一類;將“很”的意義詞語作為第二類;將“較”的意義詞語分為第三類;將“稍”的意義的詞語分為第四類,并作為程度情感詞典導(dǎo)入Python軟件中。利用Python軟件Jieba庫進(jìn)行分詞處理。

        2.2.2 去除停用詞

        將影評分詞后的文檔進(jìn)行停用詞處理,本文選擇了哈爾濱工業(yè)大學(xué)的停用詞作為自定義停用詞表,對影評進(jìn)行了停用詞處理。

        2.2.3 文本特征抽取

        分詞進(jìn)行去停用詞后,對兩部電影的影評數(shù)據(jù)進(jìn)行詞頻分析,得到“電影”“媽媽”為第一、第二高頻詞。前10個詞語及出現(xiàn)次數(shù)情況如表2:

        表2 影評高頻詞

        將相關(guān)數(shù)據(jù)(截止2021年7月,豆瓣電影網(wǎng)爬取的數(shù)據(jù))代入算式(1),可以得到下列影評TF-IDF值表:

        表3 影評TF-IDF值(排序前10的高頻詞)

        表3中的TF-IDF值越大,這說明詞語在文本的重要性越強。更加清晰地展現(xiàn)了這些詞在影評中的重要程度。

        3 影評情感分析

        3.1 共詞矩陣

        共詞矩陣用于公共的關(guān)鍵詞,它通過關(guān)鍵詞出現(xiàn)在不同評論中的次數(shù)列出矩陣,以便更加快速地計算分類信息與共詞矩陣,以此來描述詞組間的親密度。

        本文利用表2與分詞后的影評數(shù)據(jù)相結(jié)合得到兩部電影的共詞矩陣。因得到的共詞矩陣數(shù)據(jù)較為龐大,依據(jù)詞與詞之間存在的相關(guān)性較強的進(jìn)行篩選,列出具有相關(guān)性的10個詞構(gòu)成以下共詞矩陣。

        3.1.1 《你好,李煥英》共詞矩陣

        根據(jù),“電影、媽媽、賈玲、觀眾、母親、女兒、導(dǎo)演、李煥英、穿越、小品”等10個詞的順序構(gòu)成的共詞矩陣如(圖1):

        圖1 《你好,李煥英》共詞矩陣

        由圖1可以看出,詞“電影”與“賈玲”之間存在最高的關(guān)聯(lián)。因為,賈玲是本電影的導(dǎo)演且是主演之一。其次,“電影”與“觀眾”之間存在較高的關(guān)聯(lián),這說明,一部電影的口碑與觀眾對于電影的評價密切相關(guān);“電影”與“母親”“媽媽”等詞語之間的親密度也明確了這部電影的主題。

        3.1.2 《媽媽再愛我一次》共詞矩陣

        根據(jù),“電影、媽媽、電影院、小時候、記得、小學(xué)、組織、學(xué)校、這部、當(dāng)年”等10個詞的順序構(gòu)成的共詞矩陣如下:

        圖2 《媽媽再愛我一次》共詞矩陣

        由圖2可以看出,“電影”和“媽媽”有高度的關(guān)聯(lián)性,也明確了電影的主題。其它與“電影”存在密切關(guān)系的詞也說明了這部電影的久遠(yuǎn)。

        3.2 語義網(wǎng)絡(luò)圖

        語義網(wǎng)絡(luò)圖是指,語義網(wǎng)絡(luò)中信息被表達(dá)為一組結(jié)點,結(jié)點通過一組帶標(biāo)記的有向直線彼此相連,用于表示結(jié)點間的關(guān)系。

        本文用ROSTCM6軟件與情感詞典相結(jié)合的方法對電影進(jìn)行情感分析,得出電影評論數(shù)據(jù)的積極、中性、消極評論,并進(jìn)行語義網(wǎng)絡(luò)構(gòu)建。圖3是電影《你好,李煥英》的積極語義網(wǎng)絡(luò)圖:

        圖3 《你好,李煥英》積極語義網(wǎng)絡(luò)圖

        3.3 SnowNLP情感分析

        SnowNLP情感分析是基于情感詞典來實現(xiàn),它將所要分析的文本歸為兩類來進(jìn)行處理。情感一般為積極、中性和消極,本文在處理過程中只研究了文本的積極與消極情感。在SnowNLP情感分析中,情感分?jǐn)?shù)區(qū)間為[0,1],越接近1,表明情感越積極,越接近0,表明情感越消極。

        通過Python軟件第三方SnowNLP庫得到相關(guān)影評的情感分?jǐn)?shù),如表4:

        表4 影評的情感分?jǐn)?shù)

        根據(jù)表4繪制出兩部電影的情感分?jǐn)?shù)圖,更直觀地展示出兩部電影趨于積極還是消極的情感。

        圖4 《你好,李煥英》情感分?jǐn)?shù)圖

        圖5 《媽媽再愛我一次》情感分?jǐn)?shù)圖

        情感分?jǐn)?shù)圖以橫坐標(biāo)0.5作為影評積極評價與消極評價值的分界,情感分?jǐn)?shù)分布在[0,0.5)區(qū)間內(nèi)為消極評價,情感分?jǐn)?shù)分布在(0.5,1]內(nèi)為積極評價,縱坐標(biāo)表示評價量。

        由圖4、圖5看出,對于電影《你好,李煥英》的情感分?jǐn)?shù)主要集中于區(qū)間(0.5,1],電影《媽媽再愛我一次》的情感分?jǐn)?shù)明顯集中在[0.8,1]區(qū)間。這體現(xiàn)電影《媽媽再愛我一次》的積極性情感更強。

        對表4的數(shù)據(jù),利用Python軟件第三方庫SnowNLP情感分析進(jìn)行操作,放入代碼得到圖6、圖7。其中,橫坐標(biāo)表示電影所爬取的影評數(shù),縱坐標(biāo)表示評價值,設(shè)置大于0.5為積極情感評價,小于0.5表示消極情感評價,0.5為分界值。圖4中的波動圖在大于0.5的范圍內(nèi)未見明顯集中趨勢;圖5中的波動圖在大于0.5的范圍內(nèi)相對集中在[0.8,1]區(qū)間。此結(jié)果與“情感分?jǐn)?shù)圖”的結(jié)論一致。情感分?jǐn)?shù)圖與情感波動圖在本質(zhì)上體現(xiàn)的意義是相同的,讀者可根據(jù)實際需要自行選擇。

        圖6 《你好,李煥英》情感波動圖

        圖7 《媽媽再愛我我一次》情感波動圖

        結(jié)語

        本文使用大數(shù)據(jù)軟件與統(tǒng)計軟件相結(jié)合的方法,尋找文本所需要的不同情感傾向,使其以量化的形式展現(xiàn)了出來。利用TF-IDF統(tǒng)計方法估計文本的重要詞,并構(gòu)建出共詞矩陣,解決了因影評數(shù)據(jù)過多的繁瑣性且使用的文本研究方法具體、準(zhǔn)確。特別是對同一時期上映的相似主題的電影進(jìn)行不同角度的情感分析,使觀眾能按自己的喜好進(jìn)行多選一觀看。本文只對小于四字詞語進(jìn)行了分析,爬取了豆瓣電影中的部分短評,在影評數(shù)據(jù)爬取上存在量的不足,數(shù)據(jù)較單一。在后期的研究中可以對研究的領(lǐng)域和角度進(jìn)行進(jìn)一步的探究。

        猜你喜歡
        李煥英共詞詞典
        你好,我的“李煥英”
        《你好,李煥英》 觀后感
        《你好,李煥英》:如果這就是TA想要的呢
        你永遠(yuǎn)是我心中的女神
        科教新報(2021年10期)2021-05-17 03:47:01
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        基于突變檢測與共詞分析的深閱讀新興趨勢分析
        評《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        基于共詞知識圖譜技術(shù)的國內(nèi)VLC可視化研究
        基于關(guān)鍵詞共詞分析的我國親子關(guān)系熱點研究
        国产精品 无码专区| 国产精品一区二区三区不卡| 女同另类专区精品女同| 未满十八18禁止免费无码网站| 亚洲国产精品第一区二区| 亚洲伊人久久一次| 久久国产劲爆内射日本| 中文字幕在线人妻视频| 手机久草视频福利在线观看| 免费网站看av片| 精品三级久久久久久久电影| 九九日本黄色精品视频| 91羞射短视频在线观看 | 国产偷拍盗摄一区二区| 美利坚日韩av手机在线| 精品乱码久久久久久久| 亚洲欧洲精品成人久久曰不卡| 久久久久亚洲AV片无码乐播| 日本免费一区精品推荐| 亚洲一区二区国产激情| 米奇777四色精品人人爽| 精品囯产成人国产在线观看| 日本黄色特级一区二区三区| 亚洲av色影在线| 久久精品国产亚洲av麻| 欧美亚洲国产丝袜在线| 亚洲av高清一区二区在线观看| 日韩人妻一区二区三区蜜桃视频| 91制服丝袜| 亚洲国产一区二区精品| 亚洲狠狠婷婷综合久久久久| 夜夜嗨av一区二区三区| 亚洲欧美久久婷婷爱综合一区天堂| 亚洲av日韩专区在线观看| 国模无码一区二区三区不卡| 婷婷丁香91| 高潮av一区二区三区| 久久婷婷五月综合色欧美| 亚洲人成无码网站久久99热国产| 黑人一区二区三区啪啪网站| 人人妻人人澡人人爽精品日本|