亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞典和表情符號的微博輿情情感分析研究

        2023-11-13 07:10:22張麗李菊
        電腦與電信 2023年7期
        關(guān)鍵詞:文本情感

        張麗 李菊

        (南京理工大學紫金學院計算機學院,江蘇 南京 210023)

        1 引言

        2023年3月2日,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)第51次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》[1](以下簡稱《報告》)發(fā)布?!秷蟾妗凤@示,截至2022年12月,我國網(wǎng)民規(guī)模達10.67億,較2021年12月增長3549萬,互聯(lián)網(wǎng)普及率達75.6%?;ヂ?lián)網(wǎng)的開放性,使得公眾可以在網(wǎng)絡(luò)平臺便捷地對社會各方面的熱點事件發(fā)表意見和建議,因此形成了網(wǎng)絡(luò)輿情。隨著微博用戶數(shù)量的快速增長,微博中攜帶了大量的網(wǎng)絡(luò)輿情,其中蘊含了很多的情感信息。通過對這些文本中的情感信息進行挖掘,可以獲得用戶的情感傾向,從而實現(xiàn)情感分析[2]。通過情感分析,可以獲得公眾對于熱點事件的態(tài)度和反應,有利于及時對微博輿論進行干預和引導,促進社會輿論的良性發(fā)展[3]。同時,微博輿情分析涉及數(shù)據(jù)發(fā)掘和信息檢索等技術(shù),具有廣泛的研究價值和實際的應用意義,是近年來的研究熱點[4]。

        本文在爬取微博數(shù)據(jù)后,使用情感傾向點互信息算法(SO-PMI)選取新的情感詞,對現(xiàn)有情感詞典進行補充,并選取常用的表情符號構(gòu)建了表情符號詞典,最終基于構(gòu)建的詞典實現(xiàn)文本情感值的計算,并使用詞云圖展示關(guān)鍵詞。

        2 相關(guān)工作

        微博輿情的情感分析過程包括微博語料的爬取、預處理和情感分析。其中,最關(guān)鍵的過程為采用合適的方法進行情感分析,目前常用的有基于情感詞典的方法、基于機器學習的方法和基于深度學習的方法[3]。

        微博文本篇幅較短,情感詞之間的關(guān)聯(lián)性較小,非常適合使用基于詞典的方法進行研究?;谇楦性~典的分析方法實現(xiàn)較為簡單,只需要將預處理后的文本與詞典進行匹配,并采用一定方法計算情感得分。常用的情感詞典包括中國知網(wǎng)情感詞典HowNet、大連理工詞典、臺灣大學的NTUSD[5]和BosonNLP情感詞典[6]。由于網(wǎng)絡(luò)新詞日新月異,在使用詞典進行情感分析時,需要考慮情感詞的擴充。在微博中,網(wǎng)民經(jīng)常使用各種表情符號表達強烈的情緒,因此在情感分析中需要考慮表情符號對情感值的影響。習海旭等[6]通過相似度計算后,構(gòu)建了領(lǐng)域情感擴充詞典,實現(xiàn)了情感的可視化分析。吳勝杰等[7]通過統(tǒng)計信息識別新詞,對新詞進行情感分析,使用改進的PMI算法構(gòu)建微博特定領(lǐng)域情感詞典,并選擇常用的表情符號構(gòu)建表情符號詞典,實現(xiàn)了微博文本的情感計算。管雨翔等[8]使用TF-IDF和TextRank兩種方法提取種子詞,然后采用SO-PMI算法構(gòu)建領(lǐng)域情感詞典,使用實驗驗證了構(gòu)建詞典的應用效果。林江豪等[9]使用TF-IDF算法選擇種子表情符號,使用SO-PMI算法計算候選情感詞與種子表情符號的貢獻值,構(gòu)建情感詞典。李楠等[10]等通過歸納表情符號的動態(tài)特征,進行微博輿情分析。胡湘君[11]在微博綜合計算過程中考慮了表情符號的作用,從而提高了模型的有效性。

        本文對抓取后的數(shù)據(jù)進行清洗、分詞和去停用詞,通過TF-IDF算法獲得種子情感詞,再使用SO-PMI算法在預處理后文本中篩選情感新詞,補充到情感詞典中,通過計算詞頻選擇常用的表情符號構(gòu)建表情符號詞典。通過情感極性值的計算和可視化方法,分析網(wǎng)絡(luò)熱點事件中人們的情感。

        3 構(gòu)建詞典

        BosonNLP詞典是基于微博、論壇、新聞等數(shù)據(jù)來源構(gòu)建,包括很多網(wǎng)絡(luò)用語和非正式的簡稱,更適合于微博的情感分析。本文使用BosonNLP詞典作為基礎(chǔ)情感詞典,使用TF-IDF篩選出文本中的種子情感詞,再使用SO-PMI篩選出微博文本中的新情感詞,加入到詞典中,完成情感詞典的擴充。本文還構(gòu)建了表情符號詞典和雙重否定詞詞典,并使用中國知網(wǎng)的程度副詞詞典和否定詞詞典,完成情感極性的計算。

        其中,微博情感詞典的構(gòu)建過程如圖1所示。

        圖1 微博情感詞典構(gòu)建流程圖

        3.1 微博語料的預處理

        微博語料的預處理過程包括數(shù)據(jù)清洗、分詞和去停用詞[12]。其中數(shù)據(jù)清洗包括:

        (1)刪除“【話題名稱】”“#話題名稱#”、@微博昵稱;

        (2)刪除網(wǎng)頁鏈接、視頻、圖畫,各種中英文符號;

        (3)保留表情符號,用于表情符號詞典的構(gòu)建。

        數(shù)據(jù)清洗結(jié)束后,就可以進行分詞,本文選用結(jié)巴分詞作為分詞工具。微博文本中出現(xiàn)大量網(wǎng)絡(luò)新詞的情況,例如“打call”“帶節(jié)奏”等,為確保分詞的正確性,本文補充了搜狗拼音輸入法的“網(wǎng)絡(luò)流行新詞”詞庫[13],使用jieba.load_userdict()導入自建詞典。

        完成分詞后,使用“哈工大停用詞典”刪除停用詞,將分詞后的結(jié)果保存。

        3.2 構(gòu)建情感詞典

        3.2.1 使用TF-IDF算法選擇種子情感詞

        TF-IDF的全稱為Term Frequency–Inverse Document Frequency,是一種統(tǒng)計方法,用以評估一個詞語在文本中的重要性程度[14]。其中TF表示詞語在文本中出現(xiàn)的頻率,IDF表示詞語的逆向文件頻率。計算公式為:

        其中,nij表示詞語i在文本dj中出現(xiàn)的次數(shù),分母表示文本dj的總詞數(shù)。

        其中,|D|表示所有文本的總數(shù)目,| {j:ti∈dj}|表示出現(xiàn)該詞語的所有文本數(shù)目,為了防止所有文檔中都不含該詞語時分母為0的情況,所以一般都要加1。

        一個詞語的TF-IDF計算公式為:

        對于預處理后的微博文本,使用TF-IDF算法篩選出50對正向情感種子詞和50對負向情感種子詞,部分種子詞如表1所示。

        表1 情感種子詞示例

        3.2.2 使用SO-PMI算法篩選新情感詞

        點互信息算法PMI可以計算語料庫中詞語之間的相似度,其基本思想是詞語之間共現(xiàn)的頻率越高,說明相似性越高,反之,則越低。計算公式如下所示:

        其中,P(w1,w2)表示兩個詞語w1和w2共同出現(xiàn)的概率,P(w1)和P(w2)分別表示詞語w1和w2單獨出現(xiàn)的概率。如果兩個詞語有很強的相關(guān)性,則共現(xiàn)概率大于單獨出現(xiàn)的概率,此時計算出的PMI值大于0。

        SO-PMI通過PMI算法計算詞語的情感傾向,從而能夠選出新的情感詞。選定初始的正向情感種子詞集Wpos和負向情感種子詞集Wneg,計算詞語wordi的情感極性公式如下所示:

        計算結(jié)果大于0時,表示詞語wordi為正向情感詞;反之,表示wordi為負向情感詞。

        使用SO-PMI算法共篩選出了703個正向新情感詞和1673個負向新情感詞。根據(jù)SO-PMI值將情感詞的情感強度取值分段處理,賦予值為:[1,2,3]和[-3,-2,-1]。部分新情感詞如表2所示。

        表2 新情感詞和情感強度示例

        3.3 構(gòu)建表情符號詞典

        選擇微博文本中頻率較高的表情符號構(gòu)建表情符號詞典。對預處理后的微博文本,使用正則表達式過濾后只保留表情符號,共計551個表情符。對表情符號進行詞頻統(tǒng)計,篩選出詞頻數(shù)較高的前10%共計60個表情,組成表情符號詞典。表情符號代表正向情感時,權(quán)重值設(shè)置為1;反之,權(quán)重值設(shè)置為-1。表情符號詞典如表3所示。

        表3 表情符號詞典示例

        3.4 構(gòu)建否定詞詞典和雙重否定詞詞典

        否定詞可以改變情感詞的情感極性,而雙重否定不會改變情感詞的情感極性,但是會加強情感強度[7]。本文通過手動搜集,構(gòu)建了否定詞詞典和雙重否定詞詞典,其中否定詞共73個,雙重否定詞16個,部分詞如表4所示。

        表4 否定詞詞典和雙重否定詞詞典示例

        3.5 構(gòu)建程度副詞詞典

        程度副詞可以加強情感的表達強度,因此在情感分析時需要考慮情感詞前面是否有程度副詞。程度副詞詞典來源于知網(wǎng)詞典庫中的“中文程度級別詞語”,共219個詞語。這些詞語的情感強度共有6級,在權(quán)重設(shè)置時根據(jù)不同的級別從高到低依次設(shè)置為3、2.5、2、1.5、1和0.8,詞典示例如表5所示。

        表5 程度副詞詞典示例

        4 情感極性的計算

        微博文本的情感極性結(jié)算過程為:

        輸入:分詞后微博文本D

        輸出:文本的情感值s

        (1)逐條遍歷微博文本,提取其中的情感詞、否定詞、雙重否定詞、程度副詞和表情符號列表。

        (2)初始化ω=1,s=0。

        (3)遍歷微博文本Di中的全部詞,

        ①如果當前詞是情感詞,判斷該情感詞與上一個情感詞之間:

        如果有否定詞,則w=(-1)n×w,n為否定詞的個數(shù);

        如果有雙重否定詞,則w=1×w;

        如果有程度副詞,則w=d×w,d為程度副詞對應權(quán)重值。

        ②計算文本情感值s=s+w*v,其中v為情感詞對應的權(quán)重值。

        ③如果當前詞為表情符號,s=s+w*e,其中e為表情符號的權(quán)重值。

        (4)返回s。

        5 實驗及結(jié)果分析

        本文實驗數(shù)據(jù)來自新浪微博,使用Python的Scrapy框架,爬取話題#狂飆#的微博文本,時間跨度為2023年1月14日到2023年2月6日,共計72965條記錄。對爬取后的數(shù)據(jù)進行預處理后,基于構(gòu)建的詞典計算文本情感值,并進行可視化分析。

        該劇在愛奇藝和中央電視臺首播,播放周期為2023年1月14日至2023年2月2日,該話題下每日博文發(fā)布數(shù)量如圖2所示。從圖2可以看出,每天發(fā)布的微博數(shù)量是螺旋式遞增的,在2月4日時達到頂峰,此時也是該劇播放結(jié)束后兩天。此后每日發(fā)布微博數(shù)量逐漸減少。

        圖2 每日發(fā)布微博數(shù)量圖

        每日平均情感分、每日正向平均情感分和每日負向平均情感分如圖3所示。從圖中可以看出,每日平均情感分均為正值,每日負向平均情感分和每日情感平均分波動不大,每日正向情感平均分在1月31日達到頂峰后逐漸回落。

        圖3 平均情感得分圖

        每日正向博文和負向博文的點贊數(shù)、轉(zhuǎn)發(fā)數(shù)和評論數(shù)如圖4、圖5、圖6所示。從圖中可以看出,正向博文的點贊數(shù)、轉(zhuǎn)發(fā)數(shù)和評論數(shù)基本上都大于負向博文,尤其是1月21日正向博文的點贊數(shù)和評論數(shù)都遠遠高于負向博文,也高于其他日期。當日正好是除夕,網(wǎng)民會有更多的時間觀看此劇,并對此劇進行評價。

        圖4 每日正向博文和負向博文點贊數(shù)

        圖5 每日正向博文和負向博文轉(zhuǎn)發(fā)數(shù)

        圖6 每日正向博文和負向博文評論數(shù)

        最后,使用詞云圖對文本中出現(xiàn)頻率較高的關(guān)鍵詞予以視覺化展示。在詞云圖中,詞頻越高的詞語字體越大,如圖7所示。通過圖中我們可以看到,出現(xiàn)較高的關(guān)鍵詞為劇名和劇中演員名字,說明網(wǎng)民在討論時多次提到這些詞語。其他頻率較高的關(guān)鍵詞集中在“真的”“好看”“好”等詞語,說明網(wǎng)民對該劇的評價很高。

        圖7 關(guān)鍵詞詞云圖

        6 結(jié)語

        本文使用爬蟲爬取微博文本,在預處理后,使用SO-PMI算法在語料中篩選出情感新詞,對BosonNLP詞典進行了擴充,并選擇頻率較高的表情符號構(gòu)建表情符號詞典。使用構(gòu)建的詞典實現(xiàn)了情感分析,并使用可視化技術(shù)展現(xiàn)網(wǎng)民對熱點事件的情感態(tài)度和情感值變化過程,展現(xiàn)了對博文中詞頻較高的詞語。但是,分詞的正確性會影響后續(xù)的情感極性計算,情感分析本身的主觀性較強,會出現(xiàn)正話反說的場景,后續(xù)還需要繼續(xù)研究情感詞典的構(gòu)建過程。

        猜你喜歡
        文本情感
        如何在情感中自我成長,保持獨立
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        被情感操縱的人有多可悲
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨立
        情感移植
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        伊人精品无码AV一区二区三区| 久久99国产精品久久99| 国产aⅴ无码专区亚洲av麻豆| 亚洲精品成人片在线观看| 国产成人丝袜在线无码| 亚洲精品在线一区二区| 欧美性猛交xxxx免费看蜜桃| 无码人妻精品一区二区三区在线| 国产成人无精品久久久| 精品不卡视频在线网址| 秋霞在线视频| 色婷婷久久一区二区三区麻豆| 亚洲ⅤA中文字幕无码| 久久青青草原一区网站| 久久精品中文字幕无码绿巨人| 亚洲成a人片在线观看无码| 国产自精品在线| 精品中文字幕在线不卡| 免费人成激情视频在线观看冫| 亚洲欧美日韩一区在线观看| 国产一区,二区,三区免费视频| 中文字幕av长濑麻美| 免费人成视频xvideos入口| www插插插无码视频网站| 久久狠狠髙潮曰十八女人| 国产玉足榨精视频在线观看| 真人直播 免费视频| 亚洲色婷婷综合开心网| 亚洲一区二区三区免费网站| 亚洲图片日本视频免费| 国产亚洲欧美日韩综合一区在线观看| 日韩极品免费在线观看| 国产精品久久久天天影视| 欧洲人妻丰满av无码久久不卡| 国产成人无精品久久久| 亚洲三级中文字幕乱码| 性无码专区无码| 另类欧美亚洲| 国产精品自拍视频免费观看| 蜜臀av在线播放一区二区三区| 韩国三级中文字幕hd久久精品|