亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聚類方法的突發(fā)公共事件網(wǎng)民情緒分析

        2022-10-20 03:41:02王軍呂廣旭盧加奇王小英
        現(xiàn)代信息科技 2022年13期
        關(guān)鍵詞:情緒疫情情感

        王軍,呂廣旭,盧加奇,王小英

        (1.故宮博物院保衛(wèi)處,北京 100009;2.防災(zāi)科技學(xué)院,河北 三河 065201)

        關(guān)鍵字:數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí);聚類

        0 引 言

        微博作為輿情產(chǎn)生和爆發(fā)的主要陣地,錯(cuò)綜復(fù)雜的信息真假難以分辨,正不斷影響用戶情緒甚至于國(guó)家安全。境外勢(shì)力利用疫情熱點(diǎn)事件發(fā)動(dòng)“認(rèn)知戰(zhàn)”,引導(dǎo)輿論走向、破壞社會(huì)穩(wěn)定。信息化時(shí)代,網(wǎng)絡(luò)信息內(nèi)容同質(zhì)化加劇,虛假信息漫天飛舞、層出不窮,缺乏社會(huì)管控和自我約束。

        突發(fā)事件發(fā)生后,媒體和廣大群眾都可在信息平臺(tái)第一時(shí)間發(fā)布和獲取信息,平臺(tái)成為熱點(diǎn)事件傳播的重要媒介。熱點(diǎn)事件在短時(shí)間收獲巨大流量的同時(shí),伴隨參差不齊的巨大信息流,同樣會(huì)傳播情緒,其中不乏負(fù)面情緒,持續(xù)發(fā)酵容易造成社會(huì)恐慌和混亂局面。通過(guò)大數(shù)據(jù)分析和可視化展示,挖掘重要信息并分析網(wǎng)民情緒變化情況,為政府機(jī)關(guān)部門如何引導(dǎo)輿論提供決策支持,對(duì)于維護(hù)網(wǎng)絡(luò)環(huán)境安全、加強(qiáng)輿論管理具有重大意義。

        1 研究進(jìn)展

        在分析網(wǎng)民情緒的過(guò)程中,許多學(xué)者對(duì)不同時(shí)期的流行案例進(jìn)行了分析和研究。2017年,周莉等人以“巴黎暴恐”事件為例,提出使用情緒評(píng)估理論模型對(duì)網(wǎng)絡(luò)情緒進(jìn)行量化分析,分析效果重點(diǎn)關(guān)注了文化差異表達(dá)出的差異。2018年,姜金貴等人對(duì)“紅黃藍(lán)虐童事件”進(jìn)行輿情分析,運(yùn)用Word2vec模型針以基于主題和情緒之間的聯(lián)系為主要抓手,對(duì)微博情緒走向和輿情演化方向進(jìn)行分析,更好對(duì)微博情緒進(jìn)行治理。2019年,丁曉蔚等人在輿情分析中加入社會(huì)心理學(xué)內(nèi)容,借助大數(shù)據(jù)利用時(shí)間序列更加客觀對(duì)熱點(diǎn)事件風(fēng)險(xiǎn)進(jìn)行評(píng)估和監(jiān)控。2020年,郭爽等人使用SIR 演化博弈模型研究網(wǎng)民情緒和政府工作之間的風(fēng)險(xiǎn)影響關(guān)系,極大幫助政府對(duì)于網(wǎng)絡(luò)輿情的管控。2022年,王月等人以酒店安全事件為角度,利用系統(tǒng)動(dòng)力學(xué)建模方法通過(guò)仿真模擬對(duì)真實(shí)事件下輿情提供指導(dǎo)意見(jiàn)。

        在疫情背景下,不僅要共同對(duì)抗疫情,還要了解疫情下的民眾情緒變化。因此,更加有必要構(gòu)建相關(guān)的網(wǎng)民情緒分析模型,研究和了解疫情背景下社交平臺(tái)網(wǎng)民情緒變化情況,并及時(shí)有效動(dòng)態(tài)分析網(wǎng)民情緒意見(jiàn)并有效引導(dǎo)。本文建立疫情下特殊情感詞典,結(jié)合TextRank 算法關(guān)鍵詞提取算法,用SO-PMI 方法進(jìn)行多維情感分析,并使用聚類方法對(duì)疫情期間相關(guān)話題下的評(píng)論和信息進(jìn)行情感分類,生成動(dòng)態(tài)情感變化曲線。

        2 數(shù)據(jù)來(lái)源及研究方法

        2.1 數(shù)據(jù)來(lái)源

        本文數(shù)據(jù)集包括官方競(jìng)賽平臺(tái)(DataFountain)以及北京市政務(wù)數(shù)據(jù)資源網(wǎng)公開(kāi)分享數(shù)據(jù),數(shù)據(jù)均為開(kāi)源數(shù)據(jù)且進(jìn)行脫敏處理。對(duì)于其中數(shù)據(jù)進(jìn)行手動(dòng)標(biāo)注約20 萬(wàn)條,采集對(duì)象包括官方媒體、熱門話題等。數(shù)據(jù)信息包含微博ID、評(píng)論時(shí)間、微博中文內(nèi)容、轉(zhuǎn)發(fā)次數(shù)、話題內(nèi)容等信息。

        2.2 研究方法

        2.2.1 數(shù)據(jù)預(yù)處理

        預(yù)處理的過(guò)程主要是通過(guò)使用Python 第三方庫(kù)進(jìn)行數(shù)據(jù)處理,對(duì)收集到的微博有關(guān)疫情數(shù)據(jù)中的冗余數(shù)據(jù)及錯(cuò)誤數(shù)據(jù)等信息進(jìn)行修復(fù)和刪除,其中微博正文有很多特殊字符和絕大多數(shù)表情是為文本內(nèi)容服務(wù)的,起到一個(gè)加強(qiáng)文本預(yù)期的作用,可以將其處理掉,來(lái)減少后序任務(wù)的復(fù)雜性。選取近6 個(gè)月的數(shù)據(jù),處理相關(guān)數(shù)據(jù)約43 萬(wàn)條。

        首先使用基于PageRank 算法進(jìn)一步優(yōu)化的TextRank 算法對(duì)目標(biāo)語(yǔ)句關(guān)鍵詞進(jìn)行提取。其主要方法是將獲得的評(píng)論內(nèi)容進(jìn)行分詞、去停用詞等預(yù)處理步驟拆分成若干詞匯,然后利用共現(xiàn)關(guān)系構(gòu)造詞匯網(wǎng)絡(luò)即如果任意兩點(diǎn)在長(zhǎng)度為的窗口中同時(shí)出現(xiàn),則認(rèn)為兩點(diǎn)間存在邊,不斷迭代至收斂,對(duì)詞權(quán)重排序可獲得關(guān)鍵詞順序。

        公式(1)中(V)表示詞匯的權(quán)重,通過(guò)計(jì)算每個(gè)相鄰詞匯對(duì)目標(biāo)詞匯的影響程度來(lái)實(shí)現(xiàn)。表示為阻尼系數(shù),本文設(shè)置為0.85。

        2.2.2 多維情感分析

        由于情感的多樣性,需要對(duì)與疫情相關(guān)的新聞、評(píng)論進(jìn)行多維分析,對(duì)熱點(diǎn)事件涉及情感進(jìn)行詳細(xì)闡述。使用SOPMI(情感點(diǎn)互信息)方法對(duì)候選詞語(yǔ)情感方向進(jìn)行甄別,SO-PMI 方法源于PMI 算法,PMI 算法基本思路是計(jì)算兩個(gè)詞語(yǔ)在文本中同時(shí)出現(xiàn)的概率,若概率越大,其相關(guān)性越緊密,則關(guān)聯(lián)程度越高。

        對(duì)于詞匯,計(jì)算其情感:

        其中>0,選定詞語(yǔ)積極影響大于消極影響,具有正向情感,判定為積極詞;當(dāng)=0,將選定詞語(yǔ)認(rèn)定為中性詞;若<0,則選定詞語(yǔ)積極影響小于消極影響,判定為消極詞,具有一定負(fù)面情緒。

        情感計(jì)算需要結(jié)合情感詞表,否定詞和程度詞三方面的內(nèi)容,本文采用Boson 情感詞典展現(xiàn)情感類型和強(qiáng)度,此外基于SO-PMI 算法,對(duì)原有詞典進(jìn)行補(bǔ)充,將發(fā)現(xiàn)新詞按強(qiáng)度值為1 拓展了原有詞典。在程度詞部分:本文根據(jù)程度大小將程度副詞分為五個(gè)等級(jí),并根據(jù)反映程度的大小設(shè)置權(quán)重,如表1所示。情感值計(jì)算需考慮情感詞之外,還需要考慮和否定詞與程度詞的組合情況來(lái)計(jì)算:

        表1 程度詞權(quán)重設(shè)定

        式(4)中:代表最終情感值結(jié)果;為是否定詞出現(xiàn)次數(shù);表示為情感詞對(duì)應(yīng)的情感值;是程度副詞程度值。

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)設(shè)計(jì)

        通過(guò)對(duì)時(shí)間跨度為6 個(gè)月的43 萬(wàn)條數(shù)據(jù)進(jìn)行分析,使用聚類方法快速精準(zhǔn)判斷疫情事件熱門話題,為疫情防控和輿論引導(dǎo)提供決策方向。由于大量和疫情相關(guān)詞匯含有較為特殊的情緒,需要在原有詞匯情緒分類中生成疫情下特殊情緒詞典,結(jié)合特殊情緒詞典進(jìn)行多維情感值計(jì)算,使用聚類方法精準(zhǔn)判斷和預(yù)測(cè)疫情事件下熱點(diǎn)內(nèi)容及情緒情感劃分。若在文本句子中含有疫情下特殊詞典內(nèi)容,則在計(jì)算多維情感值基礎(chǔ)上重構(gòu)情感之,相應(yīng)方向情感值增加5%。文本中多次出現(xiàn)詞典內(nèi)容時(shí),需要進(jìn)行累加,積極情感為正向,消極情感為負(fù)向,公共安全事件下特殊情緒詞典如表2所示。

        表2 公共安全事件下特殊情緒詞典

        使用Agglomerative 層次聚類、K-means 算 法、DBSCAN 密度聚類等聚類方法對(duì)對(duì)情緒進(jìn)行分類,為了對(duì)比區(qū)分不同聚類數(shù)對(duì)于上述算法的影響,分別對(duì)其計(jì)算了輪廓系數(shù)(Silhouette Coefficient),CH 分?jǐn)?shù)(Calinski Harabasz Score)和戴維森堡丁指數(shù)(DBI,davies_bouldin_score)。

        3.2 實(shí)驗(yàn)結(jié)果分析

        通過(guò)對(duì)Agglomerative 層次聚類、K-means 算法、DBSCAN 密度聚類三種方法進(jìn)行分析,實(shí)驗(yàn)結(jié)果如圖1所示。

        圖1 不同聚類方法評(píng)價(jià)指數(shù)變化圖

        可以從上圖看出,在層次聚類中:DBI 指數(shù)在聚類數(shù)設(shè)置為3或6時(shí)較低,CH值在2或3時(shí)較高,輪廓系數(shù)較為明顯,呈現(xiàn)先增加后減少的趨勢(shì),總之聚類數(shù)選3比較適宜。K-means聚類算法容易陷入局部最優(yōu)陷阱,有關(guān)疫情情感數(shù)據(jù)分布不均衡,對(duì)值選取影響較大。圖中分別取2,3,5 時(shí)的聚類效果中,可以看出取2 時(shí)分類效果較好。DBSCAN 算法是一種基于密度的聚類算法,它在聚類前不需要預(yù)先指定簇的個(gè)數(shù),所以最終簇的個(gè)數(shù)也不確定,它認(rèn)為樣本數(shù)據(jù)點(diǎn)的周圍的數(shù)據(jù)點(diǎn)同屬一類,即將緊密相連的樣本劃分為一類,就得到了一個(gè)簇。此類算法需要不斷的調(diào)整參數(shù)eps 以求得最好的效果,發(fā)現(xiàn)DBI 值呈明顯上升趨勢(shì),而CH 值和輪廓系數(shù)效果不明顯,所以DBSCAN 聚類算法參數(shù)eps 暫取0.01。

        將上文中分析好的情感分析數(shù)據(jù)進(jìn)行匯總,統(tǒng)計(jì)了話題下的情感變化,制作情感變化曲線和匯總餅圖,如圖2所示,可以看到在本次疫情事件中網(wǎng)民情緒中“悲傷”和“恐懼”占絕大部分。

        圖2 情感變化曲線展示

        4 結(jié) 論

        本文通過(guò)對(duì)微博等社交平臺(tái)數(shù)據(jù)進(jìn)行挖掘,對(duì)于微博環(huán)境下疫情事件對(duì)網(wǎng)民情緒的影響及熱點(diǎn)話題影響力進(jìn)行了分析。首先進(jìn)行微博平臺(tái)的數(shù)據(jù)挖掘,利用TextRank 算法進(jìn)行關(guān)鍵詞的提取,并使用SO-PMI 方法對(duì)候選詞語(yǔ)極性進(jìn)行判斷,建立微博疫情語(yǔ)境下特殊情緒詞典,進(jìn)行多維情感分析,最后使用多種聚類方法對(duì)情感及熱門話題進(jìn)行分類,并對(duì)疫情期間情感變化進(jìn)行分析。針對(duì)分析內(nèi)容可幫助相關(guān)部門利用社交平臺(tái)數(shù)據(jù)精準(zhǔn)判斷熱門話題,更好了解熱點(diǎn)事件下民眾情緒變化,做好輿情管理。除此之外,通過(guò)設(shè)定閾值提高發(fā)現(xiàn)虛假、暴力、誘導(dǎo)等內(nèi)容信息在民眾間的傳播程度能力,及時(shí)進(jìn)行疏導(dǎo)和管控。

        猜你喜歡
        情緒疫情情感
        戰(zhàn)疫情
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        抗疫情 顯擔(dān)當(dāng)
        疫情中的我
        37°女人(2020年5期)2020-05-11 05:58:52
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        小情緒
        小情緒
        国产老熟女狂叫对白| 国产精品三级在线专区1| 日本护士一区二区三区高清热线| 国产成人av区一区二区三| 国产精品女主播福利在线| 午夜精品久久久久久毛片| 法国啄木乌av片在线播放| 国产av一区二区三区丝袜| 久久久一本精品久久久一本| 免费人成视频网站在在线| 国产女主播白浆在线观看| 伊人久久综合精品无码av专区| 一个人免费观看在线视频播放| 久久国产女同一区二区| 日本一二三四高清在线| 无码a级毛片免费视频内谢| 亚洲aⅴ在线无码播放毛片一线天| 久久青草伊人精品| 久久久99久久久国产自输拍| 国产一区二区三区护士| 亚洲av无码成h在线观看| 免费观看性欧美大片无片| 久久精品一品道久久精品9 | 国产亚洲精品久久久久久| 国产91色综合久久免费| 国产精品一区二区三区蜜臀| 亚洲第一女人的天堂av| 永久黄网站色视频免费看| 国产成人+亚洲欧洲+综合| 最新国产精品精品视频| 男女啪啪视频高清视频| 亚洲精品美女久久久久久久| 在线观看无码一区二区台湾| 国产激情视频在线观看首页| 成年免费a级毛片免费看无码| 亚洲av无码成人黄网站在线观看| baoyu网址国产最新| 日韩中文字幕一区二区二区| 亚洲av片一区二区三区| 国产精品99精品一区二区三区∴ | 中文字幕一区二区网站|