亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的微博輿情監(jiān)測模型研究與實現(xiàn)

        2023-12-18 18:13:49成哲丞
        計算機時代 2023年11期
        關(guān)鍵詞:爬蟲輿情注意力

        成哲丞

        關(guān)鍵詞:Java 分布式爬蟲;Elasticsearch;注意力機制;Bi-LSTM;輿情預(yù)警

        中圖分類號:TP391.1 文獻標識碼:A 文章編號:1006-8228(2023)11-124-03

        0 引言

        網(wǎng)絡(luò)空間不是法外之地,網(wǎng)絡(luò)輿情監(jiān)管和應(yīng)對是一個非常棘手的問題。目前針對網(wǎng)絡(luò)輿情監(jiān)測的研究主要存在以下問題。

        ⑴ 針對單一事件:當前對網(wǎng)絡(luò)輿情的監(jiān)測往往都是針對已發(fā)生的且有著負面影響的事件,通常研究的輿情事件比較單一[1]。

        ⑵ 實時性差:由于網(wǎng)絡(luò)事件所帶來的海量數(shù)據(jù),當前對事件進行輿情監(jiān)測時不能夠很及時,且往往沒有考慮當數(shù)據(jù)量大時,系統(tǒng)的運行效率問題[2]。

        ⑶ 準確率低:當前對網(wǎng)絡(luò)輿情事件的預(yù)警研究較少,且由于評論數(shù)據(jù)的多樣性、復(fù)雜性,導(dǎo)致輿情預(yù)警的準確率不夠高。

        針對上訴問題,且為了提升輿情監(jiān)測系統(tǒng)的性能和準確率,以新浪微博作為數(shù)據(jù)源,本文在傳統(tǒng)輿情監(jiān)測系統(tǒng)架構(gòu)和情感分析方法的基礎(chǔ)上提出了一種基于深度學(xué)習(xí)的微博輿情監(jiān)測模型。本模型旨在監(jiān)測和分析微博熱搜的輿情信息,了解公眾對某個話題或事件的態(tài)度和反應(yīng),及時對發(fā)生負面輿情的事件進行監(jiān)測。

        1 熱搜數(shù)據(jù)采集與處理

        1.1 基于Java 的分布式數(shù)據(jù)爬取框架

        本節(jié)針對性地設(shè)計實現(xiàn)了一個基于Java 的分布式數(shù)據(jù)爬取框架,該框架可快速爬取新浪微博熱搜榜的全部評論數(shù)據(jù)。該框架的結(jié)構(gòu)如圖1 所示。

        該框架重要組成部件的相關(guān)功能作用如下:

        ⑴ 爬蟲定時器(SpiderTimer):爬蟲定時器負責定時地調(diào)用爬蟲啟動器;

        ⑵ 爬蟲任務(wù)池(SpiderTask Pool):爬蟲任務(wù)池負責管理子爬蟲任務(wù)的權(quán)值,權(quán)值越大的子爬蟲任務(wù)會被優(yōu)先相應(yīng);

        ⑶ 爬蟲管理器(SpiderManager):爬蟲管理器會將子爬蟲任務(wù)分配給爬蟲線程池。同時爬蟲管理器還會將爬蟲返回的結(jié)果交給結(jié)果處理器;

        ⑷ 爬蟲線程池(SpiderThread Pool):爬蟲線程池負責將得到的子爬蟲任務(wù)分配給池內(nèi)空閑的線程,一條線程對應(yīng)一個爬蟲。

        1.2 數(shù)據(jù)預(yù)處理

        爬取到的原始評論數(shù)據(jù)可能存在著沒有結(jié)構(gòu)化,格式不規(guī)范等問題。為了之后更好地進行情感分析,提高情感分析模型的準確性,“純凈”的數(shù)據(jù)集是十分必要的,因此需要對爬取到的原始評論數(shù)據(jù)進行規(guī)范化處理。規(guī)范化處理主要包括三個部分:數(shù)據(jù)清洗、文本分詞和去除停用詞。經(jīng)過上述規(guī)范化處理之后,將會得到“純凈”的標準化數(shù)據(jù)。

        1.3 基于Elasticsearch 的分布式搜索存儲方法

        考慮到輿情監(jiān)測模型的實際需求,基于Elasticsearch[3]的分布式搜索存儲方法會維護一個熱搜哈希表。熱搜哈希表中存儲的是登上過新浪微博熱搜榜的熱搜信息。哈希表的Key 值為熱搜名,Value 值為熱搜的相關(guān)信息。熱搜的相關(guān)信息包括熱搜名、導(dǎo)語、話題閱讀次數(shù)、話題討論次數(shù)、媒體報道次數(shù)、通用唯一標識符、年齡和情感狀況。

        哈希表中的一條數(shù)據(jù)對應(yīng)一條熱搜,也對應(yīng)著Elasticsearch 中的一個索引庫。該方法的存儲邏輯如圖2 所示。

        考慮到實際環(huán)境下評論總數(shù)每天可達數(shù)十萬,甚至上百萬條。及時地刪除過時話題的數(shù)據(jù),釋放服務(wù)器資源是十分必要的。方法的刪除邏輯如圖3 所示。

        2 融合改進注意力機制的Bi-LSTM 情感分析方法

        2.1 方法原理

        為了對用戶評論進行情感分類,本章提出了一種融合改進注意力機制的Bi-LSTM 情感分析方法。該方法會降低熱搜話題自身所帶情感度的影響,更關(guān)注用戶自身評論,更精確地分析用戶評論的情感傾向。該方法所用模型的結(jié)構(gòu)圖如圖4 所示。

        由圖4 可知,各層的工作內(nèi)容為詞嵌入層:通過Word2vec 中的Skip-Gram 模型[4]對熱搜話題和評論進行向量化處理;語義特征提取層:通過引入雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)來獲取評論中上下文之間的信息;改進注意力層:通過引入改進注意力機制[5]來降低話題自身所帶情感度的影響。輸出分類層:將上一層的輸出結(jié)果進行全連接,再通過Softmax 函數(shù)進行情感分類。其中改進注意力機制的工作流程如圖5 所示。

        由圖5 可知,先計算計算話題詞(query)與用戶評論詞(key)的相似度。再選擇某種方式將相似度轉(zhuǎn)換成最終的注意力得分(目的降低話題詞的權(quán)重),這里可以選擇將相似度取反的方式。接著通過softmax 函數(shù)對注意力分數(shù)做一個歸一化,得到每個key-value 的注意力權(quán)重,將注意力權(quán)重與每個key 對應(yīng)的value相乘,再求和,就可以得到最后的輸出結(jié)果。

        2.2 對比實驗結(jié)果

        本實驗選用了CNN 和Bi-LSTM 兩種當下最為常用的深度學(xué)習(xí)模型來做對比實驗。實驗數(shù)據(jù)集選用了CCIR 2020“疫情期間網(wǎng)民情緒識別”評測活動數(shù)據(jù)集和微博情感分析數(shù)據(jù)集,并把上述兩個數(shù)據(jù)集都進行了8:1:1 的劃分。實驗指標選用了準確率(Accuracy)、查準率(Precision)和F1 值(F1-Score)三種。實驗結(jié)果對比情況如圖6 所示。

        從圖6 實驗結(jié)果可以看出,融合改進注意力機制的Bi-LSTM 情感分析方法在公開數(shù)據(jù)集一和二上的效果都明顯優(yōu)于CNN 和Bi-LSTM 兩個模型。

        3 基于情感分析的輿情預(yù)警等級計算方法

        基于情感分析的輿情預(yù)警等級計算方法[6]先利用用戶評論的情感極性、點贊數(shù)和轉(zhuǎn)發(fā)數(shù)計算出熱搜話題的情感度。再根據(jù)熱搜話題的閱讀量、評論數(shù)、熱搜話題情感度和熱搜話題類型來計算話題的輿情預(yù)警等級。輿情預(yù)警等級計算方法的原理如圖7 所示。

        3.1 熱搜話題情感度計算

        先計算熱搜話題下所有評論的情感傾向得分之和,其中正向情感得分為1,中性情感得分為0,負向情感得分為-1。再根據(jù)得分之和和評論數(shù)量計算熱搜話題的平均情感傾向得分Score。為了減小不同話題之間平均情感傾向得分的差異,便于更加直觀的得出熱搜話題的情感度,最后利用Sigmoid 函數(shù)將平均情感傾向得分映射到(0,100)區(qū)間中,得到熱搜話題的情感度E。熱搜話題情感度的計算公式如下:

        3.2 熱搜話題輿情預(yù)警等級計算

        參考網(wǎng)絡(luò)輿情預(yù)警等級的劃分,本方法將新浪微博熱搜話題輿情預(yù)警等級分為了無風(fēng)險、低風(fēng)險、中風(fēng)險、高風(fēng)險和緊急預(yù)警這五種等級。熱搜話題的情感度是定性的,決定了熱搜話題的情感度好壞情況。熱搜話題情感度[0,50)被認為是負面話題,[ 50,100]被認為是正面話題。而話題閱讀量、話題評論量、媒體報道數(shù)、話題類型等數(shù)據(jù)是定量的,會影響熱搜話題的輿情狀況,但不會改變熱搜話題的情感極性。熱搜話題輿情預(yù)警等級計算公式如下:

        其中,β1、β2、β3分別是話題閱讀量、話題評論量、媒體報道數(shù)各自相較于其他熱搜平均水平的百分比,同時還需對這些百分比設(shè)定一個最高值限制。β4表示話題類型的權(quán)重值,不同的話題類型設(shè)有不同的權(quán)值。計算完輿情預(yù)警等級分數(shù),就可以將輿情預(yù)警等級分數(shù)映射到不同的輿情預(yù)警等級標簽上。

        4 總結(jié)

        隨著互聯(lián)網(wǎng)的普及和社交媒體的興起,網(wǎng)絡(luò)輿情監(jiān)測和管理變得越來越重要。本文提出的基于深度學(xué)習(xí)的微博輿情監(jiān)測模型可以實時監(jiān)測微博上的輿情狀況,了解公眾對某個事件或話題的態(tài)度和看法,從而幫助企業(yè)、政府等各方面做出更加準確的決策,預(yù)防發(fā)生輿情危機。

        猜你喜歡
        爬蟲輿情注意力
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
        讓注意力“飛”回來
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        A Beautiful Way Of Looking At Things
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        全球av集中精品导航福利| 亚洲精品中文字幕二区| 免费在线观看亚洲视频| 99青青草视频在线观看| 国产国语亲子伦亲子| 免费大黄网站| 少妇精品无码一区二区三区| 免费人成视频网站在线| 亚洲av成人一区二区| 狠狠躁日日躁夜夜躁2022麻豆| 国产精品免费av片在线观看| 野花社区视频www官网| аⅴ天堂国产最新版在线中文| 亚洲一区二区三区视频免费| 亚洲夫妻性生活免费视频| 国产高潮刺激叫喊视频| 精品99在线黑丝袜| 女同另类专区精品女同| 男人的天堂中文字幕熟女人妻| 久久久受www免费人成| 午夜免费福利在线观看| 99精品又硬又爽又粗少妇毛片| 人妻经典中文字幕av| 国产精品久久国产精麻豆99网站| 亚洲七久久之综合七久久| 亚洲综合性色一区| 成人免费毛片在线播放| 久久精品女同亚洲女同| 无码人妻人妻经典| 老少交欧美另类| 粗大挺进尤物人妻一区二区| 俺来也三区四区高清视频在线观看| 亚洲男人免费视频网站| 成人毛片av免费| 欧美成人三级网站在线观看 | av在线高清观看亚洲| 久久成人影院精品777| 麻豆国产人妻欲求不满| 欧美黑人xxxx性高清版| 91人妻人人做人人爽九色| 97人妻精品一区二区三区男同 |