亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網絡輿情系統(tǒng)的設計與實現

        2020-09-02 12:39:48殷美桂
        現代計算機 2020年21期
        關鍵詞:孟晚舟輿情網民

        殷美桂

        (河源職業(yè)技術學院,河源517000)

        0 引言

        中國互聯網絡信息中心(CNNIC)發(fā)布第45 次《中國互聯網絡發(fā)展狀況統(tǒng)計報告》,報告顯示,截止2020年3 月,我國網民規(guī)模突破9 億[1]。當前,網絡的即興性、互動性使網民有更多機會表達觀點和意見,網絡成為一個民意的輿論場。目前,網絡輿情信息的載體呈現多樣性、數據量大等特征。網民規(guī)模及網絡平臺的快速增長使網絡輿情傳播走向大眾化、網狀化和無序化。面對海量的網絡輿情信息,網絡輿情分析和監(jiān)控系統(tǒng)代替人工操作,幫助相關部門和機構及時了解網絡輿情動態(tài),發(fā)現網絡上熱點敏感問題,并通過對持續(xù)發(fā)酵的負面輿情信息進行預警,從而能應對并及時糾正網絡上與自己有關的負面輿論影響。系統(tǒng)為相關部門進行網絡危機公關或品牌形象營銷提供可靠的技術支撐。

        網絡輿情系統(tǒng)主要是采用搜索引擎爬取數據,通過對數據預處理后,運用智能聚類分類、主題檢測、專題聚集和統(tǒng)計分析等技術實現對網絡輿情的監(jiān)控,最終形成輿情簡報、輿情專題、分析報告等統(tǒng)計分析結果。目前有關網絡輿情系統(tǒng)的研究,國內和國內都積累大量的研究成果。國外的輿論分析技術最早可追溯到美國TDT 項目中的TDT 技術(話題檢測追溯技術),TDT 技術關注一個個具體事件,可以對輿情信息進行識別、歸類、專題持續(xù)追蹤[2]。國內的網絡輿情系統(tǒng)主要有“軍犬”網絡輿情監(jiān)測系統(tǒng)、方正智思互聯網輿情監(jiān)控系統(tǒng)、邦富互聯網輿情監(jiān)控系統(tǒng)、紅麥輿情監(jiān)測系統(tǒng)和谷尼互聯網輿網絡輿情系統(tǒng)情監(jiān)控系統(tǒng),另外新浪的輿情通提供熱度排行、輿情事件分析等符合客戶需求的定制報告。

        目前,為了實現對網絡輿情的監(jiān)控,網絡輿情系統(tǒng)需求變大,這推動輿情系統(tǒng)及輿情分析技術進入成熟期,但是,并不是所有輿情系統(tǒng)都能滿足用戶需求,通用的輿情監(jiān)控模板、模式靈活性差,其中的輿情監(jiān)控范圍、功能模塊、系統(tǒng)架構、統(tǒng)計分析結果等模塊不能定制造成輿情分析結果針對性不強,用戶體驗性差。新浪微博定位于社交媒體,據統(tǒng)計至2019 年3 月底微博的活躍用戶已達4.65 億。微博創(chuàng)新用戶互動模式,在實時熱點問題討論上擴大其社會媒體的優(yōu)勢[3]。基于新浪微博構建網絡輿情系統(tǒng),系統(tǒng)對熱點事件進行輿情分析,運用數據分析和數據挖掘技術探索網民對事件的關注度及情感趨勢。研究以微博熱議話題“孟晚舟未能獲釋”為例,此事件發(fā)生于北京時間28 日凌晨,加拿大法院公布孟晚舟引渡案的判決結果,孟晚舟未能獲釋。

        1 系統(tǒng)的設計

        網絡輿情分析系統(tǒng)在依托已有的技術和系統(tǒng),對其進行整合和利用,設計系統(tǒng)架構。系統(tǒng)的總體架構主要分為數據采集、數據預處理、輿情分析和挖掘、結果展示和統(tǒng)計分析報告模塊,如圖1 所示。

        圖1 系統(tǒng)的總體架構圖

        數據采集主要是爬取網頁、微博、搜索引擎、論壇等互聯網上的文本數據為主。數據爬蟲可選擇專門的網絡爬蟲工具,也可以編程自定義開發(fā)。

        數據是數據分析和數據挖掘的重要原料,機器爬取的原始數據不能直接使用,在進行數據分析之前需對數據進行預處理。數據預處理包括數據清洗,數據轉換,數據描述、特征選擇、特征抽取。數據清洗主要對一些重復數據和缺失數據處理,數據轉換一般對數據類型進行轉換處理。

        輿情信息分析和挖掘包括對輿情信息依事件分類[4]或者聚類分析,對輿情文本的關鍵字進行提取以獲取信息摘要,對輿情進行文本的情感分析。

        結果展示和統(tǒng)計分析展示輿情信息分析結果,包含依事件分類形成的輿情專題、信息摘要、文本情感分析結果展示。為了直觀展示統(tǒng)計分析的結果,系統(tǒng)生成數據統(tǒng)計分析圖。

        2 系統(tǒng)實現

        2.1 數據獲取

        為了加快信息采集的速度和準確度,系統(tǒng)采用分布式爬蟲系統(tǒng)架構模式,使用目前比較成熟的框架Scrapy-Redis,基于Python 語言的Scrapy 爬蟲框架,通過建立一個請求URL 的Redis 隊列來實現分布式爬蟲[5]。Scrapy-Redis 框架是主從式(Master-Slaver)模式,在Master 端控制和管理調度器,調度器將Spiders 生成的URL 請求發(fā)送給Redis 隊列,Slaver 在Scheduler 控制下從隊列中(URL 列表)獲取爬取任務或者將請求發(fā)送給隊列[6]。從而實現多臺主機共享隊列,各臺主機的Scheduler 統(tǒng)一服從Master 主機的統(tǒng)一管理。為了維護一個不重復的URL 列表,Scrapy-Redis 分布式框架還提供去重的組件。系統(tǒng)為了獲取指定的數據,通過提交關鍵詞的形式縮小數據采集范圍,過濾掉與我無關的數據。系統(tǒng)以“孟晚舟未能獲釋”作為關鍵詞進行搜索,因微博有反爬限制,分時間段爬取2020 年5 月28 日至2020 年6 月1 日之間微博正文及評論數據共6 萬條數據。

        2.2 數據預處理

        系統(tǒng)對獲取輿情的正文、評論文本等文本采用自然語言處理(NLP)工具進行處理,常用的分詞處理模塊有pynlpir、jieba 等。系統(tǒng)采用jieba 分詞對文本進行分詞,因jieba 內置的詞典有一定的局域性,系統(tǒng)導入用戶自定義詞典提高分詞的準確性。分詞后的還需對文本執(zhí)行去除停用詞的操作,為了后續(xù)對文本進行分類或者聚類分析,運用TF-IDF 進行文本預處理,獲取文本的詞特征向量后進行文本分類或聚類分析。系統(tǒng)的文本預處理流程如圖2 所示。

        圖2 文本預處理流程

        2.3 輿情分析和挖掘

        輿情分析和挖掘系統(tǒng)主要功能包括自動摘要,輿情專題,情感分析。系統(tǒng)基于TF-IDF 對文本進行權重計算之后,可提取關鍵詞。通過文檔中已存在的關鍵詞進行分析,從而生成文章的自動摘要,自動摘要讓管理者迅速了解決正在發(fā)生的事件。

        系統(tǒng)依事件建立輿情專題,系統(tǒng)應用文本聚類技術將相似的文章進行歸類,從而挖掘出不同類的話題。文本聚類常用的算法是K-means 算法,但Kmeans 算法不能有效地處理高維空間的文本聚類,因高維空間簇與簇之間的距離太小無法直接聚類。系統(tǒng)在運用K-means 聚類分析之前,運用PCA 對TF-IDF 構建的詞向量矩陣進行降維,PCA 稱為主成分分析,算法的核心是通過某種線性投影,將高維的數據映射到低維的空間,并保留較多的原數據點的特征。

        輿情情感分析主要使用SnowNLP 類庫處理中文文本內容,以獲取文本的正向或負向評價。因SnowNLP 類庫已經訓練好的模型主要是基于電商的商品評論數據,在使用過程中,需要收集如新聞評論的正負樣本重新訓練新的模型,SnowNLP 類庫主要使用樸素貝葉斯原理對模型進行訓練,保存訓練后的模型后即可以運用新模型對數據進行情感正負的預測。

        2.4 結果展示

        本次研究基于新浪微博熱議話題“孟晚舟未能獲釋”進行分析,話題閱讀量達12.4 億,共計討論數11.6 萬。

        (1)詞頻分析

        為了了解此次事件網民討論的熱點問題,只選取發(fā)布的微博正文進行分析,對內容進行預處理后用matplotlib 繪制詞云圖獲取詞頻統(tǒng)計的結果,詞云圖的字體大小是由詞頻決定的,詞頻越高字體越大,如圖3所示。首先從詞云圖看出,此事件牽涉美國、加拿大、中國三國之間的政治事件,加拿大最高法院判決:美國針對孟晚舟的引渡請求符合雙重犯罪的原則。其次,從圖上可以清晰看出“欲加之罪”、“幫兇”、“扮演”、“打壓”、“釋放”等詞匯,這表明中國對此次裁決強烈不滿,認為這是“欲加之罪”,加拿大扮演了美國的“幫兇”角色,幫助美國打壓中國的高科技企業(yè),中國敦促加拿大釋放孟晚舟女士。最后,詞云圖中出現“愛國”、“強大”、“加油”、“科技”、“當自強”等詞匯,這次事件激起網民強烈的愛國主義情懷,面對美國對中國科技公司的制裁,中國應加油,中國應當自強。從“孟晚舟未能獲釋”事件的輿情分析中,可以看出新聞媒體及網民弘揚了愛國主義情懷,釋放了中國當自強等正能量。

        圖3 熱議話題“孟晚舟未能獲釋”的詞云圖

        (2)熱度分析

        “孟晚舟未能獲釋”是孟晚舟引渡案的判決結果,事件的第一條博文是央視新聞發(fā)布于5 月28 日凌晨2:03 分,隨后其他新聞媒體及微博用戶陸續(xù)發(fā)表博文。通過關鍵詞搜索,以獲取的博文作為樣本進行分析,制作每日發(fā)文數量所占總量百分比,如圖4 所示。根據統(tǒng)計分析,發(fā)文數量在事件發(fā)生日最多,占發(fā)文總量的一半。這表明熱點話題在事件爆發(fā)日具有發(fā)文數量大,增長速度快的特點[]。第二天發(fā)文數量減少17%,第三天開始發(fā)文數量比前一天減少一半以上,到第四、五天發(fā)文數量已經很少,事件熱度已經衰退,輿情發(fā)展經歷萌芽、爆發(fā)、衰退期。

        圖4 博文數量日均熱度

        (3)情感分析

        央視新聞發(fā)布第一條“孟晚舟未能獲釋”的博文正值凌晨2:03,隨后網民展開激勵的討論,短短十分鐘評論數量達到幾十條,截止6 月1 日,博文轉發(fā)量約2.9萬,網民評論總數約5.6 萬。為了了解輿情民意,采用此條博文的評論進行情感分析。根據篩選規(guī)則選取熱門短評5 條,這些短評點贊過萬,因此可以認為這些評論獲得網民的共鳴,并獲得更多的附和及支持,其表達的情感強烈。運用SnowNLP 對熱門評論進行情感分析,如表1 所示。SnowNLP 分析的結果介于0-1 之間,數值越大,情感越趨于正向,數量越小,情感越趨于負向。表1 顯示,對“孟晚舟未能獲釋”的判決結果網民情感呈兩極分化,情感主要分為兩類。

        (1)負面情感主要是難過和強烈的譴責。面對孟晚舟未能獲釋,網民首先展示同情心,表達心情很難過,但在難過之后對加拿大和美國的行為進行譴責,認為美國借著披著法律外衣的政治手段,打壓中國企業(yè),這是無恥行徑。

        (2)正面情感主要是自強、立場不動搖和希望。“孟晚舟未能獲釋”原本只是關乎個人自由的判決,因牽涉中美戰(zhàn)略競爭背景,使個人的命運與國家聯系在一起。從28 日央視新聞發(fā)布的第一條“孟晚舟未能獲釋”博文下的評論看出,絕大部分網民覺得此次事件給我們敲響警鐘,記住今夜所發(fā)生的,不要再對西方和美國抱有幻想,吾輩當自強,發(fā)展高科技。29 日央視新聞接連發(fā)布兩條博文,其中一條博文引用外交部發(fā)言人趙立堅在記者會上的表態(tài),中方對此強烈不滿和堅決反對,美方借此打壓中國高科技企業(yè),這是嚴重的政治事件。外交部發(fā)言人表明中國立場之后,此條博文被轉發(fā)3800 多次,評論9000 多次。由此又掀起一個發(fā)文小高峰,網民評論稱將與祖國統(tǒng)一立場,堅持不動搖,從而獲贊上萬,這說明外交部表態(tài)后喚起網民強烈的愛國主義熱情。由此可看出官方媒體引導輿論走向,激起網民強烈的愛國主義情懷。最后網民也發(fā)出希望之聲表達個人愿景,希望晚舟能無罪釋放,希望世界多點正義和平。

        表1 短評情感指數表

        3 結語

        本研究設計網絡輿情系統(tǒng)的架構,系統(tǒng)架構共分為數據采集等四層,采用Python 語言對結構化和非結構化的數據進行處理,利用SnowNLP 類庫進行文本情感分析。以“孟晚舟未能獲釋”事件為例,可視化地展示事件討論的主題、博文日均熱度和網民的情感指數。系統(tǒng)的應用揭示幾個問題:

        (1)通過詞云圖分析可知,網民對“孟晚舟未能獲釋”事件,認為加拿大扮演的美國的幫兇。另外,網民表達中國應大力發(fā)展,中國要加油。

        (2)網民對此次事件極為關注。網絡輿情出現快速爆發(fā)期,央視新聞媒體接連兩天發(fā)聲將討論推上高峰,引導輿論朝向積極方向,激發(fā)網民愛國主義熱情。

        (3)網民情感呈現兩極分化,負向的情感主要對此次裁決表達不滿和難過,而大多數網民釋放出正能量,將與祖國統(tǒng)一立場不動搖。

        猜你喜歡
        孟晚舟輿情網民
        孟晚舟和劉曉棕:遇見愛情
        華聲文萃(2022年6期)2022-07-05 22:53:37
        孟晚舟和劉曉棕:遇見愛情
        孟晚舟等待回家
        網民低齡化 “小網蟲”的明天誰來守護
        遵義(2018年20期)2018-10-19 07:15:06
        孟晚舟:從前臺打雜到華為副總裁
        海峽姐妹(2018年6期)2018-06-26 07:27:15
        有關公路,網民有話說
        中國公路(2017年9期)2017-07-25 13:26:38
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        微博的輿情控制與言論自由
        亚洲97成人精品久久久 | 国产成人精品免费久久久久 | av网站在线观看二区| 日本人妖熟女另类二区| 内地老熟女老少配视频| 99re这里只有热视频| 人妻一区二区三区免费看| 亚洲av无一区二区三区久久蜜桃| 无人区乱码一区二区三区| 国产精品无码成人午夜电影| 国产在线视频国产永久视频| 亚洲一区二区三区av无| 日本美女在线一区二区| 麻豆婷婷狠狠色18禁久久| 免费现黄频在线观看国产| 成人特黄特色毛片免费看| 久久久麻豆精亚洲av麻花| 人妻少妇偷人精品无码| 在线视频你懂的国产福利| 中文乱码字幕在线中文乱码| 久久老熟女一区二区三区| 在线观看特色大片免费视频| 色噜噜av亚洲色一区二区| 精品国内自产拍在线视频| 欧美日韩一二三区高在线| 久久精品亚洲94久久精品| 亚洲一区二区三区av无码| 国产精品一区二区在线观看99| 午夜少妇高潮免费视频| 一边摸一边做爽的视频17国产| 欧美人与动牲猛交xxxxbbbb| 中文在线√天堂| av免费网站在线免费观看| 韩国三级黄色一区二区| 波多野结衣久久精品99e| 欧美三级不卡视频| 一本色道亚州综合久久精品| 国产自拍精品在线免费观看| 亚洲av无码一区二区三区人| 人妻少妇不满足中文字幕| 亚洲免费一区二区av|