亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于新浪微博熱搜的輿情分析和可視化設(shè)計(jì)與實(shí)現(xiàn)

        2021-03-10 09:20:36徐家寧呂沛強(qiáng)任艷
        電子技術(shù)與軟件工程 2021年20期
        關(guān)鍵詞:可視化界面情感

        徐家寧 呂沛強(qiáng) 任艷

        (蘇州大學(xué)應(yīng)用技術(shù)學(xué)院 江蘇省蘇州市 215325)

        近年來(lái),隨著社交媒體網(wǎng)站的迅速發(fā)展,新浪微博以其信息的傳播共享性和交流互動(dòng)性深受廣大網(wǎng)民的追捧,其中,微博的熱搜話題內(nèi)容得到了網(wǎng)民的廣泛關(guān)注。通過(guò)微博平臺(tái)表達(dá)社情民意,體現(xiàn)用戶的意愿、態(tài)度已經(jīng)成為常態(tài)。微博輿情,就是一個(gè)風(fēng)向標(biāo)。而輿情分析,則是根據(jù)特定問(wèn)題的需要,針對(duì)這個(gè)問(wèn)題的輿情進(jìn)行深層次的思維加工和分析研究,得到相關(guān)結(jié)論用于決策。

        本文從微博熱搜話題的用戶評(píng)論情況出發(fā),通過(guò)數(shù)據(jù)采集、數(shù)據(jù)分析和數(shù)據(jù)展示三個(gè)層面進(jìn)行了基于自然語(yǔ)言處理技術(shù)的微博熱搜輿情分析,實(shí)現(xiàn)了微博輿論事件的評(píng)論熱點(diǎn)詞、主要地域來(lái)源、情感傾向、熱度走向等內(nèi)容的可視化展示,以期有效地了解網(wǎng)絡(luò)熱點(diǎn)事件,從不同維度分析網(wǎng)絡(luò)輿情,給網(wǎng)絡(luò)熱點(diǎn)輿情管控等工作提供技術(shù)支撐。

        1 總體功能設(shè)計(jì)

        1.1 功能分析

        通過(guò)對(duì)微博熱搜話題的相關(guān)數(shù)據(jù)進(jìn)行獲取、處理和分析,在可視化界面上展示出相應(yīng)處理分析后的結(jié)果,分為熱搜話題、熱搜微博評(píng)論以及熱度走向三部分內(nèi)容,每部分內(nèi)容按照對(duì)應(yīng)模塊進(jìn)行展示,如圖1所示。

        圖1:總體功能結(jié)構(gòu)圖

        (1)了解每日微博熱搜的話題排行榜,獲取當(dāng)日熱搜話題,熱度狀況以及熱搜微博原文。

        (2)針對(duì)熱搜話題的用戶評(píng)論情況,分析輿論事件的評(píng)論熱點(diǎn)詞、評(píng)論情感分析、情緒地圖分布、具體評(píng)論內(nèi)容。

        (3)對(duì)話題事件進(jìn)一步跟蹤,了解其熱搜話題的閱讀量和討論數(shù)走勢(shì)。

        1.2 架構(gòu)設(shè)計(jì)

        本文架構(gòu)設(shè)計(jì)包括采集層、分析層和展示層三大部分。如圖2所示。

        圖2:整體設(shè)計(jì)

        1.2.1 采集層

        利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),將本文所需要獲取熱的數(shù)據(jù)內(nèi)容,包括熱搜列表、日期、微博原文、微博熱度以及對(duì)應(yīng)熱搜話題下的評(píng)論進(jìn)行抓取,以csv 格式按照爬取的內(nèi)容分區(qū)儲(chǔ)存,對(duì)所要分析的內(nèi)容進(jìn)行簡(jiǎn)單地?cái)?shù)據(jù)清洗。

        1.2.2 分析層

        對(duì)獲取的評(píng)論數(shù)據(jù)集進(jìn)行讀取。使用python 第三方庫(kù)jieba 庫(kù)對(duì)中文評(píng)論進(jìn)行分詞,并事先讀取停用詞詞典對(duì)返回的分詞列表進(jìn)行過(guò)濾,僅保留關(guān)鍵詞,按照詞頻大小進(jìn)行降序排序并保存。在熱點(diǎn)詞提取模塊采用jieba 庫(kù)基于TF-IDF 算法的關(guān)鍵詞提取。情感分析部分,結(jié)合調(diào)用SnowNLP 庫(kù)的情感分析接口即可得出對(duì)應(yīng)的評(píng)論情感傾向數(shù)值并進(jìn)行分類。最后,將分析結(jié)果保存到數(shù)據(jù)表格中。

        1.2.3 展示層

        以可視化界面的形式展示獲取和處理后的內(nèi)容。包括熱搜微博原文、評(píng)論內(nèi)容及熱度狀況,通過(guò)詞云圖展示該話題下的熱點(diǎn)詞;以條形統(tǒng)計(jì)圖展示高頻詞及其詞頻;以情緒地圖樣式展示該微博熱搜話題所產(chǎn)生輿論的主要地區(qū)來(lái)源和情感傾向;情感傾向通過(guò)餅圖展現(xiàn);閱讀量和討論數(shù)走勢(shì)則以折線統(tǒng)計(jì)圖形式呈現(xiàn)。

        2 微博熱搜輿情分析和可視化的實(shí)現(xiàn)

        2.1 數(shù)據(jù)采集

        本文以手機(jī)端微博網(wǎng)址為對(duì)象來(lái)獲取相應(yīng)的數(shù)據(jù)。通過(guò)對(duì)微博URL 的觀察可得知博文的URL 地址是由“https://m.weibo.cn/detail/”+“ID”組成。本文需要取得熱搜話題內(nèi)容信息以及評(píng)論,故需要獲得熱搜微博的ID,通過(guò)對(duì)網(wǎng)頁(yè)源代碼的分析后得知,所蘊(yùn)含信息的URL 是由ajax 生成的。觀察返回的信息以JSON 格式數(shù)據(jù)呈現(xiàn),故使用json.loads()方法進(jìn)行解析轉(zhuǎn)化成字典格式類型。通過(guò)對(duì)字典格式的數(shù)據(jù)進(jìn)行取值,獲得50 條熱搜話題。然而,由于微博的網(wǎng)頁(yè)有不同的結(jié)構(gòu),因此需要對(duì)每個(gè)不同網(wǎng)頁(yè)所蘊(yùn)含的文章及其ID 信息分別進(jìn)行獲取并且保存為CSV 格式方便后續(xù)使用。在獲得熱搜微博ID 之后,對(duì)該微博URL 發(fā)起請(qǐng)求,在網(wǎng)站中需要登錄用戶才能查看所有評(píng)論信息,因此在請(qǐng)求頭中需要加入Cookies。分析得知每頁(yè)的ID 蘊(yùn)含在上一頁(yè)中,該爬取方式與上述爬取微博話題內(nèi)容相同,分析返回的用戶名、用戶地址、用戶ID、用戶評(píng)論進(jìn)行存儲(chǔ)。

        2.2 數(shù)據(jù)預(yù)處理

        本文使用Pandas 工具對(duì)獲取的數(shù)據(jù)進(jìn)行預(yù)處理,將爬取的微博熱搜話題評(píng)論數(shù)據(jù)以csv 表格導(dǎo)入并轉(zhuǎn)換為DataFrame 對(duì)象,并可以進(jìn)行相關(guān)的操作,比如處理缺失數(shù)據(jù)、刪除重復(fù)行等。微博評(píng)論中,常常會(huì)包含很多特殊符號(hào),如網(wǎng)站中的便簽信息、廣告、表情、標(biāo)點(diǎn)符號(hào),類似“@# $ %-&* ()_ +.../<>?”等。這些符號(hào)與本文輿情分析的內(nèi)容無(wú)關(guān),為提高分詞效率并避免不相關(guān)的干擾,文本信息需要經(jīng)過(guò)清洗才能使用,本文選擇采用了Python 的正則表達(dá)式來(lái)刪除這些的非文本內(nèi)容。

        2.3 數(shù)據(jù)集存儲(chǔ)

        數(shù)據(jù)集設(shè)計(jì)主要來(lái)自所獲取的數(shù)據(jù)源結(jié)果。數(shù)據(jù)源的獲取分為三個(gè)部分,第一部分主要是獲取的熱搜列表及其對(duì)應(yīng)的微博熱度狀況,同時(shí),也保存了對(duì)應(yīng)熱搜話題的網(wǎng)頁(yè)地址,以便對(duì)熱點(diǎn)事件做進(jìn)一步跟蹤分析,即熱搜話題榜清單數(shù)據(jù)集;第二部分是獲取用戶原始肖像和評(píng)論數(shù)據(jù)集,其中包括用戶的 ID、名稱、地點(diǎn)等,主要用于情緒地圖模塊地理位置的統(tǒng)計(jì),而微博評(píng)論內(nèi)容將作為輸入進(jìn)行熱點(diǎn)詞提取、文本情感積極分析;第三部分為熱搜話題的原文,熱度狀況以及閱讀量和討論數(shù)走勢(shì)。

        2.4 數(shù)據(jù)分析

        針對(duì)微博文本評(píng)論具有短小、語(yǔ)言不規(guī)范、半結(jié)構(gòu)化的特點(diǎn),采用了python 中用jieba 包來(lái)實(shí)現(xiàn)中文分詞,使用了百度停用詞包對(duì)停用詞進(jìn)行過(guò)濾來(lái)提取高頻詞匯,并使用jieba.analyse 提取評(píng)論關(guān)鍵字。jieba 的關(guān)鍵詞提取是通過(guò)計(jì)算每個(gè)詞匯的TF-IDF 值來(lái)衡量詞匯的重要性,TF-IDF 值越大該詞匯的重要性就越大。在中文情感分析SnowNLP 是一個(gè)python 寫的類庫(kù),可以用于處理中文文本的情感,返回值為正面情緒的概率,越接近1 表示正面情緒,越接近0 表示負(fù)面情緒。本文將返回值大于0.5 的評(píng)論歸類為積極評(píng)論,小于0.5 的評(píng)論為消極評(píng)論,等于0.5 的評(píng)論為中性評(píng)論。

        2.5 界面實(shí)現(xiàn)

        圖表及界面的實(shí)現(xiàn)采用第三方庫(kù)pyecharts,該庫(kù)是使用Python 語(yǔ)言生成 Echarts 圖表。pyecharts 生成的可交互圖表可以為HTML 格式,將存儲(chǔ)的數(shù)據(jù)和分析結(jié)果輸入到對(duì)應(yīng)圖表中,并通過(guò)pyehcharts 的Page 網(wǎng)頁(yè)組件最終實(shí)現(xiàn)多圖表的可視化展示。本文將可視化結(jié)果分為熱搜話題主界面和話題詳情界面兩個(gè)部分。

        2.5.1 熱搜話題主界面

        該界面顯示的是新浪微博的熱搜榜,本主要獲取了熱搜話題的排名靠前熱搜話題,并顯示了對(duì)應(yīng)的文章標(biāo)題、熱搜微博網(wǎng)址、閱讀量與討論數(shù),如圖3所示,通過(guò)點(diǎn)擊文章標(biāo)題可以進(jìn)入話題詳情界面,點(diǎn)擊網(wǎng)址可跳轉(zhuǎn)熱搜微博話題網(wǎng)站。

        圖3:熱搜話題主界面

        2.5.2 話題詳情界面

        話題界面針對(duì)該話題下的數(shù)據(jù)信息進(jìn)行了輿情分析,并以可視化圖表的形式展現(xiàn),包括該話題的微博原文、熱點(diǎn)詞云、評(píng)論情感傾向餅圖、熱度狀況、情緒地圖,除此之外根據(jù)每小時(shí)閱讀量和討論數(shù)變化繪制了熱度走向折線圖。

        3 總結(jié)

        本文結(jié)合自然語(yǔ)言處理技術(shù)并以微博評(píng)論作為數(shù)據(jù)源,運(yùn)用python 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)和輿情分析方法設(shè)計(jì)和實(shí)現(xiàn)了基于微博熱搜的輿情分析可視化。主要分為三個(gè)部分:第一部分為采集層,利用基于 Python 的網(wǎng)絡(luò)爬蟲(chóng)爬取微博評(píng)論數(shù)據(jù)并保存至本地,并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,主要是對(duì)原始數(shù)據(jù)的清洗,對(duì)于網(wǎng)絡(luò)的文本信息預(yù)處理主要是文本的特殊符號(hào)過(guò)濾、分詞、去停用詞等;第二部分為分析層,主要用TF-IDF 算法實(shí)現(xiàn)熱點(diǎn)詞的提取,調(diào)用SnowNLP 庫(kù)地情感分析接口進(jìn)行了情感分析;第三部分介紹了展示層,將處理好的數(shù)據(jù)內(nèi)容展示在可視化界面中。

        本文所設(shè)計(jì)和實(shí)現(xiàn)的基于微博熱搜輿情分析和可視化涉及自然語(yǔ)言處理、輿情分析以及數(shù)據(jù)可視化等多方面的技術(shù)和方法,在實(shí)際應(yīng)用中還需要不斷改進(jìn)和完善,有助于相關(guān)機(jī)構(gòu)從數(shù)據(jù)中挖掘出更多有用的信息。未來(lái)可以在以下幾個(gè)方面需要做進(jìn)一步的研究和提升:提高網(wǎng)絡(luò)爬蟲(chóng)的效率,做到及時(shí)地動(dòng)態(tài)更新;將數(shù)據(jù)保存進(jìn)數(shù)據(jù)庫(kù),對(duì)數(shù)據(jù)儲(chǔ)存和提取進(jìn)行優(yōu)化;探索更加精確的提取關(guān)鍵詞和情感分析的方法;劃分出板塊,政治、文化、經(jīng)濟(jì)、科技等等,對(duì)標(biāo)不同的人群的適用人群,也可以通過(guò)關(guān)鍵詞查找之前的熱搜話題等多個(gè)方面進(jìn)一步提高輿情分析的準(zhǔn)確性和實(shí)用性。

        猜你喜歡
        可視化界面情感
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        國(guó)企黨委前置研究的“四個(gè)界面”
        基于CGAL和OpenGL的海底地形三維可視化
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        基于FANUC PICTURE的虛擬軸坐標(biāo)顯示界面開(kāi)發(fā)方法研究
        在线中文字幕一区二区| 无码日韩AⅤ一区二区三区| 天堂av无码大芭蕉伊人av孕妇黑人| 精品久久中文字幕一区| 免费观看a级毛片| 少妇装睡让我滑了进去| 久久精品国产亚洲婷婷| 人妖系列在线免费观看| 精品人妻系列无码人妻漫画| 在线精品国产一区二区三区| 亚洲电影一区二区三区| 色婷婷一区二区三区四| 国产一区二区自拍刺激在线观看| 老熟妇仑乱视频一区二区 | 内射欧美老妇wbb| 欧美伊人久久大香线蕉在观| 极品美女尤物嫩模啪啪| 亚洲国产天堂久久综合网| 让少妇高潮无乱码高清在线观看| 福利网址在线观看| 一区二区三区岛国av毛片| av素人中文字幕在线观看| 五十路丰满中年熟女中出| 中文人妻无码一区二区三区| 青青草视频在线观看视频免费| 四虎成人精品在永久免费| 国产在线精品一区二区| 欧美成人精品福利在线视频| 免费在线亚洲视频观看| 午夜男女很黄的视频| 五十路熟久久网| 中文字幕精品亚洲一区二区三区| 一个人看的视频在线观看| 午夜精品久久久久久| av狼人婷婷久久亚洲综合| 经典黄色一区二区三区| 成人做受黄大片| 正在播放亚洲一区| 成人av在线免费播放| 无码毛片内射白浆视频| 精品国产v无码大片在线观看|