亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于爬蟲技術的醫(yī)療行業(yè)輿情監(jiān)控系統(tǒng)的設計與實現(xiàn)

        2022-03-30 15:04:00孟慶昊李青君
        科技創(chuàng)新與應用 2022年8期
        關鍵詞:爬蟲輿情可視化

        孟慶昊,沈 妍,李青君,蘇 波

        (首都師范大學 物理系,北京 100037)

        以互聯(lián)網為媒介的網絡輿情信息是網民在特定事件中的態(tài)度、意見和看法,具有強烈的情感表達色彩[1]。在21世紀這個信息化的時代背景下,數(shù)以億計的用戶在微博上圍繞國家政策、民計民生、娛樂八卦等話題不斷產生出海量的體現(xiàn)著個人意志的輿情數(shù)據(jù),若不加以引導,任由其肆意發(fā)展那么謠言重傷、惡語相向將會充斥著整個社會,由此可見建立一個完善的輿情監(jiān)控體系顯得尤為重要[2]。

        2020年新冠肺炎席卷全球,醫(yī)療行業(yè)受到社會廣泛關注,隨之而來的便是海量輿情信息的爆發(fā),針對這一社會現(xiàn)狀,本課題以Python作為開發(fā)語言,設計實現(xiàn)一套基于爬蟲技術的醫(yī)療行業(yè)輿情監(jiān)控系統(tǒng)。摒棄以往數(shù)據(jù)獲取方式,為解決數(shù)據(jù)信息獲取困難等問題。本系統(tǒng)使用通用爬蟲作為數(shù)據(jù)源獲取手段進行系統(tǒng)開發(fā),并以CSV文件的形式存儲數(shù)據(jù)。系統(tǒng)以自然語言處理作為工作核心,使用Sonw模型、樸素貝葉斯算法、Jieba分詞、LDA聚類以及關鍵詞提取等技術對初始數(shù)據(jù)集進行處理和分析,使用PyEcharts、Tkinter工具將處理結果和輿情信息以可視化界面的方式向用戶展示出來。

        1 網絡爬蟲簡介

        網絡爬蟲(Web Crawler)又稱為網絡蜘蛛(Web Spider),是一個智能抓取網頁的程序,網絡爬蟲最初設計用于搜索引擎中,成為搜索引擎不可缺少的組成部分。首先給定一些種子鏈接放到爬蟲隊列中,網絡爬蟲通過鏈接對應的頁面抓取新鏈接放到隊列中,繼續(xù)抓取更多的鏈接,重復這一周而復始的過程,直到滿足爬蟲設定的終止條件為止[3]。按照爬蟲的功能、結構、爬行策略以及實現(xiàn)技術的不同,網絡爬蟲可以劃分為3大類:通用爬蟲(General Crawler)、聚焦爬蟲(Focused Crawler)和深度爬蟲(Deep Crawler)。

        2 輿情監(jiān)控系統(tǒng)的設計與實現(xiàn)

        2.1 技術可行性分析

        本輿情監(jiān)控系統(tǒng)使用Anaconda進行開發(fā),用到了一些Python自帶的庫文件:包括Pyecharts可視化庫、CVS存儲爬取數(shù)據(jù)、Tkinter庫搭建操作界面等。本系統(tǒng)所用技術如下:

        (1)Anaconda是主流的Python IDE之一,擁有很多方便高效的工具,是Python開發(fā)人員的得力助手。另外還支持基于Django框架的專業(yè)Web開發(fā),是一款開源的Python開發(fā)平臺。

        (2)本系統(tǒng)主要借助了一些Python內置的庫文件,如re、selenium、pandas、requests、os、pickle等模塊。這些模塊拿之即用,免去了繁瑣的開發(fā)過程,極大地提高了開發(fā)效率。

        (3)Ui界面采用Python內置的Tkinter,相較于Pyqt5小巧,并且高效,完全能勝任本系統(tǒng)的功能需求。

        2.2 功能需求分析

        2.2.1 輿情采集模塊

        輿情采集利用網絡爬蟲技術來完成微博上關于醫(yī)療衛(wèi)生行業(yè)熱點話題的信息采集。

        2.2.2 數(shù)據(jù)處理模塊與輿情應用模塊對爬取到的數(shù)據(jù)進一步篩選統(tǒng)計處理,需完成下述功能:輿情信息查詢即實現(xiàn)對醫(yī)療輿情信息的基于關鍵詞的數(shù)據(jù)查詢功能;

        統(tǒng)計分析即對醫(yī)療輿情信息進行歸類匯總,通過自然語言處理,根據(jù)不同條件形成可視化數(shù)據(jù);

        輿情預警是整個系統(tǒng)的核心功能之一,通過文本的情感傾向性分析,進行輿情信息正負面情緒識別,并對負面醫(yī)療輿情進行預警。

        2.2.3 系統(tǒng)管理模塊

        該模塊實現(xiàn)用戶注冊、用戶登錄、醫(yī)療關鍵字設定等主要系統(tǒng)功能。

        2.3 系統(tǒng)設計

        2.3.1 系統(tǒng)總體結構設計

        通過對醫(yī)療行業(yè)輿情監(jiān)控系統(tǒng)的整體分析,將系統(tǒng)功能劃分為4大功能模塊,其體系結構如圖1所示。

        圖1 系統(tǒng)總體結構圖

        2.3.2 數(shù)據(jù)處理流程設計

        系統(tǒng)數(shù)據(jù)處理模塊主要完成對微博上公開的醫(yī)療行業(yè)輿情信息的清洗、處理和存儲,為接下來實現(xiàn)數(shù)據(jù)可視化展示打下基礎。系統(tǒng)數(shù)據(jù)處理流程圖如圖2所示。

        圖2 數(shù)據(jù)處理流程圖

        2.4 系統(tǒng)實現(xiàn)

        2.4.1 情感分析功能

        輿情信息的情感分析處理是基于Python的SonwNLP模型作為情感分析的模型,該模型原理是機器學習中的Naive-Bayes分類方法,對數(shù)據(jù)文本利用Jieba分詞工具進行分詞并使用哈工大停用詞表去除停用詞[4]。在此基礎處理后,提取單句的關鍵詞信息,將單句評論的詞匯作為模型特征:(ω1,ω2,...,ωn),再利用樸素貝葉斯公式進行打分:

        其中:C1代表積極類情緒,等式右邊的計算基于訓練好的模型,分數(shù)越高代表語句情感越積極。情感分析功能實現(xiàn)如圖3所示。

        圖3 情感分析結果圖

        2.4.2 關鍵詞搜索功能

        輿情信息關鍵詞搜索功能涉及的核心算法有LDA聚類、關鍵詞提取技術等。首先根據(jù)關鍵詞信息對整個數(shù)據(jù)源LDA聚類,篩選出符合要求的微博數(shù)據(jù)。作為一個主題生成模型,同時也是一個三層貝葉斯概率模型,用于基于關鍵詞的數(shù)據(jù)篩選效果良好[5]。接著使用NLP技術中的關鍵詞提取技術,對符合條件的微博數(shù)據(jù)進行關鍵詞提取整合。最后交付可視化系統(tǒng)進行展示。如圖4所示為搜索關鍵詞為“醫(yī)療”時用戶關注的輿情信息詞云生成圖。

        圖4 關鍵詞搜索詞云生成圖

        2.4.3 可視化功能實現(xiàn)

        通過對輿情信息獲取模塊爬到的數(shù)據(jù)源經過上述處理后,利用Python可視化包庫進行數(shù)據(jù)統(tǒng)計、畫出數(shù)據(jù)分析結果柱狀圖、餅狀圖、關鍵詞詞云等可視化圖像。醫(yī)療行業(yè)網絡輿情監(jiān)控系統(tǒng)主界面如圖5所示。

        圖5 系統(tǒng)界面圖

        3 結論

        本課題選取通用爬蟲作為數(shù)據(jù)獲取工具,以自然語言處理技術作為核心工作,成功設計出一套基于爬蟲技術的醫(yī)療行業(yè)輿情監(jiān)控系統(tǒng),對時下熱點話題——新冠肺炎的輿論監(jiān)控和導向起到了一定的作用。

        猜你喜歡
        爬蟲輿情可視化
        利用網絡爬蟲技術驗證房地產灰犀牛之說
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        基于Python的網絡爬蟲和反爬蟲技術研究
        基于CGAL和OpenGL的海底地形三維可視化
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        利用爬蟲技術的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        大數(shù)據(jù)環(huán)境下基于python的網絡爬蟲技術
        電子制作(2017年9期)2017-04-17 03:00:46
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        日本熟日本熟妇中文在线观看| 久久亚洲春色中文字幕久久久综合| 激情亚洲不卡一区二区| 18岁日韩内射颜射午夜久久成人| 精品无码人妻一区二区三区品| 人妻精品丝袜一区二区无码AV| 日日麻批视频免费播放器| 亚洲中文字幕久久精品品| 国产成人无码免费视频在线 | 91在线无码精品秘 入口九色十| 亚洲成人一区二区av| 国产精品综合色区在线观看| 久久精品亚洲精品国产色婷| 国产大学生粉嫩无套流白浆| 自慰高潮网站在线观看| 亚洲岛国一区二区三区| 女人脱了内裤趴开腿让男躁| 无码中文字幕加勒比一本二本 | 国产精品亚洲一区二区三区妖精 | 高h纯肉无码视频在线观看| 亚欧AV无码乱码在线观看性色| 国产麻豆精品久久一二三| 亚洲综合中文字幕综合| 东北妇女xx做爰视频| 色爱无码A V 综合区| 国产丝袜长腿在线看片网站 | 小12箩利洗澡无码视频网站| 亚洲AV永久无码精品导航| 亚洲av国产精品色a变脸| 国产精品亚洲一区二区三区16| 一区二区三区中文字幕| 国产曰批免费视频播放免费s| 国产精品久久国产精品久久 | 无码熟妇人妻av在线网站| 免费网站看av片| 日韩欧美区| 亚洲精品99久91在线| 久久久精品午夜免费不卡| 欧美日韩精品一区二区在线观看 | 欧美va亚洲va在线观看| 永久免费中文字幕av|