亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)技術(shù)的COVID-19分析

        2021-07-06 11:28:38王秀友韋斯羽代雅婷彭亮高統(tǒng)朋
        關(guān)鍵詞:可視化疫情分析

        王秀友 韋斯羽 代雅婷 彭亮 高統(tǒng)朋

        摘 要:本文以大數(shù)據(jù)技術(shù)為基礎(chǔ),對(duì)COVID-19疫情期間除湖北外其他地區(qū)的疫情數(shù)據(jù)進(jìn)行采集、預(yù)處理、可視化和分析。結(jié)果顯示在疫情中,接觸性傳播為主要傳播方式,疫情的主要癥狀為發(fā)熱,為疫情防控提供科學(xué)的理論依據(jù)和重要輔助服務(wù)。

        關(guān)鍵詞:COVID-19;疫情;大數(shù)據(jù);數(shù)據(jù)爬取;數(shù)據(jù)分析

        中圖分類號(hào):TP393? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):1673-260X(2021)01-0029-04

        0 引言

        隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展,其在各個(gè)領(lǐng)域得到廣泛應(yīng)用。特別在醫(yī)學(xué)領(lǐng)域,由于醫(yī)學(xué)領(lǐng)域的問題往往數(shù)據(jù)量巨大且數(shù)據(jù)來源廣泛,對(duì)數(shù)據(jù)實(shí)時(shí)性和實(shí)用性要求較高,大數(shù)據(jù)處理技術(shù)的發(fā)展為醫(yī)學(xué)領(lǐng)域特別是傳染病預(yù)測(cè)帶來了巨大改變[1,2]。2020年發(fā)生的COVID-19疫情爆發(fā)后,快速在大范圍內(nèi)傳染開來,感染了大量人群。大數(shù)據(jù)技術(shù)可以為疫情提供必要的技術(shù)處理手段。疫情中,眾多專家學(xué)者對(duì)武漢和湖北省的數(shù)據(jù)樣本進(jìn)行分析,對(duì)湖北省外的其他省市病例樣本信息分析較少[3]。本文利用大數(shù)據(jù)相關(guān)技術(shù),通過爬取疫情爆發(fā)初期至2020年4月5日湖北省外的其他省市確診病例的詳細(xì)資料,針對(duì)具體的病例描述數(shù)據(jù),將紛亂無序的數(shù)據(jù)匯集到一起,進(jìn)行全面的數(shù)據(jù)處理和數(shù)據(jù)分析,以直觀形式展示疫情相關(guān)數(shù)據(jù)分析[4],預(yù)測(cè)疫情發(fā)展的動(dòng)態(tài)及走勢(shì),為疫情防控的高效決策、快速?zèng)Q策乃至智能決策提供了有力的基礎(chǔ)。

        2 方案設(shè)計(jì)

        本文利用爬蟲技術(shù)爬取今日頭條抗擊肺炎專題中的實(shí)時(shí)病例數(shù)據(jù),利用大數(shù)據(jù)處理技術(shù)進(jìn)行數(shù)據(jù)預(yù)處理,針對(duì)處理后的數(shù)據(jù)提供數(shù)據(jù)可視化分析。

        2.1 數(shù)據(jù)爬取

        本文對(duì)湖北省外全國人員的病例詳情進(jìn)行數(shù)據(jù)爬取,病例樣本如圖1所示。

        對(duì)數(shù)據(jù)源進(jìn)行爬取時(shí),主要流程是對(duì)請(qǐng)求的數(shù)據(jù)進(jìn)行分析,然后對(duì)數(shù)據(jù)進(jìn)行異步請(qǐng)求,抓取相關(guān)數(shù)據(jù)包后對(duì)抓取到的數(shù)據(jù)進(jìn)行存儲(chǔ),具體描述如下。

        (1)數(shù)據(jù)分析:找到數(shù)據(jù)的url_base和對(duì)應(yīng)的json文件url_json。對(duì)病例人員信息的url進(jìn)行分析,發(fā)現(xiàn)url中id參數(shù)決定了爬取的城市。以安徽省合肥市某一url地址為例https://xxx.html?local_id=340100其中url中的id=340100表示合肥。

        (2)請(qǐng)求數(shù)據(jù):利用工具fiddler抓包確定請(qǐng)求類型,進(jìn)行異步請(qǐng)求,實(shí)現(xiàn)一次性自動(dòng)化爬取省級(jí)內(nèi)各個(gè)城市數(shù)據(jù)。通過抓包獲取涉及全國疫情信息的js接口和城市id。

        (3)解析網(wǎng)頁:利用request庫實(shí)現(xiàn)全國省市的封裝解析。部分地區(qū)僅有市的數(shù)據(jù),沒有內(nèi)部區(qū)的統(tǒng)計(jì),導(dǎo)致不能實(shí)現(xiàn)全國一次性自動(dòng)爬取。本文將爬取封裝成兩個(gè)過程,一是輸入id爬取市級(jí)數(shù)據(jù);二是輸入省級(jí)名稱爬取全省數(shù)據(jù)。

        (4)數(shù)據(jù)存儲(chǔ):將對(duì)應(yīng)的數(shù)據(jù)存入文本文檔中,實(shí)現(xiàn)自動(dòng)存儲(chǔ)生成文本文檔。

        2.2 數(shù)據(jù)預(yù)處理

        由數(shù)據(jù)分析對(duì)預(yù)處理的需求,將數(shù)據(jù)需求分為三種,一是提取癥狀、性別、年齡、武漢居住史字段的相關(guān)數(shù)據(jù);二是密切接觸人數(shù)、聚餐情況;三是發(fā)病日期、確診日期。

        在數(shù)據(jù)預(yù)處理過程中,分為兩類進(jìn)行處理。一是提取日期類的數(shù)據(jù),采用時(shí)間序列技術(shù),進(jìn)行時(shí)間序列的預(yù)處理;去除無關(guān)特殊符號(hào)及字符,進(jìn)行日期時(shí)間序列類的數(shù)據(jù)提取和集成規(guī)約。二是處理文本類特征字段,采用NLP處理方式;對(duì)特征字段采用Jieba分詞統(tǒng)計(jì)、清洗,利用N-gram語言模型進(jìn)行特征提取,數(shù)據(jù)預(yù)處理流程如圖2所示。

        對(duì)需求一采用表達(dá)式自動(dòng)搜索特征字段,對(duì)需求二遍歷數(shù)據(jù)文本,以正則表達(dá)式中的split()模塊進(jìn)行按照標(biāo)點(diǎn)符號(hào)分割。對(duì)需求三數(shù)據(jù)的預(yù)處理則分為以下幾步。

        2.2.1 數(shù)據(jù)格式預(yù)處理

        將文件格式進(jìn)行轉(zhuǎn)換并篩選日期,用列表推導(dǎo)式進(jìn)行關(guān)鍵字段提取,得到每一行中存在癥狀的關(guān)鍵字段,結(jié)果如圖3所示。

        2.2.2 數(shù)據(jù)錯(cuò)誤修正

        對(duì)預(yù)處理的數(shù)據(jù)重新排序并統(tǒng)計(jì)滿足需求的數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)成csv格式。由于每行的字段數(shù)不確定,在上一個(gè)文件中設(shè)置表頭最大化,從而使數(shù)據(jù)可用pandas讀取,然后進(jìn)行重新排序,缺失的值用空值填充,結(jié)果如圖4所示。

        2.2.3 數(shù)據(jù)內(nèi)容預(yù)處理

        使用正則表達(dá)式提取癥狀或者發(fā)病、確診時(shí)間。使用split()將字段切分,定義函數(shù)提取純?nèi)掌冢胢ap函數(shù)多次執(zhí)行,結(jié)果如圖5所示。

        2.2.4 數(shù)據(jù)標(biāo)準(zhǔn)化

        對(duì)預(yù)處理后的數(shù)據(jù),刪除每行空數(shù)據(jù)以及癥狀時(shí)間,使每行數(shù)據(jù)只剩下發(fā)病時(shí)間和確診時(shí)間。按行遍歷數(shù)據(jù),通過split()和strip()函數(shù)以空格分割,再以英文逗號(hào)進(jìn)行連接保存,去除多余逗號(hào),結(jié)果如圖6所示。

        在對(duì)數(shù)據(jù)進(jìn)行分析時(shí),較少的樣本量對(duì)結(jié)果分析容易產(chǎn)生較大誤差。本文對(duì)樣本量較少的數(shù)據(jù)進(jìn)行了剔除,保留處理除湖北省數(shù)據(jù)量前十的省市數(shù)據(jù)。源病例數(shù)據(jù)量為5665條,預(yù)處理200條,實(shí)用病例5465條,具體數(shù)據(jù)如表1所示。

        2.3 可視化分析

        對(duì)于處理后的病例數(shù)據(jù),本文用直觀的表格和圖片輔助數(shù)據(jù)分析,分為三個(gè)方面。

        2.3.1 針對(duì)癥狀、年齡、性別、武漢居住史字段進(jìn)行分析

        根據(jù)不同癥狀占比情況的統(tǒng)計(jì)表(表2)可以看出,發(fā)熱為主要癥狀之一,占源數(shù)據(jù)的45.61%,將近一半,因此發(fā)熱可以作為判斷是否為疑似病例的一個(gè)依據(jù)。其次,患者病例中有癥狀者占比98.50%,無癥狀者占比1.50%。

        根據(jù)不同年齡段占比情況的表3可以看出,年齡段在41歲至51歲的患者人數(shù)最多,占源數(shù)據(jù)的33.83%,占比率最高。

        本研究針對(duì)5465例病例進(jìn)行性別比例分析,發(fā)現(xiàn)其中男性患者的人數(shù)為2900,占比53.06%,女性患者的人數(shù)為2565,占比46.94%,說明COVID-19傳染與性別無關(guān)。

        針對(duì)每個(gè)省的病例中含有長期居住、有居住史、在武漢工作、生活于武漢、路徑有武漢等含有武漢居住史的字段進(jìn)行分析得出,共有2984名患者具有武漢旅居史。從中可以看出,由武漢傳播出來的病例人數(shù)普遍居多,占各省病例人數(shù)居高。

        2.3.2 針對(duì)密切接觸與聚餐情況進(jìn)行分析

        對(duì)每個(gè)省的病例中含有與確診或高度疑似病例有直接居住生活在一起分析得出,共有2399名患者與確診或高度疑似病例有直接居住生活在一起的成員進(jìn)行密切接觸行為,占總病例人數(shù)的43.89%,說明人傳人現(xiàn)象較為明顯。

        對(duì)聚餐情況分析時(shí),本次提取聚餐字段的關(guān)鍵詞有聚會(huì)、聚餐、有共餐史、相聚就餐等。從表6可以看出聚餐導(dǎo)致的病例數(shù)占各自地區(qū)總病例的比例。從圖8聚餐人數(shù)日期可以看出,疫情發(fā)生前期至1月26日聚餐情況較多,聚會(huì)、聚餐是造成COVID-19疫情傳播的重要因素。

        2.3.3 疫情波動(dòng)分析

        本文以確診病例中患者發(fā)病日期與確診日期作為綜合評(píng)判依據(jù),選取前十個(gè)省的疫情新增數(shù)據(jù)進(jìn)行抽樣預(yù)測(cè)分析。選取全國疫情新增數(shù)據(jù)進(jìn)行整體研究分析,研究真實(shí)的監(jiān)測(cè)數(shù)據(jù)。

        圖8是除湖北省外前十個(gè)省市新增發(fā)病人數(shù)與確診人數(shù)的折線圖,反映了疫情確診人數(shù)數(shù)據(jù)與發(fā)病人數(shù)數(shù)據(jù)隨時(shí)間的波動(dòng)情況。爆發(fā)前期至2月5日是波動(dòng)幅度較小的持續(xù)性增加,2月5日確診人數(shù)達(dá)到了最高333例,2月5日至2月25日是波動(dòng)幅度較小持續(xù)性減少,2月25日以后是趨于平穩(wěn);發(fā)病人數(shù)的波動(dòng)情況是,爆發(fā)前期至1月29日持續(xù)性增加,1月29日至2月7日是波動(dòng)幅度較小的趨于平穩(wěn),但仍持續(xù)爆發(fā),人數(shù)最高為259例,2月7日至2月25日是持續(xù)性減少,2月25日以后是趨于平穩(wěn)。

        圖9中的全國新增發(fā)病人數(shù)和確診人數(shù)反映了同個(gè)時(shí)間內(nèi)發(fā)病人數(shù)與確診人數(shù)之間的比較情況??梢娙珖咔榈牟▌?dòng)基本一致。圖中新增確診數(shù)據(jù)來自國家衛(wèi)健委,新增發(fā)病數(shù)據(jù)來自今日頭條的全國病例。

        2.4 可視化部署實(shí)現(xiàn)

        基于echarts的網(wǎng)頁可視化展示,利用jQuery中的echarts網(wǎng)頁模板,將本次研究方向的圖形進(jìn)行統(tǒng)一展示。網(wǎng)頁圖形主要展示了數(shù)據(jù)分析的三個(gè)方向,一是各個(gè)省市武漢居住史的病例情況和患者癥狀分析情況;二是各個(gè)省受聚餐影響占比;三是新增發(fā)病和新增確診人數(shù)雙折線圖。

        3 結(jié)語

        本文研究疫情爆發(fā)期間各項(xiàng)數(shù)據(jù)的具體情況,預(yù)測(cè)疫情高峰和持續(xù)時(shí)間,通過可視化展示疫情的動(dòng)態(tài)數(shù)據(jù)及結(jié)果。隨著數(shù)據(jù)處理技術(shù)日新月異的發(fā)展,大數(shù)據(jù)在醫(yī)療方面的應(yīng)用必將帶來巨大變革,利用大數(shù)據(jù)技術(shù)對(duì)重大公共衛(wèi)生突發(fā)事件進(jìn)行群防群控,是未來疫情防控的關(guān)鍵手段和重要支撐。

        ——————————

        參考文獻(xiàn):

        〔1〕王延玲,溫明鋒,李迎新.大數(shù)據(jù)時(shí)代對(duì)醫(yī)療系統(tǒng)信息化發(fā)展的研究[J].當(dāng)代醫(yī)學(xué),2020,26(10):114-11.

        〔2〕王秋蓉,吳亞楠,肖瀟,杜娟.人工智能:發(fā)揮抗擊疫情科技支撐的骨干作用[J].可持續(xù)發(fā)展經(jīng)濟(jì)導(dǎo)刊,2020,38(04):18-20.

        〔3〕閆雨蒙,李博,李澤宇,連博,蘇祥飛,王天園,李萍,王強(qiáng),程金蓮,楊忠奇.新型冠狀病毒肺炎臨床研究和專家意見數(shù)據(jù)分析的思考與建議[J].中國中藥雜志,2020,45(07):1526-1530.

        〔4〕鄔賀銓.大數(shù)據(jù)助力疫情防控[J].大數(shù)據(jù)時(shí)代,2020,36(03):26-33.

        猜你喜歡
        可視化疫情分析
        基于CiteSpace的足三里穴研究可視化分析
        戰(zhàn)疫情
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        隱蔽失效適航要求符合性驗(yàn)證分析
        抗疫情 顯擔(dān)當(dāng)
        疫情中的我
        基于CGAL和OpenGL的海底地形三維可視化
        37°女人(2020年5期)2020-05-11 05:58:52
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        国产毛片一区二区三区| 久久婷婷成人综合色| 996久久国产精品线观看| 欧美成人看片一区二区三区尤物 | 色偷偷偷久久伊人大杳蕉| 欧美成人形色生活片| 欧美亚洲日韩国产人成在线播放 | 日本中文字幕一区二区有码在线| 精品无码日韩一区二区三区不卡| 国产在线精品一区二区在线看| 亚洲国产精品一区亚洲国产| 亚洲综合精品亚洲国产成人| 三级全黄裸体| 午夜精品久久久久久久久久久久| 成人片99久久精品国产桃花岛| 视频一区视频二区亚洲| 成人免费自拍视频在线观看 | av网站大全免费在线观看| 国产精品www夜色视频| 国产在线一91区免费国产91| 久久视频在线视频精品| 精品粉嫩av一区二区三区| 免费观看又色又爽又湿的视频 | 超碰性爱| 丰满少妇被啪啪到高潮迷轩| 国产人妻精品无码av在线| 中文字幕第八页| 骚货人妻视频中文字幕| 亚洲人成网站在线播放2019| 日本免费人成视频播放| 人妻无码AⅤ中文系列久久免费| 成人av蜜桃在线观看| 日本三级欧美三级人妇视频黑白配 | 国产成人无码18禁午夜福利p| 日韩激情小视频| 丝袜美腿av免费在线观看| 中国免费看的片| 失禁大喷潮在线播放| 久久一区二区三区四区| 亚洲第一大av在线综合| 国产三级精品三级|