張 喆 楊 松 王 寧 崔 涵 肖春濤 柯惠新
自2019年底新冠肺炎(COVID-19)疫情爆發(fā)以來,持續(xù)時間長,波及范圍廣,對全世界的政治經(jīng)濟(jì)形勢以及人民生產(chǎn)生活造成了巨大影響,并將持續(xù)下去,時間也難以預(yù)測,影響深遠(yuǎn)。根據(jù)世界衛(wèi)生組織(World Health Organization)官方網(wǎng)站(https://www.who.int/emergencies/diseases/novel-coronavirus-2019)公布的數(shù)據(jù),截至2020年6月10日,已有216個國家和地區(qū)報告確診病例,全球累計確診病例達(dá)到7145539例,累計死亡病例達(dá)到408025例。多國政府都高度重視疫情防控,采取了不同類型的防控措施,多國科研人員利用 SIR(Susceptible Infected Recovered Model)等傳染病動力學(xué)模型,對疫情發(fā)展趨勢進(jìn)行模擬和預(yù)測,對理論研究和疫情防控具有重要意義,并起到了積極作用。各項防控政策的頒布和疫情趨勢模型的擬合仿真都離不開實(shí)時和準(zhǔn)確的數(shù)據(jù)支撐,因此本文梳理和匯總與疫情相關(guān)的數(shù)據(jù)發(fā)布平臺,根據(jù)各平臺的優(yōu)勢和不足,提出了與疫情相關(guān)的數(shù)據(jù)集成共享的平臺搭建設(shè)想并付諸實(shí)踐,目的是給全社會提供時效性強(qiáng)、便于使用又獨(dú)具特色的數(shù)據(jù)倉庫。
關(guān)于疫情數(shù)據(jù),從數(shù)據(jù)發(fā)布來源和數(shù)據(jù)指標(biāo)選取兩個角度來梳理。對我國而言,主要數(shù)據(jù)來源是中華人民共和國國家衛(wèi)生健康委員會和各省、直轄市、自治區(qū)的衛(wèi)生健康委員會,各級機(jī)構(gòu)每日都會定時在“疫情通報”中發(fā)布前一日的“新型冠狀病毒肺炎疫情最新情況”,提供全國、?。ㄖ陛犑小⒆灾螀^(qū))和市(區(qū))三級疫情數(shù)據(jù)。數(shù)據(jù)源為官方機(jī)構(gòu),數(shù)據(jù)嚴(yán)謹(jǐn),具有權(quán)威性,發(fā)布的指標(biāo)有累計值和新增值,指標(biāo)選取包括確診病例、疑似病例、重癥病例、死亡病例、治愈病例、醫(yī)學(xué)觀察病例(密切接觸者)和追蹤密切接觸者。隨著疫情防控形勢的變化,從2020年3月4日起,還公布境外輸入性病例的確診、疑似、重癥、死亡和治愈的情況;從2020年2月6日起,增加現(xiàn)有確診病例指標(biāo),計算公式為:現(xiàn)有確診人數(shù)=累計確診人數(shù)-累計治愈人數(shù)-累計死亡人數(shù)。從3月31日起,開始公布無癥狀感染者接受醫(yī)學(xué)觀察的情況。
在國家衛(wèi)健委每日發(fā)布的“新型冠狀病毒肺炎疫情最新情況”中,還包含香港特別行政區(qū)、澳門特別行政區(qū)和臺灣地區(qū)的確診、出院和死亡病例數(shù)據(jù)。1月22日開始,港澳臺各有1例確診病例。國家衛(wèi)生健康委員會和各省、直轄市、自治區(qū)的衛(wèi)生健康委員會通常都是以新聞稿的形式發(fā)布,截圖如圖1—圖4(選取重慶、甘肅和內(nèi)蒙古為代表):
圖1 國家衛(wèi)生健康委員會新冠肺炎疫情通報截圖
圖2 內(nèi)蒙古自治區(qū)新冠肺炎疫情通報截圖
圖3 重慶市新冠肺炎疫情通報截圖
圖4 海南省新冠肺炎疫情通報截圖
對世界其他國家和地區(qū),主要數(shù)據(jù)來源是世界衛(wèi)生組織(World Health Organization)官方網(wǎng)站,其中包括全球已報告有確診病例國家和地區(qū)的疫情數(shù)據(jù)。截至2020年6月10日,已有216個國家和地區(qū)發(fā)現(xiàn)確診病例。官網(wǎng)數(shù)據(jù)每日更新,包含指標(biāo)有累計確診和死亡病例、每日新增確診和死亡病例,共計四項,同時在官網(wǎng)上有對數(shù)據(jù)可視化展示圖。世界衛(wèi)生組織還會根據(jù)疫情防控需要,不定時發(fā)布通報,指導(dǎo)各國政府更新現(xiàn)有搜集的數(shù)據(jù)指標(biāo),例如世衛(wèi)組織總干事于2020年5月15日在COVID-19疫情媒體通報會上指出,在記錄病例時,收集按年齡和性別分類的數(shù)據(jù)。世界衛(wèi)生組織網(wǎng)站信息截圖如圖5:
圖5 世界衛(wèi)生組織數(shù)據(jù)發(fā)布平臺截圖
從上面梳理的數(shù)據(jù)來源可以看出兩個基本問題:第一,數(shù)據(jù)發(fā)布機(jī)構(gòu)分層級。對中國而言,既有國家衛(wèi)生健康委員會公布的全國匯總數(shù)據(jù),也有各地區(qū)衛(wèi)生健康委員會發(fā)布的數(shù)據(jù);對于世界各國或地區(qū)而言,從世界衛(wèi)生組織獲取的數(shù)據(jù)更多是基礎(chǔ)性數(shù)據(jù),公布的數(shù)據(jù)指標(biāo)相對簡單,想要獲得更詳細(xì)的數(shù)據(jù),還需要從各國或地區(qū)的疾病預(yù)防控制中心(Centers for Disease Control and Prevention簡稱CDC)獲得。第二,數(shù)據(jù)差異和不合理現(xiàn)象。國際疫情形勢變化很快,對于同一指標(biāo),通過對比來看可能由于發(fā)布時間和發(fā)布機(jī)構(gòu)的不同,或者指標(biāo)口徑的不同,會出現(xiàn)數(shù)據(jù)差異較大的現(xiàn)象,同時由于各國核增核減、重報誤報,還存在數(shù)據(jù)不合理等現(xiàn)象。因此需要整合現(xiàn)有數(shù)據(jù)來源,根據(jù)疫情變化和研究需要構(gòu)建科學(xué)的數(shù)據(jù)資源平臺,現(xiàn)將已有的數(shù)據(jù)平臺匯總?cè)缦拢?/p>
國內(nèi)主流媒體每日會根據(jù)已有的疫情數(shù)據(jù),采用不同的展現(xiàn)形式向外界報告疫情變化情況,影響力較大的有人民日報和新華社的疫情發(fā)布平臺。
人民日報公眾號會在早上9點(diǎn)左右發(fā)布我國最新疫情信息,在晚上6點(diǎn)左右發(fā)布全球疫情情況。對我國疫情信息的發(fā)布,數(shù)據(jù)來源主要是國家衛(wèi)生健康委員會,人民日報發(fā)布特色是重點(diǎn)突出兩項數(shù)據(jù),分別是新增確診病例和新增無癥狀感染者(截圖見圖6、圖7);對全球疫情的發(fā)布,數(shù)據(jù)主要來源于世界衛(wèi)生組織,數(shù)據(jù)綜合度強(qiáng),有一定的權(quán)威性,通過比較可以看出數(shù)據(jù)比較合理。其特色是采用花瓣圖形式展現(xiàn)各國確診和死亡病例的情況,通過顏色和排序形象反映各國疫情情況(如圖8)。
圖6 人民日報公眾號報道國內(nèi)新增確診病例
圖7 人民日報公眾號報道國內(nèi)新增無癥狀感染者
新華社早上9點(diǎn)左右會在其公眾號發(fā)布我國最新疫情信息,在中午12點(diǎn)左右發(fā)布全球疫情情況。對我國疫情信息的發(fā)布,直接引用國家衛(wèi)生健康委員會信息;對全球疫情的發(fā)布,數(shù)據(jù)來源于世界衛(wèi)生組織,其特色是采用直方圖的形式反映各國疫情情況,通過顏色和矩形長度形象反映各國疫情情況(如圖9)。
圖8 人民日報公眾號花瓣圖
圖9 新華社公眾號直方圖
國內(nèi)部分互聯(lián)網(wǎng)公司借助其自身優(yōu)勢,建立疫情實(shí)時大數(shù)據(jù)平臺,例如百度、網(wǎng)易、騰訊等,數(shù)據(jù)庫包含國內(nèi)疫情、國外疫情、實(shí)時播報、權(quán)威發(fā)布等欄目,可以快速獲取國內(nèi)各地區(qū)的累計確診、累計死亡、累計治愈、現(xiàn)有確診、無癥狀感染者等情況,同時自動呈現(xiàn)可視化走勢圖,其優(yōu)勢在于能夠及時公布防控最新動態(tài)和相關(guān)新聞,同時發(fā)布一些防護(hù)知識(如圖10—圖12)。
圖10 百度疫情實(shí)時大數(shù)據(jù)界面截圖
圖11 騰訊疫情實(shí)時追蹤界面截圖
圖12 網(wǎng)易疫情實(shí)時動態(tài)播報界面截圖
3.相關(guān)機(jī)構(gòu)數(shù)據(jù)平臺
目前有醫(yī)療領(lǐng)域的企業(yè)和海外留學(xué)機(jī)構(gòu),借助其行業(yè)優(yōu)勢,建立疫情數(shù)據(jù)信息平臺,例如丁香園和一畝三分地。這兩家數(shù)據(jù)平臺都包含國內(nèi)和國外疫情的基本統(tǒng)計數(shù)據(jù),丁香園信息平臺的特色是發(fā)揮醫(yī)療優(yōu)勢,開辟辟謠與防護(hù)、疾病知識欄目,從中可以了解一些傳言的真假,同時獲取病毒防治方面的指導(dǎo)。一畝三分地信息平臺的優(yōu)勢在于借助海外資源,發(fā)布美國關(guān)于檢測數(shù)據(jù)和檢測地點(diǎn)方面的信息以及住院總?cè)藬?shù)的信息(如圖13—圖14)。
圖13 丁香園疫情實(shí)時動態(tài)播報界面截圖
圖14 一畝三分地疫情實(shí)時動態(tài)播報界面截圖
約翰斯·霍普金斯大學(xué)(Johns Hopkins University)系統(tǒng)科學(xué)與工程中心,借助ArcGIS在線交互地圖技術(shù),制作COVID-19動態(tài)地圖。由于上線時間早、數(shù)據(jù)更新速度快等原因,其影響力較大。優(yōu)勢在于數(shù)據(jù)更新及時,且非常完整(各國,中美兩國的各省或各州),數(shù)據(jù)指標(biāo)多(有住院人數(shù)和檢測人數(shù));數(shù)據(jù)平臺界面設(shè)計友好,數(shù)據(jù)模塊大致分為三部分:第一部分是各國的累計確診病例數(shù),按照病例數(shù)降序排列,還可查看各國省(州)的對應(yīng)數(shù)據(jù);第二部分是各國的累計死亡和治愈病例數(shù),也按照病例數(shù)降序排列;第三部分是美國的累計檢測和住院總?cè)藬?shù)。界面中間為可視化地圖信息,點(diǎn)擊地圖中的不同國家,可以顯示該地區(qū)的疫情數(shù)據(jù)情況,數(shù)據(jù)存儲在GitHub(https://github.com/CSSEGISandData/COVID-19)(如圖 15)。
圖15 約翰斯·霍普金斯大學(xué)疫情信息發(fā)布截圖
關(guān)于疫情數(shù)據(jù)的分析平臺,有研究團(tuán)隊建立網(wǎng)站或者利用GitHub平臺發(fā)布數(shù)據(jù)和分析代碼。加州大學(xué)伯克利分校郁彬教授團(tuán)隊建立了預(yù)測美國各縣和醫(yī)院疫情嚴(yán)重程度的數(shù)據(jù)平臺,網(wǎng)站域名為https://covidseverity.com/,這個網(wǎng)站以交互可視化的形式提供預(yù)測數(shù)據(jù)。在GitHub上有JoachimGassen主頁中的tidycovid19數(shù)據(jù)倉庫,借助R軟件的操作包Tidyverse,tidycovid19,zoo等,完成疫情數(shù)據(jù)的可視化操作(如圖16—圖 17)。
圖16 郁彬教授團(tuán)隊疫情數(shù)據(jù)分析界面截圖
圖17 Joachim Gassen疫情信息GitHub界面
從前面的分析中可以看出我國目前數(shù)據(jù)發(fā)布平臺大多基于網(wǎng)頁版界面呈現(xiàn),包括含有數(shù)據(jù)的大段文字,圖片型原始數(shù)據(jù)和可視化圖表。由于國內(nèi)學(xué)者大多使用EXCEL、R語言、STATA等分析軟件,基于國內(nèi)現(xiàn)有的數(shù)據(jù)平臺只有采用“網(wǎng)絡(luò)爬蟲”,甚至經(jīng)過圖像文字識別才能及時獲取,這大大增加了研究人員的工作負(fù)擔(dān),不利于研究人員使用數(shù)據(jù),勢必造成大量的重復(fù)工作。平臺展現(xiàn)可視化圖相對簡單,缺乏深層次的數(shù)據(jù)發(fā)掘工作,數(shù)據(jù)信息利用率低,沒有發(fā)揮更多的數(shù)據(jù)價值,造成數(shù)據(jù)嚴(yán)重浪費(fèi),同時數(shù)據(jù)質(zhì)量是否可信也沒有統(tǒng)一的核驗(yàn)標(biāo)準(zhǔn),在數(shù)據(jù)分析中經(jīng)常出現(xiàn)數(shù)據(jù)“打架”等不合理現(xiàn)象,例如某國累計確診病例小于前日累計確診病例數(shù)。因此,盡快搭建和完善適合我國研究人員使用的新冠肺炎疫情數(shù)據(jù)平臺,不僅意義重大而且時間緊迫。
搭建適合我國的數(shù)據(jù)平臺需要兼顧數(shù)據(jù)及時性、可靠性和統(tǒng)計分析職能,以下是我們“六人團(tuán)隊”的一些具體做法。
在數(shù)據(jù)及時性和可靠性方面,平臺需要包含專門欄目發(fā)布數(shù)據(jù),利用國家衛(wèi)生健康委員會以及各省、直轄市、自治區(qū)衛(wèi)生健康委員會每日發(fā)布的動態(tài)數(shù)據(jù)作為國內(nèi)數(shù)據(jù)的發(fā)布基礎(chǔ),利用人民日報公眾號花瓣圖數(shù)據(jù)和約翰斯·霍普金斯大學(xué)數(shù)據(jù)作為國外數(shù)據(jù)的主要來源。為了將國內(nèi)數(shù)據(jù)與國外數(shù)據(jù)統(tǒng)一比較,通常選取每天18:30左右更新的數(shù)據(jù)。
數(shù)據(jù)的統(tǒng)計分析職能,可以通過增加新指標(biāo)和指標(biāo)排序等方法來發(fā)掘各國疫情的基本特征。增加死亡率、治愈率、每百萬人確診數(shù)、每百萬人死亡數(shù)、累計確診病例日增和日增速、累計死亡病例日增和日增速等。其中死亡率=累計死亡病例/累計確診病例,治愈率=累計治愈病例/累計確診病例,每百萬人確診數(shù)=(累計確診病例/總?cè)丝跀?shù)據(jù))106,每百萬人死亡數(shù)=(累計死亡病例/總?cè)丝跀?shù)據(jù))106。為保證統(tǒng)計意義,對于累計確診病例數(shù)低于50的國家,不做死亡率和治愈率的計算;在每百萬人確診數(shù)和每百萬人死亡數(shù)計算中,國家(地區(qū))人口數(shù)不足百萬人時,暫不進(jìn)行計算和排序,其中日增速的計算公式為(Xt-Xt-1)/Xt-1。為保證統(tǒng)計意義,對于累計確診數(shù)低于50的國家,不做累計確診病例日增速計算;對于累計死亡病例數(shù)低于50的國家,也不做累計死亡病例的日增速計算。同時可選取全球確診超過兩千例的國家,根據(jù)其疫情數(shù)據(jù)對累計確診病例、確診病例最大日增、累計死亡病例、死亡病例最大日增、確診病例死亡率、每百萬人死亡數(shù)和每百萬人確診數(shù)進(jìn)行排序,從而發(fā)現(xiàn)全球和各國疫情形勢的發(fā)展規(guī)律、防控措施取得效果以及對未來疫情走勢進(jìn)行預(yù)測。
增加動態(tài)可視化疫情走勢圖和指數(shù)分析圖,其中動態(tài)可視化圖可以形象地看出數(shù)據(jù)的走勢和變化;指數(shù)圖不僅能對病例增速起到警示作用,還能比較各國之間的病例增速,以及分析各國的病例增速隨時間產(chǎn)生變化的情況。
疫情數(shù)據(jù)集成共享平臺還要包含數(shù)據(jù)核驗(yàn)功能,對疫情數(shù)據(jù)指標(biāo)進(jìn)行動態(tài)比較,如果出現(xiàn)數(shù)據(jù)問題,要能夠及時反饋原因并進(jìn)行提示預(yù)警。一方面保留原始數(shù)據(jù),真實(shí)展現(xiàn),另一方面采用注解和標(biāo)注“?”的方式,引起數(shù)據(jù)使用者的重視。例如2020年5月27日法國累計確診病例數(shù)發(fā)生錯誤,小于前一日的數(shù)值;又如2020年4月17日武漢市發(fā)布的數(shù)據(jù),截至4月16日24時,確診病例核增325例,確診病例的死亡數(shù)核增1290例,這些錯誤或者變化要第一時間告知數(shù)據(jù)使用者。
搭建數(shù)據(jù)平臺需要穩(wěn)定的載體,根據(jù)國內(nèi)受眾的偏好可以選擇建立微信公眾號或者GitHub平臺等模式;原始數(shù)據(jù)的后臺數(shù)據(jù)庫、存儲和分析平臺可以選擇百度云盤或者騰訊微云等云端平臺。數(shù)據(jù)發(fā)布平臺載體的選擇可以按照數(shù)據(jù)規(guī)模、受眾人群和影響程度分批次推進(jìn),開始階段可以利用微信群發(fā)送數(shù)據(jù)匯總EXCEL表的方式提升數(shù)據(jù)影響度;隨著數(shù)據(jù)量增加和受眾人群增加,關(guān)注度和影響力直線上升,對數(shù)據(jù)的要求越來越高,要求時效性強(qiáng)、便利簡單易取,甚至要求對數(shù)據(jù)文件定時必有,隨開隨用,此時須建立疫情數(shù)據(jù)微信公眾號,兼顧數(shù)據(jù)搭載和數(shù)據(jù)分析。由于微信公眾號受到審核制度等限制,有時會出現(xiàn)不穩(wěn)定現(xiàn)象,因此可選擇GitHub作為數(shù)據(jù)倉庫用來數(shù)據(jù)備份和分析代碼分享的平臺,同時方便海外學(xué)者下載使用。數(shù)據(jù)存儲使用CSV格式,且表格格式盡量固定,可提升研究人員建模使用效率。
根據(jù)前文梳理的平臺搭建邏輯,遵循為研究者深入分析提供最完整的數(shù)據(jù)、為公眾快速清晰了解疫情提供便利,讓數(shù)據(jù)說話,用數(shù)據(jù)科學(xué)防控、讓數(shù)據(jù)產(chǎn)生研究價值的初衷,我們從疫情開始就展開數(shù)據(jù)收集、整理、分析和發(fā)布共享工作,經(jīng)歷了數(shù)據(jù)指標(biāo)不斷優(yōu)化、展示內(nèi)容不斷豐富、展示形式逐步美化和數(shù)據(jù)發(fā)布平臺不斷改良的過程。到目前我們選擇的數(shù)據(jù)集成共享模式為微信公眾號(“六人團(tuán)隊”微信號:gh_ca4218923bda)推送和 Github(https://github.com/zhestat/Covid-19-data)備份存儲的模式,微信公眾號帶更新日期的標(biāo)題和全球疫情關(guān)鍵數(shù)據(jù),包含內(nèi)容有全球疫情數(shù)據(jù)、新冠疫情數(shù)據(jù)可視化、人民日報新媒體全球疫情每日花瓣圖發(fā)布數(shù)據(jù)和全國疫情每日數(shù)據(jù)等核心板塊,充分利用統(tǒng)計圖表的形式進(jìn)行展示,每日中午12點(diǎn)之前對外發(fā)布前一日的疫情變動情況。
第一部分是全球疫情數(shù)據(jù)?;诩s翰斯·霍普金斯大學(xué)發(fā)布的世界188個國家(地區(qū))郵輪疫情數(shù)據(jù),從累計確診、累計死亡和累計治愈三個指標(biāo)展現(xiàn)疫情基礎(chǔ)數(shù)據(jù)情況,數(shù)據(jù)按照累計確診病例數(shù)降序排列,同時還包含我國各地區(qū)的累計確診、累計死亡數(shù)據(jù)和現(xiàn)有確診病例數(shù)據(jù),美國各州的累計確診、累計死亡數(shù)據(jù),美國累計檢測和住院總?cè)藬?shù)。數(shù)據(jù)分析層面包含死亡率、治愈率和每百萬人確診數(shù),累計確診病例日增和日增速排名前20名的國家,累計死亡病例日增和日增速排名前20名的國家,以便了解每日疫情變動情況。數(shù)據(jù)庫中數(shù)據(jù)截圖如圖18和圖19(由于篇幅原因,只截取部分?jǐn)?shù)據(jù)):
圖18 全球疫情數(shù)據(jù)庫基礎(chǔ)數(shù)據(jù)構(gòu)成界面截圖
圖19 全球疫情數(shù)據(jù)庫分析數(shù)據(jù)構(gòu)成界面
第二部分是疫情數(shù)據(jù)可視化展示。一是根據(jù)第一部分搜集整理的基礎(chǔ)數(shù)據(jù),利用動態(tài)條形圖Racing bar展示從2020年3月20日開始到報告日的全球累計病例前十名國家的演變情況,讓數(shù)據(jù)直接、形象地呈現(xiàn)(如圖20);二是累計確診病例增速比較的指數(shù)圖①考慮到有些用戶可能對指數(shù)圖不太熟悉,在指數(shù)圖發(fā)布的前期,我們也提供有關(guān)指數(shù)圖的科普文音,并將當(dāng)日數(shù)據(jù)分別做出指數(shù)圖和非指數(shù)圖作比較,解釋指數(shù)圖的功用,輔助用戶解讀每日發(fā)布的指數(shù)圖。。我們每天會把世界上的國家和地區(qū)按照每百萬人確診數(shù)從多到少分成五類,然后從每類中抽取1個國家制圖(如圖21)。除此以外,我們還為使用平臺的研究者提供點(diǎn)播定制服務(wù),以增加研究者之間的交流探討,每日會根據(jù)研究人員在平臺發(fā)布的做圖需求留言點(diǎn)播,挑選出若干組國家繪制指數(shù)圖(如圖22)。為了輔助理解,指數(shù)圖中提供虛線輔助線,直觀地表現(xiàn)出確診病例每幾天翻倍一次,以揭示病情爆發(fā)的激烈程度。
圖20 累計確診病例數(shù)前十名動態(tài)圖界面
圖21 累計確診病例增速比較的指數(shù)圖界面
圖22 研究者點(diǎn)播樣式圖
第三部分是人民日報新媒體全球疫情每日發(fā)布數(shù)據(jù)。選取人民日報新媒體的花瓣圖作為圖形展示,根據(jù)人民日報海外版網(wǎng)站等信息源匯總世界各地有關(guān)疫情方面的新聞,根據(jù)數(shù)據(jù)匯總?cè)虼_診超過2000例國家的疫情特征信息,截圖如圖23(由于篇幅原因,只截取部分?jǐn)?shù)據(jù))。從數(shù)據(jù)表可以看出,確診病例死亡率全球平均6.11%,有15個國家大于平均值,可部分說明確診后治療狀況不佳;每百萬人口確診數(shù)全球平均約775人,有43個國家大于平均值,可部分說明防控措施不到位;每百萬人口死亡數(shù)全球平均約47人,有30個國家大于平均值,可部分說明疫情綜合程度嚴(yán)重。
圖23 全球確診超過2000例國家的疫情信息界面
第四部分是全國疫情每日數(shù)據(jù),根據(jù)國家衛(wèi)健委的全國疫情日報匯總?cè)珖?1個省(自治區(qū)、直轄市)和新疆生產(chǎn)建設(shè)兵團(tuán)疫情數(shù)據(jù),制成表格,用于計算死亡率、治愈率和每百萬人確診數(shù)。值得一提的是,作為對從官方渠道直接收集整理信息的補(bǔ)充和輔助,同時為豐富平臺數(shù)據(jù),我們也慎重選擇了一些社會機(jī)構(gòu)數(shù)據(jù)發(fā)布平臺,比如百度疫情實(shí)時大數(shù)據(jù)報告,將其國內(nèi)數(shù)據(jù)整理出來,并制作成表格,用來比對和研究。數(shù)據(jù)庫中數(shù)據(jù)截圖如圖24(由于篇幅原因,只截取部分?jǐn)?shù)據(jù))。
圖24 我國各地區(qū)疫情信息界面
目前該平臺數(shù)據(jù)的發(fā)布采取雙重審核制,數(shù)據(jù)整理過程中利用數(shù)據(jù)判定函數(shù)對數(shù)據(jù)基本特征進(jìn)行檢查,在匯總數(shù)據(jù)庫整理好后,由平臺主管再次核實(shí)驗(yàn)證,從而使數(shù)據(jù)質(zhì)量得到保證。該平臺已經(jīng)被中國人民大學(xué)、首都經(jīng)貿(mào)大學(xué)、中國民航大學(xué)、中國傳媒大學(xué)、華東師范大學(xué)、湖南商學(xué)院、河南財經(jīng)政法大學(xué)、江蘇海洋大學(xué)、西華師范大學(xué)等高校的老師和學(xué)生作為科研和授課的基礎(chǔ)數(shù)據(jù)來源,同時得到來自中日友好醫(yī)院和武漢大視野、河南君友商務(wù)咨詢等業(yè)界研究人員的關(guān)注。平臺日活躍人數(shù)超過500人,關(guān)注人數(shù)已超過千人,且還在持續(xù)增加。公眾號的閱讀量和咨詢留言數(shù)據(jù)不斷提升,可見其已經(jīng)成為有一定影響力的數(shù)據(jù)集成共享平臺。今后,平臺除了每日數(shù)據(jù)更新之外,還會加強(qiáng)數(shù)據(jù)分析的深度,從預(yù)測和可視化圖方面增加研究內(nèi)容,以發(fā)揮更大的數(shù)據(jù)價值。