張雷雨,劉 杰
(1.連云港職業(yè)技術(shù)學(xué)院建筑工程學(xué)院,江蘇 連云港 222006;2.江蘇海洋大學(xué)海洋技術(shù)與測(cè)繪學(xué)院,江蘇 連云港 222005)
2019年12月以來(lái),新型冠狀病毒肺炎(coronavirus disease 2019,COVID-19)疫情在國(guó)內(nèi)外蔓延。疫情數(shù)據(jù)具有龐雜特性,傳統(tǒng)數(shù)據(jù)分析方法缺乏對(duì)疫情動(dòng)態(tài)性和時(shí)空特征的描述,難以完成對(duì)疫情微觀層次的剖析[1]。因此,綜合利用知識(shí)圖譜技術(shù)和地理學(xué)理論以有效地揭示疫情動(dòng)態(tài)傳播的時(shí)空分布規(guī)律。該領(lǐng)域?qū)W者研究了COVID-19相關(guān)的病例活動(dòng)、醫(yī)用物資等知識(shí)庫(kù)構(gòu)建。陳曉慧等通過(guò)對(duì)COVID-19病例活動(dòng)關(guān)鍵節(jié)點(diǎn)回溯,完成了微觀層面上疫情傳播過(guò)程的推理和驗(yàn)證,從模式層、數(shù)據(jù)層與原型驗(yàn)證系統(tǒng)三方面對(duì)COVID-19病例活動(dòng)知識(shí)圖譜進(jìn)行了多樣化描述[2]。向軍毅等采用自頂向下與自底向上兩種方式完成了COVID-19醫(yī)用物資的半自動(dòng)化知識(shí)圖譜構(gòu)建[3]。金安楠等研究表明COVID-19傳播過(guò)程具有時(shí)空特征,經(jīng)典分析手段未能刻畫其時(shí)空演化與人地互動(dòng)的地理過(guò)程[4]。陳江平等利用空間自相關(guān)方法對(duì)H1N1傳播路徑進(jìn)行分析,認(rèn)為疫情聚集重心并未伴隨時(shí)間轉(zhuǎn)移[5]。余正等利用DBSCAN自適應(yīng)聚類算法,細(xì)粒度地分析溫州市疫情時(shí)空演化,發(fā)現(xiàn)疫情在青壯年人群更易傳播,采用一定措施可以有效遏制疫情傳播[6]。
地理知識(shí)圖譜通過(guò)引用時(shí)空關(guān)系和語(yǔ)義特征,利用語(yǔ)義網(wǎng)絡(luò)對(duì)地理概念、實(shí)體及其間關(guān)系進(jìn)行形式化的描述,不僅能夠清晰表達(dá)數(shù)據(jù)的層次信息,還能體現(xiàn)出實(shí)體間的時(shí)空關(guān)系和語(yǔ)義信息[7-9]。筆者將海量的患者信息整合成結(jié)構(gòu)化的知識(shí),同時(shí)從地理學(xué)視角開展疫情時(shí)空分析、重點(diǎn)城市疫情傳播過(guò)程時(shí)空回溯等方面的研究,能夠?qū)崿F(xiàn)對(duì)COVID-19地理知識(shí)圖譜的構(gòu)建和可視化分析。
本文以江蘇省為研究區(qū)域,研究數(shù)據(jù)來(lái)源如下。
(1)空間數(shù)據(jù)來(lái)源于國(guó)家基礎(chǔ)地理信息中心(http://www.webmap.cn/commres.do?method=result100W),包括江蘇省矢量邊界圖、道路網(wǎng)分布圖。
(2)每日病例確診情況為江蘇省及其13個(gè)地級(jí)行政區(qū)衛(wèi)生健康委員會(huì)(http://wjw.jiangsu.gov.cn/)通報(bào)的確診病例,包括每日新增確診、現(xiàn)存確診、疑似、死亡人數(shù)。
(3)確診患者的詳細(xì)信息及其時(shí)空活動(dòng)軌跡數(shù)據(jù),筆者利用爬蟲技術(shù)從互聯(lián)網(wǎng)中(周邊疫情、同行查詢等小程序)獲得,包括性別、年齡、所屬地、居住地、與其他病例關(guān)系、出行方式、出行時(shí)間及軌跡、發(fā)病時(shí)間、確診來(lái)源、就診醫(yī)院、確診時(shí)間,然后通過(guò)人工判讀爬取到的確診病例詳細(xì)信息,對(duì)數(shù)據(jù)進(jìn)行整合、去重、糾錯(cuò)處理。本研究采用2020年1月23日至2020年2月19日的江蘇省疫情數(shù)據(jù),其確診患者的空間分布如圖1所示。
圖1 江蘇省確診分布圖
本文采用自頂而下的方法構(gòu)建確診病患的地理知識(shí)圖譜[10-11],包括互聯(lián)網(wǎng)疫情數(shù)據(jù)獲取、病患信息抽取及其本體構(gòu)建和病患實(shí)體融合與入庫(kù)三部分。采用爬蟲程序從微信小程序(疫情小區(qū)地圖、周邊疫情、同行程查詢)、江蘇省衛(wèi)生健康委員會(huì)官網(wǎng)及各市級(jí)衛(wèi)健委官網(wǎng)公布的疫情信息中獲取疫情數(shù)據(jù)及其軌跡信息,將獲取的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行清洗與整理,通過(guò)提取病患實(shí)體并對(duì)其進(jìn)行本體構(gòu)建,完成病患實(shí)體間的屬性與及其時(shí)空關(guān)系的抽取,對(duì)眾多實(shí)體進(jìn)行融合,最終實(shí)現(xiàn)新冠肺炎疫情病患地理知識(shí)圖譜。研究總體技術(shù)路線如圖2。
圖2 研究總體技術(shù)路線
本文研究數(shù)據(jù)包括OpenKG-COVID-19(http://openkg.cn/group/coronaviru)數(shù)據(jù)庫(kù)等結(jié)構(gòu)化數(shù)據(jù),衛(wèi)生健康委員會(huì)公示網(wǎng)頁(yè)、微博網(wǎng)頁(yè)等半結(jié)構(gòu)化數(shù)據(jù)和專業(yè)文獻(xiàn)資料、文本數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)。針對(duì)多種來(lái)源的數(shù)據(jù)信息,使用多策略數(shù)據(jù)獲取方法[12-13]。對(duì)于結(jié)構(gòu)化數(shù)據(jù)直接提取其相關(guān)數(shù)據(jù),利用網(wǎng)頁(yè)爬蟲技術(shù)提取半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)則采用人工處理的方式來(lái)整合[9]。
由于確診患者數(shù)據(jù)庫(kù)中的病患信息來(lái)源復(fù)雜,病患數(shù)據(jù)質(zhì)量存在良莠不齊、不同數(shù)據(jù)源信息冗余、病患間關(guān)聯(lián)關(guān)系模糊等問(wèn)題,需要對(duì)病患數(shù)據(jù)進(jìn)行剔粗取精,增強(qiáng)病患數(shù)據(jù)庫(kù)內(nèi)部的邏輯性和表達(dá)能力,建立有效的實(shí)體關(guān)系以填充新冠肺炎疫情病患知識(shí)圖譜。江蘇省各地級(jí)市確診患者數(shù)據(jù)概況見表1。
表1 江蘇省各地級(jí)市確診患者數(shù)據(jù)概況
本文將獲取到的確診患者信息實(shí)體關(guān)系定義為五元組 圖3 本體鏈接結(jié)構(gòu)化示例 本文采用關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)病患數(shù)據(jù)和部分結(jié)構(gòu)化語(yǔ)義信息,同時(shí)采用圖數(shù)據(jù)庫(kù)存儲(chǔ)語(yǔ)義關(guān)系以及提取病患實(shí)體空間關(guān)系,最后利用Protégé工具進(jìn)行確診患者信息本體庫(kù)構(gòu)建[13-16]。 本文采用自頂而下的方式構(gòu)建確診患者地理知識(shí)圖譜。首先,從整合后的患者數(shù)據(jù)中抽取患者實(shí)體、患者關(guān)系及患者時(shí)空活動(dòng)軌跡信息;其次,利用Protégé構(gòu)建本體模型,并將采集的患者數(shù)據(jù)資源與實(shí)體關(guān)系進(jìn)行知識(shí)融合;最后,使用圖數(shù)據(jù)庫(kù)Neo4j實(shí)現(xiàn)江蘇省COVID-19確診患者地理知識(shí)圖譜數(shù)據(jù)的存儲(chǔ)與訪問(wèn)。 圖4為江蘇省部分確診患者地理知識(shí)圖譜概覽,通過(guò)節(jié)點(diǎn)鏈接網(wǎng)絡(luò)圖展示江蘇COVID-19確診患者地理知識(shí)圖譜,其中圓圈代表實(shí)體,線為病患-病患、病患-地區(qū)、病患-事件、病患-交通工具、地區(qū)-地區(qū)等關(guān)系。 圖4 江蘇省部分確診患者地理知識(shí)圖譜 國(guó)家衛(wèi)健委公布信息《新型冠狀病毒感染的肺炎防控方案(第二版)》表明COVID-19潛伏期最長(zhǎng)14天,多為3~7天。本文以7天為一個(gè)時(shí)間段,將江蘇省確診患者數(shù)據(jù)劃分為4個(gè)時(shí)間序列,各時(shí)間段內(nèi)所有地級(jí)市的確診患者變化如圖5和圖6所示。在疫情暴發(fā)初期,江蘇省出現(xiàn)的確診患者大多為從武漢返鄉(xiāng)人員,集中在交通便利的蘇南地區(qū),如南京、蘇州、無(wú)錫。在蘇北地區(qū),徐州作為重要交通樞紐,人口多且流動(dòng)頻繁,感染風(fēng)險(xiǎn)較大,確診人數(shù)位列江蘇省第三。雖然蘇中地區(qū)相比蘇南地區(qū)交通通達(dá)度低,但由于在2月1日至2月19日期間淮安暴發(fā)酒店公眾性聚集案例,最終確診人數(shù)高于蘇中地區(qū)其他城市。此后,在江蘇及地方政府及時(shí)采取相關(guān)防控措施后,疫情傳播得到了有效控制。 圖5 江蘇省病患時(shí)序分布 圖6 江蘇省城市病患時(shí)序 南京既是江蘇省省會(huì),同時(shí)也是全國(guó)重要的交通樞紐,是江蘇省常住人口較多、省內(nèi)人口流動(dòng)較大的城市,導(dǎo)致確診患者人數(shù)居全省首位。春節(jié)后大量返城人員回南京,增加了南京地區(qū)的疫情傳播風(fēng)險(xiǎn),因此,本文對(duì)南京市的疫情傳播過(guò)程進(jìn)行回溯。從圖7可以看出南京市病患分布情況,多集中在疫情傳播風(fēng)險(xiǎn)較高的江寧、鼓樓、建鄴、棲霞、浦口、玄武、六合、雨花臺(tái)、江北新區(qū)、秦淮等地區(qū),有病例在不同區(qū)縣流動(dòng)導(dǎo)致跨區(qū)域傳染,其中南京市交通樞紐中心江寧區(qū)患者人數(shù)較多,由于高淳區(qū)與溧水區(qū)人口密度稀疏且人口流動(dòng)不頻繁,因此疫情傳播風(fēng)險(xiǎn)較低。從性別、年齡、確診來(lái)源、分布地區(qū)四個(gè)角度追溯南京市病患信息,由圖8(a)得出病患年齡分布跨度較大,30~40歲之間人數(shù)最多,占總?cè)藬?shù)24%;病患性別特征如圖8(b)展示,總體分布趨近平衡;南京市病患多為密切接觸型,如圖8(c);由圖8(d)可知在南京市所有區(qū)縣中,江寧區(qū)病患最多,高達(dá)19例。 圖7 南京市病患分布 圖8 南京市病患屬性 通過(guò)知識(shí)圖譜構(gòu)建完成病患確診前活動(dòng)軌跡回溯,圖9(a)為病患27確診前活動(dòng)軌跡圖譜,圖9(b)為該病患在南京市內(nèi)軌跡回溯圖。病例27為一名居住在江寧區(qū)的33歲男性,常住武漢。1月20日乘坐高鐵(武漢-南京南站),然后乘車回江寧岳父家中,中午12時(shí),病例27乘坐私家車從家中到達(dá)軟件大道站,12時(shí)22分乘坐地鐵1號(hào)線前往鼓樓站,騎共享單車到達(dá)中信銀行,17時(shí)病例27乘公交到達(dá)荔枝廣場(chǎng),18時(shí)30分乘地鐵1號(hào)線(鼓樓站-軟件大道站),然后步行回到家中。1月21日8時(shí)病例27開車到達(dá)朝明生鮮超市,門口逗留30分鐘后乘車回家。1月22日8時(shí)病例27開車到達(dá)華潤(rùn)蘇果購(gòu)物廣場(chǎng),購(gòu)物約2小時(shí)后開車回家后未外出,2月11日被確診為新型冠狀病毒肺炎。 圖9 病例27軌跡回溯 COVID-19疫情呈現(xiàn)時(shí)空快速擴(kuò)散規(guī)律,綜合運(yùn)用時(shí)空理論與知識(shí)圖譜構(gòu)建方法,能夠有效挖掘疫情傳播過(guò)程地理知識(shí)和傳染擴(kuò)散規(guī)律。本文選取江蘇省為研究區(qū)域,基于官方衛(wèi)生健康委員會(huì)發(fā)布的確診病例數(shù)據(jù),結(jié)合相關(guān)的時(shí)空活動(dòng)或事件數(shù)據(jù),整合病例之間的時(shí)空關(guān)系,構(gòu)建了新冠肺炎疫情地理知識(shí)圖譜。在COVID-19地理知識(shí)圖譜的可視化分析方面,分別進(jìn)行了疫情時(shí)空分析、重點(diǎn)城市疫情傳播時(shí)空溯源。對(duì)確診患者的時(shí)空分布與疫情的傳播過(guò)程進(jìn)行知識(shí)回溯,以便從宏觀和微觀兩個(gè)角度把握疫情狀況,推動(dòng)全國(guó)疫情阻擊戰(zhàn)走向勝利。本文構(gòu)建的新冠肺炎疫情地理知識(shí)圖譜不僅限于COVID-19方面,未來(lái)還可在其他傳染病方面提供一種可行分析手段。3 結(jié)果分析
3.1 COVID-19地理知識(shí)圖譜綜覽
3.2 COVID-19疫情時(shí)空分析
3.3 重點(diǎn)城市疫情傳播時(shí)空知識(shí)溯源
4 討論
連云港職業(yè)技術(shù)學(xué)院學(xué)報(bào)2022年1期