自2019年12月以來,湖北省武漢市集中發(fā)生了多起病毒性肺炎,2020年1月8日查明病原為一種新型冠狀病毒,經(jīng)過基因測序被確定為新型冠狀病毒肺炎(簡稱“新冠肺炎”)[1]。流行病學(xué)調(diào)查簡稱流調(diào),是通過詢問、信訪、問卷填寫、現(xiàn)場查看、測量和檢測等多種手段,全面系統(tǒng)地收集和疾病事件有關(guān)的各種資料和數(shù)據(jù),并進(jìn)行綜合分析,得出合乎邏輯的病因結(jié)論或病因假設(shè)的線索,提出疾病防控策略和措施建議的行為。流調(diào)的主要內(nèi)容包括病例基本信息、發(fā)病診療和報告情況、相關(guān)活動情況、可疑暴露史情況、實(shí)驗(yàn)室檢測情況等。由于新冠肺炎的潛伏期一般為14天,所以流調(diào)主要調(diào)查確診或疑似病例在生病前14天至就醫(yī)期間的流動軌跡,例如接觸過什么人,去過什么地方,主要調(diào)查對象是感染源和感染途徑尚不明確的病例,相比確診病例的數(shù)量,感染源和感染途徑不明確病例數(shù)量的增加更令人警惕。2020年2月6日下午,廣東省新冠肺炎疫情防控工作視頻會議在廣州召開,會議強(qiáng)調(diào)做好流行病學(xué)調(diào)查,落實(shí)重點(diǎn)人群篩查,以應(yīng)對返粵復(fù)工開學(xué)人潮高峰,防止疫情的擴(kuò)散和蔓延。省衛(wèi)健委黨組書記、主任段宇飛表示,廣東各大醫(yī)療機(jī)構(gòu)將相繼開診,醫(yī)院內(nèi)感染風(fēng)險加大,為此,廣東省疫情防控指揮部明確要求省內(nèi)各級醫(yī)療機(jī)構(gòu)做好院內(nèi)患者相關(guān)流行病學(xué)調(diào)查工作,調(diào)查對象不僅為門診、急診患者,還包括住院的患者,一線醫(yī)務(wù)人員,凡是14天內(nèi)有湖北旅行或居住史的患者必查。
隨著大數(shù)據(jù)分析技術(shù)的日益成熟,流行病學(xué)調(diào)查除了依靠患者或疑似患者的口述,很多時候還要依托大數(shù)據(jù)分析技術(shù)的協(xié)助。疫情發(fā)生后,國內(nèi)外科研人員就基于大數(shù)據(jù)分析技術(shù),對新型冠狀病毒的擴(kuò)散趨勢[1]、傳播模型[2,3]和流行病學(xué)特點(diǎn)[4]等做了大量研究和報道。同時也產(chǎn)生了一系列為流行病學(xué)調(diào)查服務(wù)的定制化產(chǎn)品[5],騰訊、百度等互聯(lián)網(wǎng)巨頭基于GPS數(shù)據(jù)公開確診患者(匿名)的軌跡并發(fā)現(xiàn)軌跡重合的人群,加強(qiáng)對感染的評估。三大運(yùn)營商授權(quán)基于信令數(shù)據(jù)通過用戶手機(jī)號分析判斷是否有與疫情確認(rèn)人員接觸,或者通過短信查詢近期出行軌跡。中國電子科技集團(tuán)授權(quán)通過接入鐵路、飛機(jī)及客運(yùn)大巴的乘客身份證數(shù)據(jù)查詢最近14天內(nèi)是否與新冠肺炎確診或疑似病例同乘火車、飛機(jī)位于其前后三排以及同乘大巴。相比互聯(lián)網(wǎng)定位數(shù)據(jù)和鐵路公路數(shù)據(jù),信令數(shù)據(jù)的覆蓋人群最廣,但受基站范圍影響定位誤差也比較大。
趙序茅等從數(shù)據(jù)上論證了新冠肺炎的源頭在武漢地區(qū),全國各地城市(除武漢外)71%的感染病例和從武漢輸出的人口相關(guān)[1],所以追溯省內(nèi)感染病例與疫區(qū)輸入型病例的關(guān)聯(lián)關(guān)系對于流行病學(xué)調(diào)查尤為重要。本文利用脫敏信令數(shù)據(jù)進(jìn)行軌跡碰撞,描繪省內(nèi)感染病例與疫區(qū)輸入型病例的傳播關(guān)系、未感染者與確診病例之間的接觸情況,以達(dá)到追溯傳染源、發(fā)現(xiàn)高危人群的目的。
本文使用的數(shù)據(jù)來源于某省運(yùn)營商提供脫敏后的信令軌跡數(shù)據(jù),該數(shù)據(jù)承載了用戶流動時產(chǎn)生的位置信息,實(shí)際為用戶在該時刻附著的基站位置,每一條記錄可以形式化為ci=
另一數(shù)據(jù)源為該省疾控中心提供的確診病例名單,內(nèi)容包括加密后的用戶唯一標(biāo)識,是否有疫區(qū)旅居史,確診日期,其中用戶唯一標(biāo)識與信令軌跡數(shù)據(jù)一一對應(yīng)。該名單819個確診病例中,248名為輸入型病例,571名為本省感染病例,共涉及620 176個病例軌跡碰撞點(diǎn),基于這些碰撞點(diǎn)在某市發(fā)現(xiàn)了310 713名高危用戶。
本文通過提取1月1日至各病例確診日期前2天的所有軌跡,研究輸入型病例與省內(nèi)感染病例之間的關(guān)系,繪制傳播關(guān)系圖。整個分析過程如下:
(1)按照基站的覆蓋范圍,將該省劃分成150米*150米網(wǎng)格,如果確診病例在100秒內(nèi),與另一確診病例處于同一網(wǎng)格(這個時間過程中內(nèi)處于同一基站下,有可能會發(fā)生一次密切接觸事件),我們認(rèn)為發(fā)生一次碰撞事件,即這兩個病例產(chǎn)生過傳染事件,將產(chǎn)生傳染事件的用戶聚合為多元組
(2)接觸時長也是影響傳染事件的重要因素,所以我們對傳染事件多元組中的時間進(jìn)行累加,但是考慮到用戶位于基站交界處可能會產(chǎn)生乒乓數(shù)據(jù),即位置信息在多個基站間來回切換的情況,我們針對離開某一網(wǎng)格并在20分鐘內(nèi)再次返回該網(wǎng)格的用戶繼續(xù)累加接觸時長,最終輸出接觸時長超過一定閾值的傳染事件多元組。
(3)傳染源追溯算法偽代碼如算法1所示,該算法以過濾接觸時長后的傳染事件多元組作為輸入,輸出與輸入型病例直接或間接接觸的所有傳播網(wǎng)絡(luò)結(jié)點(diǎn)集合。
(4)遍歷上述結(jié)點(diǎn)集合生成傳播森林,其中傳染時間遵循最早接觸原則,例如當(dāng)傳播序列為
由于新冠肺炎的潛伏期一般為14天,所以本文提取某市確診日期在2月25日之后的病例及用戶2月11日至2月25日的所有軌跡,研究確診病例與未感染者之間的關(guān)系,從未感染者中尋找高危用戶。
算法1:傳染源追溯算法輸入:傳染事件多元組集合U輸出:傳播網(wǎng)絡(luò)結(jié)點(diǎn)集合T 1 T← ;2 P←輸入型病例唯一標(biāo)識集合;3 U’←U按時間從小到大排序;4 foreach u’in U’do 5 family← ;6 roots←u’中輸入型病例集合7 if roots is not null then 8 foreach r in roots do 9 if r not in family then 10 father← ;11 children ← ;12 family[r]← ;13 T[r]←
分析方法:通過將地圖劃分成150米*150米網(wǎng)格,如果某一時空網(wǎng)格(時間為100秒)至少出現(xiàn)兩名確診病例,我們認(rèn)為該網(wǎng)格為高危區(qū)域,未感染者所附著基站處于高危區(qū)域即發(fā)生了一次高危碰撞,未感染者很可能被確診病例傳染。
考慮到居家隔離的情況較多,與確診病例處于同一住宅樓的未感染者都可能被納入高危用戶,為減少上述情況帶來的干擾,我們會對未感染者的高危碰撞進(jìn)一步過濾,只保留不同地理位置的高危碰撞,即未感染者經(jīng)過不同地理位置的高危區(qū)域越多被傳染的危險性就越大。
形式化表述為:
確診病例關(guān)系圖如圖1所示,紅色點(diǎn)表示輸入型病例,黃色點(diǎn)表示省內(nèi)感染病例,即每個發(fā)生傳染事件的輸入型病例對應(yīng)一個關(guān)系圖,每個結(jié)點(diǎn)的時間(地點(diǎn))為該結(jié)點(diǎn)與其子結(jié)點(diǎn)的首次接觸時間(地點(diǎn))。在不考慮接觸時間的情況下,省內(nèi)感染病例與輸入型病例的關(guān)聯(lián)率為72.85%,略高于已公開文獻(xiàn)的71%[1],究其原因,一方面信令數(shù)據(jù)的覆蓋人群相比航空數(shù)據(jù)更廣,另一方面本文使用的軌跡數(shù)據(jù)晚于該文獻(xiàn),疫情已發(fā)生了進(jìn)一步的擴(kuò)散。在248名輸入型病例中,沒有感染其他人的有30名,即沒有發(fā)生碰撞事件。另外218名輸入型病例一共傳染給了416名省內(nèi)被感染者,155名省內(nèi)被感染者并未找到感染源頭,說明還存在中間的傳染源沒有被發(fā)現(xiàn)。
圖1 確診病例關(guān)系圖
進(jìn)一步引入接觸時長因素,關(guān)聯(lián)情況隨接觸時長變化曲線如圖2所示,其中橫坐標(biāo)為接觸時長閾值,0s表示不考慮接觸時長因素。可以明顯看出隨接觸時長閾值的升高,傳染他人的輸入型病例數(shù)量和被感染的本省病例數(shù)量均呈下降趨勢,關(guān)聯(lián)率也從最高的72.85%下降到51.49%,說明接觸時長對傳染源追溯模型影響較大,在模型應(yīng)用中可以根據(jù)實(shí)際需要選擇合適的接觸時長閾值。建議接觸時長閾值小于30 s,關(guān)聯(lián)率能夠達(dá)到68%以上。
圖2 關(guān)聯(lián)情況隨接觸時長變化曲線
高危人群發(fā)現(xiàn)模塊通過確診病例14天軌跡碰撞獲得310 713名高危用戶,其中經(jīng)過1至2個高危區(qū)域的人數(shù)最多,達(dá)到303 614人,占比97.7%,剩余高危人數(shù)與高危區(qū)域數(shù)的分布如圖3所示,可以看出,高危區(qū)域數(shù)與未感染者人數(shù)呈反比,只有2人經(jīng)過了最多29個高危區(qū)域,盡管經(jīng)過10個以上高危區(qū)域的人數(shù)較少,但更有利于相關(guān)人員進(jìn)行分析研判,相反實(shí)現(xiàn)預(yù)警則需要推送全部高危用戶。在資源有限但對碰撞精確度有一定要求的條件下,高危區(qū)域數(shù)建議取3個以上,一般選取10個比較合適。
圖3 高危人數(shù)與高危區(qū)域數(shù)分布
基于運(yùn)營商提供的脫敏信令軌跡數(shù)據(jù),本文構(gòu)建了一種新冠肺炎的傳播模型,通過追溯傳染源、發(fā)現(xiàn)高危人群輔助流行病學(xué)調(diào)查。該模型追溯到相關(guān)部門提供病例名單中72.85%省內(nèi)感染病例的源頭,略高于已公開文獻(xiàn)的71%[1]。本文驗(yàn)證了接觸時間和高危區(qū)域數(shù)量兩個閾值對模型的影響,為實(shí)際應(yīng)用中的參數(shù)選擇提供依據(jù)。
定位精度、空氣流通程度和人流密集程度是影響新冠肺炎傳播的主要因素,信令軌跡數(shù)據(jù)所攜帶的位置信息受基站范圍影響存在較大誤差,特別是偏遠(yuǎn)地區(qū)的基站覆蓋范圍更廣。在后續(xù)工作中,可以考慮結(jié)合三角定位法、GPS數(shù)據(jù)等手段進(jìn)一步提高模型的定位精度,并針對室分、微站等不同基站類型優(yōu)化傳播模擬效果。