趙煜 盛莉莉 全詩(shī)文
1. 中國(guó)聯(lián)通江蘇分公司;2. 中國(guó)聯(lián)通南京分公司
從2002年的SARS到2019年的Covid-19,近年來多個(gè)疫情呈現(xiàn)出爆發(fā)時(shí)間短且傳播迅速的特征,給全世界人民帶來了災(zāi)難性的影響,對(duì)各國(guó)政府、衛(wèi)生機(jī)構(gòu)及防疫部門提出了嚴(yán)峻的挑戰(zhàn)。
面對(duì)重大突發(fā)公共衛(wèi)生事件,以往缺乏大數(shù)據(jù)的支撐,通過跟蹤跨城市人口流動(dòng)的情況來判斷疫情的傳播路徑,通常需要在道路卡口,挨個(gè)詢問車輛的去向,或是入戶做社區(qū)調(diào)查,最后逐級(jí)上報(bào)匯總數(shù)據(jù)。運(yùn)用此方法得到的數(shù)據(jù)嚴(yán)重滯后,疫情防控效果差。
電信大數(shù)據(jù)來源于公眾通信網(wǎng)絡(luò)中的基礎(chǔ)數(shù)據(jù),通過對(duì)信令數(shù)據(jù)的統(tǒng)一采集和實(shí)時(shí)處理,本地用戶和外省地區(qū)間漫游數(shù)據(jù)的融合,更全面地了解全國(guó)涉疫人員流動(dòng)信息,實(shí)現(xiàn)全軌跡鏈的還原分析,可以較為準(zhǔn)確地統(tǒng)計(jì)分析全國(guó)各省市以及重點(diǎn)區(qū)域人員流動(dòng)情況。借助電信數(shù)據(jù)實(shí)名制并與自然人強(qiáng)關(guān)聯(lián)特征,大大提高了防疫數(shù)據(jù)時(shí)效性。通過結(jié)合衛(wèi)生防疫等其他部門數(shù)據(jù),可以進(jìn)一步對(duì)確診、疑似患者和密切接觸者等重點(diǎn)人群的分布等進(jìn)行分析研判。有了以上數(shù)據(jù),通過多種算法,實(shí)現(xiàn)感染者來源追溯、疑似病例監(jiān)控與擴(kuò)散預(yù)警、疫情趨勢(shì)預(yù)測(cè)、疫情分析與通報(bào)等應(yīng)用,面對(duì)重大突發(fā)公共衛(wèi)生事件,發(fā)揮信息時(shí)代的數(shù)據(jù)和技術(shù)在防疫中的重要作用。
疫情防控的關(guān)鍵在于疫情早期的及時(shí)發(fā)現(xiàn)、疫情爆發(fā)后的傳染鏈隔斷以及疫苗和特效藥的研發(fā)。
本研究主要關(guān)注疫情爆發(fā)后的傳染鏈隔斷,這一點(diǎn)通常通過幾種方式共同實(shí)施來實(shí)現(xiàn):
(1)依據(jù)感染方式的不同,通過物理隔離等方式減少病毒或病菌在人和人之間的傳播;
(2)盡早發(fā)現(xiàn)并隔離已被感染的人(通常在人傳染傳染病后一段時(shí)間內(nèi)不具有傳染性);
(3)通過對(duì)已確診者接觸的人群進(jìn)行追蹤,通過試劑等手段進(jìn)行檢測(cè)確認(rèn),隔斷其中可能存在的被感染者再傳播的幾率。
在這三點(diǎn)中,后兩點(diǎn)都需要能夠?qū)Υ_診者是何時(shí)、如何被傳染的進(jìn)行判斷,同時(shí)有對(duì)確診者所接觸的人群有追蹤確認(rèn)的能力。在這方面,運(yùn)營(yíng)商的大數(shù)據(jù),尤其是MR數(shù)據(jù)以其用戶級(jí)、包含位置信息的特點(diǎn),可以提供準(zhǔn)確而及時(shí)的輔助作用。傳染病的爆發(fā)多是指數(shù)型特征,在與病毒或病菌爭(zhēng)搶時(shí)間的過程中,將運(yùn)營(yíng)商MR數(shù)據(jù)充分運(yùn)用,引入疫情防控的體系中,可以極大提升疫情防控的反應(yīng)速度和能力。
本研究通過基于神經(jīng)網(wǎng)絡(luò)的MR定位、國(guó)際移動(dòng)用戶識(shí)別碼(International Mobile Subscriber Identity,IMSI)回填及場(chǎng)景識(shí)別、密切接觸者回溯與識(shí)別四種關(guān)鍵技術(shù),實(shí)現(xiàn)了確診者的軌跡跟蹤,并對(duì)確診者從潛伏期到隔離期間的密切接觸者進(jìn)行識(shí)別,有效協(xié)助衛(wèi)生防疫部門迅速斬?cái)鄠鞑ユ?。同時(shí)通過場(chǎng)景識(shí)別和軌跡跟蹤,對(duì)確診者所處的空間類型,到達(dá)場(chǎng)所進(jìn)行識(shí)別,有助于衛(wèi)生防疫部門及時(shí)采取消殺措施,對(duì)于確診者所到達(dá)的室內(nèi)密集區(qū)域,通過運(yùn)營(yíng)商數(shù)據(jù)對(duì)進(jìn)出人員進(jìn)行快速識(shí)別。
本方案的核心在于對(duì)確診用戶的行動(dòng)軌跡進(jìn)行跟蹤,因此需要對(duì)用戶終端上報(bào)的MR進(jìn)行定位。雖然目前的4G終端具備最小化路測(cè)(Minimization Drive Test,MDT)功能,可以直接上報(bào)用戶位置信息,但是目前由于受限于終端,全網(wǎng)MDT的上報(bào)率僅有3%左右,在疫情情況下,僅靠MDT數(shù)據(jù)無法滿足防控工作的需求,因此需要對(duì)MR數(shù)據(jù)進(jìn)行定位處理。
傳統(tǒng)的MR定位采用基于時(shí)間提前量和來波方向進(jìn)行定位的方法或者三角場(chǎng)強(qiáng)定位算法,定位精度低,對(duì)于分析結(jié)果影響非常大。本研究通過路測(cè)(Drive Test,DT)/MDT/基于開放互聯(lián)網(wǎng)的各種視頻及數(shù)據(jù)服務(wù)業(yè)務(wù)(Over The Top,OTT)數(shù)據(jù)進(jìn)行特征庫(kù)訓(xùn)練,形成指紋庫(kù),并通過指紋庫(kù)對(duì)傳播模型進(jìn)行校驗(yàn),通常,指紋庫(kù)訓(xùn)練采用DT、MDT、OTT數(shù)據(jù)之一,但是由于這三種數(shù)據(jù)都有一定的局限性,DT數(shù)據(jù)僅涉及一些主干道,MDT目前并非所有的終端都支持,OTT數(shù)據(jù)存在加密問題,因此,江蘇聯(lián)通采用了基于DT,MDT,OTT的多維指紋庫(kù)定位,形成豐富的指紋訓(xùn)練樣本。
指紋庫(kù)建立后,需要將每個(gè)MR采樣點(diǎn)與指紋庫(kù)進(jìn)行匹配,由于MR數(shù)據(jù)量大,需要能夠快速進(jìn)行特征匹配,這就像在幾張照片中尋找一個(gè)熟人的面孔,對(duì)人腦而言,幾秒鐘便可完成,但如用計(jì)算機(jī)來處理,以現(xiàn)有的技術(shù),是不可能在短時(shí)間內(nèi)完成的。在MR指紋庫(kù)匹配算法中,借鑒了大腦這種并行模糊式工作原理,采用了神經(jīng)網(wǎng)絡(luò)算法代替?zhèn)鹘y(tǒng)的模式匹配的標(biāo)準(zhǔn)算法,比如KNN算法。概率神經(jīng)網(wǎng)絡(luò)是徑向基網(wǎng)絡(luò)的一種變化形式,在程序微觀內(nèi)部結(jié)構(gòu)上模仿人腦的神經(jīng)進(jìn)行并行分布系統(tǒng)處理的工作模式:它具有結(jié)構(gòu)簡(jiǎn)單,訓(xùn)練快捷等特點(diǎn),應(yīng)用非常廣泛,特別適合于模式分類問題的解決。在模式分類中,它的優(yōu)勢(shì)在于可以利用線性學(xué)習(xí)算法來完成以往非線性算法所做的工作,同時(shí)又可以保持非線性算法高精度的特性,用于指紋庫(kù)匹配,取得了非常好的效果。
利用已有數(shù)據(jù)(DT數(shù)據(jù)/MDT數(shù)據(jù)/OTT數(shù)據(jù))進(jìn)行概率神經(jīng)網(wǎng)絡(luò)的權(quán)值訓(xùn)練,輸入數(shù)據(jù)包括:RSRP場(chǎng)強(qiáng),輸出經(jīng)緯度信息,這樣可以得到一個(gè)神經(jīng)網(wǎng)絡(luò)的模型,當(dāng)新的MR數(shù)據(jù)輸入時(shí),使用該模型進(jìn)行計(jì)算,得到概率最大的計(jì)算結(jié)果,即是經(jīng)緯度數(shù)值。
用戶終端上報(bào)的MR數(shù)據(jù)不包含IMSI信息,因此無法通過確診用戶的號(hào)碼信息對(duì)用戶進(jìn)行跟蹤。而用戶話單(x Detailed Record,xDR)數(shù)據(jù)中含有用戶的IMSI信息,需要通過對(duì)xDR和MR數(shù)據(jù)的關(guān)聯(lián),對(duì)MR數(shù)據(jù)進(jìn)行IMSI的回填,從而使所有的MR數(shù)據(jù)帶有用戶的IMIS號(hào),進(jìn)而可以根據(jù)用戶的號(hào)碼來對(duì)用戶的運(yùn)動(dòng)軌跡進(jìn)行識(shí)別。利用MR與xDR中的關(guān)鍵字段進(jìn)行關(guān)聯(lián),如表1所示,完成IMSI回填。
表1 MR和xDR關(guān)聯(lián)的關(guān)鍵字段
室內(nèi)密閉區(qū)域,人流量密集區(qū)域,容易引發(fā)病毒的快速傳播,尤其是室內(nèi)封閉區(qū)域,攜帶病毒人員進(jìn)入后,容易引起病毒在室內(nèi)物品表面和空氣中駐留,因此需要對(duì)確診人員駐留的場(chǎng)景進(jìn)行識(shí)別,判斷室內(nèi)外類型、人流密度,從而確定不同的防控等級(jí),采取不同的防控措施。
場(chǎng)景信息自動(dòng)識(shí)別主要利用互聯(lián)網(wǎng)手段,通過高德地圖,百度地圖等獲取興趣點(diǎn)(Point of Interest,POI)信息。POI信息有兩部分,一部分POI的info信息部分,一部分是POI的場(chǎng)景邊框數(shù)據(jù)部分,兩種數(shù)據(jù)均需要用于后續(xù)的場(chǎng)景數(shù)據(jù)處理。
場(chǎng)景信息獲取過程如圖1所示:
(1)場(chǎng)景數(shù)據(jù)獲取方式:利用開源/FME軟件,結(jié)合高德API接口,抓取口碑場(chǎng)景的POI信息、場(chǎng)景電子邊框信息;
(2)場(chǎng)景準(zhǔn)確性核查:通過圖層GIS呈現(xiàn),核查解決場(chǎng)景邊框圖層有誤偏移、亂序交錯(cuò)問題;
(3)形成閉合曲線:將獲取的場(chǎng)景邊界經(jīng)緯度信息在GIS上進(jìn)行連線,形成封閉的場(chǎng)景邊框。
圖1 場(chǎng)景信息獲取過程
通過以上方法獲取的場(chǎng)景電子圍欄可以在GIS上呈現(xiàn),并與用戶MR數(shù)據(jù)疊加,從而獲知確診者行蹤所涉及的室內(nèi)外場(chǎng)景類型,并且可以根據(jù)場(chǎng)景內(nèi)的MR采樣點(diǎn)的數(shù)量,判斷該場(chǎng)景人流量的情況。通過場(chǎng)景的識(shí)別和用戶軌跡的跟蹤,可以判斷確診者是否在大型商超、火車站、醫(yī)院等人流密集的區(qū)域駐留。根據(jù)確診者駐留的不同場(chǎng)景的不同人流密度情況,防疫部門可以制定不同等級(jí)的防疫處置措施。如對(duì)于確診者所到達(dá)的大型商超,可以根據(jù)回填I(lǐng)MSI后的MR數(shù)據(jù),反向識(shí)別在指定時(shí)間內(nèi)出入同一場(chǎng)所的用戶號(hào)碼。
在疫情控制的過程中,如果能夠準(zhǔn)確判斷疑似患者或新確診者與已知確診者是否有接觸、在什么情況下轉(zhuǎn)觸,即判斷新增疑似或確診者是在何時(shí)何地被感染的,對(duì)于確定疫情的傳播模型、傳播方式、未知確診者存在規(guī)模等的判斷,都能起到很大幫助。
運(yùn)營(yíng)商的MR數(shù)據(jù)包含了用戶級(jí)位置信息,以及用戶的移動(dòng)軌跡信息。結(jié)合了上述提到的基于神經(jīng)網(wǎng)絡(luò)的用戶MR定位、IMSI回填及場(chǎng)景識(shí)別算法,為推斷新增疑似或確診者與已知確診者的接觸史;以及通過所有已知確診者的移動(dòng)軌跡,跟蹤確定其他可能的密切接觸者、可能有傳染接觸的區(qū)域風(fēng)險(xiǎn)等級(jí),提供了有力的數(shù)據(jù)依據(jù)。
密切接觸者與已確診者的接觸史回溯方法如圖2所示:
(1)獲得已確認(rèn)的感染者電話號(hào)碼清單,反向匹配到用戶IMSI,同時(shí)標(biāo)注每個(gè)感染者的確診時(shí)間;
(2)獲得所有新增疑似或確診者電話號(hào)碼清單,反向匹配到用戶IMSI,同時(shí)標(biāo)注每個(gè)新增疑似或確診的確診時(shí)間;
(3)在整個(gè)MR記錄中查詢,新增和已確診者在MR記錄中是否存在MR記錄時(shí)間差在time_thresh(單位為秒)以內(nèi),以及經(jīng)緯度定位距離在distance_thresh以內(nèi)(單位為米)的交叉歷史,如果有,這個(gè)交叉歷史的MR時(shí)間戳必須在新增感染者的確診時(shí)間之前;存在交叉關(guān)系的新增和已確診者,已確診者的確診時(shí)間必須在新增之前;同時(shí)這個(gè)交叉歷史的MR時(shí)間戳距離新增的確診時(shí)間之間的差距必須小于一個(gè)最大潛伏期閾值;
(4)對(duì)存在交叉的新增及已確診者的軌跡進(jìn)行可視化呈現(xiàn)。
圖2 密切接觸者與已確診者的接觸史回溯過程
本研究對(duì)用戶個(gè)人信息、隱私信息進(jìn)行了相應(yīng)處理,確保用戶信息不被泄露。采用加密、數(shù)據(jù)置換、偏移量處理,
通過MR用戶軌跡對(duì)已知確診者和新增確診者進(jìn)行接觸點(diǎn)回溯分析,對(duì)發(fā)生接觸的已知確診者和新增確診者的軌跡在地圖上呈現(xiàn),同時(shí)對(duì)接觸點(diǎn)進(jìn)行標(biāo)亮。對(duì)不同用戶進(jìn)行分色彩渲染,紅色柵格為A類用戶,即前期已確診者,藍(lán)色柵格為B類用戶,即新增確診者,場(chǎng)景人流密度如圖3所示,場(chǎng)景人流密度越高,感染風(fēng)險(xiǎn)越大。
以A類用戶做樣例呈現(xiàn),用戶號(hào)碼為9a3065e00af3f1c8daf1086a47c30ad6(用戶號(hào)碼已做加密處理)。用戶軌跡如圖4所示。對(duì)用戶號(hào)碼、位置等信息進(jìn)行脫敏,數(shù)據(jù)分級(jí)審核管理,內(nèi)網(wǎng)運(yùn)行,并全程在中國(guó)聯(lián)通大數(shù)據(jù)安全體系內(nèi)實(shí)施,保障數(shù)據(jù)安全。
圖3 場(chǎng)景人流密度
與A相交的B類用戶的相遇位置如圖5所示。
圖4 A類用戶軌跡呈現(xiàn)
圖5 A類與B類用戶相遇位置呈現(xiàn)
相遇點(diǎn)放大呈現(xiàn)及周邊場(chǎng)景人流密度情況如圖6所示。
圖6 相遇點(diǎn)放大呈現(xiàn)及周邊場(chǎng)景人流密度情況
對(duì)所有確診者軌跡進(jìn)行分析,對(duì)周邊場(chǎng)景進(jìn)行感染風(fēng)險(xiǎn)度評(píng)估和渲染。
本研究通過基于神經(jīng)網(wǎng)絡(luò)的用戶MR定位、IMSI回填及場(chǎng)景識(shí)別、密切接觸者回溯與識(shí)別四種關(guān)鍵技術(shù),實(shí)現(xiàn)了確診者的軌跡跟蹤,并對(duì)確診者從潛伏期到隔離期間的密切接觸者進(jìn)行識(shí)別及進(jìn)行地理化呈現(xiàn),對(duì)于各個(gè)區(qū)域的感染風(fēng)險(xiǎn)等級(jí)也進(jìn)行了分析和地理化呈現(xiàn)。本研究所述方法有助于衛(wèi)生防疫部門及時(shí)采取防控措施,對(duì)于確診者所到達(dá)的高風(fēng)險(xiǎn)室內(nèi)密集區(qū)域及時(shí)采取消殺措施,通過運(yùn)營(yíng)商數(shù)據(jù)對(duì)進(jìn)出人員進(jìn)行快速識(shí)別,及時(shí)遏制感染的擴(kuò)散。后期還可以利用電信業(yè)務(wù)實(shí)名制特性,結(jié)合公安數(shù)據(jù),社交軟件等數(shù)據(jù),對(duì)確診者的社會(huì)關(guān)系進(jìn)行識(shí)別,及時(shí)進(jìn)行預(yù)警信息的傳送,避免后期的接觸。