朱常波,程新洲,高 潔(1.中國聯(lián)通智能城市研究院,北京 100048;2.中訊郵電咨詢設(shè)計院有限公司,北京 100048;.中國聯(lián)通網(wǎng)絡(luò)技術(shù)研究院,北京 100048)
在這場舉全國之力抗擊疫情的“戰(zhàn)役”中,各級政府通過暫緩企業(yè)開工、學(xué)校開課等政策手段,有效控制了疫情的蔓延和發(fā)展,當(dāng)前已初步呈現(xiàn)疫情防控形勢持續(xù)向好、生產(chǎn)生活秩序加快恢復(fù)的態(tài)勢。然而,企業(yè)復(fù)工復(fù)產(chǎn)對保持經(jīng)濟社會穩(wěn)定發(fā)展至關(guān)重要,迫在眉睫。因此,如何統(tǒng)籌疫情防控和復(fù)工復(fù)產(chǎn),成為擺在各級政府面前的又一大挑戰(zhàn)。2020 年2 月11 日,國務(wù)院應(yīng)對新型冠狀病毒感染肺炎疫情聯(lián)防聯(lián)控機制舉行“切實加強疫情科學(xué)防控,有序做好企業(yè)復(fù)工復(fù)產(chǎn)”工作發(fā)布會。要求各地區(qū)分不同疫情狀況,在繼續(xù)加強疫情科學(xué)防控的同時,及時協(xié)調(diào)解決企業(yè)的困難和問題,有序推動企業(yè)復(fù)工復(fù)產(chǎn),盡早恢復(fù)正常生產(chǎn)。
中國聯(lián)通作為擁有4 億用戶的電信運營商,充分發(fā)揮全國31 省一點集中的數(shù)據(jù)優(yōu)勢,面對疫情,快速響應(yīng),在保證用戶隱私安全的基礎(chǔ)上研究開發(fā)了一系列大數(shù)據(jù)疫情防控產(chǎn)品并面向全國部署,為企業(yè)復(fù)工復(fù)產(chǎn)洞察、城市人口動態(tài)透視等應(yīng)用場景提供了數(shù)據(jù)支撐,確保疫情防控、復(fù)工復(fù)產(chǎn)的科學(xué)有效推進。
本文主要介紹了運營商大數(shù)據(jù)在疫情防控趨于穩(wěn)定的情況下,企業(yè)復(fù)工復(fù)產(chǎn)、學(xué)校開工開學(xué)等場景的探索及應(yīng)用。文章組織結(jié)構(gòu)如下:第2 章對運營商大數(shù)據(jù)的特征與分析架構(gòu)進行了介紹;第3 章闡述了運營商大數(shù)據(jù)在復(fù)工復(fù)產(chǎn)背景下的區(qū)域到崗率實時洞察與柵格化危險指數(shù)評估關(guān)注點、區(qū)域人口流入與員工出行方式風(fēng)險點等4個方面的數(shù)據(jù)分析及研判;第4章對全文進行了總結(jié)。
運營商大數(shù)據(jù)相較于其他行業(yè),有著無法比擬的諸多優(yōu)勢。
首先,運營商擁有十億級的出賬用戶數(shù)、PB 級日均數(shù)據(jù)生成及采集量,數(shù)據(jù)維度全面包含了用戶信息、地理位置、上網(wǎng)行為、歷史軌跡、社交關(guān)系、支付能力等多元內(nèi)容,可準(zhǔn)確實時地反映用戶全息行為狀態(tài)。
另外,運營商擁有多張移動網(wǎng)絡(luò),全生命周期時間連續(xù)、空間完整,在覆蓋時間、覆蓋范圍上遙遙領(lǐng)先于其他行業(yè)。運營商大數(shù)據(jù)可以通過電話號碼標(biāo)識來整合打通各類數(shù)據(jù),與GPS、統(tǒng)計數(shù)據(jù)等相比,可直接追溯到自然人。通過運營商大數(shù)據(jù)可以獲取用戶身份信息、時間信息、位置信息、終端信息、行為信息和感知體驗,形成每個用戶的動態(tài)標(biāo)簽庫,從行為軌跡、業(yè)務(wù)偏好、時空分布、社交屬性等維度刻畫人們的日常工作與生活。
中國聯(lián)通在大數(shù)據(jù)技術(shù)及場景化應(yīng)用產(chǎn)品研發(fā)方面有著多年的技術(shù)積累與沉淀,在產(chǎn)品迭代更新上線時,更多的是基于原有的用戶標(biāo)簽庫、指紋數(shù)據(jù)庫以及場景化分析模型的抽取和組合,快速形成針對不同場景應(yīng)用的整體技術(shù)解決方案,并可以在很短的周期內(nèi)完成相關(guān)產(chǎn)品的模塊式開發(fā)及上線應(yīng)用。運營商大數(shù)據(jù)在助力復(fù)工復(fù)產(chǎn)方面的應(yīng)用模型如圖1所示。
整體的技術(shù)方案,可以分為數(shù)據(jù)中臺層和場景化應(yīng)用層。
針對數(shù)據(jù)中臺層的技術(shù)方案,主要包含:
a)數(shù)據(jù)處理:運營商數(shù)據(jù)包含23類用戶側(cè)及網(wǎng)絡(luò)側(cè)數(shù)據(jù),數(shù)據(jù)類型包括關(guān)系型數(shù)據(jù)、NoSQL數(shù)據(jù)等。同時,互聯(lián)網(wǎng)及垂直行業(yè)包含大量的異構(gòu)數(shù)據(jù)。數(shù)據(jù)存儲層根據(jù)各類數(shù)據(jù)的采集方式、數(shù)據(jù)特點制定了一套規(guī)范化的數(shù)據(jù)管理存儲體系,實現(xiàn)對以往分散數(shù)據(jù)的歸集與規(guī)范化管理,存儲能力達到PB級。
b)模型搭建:針對數(shù)據(jù)存儲層所存儲的大量關(guān)系型數(shù)據(jù)、NoSQL數(shù)據(jù)、異構(gòu)數(shù)據(jù),為了后續(xù)進行準(zhǔn)確、高效的數(shù)據(jù)分析,根據(jù)各個數(shù)據(jù)源的不同,研究數(shù)據(jù)解析與入庫方法,實現(xiàn)高效且精準(zhǔn)的數(shù)據(jù)解析,并搭建支撐上層指標(biāo)分析的機器學(xué)習(xí)模型。
圖1 大數(shù)據(jù)助力復(fù)工復(fù)產(chǎn)分析的技術(shù)方案
c)指標(biāo)分析:通過搭建Impala 集群、Vertica 集群,形成用戶和業(yè)務(wù)為主體的6個基礎(chǔ)模塊分析。在基礎(chǔ)模塊之上,數(shù)據(jù)分析層將進行關(guān)聯(lián)分析,構(gòu)建用戶屬性標(biāo)簽庫、用戶位置檔案庫,形成用戶、位置、駐留時長等分析指標(biāo)的數(shù)據(jù)中間層。同時,數(shù)據(jù)分析層還將引入分布式計算、商業(yè)智能BI 等技術(shù),提升該平臺的性能及功能。
場景化應(yīng)用層主要包括場景化應(yīng)用報告及平臺服務(wù)。在指標(biāo)分析層以上,搭建地圖服務(wù)器、GIS 服務(wù)器、Web 服務(wù)器,進而實現(xiàn)數(shù)據(jù)分析層的用戶、位置以及柵格化分析指標(biāo)的實時查詢及地理化呈現(xiàn),以及針對不同應(yīng)用場景生成相應(yīng)的分析報告。
首先,通過政府公開的媒體網(wǎng)站調(diào)研了北京市疫情防控的實時進展情況,截至2020年2月底,北京市疫情走勢如圖2 所示。單日新增疑似、新增確診的病例數(shù)均成下降趨勢,且趨近于0。
圖2 北京單日新增病例數(shù)走勢
同時,通過分析用戶瀏覽微博、新聞等APP 的業(yè)務(wù)使用行為,結(jié)合互聯(lián)網(wǎng)公開數(shù)據(jù)接口,獲取用戶對疫情的關(guān)注程度?;谧匀徽Z言處理算法對用戶微博、新聞留言等多元文本進行情感研究與分析,可進一步判定用戶情緒指數(shù)(積極/消極,喜悅/憤怒/恐懼等),關(guān)注人群輿論導(dǎo)向。如圖3和圖4所示,可見公眾對疫情的關(guān)注度在2020 年2 月逐步下降,同時公眾情緒正在緩慢由消極向積極進行轉(zhuǎn)變。
從數(shù)據(jù)分析結(jié)果看,截至2020 年2 月底的新冠疫情從醫(yī)學(xué)防控和心理防控2方面整體處于積極向好的穩(wěn)定局面,這主要得益于常駐人口的自我隔離和遷入人口的有效控制。
圖3 公眾疫情關(guān)注度變化趨勢
圖4 公眾心理情緒變化趨勢
綜上所述,針對大數(shù)據(jù)助力復(fù)工復(fù)產(chǎn)的分析應(yīng)用場景,應(yīng)重點關(guān)注復(fù)工復(fù)產(chǎn)帶來的城市遷入人口變化以及常住人口的隔離變化2 個方面。因此,本文從區(qū)域到崗復(fù)工率分析和區(qū)域柵格化安全指數(shù)2 個關(guān)注點,以及人口遷入分析和員工出行方式預(yù)測2 個風(fēng)險點等4個方面進行分析及研判。
運營商數(shù)據(jù)具備分析用戶群體時空信息的能力,通過位置信息、時間戳,可以獲取用戶的時空軌跡,從而掌握用戶出行特征。通過對信令數(shù)據(jù)的實時分析和用戶屬性更新,可以逐步形成穩(wěn)定的用戶標(biāo)簽庫數(shù)據(jù)。通過對某特定區(qū)域內(nèi)用戶屬性分析以及用戶數(shù)量變化分析,可以實時關(guān)注特定區(qū)域內(nèi)的在崗員工到崗復(fù)工的變化情況,為企業(yè)決策者在制定復(fù)工復(fù)產(chǎn)相關(guān)政策、措施時提供數(shù)據(jù)分析依據(jù)。
通過用戶標(biāo)簽庫進行數(shù)據(jù)篩選分析,主語國際周邊區(qū)域(2 km×2 km)約有8 000名在崗員工。通過實時樣本數(shù)據(jù)觀測,針對主語國際周邊區(qū)域進行詳細分析,如圖5 所示,從2020 年2 月25 日—3 月1 日,周邊區(qū)域到崗復(fù)工比例整體在40%左右,從2020年2月25日—2 月28 日(周二—周五)單日到崗復(fù)工人數(shù)從3 000 人左右增長至3 700人左右,且持續(xù)呈上升趨勢。隨著國務(wù)院相關(guān)政策的發(fā)布,各企事業(yè)單位陸續(xù)進入逐步到崗復(fù)工的階段。
圖5 區(qū)域到崗復(fù)工人數(shù)變化趨勢
對周邊區(qū)域人數(shù)比較集中的企業(yè)、商業(yè)樓宇進行個體分析,如圖6 所示,公安部第1 研究所、國興大廈、機械研究院等單位的到崗復(fù)工比例較高,分別為41.3%、32.2%、31.8%;從地圖上看,如圖7所示,其中紅點表示人員相對集中的區(qū)域,包括公安部及機械研究院區(qū)域、百萬莊區(qū)域、中國標(biāo)協(xié)和云建大廈區(qū)域等。
基于運營商大數(shù)據(jù),考慮人口密度、職業(yè)群體分布、自我隔離水平、用戶出行計劃和意圖等因素,綜合評估城市中各個柵格的危險指數(shù)及防疫安全等級(見圖8),并通過可視化平臺觀測風(fēng)險預(yù)警,可將疫情風(fēng)險度量化到柵格單位內(nèi),為復(fù)工復(fù)產(chǎn)、精準(zhǔn)施策的防疫支撐工作提供參考依據(jù)。
從圖8 可以看出,主語周邊區(qū)域平均安全指數(shù)3.75,超越市區(qū)54.31%的區(qū)域,處于中等水平。
同時,在SEIR 傳染病模型中,新增感染人數(shù)和潛伏者、傳染者、感染者接觸到的易感者人數(shù)、傳染概率、潛伏者轉(zhuǎn)化為感染者概率等因素正相關(guān)。因此,高頻活動群體成為潛伏者的概率較大,而監(jiān)測管理該群體,可以有效降低感染者接觸到的易感者人數(shù),對于病毒防控有積極作用。
圖6 區(qū)域到崗復(fù)工率分析
圖7 區(qū)域到崗復(fù)工率分析
圖8 柵格安全指數(shù)分布
從數(shù)據(jù)分析結(jié)果看,主語周邊區(qū)域,頻繁進出大中型醫(yī)院的群體人員,比例較低,基本穩(wěn)定在0.3%左右,平均每天為600人。
受疫情影響,全國大多數(shù)城市都推遲了復(fù)工日期,因此原本應(yīng)該在農(nóng)歷初六、七出現(xiàn)的“回流”高峰得到了抑制,整個節(jié)后春運期間并未出現(xiàn)明顯的集中返程高峰,交通表現(xiàn)相對比較平穩(wěn)。對比北京市2019年和2020年同期人口遷出情況,如圖9所示,截至2020年1月25日前,2020年人口遷出指數(shù)與同期相比并無較大差異,但從2020 年人口遷入情況看,與同期形成較大的對比差異。截至2020 年2 月底,返京人員總量仍處于較低的水平,統(tǒng)計來看,有約400 萬人員尚未返京。如圖10所示,從2020年2月15日—2月28日的人口遷入變化分析,單日返京人口數(shù)量呈上升趨勢,因此,隨著逐步復(fù)工復(fù)產(chǎn)的趨勢,北京仍面臨大量人口流入壓力。
全面到崗復(fù)工復(fù)產(chǎn)過程中,企業(yè)員工的出行方式,同樣也是需要關(guān)注的重點之一,尤其是乘坐公共交通的群體。通過對用戶屬性標(biāo)簽庫進行篩選分析,中訊院、網(wǎng)研院北京在崗員工約為1 100 人,通過與近期的實時數(shù)據(jù)關(guān)聯(lián)出800 人左右在京遠程辦公,主要居住在海淀區(qū)和豐臺區(qū)(見圖11)。
圖9 北京市人口遷入遷出對比
圖10 北京市人口遷入實時變化趨勢
圖11 北京地區(qū)居住行政區(qū)分布
通過對員工居住地與主語國際直線距離的分析(見圖12),發(fā)現(xiàn)僅有11%員工居住在離主語2 km范圍內(nèi),這部分員工可采用步行或單車方式出行上班。如圖13 所示,其余約有43%員工出行方式以地鐵為主,約有46%員工出行方式為路面交通(如網(wǎng)約車、公交車、自駕),均存在一定接觸風(fēng)險。
圖12 員工居住地與主語距離分布
圖13 員工出行方式預(yù)測
考慮到接觸風(fēng)險,北京公交集團為復(fù)工企事業(yè)單位推出定制化公交通勤班車的政策,企業(yè)可以參考員工住址標(biāo)簽數(shù)據(jù),生成建議定制路線,為員工解決上下班的通勤風(fēng)險問題。
本文從區(qū)域到崗復(fù)工率實時洞察、柵格化危險指數(shù)評估、區(qū)域人口流入風(fēng)險分析、員工出行方式風(fēng)險分析等4 個方面的數(shù)據(jù)分析及研判,實現(xiàn)基于運營商大數(shù)據(jù)的復(fù)工復(fù)產(chǎn)分析及應(yīng)用。主要包括:
a)區(qū)域到崗復(fù)工率分析,關(guān)注特定區(qū)域內(nèi)的在崗員工到崗復(fù)工的變化情況,為企業(yè)決策者在制定復(fù)工復(fù)產(chǎn)相關(guān)政策、措施時提供數(shù)據(jù)分析依據(jù)。
b)針對區(qū)域柵格化安全指數(shù)分析,并針對不同柵格評估其危險指數(shù),為員工出行、復(fù)工復(fù)產(chǎn)提供參考依據(jù)。
c)對城市人口遷入風(fēng)險分析,對節(jié)后復(fù)工背景下可能產(chǎn)生的城市疫情傳播風(fēng)險進行評估。
d)員工出行方式預(yù)測分析,預(yù)測分析需要乘坐公共交通的員工群體,為復(fù)工復(fù)產(chǎn)企業(yè)解決員工上下班的接觸風(fēng)險問題。
通過上述分析結(jié)果,可在疫情態(tài)勢研判等方面為政府提供有力支撐,助力企業(yè)復(fù)工復(fù)產(chǎn),為企業(yè)決策者制定科學(xué)政策及手段提供支撐依據(jù),逐步實現(xiàn)全面到崗復(fù)工。