沈 騰
(徐州市人力資源和社會保障信息中心,江蘇 徐州 221000)
大數(shù)據(jù)技術(shù)在此次“新冠”肺炎疫情防控中發(fā)揮了重要作用。宏觀上,我們利用地區(qū)采集的病例數(shù)據(jù)以及個體跨區(qū)域軌跡,通過對新增數(shù)量及區(qū)域分布情況的分析,對全國各地進行危險級別評估,進而采取不同的管理防控措施;微觀上,個體通過注冊登錄“健康二維碼”出入公共場所,也可以查看哪些是危險等級高的區(qū)域,這為防疫后期的復工復產(chǎn)提供了便利。
然而,此次疫情我們也應(yīng)該看出我們對疫情大數(shù)據(jù)的利用還不夠充分,賦能效果還亟待提升。特別是在疫情初期發(fā)展傳播過程中,對發(fā)病情況的掌握、所需醫(yī)療資源的預判、床位和設(shè)備的消耗情況、未來可能的調(diào)配策略等等,疫情初發(fā)地的武漢等地區(qū)并不能較充分的了解。假如有關(guān)部門建立了以大數(shù)據(jù)為基礎(chǔ)的處理流程和解決方案,就可以更好地處理應(yīng)對類似突發(fā)事件。
“大數(shù)據(jù)”(big data)的有關(guān)概念出現(xiàn)較晚,直到2008年左右才開始在互聯(lián)網(wǎng)流行,大數(shù)據(jù)就是海量的數(shù)據(jù)[1]。2012年維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時代》一書中較為前瞻性的提出,大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型,并分別從思維、商業(yè)、管理3個維度的變革進行了闡述。大數(shù)據(jù)技術(shù)就是從海量數(shù)據(jù)庫中通過一定的算法挖掘推導出對某領(lǐng)域有價值的信息。
OODA循環(huán)模型,是觀察(Observe)、判斷(Orient)、決策(Decide)以及行動(Act)的英文縮寫,起初是美國空軍提出的一個信息戰(zhàn)略模型,后來常被應(yīng)用于大數(shù)據(jù)技術(shù)中,主要通過信息采集、分析、決策和應(yīng)對四個階段處理數(shù)據(jù)[2]。OODA 循環(huán)模型可以輔助我們認清數(shù)據(jù)信息的運行軌跡。
疫情數(shù)據(jù)采集的初期主要是依據(jù)醫(yī)療衛(wèi)生部門上報的感染者或疑似感染者信息,到了中后期由于需要出入小區(qū),各地開始要求提供健康碼,這時社區(qū)居民開始自主從網(wǎng)上填報個人數(shù)據(jù),主要分為本地常住人口和外來人口信息填報。除此之外,在復工復產(chǎn)準備時期還有一些醫(yī)院、商場等公共場所在出入時進行網(wǎng)上登記,作為個體在公共場所活動軌跡的數(shù)據(jù)采集。
在上述疫情數(shù)據(jù)的采集中,主要存在幾點問題:一是數(shù)據(jù)的準確性無法保證。絕大多數(shù)數(shù)據(jù)依賴于個體本身的填寫,個體本身受到填報時間、重視程度、自我判斷能力和填報誠信等多重因素影響,數(shù)據(jù)本身的準確性得不到保證,短時間內(nèi)也沒有數(shù)據(jù)校驗的功能。二是數(shù)據(jù)的完備程度不高。各個組織根據(jù)自身需要設(shè)計數(shù)據(jù)采集表單數(shù)據(jù)項,而這些選項大多數(shù)都是個體的基本居住信息,個體的活動軌跡無法采集,因此獲得的數(shù)據(jù)不夠完備。三是數(shù)據(jù)的共享程度較低。部分地區(qū)可以將采集的數(shù)據(jù)與當?shù)毓膊块T戶籍數(shù)據(jù)相關(guān)聯(lián)比對,但和醫(yī)保、就診、交通、住房等數(shù)據(jù)沒有共享,多個數(shù)據(jù)庫沒有提供接口,缺少一個行之有效的數(shù)據(jù)處理系統(tǒng)。
疫情數(shù)據(jù)的分析目前主要還是簡單的統(tǒng)計分析。按照時間軸統(tǒng)計,可以分析出整個疫情的發(fā)展變化,包括感染者和疑似感染者的數(shù)量、增長率等,按照空間區(qū)域統(tǒng)計,可以分析各區(qū)域疫情的嚴重程度。但是,這些大數(shù)據(jù)的分析僅僅停留在一般統(tǒng)計學的范疇,分析層次較淺。
如果想進行稍微復雜一些的分析,通常使用流行病學調(diào)查就可以發(fā)現(xiàn)一些疫情傳播的端倪,筆者提供了一些數(shù)據(jù)分析的功能設(shè)想如下:一是可以對確診患者的活動軌跡進行分析,進而進行疫情傳播預防,幫助發(fā)現(xiàn)疑似感染者;二是可以聯(lián)動醫(yī)療資源數(shù)據(jù),協(xié)助更合理地調(diào)度各地醫(yī)療資源;三是可以對患者年齡、身體情況等關(guān)鍵指標進行分析,進而研究易感染者的共性及疾病特征;四是可以對患者的治療方案及用藥反應(yīng)進行分析,進而研究適合多數(shù)群體的治療方案;五是可以對正常人群的活動軌跡進行分析,進而開放低風險或無風險活動區(qū)域。因為目前對大數(shù)據(jù)的分析層次還停留在顯性可視的層面,如果要完成上述設(shè)想,還需要借助機器學習、知識推理等專門算法。在數(shù)據(jù)分析中還要考慮到數(shù)據(jù)隱私和安全性,數(shù)據(jù)提取和分析等過程保密,即系統(tǒng)后臺利用相關(guān)算法推導結(jié)論,人員不直接接觸原始數(shù)據(jù)庫。
由于缺乏行之有效的專門算法,無法在某些領(lǐng)域內(nèi)數(shù)據(jù)建模,目前疫情大數(shù)據(jù)決策還很不成熟。國內(nèi)外在醫(yī)學領(lǐng)域有一些利用數(shù)據(jù)建模開發(fā)的仿真應(yīng)用或是輔助診斷應(yīng)用的案例,但目前來看前景并不明朗,主要涉及以下幾個因素:一是個體差異性。在某些領(lǐng)域海量數(shù)據(jù)影響決策中,我們可以推導預判某種可能概率增大,但每一個個體都具備與眾不同的可能;二是數(shù)據(jù)代表性。原始數(shù)據(jù)庫缺少足夠的龐大而精確,我們選取的數(shù)據(jù)項也并非絕對科學可信;三是算法合理性。每個領(lǐng)域的專門算法、模型需要大量實驗驗證,如何建立一個科學有效的專門算法,這是大數(shù)據(jù)決策的難點;其他還有機器決策合法性等人文因素制約著大數(shù)據(jù)決策的發(fā)展。在大數(shù)據(jù)產(chǎn)生決策方面,我們還有很長的路要走。
在疫情防控中我們開發(fā)了幾個簡單的大數(shù)據(jù)應(yīng)用,例如“健康碼”。個體通過注冊登錄“健康二維碼”出入公共場所,也可以查看哪些是危險等級高的區(qū)域,這為防疫后期的復工復產(chǎn)提供了一些便利。健康碼是根據(jù)個體輸入的數(shù)據(jù),根據(jù)過去的行程與官方對各地的風險評級,生成一個表示危險性的健康碼,在一定程度上提高了社區(qū)治理的效率。問題是這種應(yīng)用目前缺少校驗,在應(yīng)用中可靠性較低;并且風險區(qū)域“一刀切”較為粗獷,在實際操作中過于武斷,也影響到一些群眾的生活出行。除此以外,大數(shù)據(jù)應(yīng)用的成熟案例還較少,專業(yè)領(lǐng)域的開發(fā)瓶頸難以突破。
一是數(shù)據(jù)采集來源優(yōu)化。數(shù)據(jù)信息應(yīng)以公安部門戶籍數(shù)據(jù)為基礎(chǔ),加入手機關(guān)聯(lián)信息,從被動采集轉(zhuǎn)變?yōu)橹鲃硬杉?;二是?shù)據(jù)采集形式優(yōu)化。開發(fā)基于北斗導航系統(tǒng)定位的軌跡記錄數(shù)據(jù)系統(tǒng),在法律允許的范圍內(nèi)采集不同精度的活動軌跡數(shù)據(jù)。三是數(shù)據(jù)共享優(yōu)化。將醫(yī)保、就診、交通、住房等多個數(shù)據(jù)庫數(shù)據(jù)共享,并進行數(shù)據(jù)校驗與清洗。
數(shù)據(jù)分析過程的優(yōu)化主要是建立公式,尋找規(guī)律。例如對確診患者的活動軌跡進行分析,對同時段的活動軌跡進行篩選,可以發(fā)現(xiàn)疑似感染人群??梢詫γ總€移動終端的移動軌跡進行時間軸的記錄后,去發(fā)現(xiàn)同一時間相同軌跡交點的號碼,這個發(fā)現(xiàn)的過程就是一個較為簡單的數(shù)據(jù)分析。再如在調(diào)度醫(yī)療資源中,對各醫(yī)療機構(gòu)床位、醫(yī)護人員、醫(yī)療設(shè)備和藥品等數(shù)據(jù)與感染人群分布數(shù)據(jù)建立一個算法,可以幫助科學選擇。
活動軌跡數(shù)據(jù)分析最大的問題是數(shù)據(jù)安全問題以及采集個人隱私的法律風險。在相關(guān)法律尚未明確的情況下,可以采取被動采集的方式,即在一些重要的公共場所設(shè)置掃碼登記,登記前由個人線上同意相關(guān)協(xié)議,再進行入場登記,用來記錄進入該場所的人群數(shù)據(jù),從而被動推導個人的活動軌跡。
數(shù)據(jù)分析后,如何輔助產(chǎn)生出科學的決策,這要求建立一個模型和專門算法。比如可以通過對搜索關(guān)鍵字和網(wǎng)上購物數(shù)據(jù)的分析推導出某個人的購物偏好,甚至對其年齡、生活狀態(tài)、工作情況、個人喜好進行推測,進而自動向其推送相關(guān)的產(chǎn)品,這就是一個最簡單的數(shù)據(jù)決策產(chǎn)生的過程。大數(shù)據(jù)決策過程,是基于數(shù)據(jù)分析模型而產(chǎn)生可能結(jié)果的推導,是對某一領(lǐng)域大概率結(jié)論的預測。在疫情大數(shù)據(jù)決策過程優(yōu)化中,首先要確定目標,然后通過大量的數(shù)據(jù)實驗優(yōu)化模型。以疫情傳染防治為例,可以建立一個類似的模型,這個模型可以分為不同的幾個階段。第一個階段是發(fā)現(xiàn)可能感染者。根據(jù)公共場所的入場登記數(shù)據(jù),分析活動軌跡重合的個體,一旦出現(xiàn)確診者,決策者可以向其推送相關(guān)信息,這種結(jié)論并不一定能推導出感染人群,但是可以確定出可能會感染的人群;第二個階段是確定疑似感染者。例如已有一個14天無癥狀即可排除的經(jīng)驗,可以利用這個經(jīng)驗對第一個階段出現(xiàn)的個體進行居家隔離14天,但是這并非絕對,假如可能人群想要排除疑慮,則可能選擇去做進一步的核酸檢測。在這個階段大數(shù)據(jù)可以智能的提供給可能感染者不同的選擇應(yīng)對方式,進一步去確認疑似感染者;第三個階段是確診。這個可以結(jié)合醫(yī)學診斷指標進行確診模型的建立。在實際就診中,醫(yī)生往往也是根據(jù)某些檢測的指標及患者出現(xiàn)的癥狀進行判斷,之所以難以建立模型是因為個體差異和相似疾病的種類較多,但是如果是排除某種疾病或是建立某個專門疾病的確診因素,則是有可能實現(xiàn)的。第四個階段是輔助治療。此部分內(nèi)容可以試圖整理相似個體的最佳治療方案,進而為醫(yī)生提供一些參考,同時在醫(yī)療資源特別緊張時可以作為公共衛(wèi)生緊急處理辦法。
大數(shù)據(jù)應(yīng)用過程的優(yōu)化就是要使應(yīng)用更加人性化,使用戶有更好的體驗。例如“健康碼”就可以從以下幾個方面優(yōu)化,一是提高準確性,目前是以城市為單位的危險評級,可以進一步提高范圍的精度;二是增加兼容性,對于沒有智能手機的群體,除了委托通過他人的支付寶微信賬戶添加以外,還可以考慮采用另一些終端,如健康手環(huán)、智能手表等形式;三是注重便捷性,健康碼的使用應(yīng)更加智能,減少個人操作環(huán)節(jié),甚至可以在社區(qū)、公共場所設(shè)置某些終端設(shè)備,出入的人員通過身份證或者人臉識別就可以自動驗證。
不斷完善對大數(shù)據(jù)采集、分析、決策、使用過程,更好地實現(xiàn)數(shù)據(jù)賦能,對社會民生保障具有現(xiàn)實意義。本文以疫情大數(shù)據(jù)運行情況為例提出了大數(shù)據(jù)賦能效果的提升思路,由于缺乏實踐層面經(jīng)驗,還存在諸多不足之處。大數(shù)據(jù)應(yīng)用應(yīng)加強理論研究和實踐研究的結(jié)合,推動多學科性研究的融合,拓寬研究主題,促進研究內(nèi)容的多維深化,從而為公眾提供更為科學、高效的社會服務(wù)。