亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)技術(shù)在疫情精準(zhǔn)防控中的應(yīng)用

        2021-01-21 04:30:10李剛鄭佳尹華山黃文超
        大數(shù)據(jù) 2021年1期
        關(guān)鍵詞:關(guān)聯(lián)聚類向量

        李剛,鄭佳,尹華山,黃文超

        廣州市數(shù)字政府運(yùn)營中心,廣東 廣州 510623

        1 引言

        2020年年初,由新型冠狀病毒肺炎(COVID-19)帶來的全球性疫情對(duì)我國各地造成了巨大沖擊。在疫情全球流行的背景下,我國疫情得到了有效控制,這是我國政府治理能力整體提升的表現(xiàn)。自黨的十八屆三中全會(huì)提出“推進(jìn)國家治理體系和治理能力現(xiàn)代化”以來,各地不斷加強(qiáng)政務(wù)信息系統(tǒng)統(tǒng)籌和整合,強(qiáng)化數(shù)據(jù)資源的匯聚和分析利用,政務(wù)信息化不斷朝數(shù)據(jù)化、智能化方向發(fā)展。

        X市由于人口規(guī)模大、外來流動(dòng)人口比例大、進(jìn)出口繁榮,在疫情期間遭受到嚴(yán)重的沖擊。但是,總體來說,X市實(shí)現(xiàn)了對(duì)疫情的有效防控,有序開展復(fù)工復(fù)產(chǎn),保證了經(jīng)濟(jì)的平穩(wěn)復(fù)蘇,這很大程度上要?dú)w功于長久以來數(shù)字政府領(lǐng)域的積累和沉淀,比如以“四標(biāo)四實(shí)”(即標(biāo)準(zhǔn)作業(yè)圖、標(biāo)準(zhǔn)建筑物編碼、標(biāo)準(zhǔn)地址庫、標(biāo)準(zhǔn)基礎(chǔ)網(wǎng)格,實(shí)有人口、實(shí)有房屋、實(shí)有單位、實(shí)有設(shè)施)為核心的基礎(chǔ)信息采集和大數(shù)據(jù)庫建設(shè)工作。

        大數(shù)據(jù)技術(shù)應(yīng)用為疫情數(shù)據(jù)的分析利用提供了重要的技術(shù)工具。通過對(duì)“四標(biāo)四實(shí)”數(shù)據(jù)、重點(diǎn)人群數(shù)據(jù)、市民填報(bào)數(shù)據(jù)、基層摸查數(shù)據(jù)等不同來源的數(shù)據(jù)進(jìn)行清洗、比對(duì)和挖掘分析,發(fā)現(xiàn)疫情線索,生成預(yù)警信息,為基層人員核查和輔助領(lǐng)導(dǎo)決策提供了重要的技術(shù)支撐。

        下面針對(duì)疫情防控大數(shù)據(jù)建設(shè)及應(yīng)用、大數(shù)據(jù)分析和挖掘技術(shù)在疫情防控中的應(yīng)用兩個(gè)方面,介紹基于大數(shù)據(jù)疫情防控的一系列行之有效的方法和技術(shù)。

        2 疫情防控 大數(shù)據(jù)建設(shè)及應(yīng)用

        2.1 “四標(biāo)四實(shí)”基礎(chǔ)數(shù)據(jù)建設(shè)情況

        為推進(jìn)“平安城市”建設(shè),X市于2017年開始實(shí)施“四標(biāo)四實(shí)”專項(xiàng)工作,建設(shè)了“數(shù)字政府”基礎(chǔ)應(yīng)用平臺(tái),制定了《四標(biāo)四實(shí)專項(xiàng)信息共享目錄》,并依托政務(wù)信息共享平臺(tái)匯集了35個(gè)部門及11個(gè)區(qū)的數(shù)據(jù),對(duì)全市道路、街巷名稱不規(guī)范(包括無名、重名、一路多名、不標(biāo)準(zhǔn))情況進(jìn)行了全面排查清理,由民政部門依法確定的標(biāo)準(zhǔn)地名和公安機(jī)關(guān)依法確定的標(biāo)準(zhǔn)門樓牌組合生成標(biāo)準(zhǔn)地址。依托“標(biāo)準(zhǔn)作業(yè)圖”,全面采集實(shí)有人口數(shù)據(jù),實(shí)現(xiàn)人員、房屋、地址精準(zhǔn)關(guān)聯(lián)匹配,解決戶籍人員存在的“一人多址、人戶分離”、流動(dòng)人口存在的居住登記和注銷問題,為衛(wèi)生、消防、公安、稅務(wù)、交通、社保、城建、統(tǒng)計(jì)等各領(lǐng)域的政府服務(wù)提供了強(qiáng)有力的支撐。

        X市通過“四標(biāo)四實(shí)”工作匯聚了公安、住建、規(guī)劃、國土、交通、民政、水務(wù)、環(huán)保、農(nóng)業(yè)等35個(gè)職能部門的與自然人相關(guān)的信息,它不僅包含居民身份、房屋地址等基礎(chǔ)信息,而且涵蓋了人房居住關(guān)系,人口流動(dòng)情況,常住人口工商登記、社保繳納、就業(yè)、醫(yī)療,居民日常出行等個(gè)人全景式數(shù)據(jù)信息。目前,數(shù)字政府基礎(chǔ)應(yīng)用平臺(tái)匯集超過2.5億條城市基礎(chǔ)數(shù)據(jù),劃分出近2萬個(gè)城鄉(xiāng)“標(biāo)準(zhǔn)基礎(chǔ)網(wǎng)格”,定位視頻點(diǎn)152萬個(gè),將全市人、房、業(yè)信息核準(zhǔn)、更新后納入“四標(biāo)四實(shí)”大數(shù)據(jù)庫。數(shù)字政府基礎(chǔ)應(yīng)用平臺(tái)與市場監(jiān)管等26個(gè)部門的應(yīng)用系統(tǒng)進(jìn)行對(duì)接,政府部門通過應(yīng)用平臺(tái)實(shí)行數(shù)據(jù)交換和更新,全面優(yōu)化了基層治理能力,是全市治理能力現(xiàn)代化的里程碑性工程。

        2.2 疫情防控大數(shù)據(jù)應(yīng)用

        在疫情期間,該市以數(shù)字政府基礎(chǔ)應(yīng)用平臺(tái)和“四標(biāo)四實(shí)”大數(shù)據(jù)庫為依托,借助云計(jì)算、大數(shù)據(jù)技術(shù),通過數(shù)據(jù)高度共享、系統(tǒng)高度融合、服務(wù)高度集成,建成疫情態(tài)勢實(shí)時(shí)感知、人員精準(zhǔn)管控、企業(yè)精準(zhǔn)幫扶的疫情防控指揮系統(tǒng)。該系統(tǒng)支撐疫情監(jiān)測分析、防控救治、資源調(diào)配,有力地支持疫情防控和復(fù)工復(fù)產(chǎn)政策措施快速部署、快速落地,逐步成為全市數(shù)據(jù)樞紐和決策指揮“智慧大腦”。疫情防控指揮系統(tǒng)進(jìn)一步整合匯聚15個(gè)部門的22類數(shù)據(jù),建立暢通的數(shù)據(jù)通道,持續(xù)將確診人員、重點(diǎn)人員、集中觀察點(diǎn)等疫情防控相關(guān)數(shù)據(jù)與“四標(biāo)四實(shí)”數(shù)據(jù)進(jìn)行全面關(guān)聯(lián),實(shí)現(xiàn)防控對(duì)象、防控設(shè)施精準(zhǔn)上圖,形成疫情指揮“一張圖”。目前“一張圖”已匯聚各類信息2.76億條,通過小程序上報(bào)信息4 000多萬條(含線索5萬多條),監(jiān)控重點(diǎn)人群(包括患者、密切接觸者、集中觀察人群)相關(guān)數(shù)據(jù)超過30萬條。

        基于“四標(biāo)四實(shí)”的精準(zhǔn)疫情防控模塊,以“四標(biāo)四實(shí)”大數(shù)據(jù)庫的數(shù)據(jù)為基礎(chǔ),進(jìn)一步匯聚整理了人房居住關(guān)系數(shù)據(jù)、政企事業(yè)單位數(shù)據(jù)以及單位從業(yè)人員數(shù)據(jù)、社保繳納數(shù)據(jù),建立了人員群居關(guān)系、人口家庭關(guān)系、工作同事關(guān)系等數(shù)據(jù)單元。疫情期間再次疊加確診人群數(shù)據(jù)和紅碼人群數(shù)據(jù)、公共交通乘坐記錄等,建立數(shù)據(jù)規(guī)則模型,精準(zhǔn)識(shí)別重點(diǎn)人群,輔助防疫人員進(jìn)行重點(diǎn)跟蹤和布防。疫情防控大數(shù)據(jù)建設(shè)及應(yīng)用情況圖1所示。

        平臺(tái)根據(jù)業(yè)務(wù)數(shù)據(jù)類型,建立家庭人群、同住人群、同事人群、同樓人群、同社區(qū)人群、同行人群等數(shù)據(jù)實(shí)體,以確診人員、疑似病例為核心,以發(fā)現(xiàn)時(shí)間和隔離要求為輔助條件,設(shè)置相關(guān)算法規(guī)則,精準(zhǔn)識(shí)別高危人員、重點(diǎn)人員以及應(yīng)跟蹤觀察的人員等不同級(jí)別的群體。

        3 大數(shù)據(jù)分析和挖掘技術(shù)在疫情防控中的應(yīng)用

        圖1 疫情防控大數(shù)據(jù)建設(shè)及應(yīng)用情況

        為了充分利用數(shù)據(jù)中的隱含信息,有效識(shí)別潛在的高危人群、感染人群,對(duì)聚集性感染事件進(jìn)行預(yù)警,必須采用關(guān)聯(lián)規(guī)則、聚類分析等大數(shù)據(jù)分析和挖掘技術(shù)。X市疫情防控指揮系統(tǒng)構(gòu)建了一套處理數(shù)據(jù)、挖掘數(shù)據(jù)的解決方案,并且在疫情防控實(shí)戰(zhàn)中通過不斷訓(xùn)練增強(qiáng)了自身的應(yīng)對(duì)能力。

        3.1 基于關(guān)聯(lián)規(guī)則的重點(diǎn)懷疑對(duì)象挖掘

        在“一張圖”中,人與人的關(guān)系分為同住關(guān)系、同事關(guān)系、同乘交通工具等,而現(xiàn)實(shí)情況更為復(fù)雜,大多數(shù)關(guān)聯(lián)關(guān)系沒有被人為編寫的關(guān)系數(shù)據(jù)庫所收納。然而這些關(guān)系造成的接觸正是疫情防控工作中的盲點(diǎn)、難點(diǎn)。如何基于已有可接觸的數(shù)據(jù),推知間接的、隱含的、可以造成人員之間接觸的關(guān)聯(lián)關(guān)系,是應(yīng)用數(shù)據(jù)挖掘的重點(diǎn)和難點(diǎn)。

        應(yīng)用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)目標(biāo)數(shù)據(jù)的經(jīng)典案例出現(xiàn)在零售領(lǐng)域,即耳熟能詳?shù)摹捌【婆c紙尿褲法則”,盡管在邏輯上難以推測出這兩種商品的消費(fèi)關(guān)聯(lián)性,但是可以通過統(tǒng)計(jì)數(shù)據(jù)的積累,基于貝葉斯概率得到量化的二者間的關(guān)聯(lián)度[1-2]。COVID-19感染人員傳播途徑時(shí)空分析圖2所示。基于COVID-19感染人員傳播途徑時(shí)空分析的關(guān)聯(lián)規(guī)則聚類如圖3所示。

        圖2 COVID-19感染人員傳播途徑時(shí)空分析

        圖3 基于COVID-19感染人員傳播途徑時(shí)空分析的關(guān)聯(lián)規(guī)則聚類

        在疫情防控中,經(jīng)常有這樣一種情況:數(shù)據(jù)庫中有一位市民的居住地和工作地?cái)?shù)據(jù),也有其工作時(shí)間(如進(jìn)入單位時(shí)健康碼掃碼所得)數(shù)據(jù),沒有該市民的出行行程信息,但是該信息也是非常受關(guān)注的,關(guān)聯(lián)規(guī)則挖掘就可以用在此處[3-4]。通過對(duì)具有隱含信息的情報(bào)進(jìn)行分析,獲取與其關(guān)聯(lián)的信息,比如,通過工作地、居住地信息,結(jié)合規(guī)則的抽取算法,可以推知較可能的出行方式和涉及的公共交通線路等信息,從而在這一群體中出現(xiàn)感染者或疑似感染者時(shí),能夠快速對(duì)這一群體進(jìn)行預(yù)警和監(jiān)控。這一過程的意義在于為后續(xù)的重點(diǎn)人群篩選算法提供人群間關(guān)系的支持度和置信度數(shù)據(jù)。比如,某市民的居住地和工作地都在某地鐵線路附近,并且工作時(shí)間已知。通過對(duì)地理信息的分析,模型可以針對(duì)其通過地鐵出行,以及在某一時(shí)段在某一地鐵線路上出現(xiàn)的概率給出判斷,從而在該出行群體出現(xiàn)敏感對(duì)象時(shí),量化該市民和該對(duì)象間的關(guān)系。

        基于關(guān)聯(lián)規(guī)則挖掘疫情重點(diǎn)人群的模型充分利用了已有的數(shù)字政府基礎(chǔ)應(yīng)用平臺(tái)的數(shù)據(jù)資源,訓(xùn)練獲取了包括家庭住址同居人、工作單位同事、通勤可能接 觸人群、常去消費(fèi)場所可能接觸人群、居住地附近活動(dòng)可能接觸人群等一系列 關(guān)聯(lián)關(guān)系數(shù)據(jù),如圖4所示?;谶@種拓展,有效擴(kuò)大了原本簡單的關(guān)聯(lián)規(guī)則,擴(kuò)大了疫情緊急情況發(fā)生時(shí)的監(jiān)控范圍,有效地防止了疫情擴(kuò)散。

        為了科學(xué)地制定市民關(guān)聯(lián)數(shù)據(jù)規(guī)則,本文采用基于規(guī)則模型的閾值數(shù)據(jù)抽取方法。對(duì)于每一個(gè)市民,在“四標(biāo)四實(shí)”的基礎(chǔ)數(shù)據(jù)庫中,通過主成分分析、因子分析及基于機(jī)器學(xué)習(xí)的回歸算法等特征提取方法,建立與防疫相關(guān)的市民關(guān)聯(lián)向量,記為其中每個(gè)維度對(duì)應(yīng)家庭住址、工作單位、通勤方式、常去消費(fèi)場所、居民活動(dòng)時(shí)間、重要人流密集區(qū)域、隱藏同居人和密接同行人等一系列關(guān)聯(lián)關(guān)系。假設(shè)市民A為疑似感染者,則可以定義基于樣本 性質(zhì),可以定義市民B的關(guān)聯(lián)向量為:如果A與B的第i個(gè)分量屬于同一個(gè)范疇(可根據(jù)“四標(biāo)四實(shí)”中的距離標(biāo)定數(shù)據(jù)給出),則B繼承A在該分量的值;否則,對(duì)應(yīng)分量值滿足即:

        針對(duì)疫情人員關(guān)聯(lián)信息網(wǎng)中重點(diǎn)人群的抽取過程,依據(jù)疫情發(fā)展的不同階段設(shè)計(jì)出兩種對(duì)應(yīng)的數(shù)據(jù)抽取方法。

        (1)閾值信息法

        在疫情發(fā)展平緩的情形下,COVID-19檢測呈陽性人員較少,病毒傳播人群結(jié)構(gòu)信息較明確,市民關(guān)聯(lián)信息較易獲取,故可以采取閾值信息法篩選重點(diǎn)懷疑對(duì)象人群。假設(shè)市民A為檢測呈陽性人員(信息由X市相關(guān)醫(yī)療機(jī)構(gòu)提供)。

        第一步:設(shè)置地理位置閾值信息Gε,根據(jù)歐幾里得范數(shù)多維球面區(qū)域初步篩選懷疑對(duì)象人群,其中分別為市民A和篩選對(duì)象I的原始個(gè)人地理位置信息,二者信息間距取歐幾里得范數(shù)E。

        第二步:求解市民關(guān)聯(lián)模型閾值信息Fε,根據(jù)非線性高斯不規(guī)則球面區(qū)域進(jìn)行確定,表示篩選對(duì)象J與市民A在關(guān)聯(lián)信息網(wǎng)中的節(jié)點(diǎn)相關(guān)性。市民關(guān)聯(lián)模型閾值信息Fε由傳染病微分方程模型——易感者-感染者-易感者(susceptibleinfectious-susceptible,SIS)模型確定:設(shè)S(t)為t時(shí)刻的易感者人數(shù),I(t)為t時(shí)刻的感染者人數(shù),N為群體總?cè)藬?shù),則SIS模型可以表示為:

        其中,r表示在單位時(shí)間內(nèi)感染者接觸到的易感者人數(shù),β表示傳染率,γ表示康復(fù)率,則市民關(guān)聯(lián)模型閾值信息Fε可以通過式(2)的解表示為:

        (2)奇異值分解法

        在疫情剛剛出現(xiàn)及新的突發(fā)情況出現(xiàn)的情形下,COVID-19感染人員情況不明,病毒傳播人群結(jié)構(gòu)信息較為模糊,市民關(guān)聯(lián)信息很難獲取,需篩查的重點(diǎn)人群目標(biāo)不明確,因此利用奇異值分解法(singular value decomposition,SVD)篩選重點(diǎn)懷疑對(duì)象人群。假設(shè)市民A為檢測呈陽性人員(信息由X市相關(guān)醫(yī)療機(jī)構(gòu)提供)。

        第一步:設(shè)置地理位置閾值信息Gε,根據(jù)歐幾里得范數(shù)多維球面區(qū)域初步篩選懷疑對(duì)象人群,其中n為大規(guī)模篩選懷疑對(duì)象人群模型的參數(shù),分別為市民A和篩選對(duì)象I的原始個(gè)人地理位置信息。

        圖4 基于關(guān)聯(lián)規(guī)則的重點(diǎn)懷疑對(duì)象挖掘

        第二步:根據(jù)閾值信息法中給出的市民關(guān)聯(lián)模型閾值信息Fε,將重點(diǎn)懷疑對(duì)象人群集合擴(kuò)大為符合的非線性高斯不規(guī)則球面區(qū)域。針對(duì)中的所有篩選對(duì)象J計(jì)算關(guān)聯(lián)信息網(wǎng)的節(jié)點(diǎn)相關(guān)性 Cov(CovNet)AJ,構(gòu)造大規(guī)模市民關(guān)聯(lián)信息矩陣。由關(guān)聯(lián)信息網(wǎng)節(jié)點(diǎn)相關(guān)性 Cov(CovNet)AJ的定義可知,是一個(gè)對(duì)角線全為零的非負(fù)矩陣,因此由奇異值分解定理可知,存在矩陣U、V,滿足:其中并且根據(jù)奇異值分解定理,矩陣V的前m1列恰為的右奇異向量組,可以表示為其中為向量組中的向量個(gè)數(shù),α常取0.05,m1表示右奇異向量組的子集中特值最大且加和幾乎等于之跡的最小向量組(SVD在此處起到篩選要點(diǎn)的作用,只考察最相關(guān)的奇異值,舍棄噪聲)。因此大規(guī)模篩選重點(diǎn)懷疑對(duì)象人群的數(shù)據(jù)抽取方向確定為向量組中每一個(gè)向量均表示一個(gè)與COVID-19感染者密切相關(guān)的人員(即m1個(gè)對(duì)象),vi表示其在關(guān)聯(lián)信息網(wǎng)中各維度信息與市民A的距離向量。

        3.2 基于概率聚類算法的聚集性感染預(yù)警

        根據(jù)人工采集統(tǒng)計(jì)的疫情信息,僅可以發(fā)現(xiàn)家庭聚集、企業(yè)聚集等少數(shù)特征明顯的聚集性感染情形,無法發(fā)現(xiàn)所采集條目文本外的隱含信息所關(guān)聯(lián)的傳播場景。例如當(dāng)感染者在居民區(qū)附近的超市被感染時(shí),這一信息不會(huì)被直接收入數(shù)據(jù)庫中,但是可能可以用已有信息向量來表示?;诟怕示垲愃惴?,在高維度、大數(shù)據(jù)量的居民綜合信息中,系統(tǒng)可以無監(jiān)督地動(dòng)態(tài)地發(fā)現(xiàn)具有高相似性的居民群體[5-6],如果所得聚類在緊密性、信息距離等指標(biāo)上符合要求,就會(huì)推送給人工審閱,如果的確是缺失的觀察角度,就會(huì)被標(biāo)注,進(jìn)一步分析。通過這種方式,可以極大地?cái)U(kuò)充視野、查漏補(bǔ)缺,避免人工設(shè)計(jì)的不足[7-8]。

        基于,期望最大化(expectation maxmum,EM)概率聚類的聚集性感染預(yù)警算法框架如圖5所示。具體算法步驟如下。

        第一步:根據(jù)“四標(biāo)四實(shí)”基礎(chǔ)數(shù)據(jù)平臺(tái)的相關(guān)個(gè)人信息(主要包括地理位置信息(居住位置和工作位置為主)、網(wǎng)格普查所得行程信息、基于歷史記錄數(shù)據(jù)的行為畫像等)建立個(gè)人行為向量。

        第二步:將個(gè)人行為向量作為空間中的節(jié)點(diǎn),建立基于EM概率聚類算法的聚集性 感染預(yù)警模型。記個(gè)人行為向量的維數(shù)為d,設(shè)聚集性感染的情形有k種,其中包括家庭聚集、企業(yè)聚集以及商業(yè)場所聚集等情形。設(shè)第j個(gè)聚類集合jχ的人行為向量集合可以表示為假設(shè)基于的概率參數(shù)模型可以用來描述人行為向量集合的分布,其中θ為隱含參數(shù)集合,為參數(shù)各成分均值向量,為參數(shù)各成分協(xié)方差矩陣,則它的混合密度為:

        根據(jù)大數(shù)定理,當(dāng)樣本量足夠大時(shí),樣本集近似服從高斯分布。此時(shí)概率聚類模型參數(shù)集合可以通過EM算法給出。

        3.3 基于非結(jié)構(gòu)化數(shù)據(jù)的文本挖掘發(fā)現(xiàn)疫情線索

        疫情期間,來自政府服務(wù)熱線、微信投訴平臺(tái)、各部門投訴渠道和網(wǎng)站的疫情相關(guān)線索數(shù)量巨大、文本眾多,各部門人力不足,無法通過人工充分利用這些非結(jié)構(gòu)化的情報(bào),使用文本挖掘的手段篩選文本數(shù)據(jù)中的關(guān)鍵信息、高頻熱詞、輿情趨勢以及把握群眾心理十分有必要。

        文本數(shù)據(jù)中包含的有價(jià)值的信息之一是與疫情有關(guān)的地理空間信息,結(jié)合疫情防控指揮系統(tǒng)整合的數(shù)據(jù),系統(tǒng)可以快速定位疑似聚集性感染發(fā)生地、劃定高危地區(qū)。利用BiLSTM+CRF模型進(jìn)行文本序列標(biāo)注,使用ERNIE語義模型進(jìn)行實(shí)體抽取的訓(xùn)練和微調(diào),所獲得的模型可以識(shí)別出多級(jí)地址、主語、組織機(jī)構(gòu)名和事項(xiàng),從而從非結(jié)構(gòu)化的文本中獲得有價(jià)值的信息。為了增加模型的精確度和提高對(duì)本地情報(bào)信息的敏感度,在MSRA-NER數(shù)據(jù)集的基礎(chǔ)上,訓(xùn)練分兩步,即分別在源域進(jìn)行學(xué)習(xí)和在目標(biāo)域進(jìn)行遷移學(xué)習(xí),結(jié)合在先前積累的政務(wù)數(shù)據(jù)中篩選出的常見實(shí)體、事項(xiàng)、專有名詞庫,通過遷移學(xué)習(xí),較快地得到了更精準(zhǔn)的模型。

        除地理信息等預(yù)定的需求實(shí)體信息外,十分常見而難以預(yù)先規(guī)定的重要信息是關(guān)于主體行為的謂詞信息。對(duì)于少部分契合政務(wù)數(shù)據(jù)庫中既有常見事項(xiàng)的信息,可以通過上述實(shí)體抽取技術(shù)獲取,而由于疫情的突然性和新穎性,疫情線索中涉及的絕大多數(shù)情報(bào)并非既有事項(xiàng),市民使用的口語化表述往往不利于統(tǒng)計(jì)和進(jìn)行進(jìn)一步的數(shù)據(jù)治理。因此,對(duì)日常語言化的表述進(jìn)行“序列到序列(seq2seq)”的文本生成十分有必要。這種方法本質(zhì)上和機(jī)械翻譯使用的序列到序列的技術(shù)是類似的。針對(duì)漢語較復(fù)雜的短語、詞組結(jié)構(gòu)(比如由于斷句的不同,句子可能產(chǎn)生歧義,這對(duì)文本生成是一個(gè)挑戰(zhàn)),此處采用多層次注意力(multi-flow attention)機(jī)制的結(jié)構(gòu),即在詞與詞(word-by-word)和段與段(span-by-span)兩個(gè)級(jí)別上的填充生成機(jī)制。于是,基于ERNIE-GEN模型[9]的結(jié)構(gòu),形成了一套文本縮寫工具,使得系統(tǒng)可以將口語化的疫情線索文本簡化為包含關(guān)鍵元素的簡單陳述句,便于進(jìn)一步的數(shù)據(jù)治理和人工匯總使用。

        通過上述技術(shù),計(jì)算機(jī)可以將一段文本翻譯為只包含重點(diǎn)關(guān)注要素的簡單陳述句或結(jié)構(gòu)化的記錄表,繼而可以將之加入“一張圖”的數(shù)據(jù)庫中,或通過聚類等方法加以利用,如圖6所示。

        圖5 基于EM概率聚類算法的聚集性感染預(yù)警算法框架

        在具體處理過程中,模型通過主題模型聚類方法,以及潛在語義分析、潛在狄利克萊分配(latent Dirichlet allocation)和概率潛在語義分析等手段發(fā)現(xiàn)等價(jià)詞與主題的表示集合[7]。這種等價(jià)是通過文本內(nèi)詞之間的共現(xiàn)關(guān)系來實(shí)現(xiàn)的,特別適用于疫情文本非結(jié)構(gòu)化數(shù)據(jù)的多主題標(biāo)記特點(diǎn)[10]。而基于劃分的聚類方法(包括K-均值、非線性K-均值和核K-均值等算法)可以通過角距離的度量實(shí)現(xiàn)非結(jié)構(gòu)化大規(guī)模語義分類[11]。對(duì)于常見主題結(jié)構(gòu)的文本語義分析,也可以通過詞轉(zhuǎn)向量的方法將非結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化,然后通過結(jié)構(gòu)數(shù)據(jù)分析方法提取疫情線索信息?;谏鲜龇椒ǖ乃惴ńY(jié)構(gòu)如圖7所示。

        4 結(jié)束語

        X市依托數(shù)字政府基礎(chǔ)應(yīng)用平臺(tái)及“四標(biāo)四實(shí)”基層治理數(shù)據(jù),采用大數(shù)據(jù)分析和挖掘技術(shù),快速構(gòu)建了疫情防控指揮系統(tǒng),在疫情防控工作中該系統(tǒng)發(fā)揮了重要作用。該平臺(tái)已應(yīng)用于市委辦公廳、市政府辦公廳、市發(fā)改委、市公安局、市衛(wèi)健委等76個(gè)部門、11個(gè)區(qū)、176個(gè)街道、2 790個(gè)村委、25家醫(yī)院,累計(jì)節(jié)約了十余萬小時(shí)的基層人力消耗,助力實(shí)現(xiàn)一個(gè)月左右的將本土每日新增病例控制在個(gè)位數(shù),3個(gè)月左右本土每日新增病例基本為零。截至2020年7月21日,通過該系統(tǒng)發(fā)現(xiàn)并阻斷感染人52人,累計(jì)“紅碼”人員305 024人,集中隔離11 310人,居家隔離1 095人,直接減少經(jīng)濟(jì)損失3 400萬元;在后續(xù)企業(yè)復(fù)工復(fù)產(chǎn)工作中,系統(tǒng)進(jìn)一步整合了全市企業(yè)數(shù)據(jù),支持了對(duì)全市30 933家重點(diǎn)企業(yè)和579個(gè)重點(diǎn)項(xiàng)目的精準(zhǔn)幫扶,有力推動(dòng)了經(jīng)濟(jì)的快速復(fù)蘇。

        圖6 基于非結(jié)構(gòu)化數(shù)據(jù)的文本挖掘發(fā)現(xiàn)疫情線索

        圖7 基于聚類方法的非結(jié)構(gòu)化文本數(shù)據(jù)挖掘發(fā)現(xiàn)疫情線索算法結(jié)構(gòu)

        在平臺(tái)的建設(shè)和應(yīng)用過程中,X市數(shù)字政府有關(guān)部門也發(fā)現(xiàn)了一些不足的地方:一是個(gè)別政府部門信息化建設(shè)相對(duì)薄弱,部分重要數(shù)據(jù)仍然通過電子表格的形式進(jìn)行采集,影響了數(shù)據(jù)比對(duì)、清洗和分析的效率;二是對(duì)人工智能技術(shù)的利用尚不夠深入。下一步X市將全面加強(qiáng)疫情防控相關(guān)信息化建設(shè)工作,全面匯聚政務(wù)信息資源,充分利用最新人工智能技術(shù),為疫情防控常態(tài)化提供更加有力的支撐。

        猜你喜歡
        關(guān)聯(lián)聚類向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        奇趣搭配
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        向量垂直在解析幾何中的應(yīng)用
        基于改進(jìn)的遺傳算法的模糊聚類算法
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        午夜亚洲精品视频网站| 黄色视频在线免费观看| 特黄aa级毛片免费视频播放| 抖射在线免费观看视频网站| 国产饥渴的富婆一凶二区| 久久久国产打桩机| 日本真人边吃奶边做爽动态图| 激情偷乱人成视频在线观看| 韩日美无码精品无码| 午夜爽毛片| 国产精品成人一区二区在线不卡| 国产激情无码一区二区| 国产在线精品一区二区不卡| 国产丰满乱子伦无码专| 亚洲一区二区三区日韩在线观看| 免费国产成人肉肉视频大全| 国产日韩成人内射视频| 免费国产h视频在线观看86| 蜜桃av在线播放视频| 亚洲av一二三区成人影片| 日本老熟欧美老熟妇| 国产午夜精品福利久久| 玖玖资源网站最新网站| 香蕉视频在线观看亚洲| 一本色道久久88综合日韩精品| 亚洲精品久久久久中文字幕二区| 亚洲欧美久久婷婷爱综合一区天堂| 亚洲一区二区三区在线视频| 女人色熟女乱| 麻豆91免费视频| 国产视频在线播放亚洲| 国内永久福利在线视频图片| 国产专区国产av| 在线观看av手机网址| 国产一区二区三区在线观看蜜桃| 精品亚洲国产成人蜜臀av| 女人喷潮完整视频| 久久国产亚洲高清观看5388| 亚洲国产高清一区av| 日韩精品专区av无码| 国产成人精品日本亚洲18|