亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LightGBM算法的高致病性傳染病的傳播趨勢(shì)預(yù)測(cè)研究

        2022-05-20 10:13:10周偉鴻朱思霖
        物聯(lián)網(wǎng)技術(shù) 2022年5期
        關(guān)鍵詞:特征模型

        周偉鴻,朱思霖

        (廈門(mén)大學(xué)嘉庚學(xué)院,福建 漳州 363105)

        0 引 言

        傳染?。–ontagious Diseases)的有效防治是全人類(lèi)面臨的共同挑戰(zhàn)。通過(guò)大數(shù)據(jù),特別是數(shù)據(jù)的時(shí)空關(guān)聯(lián)特性,精準(zhǔn)預(yù)測(cè)傳染病的傳播趨勢(shì)和速度,將有助于人類(lèi)社會(huì)控制傳染病,進(jìn)而保障社會(huì)公共衛(wèi)生安全。本文以2020 IKCEST第二屆“一帶一路”國(guó)際大數(shù)據(jù)競(jìng)賽暨第六屆百度&西安交通大學(xué)大數(shù)據(jù)競(jìng)賽為依托,針對(duì)賽題所構(gòu)造的若干虛擬城市,構(gòu)建傳染病群體傳播預(yù)測(cè)模型。根據(jù)該地區(qū)傳染病的歷史每日新增感染人數(shù)、城市間遷徙指數(shù)、網(wǎng)格人流量指數(shù)、網(wǎng)格關(guān)聯(lián)強(qiáng)度和天氣等數(shù)據(jù),預(yù)測(cè)群體未來(lái)一段時(shí)間每日新增感染人數(shù)。高致病性傳染病的傳播趨勢(shì)的精準(zhǔn)預(yù)測(cè),在一定層面上不但可以為疫情防控決策和效果評(píng)價(jià)提供參考,而且對(duì)疫情防控具有一定的應(yīng)用價(jià)值和社會(huì)價(jià)值。

        1 任務(wù)分析

        1.1 任務(wù)說(shuō)明

        2020 IKCEST賽題共涉及11個(gè)虛擬城市的90天的傳染病感染情況,每個(gè)城市有若干重點(diǎn)區(qū)域。初賽要求針對(duì)所提供的5個(gè)城市,利用每個(gè)城市各區(qū)域前45天的樣本數(shù)據(jù)進(jìn)行訓(xùn)練,預(yù)測(cè)每個(gè)城市各區(qū)域后30天每天的新增感染人數(shù)。復(fù)賽要求針對(duì)包含初賽城市在內(nèi)的11個(gè)城市,利用每個(gè)城市各區(qū)域前60天的樣本數(shù)據(jù)進(jìn)行訓(xùn)練,預(yù)測(cè)每個(gè)城市各區(qū)域后30天每天的新增感染人數(shù)。本文以初賽為例,對(duì)高致病性傳染病的傳播趨勢(shì)預(yù)測(cè)方案進(jìn)行說(shuō)明。

        1.2 方案設(shè)計(jì)

        2020 IKCEST賽題中,所給數(shù)據(jù)均為多維度的時(shí)間序列數(shù)據(jù),而傳統(tǒng)時(shí)間序列模型,如ARIMA模型只能通過(guò)新增感染人數(shù)本身預(yù)測(cè)新增感染人數(shù),無(wú)法關(guān)聯(lián)遷移指數(shù)等其他維度的特征,故在方案設(shè)計(jì)中選用具有高效解釋性的機(jī)器學(xué)習(xí)模型—LightGBM模型進(jìn)行預(yù)測(cè)。在數(shù)據(jù)呈現(xiàn)方面,感染人數(shù)變化幅度及波動(dòng)較大,并且統(tǒng)計(jì)的特征均為時(shí)間序列數(shù)據(jù),缺乏固定特征,感染人數(shù)難以與單項(xiàng)特征相關(guān),故而需要針對(duì)訓(xùn)練數(shù)據(jù)特點(diǎn)進(jìn)行特征工程。針對(duì)賽題特點(diǎn)及數(shù)據(jù)特點(diǎn),本文提出的高致病性傳染病的傳播趨勢(shì)預(yù)測(cè)流程如圖1所示。

        圖1 方案流程

        2 數(shù)據(jù)分析

        2.1 數(shù)據(jù)探索性分析

        在本實(shí)驗(yàn)中,須通過(guò)5個(gè)城市前45天的感染人數(shù)對(duì)后15天的感染人數(shù)進(jìn)行預(yù)測(cè)。競(jìng)賽數(shù)據(jù)訓(xùn)練集共包括5個(gè)城市,每個(gè)城市目錄下包含6個(gè)文件,其中infection包含各區(qū)域每天新增感染人數(shù)數(shù)據(jù),migration包含城市間遷徙指數(shù)數(shù)據(jù),density包含網(wǎng)格人流量指數(shù)數(shù)據(jù),transfer包含網(wǎng)格關(guān)聯(lián)強(qiáng)度數(shù)據(jù),grid_attr包含網(wǎng)格歸屬區(qū)域數(shù)據(jù),weather包含天氣數(shù)據(jù)。復(fù)賽新增6個(gè)城市,訓(xùn)練集的城市數(shù)量從5增加到11;訓(xùn)練集的時(shí)間窗口從45天增加到60天;其他不變。具體文件信息見(jiàn)表1所列。

        表1 競(jìng)賽訓(xùn)練數(shù)據(jù)信息

        2.2 特征工程

        賽題數(shù)據(jù)主要包括各個(gè)城市每天的新增感染人數(shù)、遷徙城市以及指數(shù)、人流量指數(shù)、人口遷移強(qiáng)度、天氣數(shù)據(jù)。對(duì)數(shù)據(jù)進(jìn)行分析后,初步得出結(jié)論:數(shù)據(jù)規(guī)模大,數(shù)據(jù)量約為4 GB;數(shù)據(jù)間經(jīng)緯度對(duì)應(yīng)有大量缺失;分析的數(shù)據(jù)為歷史時(shí)間序列數(shù)據(jù),缺乏固定特征與聯(lián)系。

        根據(jù)數(shù)據(jù)特點(diǎn)及分析結(jié)論,構(gòu)建了基于統(tǒng)計(jì)特征和lagging特征的特征工程。即對(duì)數(shù)據(jù)表格根據(jù)日期進(jìn)行拼接,以日期分組構(gòu)造人流量指數(shù)、天氣數(shù)據(jù)等統(tǒng)計(jì)特征,通過(guò)新增感染人數(shù)的歷史數(shù)據(jù)構(gòu)造lagging特征,具體說(shuō)明如下。

        2.2.1 構(gòu)造統(tǒng)計(jì)特征

        通過(guò)日期、區(qū)域進(jìn)行劃分,統(tǒng)計(jì)感染人數(shù)的統(tǒng)計(jì)特征,比如新增感染人數(shù)的均值、方差、最大值、最小值、偏差、峰度、四分位數(shù)等特征以及遷移指數(shù)等特征的平均值、中值。

        2.2.2 構(gòu)造lagging特征

        lagging特征是時(shí)間序列分析中與時(shí)間相關(guān)的滯后特征,比如可用第一天的新增感染人數(shù)作為第二天的一個(gè)lagging特征。本文采用長(zhǎng)時(shí)間序列的lagging,即利用前45天數(shù)據(jù)預(yù)測(cè)第一天(即第46天),然后用前46天的數(shù)據(jù)預(yù)測(cè)第2天(即第47天),以此類(lèi)推,lagging特征的具體構(gòu)造方法如圖2所示。采用長(zhǎng)時(shí)間序列的lagging特征,讓模型更好地抓住歷史感染特征的同時(shí),可以較準(zhǔn)確地完成第天的感染人數(shù)預(yù)測(cè)或未來(lái)感染人數(shù)的預(yù)測(cè)。

        圖2 lagging特征構(gòu)造示意圖

        3 LightGBM模型

        LightGBM模型是由微軟亞洲研究院提出的一種決策樹(shù)分布式梯度提升算法GBDT的框架,因其具有高訓(xùn)練效率、低內(nèi)存使用,可處理大規(guī)模數(shù)據(jù),支持直接使用類(lèi)別特征等優(yōu)勢(shì)而被廣泛應(yīng)用。LightGBM模型包含的4種改進(jìn)算法及其優(yōu)勢(shì)如圖3所示。

        圖3 LightGBM模型包含的4種改進(jìn)算法及其優(yōu)勢(shì)

        賽題所給數(shù)據(jù)的數(shù)量大、差異性大,應(yīng)用LightGBM模型時(shí),單邊梯度采樣算法GOSS(Gradient-based One-Side Sampling, GOSS)并未直接對(duì)樣本進(jìn)行訓(xùn)練,而是根據(jù)梯度對(duì)訓(xùn)練集數(shù)據(jù)的特征進(jìn)行排序,通過(guò)預(yù)設(shè)比例,保留梯度大的樣本,對(duì)梯度小的樣本隨機(jī)保留,同時(shí)放大小梯度樣本帶來(lái)的信息增益,從而避免數(shù)據(jù)分布的改變。通過(guò)GOSS算法處理,能夠使模型訓(xùn)練時(shí)關(guān)注“未被充分訓(xùn)練”的樣本數(shù)據(jù),從而完成海量數(shù)據(jù)的充分訓(xùn)練。另外,對(duì)于訓(xùn)練數(shù)據(jù)具有標(biāo)簽跨度大、異常值多的特點(diǎn),利用直方圖算法,將大規(guī)模的數(shù)據(jù)放在了直方圖中,使得特征占用內(nèi)存更小,加速了模型的訓(xùn)練。對(duì)于樣本的特征維度很高、樣本空間稀疏的特點(diǎn),LightGBM模型采用EFB(Exclusive Feature Bundling, EFB)算法進(jìn)行特征優(yōu)化,通過(guò)稀疏特征的合并、互斥特征的綁定等方式進(jìn)一步優(yōu)化了模型的訓(xùn)練速度。最后,通過(guò)按葉子生長(zhǎng)leaf-wise算法防止了數(shù)據(jù)過(guò)擬合。綜上可知,對(duì)于解決高致病性傳染病的傳播趨勢(shì)預(yù)測(cè)問(wèn)題,LightGBM模型具有迭代速度快、可解釋性強(qiáng)等特點(diǎn)。

        4 模型參數(shù)和實(shí)驗(yàn)結(jié)果

        4.1 模型參數(shù)

        機(jī)器學(xué)習(xí)中,不同的參數(shù)模型會(huì)對(duì)訓(xùn)練效果產(chǎn)生不同的影響,本方案中使用的LightGBM模型的超參數(shù)具體含義及設(shè)置見(jiàn)表2所列。在樹(shù)模型中,當(dāng)遇到過(guò)擬合時(shí),可以首先考慮降低樹(shù)的深度(max_depth參數(shù))的值,而數(shù)的葉子數(shù)量(num_leaves)的取值最好為2max_depth,其中max_depth為樹(shù)的最大深度,超過(guò)此值也容易導(dǎo)致模型過(guò)擬合;此外,為了平衡模型誤差以及模型復(fù)雜度,也可采用正則化參數(shù),即Lambda參數(shù)。在遇到過(guò)擬合的情況時(shí),也可引入bagging_fraction參數(shù)。

        表2 LightGBM模型的超參數(shù)含義及設(shè)置

        4.2 評(píng)估標(biāo)準(zhǔn)

        為了評(píng)估預(yù)測(cè)效果、衡量觀測(cè)值與真值之間的誤差,本文采用回歸評(píng)價(jià)指標(biāo)均方根誤差(Root Mean Square Error,RMSE)對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,原理是計(jì)算觀測(cè)值和真值間偏差的平方和與觀測(cè)次數(shù)比值的平方根,如式(1)所示。

        4.3 實(shí)驗(yàn)結(jié)果

        在預(yù)測(cè)過(guò)程中,隨著時(shí)間的推移,新增感染人數(shù)的變化幅度越來(lái)越大,數(shù)據(jù)的波動(dòng)性越來(lái)越強(qiáng),在統(tǒng)計(jì)特征上表現(xiàn)為感染人數(shù)的方差越來(lái)越大,數(shù)據(jù)的穩(wěn)定性較差。本文通過(guò)對(duì)新增感染人數(shù)取對(duì)數(shù)變換來(lái)降低異方差性及共線性的影響,數(shù)據(jù)的形態(tài)特征更接近于正態(tài)分布。為了使數(shù)據(jù)與初始狀態(tài)保持一致且具有可解釋性,在經(jīng)過(guò)LightGBM模型預(yù)測(cè)后,對(duì)預(yù)測(cè)結(jié)果進(jìn)行指數(shù)變換,從而得到最終的新增感染人數(shù)的預(yù)測(cè)結(jié)果。本文選取了A、B、C、D、E 共5個(gè)城市的若干區(qū)域繪制了新增感染人數(shù)預(yù)測(cè)圖,如圖4所示。從圖中可以看出,不同城市的新增感染人數(shù)的走勢(shì)有各自的特點(diǎn),本方案對(duì)于A、B城市的新增感染人數(shù)有較好的預(yù)測(cè)效果,對(duì)于C、D城市預(yù)測(cè)偏差較大。對(duì)5個(gè)城市的總體預(yù)測(cè)結(jié)果,即5個(gè)城市不同區(qū)域的新增感染人數(shù)的預(yù)測(cè)值與真實(shí)值的均方根誤差RMSE,見(jiàn)表3所列。

        圖4 5個(gè)城市的新增感染人數(shù)預(yù)測(cè)結(jié)果

        表3 5個(gè)城市新增感染人數(shù)真實(shí)值與預(yù)測(cè)值均方根誤差

        5 結(jié) 語(yǔ)

        高致病性傳染病的傳播給人類(lèi)的生存帶來(lái)威脅,根據(jù)疾病傳播特點(diǎn)進(jìn)行及時(shí)干預(yù)和有效防控具有重要意義。本文提出一種基于LightGBM模型的高致病性傳染病的傳播趨勢(shì)預(yù)測(cè)方案。在方案中,根據(jù)感染人數(shù)的數(shù)據(jù)特點(diǎn),從統(tǒng)計(jì)和時(shí)序兩個(gè)方面構(gòu)造了多類(lèi)統(tǒng)計(jì)特征和lagging特征的特征工程,并利用LightGBM模型對(duì)新增感染人數(shù)進(jìn)行了預(yù)測(cè),取得了較好的預(yù)測(cè)結(jié)果,具有較低的RMSE。后續(xù)對(duì)于本實(shí)驗(yàn)的優(yōu)化方面,將主要從以下兩個(gè)方向進(jìn)行:

        (1)多角度的特征工程。例如可考慮多階的統(tǒng)計(jì)特征,進(jìn)一步挖掘人流量指數(shù)的潛在特征;還可以根據(jù)數(shù)據(jù)中給出的區(qū)域經(jīng)緯度,構(gòu)建區(qū)域圖,挖掘鄰近區(qū)域間新增感染人數(shù)的具體情況。

        (2)融合多種模型。比如可以嘗試LSTM的多輸入單輸出模型,該方法在序列建模問(wèn)題上有一定優(yōu)勢(shì);還可以以城市為粒度進(jìn)行考慮,使用SEIR(Susceptible Exposed Infected Removed)模型進(jìn)行預(yù)測(cè),最后通過(guò)模型的集成進(jìn)一步提高準(zhǔn)確率。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        一本久道在线视频播放| 国产精选污视频在线观看| 免费无码国产v片在线观看| 韩国一级成a人片在线观看| 亚洲国产人成自精在线尤物| 亚洲网站免费看| 久久精品成人一区二区三区蜜臀 | 国产一区二区三区视频网| 久久精品欧美日韩精品| 免费国产交换配乱淫| 亚洲日产AV中文字幕无码偷拍| 日本视频在线播放一区二区| 亚洲中文字幕久久精品一区| 免费视频爱爱太爽了| 污污污污污污WWW网站免费| 色婷婷亚洲十月十月色天| 国产一区二区黄色网页 | 免费a级毛片出奶水| 无码av一区在线观看| 精品亚洲一区二区在线观看| 久久99精品久久久久婷婷| 亚洲欧美中文字幕5发布| 精品久久久久久久无码| 久久精品国产亚洲AV高清wy| 与最丰满美女老师爱爱视频| 精品无码无人网站免费视频| 国产精品va无码一区二区| 99热这里只有精品国产66| 国产女主播一区二区三区在线观看| 成人片黄网站a毛片免费| 亚洲av一宅男色影视| 久久久久国产精品四虎| 亚洲国产av一区二区三区| 国产一区二区女内射| 亚洲婷婷丁香激情| 国产毛片精品一区二区色| 日韩 无码 偷拍 中文字幕| 欧美丰满熟妇乱xxxxx图片| 黄片在线观看大全免费视频| 日韩人妻中文字幕专区| 欧美性猛交xxxx富婆|