亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于百度指數(shù)的登革熱疫情預(yù)測(cè)研究

        2016-08-05 07:58:01王晶晶鄒遠(yuǎn)強(qiáng)彭友松李肯立蔣太交
        關(guān)鍵詞:百度疫情模型

        王晶晶 鄒遠(yuǎn)強(qiáng) 彭友松* 李肯立 蔣太交,2

        1(湖南大學(xué)信息科學(xué)與工程學(xué)院 湖南 長(zhǎng)沙 410082)2(中國(guó)科學(xué)院生物物理研究所蛋白質(zhì)與多肽藥物所重點(diǎn)實(shí)驗(yàn)室 北京 100101)

        ?

        基于百度指數(shù)的登革熱疫情預(yù)測(cè)研究

        王晶晶1鄒遠(yuǎn)強(qiáng)1彭友松1*李肯立1蔣太交1,2

        1(湖南大學(xué)信息科學(xué)與工程學(xué)院湖南 長(zhǎng)沙 410082)2(中國(guó)科學(xué)院生物物理研究所蛋白質(zhì)與多肽藥物所重點(diǎn)實(shí)驗(yàn)室北京 100101)

        摘要基于互聯(lián)網(wǎng)數(shù)據(jù)的傳染病疫情監(jiān)測(cè)成為近年來傳染病防治的熱點(diǎn)研究?jī)?nèi)容。通過對(duì)2014年9月暴發(fā)的以廣東省為中心的全國(guó)登革熱疫情與登革熱相關(guān)關(guān)鍵詞的百度指數(shù)的關(guān)聯(lián)性分析,發(fā)現(xiàn)地區(qū)(省、市)登革熱疫情嚴(yán)重程度與該地區(qū)“登革熱”關(guān)鍵詞的百度指數(shù)呈很強(qiáng)的正相關(guān)性。為了實(shí)時(shí)地預(yù)測(cè)疫情動(dòng)態(tài),建立基于12個(gè)登革熱相關(guān)關(guān)鍵詞的百度指數(shù)的多元線性回歸模型。在留一法交叉驗(yàn)證和反向測(cè)試中,該模型對(duì)于測(cè)試數(shù)據(jù)的預(yù)測(cè)值和實(shí)際值的皮爾森相關(guān)系數(shù)分別達(dá)到了0.89和0.73。經(jīng)實(shí)驗(yàn),該預(yù)測(cè)模型能夠比較準(zhǔn)確地預(yù)測(cè)登革熱疫情動(dòng)態(tài),同時(shí)該研究對(duì)于基于互聯(lián)網(wǎng)數(shù)據(jù)的傳染病疫情監(jiān)測(cè)和防治具有一定的指導(dǎo)意義。

        關(guān)鍵詞百度指數(shù)登革熱定量預(yù)測(cè)模型

        0引言

        登革熱是由登革熱病毒引起、伊蚊傳播的一種急性傳染病。臨床特征為起病急驟、高熱、全身肌肉、骨髓及關(guān)節(jié)痛、極度疲乏,部分患者有皮疹、出血傾向和淋巴結(jié)腫大[1]。登革熱廣泛流行于熱帶和亞熱帶的非洲、美洲、東南亞、西太平洋地區(qū)以及歐洲個(gè)別地區(qū)等100多個(gè)國(guó)家和地區(qū)。在中國(guó),本地登革熱暴發(fā)地區(qū)主要分布在廣東、福建、浙江、云南和臺(tái)灣,而輸入性病例地區(qū)主要分布在北京、上海、香港、澳門等地[2]。如何及時(shí)有效地防治登革熱已經(jīng)成為了我國(guó)和世界其他多個(gè)國(guó)家和地區(qū)日益嚴(yán)重的公共衛(wèi)生問題。

        在我國(guó),由于登革熱病毒不像流感病毒那樣季節(jié)性地流行,而且一直以來只是散發(fā)性流行,很少造成大的公共衛(wèi)生危機(jī)。此外,登革熱疫情的病例數(shù)據(jù)也很少公開。因此,目前國(guó)內(nèi)針對(duì)登革熱疫情監(jiān)測(cè)的研究不多,特別是基于互聯(lián)網(wǎng)數(shù)據(jù)來預(yù)測(cè)其流行動(dòng)態(tài)的研究很少。2014年9月在我國(guó)廣東暴發(fā)了史上最大規(guī)模的登革熱疫情,在短短的兩個(gè)多月時(shí)間里登革熱病毒感染人數(shù)超過5萬(wàn),這對(duì)我國(guó)的社會(huì)和經(jīng)濟(jì)造成了很大的影響。然而此間的登革熱病例數(shù)據(jù)也給我們研究基于互聯(lián)網(wǎng)數(shù)據(jù)的傳染病(尤其是登革熱)疫情監(jiān)測(cè)提供了一個(gè)機(jī)會(huì)。

        在本文中,我們首先分析登革熱在全國(guó)和廣東省的疫情分布,以及研究“登革熱”百度指數(shù)與地區(qū)疫情嚴(yán)重程度的關(guān)聯(lián)性,以此進(jìn)一步選取與登革熱相關(guān)的關(guān)鍵詞,并分析其各關(guān)鍵詞的百度指數(shù)與疫情動(dòng)態(tài)的相關(guān)性。由此建立基于12個(gè)關(guān)鍵詞的百度指數(shù)的多元線性回歸模型,并將歷史病例數(shù)據(jù)加入到模型訓(xùn)練中,通過留一法交叉驗(yàn)證評(píng)估模型效果,使用反向測(cè)試評(píng)價(jià)預(yù)測(cè)效果。最終我們發(fā)展了一個(gè)基于百度指數(shù)的定量預(yù)測(cè)模型來實(shí)時(shí)地預(yù)測(cè)登革熱疫情的動(dòng)態(tài)。

        1相關(guān)研究發(fā)展

        傳染病監(jiān)測(cè)是預(yù)防和控制傳染病疫情的核心。傳統(tǒng)的傳染病疫情監(jiān)測(cè)手段主要依賴各級(jí)醫(yī)療機(jī)構(gòu)、傳染病預(yù)防控制中心和傳染病監(jiān)測(cè)哨點(diǎn)醫(yī)院組建的監(jiān)測(cè)網(wǎng)絡(luò)提供的數(shù)據(jù)[3],整個(gè)監(jiān)測(cè)體系較為完善,但存在不足。首先,數(shù)據(jù)的獲取由各級(jí)單位逐層上報(bào)后匯總,會(huì)導(dǎo)致分析結(jié)果的滯后性;其次,該監(jiān)測(cè)手段耗費(fèi)大量人力物力,且病例數(shù)據(jù)很少對(duì)公眾公開。而基于互聯(lián)網(wǎng)的傳染病疫情監(jiān)測(cè)在很大程度上彌補(bǔ)了傳統(tǒng)監(jiān)測(cè)手段的不足。首先,互聯(lián)網(wǎng)數(shù)據(jù)涵蓋就診病人和未就診病人對(duì)傳染病防控知識(shí)、疫情新聞報(bào)道等的搜索信息,數(shù)據(jù)來源的人群范圍更廣;其次,數(shù)據(jù)雖然集中在少數(shù)提供商手中,但其為研究用戶提供了相應(yīng)數(shù)據(jù)共享接口,并且數(shù)據(jù)實(shí)時(shí)公布[4]。因此,將互聯(lián)網(wǎng)數(shù)據(jù)應(yīng)用于傳染病疫情的監(jiān)測(cè)成為各國(guó)公共衛(wèi)生研究的重要內(nèi)容。

        利用互聯(lián)網(wǎng)數(shù)據(jù)監(jiān)測(cè)傳染病疫情的思想最先開始于2006年[5]。隨后,各國(guó)傳染病疫情監(jiān)測(cè)研究者將互聯(lián)網(wǎng)搜索引擎數(shù)據(jù)[6-11]、社交網(wǎng)絡(luò)數(shù)據(jù)[12-15]、醫(yī)療網(wǎng)站數(shù)據(jù)[16]、藥物銷售數(shù)據(jù)[17]等應(yīng)用到疫情的分析監(jiān)測(cè)中。其中針對(duì)季節(jié)性流感的研究諸多,而且已經(jīng)取得了很好的效果,如國(guó)外的Ginsberg等人[6]利用Google流感趨勢(shì)監(jiān)測(cè)流感疫情,其監(jiān)測(cè)時(shí)效比CDC監(jiān)測(cè)提前了1~2周。類似的有Li等人[13]利用Twitter數(shù)據(jù)于流感監(jiān)測(cè)中,同樣具有很強(qiáng)的實(shí)時(shí)性;在國(guó)內(nèi),李秀婷等人[7]應(yīng)用Google搜索引擎數(shù)據(jù)研究基于互聯(lián)網(wǎng)搜索數(shù)據(jù)的中國(guó)流感監(jiān)測(cè),從116個(gè)與流感相關(guān)關(guān)鍵詞中抽取92個(gè)作為分析模型的搜索變量,通過交叉驗(yàn)證分析,最后取得了較好的模型擬合和預(yù)測(cè)效果。另袁慶玉等人[8]則是利用百度搜索引擎的百度指數(shù)數(shù)據(jù)監(jiān)測(cè)中國(guó)流感趨勢(shì)。針對(duì)其他傳染病的研究,Milinovic等人[9]基于Google搜索引擎數(shù)據(jù)利用164個(gè)搜索條件對(duì)64種傳染病進(jìn)行分析監(jiān)測(cè),結(jié)果顯示其監(jiān)測(cè)模型對(duì)其中17種傳染病的監(jiān)測(cè)效果尤為明顯。這表明基于流感的監(jiān)測(cè)方法對(duì)其他傳染病的監(jiān)測(cè)具有很大的潛在意義,尤其是對(duì)疫苗可預(yù)防、媒介傳播且臨床特征更明顯的傳染病的監(jiān)測(cè)效果更好,其中包括登革熱。而基于互聯(lián)網(wǎng)數(shù)據(jù)來預(yù)測(cè)登革熱也有了一些研究,影響最大的同樣是來自Google公司的“Google Dengue Trends”。如Althouse等人[10]與Chan等人[11]應(yīng)用Google趨勢(shì)對(duì)國(guó)外登革熱流行國(guó)家如新加坡等地的登革熱疫情進(jìn)行監(jiān)測(cè)。其研究思路與“Google Flu Trends”一樣,同樣是選擇與登革熱最相關(guān)的關(guān)鍵詞在Google的搜索數(shù)據(jù),建立定量預(yù)測(cè)模型,將數(shù)據(jù)集以周為單位進(jìn)行模型估計(jì)和預(yù)測(cè),其研究取得了較好的預(yù)測(cè)效果。

        由于一些原因,Google并沒有提供對(duì)于中國(guó)地區(qū)的登革熱流行的預(yù)測(cè)。百度是國(guó)內(nèi)市場(chǎng)份額最高的互聯(lián)網(wǎng)搜索引擎[18],它推出的百度指數(shù)已經(jīng)被各行各業(yè)廣泛使用。在傳染病監(jiān)測(cè)領(lǐng)域,同樣已經(jīng)有研究使用百度指數(shù)來預(yù)測(cè)流感的流行。然而,目前還很少有使用百度指數(shù)和其他互聯(lián)網(wǎng)數(shù)據(jù)來預(yù)測(cè)登革熱的流行。

        2登革熱疫情分布

        2014年9月,登革熱在中國(guó)廣東一帶暴發(fā),病例主要分布在廣東、廣西、云南、福建和臺(tái)灣(如圖1(a)所示)。截止10月31日,全國(guó)登革熱病例數(shù)超過5萬(wàn),廣東省疫情最為嚴(yán)重,已累計(jì)報(bào)告登革熱病例42 358例;臺(tái)灣省累計(jì)報(bào)告7425例;廣西、云南、福建省累計(jì)報(bào)告的本地登革熱病例均超過100例;海南、北京、湖南、浙江、澳門、香港地區(qū)累計(jì)報(bào)告的登革熱病例數(shù)均在100例以下,而且主要是輸入性病例。進(jìn)一步分析廣東省的登革熱疫情(如圖1(b)所示),發(fā)現(xiàn)超過80%的病例(累計(jì)35 237例)都分布在廣州,其次是佛山(累計(jì)3411例),其余市的病例數(shù)均在1000例以下。由登革熱引發(fā)的死亡病例也主要分布在廣州和佛山,分別有5例和1例病例死亡。

        圖1 登革熱疫情在全國(guó)、廣東省的病例分布

        3實(shí)驗(yàn)數(shù)據(jù)與方法

        3.1數(shù)據(jù)

        (1) 登革熱病例

        本文使用的登革熱病例數(shù)據(jù)來源于中國(guó)衛(wèi)生與計(jì)劃生育委員會(huì)官方網(wǎng)站、各省衛(wèi)生與計(jì)劃生育委員會(huì)官方網(wǎng)站以及網(wǎng)絡(luò)新聞報(bào)道搜索。病例數(shù)據(jù)包括全國(guó)各疫情省份和廣東省各疫情市截止2014年10月31日的總病例數(shù),以及廣東省從2014年9月22日到2014年10月30日間每日新增病例數(shù),由于除廣東省的其余省登革熱疫情較輕緩,統(tǒng)一報(bào)道較少,因此結(jié)合網(wǎng)絡(luò)新聞搜索共同取得。

        (2) 百度指數(shù)

        本文使用的百度指數(shù)數(shù)據(jù)來源于百度指數(shù)平臺(tái)(http://index.baidu.com)。百度指數(shù)是指關(guān)鍵詞在相應(yīng)時(shí)間段內(nèi)的搜索量數(shù)據(jù)。本文采集的數(shù)據(jù)集以天為單位。由于只能得到2014年9月22日到2014年10月30日間廣東省的登革熱每日新增病例數(shù),因此無特別說明外,實(shí)驗(yàn)所使用的關(guān)鍵詞的百度指數(shù)都是指這段時(shí)間的數(shù)據(jù)。

        3.2方法學(xué)

        (1) 關(guān)鍵詞選取

        本文根據(jù)登革熱定義和臨床癥狀等方面選取了15個(gè)與登革熱密切相關(guān)的搜索關(guān)鍵詞,去除未被百度指數(shù)平臺(tái)收錄的3個(gè)關(guān)鍵詞,剩下12個(gè)關(guān)鍵詞,分別是“登革熱”、“伊蚊”、“皮疹”、“淋巴結(jié)腫大”、“頭痛”、“惡心”、“嘔吐”、“腹瀉”、“便秘”、“關(guān)節(jié)痛”、“發(fā)燒”、“皮膚瘙癢”。

        (2) 預(yù)測(cè)模型

        (1)

        (2)

        本文應(yīng)用的模型為多元線性回歸模型,在模型式(1)中,Dt為第t天的登革熱新增病例數(shù),Bi,t表示第i個(gè)關(guān)鍵詞在第t天的百度指數(shù)數(shù)值,n表示模型中包含的搜索關(guān)鍵字的個(gè)數(shù),n∈[1,12],εt表示模型中的殘差項(xiàng)。在模型式(2)(改進(jìn)的模型)中,Dt-j表示對(duì)于第t天向前偏移j天后得到的登革熱每日新增病例數(shù)值,j∈[1,7]。

        (3) 相關(guān)定義

        留一法交叉驗(yàn)證假設(shè)有n條數(shù)據(jù),將每一條數(shù)據(jù)作為測(cè)試集,其余n-1條數(shù)據(jù)作為訓(xùn)練集。重復(fù)方法使每條數(shù)據(jù)都被作為一次測(cè)試集。最后本文用測(cè)試集的預(yù)測(cè)值和實(shí)際值之間的相關(guān)性作為評(píng)價(jià)指標(biāo)。

        反向測(cè)試指用過去的時(shí)間序列數(shù)據(jù)做訓(xùn)練集,預(yù)測(cè)未來的時(shí)間序列數(shù)據(jù)。假設(shè)數(shù)據(jù)集共M條數(shù)據(jù),用后N條數(shù)據(jù)作測(cè)試集。以測(cè)試其中的第n點(diǎn)為例,我們將前(M-N+n-1)條數(shù)據(jù)作為訓(xùn)練集構(gòu)建模型,預(yù)測(cè)第n點(diǎn)的值。重復(fù)方法N次,最后本文將預(yù)測(cè)值和實(shí)際值之間的相關(guān)性作為評(píng)價(jià)指標(biāo)。

        逐步回歸為建立最優(yōu)回歸方程,從可供選擇的所有變量中選出對(duì)Dt有顯著影響的變量建立“最優(yōu)”回歸方程。

        (4) 統(tǒng)計(jì)學(xué)分析

        本文的相關(guān)性分析采用皮爾森相關(guān)系數(shù)(Pearson)和斯皮爾曼相關(guān)系數(shù)(Spearman)的方法,使用R語(yǔ)言中的cor()函數(shù)完成。多元線形回歸模型使用R語(yǔ)言中的lm()函數(shù)完成,逐步回歸使用R語(yǔ)言中的step()函數(shù)完成。預(yù)測(cè)模型的驗(yàn)證采用留一法交叉驗(yàn)證LOOCV(Leave-one-out cross validation)和反向測(cè)試(Retrospective test),R軟件的版本為R 3.1.2。

        4實(shí)驗(yàn)結(jié)果與分析

        4.1百度指數(shù)與地區(qū)疫情嚴(yán)重程度的相關(guān)性

        為了定性地衡量百度指數(shù)與登革熱疫情的關(guān)聯(lián)性,我們首先分析了關(guān)鍵詞“登革熱”的百度指數(shù)與登革熱疫情嚴(yán)重程度的相關(guān)性。表1展示的是在登革熱流行期間(2014年9月1日到2014年10月31日)各個(gè)疫情省份“登革熱”的百度指數(shù)中位數(shù),以及相應(yīng)省份截至2014年10月31日的總病例數(shù)。我們發(fā)現(xiàn)整體上省份病例數(shù)越多其百度指數(shù)越高,經(jīng)計(jì)算,兩者存在明顯的正相關(guān):皮爾森相關(guān)系數(shù)(PCC)為0.997,斯皮爾曼相關(guān)系數(shù)(SCC)為0.738。

        表1 “登革熱”百度指數(shù)中位數(shù)與病例總數(shù)

        注:*表示輸入性病例省份

        進(jìn)一步將關(guān)聯(lián)性分析細(xì)化,對(duì)廣東省內(nèi)各個(gè)疫情市(20個(gè)市)的“登革熱”百度指數(shù)中位數(shù)與病例總數(shù)進(jìn)行相關(guān)性分析,同樣發(fā)現(xiàn)兩者之間存在很強(qiáng)的相關(guān)性(PCC=0.928,SCC=0.752),兩者的關(guān)系如圖2所示。

        圖2 廣東省各疫情市(除廣州)百度指數(shù)中位數(shù)與該市的病例總數(shù)的關(guān)系

        4.2各關(guān)鍵詞的百度指數(shù)與疫情變化的相關(guān)性

        前面分析表明,從總體上來說,某地區(qū)的登革熱疫情的嚴(yán)重程度與該地區(qū)的“登革熱”百度指數(shù)相關(guān)性較強(qiáng),說明可以使用百度指數(shù)來定性地評(píng)估登革熱疫情的嚴(yán)重性。那么它是否能夠用來預(yù)測(cè)登革熱疫情的動(dòng)態(tài)變化?由于此次登革熱疫情主要發(fā)生在廣東省,因此為定量評(píng)估百度指數(shù)與疫情變化的相關(guān)性,本文針對(duì)廣東省的疫情動(dòng)態(tài)進(jìn)行研究。除了關(guān)鍵詞“登革熱”,本文另外選擇了11個(gè)與登革熱相關(guān)的關(guān)鍵詞,分析其在廣東省范圍內(nèi)的每日百度指數(shù)與該省登革熱每日新增病例數(shù)的相關(guān)性。圖3(X軸日期間隔為天;Y軸采用雙坐標(biāo),左Y軸為廣東省每日新增病例數(shù)(對(duì)應(yīng)實(shí)曲線),右Y軸為關(guān)鍵詞的百度指數(shù)數(shù)值(對(duì)應(yīng)虛曲線);BI為百度指數(shù)縮寫)舉例展示相關(guān)性較強(qiáng)的5個(gè)關(guān)鍵詞的百度指數(shù)與病例數(shù)的曲線。經(jīng)分析,登革熱最常見的癥狀“皮疹”的百度指數(shù)與每日新增病例數(shù)的相關(guān)性最高(PCC=0.825,SCC= 0.823);此外,登革熱名詞“登革熱”和登革熱的常見癥狀“發(fā)燒”、“皮膚瘙癢”以及登革熱的傳染源“伊蚊”的百度指數(shù)都與病例數(shù)有非常強(qiáng)的在時(shí)間維度上的正相關(guān)。其他關(guān)鍵詞的百度指數(shù)則與登革熱病例數(shù)的相關(guān)性較弱。

        圖3 廣東省每日新增病例數(shù)與各個(gè)登革熱相關(guān)關(guān)鍵詞的百度指數(shù)的關(guān)系

        4.3模型預(yù)測(cè)

        為了進(jìn)一步基于百度指數(shù)預(yù)測(cè)登革熱疫情動(dòng)態(tài),本文重點(diǎn)研究基于百度指數(shù)來預(yù)測(cè)廣東省的登革熱疫情,建立多元線形回歸模型。該模型以上面相關(guān)性分析中與登革熱疫情相關(guān)的12個(gè)關(guān)鍵詞的百度指數(shù)作為自變量,以廣東省每日新增病例數(shù)作為因變量,該模型增加使用逐步回歸方法去除回歸效果不夠明顯的自變量。

        (1) 模型訓(xùn)練

        為了檢測(cè)模型的效果,我們首先將所有數(shù)據(jù)(2014年9月22日至2014年10月30日期間的廣東省每日新增病例數(shù)與12個(gè)關(guān)鍵詞在此期間的每日百度指數(shù),39*13)作為訓(xùn)練集進(jìn)行測(cè)試。

        Input:S={(Ci, Xi_1,Xi_2, …,Xi_12) , i=1,2,…,39}

        Process:

        Step1//在訓(xùn)練集S上進(jìn)行多元線性回歸分析

        Ms <- lm(C~ X1+X2+ …+ X12, S)

        Step2//逐步回歸

        Ss <- step(Ms)

        Step3//預(yù)測(cè)值

        Ps <- predict(Ss, S)

        Step4//相關(guān)性

        cor (C, Ps[,1])

        Output:{(Ci, Ps[n,1]) , i, n=1,2,…,39}相關(guān)系數(shù)

        模型的訓(xùn)練效果顯示,其在訓(xùn)練數(shù)據(jù)上的預(yù)測(cè)值和實(shí)際值兩者的PCC達(dá)到了0.874,說明模型在訓(xùn)練集上的效果較好。圖4(a)表示該模型在訓(xùn)練數(shù)據(jù)上的預(yù)測(cè)值和實(shí)際值的關(guān)系。

        (2) 模型估計(jì)

        進(jìn)一步我們使用留一法交叉驗(yàn)證來評(píng)估該模型的效果,循環(huán)將39-1天的數(shù)據(jù)作為訓(xùn)練集,其中另1天的數(shù)據(jù)作為測(cè)試集。

        Input:S={(Ci, Xi_1, Xi_2,…,Xi_12),i=1,2,…,39}

        Process:

        Step1 For i=1,2,…,39

        //在S上除去第i天的數(shù)據(jù)得到訓(xùn)練集

        T <- S[-i,]

        //在訓(xùn)練集T上進(jìn)行多元線性回歸分析

        Ms <- lm(C~ X1+X2+ …+ X12, T)

        //逐步回歸

        Ss <- step(Ms)

        //預(yù)測(cè)值

        Ps[i] <- predict(Ss, S)

        Step2//相關(guān)性

        cor (C, Ps)

        Output:{(Ci, Ps[i]) , i =1,2,…,39}的相關(guān)系數(shù)

        模型的評(píng)估效果顯示,其在留一法交叉驗(yàn)證的測(cè)試集上模型的預(yù)測(cè)值和實(shí)際值的PCC為0.691,說明該模型在測(cè)試數(shù)據(jù)上的效果也較好。圖4表示模型的效果。

        圖4 基于登革熱相關(guān)關(guān)鍵詞預(yù)測(cè)登革熱疫情的模型的效果

        (3) 模型預(yù)測(cè)

        為了測(cè)試模型在實(shí)際的登革熱疫情預(yù)測(cè)中的效果,本文對(duì)該模型做了反向測(cè)試,即用某天之前的數(shù)據(jù)訓(xùn)練模型。然后用得到的模型去預(yù)測(cè)該天的病例數(shù),進(jìn)而分析其預(yù)測(cè)值和實(shí)際值的相關(guān)性。在本實(shí)驗(yàn)中,我們使用前31天的數(shù)據(jù)預(yù)測(cè)后8天的登革熱病例數(shù)。

        Input:S={(Ci, Xi_1, Xi_2,…,Xi_12) , i=1,2,…,39}

        Process:

        Step1For j=1,2,…,8

        //取S的前j+30天的數(shù)據(jù)作為訓(xùn)練集

        T <- {Si, i=1,2,…,j+30}

        //在訓(xùn)練集T上進(jìn)行多元線性回歸分析

        Ms <- lm(C~ X1+X2+ …+ X12, T))

        //逐步回歸

        Ss <- step(Ms)

        //預(yù)測(cè)值

        Ps[j] <- predict(Ss, Sj+31)

        Step2//相關(guān)性

        cor (C, Ps)

        Output:{(Ci, Ps[j]) , i, j=1,2,…,8}的相關(guān)系數(shù)

        通過模型預(yù)測(cè)得到后8天的實(shí)際值,發(fā)現(xiàn)該模型在反向測(cè)試中的效果較差,預(yù)測(cè)值和實(shí)際值的皮爾森相關(guān)系數(shù)只有0.379。

        4.4改進(jìn)的模型預(yù)測(cè)

        考慮到歷史的登革熱疫情也對(duì)當(dāng)前登革熱疫情有一定影響,因此本文將當(dāng)前登革熱疫情N天(N=1~7)前的登革熱病例數(shù)也作為變量加到定量預(yù)測(cè)模型中,然后評(píng)估新模型的效果。

        以反向測(cè)試舉例說明新模型的預(yù)測(cè)算法:

        Input:S={(Ci, Xi_p,Xi_1, Xi_2, …., Xi_12) , i=1,2,…,39}

        Process:

        Step1For N=1,2,…,7

        For j=1,2,…,8

        //取S偏移N天后的前j+30-N天的數(shù)據(jù)為訓(xùn)練集

        T <- {Si, i=1,2,…,j+30-N }

        //在T上進(jìn)行多元線性回歸分析

        Ms <- lm(C~Xp+ X1+X2+ …+ X12, T)

        //逐步回歸

        Ss <- step(Ms)

        //預(yù)測(cè)值

        Ps[j] <- predict(Ss, Sj+31-N)

        Step2//相關(guān)性

        cor (C, Ps)

        Output:偏移1~7天的相關(guān)系數(shù)集Cor[i], i=1,2,…,7。

        表2展示了分別把1~7天前的歷史登革熱病例數(shù)作為變量增加到模型中得到的新模型在留一法交叉驗(yàn)證中的效果??梢园l(fā)現(xiàn),整合歷史數(shù)據(jù)之后,模型不管是在留一法交叉驗(yàn)證還是反向測(cè)試中的效果明顯增加,其中在留一法交叉驗(yàn)證中,其預(yù)測(cè)值與實(shí)際值的PCC均在0.75以上;在反向測(cè)試中,預(yù)測(cè)值與實(shí)際值的PCC最高達(dá)到了0.733。

        表2 不同偏移時(shí)間的模型留一法交叉驗(yàn)證和反向測(cè)試效果

        圖5表示在整合7天前的歷史數(shù)據(jù)時(shí)模型在留一法交叉驗(yàn)證和反向測(cè)試中的預(yù)測(cè)值和實(shí)際值的關(guān)系。從圖5(a)可以看到在留一法交叉驗(yàn)證中,整合7天前的歷史數(shù)據(jù)使得測(cè)試值與實(shí)際值更為接近;從圖5(b)可以看到在反向測(cè)試中,整合7天前的歷史數(shù)據(jù)使得測(cè)試值與實(shí)際值不僅相關(guān)性較強(qiáng),而且比較接近。因此加入歷史登革熱病例數(shù)據(jù)到模型訓(xùn)練中使得模型的預(yù)測(cè)效果得到了很大的提高。

        圖5 整合7天前的歷史登革熱病例數(shù)據(jù)得到的改進(jìn)的模型在留一法交叉驗(yàn)證(a)和反向測(cè)試(b)中其預(yù)測(cè)值和實(shí)際值的關(guān)系

        5結(jié)語(yǔ)

        本文通過對(duì)登革熱相關(guān)關(guān)鍵詞的百度指數(shù)與實(shí)際登革熱疫情進(jìn)行相關(guān)性分析,發(fā)現(xiàn)地區(qū)登革熱疫情的嚴(yán)重程度與該地區(qū)的百度指數(shù)存在很強(qiáng)的關(guān)聯(lián)性。與此同時(shí),在廣東省登革熱暴發(fā)期間,每日的登革熱新增病例數(shù)與登革熱相關(guān)關(guān)鍵詞的百度指數(shù)也存在明顯的正相關(guān)。分析發(fā)現(xiàn),與登革熱相關(guān)的幾個(gè)關(guān)鍵詞,如“登革熱”、“皮疹”、“發(fā)熱”、“伊蚊”等的百度指數(shù)與實(shí)際的登革熱疫情之間存在較強(qiáng)的正相關(guān)?;谂c登革熱相關(guān)的12個(gè)關(guān)鍵詞的百度指數(shù)建立的登革熱預(yù)測(cè)模型在留一法交叉驗(yàn)證和反向測(cè)試中的效果也較好。因此本文構(gòu)建的定量預(yù)測(cè)模型能夠比較準(zhǔn)確地預(yù)測(cè)廣東省的登革熱疫情動(dòng)態(tài)。

        由于此次登革熱在廣東省暴發(fā)持續(xù)的時(shí)間較短,因此本研究的一個(gè)不足之處在于研究的時(shí)間段不長(zhǎng)。然而,本研究發(fā)現(xiàn)的登革熱相關(guān)關(guān)鍵詞的百度指數(shù)和登革熱疫情的關(guān)聯(lián)性非常明顯,而且基于它們建立的模型也確實(shí)能夠較為準(zhǔn)確地預(yù)測(cè)登革熱的實(shí)時(shí)疫情。因此,本研究對(duì)于國(guó)內(nèi)使用互聯(lián)網(wǎng)數(shù)據(jù)監(jiān)測(cè)傳染病(特別是登革熱)的工作具有一定的參考價(jià)值和指導(dǎo)意義。

        參考文獻(xiàn)

        [1] 中國(guó)疾病預(yù)防控制中心[EB/OL].(2014-11-06).[2015-01-23].http: //www.china.cdc/gwxx/201411/t20141106_10630.htm.

        [2] 何劍峰.登革熱流行趨勢(shì)及防控策略[J].實(shí)用醫(yī)學(xué)雜志,2014(19):3462-3463.

        [3] 突發(fā)公共衛(wèi)生事件與傳染病疫情監(jiān)測(cè)信息報(bào)告管理辦法(衛(wèi)生部令第37號(hào),2006年8月修改版)[EB/OL].(2009-01).[2015-01-23].http://www.nhfpc.gov.cn/jkj/s7913/200901/896c7b47c2d84 b8b84586f17ade28d71.shtml.

        [4] 李銳,王增亮,張志杰.互聯(lián)網(wǎng)搜索數(shù)據(jù)與流感預(yù)警[J].中華流行病學(xué)雜志,2013(1):101-103.

        [5] Eysenbach G.Tracking flu-related searches on the web for syndromic surveillance[J].AMIA Annu Symp Proc,2006(1):244-248.

        [6] Ginsberg J,Mohebbi M H,Patel R S,et al.Detecting influenza epidemics using search engine query data[J].Nature,2009,457(7232):1012-1014.

        [7] 李秀婷,劉凡,董紀(jì)昌,等.基于互聯(lián)網(wǎng)搜索數(shù)據(jù)的中國(guó)流感監(jiān)測(cè)[J].系統(tǒng)工程理論與實(shí)踐,2013(12):3028-3034.

        [8] Yuan Q Y,Nsoesie E O,Lv B,et al.Monitoring influenza epidemics in china with search query from Baidu[J].PloS ONE,2013,8(5):1-7.

        [9] Milinovich G J,Avril S M,Clements A C,et al.Using internet search queries for infectious disease surveillance:screening diseases for suitability[J].BMC Infectious Diseases,2014,14(1):3840.

        [10] Althouse B M,Ng Y Y,Cummings D A T.Prediction of Dengue Incidence Using Search Query Surveillance[J].PloS Neglected Tropical Diseases,2011,5(8):e1258.

        [11] Chan E H,Sahai V,Conrad C,et al.Using Web search Query Data to Monitor Dengue Epidemics:A New Model for Neglected Tropical Disease Surveillance[J].PloS Neglected Tropical Diseases,2011,5(5):e1206.

        [12] Gu H,Chen B,Zhu H,et al.Importance of Internet Surveillance in Public Health Emergency Control and Prevention Evidence From a Digital Epidemiologic Study During Avian Influenza A H7N9 Outbreaks[J].J Med Internet Res,2014,16(1):e20.

        [13] Li J,Cardie C.Early Stage Influenza Detection from Twitter[J].Eprint arXiv,2013.

        [14] Signorini A,Segre A M,Polgreen P M.The use of Twitter to Track Levels of Disease Activity and Public Concern in the U.S during the Influenza A H1N1 Pandemic[J].PLoS ONE,2011,6(5):e19467.

        [15] Fung I C,Fu K W,Ying Y C,et al.Chinese social media reaction to the MERS-CoV and avian influenza A(H7N9) outbreaks[J].Infectious Diseases of Poverty,2013,2(1):31.

        [16] Hulth A,Rydevik G,Linde A.Web Queries as a Source for Syndromic Surveillance[J].PLoS ONE,2009,4(2):e4378.

        [17] Pivette M,Mueller J E,Crepey P,et al.Drug sales data analysis for outbreak detection of infectious diseases:a systematic literature review[J].BMC Infectious Diseases,2014,14(1):604.

        [18] 中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].(2014-01).[2015-01-23].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201403/P020140305346585959798.pdf.

        收稿日期:2015-01-28。國(guó)家自然科學(xué)基金項(xiàng)目(31371338);國(guó)家傳染病重大專項(xiàng)(2013ZX10004611-002,2014ZX10004002-001);湖南大學(xué)青年教師成長(zhǎng)計(jì)劃項(xiàng)目(531107040720);湖南大學(xué)生物醫(yī)學(xué)超算項(xiàng)目(531106011004)。王晶晶,碩士生,主研領(lǐng)域:生物信息學(xué),數(shù)據(jù)挖掘。鄒遠(yuǎn)強(qiáng),博士生。彭友松,助理研究員。李肯立,教授。蔣太交,教授。

        中圖分類號(hào)TP391

        文獻(xiàn)標(biāo)識(shí)碼A

        DOI:10.3969/j.issn.1000-386x.2016.07.010

        ON PREDICTION OF DENGUE EPIDEMICS BASED ON BAIDU INDEX

        Wang Jingjing1Zou Yuanqiang1Peng Yousong1*Li Kenli1Jiang Taijiao1,2

        1(SchoolofComputerScienceandElectronicEnginnering,HunanUniversity,Changsha410082,Hunan,China)2(KeyLaboratoryofProteinandPeptidePharmaceutical,NationalLaboratoryofBiomacromolecules,InstituteofBiophysics,ChineseAcademyofSciences,Beijing100101,China)

        AbstractIn recent years, the internet data-based epidemics surveillance for infectious diseases has been the hot topic of studies in infectious diseases prevention and treatment. Through analysing the correlation between the dengue epidemic outbreak in September, 2014 in whole China with Guangdong province as the centre and the Baidu index of the keywords correlated to dengue, we found that the severity of dengue epidemic in each province has strong positive correlation with Baidu index of keyword “dengue” in given province. For timely predicting dengue epidemic status, we built a multivariate linear regression model, which is based on the Baidu index of 12 dengue-correlated keywords. In both leave-one-out cross-validation and retrospective testing, the model performed well, with Pearson correlation coefficient between the predicted and actual epidemic size equalling to 0.89 and 0.73 respectively. It was indicated through experiment that this prediction model could be preferably accurate in predicting dengue epidemic status, at the same time our study has certain significance in terms of guidance for internet data-based surveillance, prevention and treatment of infectious diseases.

        KeywordsBaidu indexDengueQuantitative prediction model

        猜你喜歡
        百度疫情模型
        一半模型
        戰(zhàn)疫情
        重要模型『一線三等角』
        抗疫情 顯擔(dān)當(dāng)
        疫情中的我
        Robust adaptive UKF based on SVR for inertial based integrated navigation
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        37°女人(2020年5期)2020-05-11 05:58:52
        百度年度熱搜榜
        3D打印中的模型分割與打包
        天下第二社区在线视频| 欧美精品中文字幕亚洲专区| 久久精品爱国产免费久久| 性色av一区二区三区四区久久| 一区二区三区国产高清视频| 帮老师解开蕾丝奶罩吸乳网站| 久久99精品国产99久久| 欧美巨大xxxx做受中文字幕 | 中文国产乱码在线人妻一区二区| 成人午夜福利视频后入| 精品人体无码一区二区三区 | 欧美日韩国产一区二区三区不卡| 一本大道久久东京热无码av| 日产精品毛片av一区二区三区 | 和黑人邻居中文字幕在线 | 人妻少妇中文字幕av| 性欧美丰满熟妇xxxx性久久久| 四川老熟女下面又黑又肥| 无码视频一区二区三区在线观看| 日韩精品欧美激情国产一区 | 日日噜噜夜夜狠狠久久丁香五月 | 18岁日韩内射颜射午夜久久成人| 天堂√中文在线bt| 亚洲AV成人无码天堂| 蜜桃视频在线免费视频| 韩国三级中文字幕hd| 国产一区二区精品在线观看| 国产日韩精品视频一区二区三区| 久久精品国产亚洲超碰av| 欧产日产国产精品精品| 无码中文字幕av免费放| 国产丝袜美腿在线播放| 国产男女免费完整视频| 国产爽爽视频在线| 日本小视频一区二区三区| 98色婷婷在线| 成 人 色综合 综合网站| 国产精品一级av一区二区| 在线免费观看黄色国产强暴av| 99精品一区二区三区无码吞精 | 国产一区亚洲一区二区|