徐 敏,曹春香,鐘少波,王丹萍,崔騰飛,康建榮
(1. 中國科學院空天信息研究院 遙感科學國家重點實驗室, 北京 100101;2. 江蘇師范大學 地理測繪與城鄉(xiāng)規(guī)劃學院, 江蘇 徐州 221116;3. 北京市科學技術研究院 北京城市系統(tǒng)工程研究中心,北京 100035;4. 中國科學院大學, 北京 100049)
遙感、地理、氣象等空間大數(shù)據(jù)能夠科學、客觀地提供陸地和海洋相關環(huán)境要素數(shù)據(jù),且具有安全、不受地理環(huán)境條件限制、覆蓋面廣、可持續(xù)重復觀測等優(yōu)點,可以為包括霍亂在內(nèi)的傳染病時空傳播研究提供豐富的長時序環(huán)境監(jiān)測數(shù)據(jù)[1-4]。如果能夠探析沿海地區(qū)霍亂主要環(huán)境影響要素,就可以根據(jù)環(huán)境影響要素對霍亂疫情影響的時間滯后性效應,利用遙感數(shù)據(jù)提取表征海洋及陸地環(huán)境變化的時空變量,構(gòu)建沿海地區(qū)霍亂發(fā)病風險評估模型,實現(xiàn)霍亂疫情的早期預測,將使霍亂防控更加主動、預防和控制措施更加及時有效。
浙江省地處中國東部沿海,位于歐亞大陸與西北太平洋的過渡地帶27°01′~31°10′N,118 °01′~123°08′E 之間,東鄰東海,北接長江三角洲。浙江省東西和南北向的貫穿距離均為450 km 左右,全境面積為10.18萬km2,境內(nèi)地形起伏較大,山地丘陵占70.4%,平原占23.2%,河流湖泊占6.4%。浙江省擁有較長的海岸線,全長達2 253.7 km,沿海共有島嶼2 161 個,淺海大陸架約22.27 萬km2。浙江省屬于典型的亞熱帶季風氣候區(qū),季風顯著、四季分明、氣溫比較適中且雨量充沛,受東亞季風影響,降水有明顯的季節(jié)變化,全省年平均降水量在980~2 000 mm,年平均日照時數(shù)1 710~2 100 h,年平均氣溫15~18℃,極端最高氣溫33~43℃,極端最低氣溫-2.2~17.4℃。
浙江省歷來是中國常發(fā)霍亂疫源地,自1962年埃爾托霍亂輸入以來,霍亂疫情時起時伏,每隔一些年份都會出現(xiàn)較大規(guī)模的暴發(fā)流行。進入21 世紀以來,浙江省的霍亂水平一直處于持續(xù)低流行水平,發(fā)病率穩(wěn)定在1/10 萬以下,但在2001 年和2005 年曾出現(xiàn)過兩次小高峰,其中2005年的爆發(fā)主要集中在嘉興、湖州等地區(qū),共有300 余人感染霍亂。圖1 是浙江省各縣市2001—2008年霍亂病例的空間分布,浙江省的霍亂發(fā)病病例大多發(fā)生在沿?;蚪5貐^(qū),以杭州、嘉興為代表的錢塘江流域周邊地區(qū)在此期間均有霍亂病例出現(xiàn)。研究從全球遙感產(chǎn)品數(shù)據(jù)中提取對霍亂弧菌繁殖與生長相關的海表面溫度(SST)、海表面高度(SSH)以及海水葉綠素濃度a(Chla)等海洋遙感參數(shù),利用單向緩沖區(qū)分析法獲取以浙江省大陸地區(qū)海岸線向海洋方向40 km 寬度的整個浙江省近海海域作為遙感監(jiān)測區(qū)域,如圖2所示。
圖2 海洋環(huán)境要素衛(wèi)星遙感數(shù)據(jù)獲取區(qū)域示意圖
從中國氣象科學數(shù)據(jù)共享服務網(wǎng)(http://cdc.cma.gov.cn/)收集了1999—2008年間中國地面氣候標準值月值數(shù)據(jù)集,該數(shù)據(jù)集主要來源于各省、市、自治區(qū)氣候資料處理部門逐月上報的《地面氣象記錄月報表》的信息化資料。氣候數(shù)據(jù)的原始文件類型為ASCII碼文件,包括中國722個基本、基準地面氣象觀測站的匯總數(shù)據(jù)。首先,對各氣候要素數(shù)據(jù)進行了缺失數(shù)據(jù)處理,刪除原始文件中含有表示空白或現(xiàn)象未出現(xiàn)的值(32 744~32 744)以及表示缺測值(32 766~32 766)的站點記錄;其次,將ASCII 文件數(shù)據(jù)轉(zhuǎn)換為以各要素標準單位的浮點型數(shù)據(jù);然后,提取1999—2008年間浙江省范圍內(nèi)各站點的月均氣溫、降水量數(shù)據(jù);最后,利用“反距離權重內(nèi)插法”(in?verse distance weighted,IDW)對浙江省各氣候要素點圖層進行了空間插值處理,得到了1999—2008年浙江省月均氣溫、降水量的柵格圖層,如圖3 和圖4 所示,分別為插值后生成的浙江省2008年6月平均氣溫及降水量柵格圖。
圖3 浙江省2008年6月平均氣溫插值圖
圖4 浙江省2008年6月平均降水量插值圖
使用的遙感參數(shù)包括海表面溫度、海表面高度以及海水葉綠素濃度。SST 產(chǎn)品數(shù)據(jù)為由美國物理海洋學分布式檔案中(physical oceanography distributed ac?tive archive center,PO.DAAC)發(fā)布的PFSST 數(shù)據(jù)集V5版本,V5 版本的PFSST 數(shù)據(jù)校正了V4 版本中存在的受氣溶膠嚴重影響的區(qū)域存在偏差、高緯度海冰區(qū)域數(shù)據(jù)應用受限等問題,產(chǎn)品包括全球4 km、9 km、18 km、54 km 分辨率的每天、5 d、7 d、8 d、月平均的SST 數(shù)據(jù),投影方式為圓柱型等距離投影。本文使用的是4 km空間分辨率的全球月平均數(shù)據(jù)產(chǎn)品。全球范圍內(nèi)可達到的精度為0.3~0.5℃,全球范圍內(nèi)的數(shù)據(jù)共有8 192×4 096 個像素。SSH 產(chǎn)品數(shù)據(jù)來自于1992年美國航空航天局(NASA)和法國空間局(CNES)聯(lián)合發(fā)射的TOPEX/Poseidon 衛(wèi)星及2001 年12 月發(fā)射的其后續(xù)衛(wèi)星Jason-1。Jason-1的衛(wèi)星軌道與TOPEX/Poseidon衛(wèi)星完全相同,覆蓋范圍為66°S~66°N,周期為9.915 d。本文使用的是SSH數(shù)據(jù)的全球月平均海表面異常(SSHA)產(chǎn)品,空間分辨率為1/3°。由法國AVISO (archiving validation and interpretation of satel?lite oceanographic data)分發(fā),其中2002 年前的產(chǎn)品由TOPEX/Poseidon 衛(wèi)星數(shù)據(jù)反演,而2002 年以后的產(chǎn)品由Jason-1衛(wèi)星反演。海水葉綠素濃度數(shù)據(jù)為Sea?WiFS的全球月均Chla產(chǎn)品,空間分辨率為9 km。Sea?WiFS 是美國國家宇航局于1997 年9 月發(fā)射的海洋水色衛(wèi)星(SeaStar)攜帶的海洋寬視場掃描儀。Sea?WiFS擁有8個探測波段,均在可見光和近紅外區(qū),除了第7和第8波段的波段寬度為40 nm外,其余6個波段的波段寬度均為20 nm,它提供有關全球生物光學性質(zhì)的定量數(shù)據(jù)。美國航空航天局提供了1998年至今的所有SeaWiFS衛(wèi)星的Chla產(chǎn)品數(shù)據(jù)下載。
廣義線性模型是線性模型的擴展,通過聯(lián)結(jié)函數(shù)建立響應變量的數(shù)學期望值與線性組合的預測變量之間的關系,其特點是不強行改變數(shù)據(jù)的自然度量,數(shù)據(jù)可以具有非線性和非恒定方差結(jié)構(gòu)。研究利用廣義線性模型的方法建立浙江省霍亂發(fā)病數(shù)與氣候環(huán)境要素以及海洋環(huán)境要素的定量關系模型來進行霍亂預測。由于環(huán)境要素對于霍亂發(fā)病的影響還具有一定的滯后性,選取當月以及一個月前的降水量、氣溫、海表面溫度、海表面高度、海水葉綠素濃度共10個環(huán)境因子作為模型的指示因子,建立浙江省月發(fā)病數(shù)的預測模型如下[5]:
式中,Cholt為第t月份霍亂發(fā)病數(shù)的期望值;SSTt和SSTt-1分別為第t月份和t-1 月份海表面溫度;SSHt和SSHt-1分別為第t月份和t-1 月份海表面高度;OCCt和OCCt-1為第t月份和t-1 月份的海水葉綠素濃度;Raint和Raint-1為第t月份和t-1 月份的平均降水量;Temt和Temt-1為第t月份和t-1月份的平均氣溫;a0為常量;a1…a10為各預測變量的系數(shù)。
浙江省的霍亂發(fā)病數(shù)據(jù)是呈泊松分布,因此,利用自然對數(shù)函數(shù)作為聯(lián)接函數(shù),上式可以轉(zhuǎn)化為[4]
新增霍亂病例感染的途徑主要有2 種:一是通過自然水體環(huán)境的傳播(即一次傳播),這主要是由各水文、氣候等環(huán)境要素所決定;另一種是人-人傳播(即二次傳播),主要通過飲食被已感染人群糞便、分泌物等污染的水源或者食物而感染,許多群體性霍亂疫情的爆發(fā)都是由二次傳播所引起的。因此,在建立霍亂預測模型時,不僅要考慮自然環(huán)境要素的影響,還需考慮已感染患者對霍亂發(fā)病的影響。宏觀環(huán)境-SIR就是基于這一傳播過程設計的傳染病預測建模構(gòu)架[6]。
單位時間內(nèi)新增感染者的數(shù)量由已感染人群和環(huán)境因子共同決定。由于部分患者在經(jīng)過一段時間治愈后將在已感染人群中移除,假設只有一個月以內(nèi)的新增患者對當前霍亂發(fā)病有影響,即Cholt-1的影響,則t時刻新增霍亂病例數(shù)可表示為:
式中,f(Cholt-1)為t-1 時刻霍亂感染者數(shù)量對新增霍亂病例的影響;g(MarcoEnvi)為環(huán)境因子對新增霍亂病例的影響。
我們用以自然數(shù)為底數(shù),環(huán)境因子之間的線性組合為指數(shù)的函數(shù)用來表示環(huán)境因子對霍亂發(fā)病的影響g(MarcoEnvi),可表示為:
將式(1)代入式(2),得到的考慮二次傳播后的基于宏觀環(huán)境-SIR構(gòu)架的霍亂預測改進模型可表示為:
由于Cholt與Cholt-1是以感染率為系數(shù)的線性關系,因此,模型中f()函數(shù)應該為自然對數(shù)函數(shù),則預測模型可表示為[5]:
式中,采用log(Cholt-1+1)而不是log(Cholt-1)來表示一個月前霍亂發(fā)病數(shù)的自然對數(shù)函數(shù)f(Cholt-1),是因為自然對數(shù)函數(shù)的定義域需大于0。
利用1999—2007年的浙江省霍亂月發(fā)病數(shù)以及提取的當月以及一個月前的降水量、氣溫、海表面溫度、海表面高度、海水葉綠素濃度的值作為兩個預測模型的樣本數(shù)據(jù),采用最大似然估計法分別對基于環(huán)境影響要素的霍亂預測模型和基于宏觀環(huán)境-SIR構(gòu)架的霍亂預測改進模型進行優(yōu)化擬合,得到的模型參數(shù)估計結(jié)果分別如表1和表2所示。
表1 基于環(huán)境要素的霍亂預測模型參數(shù)估計
表2 基于宏觀環(huán)境-SIR構(gòu)架的霍亂預測改進模型參數(shù)估計
以0.05 作為模型各預測變量拒絕假設檢驗的閾值,則進入基于環(huán)境要素的霍亂預測模型的預測變量有前一個月的海表面溫度、當月的海表面高度、當月和前一個月的海水葉綠素濃度、前一個月的降水量、當月和前一個月氣溫等7 個變量,因此,基于環(huán)境要素的霍亂預測模型可以表示為:
進入基于宏觀環(huán)境-SIR構(gòu)架的霍亂預測改進模型的預測變量有當月和前一個月的海表面溫度,當月和前一個月的海表面高度,當月和前一個月的海水葉綠素濃度,當月和前一個月氣溫,以及前一個月霍亂發(fā)病數(shù)等9個變量,改進后的預測模型可以表示為:
將1999—2007年各月的模型變量值分別代入基于環(huán)境要素的霍亂預測模型以及基于宏觀環(huán)境-SIR構(gòu)架的霍亂預測改進模型中,得到模型擬合預測值曲線與觀測值曲線的對比如圖5、6所示。兩個模型預測值的動態(tài)趨勢與實際觀測值基本一致,但是,基于環(huán)境要素的霍亂預測模型在霍亂流行期的預測值普遍要小于實際觀測值,模型的擬合優(yōu)度R2只有0.16;而基于宏觀環(huán)境-SIR構(gòu)架的霍亂預測改進模型由于考慮了已感染人群對霍亂二次傳播的影響,模型擬合優(yōu)度R2提高到0.84,模型的擬合效果要遠遠好于前者,尤其是在2001—2005年兩次霍亂暴發(fā)的小高峰時期,與實際觀測值十分接近,但是總體上存在過估計現(xiàn)象,即預測結(jié)果略高于實際觀測值。
圖5 基于環(huán)境要素的霍亂預測模型擬合值與實際觀測值對比
圖6 基于宏觀環(huán)境-SIR構(gòu)架的霍亂預測改進模型擬合值與實際觀測值對比
分別利用赤池信息量(akaike information criteri?on,AIC)和貝葉斯信息量(bayesian information crite?rion,BIC)兩個統(tǒng)計量來定量比較兩個預測模型的擬合效果,在回歸模型中,這兩個值都是越小越好。計算結(jié)果如表3所示,基于宏觀環(huán)境-SIR構(gòu)架的霍亂預測改進模型的兩個統(tǒng)計量的值都要小于完全基于環(huán)境要素的預測模型,表明基于宏觀環(huán)境-SIR構(gòu)架的霍亂預測改進模型擬合效果要更好。
表3 兩個模型AIC及BIC統(tǒng)計量對比
分別利用完全基于環(huán)境要素的預測模型(模型1)和基于宏觀環(huán)境-SIR構(gòu)架的霍亂預測改進模型(模型2)對2008年浙江省各月的霍亂發(fā)病數(shù)進行預測,得到的預測結(jié)果值與實際值對比如圖7所示。
圖7 模型預測值與實際值的時序分布對比
2008 年浙江省霍亂發(fā)病數(shù)總體比往年要少,1~5 月份都沒有霍亂病例,首例霍亂病例發(fā)病時間在6 月份,這與考慮二次傳播的模型預測結(jié)果一致,而基于環(huán)境要素的模型所預測的首例病例發(fā)病時間為5月份,比實際情況提前了一個月。在所有的月份里,兩個模型的單月預測值與實際值的絕對誤差都小于3,預測結(jié)果與實際觀測值都比較接近,月發(fā)病數(shù)的實際值都落入預測值的95%置信區(qū)間內(nèi),且累計預測值絕對誤差分別為15 和13,表明兩個模型的預測效果比較可靠,基于宏觀環(huán)境-SIR構(gòu)架的霍亂預測改進模型效果要略好于完全基于環(huán)境要素的預測模型。
研究同時使用均方根誤差(RMSE)定量分析兩個模型對浙江省2008年各月霍亂發(fā)病數(shù)的預測精度,計算公式如式(9)所示。
式中,? 與yi分別為第i個月的模型預測霍亂發(fā)病數(shù)與實際霍亂發(fā)病數(shù);為實際霍亂發(fā)病數(shù)的均值;n為驗證樣本的數(shù)量。結(jié)果表明完全基于環(huán)境要素的預測模型RMSE 為1.8,基于宏觀環(huán)境-SIR 構(gòu)架的霍亂預測改進模型的RMSE 為1.7,基于宏觀環(huán)境-SIR 構(gòu)架的霍亂預測改進模型要比完全基于環(huán)境要素的模型預測精度略高。
利用空間大數(shù)據(jù)研究了環(huán)境要素對霍亂疫情的影響機制,分析了沿海地區(qū)影響霍亂發(fā)病的主要氣象和海洋環(huán)境要素,并以浙江省為實驗區(qū)基于海洋遙感參數(shù)以及氣溫和降水量等環(huán)境影響要素建立了浙江省霍亂預測模型。同時考慮霍亂的二次傳播性,借鑒宏觀環(huán)境-SIR 構(gòu)架的思想,在原模型中加入前一個月的霍亂發(fā)病數(shù)作為預測變量,建立了基于宏觀環(huán)境-SIR 構(gòu)架的霍亂預測改進模型。結(jié)果表明海洋環(huán)境參數(shù)對浙江省霍亂發(fā)病數(shù)有顯著的影響,且具有一定的滯后性,利用擬合優(yōu)度指標對兩個模型分別進行評價的結(jié)果表明基于環(huán)境要素的霍亂預測模型在霍亂流行期的預測值普遍小于實際觀測值,模型的擬合優(yōu)度R2只有0.16,而基于宏觀環(huán)境-SIR構(gòu)架的霍亂預測改進模型由于考慮了已感染人群對霍亂二次傳播的影響,模型擬合優(yōu)度R2提高到0.84,模型的擬合效果要遠遠好于前者。利用建立的預測模型對2008 年浙江省霍亂月發(fā)病數(shù)進行預測,并用實際發(fā)病數(shù)進行結(jié)果驗證,結(jié)果也表明基于宏觀環(huán)境-SIR構(gòu)架的霍亂預測改進模型效果要優(yōu)于完全基于環(huán)境要素的預測模型。