肖 屹,何宗宜,苗 靜,潘 峰,3,楊 好
(1. 武漢大學資源與環(huán)境科學學院,湖北 武漢 430079; 2. 武漢市測繪研究院,湖北 武漢 430022; 3. 西安測繪總站,陜西 西安 710054)
實時監(jiān)測流行病的傳播和分布能夠為公共衛(wèi)生部門進行決策提供科學參考,進而控制其傳播范圍和影響力度。作為有效的分析及可視化工具,GIS在空間流行病學領域發(fā)揮著越來越大的作用[1]。GIS數(shù)據(jù)來源豐富,除了官方權威部門采集的數(shù)據(jù),也有由大量非專業(yè)人員志愿獲取的,被稱為眾源地理數(shù)據(jù)[2],其中就包括了帶有位置信息的搜索引擎數(shù)據(jù),這是一種典型的時空大數(shù)據(jù),它具備的泛在性、高時效性使得其在挖掘社會現(xiàn)象時空規(guī)律、發(fā)現(xiàn)空間模式特征、預測時空演變規(guī)律方面具有重要作用[3]。
各國現(xiàn)有流感監(jiān)控方法主要是匯總哨點醫(yī)院上報的流感樣病例(ILI),雖然結果準確,但時間上有延遲,如中國國家流感中心發(fā)布的流感周報一般有1~2周延遲[4]。因此,許多新方法應用到了流感快速監(jiān)測中,如根據(jù)電話咨詢量、藥物銷量、學校和企業(yè)缺席人數(shù)來推測流感發(fā)病率[5]。自從Ginsberg等利用Google的搜索數(shù)據(jù)來探測流感流行趨勢[6]以來,國內外越來越多的科研工作者將互聯(lián)網(wǎng)的搜索引擎、社交網(wǎng)絡和網(wǎng)絡新聞媒體這3類大數(shù)據(jù)應用到流感監(jiān)測中。處理以上數(shù)據(jù)使用的方法主要包括多元回歸分析及支持向量機、人工神經(jīng)網(wǎng)絡等機器學習方法,其中回歸分析仍然是應用廣泛且效果較好的方法之一[7]。
過往的研究主要以發(fā)病數(shù)的時間序列為研究對象,關注研究區(qū)域整體的發(fā)病情況,而對于研究區(qū)域內部空間分布的研究較少,沒有充分利用大數(shù)據(jù)中包含的空間信息。本文在多元回歸分析的基礎上,使用時空地理加權回歸(geographically and temporally weighted regression,GTWR)進行建模,充分利用搜索引擎數(shù)據(jù)中的位置信息,試圖構造能更好模擬我國流感空間分布的模型,為空間流行病學研究和公共衛(wèi)生決策提供支持。
OLS模型是最基本的回歸方法,也是所有空間回歸分析的正確起點。它適用于回歸關系具有全局空間穩(wěn)定性的情況[8],可為變量或過程提供一個全局模型,用唯一的回歸方程表示為
Y=β0+β1X1+β2X2+…+βnXn+ε
(1)
若流感發(fā)病數(shù)與關鍵詞百度指數(shù)之間的關系存在空間非平穩(wěn)性,則模型中變量的關系是基于空間位置的函數(shù)。GWR模型可為變量或過程提供局部模型,能夠有效探測空間非平穩(wěn)特征[9],它對每個目標要素帶寬范圍內的要素進行參數(shù)估計,通過引入地理加權函數(shù)對式(1)進行擴展,模型可表示為
Yi=β0(ui,vi)+∑nβn(ui,vi)Xin+εi
(2)
式中,(ui,vi)表示第i個目標要素的坐標;β0(ui,vi)為第i個目標要素的截距常量;βn(u,v)為連續(xù)函數(shù);βn(ui,vi)為該函數(shù)在i點的值。
本文使用高斯函數(shù)作為GWR模型的空間核函數(shù)。帶寬的選擇對GWR模型有較大影響,它的形狀和范圍取決于核類型、帶寬方法等參數(shù),本文使用固定核寬,根據(jù)模型的赤池信息準則(Akaike information criterion,AIC)來確定最優(yōu)帶寬。
除了空間因素外,時間因素也可能導致流感發(fā)病數(shù)與關鍵詞百度指數(shù)的關系呈現(xiàn)非平穩(wěn)性,時空地理加權回歸能夠有效解決回歸模型中無法同時考慮時間和空間異質性的問題[10]。它使用三維坐標來定義時空位置,相應地,式(2)可擴展為
Yi=β0(ui,vi,ti)+∑nβn(ui,vi,ti)Xin+εi
(3)
式中,(ui,vi,ti)為第i個目標要素的三維坐標;β0(ui,vi,ti)為該要素對應的截距常量;βn(u,v,t)為連續(xù)函數(shù),βn(ui,vi,ti)為該函數(shù)在i點的值。采用局部加權最小二乘估計可計算出參數(shù)的估計值為
(4)
式中,Wui,vi,ti=diag(αi1,αi2,…,αin)表示n階時空距離權重對角矩陣(n為樣本數(shù));對角元素αij(1≤j≤n)表示點j對觀測點i的影響,它與時空距離有關。點j到觀測點i的時空距離越近,對估計結果的影響越大。因此,與GWR模型相似,時空距離衰減函數(shù)直接影響參數(shù)的估計,本文中GTWR模型同樣使用高斯核函數(shù)。由于位置和時間使用不同的單位系統(tǒng)來計量,它們的尺度效應也不相同,因此引入橢圓坐標系統(tǒng)來表示時空距離[11],在給定空間距離dS和時間距離dT的情況下,時空距離表示為
dST=λdS+μdT
(5)
式中,λ和μ分別為平衡空間距離和時間距離的比例因子,選擇合適的值后dST就能度量時空距離。設k=μ/λ,若k為0,GTWR模型就簡化為GWR模型,若k為無窮大,模型將簡化為時間加權回歸模型(TWR)。具體的時空距離比例因子和最優(yōu)帶寬通過計算AIC值使其達到最小來確定。
Investigate on the pre-assessment of typhoon disaster in Ningbo based on BP neural network
本文的試驗數(shù)據(jù)包含訓練集和驗證集兩部分。在對訓練集中的發(fā)病數(shù)和相關關鍵詞的搜索指數(shù)進行雙變量相關分析的基礎上,篩選出與流感發(fā)病顯著相關的關鍵詞。通過構建OLS模型并觀察VIF值(方差膨脹因子)來檢驗自變量之間的共線性,利用主成分分析法消除共線性以降低模型估計誤差。再采用消除共線性后的主成分作為自變量,分別使用OLS、GWR和GTWR構建流感空間分布模型,最后對以上回歸分析方法的模擬結果進行精度驗證和對比。將驗證集的自變量代入擬合效果最佳的模型中,得到各省流感發(fā)病數(shù)的預測值,與實際分布情況進行對比驗證。技術路線如圖1所示。
圖1 技術路線
本文使用流感官方發(fā)病數(shù)據(jù)作為模擬目標,數(shù)據(jù)來源于公共衛(wèi)生科學數(shù)據(jù)中心(http:∥www.phsciencedata.cn/Share/index.jsp),樣本采集時間范圍為2013年10月至2014年3月,統(tǒng)計全國范圍各省各月的流感發(fā)病數(shù)量,由于香港、澳門、臺灣、西藏的數(shù)據(jù)難以獲取,下文的分析中將不包括上述地區(qū)。將以上時間范圍和地點的流感相關關鍵詞的搜索量作為自變量,已有的國內外相關研究大多使用谷歌趨勢作為數(shù)據(jù)源,但百度占據(jù)了中國84.5%以上的份額[12],因此本文使用的搜索引擎數(shù)據(jù)來自于百度指數(shù)網(wǎng)站(https:∥index.baidu.com/)。
以上試驗數(shù)據(jù)被劃分為訓練集和驗證集兩個部分,在模型建立階段均選取2013年10月至2014年2月的試驗數(shù)據(jù)作為模型訓練樣本,用于估計回歸參數(shù),使用2014年3月的試驗數(shù)據(jù)作為驗證集,用于對模型模擬流感空間分布的效果進行驗證。
不同關鍵詞在某一特定時間地點對應不同的搜索頻率,它的選取直接影響模型結果,因此必須選擇與流感發(fā)病高度相關的關鍵詞。本文選取的關鍵詞的百度指數(shù)與流感發(fā)病數(shù)的相關系數(shù)大于0.5,并且要求關鍵詞在語義上與流感相關。若同時受到其他變量的影響,與流感無關的關鍵詞也可能與發(fā)病數(shù)有很高的相關系數(shù)。Ginsberg等從五千萬個搜索詞中選取了相關系數(shù)最高的45個,計算量過大,不具有可重復性。以往的研究表明,越多的關鍵詞不能保證越高的模型擬合度,對于一個相對精確的模型,增加一個關鍵詞的邊際貢獻并不顯著,反而增大了計算量[13]。依據(jù)以上原則,結合相關文獻[4,12-13]選取了咳嗽、發(fā)燒、喉嚨痛、H7N9、頭痛、肺炎、感冒、禽流感、流感、甲流、流感癥狀、流感病毒、流鼻涕等13個關鍵詞,分別用X1至X13表示,以上關鍵詞的百度指數(shù)均在0.01水平上與流感發(fā)病數(shù)顯著相關,具體的相關系數(shù)見表1。
表1 各關鍵詞搜索量與流感發(fā)病數(shù)的相關系數(shù)
使用X1至X13作為解釋變量,發(fā)病數(shù)Y作為因變量,利用普通最小二乘法(OLS)建立流感空間分布模型,再通過觀察VIF值檢驗自變量之間的共線性。模型校正后的R2值為0.688,說明該模型整體擬合效果較好。但是各解釋變量對應的VIF值較大,最小值為8.167,最大達到68.366。一般認為VIF值大于7.5是變量間共線性的觸發(fā)點[14],該模型解釋變量的組合存在冗余,這會導致模型變得不可靠,因此需要通過降低解釋變量維度來消除共線性,進而減少模型估計誤差。
對關鍵詞的百度指數(shù)X1至X13運行主成分分析,所有關鍵詞的共同度均大于0.6,根據(jù)特征值大于1的準則可提取3個主成分,分別用PC1、PC2、PC3表示,其累積方差貢獻率為82.76%,可較好地代表原始數(shù)據(jù)。
使用消除共線性后的3個主成分作為自變量,流感發(fā)病數(shù)作為因變量,進行OLS多元線性回歸,得到模型參數(shù)估計值及模型統(tǒng)計診斷結果見表2。
表2 OLS模型參數(shù)估計
經(jīng)過主成分分析后所有變量的系數(shù)均通過t檢驗,而且自變量之間幾乎不存在共線性,模型校正R2值也提高到了0.737,表明以上主成分可用于進一步構建流感空間分布的局部模型。
使用相同的數(shù)據(jù)集,基于地理加權回歸構建流感空間分布模型,結果見表3,表中用四分位數(shù)來表示各參數(shù)的變化情況。
表3 GWR模型參數(shù)估計
GWR模型的擬合度為0.915,與OLS模型相比有大幅度的提高。在不同空間位置上,GWR模型的參數(shù)估計值存在較大變化,這一變化表明,各解釋變量對發(fā)病數(shù)的影響作用大小甚至正負都不一致。過往的研究也表明,網(wǎng)絡搜索行為存在一定的空間差異性特征,不同地區(qū)不同屬性的關鍵詞與真實病例數(shù)有不同的相關性[15],而OLS模型未能考慮這種變化特征。
進一步運用GTWR模型對訓練集中的數(shù)據(jù)進行分析并構建流感空間分布模型,模型參數(shù)估計值及性能指標見表4。
表4 GTWR模型參數(shù)估計
結果表明,模型可解釋實際發(fā)病數(shù)變化的百分比進一步提高到了95.9%。在不同的時間和空間上,GTWR模型參數(shù)估計值的變化程度大于GWR模型。AIC值是模型性能的另一種度量,用于比較不同的回歸模型,一般情況下,簡單的全局模型具有更好的可操作性和解釋性,而復雜的局部模型有更好的擬合度,若擬合度差異不大,應盡量選擇簡單的模型。AIC值考慮了模型復雜度,具有越小AIC值的模型性能越好,不同模型之間的AIC值相差超過3,表明模型性能差異顯著[16]??梢钥闯觯珹IC值從OLS的2 313.12降低到GWR的2 195.12及GTWR的2 115.10,降低幅度遠遠大于3,說明模型之間存在顯著差別。殘差是模型無法解釋的部分,從OLS模型到GTWR模型,殘差平方和(residual squares,RSS)逐漸降低。
雖然GTWR模型相對GWR模型的擬合度有所提升,但GWR模型相對OLS模型的提升更大,AIC值的變化也呈現(xiàn)出這樣的特征,可能的原因是試驗數(shù)據(jù)的時間跨度相對較小,而空間跨度較大,導致時間非平穩(wěn)性的影響要小于空間非平穩(wěn)性。綜上可見,由于回歸因素中存在時空非平穩(wěn)性,而GTWR模型同時考慮了時間和空間非平穩(wěn)性的影響,因此能更好地模擬流感發(fā)病的空間分布。
使用回歸分析方法對現(xiàn)象建模后可用于估算其他時間的數(shù)值[17]。在使用訓練集建立模型,并比較模型擬合效果的基礎上,選用GTWR模型對流感發(fā)病數(shù)進行估算,把驗證集的解釋變量即3個主成分代入回歸計算所得的模型中,得出2014年3月各省發(fā)病數(shù)的估計值。將未參與模型參數(shù)估計的3月各省實際發(fā)病數(shù)據(jù)作為模擬目標值用于與估算值進行對比,如圖2所示。
圖2 各省發(fā)病數(shù)的估計值與實際值比較
從圖2可以看出,發(fā)病數(shù)的估計值與真實值基本吻合,模型能準確識別流感高發(fā)地區(qū)和低發(fā)地區(qū),尤其在高發(fā)地區(qū)模擬效果更佳,但低發(fā)地區(qū)的擬合情況較差,可能是由于流感疫情嚴重的地區(qū)產(chǎn)生的搜索信息更為全面,使得模型對高值的估算較為準確。為了進一步驗證模型的預測能力,可通過對估計值與實際值進行空間相關性分析來比較兩者的接近程度[18]。結果表明,估計值與實際值相關系數(shù)達到0.956,在0.01水平上顯著相關,說明結合GTWR模型和搜索引擎數(shù)據(jù)可以較為準確地模擬流感發(fā)病的空間分布。
本文依據(jù)關鍵詞的百度指數(shù)與流感發(fā)病數(shù)之間的相關性進行關鍵詞選取,用于構造回歸模型;針對回歸分析中經(jīng)常存在的多重共線性問題,使用主成分分析法消除變量共線性;為了表達模型的時空非平穩(wěn)性,構建時空地理加權回歸流感空間分布模型。研究結果表明,流感發(fā)病數(shù)與相關關鍵詞百度指數(shù)之間存在明顯的時空非平穩(wěn)性,與全局回歸模型相比,變系數(shù)的局部回歸模型能顯著提高模型擬合程度,其中時空地理加權回歸模型效果最佳,結合搜索引擎數(shù)據(jù)能準確識別流感高發(fā)地區(qū),實時監(jiān)測流感發(fā)病空間分布情況。該方法較常規(guī)監(jiān)測方法具有更高的時效性,而且數(shù)據(jù)獲取和計算成本低廉,可用于早期預警,成為傳統(tǒng)疾病監(jiān)測方法的有效補充。
[1] 胡雪蕓,何宗宜,苗靜.疾病數(shù)據(jù)的時空聚集分析及可視化[J].測繪通報,2015(11):106-111.
[2] 單杰,秦昆,黃長青,等.眾源地理數(shù)據(jù)處理與分析方法探討[J].武漢大學學報(信息科學版),2014,39(4):390-396.
[3] 艾廷華.大數(shù)據(jù)驅動下的地圖學發(fā)展[J].測繪地理信息,2016,41(2):1-7.
[4] 魯力,鄒遠強,彭友松,等.百度指數(shù)和微指數(shù)在中國流感監(jiān)測中的比較分析[J].計算機應用研究,2016(2):392-395.
[5] 李秀婷,劉凡,董紀昌,等.基于互聯(lián)網(wǎng)搜索數(shù)據(jù)的中國流感監(jiān)測[J].系統(tǒng)工程理論與實踐,2013,33(12):3028-3034.
[6] GINSBERG J,MOHEBBI M H,PATEL R S,et al.Detecting Influenza Epidemics Using Search Engine Query Data[J].Nature,2008,457(7232):1012-1014.
[7] 王若佳,李培.基于互聯(lián)網(wǎng)搜索數(shù)據(jù)的流感監(jiān)測模型比較與優(yōu)化[J].圖書情報工作,2016(18):122-132.
[8] 焦利民,許剛,趙素麗,等.基于LUR的武漢市PM2.5濃度空間分布模擬[J].武漢大學學報(信息科學版),2015,40(8):1088-1094.
[9] 趙陽陽,劉紀平,徐勝華,等.一種基于半監(jiān)督學習的地理加權回歸方法[J].測繪學報,2017,46(1):123-129.
[10] 張金牡,劉彪,吳波,等.應用改進的時空地理加權模型分析城市住宅價格變化[J].東華理工大學學報(自然科學版),2010,33(1):53-59.
[11] HUANG B,WU B,BARRY M.Geographically and Temporally Weighted Regression for Modeling Spatio-temporal Variation in House Prices[J].International Journal of Geographical Information Science,2010,24(3):383-401.
[12] 董曉春,李琳,徐文體,等.特定關鍵詞及百度指數(shù)與流感病毒活動相關性分析[J].中國公共衛(wèi)生,2016(11):1543-1546.
[13] YUAN Q,NSOESUE E O,LV B,et al.Monitoring Influenza Epidemics in China with Search Query from Baidu[J].Plos One,2013,8(5):e64323.
[14] 王旭,林征,張志,等.基于GWR模型的北極濱海平原融凍湖表面溫度空間分布模擬[J].武漢大學學報(信息科學版),2016,41(7):918-924.
[15] 黃達滄.基于搜索引擎數(shù)據(jù)的手足口病監(jiān)測[D].長春:東北師范大學,2015:27-32.
[16] 覃文忠,王建梅,劉妙龍.混合地理加權回歸模型算法研究[J].武漢大學學報(信息科學版),2007,32(2):115-119.
[17] ZHANG H,GUO L,CHEN J,et al.Modeling of Spatial Distributions of Farmland Density and Its Temporal Change Using Geographically Weighted Regression Model[J].Chinese Geographical Science,24(2):191-204.
[18] LAMPOS V,CRISTIANINI N.Tracking the Flu Pandemic by Monitoring the Social Web[C]∥2010 Second International Workshop on Cognitive Information Processing(CIP).Elba:IEEE,2010:411-416.