尹哲 賀湘焱 李奇鳳 劉亞潔 張燕 李德洋 加依娜·拉茲別克 古麗娜扎爾·艾克拜爾 曹明芹
結核病傳播具有空間聚集性分布的特點,在經濟“邊緣化和脆弱地區(qū)”高發(fā),根據全國第五次結核病流行病學抽樣調查,西部地區(qū)涂陽肺結核患病率是中部地區(qū)的1.7倍,是東部地區(qū)的2.4倍[1]。新疆維吾爾自治區(qū)(簡稱“新疆”)地處我國西北部,經濟發(fā)展相對落后,加之衛(wèi)生資源稀缺等因素造成基礎疫情嚴重,防治困難,年平均涂陽肺結核登記率為39.31/10萬[2],是我國結核病發(fā)病比較嚴重的地區(qū)之一[3]。
伴隨著空間流行病學理論、技術的快速發(fā)展,地理信息系統(geographical information system,GIS)和空間分析軟件應用日益廣泛,利用地理統計學的知識從空間角度揭示結核病的分布與傳播規(guī)律,已經成為廣大科研工作者熱衷研究的方向??死锝鸩逯捣ㄍㄟ^變異函數來研究具有空間相關性和依賴性的地理分布現象,主要應用于采礦業(yè)、農業(yè)、地質等領域,隨著地質統計學理論的不斷成熟,應用范圍持續(xù)擴展[4-5]。
本研究在2011—2015年新疆涂陽肺結核發(fā)病風險時空分布探索的基礎上,根據克里金插值方法最優(yōu)無偏的特點,采用普通克里金法和經驗貝葉斯克里金法建立模型,探索涂陽肺結核發(fā)病風險時空分布的相關性和變異性,評估新疆不同地區(qū)肺結核疫情。
一、資料來源
2011—2015年新疆肺結核發(fā)病報告數據來自《中國疾病預防控制信息系統》的子系統《傳染病報告信息管理系統》。2011—2015年新疆涂陽肺結核報告發(fā)病例數分別為11 813、14 059、11 149、10 483、10 196例,5年間共計57 700例。各年份區(qū)(縣)人口數據來自新疆統計年鑒。省級行政區(qū)域電子地圖(1∶10萬)從國家基礎地理信息系統獲取,各區(qū)(縣)的經緯度數據由Google earth獲取,以2011年為標準。
二、分析方法
1. 涂陽肺結核標準化發(fā)病比(standardized morbidity ratio,SMR)估算:2011—2015年新疆結核病發(fā)病數和發(fā)病率數據資料經整理、計算,構建各區(qū)(縣)涂陽肺結核SMR數據庫。以各區(qū)(縣)年度報告的全疆人口構成和涂陽肺結核發(fā)病率作為標準,計算各個區(qū)(縣)涂陽肺結核SMR,公式如下:
公式(1)[6]
其中,yij表示i區(qū)(縣)(1≤i≤98)在第j年(2011≤j≤2015)的涂陽肺結核報告例數,Eij表示i區(qū)(縣)在第j年的期望報告例數,由當地人口數乘以全疆第j年的涂陽肺結核報告率得到。
2. 空間自相關分析:采用全局莫蘭指數(MoranI)值反映空間自相關關系,公式如下:
公式(2)[7]
其中,zi是第i個區(qū)(縣)肺結核SMR與其平均值的偏差,wij是i和j之間的空間連接矩陣,n是要素總數,即觀測區(qū)域數等于98,S0是98個區(qū)(縣)空間權重的聚合。MoranI取值范圍為-1~1,MoranI值越趨近1,代表肺結核SMR呈聚集分布;MoranI值越趨近-1,代表肺結核發(fā)病率分布具有負相關性;MoranI值為零,表明整體呈隨機分布。假設檢驗使用Z-score得分,檢驗水準α=0.05;Z>1.96或<-1.96時,α<0.05。
3. 克里金法:普通克里金法可對周圍的測量值進行加權以得出未測量位置的一個線性估計預測系統,適用于區(qū)域化變量存在空間相關性的情況,能夠給出估計誤差,充分考慮空間變量相關性,有效彌補數據集存在的聚類影響,插值精度高。公式如下:
公式(3)[8]
其中,Z(Si) 是第i個位置處的實際涂陽肺結核SMR,λi是第i個位置處的未知權重,S0是預估點,N是測量點數。在普通克里金法中,權重λi取決于涂陽肺結核SMR實際點與待測點位置的距離,以及待測點周圍的實際涂陽肺結核SMR之間空間關系的擬合模型。
經驗貝葉斯克里金法是地質統計學建模技術之一。它與其他克里金模型不同之處在于其使用內在隨機函數進行空間插值。除了考慮半變異函數模型基本參數的不確定性之外,可以快速擬合許多理論半變異函數模型[9],從中選擇合適的理論模型進行最優(yōu)擬合。根據{z(xi);i=1,2,…,N}已知觀測點實際涂陽肺結核SMR,進一步求得未知測量點x0(x0∈D)處的貝葉斯克里金估計值,即:
公式(4)[10]
采用均方根誤差(root mean squared error,RMSE)來評價兩種模型的擬合效果,表示實際值與模型估計值之間的平均距離,RMSE值越小,誤差越小,模型效果越好。
三、統計學處理
采用Excel 2010軟件對2011—2015年新疆肺結核發(fā)病報告數據進行整理。通過SPSS 25.0軟件進行統計學分析。使用ArcGIS 10.2軟件實現空間分布圖、全局相關性分析、克里金插值分析及其結果的可視化。采用均方根誤差評價兩種模型的擬合效果。檢驗水準均為α=0.05。
一、2011—2015年新疆涂陽肺結核報告SMR時空分布格局
2011—2015年新疆涂陽肺結核SMR較高的地區(qū)主要分布于南疆的喀什、和田、阿克蘇3個地區(qū),具體表現在英吉沙縣、澤普縣、于田縣、民豐縣、洛浦縣等13個區(qū)(縣),見表1。從空間上看,涂陽肺結核SMR水平存在從南向北逐漸降低的趨勢,南疆SMR水平一直居高不下,北疆、東疆的SMR處于較低水平。5年間,各地區(qū)涂陽肺結核SMR均呈現小幅波動、整體下降的趨勢。南疆涂陽肺結核SMR水平較為平穩(wěn),但遠高于北疆和東疆,在高位上下波動。北疆和東疆始終保持在較低水平,以SMR水平降低為主要趨勢,2015年呈現較為明顯的升高趨勢,見圖1~5。
二、涂陽肺結核SMR全局自相關分析
利用全局MoranI指數對2011—2015年新疆區(qū)(縣)涂陽肺結核疫情進行全局空間自相關分析。結果顯示,各年度全疆涂陽肺結核SMR分布存在空間正相關關系,且差異有統計學意義(MoranI值均>0,P值均<0.001)。其中,整體表現出的聚集性在2013年最高(MoranI=0.376),在2014年最低(MoranI=0.248),詳見表2。
三、克里金插值模型構建涂陽肺結核SMR分布格局
對2011—2015年新疆涂陽肺結核SMR數據庫進行空間探索分析,變異云圖提示數據存在空間相關性,可以進行插值分析。分別建立普通克里金和經驗貝葉斯克里金模型,生成新疆涂陽肺結核發(fā)病SMR的克里金估計圖。交叉驗證比較,2011—2015年普通克里金模型RMSE范圍在0.379~0.522,經驗貝葉斯克里金模型RMSE范圍在0.382~0.484,兩種模型擬合度較高。與新疆涂陽肺結核SMR分布圖比較,符合實際分布規(guī)律,且更為直觀地表現出SMR在空間地理維度上的變化趨勢,提示涂陽肺結核SMR在新疆南部較高,北部較低,中部介于二者之間,南北疆之間存在一個較為明顯的分隔帶,走向基本與天山山脈走向一致,見圖6~15。
表1 2011—2015年新疆肺結核SMR的分布
表2 2011—2015年新疆涂陽肺結核SMR全局
一、新疆涂陽肺結核SMR時空格局的探討
本研究對2011—2015年新疆98個區(qū)(縣)涂陽肺結核SMR進行分析,以區(qū)(縣)級為尺度,為新疆尋找更有針對性的肺結核精準防控地區(qū)。全局自相關分析結果提示,涂陽肺結核SMR分布非隨機,具有較強的地區(qū)變化規(guī)律。由北向南、由東向西SMR逐漸增高,呈階梯式分布。涂陽肺結核發(fā)病高SMR地區(qū)主要分布在南疆的喀什、和田、阿克蘇3個地區(qū),具體表現在英吉沙縣、澤普縣、于田縣等10余個區(qū)(縣)。5年間,新疆涂陽肺結核SMR平均值在0.9~2.0之間上下波動,2011—2014年在波動中持續(xù)下降,2015年有小幅上漲。從宏觀上看,新疆SMR整體呈現一個好轉的趨勢,高SMR地區(qū)范圍逐漸縮小,符合新疆結核病發(fā)展分布趨勢。但新疆肺結核防控工作任務仍然十分艱巨,需要進一步強化和完善各項防治政策,落實各項防治措施。
圖1~5 2011—2015年新疆涂陽肺結核SMR時空分布
圖6~10 2011—2015年新疆涂陽肺結核SMR普通克里金估計值
圖11~15 2011—2015年新疆涂陽肺結核SMR經驗貝葉斯克里金估計值
二、克里金插值在估計疾病風險中的應用價值
克里金插值法可對所研究的對象提供一種最佳線性無偏估計,利用半方差函數圖將統計相關性的強度作為距離函數來測量。本研究用涂陽肺結核SMR數據庫分別建立普通克里金和經驗貝葉斯克里金模型。建模發(fā)現SMR分布與實際分布基本一致,誤差服從正態(tài)分布,估計圖、誤差圖均提示兩個模型擬合度較為理想。進行交叉驗證比較,采用均方根誤差指標評價兩模型擬合度,從估計值和真實值的離散程度上來說,經驗貝葉斯克里金法(RMSE范圍在0.382~0.484)略優(yōu)于普通克里金法(RMSE范圍在0.379~0.522),擬合度更加符合實際分布。
克里金插值估計圖可直觀展現新疆涂陽肺結核SMR階梯式變化,兩模型均提示在北疆與南疆之間存在一條與天山山脈走向較為相似的分隔帶。天山山脈將新疆分為南北兩大部分,南、北疆在海拔、氣候、經濟、衛(wèi)生等方面差異明顯。南疆地區(qū)全年降水量一般不足100 mm,遠低于北疆,且沙漠化現象嚴重[11]。西部大開發(fā)以來,隨著新亞歐大陸橋的開通,北疆經濟迅猛發(fā)展,南北疆經濟差距不斷擴大,“十二五”期間,天山北坡經濟帶建立,作為我國14個重點開發(fā)區(qū)之一,一直是新疆的重點開發(fā)區(qū),是新疆經濟實力最強、城鎮(zhèn)最集中分布的區(qū)域,這也進一步擴大了地區(qū)經濟差異[12]。研究表明,環(huán)境因素、經濟因素對結核病的發(fā)生發(fā)展有著實質性影響,國內外肺結核疫情報告中多有報道,經濟水平低下地區(qū)、自然條件惡劣地區(qū)的結核病的發(fā)病率較高[13]。
克里金插值作為一種局部估計方法,對估計值的整體空間相關性考慮不夠,其能保證數據的估計局部最優(yōu),卻不能保證數據的總體最優(yōu),因為克里金估值的方差比原始數據的方差要小。因此,當數據點較少且分布不均時可能會出現較大的估計誤差。此外克里金插值法作為內插方法,為減小估計方差而對真實觀測數據的離散性進行了平滑處理,雖然可以得到由于平滑而更美觀的等值線圖,但一些有意義的異常帶也可能被平滑作用而平滑掉[14]。在本研究的數據上也有體現,具體表現為經過克里金處理后,新疆涂陽肺結核SMR的估計值跟實際值比較起來有較為明顯的下降,波動范圍縮小。但克里金法通過有限的離散點數據,研究了整個區(qū)域的分布特征,直觀地反映了變量的空間結構性;并初步提供了未來新疆地區(qū)結核病防范的重點區(qū)域,為及時調整或完善防控措施提供線索和依據,對未來新疆結核病的防治有著重要意義。