摘 要:針對人口統(tǒng)計數(shù)據(jù)無法精細直觀反映人口真實的空間分布狀況的問題,該文以福建省為例,對其2015年的人口數(shù)據(jù)進行空間化。以多源數(shù)據(jù)為基礎數(shù)據(jù),在縣級尺度上采用了空間回歸模型構建福建省2015年福建省500 m人口空間分布數(shù)據(jù),在鄉(xiāng)鎮(zhèn)尺度上對其空間化結果進行精度驗證并與WorldPop、中國公里網(wǎng)格人口分布數(shù)據(jù)集比較。結果表明: NPP/VIIRS夜間燈光、路網(wǎng)、DEM、土地利用數(shù)據(jù)與人口具有較強的相關性,有足夠能力模擬人口的空間分布;對于2015年福建省人口數(shù)據(jù)空間化,空間誤差模型比空間滯后模型的回歸擬合效果更好;人口數(shù)據(jù)空間化結果精度比較高,在空間上能精細展現(xiàn)2015年福建省的人口分布狀況;人口高值區(qū)主要集中在縣城所在地,人口呈現(xiàn)出主城區(qū)高、四周低的空間分布格局。
關鍵詞:人口;影響因素;空間回歸;空間化
中圖分類號:TP79;C922
文獻標識碼: A
人口增長問題是當今世界不容忽視的問題,也加劇了與糧食、能源、資源、環(huán)境之間的矛盾[1]。深入了解人口信息,掌握精確的人口空間分布及其變化信息可以為解決社會、經(jīng)濟、資源和環(huán)境問題提供科學的決策依據(jù)[2, 3]。然而,現(xiàn)有的人口數(shù)據(jù)通常是通過人口普查或抽查方式按行政單元逐級統(tǒng)計和匯總,忽略了統(tǒng)計單元內部人口分布的差異性,且時間分辨率低,更新周期長,執(zhí)行時費時費力[4, 5]。同時,為了保護人口數(shù)據(jù)的隱私性,人口數(shù)據(jù)通常以縣、市、省、國家等較大行政單元進行公布,這不利于人口數(shù)據(jù)與其他類型數(shù)據(jù)的融合分析研究,限制了人口數(shù)據(jù)的可利用性[6]。人口數(shù)據(jù)空間化恰好彌補了這種限制性,得到的空間化產(chǎn)品可以有效與其他類型數(shù)據(jù)融合,在風險評估、資源分配、經(jīng)濟發(fā)展等方面發(fā)揮作用[7, 8]。
人口數(shù)據(jù)空間化是以人口數(shù)據(jù)、行政邊界以及影響人口分布的因素作為建模參考要素,通過人口建?;虿捎靡欢ǖ挠嬎惴椒?,將人口數(shù)據(jù)分配到一定尺度的格網(wǎng)上,呈現(xiàn)出人口空間分布信息,實現(xiàn)人口統(tǒng)計數(shù)據(jù)的空間可視化[9]。自人口增長問題的嚴重性得到重視,各國學者相繼主要從建模要素、建模方法、精度驗證方法等三個方面開展全球、國家、州(?。┘?、縣級等尺度的人口數(shù)據(jù)空間化研究,形成了UNEP/GRID、GPW及GRUMP、LandScan、WorldPop、中國公里格網(wǎng)人口分布數(shù)據(jù)集等具有較大影響力的全球人口空間化產(chǎn)品[9-11]。但在許多人口數(shù)據(jù)空間化研究中,建模方法多為多元回歸方法,忽略了人口的空間分布效應,如柏中強等[12]和Zhuo等[13]的研究。
本研究考慮到數(shù)據(jù)的可利用性與人口的空間分布效應,在NPP/VIIRS(National Polar-orbiting Operational Environmental Satellite System Preparatory Project/ Visible Infrared Imaging Radiometer Suite)夜間燈光、土地利用數(shù)據(jù)、DEM、路網(wǎng)數(shù)據(jù)與常住人口數(shù)據(jù)的相關性的基礎上,以福建省為研究區(qū),在縣級尺度上采用空間回歸模型對2015年福建省常住人口進行回歸以構建其500 m人口空間分布數(shù)據(jù),并在鄉(xiāng)鎮(zhèn)尺度上對人口空間化結果進行精度驗證,同時與WorldPop及中國公里格網(wǎng)人口分布數(shù)據(jù)集比較,實現(xiàn)2015年福建省人口數(shù)據(jù)空間化。
1 數(shù)據(jù)來源和研究方法
1.1 數(shù)據(jù)來源
式中:Y為因變量,X為自變量,β為X的空間回歸系數(shù),μ為殘差,W為空間權重矩陣,ρ為空間自回歸系數(shù), λ為空間自相關系數(shù),ξ為因變量誤差,ε為自變量誤差。μ=μ1時,模型為空間滯后模型(SLM);μ=μ2時,模型為空間誤差模型(SEM)。本研究經(jīng)過模型比較選擇最佳空間回歸模型。
空間回歸模型中R2(相關系數(shù))、Log likelihood(對數(shù)似然值)、Akaike info criterion(赤池信息準則)和Schwarz criterion(施瓦茨信息準則)共四個統(tǒng)計量作為模型的評價指標。其中,R2的取值范圍為[0,1], R2越接近于1、Log likelihood值越大、Akaike info criterion和Schwarz criterion值越小說明模型的回歸擬合效果越好;除了上述評價指標,還需在普通最小二乘回歸模型(OLS)的基礎上通過拉格朗日乘子檢驗和穩(wěn)健性的拉格朗日乘子檢驗判斷模型的回歸擬合效果,Lagrange Multiplier 和Robust LM值越大說明模型的回歸擬合效果越好[15]。
基于八鄰域(Queen)鄰接規(guī)則的空間樣本常常與其周圍空間單元具有更加緊密的關聯(lián)效應。為更能全面地反映行政區(qū)域單元空間鄰接關系,本研究選擇構建基于八鄰域鄰接關系的空間權重矩陣,認為當兩個空間單元存在公共邊或同一點即為相鄰,權值為1,否則為0[16]。
鑒于人口數(shù)量不可能為負值,本研究默認回歸模型的自變量系數(shù)及常量必須為正值,且還需通過顯著性檢驗。建立好空間回歸模型后,將模型中的常量按縣為單位平均分配到每個縣的各個格網(wǎng)上,即在計算各格網(wǎng)單元上的人口數(shù)值時,原模型中的常量發(fā)生了變化,其余參數(shù)均未變。將各格網(wǎng)單元上的自變量數(shù)值代入模型計算各格網(wǎng)單元上的人口數(shù)值,實現(xiàn)500 "m格網(wǎng)單元的人口構建。
為保證縣域上總的模擬人口數(shù)與實際常住統(tǒng)計人口數(shù)據(jù)一致,對各格網(wǎng)單元的人口回歸結果分縣按式(2)進行校正,最終得到福建省500 m格網(wǎng)單元的人口空間分布數(shù)據(jù),實現(xiàn)2015年福建省人口數(shù)據(jù)空間化。
Pij=Pij′×PiPi′,(2)
式中:Pij為第i個縣第j個格網(wǎng)單元上調整后的人口數(shù)值;Pij′為第i個縣第j個格網(wǎng)單元上的人口回歸數(shù);Pi第i個縣常住人口統(tǒng)計數(shù)據(jù);Pi′為第i個縣上初始的總模擬人口數(shù)。
1.2.3 精度驗證方法
本研究在縣級尺度上進行人口數(shù)據(jù)空間化,在鄉(xiāng)鎮(zhèn)尺度上選擇相對誤差(RE)、平均相對誤差(MRE)、平均絕對誤差(MAE)和均方根誤差(RMSE)等評價指標對人口數(shù)據(jù)空間化結果進行精度驗證,并與WorldPop及基于土地利用構建的中國公里網(wǎng)格人口分布數(shù)據(jù)集比較。其評價指標計算公式如表2所示。
2 結果與討論
2.1 人口與各要素的的相關性分析
本研究考慮了夜間燈光、路網(wǎng)、DEM、土地利用類型的影響,分析了人口與這些要素之間的相關性。表3中NPP/VIIRS夜間燈光與人口的相關系數(shù)最高(為0.866),未利用土地與人口的相關系數(shù)最低(為0.034)。相關性分析表明,夜色間燈光、路網(wǎng)、DEM、土地利用數(shù)據(jù)與人口分布關系密切,具有模擬人口的空間分布的能力。
人口數(shù)據(jù)空間化過程中建模要素的選擇對人口數(shù)據(jù)空間化的結果具有至關重要的影響,它決定了我們從哪些角度來解釋人口分布的影響機制以及模擬人口分布。部分建模要素不僅具有時間分辨率還具有空間分辨率,這些都影響了人口數(shù)據(jù)空間化最終的結果精度。
2.2 空間回歸模型構建
鑒于相關性分析表明了夜間燈光、路網(wǎng)、DEM、土地利用數(shù)據(jù)與人口具有良好的相關性,本研究以各縣的DEM總值、路網(wǎng)總長度以及各土地利用類型上的夜間燈光總強度為自變量待選量,以各縣常住人口統(tǒng)計數(shù)據(jù)為因變量,通過顯著性及正值檢驗確定最終的自變量,建立空間回歸模型。最后,經(jīng)過模型比較選擇最佳的空間回歸模型。
2.3 人口數(shù)據(jù)空間化結果
經(jīng)過上述相關性分析及最佳空間回歸模型的選擇,結合縣域尺度人口分布的校正,本研究估測了500 m格網(wǎng)單元上的人口值,實現(xiàn)了2015年福建省人口數(shù)據(jù)空間化,圖2精細地展現(xiàn)了2015年福建省的人口分布狀況。由于水域、未利用土地、海洋這三類土地利用類型最終未參與到空間回歸模型的建立,本研究在人口數(shù)據(jù)空間化實現(xiàn)中將這三類土地利用類型所在網(wǎng)格單元的人口設置為0,認為其無人居住,這也符合人口的實際分布情況。
從圖2可以看出,2015年福建省人口主要聚集于建設用地,各縣的人口高值區(qū)主要集中在縣城所在地,其人口最高值為16009,最小值為0,人口呈現(xiàn)出主城區(qū)高、四周低的空間分布格局;沿海區(qū)域的人口明顯高于其他地區(qū),這也間接反映了沿海區(qū)域更好的經(jīng)濟發(fā)展基礎吸引了大量人口的聚集,城市化進程更快。閩北大部分屬于山區(qū),經(jīng)濟發(fā)展緩慢,常住人口數(shù)量明顯低于沿海區(qū)域。結合2015年福建省人口的實際分布情況,總體來看本研究人口數(shù)據(jù)空間化結果符合2015年福建省人口的實際分布情況。
2.4 精度驗證結果
本研究隨機抽取132個鄉(xiāng)鎮(zhèn),分別在本研究人口數(shù)據(jù)空間化結果、WorldPop及基于土地利用構建的中國公里網(wǎng)格人口分布數(shù)據(jù)集上統(tǒng)計這些鄉(xiāng)鎮(zhèn)的人口數(shù),然后分別與其常住人口統(tǒng)計數(shù)據(jù)進行對比分析以分別計算其相對誤差(RE)、平均相對誤差(MRE)、平均絕對誤差(MAE)、均方根誤差(RMSE)共四個評價指標并對相對誤差進行分級,最后根據(jù)其評價指標比較這三種數(shù)據(jù)集。
表6為人口分布數(shù)據(jù)集的誤差統(tǒng)計表,其評價指標分別為MRE、MAE、RMSE。由表6可以看出,本研究人口數(shù)據(jù)空間化結果的MRE、MAE、RMSE分別為49.54%、15636、30071,WorldPop數(shù)據(jù)集的MRE、MAE、RMSE分別為74.39%、15740、32246,中國公里網(wǎng)格人口分布數(shù)據(jù)集的MRE、MAE、RMSE分別為75.72%、15934、30539。經(jīng)過數(shù)值比較,發(fā)現(xiàn)本研究人口數(shù)據(jù)空間化結果的MRE、MAE、RMSE這三個誤差均小于WorldPop與中國公里網(wǎng)格人口分布數(shù)據(jù)集,這說明在福建省本研究人口數(shù)據(jù)空間化結果精度比WorldPop與中國公里網(wǎng)格人口分布數(shù)據(jù)集精度要高。
表7是132個鄉(xiāng)鎮(zhèn)的相對誤差分級統(tǒng)計表。本研究人口數(shù)據(jù)空間化結果出現(xiàn)準確估計的鄉(xiāng)鎮(zhèn)個數(shù)均大于WorldPop與中國公里網(wǎng)格人口分布數(shù)據(jù)集,嚴重低估、低估的鄉(xiāng)鎮(zhèn)個數(shù)略大于WordPop與中國公里網(wǎng)格人口分布數(shù)據(jù)集,高估的鄉(xiāng)鎮(zhèn)個數(shù)略大于WorldPop數(shù)據(jù)集又略小于中國公里網(wǎng)格人口分布數(shù)據(jù)集,嚴重高估的鄉(xiāng)鎮(zhèn)個數(shù)均小于WorldPop與中國公里網(wǎng)格人口分布數(shù)據(jù)集。經(jīng)過比較分析,從RE角度總體來看,本研究人口數(shù)據(jù)空間化結果精度要高于WorldPop與中國公里網(wǎng)格人口分布數(shù)據(jù)集。
結合MRE、MAE、RMSE、RE四個評價指標,綜合分析,認為本研究人口數(shù)據(jù)空間化結果精度要高于WorldPop與中國公里網(wǎng)格人口分布數(shù)據(jù)集。這充分表明本研究人口數(shù)據(jù)空間化結果精度比較高,在空間上能夠精細地展現(xiàn)2015年福建省的人口分布狀況,彌補了傳統(tǒng)的以縣為單位展現(xiàn)人口分布狀況的不足。
2.5 討論
福建省氣候條件優(yōu)越,作為海上絲綢之路的重要起點以及互聯(lián)互通建設的重要樞紐,吸引了大量外來人口來閩發(fā)展和居住。其人口數(shù)量一直在不斷增長,截止至2015年,其常住人口數(shù)量從2000年的3410萬增加至3839萬。然而由于福建多山的地貌及沿海的地理位置,臺風登陸時風力和降雨量會驟增,容易造成泥石流、山體滑坡、和城市內澇等自然災害的發(fā)生,影響了社會、經(jīng)濟的穩(wěn)定發(fā)展。這時,了解到精細的人口空間分布狀況能很好地對自然災害的預防與響應救援起到指導性作用。本研究人口數(shù)據(jù)空間化結果能夠精細直觀地反映出2015年福建省的人口空間分布狀況,可以定性地預測之后年份的人口空間分布狀況,為該地區(qū)的經(jīng)濟發(fā)展、人口管理、自然災害的預防與響應救援等提供有力的科學決策依據(jù)。
2015年,福建省路網(wǎng)、DEM和土地利用類型與人口具有良好的相關性,有足夠能力作為人口建模要素。然而,本研究僅考慮了這些遙感與地理要素對人口分布的影響,未考慮氣溫、降雨等氣候因素以及GDP、房價等社會經(jīng)濟因素的影響,這可能一定程度上造成了本研究人口數(shù)據(jù)空間化的人口低估與高估現(xiàn)象。此外,土地利用或多越少會存在一定的解譯誤差問題,并且零碎的建設用地都有可能存在于耕地、林地、草地中,這些在本研究使用的分辨率僅為1 km土地利用數(shù)據(jù)中無法體現(xiàn),這也可能是人口出現(xiàn)低估與高估現(xiàn)象的原因。
本研究人口數(shù)據(jù)空間化結果的MRE、MAE、RMSE均小于中國公里網(wǎng)格人口分布數(shù)據(jù)集[17],表現(xiàn)為其MRE、MAE、RMSE分別為49.54%、15636、30071,中國公里網(wǎng)格人口分布數(shù)據(jù)集其指標數(shù)值分別為75.72%、15934、30539,且本研究人口數(shù)據(jù)空間化結果出現(xiàn)準確估計的鄉(xiāng)鎮(zhèn)個數(shù)大于中國公里網(wǎng)格人口分布數(shù)據(jù)集,這說明了本研究人口數(shù)據(jù)空間化結果的精度比中國公里網(wǎng)格人口分布數(shù)據(jù)集的精度要高,表明了在使用土地利用類型數(shù)據(jù)實現(xiàn)人口數(shù)據(jù)空間化時結合夜間燈光、路網(wǎng)等數(shù)據(jù)可以提高人口數(shù)據(jù)空間化結果的精度。
與已有研究比較,本研究使用空間回歸建模方法,而大量已有研究直接采用多元回歸建模方法,如梁友嘉等[18],多元回歸建模方法未考慮人口的空間分布效應。本研究通過對OLS模型和空間回歸模型從R2、Log likelihood、Akaike info criterion、Schwarz criterion、Lagrange Multiplier、Robust LM指標進行比較,得出考慮到人口空間分布效應的空間回歸模型比未考慮到人口空間分布效應的OLS模型的回歸擬合效果要好的結論。
人口空間分布的影響因素復雜,建模方法也多樣,在今后的人口數(shù)據(jù)空間化研究中,應重點加強建模要素及建模方法的挑選及改進,圍繞如何得到精細的人口空間分布和如何提高人口數(shù)據(jù)空間化的精度開展研究。
3 結論
夜間燈光、土地利用狀況、路網(wǎng)、DEM都是影響人口分布的重要因素,成為了實現(xiàn)人口數(shù)據(jù)空間化的重要數(shù)據(jù)源。本研究考慮到數(shù)據(jù)的可利用性和人口的空間分布效應,在分析NPP/VIIRS夜間燈光、土地利用類型、路網(wǎng)、DEM與人口的相關性基礎上,通過空間回歸模型構建2015年福建省500 m人口空間分布數(shù)據(jù),在鄉(xiāng)鎮(zhèn)尺度上對人口數(shù)據(jù)空間化結果進行精度驗證,同時與WorldPop及中國公里網(wǎng)格人口分布數(shù)據(jù)集比較,最終得出以下結論:
(1)NPP/VIIRS夜間燈光、土地利用類型、路網(wǎng)、DEM這些因素與人口具有較強的相關性,它們與人口分布關系密切;
(2)對于2015年福建省人口數(shù)據(jù)空間化,空間誤差模型比空間滯后模型的回歸擬合效果更好;
(3)本研究人口數(shù)據(jù)空間化結果符合2015年福建省人口的實際分布情況,人口呈現(xiàn)出主城區(qū)高、四周低的空間分布格局且沿海區(qū)域的人口明顯高于其他地區(qū);
(4)相對于福建省區(qū)域的WorldPop與中國公里網(wǎng)格人口分布數(shù)據(jù)集,本研究人口數(shù)據(jù)空間化結果精度更高。
參考文獻:
[1]葉宇, 劉高煥, 馮險峰.人口數(shù)據(jù)空間化表達與應用[J].地理信息科學,2006,8(2):59-65.
[2]Weber E M, Seaman V Y, Stewart R N, et al.Census-independent population mapping in northern Nigeria[J].Remote Sensing of Environment,2018,204(Suppl C):786-798.
[3]Alahmadi M, Atkinson P, Martin D.Estimating the spatial distribution of the population of Riyadh, Saudi Arabia using remotely sensed built land cover and height data[J].Computers, Environment and Urban Systems,2013,41:167-176.
[4]Sandborn A, Engstrom R N.Determining the relationship between census data and spatial features derived from high-resolution imagery in Accra, Ghana[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2016,9(5):1970-1977.
[5]李素, 莊大方.基于RS和GIS的人口估計方法研究綜述[J].地理科學進展,2006,25(1):109-121.
[6]Li L, Lu D.Mapping population density distribution at multiple scales in Zhejiang Province using Landsat Thematic Mapper and census data[J].International Journal of Remote Sensing,2016,37(18):4243-4260.
[7]陳楠, 林宗堅, 王欽敏.人口經(jīng)濟學中的GIS與定量分析方法[M].北京:科學出版社,2007.
[8]Jia P, Qiu Y, Gaughan A E.A fine-scale spatial population distribution on the High-resolution Gridded Population Surface and application in Alachua County, Florida[J].Applied Geography,2014,50:99-107.
[9]柏中強, 王卷樂, 楊飛.人口數(shù)據(jù)空間化研究綜述[J].地理科學進展,2013,32(11):1692-1702.
[10]董南, 楊小喚, 蔡紅艷.人口數(shù)據(jù)空間化研究進展[J].地球信息科學學報,2016,18(10):1295-1304.
[11]Alegana V A, Atkinson P M, Pezzulo C, et al.Fine resolution mapping of population age-structures for health and development applications[J].Journal of the Royal Society Interface,2015,12(105):1-11.
[12]柏中強, 王卷樂, 姜浩, 等.基于多源信息的人口分布格網(wǎng)化方法研究[J].地球信息科學學報,2015,17(6):653-660.
[13]Zhuo L, Ichinose T, Zheng J, et al.Modelling the population density of China at the pixel level based on DMSP/OLS non-radiance-calibrated night-time light images[J].International Journal of Remote Sensing,2009,30(4):1003-1018.
[14]邁克爾·沃德, 克里斯蒂安·格里蒂奇.空間回歸模型[M].上海:格致出版社,2016.
[15]姜磊.空間回歸模型選擇的反思[J].統(tǒng)計與信息論壇,2016,31(10):10-16.
[16]王守坤.空間計量模型中權重矩陣的類型與選擇[J].經(jīng)濟數(shù)學,2013,30(3):57-63.
[17]付晶瑩, 江東, 黃耀歡.中國公里網(wǎng)格人口分布數(shù)據(jù)集[J].地理學報,2014,69:41-44.
[18]梁友嘉, 徐中民.基于LUCC和夜間燈光輻射數(shù)據(jù)的張掖市甘州區(qū)人口空間分布建模[J].冰川凍土,2012,34(4):999-1006.
(責任編輯:曾 晶)