王增錚,張福浩,,趙陽陽,仇阿根
(1. 西南交通大學(xué)地球科學(xué)與環(huán)境工程學(xué)院,四川 成都 611756; 2. 中國測繪科學(xué)研究院地理空間大數(shù)據(jù)應(yīng)用研究中心,北京 100036)
地理加權(quán)回歸(GWR)的提出有效地探測了空間非平穩(wěn)特征,豐富了空間分析方法[1]。20多年來,國內(nèi)外學(xué)者基于傳統(tǒng)GWR方法,從交叉驗證[2]、異方差剔除[3]、穩(wěn)健估計[4]、時空特征探測[5-6]等方面發(fā)展了該方法,并廣泛應(yīng)用到大氣反演[7]、疾病預(yù)測[8]、城市景觀[9]、房價估算[10-12]等多個自然社會領(lǐng)域。根據(jù)傳統(tǒng)GWR原理,空間權(quán)重是核心,反映了觀測點對回歸點的影響程度。
空間異質(zhì)性是指過程和關(guān)系在空間上的變化[13],是地理學(xué)、生態(tài)學(xué)及空間分析中的一個重要概念,被視為局部統(tǒng)計的基礎(chǔ)[14]??臻g異質(zhì)性分為連續(xù)異質(zhì)性和離散異質(zhì)性[15],對兩者的精確解算是空間回歸分析能否揭示地理要素之間復(fù)雜的相互關(guān)系的決定性因素。在回歸模型中,空間異質(zhì)性的存在要求回歸系數(shù)在空間上變化,即在空間不同單元之間離散變化或在空間上連續(xù)變化[16]。以往的空間回歸分析關(guān)注了空間離散異質(zhì)性,卻對空間的連續(xù)性考慮不夠,遺漏了一些重要的局部變化[16-17]。GWR建立在“臨近相關(guān),距離越遠(yuǎn)相關(guān)性越小”的假設(shè)前提下,這種方法是對空間連續(xù)異質(zhì)性的有效探測[16]。
但在現(xiàn)實中,受空間離散異質(zhì)性的影響,空間距離相近的事務(wù),屬性也會相差較遠(yuǎn)[18]。特別是在社會經(jīng)濟(jì)領(lǐng)域,受區(qū)劃因素的影響,距離相近的事物,屬性可能相差較遠(yuǎn)。如商品房屋價格受區(qū)域政策和學(xué)區(qū)影響,即使兩個小區(qū)距離很近,價格也會相差很大。傳統(tǒng)的GWR方法僅考慮空間距離,但未考慮離散異質(zhì)性導(dǎo)致的離散異質(zhì)區(qū)的區(qū)域距離,這導(dǎo)致區(qū)域臨界處擬合不充分[19]。本文綜合考慮在GWR的空間核函數(shù)中增加區(qū)域判別,提出區(qū)域地理加權(quán)回歸方法(regionally geographic weighted regression, RGWR),通過構(gòu)建區(qū)域空間權(quán)重計算策略有效篩選觀測點,修正核函數(shù),優(yōu)化權(quán)重計算方法,在探測空間非平穩(wěn)性的同時探測空間離散異質(zhì)性。
GWR在多元線性回歸基礎(chǔ)上,把位置參數(shù)嵌入回歸系數(shù)中[20],公式為
(1)
式中,(ui,vi)為第i個觀測點的坐標(biāo)位置;βk(ui,vi)為第i個觀測點的第k個回歸系數(shù);εi~N(0,σ2),Cov(εi,εj)=0(i≠j)。
RGWR是GWR的一個擴(kuò)展,用于探索空間非平穩(wěn)和空間離散異質(zhì)性,其基本思路是通過向GWR中添加區(qū)域變量,將地理位置嵌入回歸系數(shù)中,允許每個單獨的點具有不同的值以估計回歸系數(shù),且受每個回歸點的空間離散異質(zhì)區(qū)域的影響[18]。模型可表示為
(2)
在估計采樣點i的回歸系數(shù)時,在GWR的基礎(chǔ)上添加了區(qū)域因子,因此當(dāng)觀測點位于區(qū)域范圍之外時,該點參與回歸的權(quán)重除了受空間權(quán)重矩陣的影響,還受區(qū)域因子的影響。同樣使用局部最小二乘法,點i處的回歸系數(shù)估計值計算公式為
(3)
區(qū)域空間權(quán)重矩陣RWi表示為
(4)
式中,rwij表示觀測點對回歸點的區(qū)域空間權(quán)重。
(5)
(6)
1.2.1 區(qū)域空間權(quán)重計算策略
GWR用帶寬篩選“有效觀測點”進(jìn)行回歸點估計,對于一個給定的回歸點X,采樣點的權(quán)重在該回歸點的位置上達(dá)到最大,隨著兩點之間距離的增加,權(quán)重逐漸下降。但是這種方式?jīng)]有考慮空間離散因素。為了更好地刻畫空間離散異質(zhì)性在空間權(quán)重計算中的作用,本文提出了區(qū)域空間權(quán)重計算策略,引入特定因素解釋空間離散異質(zhì)性,對不同空間離散異質(zhì)區(qū)之間的區(qū)域影響因子進(jìn)行分開計算。
受特定因素影響的區(qū)域權(quán)重的高斯函數(shù)rwij定義為
(7)
截尾型核函數(shù)為
(8)
式中,rij表示區(qū)域影響因子;dij表示觀測點i與采樣點j之間的距離;h表示帶寬。當(dāng)觀測點i和采樣點j位于同一區(qū)域時,rwij=1,空間核函數(shù)的計算與傳統(tǒng)GWR沒有區(qū)別;當(dāng)觀測點i和采樣點j位于不同區(qū)域時,根據(jù)不同空間離散異質(zhì)區(qū)之間的主要差異,計算不同的區(qū)域間影響因子rij,如圖1所示。
圖1 GWR和RGWR高斯核函數(shù)空間權(quán)重計算策略
1.2.2 區(qū)域影響因子的計算方法
(1)一般情況下區(qū)域影響因子計算方法。在現(xiàn)實社會中,不同的研究問題和研究區(qū)域,影響空間離散異質(zhì)性的特定因素不同。這需要在建模過程中,針對具體的空間過程和地理現(xiàn)象選定影響空間離散異質(zhì)性的特定因素,再根據(jù)不同區(qū)域間主要因素的差異構(gòu)建不同的影響因子。選定特定因素最簡單的方法可以參考混合地理加權(quán)回歸中直接指定常系數(shù)的方式[1,17],直接根據(jù)分析師對研究區(qū)域和研究對象的經(jīng)驗和前人的研究指定。
例如,本文根據(jù)前人研究和對商品房價格研究的經(jīng)驗[21],將研究區(qū)內(nèi)受空間離散異質(zhì)性影響大的因素劃定為研究區(qū)域內(nèi)小學(xué),引入各區(qū)重點小學(xué)和小學(xué)數(shù)量,以各區(qū)間優(yōu)質(zhì)小學(xué)教育資源的差異,建立各區(qū)受教育影響的區(qū)域影響因子為
(9)
式中,rij為區(qū)域教育影響因子;ri=qir/qiall;qir為i點所在區(qū)域內(nèi)優(yōu)質(zhì)教育資源的數(shù)量;qiall為i點所在區(qū)域內(nèi)所有教育資源的數(shù)量。
(2)特殊情況下的區(qū)域影響因子計算方法。根據(jù)式(7)-式(9)區(qū)域空間權(quán)重的計算存在一種特殊情況:不同空間離散異質(zhì)區(qū)的區(qū)域影響因子都相等,rij=固定值。當(dāng)觀測點與回歸點位于同一區(qū)域時,觀測點獲得的權(quán)重與GWR一致,當(dāng)回歸點和觀測點處于不同區(qū)域內(nèi)時,觀測點將獲得受區(qū)域影響因子影響較低的權(quán)重。圖2(a)為該情況下的固定型帶寬策略,圖2(b)為調(diào)整型帶寬策略。
圖2 RGWR特殊情況下的高斯核函數(shù)空間權(quán)重計算策略
當(dāng)區(qū)域影響因子等于0時,此時區(qū)域空間權(quán)重相當(dāng)于對不同的空間離散異質(zhì)區(qū)進(jìn)行了嚴(yán)格的區(qū)域判別,即當(dāng)觀測點與回歸點位于同一區(qū)域時,該觀測點將參與回歸點的估算;觀測點與回歸點位于不同區(qū)域時,則該觀測點不參與回歸點的估算。圖2(c)為該情況下的固定型帶寬策略,圖2(d)為對應(yīng)調(diào)整型帶寬策略。
由于特殊情況下區(qū)域影響因子rij=固定值,估算此情況下的區(qū)域影響因子可以參照GTWR估算時間因子的方法,先采用傳統(tǒng)GWR方法,按照Akaike信息量準(zhǔn)則(Akaike information criterion,AIC)或交叉驗證方法(cross-validation, CV),選擇最優(yōu)帶寬h,再采用RGWR方法,繼續(xù)按照AIC或CV方法,最終確定區(qū)域因子的取值。
圖3為RGWR模型的算法流程。整體上RGWR估算分為兩部分:一是參數(shù)調(diào)優(yōu),即計算最優(yōu)帶寬和區(qū)域影響因子;二是參數(shù)估計,即估算回歸系數(shù)、擬合值和模型評價指標(biāo)。為了方便對區(qū)域影響因子的有效性進(jìn)行比較,對采用特殊情況下的空間權(quán)重計算策略的區(qū)域地理加權(quán)回歸記為RGWR-S,其他情況下的區(qū)域地理加權(quán)回歸記為RGWR。
圖3 RGWR模型算法流程
數(shù)據(jù)包括自變量、因變量、空間位置變量、備選帶寬和區(qū)域影響因子。步驟流程如下:
(1)初始化數(shù)據(jù)。設(shè)置帶寬取值范圍,針對每個帶寬建立GWR模型,對每個觀測點構(gòu)建空間核函數(shù)和空間權(quán)重矩陣,計算本組帶寬對應(yīng)模型的AIC或CV值,循環(huán)上述過程,選擇最小AIC或CV值對應(yīng)模型的參數(shù),即為最優(yōu)帶寬。
(2)設(shè)置區(qū)域影響因子取值范圍,針對每個區(qū)域影響因子采用最優(yōu)帶寬建立RGWR-S模型,構(gòu)建特殊情況下的區(qū)域地理加權(quán)空間核函數(shù)和空間權(quán)重矩陣,計算本組區(qū)域影響因子對應(yīng)模型的AIC或CV值,循環(huán)上述過程,選擇最小AIC或CV值對應(yīng)模型的參數(shù),即為最優(yōu)區(qū)域影響因子。
(3)利用最優(yōu)帶寬建立GWR模型,對每個觀測點構(gòu)建空間核函數(shù)和空間權(quán)重矩陣,并計算模型回歸系數(shù)、擬合值和評價指標(biāo)。
(4)利用自變量、因變量、空間位置變量、最優(yōu)帶寬和最優(yōu)區(qū)域影響因子建立RGWR-S模型,對每個觀測點構(gòu)建區(qū)域空間核函數(shù)和區(qū)域空間權(quán)重矩陣,并計算模型回歸系數(shù)、擬合值和評價指標(biāo)。
(5)利用最優(yōu)帶寬建立RGWR模型,構(gòu)建空間核函數(shù),在每個點i和點j之間建立受特定因素影響的區(qū)域影響因子。對每個觀測點,計算受特定因素影響的地理加權(quán)空間權(quán)重矩陣,并計算模型回歸系數(shù)、擬合值和評價指標(biāo)。
以武漢市住宅掛牌銷售價格為特征價格數(shù)據(jù),區(qū)域劃分以武漢市區(qū)級行政區(qū)劃為標(biāo)準(zhǔn),構(gòu)建特征價格模型,開展試驗分析。收集了武漢城區(qū)957個小區(qū)作為樣本點,獲取各小區(qū)2019年12月住宅平均掛牌價格(元/m2)、容積率、綠化率、物業(yè)費(元/m2)和建造時間(以1988年為基準(zhǔn)年,每增加一年建造時間加1)等屬性數(shù)據(jù),同時采集了武漢市地鐵站、小學(xué)、中學(xué)等興趣點數(shù)據(jù),見表1。
表1 特征價格變量
表2 RGWR和GWR方法性能對比
在建立模型之前,需要對數(shù)據(jù)進(jìn)行預(yù)處理:首先,計算樣本點到最近不同興趣點的距離,單位均為m;其次,采用疊置分析獲取樣本點與武漢市各區(qū)的區(qū)劃關(guān)系;然后,為了減小量綱和異方差帶來的影響,對連續(xù)型變量取對數(shù)運算[22];最后,采用多重共線性分析和逐步回歸分析,確定自變量因素[23]。經(jīng)計算選取容積率、綠化率、物業(yè)費、建造時間,以及小區(qū)中心點到最近地鐵口、醫(yī)院、商場、公園、小學(xué)和大學(xué)的距離作為自變量,小區(qū)住宅平均房價為因變量,分別采用GWR、RGWR和RGWR-S方法建立特征價格模型。采用AIC法確定GWR最優(yōu)帶寬,其中最優(yōu)帶寬固定型為12 000,調(diào)整型為355。試驗以GWR為對比方法,從區(qū)域影響因子有效性、模型性能、擬合效果3個角度進(jìn)行分析。
3.2.1 區(qū)域影響因子有效性分析
為了觀察區(qū)域影響因子對RGWR的影響,令區(qū)域影響因子在特殊情況下分別取0,0.05,0.1,…,1,采用基于高斯核函數(shù)的RGWR,分別計算基于固定型帶寬和調(diào)整型帶寬下各模型的擬合優(yōu)度(R2)、均方根誤差(root mean squared error, RMSE)和誤差項平方和(sum of squares for error,SSE)。結(jié)果顯示,首先,兩種帶寬策略下各模型的R2均大于0.6,說明采用RGWR方法可以建立可靠的特征價格模型,較好地估算武漢城區(qū)住宅銷售價格;然后,兩種帶寬策略下,R2隨著區(qū)域影響因子的增大而減小,RMSE和SSE隨著影響因子的增大而增大,當(dāng)r=1時(即GWR),R2最小,RMSE和SSE最大,模型性能最差,當(dāng)r不等于1時,R2、RMSE和SSE均有提升,證明區(qū)域因素存在且影響擬合精度,考慮區(qū)域因素影響后,模型精度有所提升;最后,圖4(a)顯示在固定型帶寬策略下,當(dāng)r=0時,R2最大,RMSE和SSE最小,模型擬合效果最好,圖4(b)顯示在調(diào)整型帶寬策略下,當(dāng)r=0.05時,R2最大,RMSE和SSE最小,模型擬合效果最好。說明區(qū)域影響因子越小,武漢城區(qū)住宅銷售價格特征模型精度越高??紤]區(qū)域因素后,模型精度均有大幅度提升,說明區(qū)域影響因子對于改進(jìn)地理加權(quán)回歸方法有顯著作用。
圖4 RGWR模型精度隨區(qū)域影響因子的變化趨勢
3.2.2 模型性能對比
由圖4可知,特殊情況下,在固定型帶寬策略下r=0時,RGWR模型擬合效果最好;在調(diào)整型帶寬下r=0.05時,RGWR模型效果最好。表1為RGWR模型、RGWR-S與GWR的相關(guān)指標(biāo)對比情況。RGWR模型在固定型帶寬下,R2為0.766 2,比GWR模型提升了21.83%,調(diào)整R2(R2adj)提升了22.23%,MSE提升了37.09%,RMSE提升了20.64%,SSE提升了37.01%。RGWR模型AIC值為-319.122 4,比GWR小11.782 4。RGWR在調(diào)整型帶寬下,GWR模型和區(qū)劃因子r=0.05時的RGWR-S模型提升效果不如RGWR模型,此時RGWR模型R2為0.680 4,比GWR模型提升了10.58%,R2adj提升了10.75%,MSE提升了16.93%,RMSE提升了8.85%,SSE提升了16.91%。一般地,AIC相差3以上說明兩個模型有顯著差別,AIC值越小,模型擬合精度越高[24]。說明不論是固定型帶寬策略還是調(diào)整型帶寬策略,RGWR均能夠比GWR更好地模擬武漢城區(qū)住宅銷售價格。
3.2.3 模型擬合效果比較
通過比較RGWR和GWR模型中房價的預(yù)測值和實際值,可以直觀地探索模型的擬合效果。在前文中,已能夠說明在本文研究區(qū)域,無論是固定型還是調(diào)整型帶寬策略,RGWR模型估算效果最好,因此采用RGWR的擬合效果分布與兩種帶寬策略下的GWR模型進(jìn)行對比。圖5為固定和調(diào)整型帶寬策略下RGWR和GWR的擬合效果分布,虛線表示實際值與預(yù)測值相同。因此,預(yù)測值點分布和真實值點位置越接近虛線,模型的擬合效果越好。
圖5 不同模型擬合散點
在相同的帶寬策略下,RGWR的點分布在虛線附近,顯著高于GWR的點分布,表明RGWR模型的擬合效果比GWR的擬合效果顯著提高。類似的,在固定帶寬策略和自適應(yīng)帶寬策略之間,可以看到RGWR固定帶寬的點分布高于虛線附近的自適應(yīng)帶寬。同時,固定帶寬策略下RGWR模型的R2值為0.777 7,比自適應(yīng)帶寬下的R2值高18.64%。這表明,在本文的數(shù)據(jù)環(huán)境中,固定帶寬策略下RGWR模型的擬合效果優(yōu)于自適應(yīng)帶寬策略下的RGWR模型。
本文提出了一種區(qū)域地理加權(quán)回歸方法,通過構(gòu)建區(qū)域空間權(quán)重計算策略,在空間核函數(shù)計算中引入?yún)^(qū)域影響因子變量,修正空間核函數(shù),優(yōu)化空間權(quán)重,在探測空間非平穩(wěn)性的同時探測空間離散異質(zhì)性。最后以武漢市住房銷售價格為例開展試驗分析,證明了引入?yún)^(qū)域影響因子的有效性。研究發(fā)現(xiàn),在武漢市住房銷售價格模型中,模型精度隨著區(qū)域影響因子的減小而增大,說明區(qū)域影響因子對于改進(jìn)地理加權(quán)回歸方法有顯著作用。同時,當(dāng)采用受教育影響區(qū)域影響因子時,模型的擬合效果好于采用固定值的方式,RGWR方法相比傳統(tǒng)的GWR方法R2提升了21.83%,說明RGWR能夠有效解決空間離散異質(zhì)的區(qū)域?qū)ξ錆h市住房銷售價格影響的問題。
本文提出的“區(qū)域”并不只是行政區(qū)劃,在面對不同的研究問題時,可以根據(jù)不同的特征選擇不同的分區(qū)方式和分區(qū)尺度,如可以按照行政區(qū)劃、流域、溫度帶、經(jīng)濟(jì)圈等方式對區(qū)域進(jìn)行分區(qū)。后續(xù)研究將著力于如何進(jìn)一步優(yōu)化算法提高擬合精度,以及將該方法應(yīng)用于不同分區(qū)尺度、不同領(lǐng)域的不同分區(qū)方式的適用性和差異性。