劉 輝朱 軍王 恒
1武漢市自然資源和規(guī)劃信息中心,湖北 武漢,430014
自2015年3月起,全國(guó)實(shí)行不動(dòng)產(chǎn)統(tǒng)一登記,各級(jí)不動(dòng)產(chǎn)登記局建立不動(dòng)產(chǎn)登記信息管理基礎(chǔ)平臺(tái),實(shí)現(xiàn)了個(gè)人信息與房、地、林等不動(dòng)產(chǎn)登記信息的整合[1]。不動(dòng)產(chǎn)登記信息記錄了不動(dòng)產(chǎn)權(quán)利人、不動(dòng)產(chǎn)位置、狀態(tài)等詳細(xì)信息,是一種高價(jià)值的國(guó)土資源數(shù)據(jù),深入挖掘不動(dòng)產(chǎn)登記信息,可解釋人和不動(dòng)產(chǎn)信息之間的復(fù)雜關(guān)系,為政府部門(mén)的土地供應(yīng)、房產(chǎn)管理等工作提供決策支持[2]。徐財(cái)江等[3]針對(duì)不動(dòng)產(chǎn)登記數(shù)據(jù)量大、復(fù)雜等特點(diǎn),依托不動(dòng)產(chǎn)單元的不動(dòng)產(chǎn)登記數(shù)據(jù)整合技術(shù)路線,對(duì)不動(dòng)產(chǎn)數(shù)據(jù)整合具有指導(dǎo)意義;程麗麗[4]在參照不動(dòng)產(chǎn)登記數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)和數(shù)據(jù)整合規(guī)范基礎(chǔ)上,從技術(shù)和應(yīng)用層面提出了基于SuperMap的不動(dòng)產(chǎn)登記數(shù)據(jù)整合的優(yōu)化思路。耿馮康[5]針對(duì)不動(dòng)產(chǎn)登記信息分散共享難等問(wèn)題,建立了一種數(shù)據(jù)集成、整合、管理、交易和查詢(xún)框架,為數(shù)據(jù)整合提供了可行的實(shí)施方案。張瀠文等[6]從不動(dòng)產(chǎn)登記數(shù)據(jù)價(jià)值方面,綜述了不動(dòng)產(chǎn)大數(shù)據(jù)分析的應(yīng)用方向和重點(diǎn)領(lǐng)域。本文開(kāi)展不動(dòng)產(chǎn)數(shù)據(jù)的分析評(píng)價(jià)工作,來(lái)反映城市空集聚特征和間差異性。通過(guò)空間自相關(guān)分析,探索不動(dòng)產(chǎn)登記熱點(diǎn),利用空間聚類(lèi)分析,尋找不動(dòng)產(chǎn)登記空間集聚特征區(qū)域,探索登記業(yè)務(wù)在城市空間的差異性特征。
首先,采用探索性空間分析方法從全局范圍探索不動(dòng)產(chǎn)數(shù)據(jù)的空間自相關(guān)性,確定其空間分布模式;其次,通過(guò)采用高低聚類(lèi)分析方法識(shí)別統(tǒng)計(jì)顯著性的地籍子區(qū)的空間熱點(diǎn);最后,使用聚類(lèi)方法發(fā)現(xiàn)空間差異性特征。具體方法流程如圖1所示。
圖1 方法流程圖Fig.1 Flow Chart of the Method
給定地籍子區(qū)內(nèi)各類(lèi)登記數(shù)據(jù),利用Global Moran’sI指數(shù)評(píng)估不動(dòng)產(chǎn)登記數(shù)據(jù)在空間的分布模 式,并 用I指 數(shù) 進(jìn) 行 顯 著 性 評(píng) 估[7]。I的 取 值 為[-1,1],I大于0表示不動(dòng)產(chǎn)登記類(lèi)型數(shù)據(jù)在空間具有正相關(guān)性,I小于0表明在空間上不具備相關(guān)性。
由ArcGIS空間自相關(guān)方法得到I指數(shù)和z得分,I指數(shù)值為0.243 585大于0,z得分為18.348大于2.58,表明不動(dòng)產(chǎn)登記數(shù)據(jù)分布僅有1%可能是隨機(jī)分布的,在空間上表現(xiàn)為聚集特征具有統(tǒng)計(jì)顯著性,具有空間正相關(guān)模式。這表明不動(dòng)產(chǎn)登記數(shù)據(jù)在空間分布模式的全局自相關(guān)性符合統(tǒng)計(jì)顯著性的集聚聚類(lèi)模式特征。
全局空間自相關(guān)能夠反映單一特征在全局空間上的分布特征,難以發(fā)現(xiàn)單一特征在空間局部區(qū)域的分布及關(guān)聯(lián)模式[7]。而局部空間自相關(guān)分析方法能夠識(shí)別出空間集聚形式、非典型的局部區(qū)域和異常值等分布模式。在地籍子區(qū)劃分的基礎(chǔ)上,以空間鄰接性度量地籍子區(qū)之間的權(quán)重關(guān)系,采用局部自相關(guān)方法對(duì)地籍子區(qū)分析結(jié)果進(jìn)行分類(lèi)標(biāo)識(shí)[8]。
以武漢市中心城區(qū)為例,采用該方法發(fā)現(xiàn)中心城區(qū)具有顯著特征的高值聚集或低值聚集區(qū)域,以及異常點(diǎn)等區(qū)域的分布模式。圖2是局部自相關(guān)聚類(lèi)結(jié)果,可以發(fā)現(xiàn)紅色區(qū)域是顯著高值聚集的區(qū)域,呈現(xiàn)為顯著的空間集聚模式。由圖2可知,高值區(qū)域集中在江岸區(qū)、洪山區(qū)、東湖高新區(qū)和漢陽(yáng)區(qū),并且集中在區(qū)域中心,與城市實(shí)際情況相符。
圖2 不動(dòng)產(chǎn)登記總量數(shù)據(jù)局部自相關(guān)聚類(lèi)結(jié)果Fig.2 The Total Real Estate Registration Result of Local Auto-correlation Clustering
1)k-means算法原理。k-means聚類(lèi)方法是一種無(wú)監(jiān)督學(xué)習(xí)方法,對(duì)沒(méi)有標(biāo)簽的數(shù)據(jù)依照數(shù)據(jù)多維屬性特征,實(shí)現(xiàn)對(duì)數(shù)據(jù)劃分的方法[9,10]。k-means算法思想是先初始化給定k個(gè)類(lèi)簇中心,將待分類(lèi)的樣本按照某一相似原則分配到各個(gè)類(lèi)中;并按照一定原則重新計(jì)算各個(gè)類(lèi)簇的質(zhì)心,來(lái)確定新的聚類(lèi)中心;然后通過(guò)不停的循環(huán)計(jì)算,各個(gè)類(lèi)簇的質(zhì)心變化小于某一給定值[10]。
采用k-means聚類(lèi)方法對(duì)武漢中心城區(qū)的地籍子區(qū)不動(dòng)產(chǎn)登記業(yè)務(wù)類(lèi)型的數(shù)量按照k值進(jìn)行聚類(lèi),形成k類(lèi)。本文將聚類(lèi)劃分?jǐn)?shù)選定為6,聚類(lèi)結(jié)果如圖3所示,其中第0類(lèi)表示沒(méi)有登記數(shù)量的區(qū)域,沒(méi)有作為聚類(lèi)結(jié)果的樣本數(shù)據(jù)。
圖3 劃分?jǐn)?shù)為6的聚類(lèi)結(jié)果圖Fig.3Clustering Result with Partition Number of 6
2)聚類(lèi)數(shù)確定方法。k-means聚類(lèi)方法中聚類(lèi)數(shù)的確定很大程度影響著聚類(lèi)結(jié)果的好壞[11]。輪廓系數(shù)(silhouette coefficient)是度量樣本與其所屬類(lèi)別和其他類(lèi)別之間的相似度,其值越大,聚類(lèi)效果越好[11,12]。CH(Canlinski-Harabasz)指數(shù)是度量聚類(lèi)后所屬類(lèi)內(nèi)協(xié)方差與類(lèi)間協(xié)方差的差異,該值越大,聚類(lèi)模型效果越好[13]。然而,輪廓系數(shù)和CH指數(shù)都受到聚類(lèi)數(shù)的影響,并且二者呈現(xiàn)出相反的變化趨勢(shì)[14]。因此,為了綜合評(píng)價(jià)聚類(lèi)效果,本文構(gòu)建了一種新的聚類(lèi)評(píng)價(jià)指標(biāo)度量聚類(lèi)效果,該指標(biāo)為綜合 指 標(biāo)(comprehensive score,CScore),計(jì) 算 方法為:
式 中,silhouette為輪廓 系 數(shù);CH為Canlinski-Harabasz指數(shù)。
由圖4可知,當(dāng)聚類(lèi)數(shù)k=3時(shí),輪廓系數(shù)最大;k<9時(shí),基本保持平穩(wěn),當(dāng)k>9時(shí),隨著k值增加輪廓系數(shù)變小。當(dāng)k=6或7時(shí),CH指數(shù)最大。當(dāng)聚類(lèi)數(shù)為6時(shí),Cscore值最大;當(dāng)k>9時(shí),隨著聚類(lèi)數(shù)增加,綜合指數(shù)集聚減小。因此,根據(jù)Cscore的變化,將聚類(lèi)數(shù)設(shè)定為6類(lèi),此時(shí)聚類(lèi)效果相對(duì)最佳。
圖4 綜合指標(biāo)隨k值變化圖Fig.4 Comprehensive index Changing Diagram with k Value
武漢市共有215個(gè)地籍區(qū),3 598個(gè)地籍子區(qū)。研究區(qū)域?yàn)橹行某菂^(qū),包括139個(gè)地籍區(qū),1 237個(gè)地籍子區(qū);研究數(shù)據(jù)是自武漢不動(dòng)產(chǎn)登記工作開(kāi)展以來(lái)至2018年5月的數(shù)據(jù),約281.9萬(wàn)條;其中不含登記業(yè)務(wù)的共277個(gè)地籍子區(qū)。不動(dòng)產(chǎn)登記數(shù)據(jù)包含自然幢、登記業(yè)務(wù)類(lèi)型等信息。不動(dòng)產(chǎn)登記業(yè)務(wù)類(lèi)型主要包括首次登記、轉(zhuǎn)移登記、變更登記、注銷(xiāo)登記和其他登記5種類(lèi)型,本文采用不動(dòng)產(chǎn)登記業(yè)務(wù)類(lèi)型衡量地籍子區(qū)的空間分布特征。
根據(jù)不動(dòng)產(chǎn)登記業(yè)務(wù)的數(shù)據(jù)量,采用熱點(diǎn)分析方法識(shí)別不動(dòng)產(chǎn)首次登記、轉(zhuǎn)移登記和變更登記在空間上的熱點(diǎn)或冷點(diǎn)區(qū)域。數(shù)據(jù)顯示,截止2018年5月不動(dòng)產(chǎn)登記數(shù)據(jù)主要業(yè)務(wù)是首次登記、轉(zhuǎn)移登記和變更登記,其中首次登記量約占研究區(qū)域總登記業(yè)務(wù)數(shù)量的62.42%,因此,選擇這3類(lèi)數(shù)據(jù)作為登記業(yè)務(wù)熱點(diǎn)區(qū)域的重點(diǎn)研究對(duì)象,如圖5所示。
圖5(a)中,中心城區(qū)地籍子區(qū)在東湖高技術(shù)開(kāi)發(fā)區(qū)、洪山區(qū)、武昌區(qū)、江岸區(qū)塔子湖、漢陽(yáng)和武漢經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)呈現(xiàn)顯著性的高值聚集模式,東湖風(fēng)景區(qū)、青山區(qū)和硚口區(qū)等呈現(xiàn)顯著的低值聚集的模式;圖5(b)表示首次登記的熱點(diǎn)分析圖,與登記總量結(jié)果總體保持一致。圖5(c)表明不動(dòng)產(chǎn)轉(zhuǎn)移登記業(yè)務(wù)熱點(diǎn)區(qū)域、冷點(diǎn)區(qū)域和不動(dòng)產(chǎn)登記業(yè)務(wù)總量分布情況大體一致,在漢陽(yáng)區(qū)和武漢經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)體現(xiàn)的差異性非常明顯,依照不動(dòng)產(chǎn)地籍子區(qū)劃分情況系,轉(zhuǎn)移登記數(shù)量在局部區(qū)域不具備統(tǒng)計(jì)顯著性。圖5(d)是變更登記熱點(diǎn)分析結(jié)果,熱點(diǎn)區(qū)域主要集中在武漢經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)和江夏區(qū)廟山地帶。這表明了基于地籍子區(qū)的登記業(yè)務(wù)總量熱點(diǎn)區(qū)域探測(cè)不動(dòng)產(chǎn)登記的業(yè)務(wù)特征的空間分布具有合理性。
圖5 中心城區(qū)不動(dòng)產(chǎn)登記業(yè)務(wù)熱點(diǎn)分析結(jié)果圖Fig.5 Hot Spot Analysis Result of Real Estate Registration Data in Central Urban Area
本文采用k-means聚類(lèi)方法,按照業(yè)務(wù)類(lèi)型數(shù)據(jù)進(jìn)行聚類(lèi),發(fā)現(xiàn)了登記業(yè)務(wù)空間差異性分布特征。
1)聚類(lèi)后每類(lèi)的比例分布情況。如圖6所示,每一類(lèi)中平均登記總量依次遞減,其中class1類(lèi)平均登記總量是最少的、class3的平均登記總量最多,并且數(shù)量級(jí)呈現(xiàn)巨大差異。如圖7所示,class1、class2、class5和class3這4類(lèi)具有類(lèi)似的特征,在每一類(lèi)中,首次登記和轉(zhuǎn)移登記比例占比很大,其他登記類(lèi)型占比過(guò)小;在class6和class4中變更登記比重都超過(guò)30%,與其他類(lèi)差異巨大。因此,結(jié)合圖6和圖7,將class1劃分為低頻度登記區(qū)(平均登記總量最?。lass5劃分為中頻度登記區(qū)(平均登記總量與class1有顯著量級(jí)差異)、class2為次高頻度登記區(qū)、class3劃分為高頻度登記區(qū)(平均登記總量最大),class6劃分為低頻度變更登記區(qū)域,class4為高頻度變更登記區(qū)(變更登記總量顯著的區(qū)域)。
圖7 聚類(lèi)后各類(lèi)中業(yè)務(wù)類(lèi)型數(shù)量占比圖Fig.7 The Proportion of Business Types After Clustering in Each Category
2)聚類(lèi)結(jié)果的空間分布情況。由圖6知,class1主要分布在江岸區(qū)、江漢、硚口、武昌區(qū)中心、洪山區(qū)離三環(huán)較近處和東湖高新開(kāi)發(fā)強(qiáng)度不大的區(qū)域;class5主要集中在江漢區(qū)、江岸區(qū)、洪山區(qū)的白沙洲、和東湖新技術(shù)開(kāi)發(fā)區(qū)的城區(qū),這些區(qū)域具有居住密度高、人口集中的特點(diǎn);class3是黃陂盤(pán)龍城的高密集居住區(qū),不動(dòng)產(chǎn)登記業(yè)務(wù)總量巨大。對(duì)于class6的區(qū)域主要分布在洪山區(qū)南湖社區(qū)和白沙洲附近等區(qū)域,這些地區(qū)都是高密度住宅區(qū)域。對(duì)于class4其主要在江岸區(qū)的后湖區(qū)和江夏的廟山,是城市比較早的重點(diǎn)居住開(kāi)發(fā)區(qū)。
圖6 聚類(lèi)后各類(lèi)登記總數(shù)均值圖Fig.6 Mean Value of Total Number of Registrations After Clustering
不動(dòng)產(chǎn)登記數(shù)據(jù)伴隨不動(dòng)產(chǎn)登記的開(kāi)展,為空間數(shù)據(jù)挖掘和城市空間分布研究提供了新的思路。①結(jié)合空間自相關(guān)分析方法,利用空間自相關(guān)方法發(fā)現(xiàn)城市空間模式,結(jié)果表明武漢市中心城區(qū)的不動(dòng)產(chǎn)登記業(yè)務(wù)在空間具有顯著的聚類(lèi)模式;②采用局部自相關(guān)方法探測(cè)各類(lèi)不動(dòng)產(chǎn)業(yè)務(wù)在空間上的冷點(diǎn)熱點(diǎn)區(qū)域,發(fā)現(xiàn)轉(zhuǎn)移登記在武漢經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)和漢南區(qū)沒(méi)有熱點(diǎn)特征,其他登記類(lèi)型在空間上具有相似的冷點(diǎn)、熱點(diǎn)特征;③通過(guò)空間聚類(lèi)分析發(fā)現(xiàn)內(nèi)在聚類(lèi)模式,發(fā)現(xiàn)按登記業(yè)務(wù)數(shù)量和類(lèi)型,中心城區(qū)不動(dòng)產(chǎn)地籍子區(qū)可以劃分為6類(lèi)聚類(lèi)特征。
本文雖然探索了不動(dòng)產(chǎn)登記業(yè)務(wù)類(lèi)型的空間結(jié)構(gòu)特征,但是由于對(duì)不動(dòng)產(chǎn)業(yè)務(wù)劃分不夠詳細(xì)、其他綜合信息利用不夠,因此在未來(lái)工作中需要綜合考慮權(quán)利人信息、交易信息以及業(yè)務(wù)指標(biāo)等,構(gòu)建不動(dòng)產(chǎn)綜合業(yè)務(wù)考核及不動(dòng)產(chǎn)評(píng)價(jià)的模型,為不動(dòng)產(chǎn)工作提供合理參考。