楊 鑫,楊宜來,胡克勇
(青島理工大學(xué)信息與控制工程學(xué)院,山東 青島 266525)
城市功能區(qū)分類研究不僅對城市規(guī)劃與管理具有十分重要的意義,還可為人類生活、工作和交通等提供便利[1]?,F(xiàn)有城市功能區(qū)分類方法主要可分為:基于指標(biāo)值閾值劃定的方法、基于非監(jiān)督的聚類方法和基于監(jiān)督分類的方法[2-3]?;谥笜?biāo)閾值劃定的方法受主觀因素的影響較大,監(jiān)督分類和非監(jiān)督分類方法以數(shù)據(jù)為基礎(chǔ),分類結(jié)果相對客觀。非監(jiān)督分類方法實現(xiàn)簡單,但分類結(jié)果準(zhǔn)確性相對較低。監(jiān)督分類法可從訓(xùn)練樣本中獲取先驗知識以提高分類準(zhǔn)確性,且訓(xùn)練樣本越多,訓(xùn)練得到的模型也越準(zhǔn)確。然而實際應(yīng)用中,功能區(qū)訓(xùn)練樣本數(shù)據(jù)通常較難獲取,區(qū)域內(nèi)主要功能的判斷需要行業(yè)專家的專業(yè)知識及對城市深入地熟悉與了解。如何使用較少的訓(xùn)練樣本來獲取性能較好的分類器是分類方法選擇要考慮的重要問題。
本研究提出采用POI數(shù)據(jù)和主動學(xué)習(xí)算法實現(xiàn)城市功能區(qū)分類。POI是電子地圖上代表地理實體的點數(shù)據(jù),具有易獲取、數(shù)據(jù)覆蓋面全、數(shù)據(jù)完整性高的特點[4]。主動學(xué)習(xí)是一種半監(jiān)督分類法,其核心任務(wù)是確定選擇訓(xùn)練樣本的標(biāo)準(zhǔn),從而選擇盡可能少的樣本進(jìn)行標(biāo)記來訓(xùn)練出一個好的學(xué)習(xí)模型,相對于監(jiān)督分類方法,主動學(xué)習(xí)顯著降低了訓(xùn)練樣本收集的成本,該方法的應(yīng)用有助于快速準(zhǔn)確實現(xiàn)城市功能區(qū)分類。
選擇北京市朝陽區(qū)作為典型研究區(qū)。朝陽區(qū)是北京市主城六區(qū)之一,西與東城區(qū)、豐臺區(qū)、海淀區(qū)相毗鄰,北連昌平區(qū)、順義區(qū),東與通州區(qū)接壤,南與大興區(qū)相鄰;朝陽區(qū)是北京市轄區(qū)內(nèi)人口較多的一個區(qū),工業(yè)發(fā)達(dá),外交活動頻繁,在經(jīng)濟(jì)、居住、教育等方面均有較強(qiáng)代表性,基礎(chǔ)服務(wù)設(shè)施完善,區(qū)域功能齊全且分化明顯。
研究采用街區(qū)作為城市功能區(qū)的空間尺度。當(dāng)前常用的城市功能區(qū)空間劃分方法包括:街區(qū)(又稱交通分析小區(qū),Traffic Analysis Zone,TAZ)和不同空間尺度的格網(wǎng)[5]。格網(wǎng)常用于大致表征城市功能區(qū)的分布趨勢,無法準(zhǔn)確描述城市功能區(qū);TAZ是由不同等級的道路連接、交叉形成的區(qū)域,區(qū)域內(nèi)的功能相對比較完整。本文采用不同等級的道路將朝陽區(qū)劃分為741個TAZ,如圖1(a)所示。
圖1 北京市朝陽區(qū)街區(qū)及POI分布圖
本研究所使用的POI數(shù)據(jù)通過百度地圖API下載,共計90767條(見圖1(b)),屬性字段包括名稱、類別、經(jīng)緯度坐標(biāo)。結(jié)合土地利用規(guī)劃數(shù)據(jù)、POI、高空間分辨率遙感影像等數(shù)據(jù),本研究對朝陽區(qū)所有TAZ的城市功能類型進(jìn)行了人工識別,結(jié)果如圖2所示,功能區(qū)類型包括:農(nóng)地、休閑娛樂區(qū)、城中村、就業(yè)區(qū)、居住區(qū)、就業(yè)居住混合區(qū)。
圖2 人工功能區(qū)識別結(jié)果
POI代表的地理實體或社會經(jīng)濟(jì)組織機(jī)構(gòu)涵蓋人們?nèi)粘I畹姆椒矫婷妫揖哂性敿?xì)的三級分類體系。根據(jù)POI類型與城市功能區(qū)類型的相關(guān)性及對城市功能區(qū)類型的影響作用,選擇與城市功能區(qū)類型相關(guān)性較大的POI類別構(gòu)建了城市功能區(qū)分類的指標(biāo)體系,見表1。
表1 街區(qū)功能分類指標(biāo)體系
表1中所有指標(biāo)的計算方法如下:
(1)指標(biāo) A1~A6。計算該類指標(biāo)首先需對街區(qū)內(nèi)該類型的全部POI進(jìn)行計數(shù),計算過程:采用ArcGIS軟件的Spatial Join功能,選擇街區(qū)圖層作為目標(biāo)圖層,連接需計算的POI類型數(shù)據(jù)到目標(biāo)圖層,即可在目標(biāo)圖層的屬性表中得到街區(qū)內(nèi)的POI計數(shù)。如果計數(shù)值大于0,則指標(biāo)值為1,否則指標(biāo)值為0。
(2)指標(biāo)A7~A9。計算該類指標(biāo)的過程如下:采用ArcGIS軟件的Euclidean Distance 功能,輸入需計算的POI數(shù)據(jù)和街區(qū)圖層數(shù)據(jù),即可計算得到街區(qū)內(nèi)每個位置至與其最近的POI的距離;然后使用ArcGIS軟件的Zonal Statistic功能即可計算得到街區(qū)內(nèi)各位置距離值的平均值。
(3)指標(biāo) A10~A11。該類指標(biāo)的計算過程為:采用ArcGIS軟件的Spatial Join 功能,選擇街區(qū)圖層作為目標(biāo)圖層,連接需計算的POI類型數(shù)據(jù)到目標(biāo)圖層,即可在目標(biāo)圖層的屬性表中得到街區(qū)內(nèi)的POI計數(shù),然后使用ArcGIS軟件屬性表管理中的Field Calculator功能計算街區(qū)內(nèi)POI計數(shù)與街區(qū)面積的比值得到街區(qū)內(nèi)該類POI的密度。
上述方法計算得出的不同指標(biāo)之間存在數(shù)量級差,為消除數(shù)量級差帶來的計算誤差,對各個指標(biāo)進(jìn)行了均值標(biāo)準(zhǔn)化處理,由此得到與每個TAZ對應(yīng)的11個指標(biāo)。
2.2.1 算法總體框架
主動學(xué)習(xí)算法是一個迭代的過程,每一次迭代從未分類數(shù)據(jù)集中選擇最有價值的幾個樣本交由專家進(jìn)行標(biāo)記,并將這些新標(biāo)記過的樣本加入訓(xùn)練樣本集,模型基于新的訓(xùn)練集進(jìn)行更新,然后利用模型對未分類數(shù)據(jù)集中的樣本進(jìn)行分類,隨后進(jìn)入下一次迭代[6]。
采用主動學(xué)習(xí)算法對街區(qū)功能進(jìn)行分類,每個街區(qū)就是一個待分類樣本。每一次迭代過程中,所有街區(qū)可以分為三個類別:①已完成功能分類的街區(qū),記為TK;②未完成功能分類的街區(qū),記為TU;③被選中由專家標(biāo)記功能類別的街區(qū),記為TC。分類前TK為空集,TU為空時迭代終止,分類完成。
主動學(xué)習(xí)算法主要包含2個關(guān)鍵部分:一是抽樣引擎,用于從TU中選擇樣本記入TC;二是分類器,用于根據(jù)現(xiàn)有訓(xùn)練樣本集TK進(jìn)行分類模型訓(xùn)練,完成TU中樣本的分類。由于不同樣本對于樣本分類的學(xué)習(xí)模型的貢獻(xiàn)度是不一樣的,如果能夠選取一部分最有價值的街區(qū)標(biāo)記其類型,有可能僅基于少量數(shù)據(jù)就能獲得同樣高效的模型。因此在抽樣引擎中設(shè)計合理的選擇策略,選擇最有價值的街區(qū),是主動學(xué)習(xí)的關(guān)鍵任務(wù)。
本文設(shè)計一個基于密度峰值聚類的抽樣引擎,采用密度峰值聚類方法確定TU中所有街區(qū)的價值排序,依次選擇最有價值的街區(qū)記入TC,由專家標(biāo)記其類別記入TK。然后基于該聚類方法的聚類優(yōu)勢設(shè)計一個基于標(biāo)準(zhǔn)投票策略的分類器,逐步完成TU中街區(qū)的分類。以下將詳細(xì)闡述采用基于密度峰值聚類的主動學(xué)習(xí)算法實現(xiàn)街區(qū)分類的方法。
2.2.2 關(guān)鍵參數(shù)計算
本文采用基于密度峰值聚類的主動學(xué)習(xí)算法進(jìn)行街區(qū)分類。密度峰值聚類方法由Rodriguez和Laio于2014年提出[7],該算法的核心思想在于其對聚類中心的刻畫,作者認(rèn)為聚類中心應(yīng)用同時具有以下兩個特點:①樣本的“局部密度”大,即它被密度均不超過它的鄰居包圍,②樣本與其它密度更大的樣本之間的“距離”相對更大。
將朝陽區(qū)所有街區(qū)記為集合X={X1,X2, ……,Xn},根據(jù)2.1中街區(qū)功能分類的指標(biāo)體系,每個街區(qū)具有11個屬性值,街區(qū)i的屬性值可記為{Ai1,Ai2, ……,Ai11}。
本方法中包含兩個關(guān)鍵參數(shù):樣本的局部密度ρi和到高密度樣本的最短距離δi。這兩個參數(shù)的計算都基于樣本之間的距離dij,該距離采用樣本屬性的歐式距離來度量,計算公式為:
(1)
其中,dij為樣本i與樣本j之間的距離,Aik為樣本i的第k個屬性值。
局部密度表達(dá)的含義為以某一樣本為中心,在某一設(shè)定的距離范圍內(nèi)樣本的個數(shù)。樣本i的局部密度記為ρi,其計算公式如下式:
ρi=∑jf(dij-dc)
(2)
ρi表示以樣本i為中心,距離為dc的范圍內(nèi)樣本的數(shù)量;其中dc>0,是需指定的距離,稱為截斷距離,其值的大小取決于所有樣本間距離的分布;f(x)為一個判別函數(shù),當(dāng)x≥0時其值為0,當(dāng)x<0時,其值為1。
樣本i到高密度樣本的最短距離δi的計算公式如下:
δi=minj:ρj>ρidij
(3)
若樣本i在全部樣本中具有最高的局部密度,δi為樣本i與其最遠(yuǎn)的樣本間的距離,可用計算公式可表述為:
δi=maxjdij
(4)
對每個樣本計算上述兩個關(guān)鍵參數(shù)后,所有樣本可表示為式(5)。
(5)
在密度峰值聚類算法中還需要計算得到一個重要中間結(jié)果:master樹。其獲取過程為:計算樣本i到高密度樣本的最短距離δi時,記錄距離樣本i最近的高密度樣本,稱為樣本i的master,具有最高局部密度的樣本的master為空。假定樣本i從屬于其master,然后根據(jù)這種從屬關(guān)系構(gòu)建一個樹,在這個樹中,樣本i為其master的子節(jié)點,master為空的樣本為根節(jié)點,如果存在多個master為空的節(jié)點,創(chuàng)建一個空節(jié)點作為這些節(jié)點的根節(jié)點。
2.2.3 城市功能區(qū)分類
圖3 聚簇標(biāo)記、分離過程
對上述分離得到的兩個新的集合再次調(diào)用主動學(xué)習(xí)算法。如圖4所示,對兩個新集合分別標(biāo)記后,以樣本6為根節(jié)點的集合已經(jīng)是一個“純集合”了,所以為這整個集合內(nèi)的未標(biāo)記樣本分配與樣本6、13、14一致的標(biāo)簽,如圖4(b)中右子樹。而以樣本1為根節(jié)點的集合,再次分配標(biāo)簽后依然是“非純集合”。如果還有標(biāo)簽可供使用,那么重復(fù)分離集合的過程,否則執(zhí)行投票策略,如圖4(b)中左子樹。這里假設(shè)已經(jīng)沒有標(biāo)簽可用了,可見樣本1、4的標(biāo)簽數(shù)量最多,故將樣本1、4的標(biāo)簽分配給該集合內(nèi)剩余未分配標(biāo)簽的樣本。
圖4 “純聚簇”與 “非純聚簇”決策過程
當(dāng)所有樣本都被標(biāo)記時,分類結(jié)束。如果標(biāo)簽用盡還有未被標(biāo)記的樣本,則需要使用投票策略對其進(jìn)行分類,過程如下。統(tǒng)計未被全部分類的集合內(nèi)的各個標(biāo)簽數(shù)量,找出數(shù)量最多的那種標(biāo)簽,將這種標(biāo)簽賦予本集合內(nèi)所有未被標(biāo)記的樣本。至此,整個功能區(qū)分類過程全部結(jié)束。其算法描述如下。
主動學(xué)習(xí)算法:
初始化:輸入全部待分類街區(qū);
計算ρ和δ,構(gòu)造一個 master樹;
for(k=4; 專家標(biāo)記樣本的數(shù)量小于指定值N,且還存在未分類樣本;k++)do:
基于密度峰值聚類,聚類類別數(shù)為k,依據(jù) master 樹,找到聚類中心和每個類別中包含的樣本信息,同時根據(jù)聚類信息將 master 樹分裂為k個子master樹;
根據(jù)聚類中心和各類別信息,找出本輪循環(huán)的關(guān)鍵樣本;
對關(guān)鍵樣本的功能類型進(jìn)行標(biāo)記;
for(i=1 tok)do:
if第 i 個 master 樹中的樣本的功能類型沒有完全標(biāo)識 then:
如果該 master 樹中已知類型的樣本數(shù)量大于等于N,且已知類型完全一致,那么按已知樣本類型來設(shè)置該 master 樹中所有樣本的類型;
end if
end for
end for
if還有樣本未分類 then:
for(i=1;i≤k;i++)do:
如果第i個 master 樹中還存在未分類樣本,則采用標(biāo)準(zhǔn)投票策略決定未分類樣本的類別;
end for
end if
采用基于POI和主動學(xué)習(xí)的城市功能區(qū)分類方法,設(shè)置2.2.2中截斷距離dc的值為3.5,設(shè)定標(biāo)注功能區(qū)個數(shù)為50(占總功能區(qū)個數(shù)的6.75%),依據(jù)圖2中的功能區(qū)類型標(biāo)記樣本,完成北京市朝陽區(qū)所有街區(qū)分類,分類結(jié)果如圖6所示。對比圖2和圖5可見,基于本方法實現(xiàn)的城市功能區(qū)分類結(jié)果與人工識別結(jié)果較為相似。休閑娛樂區(qū)在整個朝陽區(qū)分布較為均衡;農(nóng)地、城中村主要分布在朝陽區(qū)的東部區(qū)域;就業(yè)、居住和就業(yè)居住混合區(qū)主要分布在西部區(qū)域,這與北京市的圈層結(jié)構(gòu)以及朝陽區(qū)所處的地理位置密切相關(guān),朝陽區(qū)東與通州區(qū)接壤,西則與發(fā)展更為成熟的東城、豐臺、海淀相毗鄰。
圖5 功能區(qū)識別結(jié)果
為分析采用基于POI和主動學(xué)習(xí)的城市功能區(qū)分類方法進(jìn)行北京市朝陽區(qū)城市功能區(qū)分類結(jié)果的準(zhǔn)確性,首先本文選擇了幾個區(qū)域,將識別結(jié)果與百度地圖和百度衛(wèi)星地圖進(jìn)行了對比分析,見圖6。區(qū)域A為國家體育館(鳥巢)附近的幾個街區(qū),結(jié)合百度地圖和百度衛(wèi)星地圖,可以看到(1)區(qū)域A左側(cè)為國家森林公園,本方法的識別結(jié)果為休閑娛樂區(qū);(2)區(qū)域A右側(cè)的街區(qū)內(nèi)均包含了居住小區(qū)、商業(yè)大廈、幼兒園、中小學(xué),居住就業(yè)功能都非常成熟,本方法的識別結(jié)果為就業(yè)居住混合區(qū)??梢?,區(qū)域A內(nèi)城市功能區(qū)識別情況與實際相符。區(qū)域B為古塔公園附近的幾個街區(qū),從該區(qū)域的百度地圖和百度衛(wèi)星地圖可以看出該區(qū)域內(nèi)功能類型復(fù)合多樣,結(jié)合地圖:(1)識別結(jié)果中被識別為休閑娛樂區(qū)的兩個街區(qū)分別是北京CBD國際高爾夫球會和古塔公園;(2)識別結(jié)果中被識別為居住區(qū)的街區(qū)是觀音惠園和北京安德魯斯莊園這兩個居住小區(qū);(3)識別結(jié)果中被識別為就業(yè)區(qū)的街區(qū)從衛(wèi)星地圖上可見為工廠廠房;(4)識別結(jié)果中被識別為城中村的街區(qū)是王四營鄉(xiāng)和觀音堂村。可見,區(qū)域B內(nèi)城市功能區(qū)識別情況與實際相符。
圖6 部分區(qū)域識別結(jié)果與百度地圖和百度衛(wèi)星圖的對比
區(qū)域C為富力城附近幾個街區(qū),從識別結(jié)果是可以看出該區(qū)域內(nèi)主要包含居住區(qū)和居住就業(yè)混合區(qū),從百度地圖和百度衛(wèi)星地圖上可見該區(qū)域內(nèi)主要是成熟居住區(qū)和商務(wù)區(qū),幼兒園、中小學(xué)等配套生活設(shè)施齊全,這表明該區(qū)域內(nèi)的功能區(qū)識別總體準(zhǔn)確。然而,該區(qū)域內(nèi)道路密集、街區(qū)面積較小,采用本方法的識別過程中相鄰街區(qū)的功能可能相互影響,從而造成部分功能區(qū)識別結(jié)果與人工識別結(jié)果之間存在一定偏差,如區(qū)域C的識別結(jié)果上以星號標(biāo)注的居住區(qū),其人工識別結(jié)果為就業(yè)居住混合區(qū),分析該街區(qū)的指標(biāo)計算結(jié)果發(fā)現(xiàn)其離幼兒園、中小學(xué)的距離較小,與居住區(qū)的該類指標(biāo)相近。
為了進(jìn)一步分析本方法識別結(jié)果的準(zhǔn)確性,計算了人工識別結(jié)果與基于本研究構(gòu)建方法的分類結(jié)果之間的混淆矩陣,如圖7所示。本研究中城市功能區(qū)分類對象為街區(qū),分類過程中未考慮街區(qū)的面積,在進(jìn)行識別結(jié)果的準(zhǔn)確性評價時,應(yīng)以功能區(qū)的個數(shù)為依據(jù),而非以功能區(qū)的面積為依據(jù),因此混淆矩陣中的值為街區(qū)個數(shù)的比例。
圖7 識別結(jié)果混淆矩陣
從圖7的混淆矩陣可見,本方法在城市功能區(qū)分類的應(yīng)用中具有較高的精度,其中,農(nóng)地和就業(yè)居住混合區(qū)的識別精度較高,分別為0.810和0.822;休閑娛樂區(qū)的居住區(qū)的識別精度其次,分別為0.778和0.738;城中村和就業(yè)區(qū)的識別精度相對較低,分別為0.706和0.693。
混淆矩陣中未正確分類的功能區(qū),結(jié)合它們的POI分布情況及指標(biāo)體系,對分類錯誤的原因進(jìn)行了綜合分析:
(1)圖7的混淆矩陣顯示未被正確識別的農(nóng)地主要被識別為休閑娛樂區(qū),未被正確識別的休閑娛樂區(qū)主要被識別為農(nóng)地;未被正確識別的城中村主要被識別為農(nóng)地。這主要是因為農(nóng)地內(nèi)包含的POI較少,而少部分休閑娛樂區(qū)和城中村內(nèi)包含的POI也較少,且農(nóng)地、休閑娛樂區(qū)和城中村都離幼兒園、中小學(xué)的距離較遠(yuǎn),從而導(dǎo)致這三類功能區(qū)之間存在分類錯誤的情況。
(2)圖7的混淆矩陣顯示未被正確識別的就業(yè)區(qū)主要被識別為就業(yè)居住混合區(qū),未被正確識別的居住區(qū)主要被識別為就業(yè)居住混合區(qū),未被正確識別的就業(yè)居住混合區(qū)主要被識別為居住區(qū),且這三類錯誤率相對較高??梢姡@三類功能區(qū)類型相對容易混淆。分析就業(yè)區(qū)和居住區(qū)的POI分布情況發(fā)現(xiàn),并非所有的就業(yè)區(qū)內(nèi)完全不包含居住功能,也并非所有的居住區(qū)內(nèi)完全不包含就業(yè)功能。在圖6區(qū)域C中分類錯誤原因分析中,已闡述相鄰街區(qū)的功能類型可能對當(dāng)前街區(qū)的類型產(chǎn)生一定影響。另一方面,在設(shè)計基于POI的城市功能區(qū)分類指標(biāo)體系時,考慮到POI僅能代表地理實體的類型,不能代表地理實體的功能強(qiáng)弱,比如,占地面積較大的住宅小區(qū)和占地面積較小的住宅小區(qū)反映在數(shù)據(jù)上都是一個POI點,同一個地理實體可能對應(yīng)多個POI,如一個住宅小區(qū)可能在不同的出入口都包含一個POI點,因此,本研究中指標(biāo)A1~A6設(shè)計為是否含有住宅、商務(wù)寫字樓、產(chǎn)業(yè)園等POI,未考慮這幾類POI數(shù)量或密度對功能區(qū)分類的影響,由此也導(dǎo)致部分識別結(jié)果的不準(zhǔn)確。
采用本文的方法進(jìn)行城市功能區(qū)分類過程中,高密度樣本的選擇對分類結(jié)果至關(guān)重要,而截斷距離dc是影響樣本密度的重要因素,當(dāng)dc過大時所有樣本的密度值都較大,而當(dāng)dc過小時所有樣本的密度值都較小。因此,本文以北京市朝陽區(qū)為例,根據(jù)街區(qū)之間距離值的分布范圍設(shè)置不同的dc完成城市功能區(qū)分類,探究dc與城市功能區(qū)識別總體精度的關(guān)系,分析結(jié)果見圖8。其中,總體精度的計算以人工識別結(jié)果為標(biāo)準(zhǔn)(見圖2),統(tǒng)計本方法的識別結(jié)果中分類正確的功能區(qū)數(shù)量占功能區(qū)總數(shù)的比例。根據(jù)圖5可見,當(dāng)dc的取值小于2.5時,隨著dc的增加分類精度總體上呈上升趨勢;當(dāng)dc的取值在2.5到8.5之間時,dc的變化對分類精度的影響較小;當(dāng)dc的取值大于8.5時,隨著dc的增加分類精度呈下降趨勢。
圖8 截斷距離與城市功能區(qū)分類總體精度關(guān)系圖
本研究的目的是通過標(biāo)記少量功能區(qū)的類型,獲取更高的城市功能區(qū)分類精度。本文以北京市朝陽區(qū)為例,分析了采用本方法進(jìn)行城市功能區(qū)分類時功能區(qū)標(biāo)記個數(shù)對分類總體精度(計算方法同3.3)的影響,見圖9。從圖中可見,隨著標(biāo)記個數(shù)的增加,分類精度也在逐步提升。通常在有監(jiān)督的機(jī)器學(xué)習(xí)算法中,會首先在總樣本中至少選擇50%的樣本進(jìn)行學(xué)習(xí)訓(xùn)練,然后采用訓(xùn)練好的模型進(jìn)行分類。而采用本文所提出的方法對北京市朝陽區(qū)進(jìn)行城市功能區(qū)分類時,標(biāo)記的功能區(qū)個數(shù)達(dá)到50(占總功能區(qū)個數(shù)的6.75%),分類精度達(dá)到一個較高的值。由此可證明本方法在節(jié)約標(biāo)記成本的前提下,可取得較高的分類準(zhǔn)確性。
圖9 標(biāo)注的功能區(qū)個數(shù)與城市功能區(qū)分類總體精度關(guān)系圖
快速、準(zhǔn)確地獲取城市功能區(qū)空間結(jié)構(gòu)不僅是城市規(guī)劃管理者的需求,還可為人們?nèi)粘I睢⒐ぷ骱徒煌ǖ忍峁┍憷?。然而,城市的快速發(fā)展導(dǎo)致了城市內(nèi)部的復(fù)雜化與多樣化,給城市功能區(qū)地圖的獲取帶來了巨大挑戰(zhàn),近年來,城市功能區(qū)分類逐漸成為城市地理空間結(jié)構(gòu)研究的重要問題。本文構(gòu)建了一套城市功能區(qū)分類方法。一方面,該方法以POI為數(shù)據(jù)基礎(chǔ),數(shù)據(jù)具有較強(qiáng)的可獲取性。另一方面,該方法基于主動學(xué)習(xí)算法實現(xiàn),主動學(xué)習(xí)是一種半監(jiān)督分類算法,可以少量標(biāo)記為代價達(dá)到優(yōu)于非監(jiān)督分類方法準(zhǔn)確性的效果。本文將該方法應(yīng)用于北京市朝陽區(qū)的城市功能區(qū)分類,研究表明該方法具有較高的準(zhǔn)確性。
本方法的準(zhǔn)確性還可通過以下方面的改進(jìn)得到進(jìn)一步的提升:(1)指標(biāo)體系的改進(jìn),指標(biāo)體系是城市功能區(qū)分類的基礎(chǔ),根據(jù)分類結(jié)果的反饋,探究分類指標(biāo)與功能區(qū)類型的相關(guān)性,改進(jìn)與完善指標(biāo)體系可進(jìn)一步提高城市功能區(qū)分類的準(zhǔn)確性;(2)數(shù)據(jù)源的擴(kuò)充,僅使用POI數(shù)據(jù)使得本方法的數(shù)據(jù)源獲取簡單容易,但數(shù)據(jù)源的單一性同時也制約了本方法的準(zhǔn)確性,如POI數(shù)據(jù)可反映地理實體的屬性類別特征,但無法反映地理實體的功能強(qiáng)弱,若增加手機(jī)基站數(shù)據(jù),以區(qū)域內(nèi)的人流量表征區(qū)域功能的強(qiáng)弱便可彌補(bǔ)POI數(shù)據(jù)的不足。在后續(xù)的研究中將從以上兩方面入手,以期進(jìn)一步提升方法的準(zhǔn)確性。