潘英武
【摘要】分析與計算移動通訊空間大數(shù)據(jù),ArcGIS和Hadoop的集成計算平臺依據(jù)Geometry API被構件起來,其中收集手機客戶的位置信息數(shù)據(jù)主要使用的是COO定位技術。地圖信息模型的建立要采用ArcGIS中的Voronoi;人口密度模型的建立之前需要計算圈層人口的密度;職住地分布模型的建立要依據(jù)DBSCAN密度聚類算法;建立報警電話分布模型的時候主要應用的是核密度估算。本文主要與實際案例相結(jié)合,分析與統(tǒng)計移動通訊大數(shù)據(jù)的城市人口空間分布情況。
【關鍵詞】移動通訊;城市人口;空間分布;模型;大數(shù)據(jù)分析
在二十世紀七十年代的時候在國外就已經(jīng)有學者通過GIS技術研究人口空間分布的應用了,較為典型的代表就是美國。自動化技術在1970年-1980年就已經(jīng)應用在了美國的人口普查之中,并且研發(fā)了與其有關的相關文件,使坐標地圖編碼系統(tǒng)獨立的起來。Lanscan通過各種因素對回歸方程系數(shù)進行計算,得出在1km×1km的空間網(wǎng)格上統(tǒng)計人口數(shù)據(jù)。在連續(xù)的規(guī)則網(wǎng)格中表達人口分布情況就是這種柵格模擬技術的含義。在高分辨率的規(guī)則柵格上有效的記錄數(shù)據(jù)和提高人口分布數(shù)據(jù)的準確性是柵格模擬技術的主要優(yōu)勢。
一、收集手機定位信
在1957年我國正式開始研究人口空間分布統(tǒng)計。有學者應用多源數(shù)據(jù)融合技術把可以影響到人口分布的因素模擬某地的人口在柵格上。
在現(xiàn)今的研究成果也有需要進行改進的地方。人口密度分布可以間接的用自然和社會經(jīng)濟特征綜合估計法進行數(shù)據(jù)統(tǒng)計,具體的人口分布來源情況不能直接的、完整的被表達出來,統(tǒng)計結(jié)果的準確性得不到保證,有關部門多需要的人口數(shù)據(jù)也不是很精準;大數(shù)據(jù)處理技術沒有完全應用到GIS分析之中,也不能及時更新人口分布的統(tǒng)計技術、方法和手段,所以在進行人口分布統(tǒng)計的時候既要花費大量的時間又需要花費較多的成本。
用戶的時空信息可以通過短信發(fā)送、通話和上網(wǎng)等進行獲取。依據(jù)移動通訊理論,需要及時更新小區(qū)切換和周期性地點,位置和軌跡數(shù)據(jù)就是通過隨時更新這些位置信息而形成的。分析和采集長時間不規(guī)則的手機通話位置數(shù)據(jù),應用ArcGIS獨有的技術和大數(shù)據(jù)處理架構相結(jié)合,就可以有效的統(tǒng)計城市人口的空間分布情況。
把可以統(tǒng)計城市人口空間分布的模型建立在ArcGIS之中,在建立的過程中需要依據(jù)手機中的數(shù)據(jù)資源,模型的主要類型包括地圖信息、人口密度、供職人員所住的地點以及報警設置。在城市人口統(tǒng)計平臺構建的過程中需要依據(jù)ArcGIS和Hadoop集成環(huán)境,可以更好的分析與大數(shù)據(jù)的空間有關的相關性,也可以表述數(shù)據(jù)的可視化,同時也需要對人口的數(shù)量密度分布和職住地分布進行相關的研究與分析,可以使相關人員更好的管理城市人口和公共安全。
不用依靠GPS并前景較好的技術就是手機定位技術,初始蜂窩小區(qū)、TOA和七號信令定位技術都是手機定位技術所包含的內(nèi)容。以下所采集的數(shù)據(jù)信息主要應用的就是初始蜂窩小區(qū)定位技術。
單基站定位技術是初始蜂窩小區(qū)定位技術的表現(xiàn)特征,這種技術的移動坐標設備主要是移動設備所屬基站,基站覆蓋的范圍決定了此定位方法是否精確。在城市中較為集中的基站地點,可以有效的控制定位的準確度。越是城市周邊,基站分布的也就不是那么密集,所以就會擴大定位的準確度。
手機接打電話時的連接的基站位置信息,都會被記錄在初始蜂窩小區(qū)定位技術通話位置數(shù)據(jù)信息之中,其中用戶的識別號、通話的長短和基站經(jīng)緯度等數(shù)據(jù)都是數(shù)據(jù)信息中所記錄的相關內(nèi)容。為了使用戶的隱私可以得到有效保護,需要把與手機有關的號碼信息刪除,對ID帳號進行加密。表一表示的是移動用戶位置數(shù)據(jù)的格式:
二、統(tǒng)計城市人口空間分布模型
在統(tǒng)計城市人口空間分布時需要依靠手機在通話過程中所產(chǎn)生位置信息來完成,在網(wǎng)格上標記城市地圖,采用有關模型和算法,設立與其有關的模型,如地圖信息模型等。
(一)地圖信息模型
點圖層主要是采用ArcGIS軟件把手機通話時的基站地理坐標進行轉(zhuǎn)化得來的。手機基站的覆蓋范圍主要就是通過構件泰森多邊形圖所表示的,構件泰森多邊形時要參照所有的基站點數(shù)據(jù),組成泰森多邊形的因素是連接一組兩相鄰的基站點連線的垂直平分線。
進行地圖匹配和和幾何校正某市的地圖矢量數(shù)據(jù)。主要內(nèi)容是:某市行政區(qū)規(guī)劃圖;某市相關道路地圖;某市小區(qū)交通數(shù)據(jù)信息;某市小區(qū)人群生活分布情況等相關信息。轉(zhuǎn)換GIS矢量數(shù)據(jù)圖層,保證一樣的地圖矢量數(shù)據(jù)和手機定位坐標數(shù)據(jù)。
可以使用較多的泰森多邊形表達城市的區(qū)域劃分,參照圖一,在把所有的網(wǎng)格進行合并??梢园凑沼嘘P統(tǒng)計人口需求進行網(wǎng)格劃分。
(二)人口密度模型
依照用戶的ID對手機通話時的位置數(shù)據(jù)進行分組,依照用戶的ID和使用時間排列樣本中的所有用戶數(shù)據(jù)信息。把每一位用戶的ID連續(xù)一小時之間的通話記錄進行整合,把整合后的數(shù)據(jù)記錄在基站位置之中。
對人口密度與城市中心距離之間的關系進行分析的時候要依據(jù)圈層結(jié)構理論,同時也需要計算圈層人口密度,這樣就可以有效掌握城市人口的空間分布情況。
(三)職住地居住模型
依據(jù)居家和不同工作時間段內(nèi)不同的用戶通話特征,通過聚類分析識別出居住地和工作地就是職住地分析的關鍵所在。由經(jīng)緯度組成的二維向量就是空間聚類分析,每個小點組合在一起組成的多維空間。把這些點分成不同的簇并把較大的點或者是較為相似的點歸為一簇就是聚類分析的結(jié)果,這樣就形成了集聚的職住地通話用戶的范圍。
基于密度的聚類算法的表達方式是DBBSCAN。在樣本空間中稠密樣本點可以組成所以的目標簇,噪聲的低密度區(qū)域分割又可以稱作稠密樣本點,把低密度地點進行過濾,就可以看見稠密樣本點。比較于其它算法,不被聚類數(shù)目所影響是DBBSCAN的優(yōu)勢,如果在聚類計算中出現(xiàn)較多的工作地和居住地的時候就可以使用DBBSCAN算法進行計算。
(四)報警電話分布模型
在對報警電話在空間分布的總體情況進行分析的時候主要應用的是核密度分析法,也就是說在幾何分布上報警電話點集數(shù)據(jù)所具備哪些特征。所有報警電話的基站位置上都設定與其對應的核密度函數(shù)就是核密度估算,報警電話的空間分布變化情況就是通過此地區(qū)所有報警電話的密度函數(shù)來表示的。
需要對所有報警電話的空間分布情況急性細化與分析,把分析之后的安全事故結(jié)果進行數(shù)據(jù)統(tǒng)計,制成表格,把這些表格以獨有的形式表達在模型上。
三、統(tǒng)計城市人口平臺
如要實現(xiàn)ArsGIS和Hadoop的交互就需要依靠Geometry,在Hadoop接收到Geometry API傳送的數(shù)據(jù)時,Hadoop就可以對所有的數(shù)據(jù)進行分析。
為了可以使大量的數(shù)量處理得到一定的滿足,就需要設置與其相應的框架,圖二所表達的就是框架的位置和內(nèi)容:簡要說明數(shù)據(jù)源和計算層。數(shù)據(jù)源:最原始的所有異構通訊數(shù)據(jù)就是數(shù)據(jù)源,語言、用戶信息以及基站參數(shù)是數(shù)據(jù)源所包含的相關內(nèi)容,需要隨時轉(zhuǎn)化和清洗數(shù)據(jù)信息,要做到保護好用戶的隱私。計算層:對高速數(shù)據(jù)交換組件和同步數(shù)據(jù)組件進行相應的研究與開發(fā),通過處理ETL,精準配比所需要的模型,并對其進行計算。模型層:依靠Geometry完成ArsGIS和Hadoop二者之間的交互,并分析轉(zhuǎn)化完成的各種數(shù)據(jù)信息。應用層:在對其進行分析主要采用的ArsGIS中的相關工具,并且城市人口的數(shù)量情況等信息是通過可視化的方式變現(xiàn)出來的。
四、分析結(jié)果
本文為實驗所選取的移動通話數(shù)據(jù)主要來自某市2017年3月到2017年5月之間的信息,據(jù)有關數(shù)據(jù)可知,全國有8.35億的人口都在使用移動通訊,占市場份額比例要遠高于其它通訊用戶,所以在推算人口數(shù)量的時候可以應用此比例來完成。
(一)分析人口密度
在分析人口分布情況時可以使用異常分析工具或者是ArcGIS中的聚類。通過分析移動通話數(shù)據(jù)可以知道某市的人口密度,圖三所表達的是該市的人口密度空間分布圖:如圖三中的數(shù)據(jù)可知,集聚是該市人口分布的主要特點。圖四所表達的是該市的人口密度圈層分布圖。如圖四中的數(shù)據(jù)可知,核心-邊緣是該市的人口密度圈層分布圖多表現(xiàn)出的空間特點。
(二)分析職住地居住情況
為了確保信息的準確度,數(shù)據(jù)統(tǒng)計時間以三個月為一個期限,零點到第二天的六點是居住地用戶所出現(xiàn)的時間,九點到十七點是居住地用戶的工作時間。
圖五所表示的是該市職住地居住的分布情況。據(jù)圖可知,中心居住圈、次中心居住圈以及郊區(qū)居住圈是該市的三大主要居住圈。
圖六所示的是該市的人口工作分布地情況。人員的工作地點主要分布在該市的各大商圈之中。
(三)分析報警電話的分布情況
把核密度函數(shù)設定在報警電話所在的基站空間之上,報警電話的空間規(guī)律情況可以通過報警電話的核密度函數(shù)體現(xiàn)出來。犯罪案發(fā)地的情況可以依據(jù)此方法進行識別。
采集某一階段的數(shù)據(jù)為樣本,分析這一階段的報警數(shù)目,圖七是對其進行分析后所得的結(jié)果:由圖可知,報警次數(shù)較多的地點集中在該市的蕭山區(qū),該市的拱野區(qū)緊追其后。其優(yōu)勢不僅可以利于警方合理的使用資源,升民眾的警惕性也可以由此提升。
五、結(jié)論
通過分析對比該市2011年-2016年的人口數(shù)據(jù)情況可知,該市的人口密度情等都符合普查數(shù)據(jù)分析結(jié)果。報警電話分布情況也符合該市相關部門發(fā)出的治安消息。由此可知如要統(tǒng)計城市的人口分布情況就可以使用以上模型來完成,在規(guī)劃城市、疏導城市交通以及公共安全等領域時都可以應用以上模型,并且其發(fā)展前景也是非常好的。
參考文獻:
[1] 王雪梅,李新,馬國明.基于遙感和GIS的人口數(shù)據(jù)空間化研究進展及案例分析[J].遙感技術與應用,2004,19(5):320-327.
[2] 陳學剛,楊兆萍.基于GIS的烏魯木齊市人口空間分布模擬與變化規(guī)律研究[J].干旱區(qū)資源與環(huán)境,2008,22(4):12-16.
[3] 王峰,唐美華.基于移動通訊大數(shù)據(jù)的城市人口管理解決方案[J].移動通訊,2014,23(13):38-41.
[4] 許寧.基于手機定位數(shù)據(jù)的居民職住地分布特征研究[D].長沙:中南大學,2014.
[5] 高碩,王銘楊,魯旭,等.基于大數(shù)據(jù)的城市居民職住瞄點計算方法研究[J].西部人民環(huán)境學刊,2017,32(1):31-37.
[6] 周天綺,嚴奧霞.基于移動通訊大數(shù)據(jù)的流動人口統(tǒng)計中Hadoop的應用研究[J].軟件導刊,2015,14(3):36-38.
[7] 周天綺.基于移動通訊大數(shù)據(jù)的流動人口統(tǒng)計中的Hive優(yōu)化[J].軟件工程師,2015,18(7):58-60.