朱晨曦,晏王波
(1.江蘇省土地勘測規(guī)劃院,江蘇 南京 210098; 2.江蘇省測繪研究所,江蘇 南京 210098)
基于微博簽到的地理空間信息研究
朱晨曦1,晏王波2
(1.江蘇省土地勘測規(guī)劃院,江蘇 南京 210098; 2.江蘇省測繪研究所,江蘇 南京 210098)
隨著Web2.0時(shí)代的來臨,志愿者地理服務(wù)(VGI)逐漸改變了傳統(tǒng)的地理信息服務(wù)模式。以新浪微博為例,從網(wǎng)絡(luò)社會空間入手,實(shí)現(xiàn)了數(shù)據(jù)的獲取、清洗、可視化及空間分析,對南京市熱點(diǎn)地區(qū)進(jìn)行了研究。研究表明,南京市轄區(qū)的鼓樓、建鄴、秦淮等老城區(qū)和浦口、江寧、棲霞等地區(qū)分別由于商業(yè)聚集地吸引大量人流和大學(xué)城聚集成為整個(gè)城市的熱點(diǎn)地區(qū),集聚程度高,人流量相對較大。該模式為城市應(yīng)急、城市規(guī)劃、基礎(chǔ)設(shè)施建設(shè)提供了依據(jù),也為VGI模式下的地理空間信息研究提供了可能。關(guān)鍵詞:空間分析;熱點(diǎn)分析;VGI;南京市
隨著互聯(lián)網(wǎng)技術(shù)的不斷深入,特別是移動互聯(lián)網(wǎng)的蓬勃發(fā)展,社會化媒體已成為人們?nèi)粘I畹闹匾糠諿1]。微博是結(jié)合了社會化網(wǎng)絡(luò)、空間信息、微型博客的一種新應(yīng)用模式。它讓空間位置信息可以被實(shí)時(shí)記錄,是Web2.0時(shí)代社會化媒體的代表[2]。與Web1.0側(cè)重點(diǎn)不同,Web2.0更注重用戶的交互作用,用戶既是互聯(lián)網(wǎng)的讀者,也是網(wǎng)站內(nèi)容的制造者。
2007年,Goodchild院士[3]首次提出了VGI的概念,指出傳統(tǒng)的單向地理信息服務(wù)模式將逐漸向交互式的協(xié)同模式轉(zhuǎn)變,用戶既是地理信息的使用者,同時(shí)也是提供者。普通用戶可以參與、共同完成地理信息數(shù)據(jù)創(chuàng)建和交叉引用,極大地縮短了地理信息獲取和傳播的時(shí)間,提高了數(shù)據(jù)生產(chǎn)效率,豐富了數(shù)據(jù)類型[4]。
2012年,新浪微博基于位置服務(wù)(LBS)平臺開放,正式開啟了LBS2.0時(shí)代。其最具特色的是基于用戶和基于興趣點(diǎn)(POI)的接口,基于用戶的相關(guān)接口,使用戶能獲取單個(gè)人的時(shí)間線動態(tài),包括微博信息、點(diǎn)評簽到等,有點(diǎn)類似Twitter的時(shí)間線功能,用戶可以查看自己或好友的時(shí)間縱線動態(tài);基于POI的接口是基于某個(gè)具體位置的接口,用戶可以按興趣、標(biāo)簽進(jìn)行分類查找,獲取該地點(diǎn)所有微博用戶、微博信息、照片、商家等,同時(shí)支持查詢地點(diǎn)和獲取地點(diǎn)詳情。
本文基于新浪微博開發(fā)者平臺的API接口,獲取覆蓋整個(gè)南京市的簽到數(shù)據(jù),并對具有空間信息的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,進(jìn)行可視化,再在此基礎(chǔ)上進(jìn)行空間分析,探索地理空間聚類和熱點(diǎn)地區(qū)信息。
如圖1所示,本文研究步驟主要分為申請準(zhǔn)備、數(shù)據(jù)獲取、空間分析3個(gè)部分。其中,申請準(zhǔn)備主要是調(diào)用微博API所需的準(zhǔn)備。先進(jìn)行微博開發(fā)者注冊,向新浪微博提交申請,待申請通過后會返回一個(gè)App Key和App Secret。數(shù)據(jù)獲取是基于申請返回的App Key和App Secret,調(diào)用新浪微博開發(fā)平臺提供的API接口獲取數(shù)據(jù)。由于API接口返回的是json結(jié)果,還需對結(jié)果進(jìn)行抽取、格式轉(zhuǎn)換并進(jìn)行數(shù)據(jù)清洗、剔除重復(fù)的記錄,形成最終結(jié)果,存入數(shù)據(jù)庫??臻g分析是將獲取數(shù)據(jù)中包含的空間位置信息可視化,依據(jù)空間分析理論,對獲取的數(shù)據(jù)進(jìn)行聚類分析及熱點(diǎn)分析。
圖1 研究方法流程圖
2.1 OAuth授權(quán)
新浪微博開發(fā)平臺采用的是OAuth認(rèn)證和授權(quán)方式。用戶獲得授權(quán)后,才能通過微博開發(fā)平臺提供的API獲取平臺資源。
OAuth授權(quán)過程主要包括以下步驟:①用戶登錄客戶端向服務(wù)提供方請求一個(gè)臨時(shí)令牌;②服務(wù)提供方驗(yàn)證客戶端身份后,授予一個(gè)臨時(shí)令牌;③客戶端獲得臨時(shí)令牌后,將用戶引導(dǎo)至服務(wù)提供方的授權(quán)頁面請求用戶授權(quán),在這個(gè)過程中將臨時(shí)令牌和客戶端的回調(diào)鏈接發(fā)送給服務(wù)提供方;④用戶在服務(wù)提供方的網(wǎng)頁上輸入用戶名和密碼,然后授權(quán)該客戶端訪問所請求的資源;⑤授權(quán)成功后,服務(wù)提供方引導(dǎo)用戶返回客戶端的網(wǎng)頁;⑥客戶端根據(jù)臨時(shí)令牌從服務(wù)提供方處獲取訪問令牌;⑦服務(wù)提供方根據(jù)臨時(shí)令牌和用戶的授權(quán)情況授予客戶端訪問令牌;⑧客戶端使用獲取的訪問令牌訪問存放在服務(wù)提供方上的受保護(hù)資源。
2.2 微博API
目前,微博API提供了包括粉絲服務(wù)接口、微博接口、評論接口、用戶接口、關(guān)系接口、帳號接口、收藏接口、搜索接口、提醒接口、超鏈接口、公共服務(wù)接口、位置服務(wù)接口、地理信息接口、地圖引擎接口、支付接口和OAuth2授權(quán)接口等16個(gè)接口供開發(fā)者調(diào)用微博資源。就開發(fā)工具而言,微博開發(fā)者平臺提供了支持目前主流的編程語言SDK,如Java、JavaScript、C++、C#、Ruby、Python等。
2.3 數(shù)據(jù)獲取
本文選擇Python語言作為開發(fā)語言,在安裝必要的運(yùn)行環(huán)境和微博提供的Python SDK后,調(diào)用位置服務(wù)接口中2/place/nearby/pois的API,該API的作用是以經(jīng)緯度形式定點(diǎn)查詢以此點(diǎn)為中心,一定范圍內(nèi)的POI(默認(rèn)為2 000 m,最大可設(shè)置為10 000 m),返回POI點(diǎn)ID、POI坐標(biāo)、地址和簽到總次數(shù)等信息。需要注意的是,若返回結(jié)果較多,默認(rèn)只返回第一頁的結(jié)果,因此,針對這種情況要將結(jié)果分頁展示。
由于本文只針對簽到數(shù)據(jù),因此只將POI的經(jīng)緯度、簽到總數(shù)及地址信息保存下來,通過遍歷南京市的市域范圍,返回得到覆蓋整個(gè)南京市的POI信息及簽到信息,如表1。
表1 API返回的結(jié)果示例
2.4 數(shù)據(jù)可視化
經(jīng)過對南京市整個(gè)市域范圍的遍歷,最終獲取簽到點(diǎn)28 965個(gè)。由于返回結(jié)果有經(jīng)緯度的空間屬性,因此將結(jié)果進(jìn)行可視化,如圖2所示。
空間熱點(diǎn)檢測是通過監(jiān)測空間數(shù)據(jù)的總體模式和趨勢來進(jìn)行熱點(diǎn)評估[5-8]。當(dāng)高值和低值同時(shí)聚類時(shí),它們傾向于彼此互相抵消,如果低值和高值同時(shí)聚類時(shí)量測空間聚類,則使用空間自相關(guān)工具;當(dāng)存在完全均勻分布的值且要查找高值的異??臻g峰值時(shí),首選Getis-Ord General G 工具。
為了匯總空間集聚程度,檢查南京市市域范圍微博活動的程度,選取Getis'G指數(shù)(),Getis-Ord標(biāo)準(zhǔn)化處理,的公式為:
圖2 研究區(qū)數(shù)據(jù)可視化(審圖號:GS(2010)6011)
標(biāo)準(zhǔn)化處理后的公式為:
式中,xj為樣本;Wij為研究對象i、j之間的空間鄰接矩陣,反映了空間單元的鄰近關(guān)系;和分別是的數(shù)學(xué)期望值和方差。如果為正且顯著,表明位置i周圍的值相對較高,屬高值空間集聚,即熱點(diǎn)區(qū);如果為負(fù)且顯著,表明位置i周圍的值相對較低,屬低值空間集聚,即冷點(diǎn)區(qū)。
首先,將整個(gè)南京市打上1 km×1 km的格網(wǎng),然后利用疊加分析進(jìn)行POI與格網(wǎng)的裁切,統(tǒng)計(jì)落入每個(gè)格網(wǎng)中的POI點(diǎn)數(shù),通過每個(gè)格網(wǎng)的ID唯一屬性與POI屬性進(jìn)行掛接匹配,再綜合每個(gè)格網(wǎng)內(nèi)的點(diǎn)的簽到總和,計(jì)算Getis’G指數(shù),最后按屬性分類出圖。圖3中紅色代表簽到次數(shù)較多的區(qū)域,即熱點(diǎn)區(qū)域,也是空間聚類較為明顯的區(qū)域。
從空間的角度來說,紅色區(qū)域主要集中在鼓樓、秦淮、建鄴等老城區(qū),但浦口因?yàn)橛心暇┐髮W(xué)金陵學(xué)院、南京審計(jì)學(xué)院、南京工業(yè)大學(xué)、東南大學(xué)成賢學(xué)院等多所高等院校,簽到次數(shù)相對較多,同樣江寧、棲霞與浦口類似,因此也成為了新熱點(diǎn)。而溧水、高淳則更集中于主城區(qū),其余農(nóng)村則集聚程度較差。
圖3 熱點(diǎn)分析(審圖號:GS(2010)6011)
從人口分布角度來說,依據(jù)《中華人民共和國全國分縣市人口統(tǒng)計(jì)資料2014》南京市的統(tǒng)計(jì)結(jié)果,鼓樓、江寧、秦淮3區(qū)的常住人口已超100萬人,而棲霞、浦口也已超70萬人,人口基數(shù)非常大,盡管建鄴只有40萬常住人口,但其轄區(qū)有萬達(dá)商貿(mào)圈、奧體等各類生活化設(shè)施,聚集程度非常高,因此簽到次數(shù)也較多,無疑成為南京的熱點(diǎn)地區(qū),監(jiān)測的結(jié)果與人口統(tǒng)計(jì)分布的結(jié)果一致性較高。
本文從社會空間的視角,借助微博簽到研究了城市的熱點(diǎn)地區(qū)。這對信息化影響下的城市熱點(diǎn)或集聚度分析是一個(gè)新的嘗試?;趯π吕宋⒉┑姆治?,從簽到總和來說,數(shù)量較高的地點(diǎn)主要出現(xiàn)在車站(南京南站、南京站)、各大高校、著名景點(diǎn),正是由于車站等地的人流量巨大,因此簽到的次數(shù)一般也會較高。當(dāng)然,微博的出現(xiàn)使得記錄人群的集聚效應(yīng)更為便捷,從事數(shù)據(jù)挖掘或信息挖掘的研究者可從顯式信息中發(fā)現(xiàn)隱式信息,這也為應(yīng)急預(yù)警、城市規(guī)劃、大型基礎(chǔ)設(shè)施建設(shè)等方面提供了參考依據(jù)。
當(dāng)然,針對微博的研究也有其局限性,微博的使用并未完全實(shí)現(xiàn)大眾覆蓋,仍然存在一部分人沒有或從不使用微博簽到,因此,本文的研究只能代表一定程度上城市熱點(diǎn)的聚集程度。隨著微博的用戶量呈量級指數(shù)上升,結(jié)果依然是可靠的。
[1] 彭蘭.社會化媒體、移動終端、大數(shù)據(jù)∶影響新聞生產(chǎn)的新技術(shù)因素[J].新聞界,2012(16)∶3-8
[2] 甄峰,王波,陳映雪.基于網(wǎng)絡(luò)社會空間的中國城市網(wǎng)絡(luò)特征∶以新浪微博為例[J].地理學(xué)報(bào),2012,67(8)∶1 031-1 043
[3] Goodchild M F. Citizens as Sensors∶the World of Volunteered Geography[J].GeoJournal,2007,69(4)∶211-221
[4] SUI D Z, Elwood S, Goodchild M F. Crowdsourcing Geographic Knowledge∶ Volunteered Geographic Information (VGI) in Theory and Practice[M]. New York∶ Springer, 2012
[5] Anselin L. From SpaceStat to CyberGIS, Twenty Years of Spatial Data Analysis Software[J]. International Regional Science Review, 2012,35(2)∶131-157
[6] 王勁峰,李連發(fā),葛詠,等.地理信息空間分析的理論體系探討[J].地理學(xué)報(bào), 2000,55(1)∶ 92-103
[7] 王勁峰.空間分析[M].北京∶ 科學(xué)出版社, 2006
[8] 晏王波,張曉祥,姚靜,等.基于GIS 的鹽城市區(qū)域發(fā)展時(shí)空特征研究[J].地理空間信息,2013,11(2)∶106-110
P208
B
1672-4623(2016)05-0028-03
10.3969/j.issn.1672-4623.2016.05.009
朱晨曦,工程師,主要從事GIS與空間分析研究。
2015-07-28。
項(xiàng)目來源:國家自然科學(xué)基金資助項(xiàng)目(41201394)。