盧宇航
摘 要 社交網(wǎng)絡(luò)的位置分享服務(wù)增加了社交數(shù)據(jù)的信息維度,使得社交網(wǎng)絡(luò)中存儲(chǔ)了豐富的位置信息資源。本文以新浪微博作為主要數(shù)據(jù)源,利用爬蟲(chóng)技術(shù)采集數(shù)據(jù),通過(guò)對(duì)數(shù)據(jù)的處理分析以及可視化,得到西安市范圍內(nèi)微博數(shù)據(jù)的分布規(guī)律。
關(guān)鍵詞 社交網(wǎng)絡(luò) 地理信息 數(shù)據(jù)可視化 時(shí)空分布
1引言
在移動(dòng)互聯(lián)網(wǎng)技術(shù)高速發(fā)展、移動(dòng)通訊網(wǎng)絡(luò)環(huán)境日益完善以及移動(dòng)終端設(shè)備不斷普及的背景下,移動(dòng)互聯(lián)網(wǎng)應(yīng)用逐漸滲透到人們生活的方面。根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第39次《中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至2016年12月,我國(guó)總體網(wǎng)民規(guī)模達(dá)7.31億,其中手機(jī)網(wǎng)民規(guī)模達(dá)6.95億,占比95.1%,且處于穩(wěn)步增長(zhǎng)的態(tài)勢(shì)。社交網(wǎng)絡(luò)應(yīng)用與移動(dòng)互聯(lián)網(wǎng)相結(jié)合,各大社交應(yīng)用為廣大用戶(hù)提供了一個(gè)開(kāi)放性的服務(wù)平臺(tái),為用戶(hù)的信息的交流與分享帶來(lái)了更為便捷和有效的方式。在社交網(wǎng)絡(luò)中,龐大的用戶(hù)基數(shù)產(chǎn)生了海量的數(shù)據(jù),這些來(lái)自用戶(hù)的數(shù)據(jù)已經(jīng)被視為軍事或是商業(yè)情報(bào)的重要來(lái)源。尤其是基于位置分享的社交網(wǎng)絡(luò)應(yīng)用,將用戶(hù)的分享信息與地理位置的實(shí)時(shí)記錄關(guān)聯(lián)起來(lái),從而實(shí)現(xiàn)虛擬的網(wǎng)絡(luò)空間與現(xiàn)實(shí)世界的相互映射,為研究社交數(shù)據(jù)與現(xiàn)實(shí)世界之間的關(guān)系提供了機(jī)會(huì)。
本文以新浪微博數(shù)據(jù)作為對(duì)象,利用爬蟲(chóng)技術(shù)進(jìn)行數(shù)據(jù)采集,在對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理后,得到西安市范圍內(nèi)的微博數(shù)據(jù),在此基礎(chǔ)上對(duì)微博數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,構(gòu)建熱力圖模型,并實(shí)現(xiàn)數(shù)據(jù)可視化,探索西安市范圍內(nèi)微博數(shù)據(jù)的分布規(guī)律。
2數(shù)據(jù)的采集與預(yù)處理
本文使用基于Python的scrapy框架構(gòu)建數(shù)據(jù)爬蟲(chóng)系統(tǒng),采用MongoDB作為存儲(chǔ)數(shù)據(jù)對(duì)微博數(shù)據(jù)進(jìn)行采集。在采集過(guò)程中,通過(guò)制定過(guò)濾規(guī)則對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,從而獲得研究所需的目標(biāo)數(shù)據(jù)。具體操作方式:1. 檢測(cè)采集的數(shù)據(jù)中是否包含位置分享信息;2. 通過(guò)MongoDB的空間索引特性,利用西安市行政區(qū)劃的GeoJSON數(shù)據(jù)檢測(cè)所包含的位置是否屬于西安市范圍。將同時(shí)滿(mǎn)足以上兩點(diǎn)的數(shù)據(jù)視為可用數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)庫(kù)中。
3數(shù)據(jù)的處理與可視化
3.1統(tǒng)計(jì)數(shù)據(jù)的時(shí)間分布
將每天的時(shí)間從0點(diǎn)開(kāi)始按照一個(gè)小時(shí)的間隔分為24個(gè)時(shí)段,解析每條微博的發(fā)布時(shí)間,分別統(tǒng)計(jì)各個(gè)時(shí)段的微博發(fā)布數(shù)量。由于各個(gè)時(shí)段的微博在發(fā)布數(shù)量上存在著巨大的差異,因此,在此基礎(chǔ)上,將每個(gè)時(shí)段的統(tǒng)計(jì)值均除以總的微博發(fā)布數(shù)量,得到每個(gè)時(shí)段的微博發(fā)布頻率,便于進(jìn)行數(shù)據(jù)的可視化。
3.2統(tǒng)計(jì)數(shù)據(jù)的空間分布
將所有微博數(shù)據(jù)的坐標(biāo)信息解析GeoJSON的標(biāo)準(zhǔn)格式,利用MongoDB在數(shù)據(jù)存儲(chǔ)層面建立空間索引。然后使用MongoDB的空間查詢(xún)命令統(tǒng)計(jì)西安市范圍內(nèi)微博數(shù)據(jù)在空間上的分布密度
3.3數(shù)據(jù)可視化
本選取了ECharts和Leaflet作為數(shù)據(jù)可視化工具,構(gòu)建可視化的靜態(tài)頁(yè)面。
4微博數(shù)據(jù)的分布規(guī)律
4.1在時(shí)間上的總體分布
如圖1,顯示了西安市范圍內(nèi)微博發(fā)布數(shù)量頻率的各個(gè)時(shí)段分布情況,從圖中我們能夠直觀地看出微博發(fā)布頻率在時(shí)間上的變化趨勢(shì),從0點(diǎn)開(kāi)始用戶(hù)發(fā)布微博的頻率逐漸下降,進(jìn)入“休息時(shí)間”,在上午的5點(diǎn)至6點(diǎn)達(dá)到最低值;上午6點(diǎn)以后,直至夜里12點(diǎn),用戶(hù)發(fā)布微博的頻率總體呈現(xiàn)上升趨勢(shì),其中在6:00 – 12:00與18:00 – 次日0:00這兩個(gè)時(shí)間段內(nèi)用戶(hù)的發(fā)布頻率顯著上升,在12:00 – 18:00的時(shí)間段內(nèi)微博發(fā)布頻率則相對(duì)平穩(wěn)。
綜上所述,用戶(hù)發(fā)布微博的頻率在一天之內(nèi)的變化趨勢(shì)是顯著的。通過(guò)對(duì)用戶(hù)發(fā)布微博頻率的觀察,結(jié)合其所在的地理位置信息,可以了解到用戶(hù)在微博平臺(tái)上的使用習(xí)慣,根據(jù)用戶(hù)的活躍時(shí)間,適時(shí)而有針對(duì)性地進(jìn)行營(yíng)銷(xiāo)推廣或是輿情監(jiān)測(cè),實(shí)現(xiàn)相關(guān)資源的合理分配和有效利用具有一定的參考價(jià)值。
4.2在空間上的分時(shí)段分布
由于單個(gè)小時(shí)時(shí)間內(nèi)的數(shù)據(jù)量相對(duì)要小且每個(gè)小時(shí)之間的數(shù)據(jù)變化不明顯,不適合綜合分析各個(gè)時(shí)段的空間分布規(guī)律,因此,從0點(diǎn)每隔4個(gè)小時(shí)劃分一個(gè)時(shí)段,將24個(gè)小時(shí)重新劃分為6個(gè)時(shí)段,得到西安市范圍內(nèi)微博數(shù)據(jù)分時(shí)段空間分布圖,如圖 2所示。
從微博數(shù)據(jù)的空間位置分布來(lái)看,在0:00-4:00時(shí)段,微博數(shù)據(jù)主要沿地鐵二號(hào)線周邊分布,呈線狀和散點(diǎn)狀分布;在4:00-8:00時(shí)段,微博數(shù)據(jù)的分布的熱力度值進(jìn)入一天中的最低值,呈現(xiàn)零星散點(diǎn)分布;在8:00-12:00時(shí)段,微博數(shù)據(jù)的熱力度開(kāi)始進(jìn)入“活躍狀態(tài)”,在地鐵二號(hào)線南段沿線、綜合商業(yè)娛樂(lè)中心、高校等區(qū)域聚集;在12:00-16:00、16:00-20:00的兩個(gè)時(shí)段,相較于上個(gè)時(shí)段分布范圍更加趨向于向西安市“中軸線”區(qū)域集中;在20:00-24:00時(shí)段,“中軸線”區(qū)域的熱度得到提供且向外擴(kuò)散,同時(shí),其他區(qū)域的散點(diǎn)分布也得到了提高,微博數(shù)據(jù)的熱力度進(jìn)入一天中的峰值時(shí)段。
通過(guò)對(duì)分時(shí)段空間分布情況的總結(jié),在一定程度上反映了城市人群活動(dòng)的時(shí)空規(guī)律。從微博數(shù)據(jù)的熱度分布上,我們能夠分析得到西安市微博人群活動(dòng)的熱點(diǎn)區(qū)域和活動(dòng)時(shí)間;從另一方面,也可以了解到城市不同區(qū)域現(xiàn)實(shí)發(fā)展水平。在城市規(guī)劃、城市管理等方面具有一定的指導(dǎo)意義。
5總結(jié)
本文以新浪微博數(shù)據(jù)為研究數(shù)據(jù),以西安市為研究區(qū)域,通過(guò)對(duì)微博數(shù)據(jù)的采集、存儲(chǔ)、處理和可視化展示,實(shí)現(xiàn)對(duì)西安市微博數(shù)據(jù)分布規(guī)律的探索和分析,其中隱含的人群活動(dòng)信息對(duì)營(yíng)銷(xiāo)推廣、輿情監(jiān)測(cè)以及城市規(guī)劃等方面具有輔助決策支持的意義。
參考文獻(xiàn)
[1] 王紅梅. 移動(dòng)互聯(lián)網(wǎng)現(xiàn)狀與趨勢(shì)淺析[C]// 中國(guó)通信學(xué)會(huì)信息通信網(wǎng)絡(luò)技術(shù)委員會(huì)2011年年會(huì). 2011:74-79.
[2] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].(2017/01) http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201701/P020170123364672657408.pdf
[3] Goodchild, Michael F. Citizens as Sensors: The World of Volunteered Geography[J]. GeoJournal, 2007, 69(4):211-221.