亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于微博簽到數(shù)據(jù)的出行行為分析

        2018-01-03 09:45:02聶琦
        山東科學 2017年6期
        關鍵詞:聚類距離流量

        聶琦

        (北京交通大學交通運輸學院,北京 100044)

        基于微博簽到數(shù)據(jù)的出行行為分析

        聶琦

        (北京交通大學交通運輸學院,北京 100044)

        應用Python爬蟲程序,通過新浪API端口爬取了新浪微博2012年的地點簽到數(shù)據(jù),共計5 028 980條。將這些數(shù)據(jù)按城市劃分,共分為340個地級以上的城市或地區(qū)。通過統(tǒng)計發(fā)現(xiàn),簽到次數(shù)最多的3個城市為北京、上海和廣州,說明微博用戶更多地活躍在這三個城市。進一步通過相關性分析發(fā)現(xiàn),這些城市的微博用戶簽到流量和當?shù)谿DP呈一定的相關性,說明經(jīng)濟發(fā)展水平會影響用戶的旅行行為。此外,本文還按照用戶的出行流量對各大城市進行了聚類劃分,進一步印證了經(jīng)濟發(fā)達城市對微博用戶簽到的吸引會高于其他經(jīng)濟欠發(fā)達的城市。

        微博簽到;經(jīng)濟水平;聚類劃分;相關性

        隨著互聯(lián)網(wǎng)的高速發(fā)展,中國的網(wǎng)民數(shù)量持續(xù)增長。尤其是最近幾年智能手機的普及,更促進了網(wǎng)民數(shù)量的激增。據(jù)中國互聯(lián)網(wǎng)絡信息中心發(fā)布的報告,中國網(wǎng)民規(guī)模逾七億,其中手機網(wǎng)民占比達95.1%。網(wǎng)民在利用網(wǎng)絡的同時,其活動也會被記錄,尤其是其出行行為。這些用戶出行數(shù)據(jù),已在國外得到有效的利用。例如,Mok等[1]使用Twitter的數(shù)據(jù),研究了社交和用戶空間位置的相互關系。Goldenberg等[2]利用Facebook的用戶簽到數(shù)據(jù),研究了社交和空間移動行為之間的相互影響。Dhar等[3]利用Gowalla和Brightkite的用戶簽到數(shù)據(jù),研究了用戶的社交關系對用戶出行距離的影響。這些研究充分說明了社交簽到數(shù)據(jù)的重要性,同時深化了人們對于人類出行行為的理解。

        除了對簽到數(shù)據(jù)的處理和運用,研究人員也使用了其他類型的數(shù)據(jù),并做出了不少有價值的研究。Jiang等[4]利用出租車的GPS定位數(shù)據(jù),研究了人類整體流量分布的影響因素。González等[5]利用手機通訊數(shù)據(jù),研究了個人移動模式下基于位置跟蹤的時間分辨方式,并描述了一個普遍的流動模式,這對城市規(guī)劃和交通預測具有十分重要的理論意義。Ni等[6]利用SIR傳染病模型模擬了人類旅行行為在時空上的標度律分布。這些研究均對人類出行行為做出了扎實的基礎理論驗證。韓華瑞等[7]利用微博簽到數(shù)據(jù)研究了湖北省各地區(qū)的空間差異,發(fā)現(xiàn)武漢市的簽到占比超過七成。王明等[8]提出了一種根據(jù)簽到屬性顯著度差異來提取城市分層地標的方法,并以北京市的位置簽到數(shù)據(jù)為例對該方法進行了進一步的論證。除了對實際出行位置的研究之外,也有人站在傳播學的角度對微博進行了分析,例如,曹玖新等[9]分析了新浪微博的信息轉發(fā)與傳播特征。目前,對微博位置數(shù)據(jù)的使用多局限于小區(qū)域內的移動研究,微博用戶在全國范圍內的移動行為研究相對較少。本文在中國大陸這一空間尺度上,對微博用戶在不同城市之間的出行行為進行了研究。

        1 數(shù)據(jù)處理

        本文使用Python爬蟲程序,通過新浪提供的API中微博地理位置信息接口[10],爬取新浪微博用戶2012年1月—12月的簽到數(shù)據(jù)。該數(shù)據(jù)包含用戶出行的起訖點位置編號和經(jīng)緯度等信息,如表1所示。經(jīng)過匿名化處理,提取出本文所需的OD量及地點信息。再利用百度地圖提供的API,將各用戶的簽到地點按照不同的城市地區(qū)(地級及以上)進行劃分,于是得到不同城市間的OD量數(shù)據(jù)。

        表1 數(shù)據(jù)樣本

        2 微博簽到數(shù)據(jù)的空間分布

        由于微博的用戶量較大,且簽到數(shù)據(jù)帶有位置信息,所以使用微博數(shù)據(jù)來反映人的空間出行行為是比較可靠的。圖1顯示的是微博用戶在340個城市里有簽到記錄的OD出行圖,圖中連線表示OD的遷移,連線的粗細表示OD量的多少。由圖1可以看出,北京、上海、廣州三地之間的出行流量巨大,可以形成一個明顯的三角形。另外,成都和重慶對于這三地的出行流量貢獻也很大??紤]到以上幾個城市的人口和經(jīng)濟量,本文猜測用戶在遠距離出行行為中的地點選擇可能與當?shù)氐娜丝诤徒?jīng)濟有關。

        為了更好地說明用戶遷移的OD量分布密度,本文將用戶出行某地的OD量相加,然后以密度圓的形式標度在地圖上,如圖2所示,圖中圓圈的大小和顏色代表該地的流量多少??梢院苊黠@地看出,用戶出行多集中于北京、上海、廣州這些大型城市之中。另外,各省省會城市的用戶出行流量一般多于其他城市的出行流量。

        圖1 微博用戶出行行為OD圖Fig.1 OD diagram of Weibo users' travel behavior

        圖2 微博用戶出行OD密度圖Fig.2 OD density map of Weibo users

        圖3 微博用戶出行雙對數(shù)分布Fig.3 Log-log distribution of Weibo users

        3 數(shù)據(jù)分析

        3.1 統(tǒng)計分析

        本文將微博用戶的出行量數(shù)據(jù)放到雙對數(shù)坐標上,橫軸表示流量,縱軸表示概率。可以很明顯地看到,用戶出行量在雙對數(shù)坐標系下存在肥尾分布(圖3),這說明大多數(shù)的用戶都集中出沒于少數(shù)幾個地點,而剩余的大多數(shù)地點都只吸引了小部分人的出行。實際上,經(jīng)過統(tǒng)計可以發(fā)現(xiàn),北京、上海、廣州等大城市對微博用戶的吸引明顯更大一些,所以短時的旅行行為發(fā)生在這些大城市里也不足為奇。

        3.2 貢獻度分析

        貢獻度分析又稱為帕累托分析,其原理是帕累托法則(Pareto principle),由意大利經(jīng)濟學家維弗雷多·帕累托(Vilfredo Pareto)于1897年在觀察19世紀英國人財富收益模式時發(fā)現(xiàn)。這一法則又稱二八定律(The 80/20 Rule),揭示了生活中的不平衡現(xiàn)象。本文將不同的地點表示在橫軸上,將不同區(qū)域的流入量及其累計概率表示在縱軸上,作出微博用戶出行行為的流量吸引帕累托圖,如圖4所示??梢钥吹剑谌祟惓鲂行袨橹?,這種不平衡關系依然存在。具體地說,前十幾個省份地區(qū)吸引了百分之八十以上的微博用戶,其中廣東、北京、上海、江蘇和浙江位于微博用戶吸引量前五的省市,這幾個省市除了是GDP比較靠前的省市外,同時也是網(wǎng)絡普及率較高的幾個省市。于是,有理由考慮網(wǎng)絡普及率(微博簽到率)和GDP之間的相關關系是否為正相關的關系。

        圖中長條表示流入量的頻數(shù),圓點表示累積概率圖4 微博用戶出行行為的帕累托圖Fig.4 Pareto diagram of Weibo users' travel behavior

        3.3 聚類分析

        聚類分析是在沒有給定任何劃分類別的條件下,按照數(shù)據(jù)相似度對樣本分組的一種方法,是一種無監(jiān)督學習方法[11-12]。K-means聚類是一種典型的空間聚類方法,是將研究對象的空間距離指標依照某種相似性準則劃分到若干組中去,然后使組內的距離最小化,同時使組間的距離最大化。通常來說,空間聚類算法是建立在各種距離上的,如歐幾里得距離、曼哈頓距離、閔可夫斯基距離等。

        其中,閔可夫斯基距離為:

        (1)

        式中,i=(xi1,xi2,…,xin)和j=(xj1,xj2,…,xjn)為兩個n維的數(shù)據(jù)對象;q為正整數(shù),q=1時d(i,j)即為曼哈頓距離,q=2時d(i,j)則是歐幾里得距離。

        簇Ei的聚類中心ei計算公式為:

        (2)

        式中,Ei表示第i個簇;x表示樣本;ei為第i個簇的聚類中心;ni為第i個簇中樣本的個數(shù)。

        目標函數(shù)為:

        (3)

        式中,K表示聚類簇的個數(shù)。

        算法流程:

        (1)首先從N個樣本數(shù)據(jù)中隨機抽取K個對象作為初始聚類的中心;

        (2)依次計算樣本到各聚類中心的距離(由于涉及與經(jīng)緯度相關的實際坐標,故本文采用歐幾里得距離進行計算),然后使各個對象劃分至歐氏距離最近的聚類當中;

        (3)當所有的對象完成之后,再次計算K個聚類的中心;

        (4)和上一次計算得到的K個聚類中心作比較,若聚類中心發(fā)生變化,則返回(2)步,否則進入(5)步;

        (5)當質心不再發(fā)生移動時,停止迭代,然后輸出聚類的結果。

        K-means算法最核心的思想就是通過迭代,將數(shù)據(jù)對象劃分到不同的簇中,以期目標函數(shù)(3)最小化。

        本文以各城市的吸引量為聚類指標,將新浪微博用戶在各城市的簽到地點進行聚類分析??紤]到分類數(shù)(如果分類太少則無法區(qū)分開來,如果分類太多則會無意義),所以最終決定按照各城市的吸引量將各城市分為五類。其中,第I類和第II類表示了微博簽到中絕大多數(shù)吸引力較小的城市,對微博用戶吸引力較大的城市都集中在第V類。如圖5所示,這五類城市正好區(qū)分了對出行用戶的吸引力大小。圖中可以看出,北京、上海、廣州等地被劃為同一類,和圖1中直觀的出行流量相呼應,同時也驗證了簽到用戶流量很大一部分集中在這三地之間流動。

        圖5 微博用戶出行數(shù)據(jù)聚類結果Fig.5 Clustering results of Weibo users' travel data

        3.4 輪廓系數(shù)

        輪廓系數(shù)是用來評價聚類效果好壞的參數(shù)。對于任意數(shù)據(jù)對象i,其輪廓指標s(i)定義為

        (4)

        式中,a(i)是同一簇中數(shù)據(jù)對象i的平均差異,即向量i到同簇內所有其他點的“距離”(不相似程度)的平均;b(i)是i對其他簇的最小平均差異,即向量i到其他簇中所有點平均“距離”的最小值。

        (4)式也可以更直觀地寫成

        (5)

        從上面的定義式可以清楚地看到,輪廓系數(shù)s(i)的值是-1~1之間的某個數(shù),即s(i)∈[-1,1]。s(i)越大,說明聚類效果越好,反之越差。s(i)的值越趨近于1,則說明內聚度和分離度都相對比較好;當s(i)的值小于0時,說明與其簇內元素的平均距離間隔小于最近其余的簇,這說明此時的聚類效果還有待提高。

        根據(jù)以上定義,本文將上面聚類的結果帶入進行計算,求得此類情況下的輪廓系數(shù)值為0.879 158 192 628。該值較為接近1,這說明內聚度、分離度都相對比較好,也就是說聚類效果良好。

        3.5 相關性分析

        相關性分析是對兩個或兩個以上的變量元素進行分析計算,最后得出衡量這兩個變量因素的相關密切程度,從而對這些變量進行評價分析的方法。由上述的聚類分析結果可以看出,大多數(shù)經(jīng)濟較為發(fā)達的城市被聚為了一類,而經(jīng)濟量較低的一些城市也被聚成一類。于是,本文推斷經(jīng)濟量可能是影響城市吸引量的重要因素。

        本文利用微博用戶遷入數(shù)據(jù),對各城市的用戶流入量與該地的GDP做了相關性分析。相關系數(shù)的絕對值越大,相關性越強。通常認為,相關系數(shù)越接近于1或-1,相關度越強;相關系數(shù)越接近于0,相關度越弱。

        如表2所示,本文將微博用戶的簽到數(shù)據(jù)和各城市GDP數(shù)據(jù)導入SPSS軟件進行皮爾森相關性檢驗,在0.01的置信水平下算出其Pearson相關系數(shù)為0.79。通常情況下,Pearson相關系數(shù)取值區(qū)間在0~0.2之間時,可認為變量之間極弱相關或無相關;當取值在0.2~0.4之間時,可認為變量之間弱相關;當取值在0.4~0.6之間時,可認為變量之間中等程度相關;當取值在0.6~0.8之間時,可認為變量之間強相關;當取值在0.8~1.0之間時,可認為變量之間極強相關。綜上,本文認為GDP和微博用戶的流入量具有強相關性,即目的地的經(jīng)濟水平能夠影響用戶的出行。

        表2 微博用戶流入量和GDP的皮爾森相關性分析

        注:**表示在0.01水平(雙側)上顯著相關。

        4 結論

        本文利用微博用戶2012年的簽到數(shù)據(jù),先進行初步的統(tǒng)計分析,發(fā)現(xiàn)大部分移動的流量集中于少數(shù)幾個特定的城市之間,這說明微博用戶的旅行行為在空間上呈現(xiàn)出一定的聚集性,表明這幾個特定的城市比其他城市的吸引力要大。實際上,在中國三十多個省級地區(qū)中,微博用戶的旅行行為基本集中在廣東、北京、上海、江蘇等省市地區(qū)內。為了更直觀地觀察,本文按照吸引量對各城市進行K-means聚類,發(fā)現(xiàn)北京、上海、廣州、深圳等地被劃分到同一類型當中,這進一步印證了微博用戶的這種空間聚集性跟城市的發(fā)展有一定聯(lián)系。通過進一步對各城市的GDP和吸引量做相關性分析,發(fā)現(xiàn)這兩個變量的Pearson相關性系數(shù)為0.79,在強相關的范圍內,因而可以認為城市的吸引量和當?shù)氐慕?jīng)濟發(fā)展存在著強相關關系。之前已有的研究多是在較小的空間尺度下進行的,且都是基于距離的出行行為分析,本文重點分析經(jīng)濟量對人類移動行為的影響,發(fā)現(xiàn)在大空間尺度下的旅行行為中,人們的出行所受到的吸引和經(jīng)濟水平具有強相關關系。一般來說,城市的吸引力除了經(jīng)濟因素之外,還有其他很多的影響因素。由于數(shù)據(jù)來源的局限,同時也為了簡便,本文單獨選擇了經(jīng)濟量進行分析。未來如果能夠獲取更多樣化的數(shù)據(jù)集,可以結合經(jīng)濟水平、教育水平、基礎設施水平等指標進行更全面的分析。

        [1]MOK D, WELLMAN B, CARRASCO J. Does distance matter in the age of theInternet?[J]. Urban Studies, 2010, 47(13):17-20.

        [2]GOLDENBERG J, LEVY M. Distance is not dead: Social interaction and geographical distance in the Internet Era[EB/OL]. [2017-03-02].http://api.ning.com/files/4SGMTw61ZJMWGCZrfDfIcbVhygzhq1TMfCWF2-IuyyK2svuoxwOk9P8zY8eTi8MGpXkwBwuTOCagp3jP1OCHanpbC0cpA8-E/0906.3202.pdf.

        [3]DHAR S, VARSHNEY U. Challenges and business models for mobile location-based services and advertising[J]. Communications of the ACM, 2011, 54(5):121-128.

        [4]JIANG B, YIN J, ZHAO S. Characterizing the human mobility pattern in a large street network[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2009, 80(2):021136.

        [6]NI S, WENG W. Impact of travel patterns on epidemic dynamics in heterogeneous spatialmetapopulation networks[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2009, 79(1):016111.

        [7]韓華瑞, 代偵勇. 湖北省微博簽到活動空間差異分析——以新浪微博為例[J]. 測繪與空間地理信息, 2016,39(10):159-162.

        [8]王明, 胡慶武, 李清泉,等. 基于位置簽到數(shù)據(jù)的城市分層地標提取[J]. 計算機學報, 2016, 39(2):405-413.

        [9]曹玖新, 吳江林, 石偉,等. 新浪微博網(wǎng)信息傳播分析與預測[J]. 計算機學報, 2014,37(4):779-790.

        [10]張晶. 網(wǎng)絡地理信息應用中用戶行為數(shù)據(jù)獲取與分析研究[D]. 鄭州:解放軍信息工程大學, 2015.

        [11]王駿, 王士同, 鄧趙紅. 聚類分析研究中的若干問題[J]. 控制與決策, 2012, 27(3):321-328.

        [12]白雪. 聚類分析中的相似性度量及其應用研究[D]. 北京:北京交通大學, 2012.

        TravelbehavioranalysisbasedonWeibocheck-indata

        NIEQi

        (SchoolofTrafficandTransportation,BeijingJiaotongUniversity,Beijing100044,China)

        ∶Using Python crawler, the location check-in data of Sina Weibo in the year of 2012 were crawled through the Sina API port. The data set consisted of 5,028,980 records. These data were divided into 340 cities or regions above prefecture level. Data statistics showed that there was the largest number of check-in in 3 cities: Beijing, Shanghai and Guangzhou, which revealed that Weibo users were more active there. Furthermore, through correlation analysis, it was found that the Weibo users′ attendance flow in these cities was related to the local GDP, indicating that the level of city economic development would affect the users′ travel behavior. In addition, this paper also divided the major cities into clusters according to the users' trip volume, further confirming that the developed cities were more attractive to Weibo users than other economically underdeveloped cities.

        ∶Weibo check-in; economic level; clustering; correlation

        10.3976/j.issn.1002-4026.2017.06.014

        2017-05-17

        國家自然科學基金(71525002)

        聶琦(1992—),男,碩士研究生,研究方向為交通運輸系統(tǒng)科學、人類移動性。E-mail: nie_qi@bjtu.edu.cn

        U491

        A

        1002-4026(2017)06-0087-07

        猜你喜歡
        聚類距離流量
        冰墩墩背后的流量密碼
        玩具世界(2022年2期)2022-06-15 07:35:36
        張曉明:流量決定勝負!三大流量高地裂變無限可能!
        尋找書業(yè)新流量
        出版人(2020年4期)2020-11-14 08:34:26
        算距離
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        每次失敗都會距離成功更近一步
        山東青年(2016年3期)2016-02-28 14:25:55
        基于改進的遺傳算法的模糊聚類算法
        愛的距離
        母子健康(2015年1期)2015-02-28 11:21:33
        一種層次初始的聚類個數(shù)自適應的聚類方法研究
        五位一體流量平穩(wěn)控制系統(tǒng)
        口爆吞精美臀国产在线| 国産精品久久久久久久| 中国凸偷窥xxxx自由视频妇科| 亚洲国产成人精品女人久久久| 尤物AV无码色AV无码麻豆 | 亚洲色大成网站www久久九| 老熟女毛茸茸浓毛| 国产后入内射在线观看| av毛片亚洲高清一区二区| 国产成人精品无码免费看| 国产又色又爽又黄的| 伊人久久无码中文字幕| 亚洲日韩av一区二区三区中文| 日本黄页网站免费观看| 国产麻豆一精品一AV一免费软件| 日韩精品免费在线视频| 色婷婷亚洲一区二区在线| 国产精品自产拍av在线| 国内嫩模自拍诱惑免费视频| 国精品人妻无码一区二区三区性色| 人妻少妇精品专区性色av| 粗大挺进尤物人妻一区二区 | 亚洲AV秘 无码一区二区久久| 国产一级片内射在线视频| 蜜桃高清视频在线看免费1| 亚洲一区二区女搞男| 久久久久夜夜夜精品国产| 国产成人精品999在线观看| 911国产在线观看精品| 亚洲人妻精品一区二区三区| 精品一区二区三区芒果| 国产精品欧美福利久久| 人妻精品丝袜一区二区无码AV| 丝袜美腿一区二区在线观看 | 巨爆中文字幕巨爆区爆乳| 日产无人区一线二线三线乱码蘑菇 | 爽爽影院免费观看| 欧美精品一区二区蜜臀亚洲| 国产情侣一区在线| 日本av第一区第二区| 美女视频黄是免费|