亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向城市信息感知的社交網(wǎng)絡大數(shù)據(jù)分析

        2013-04-29 00:00:00李文俊陸建王橋
        中興通訊技術 2013年4期

        摘要:基于南京城市信息感知平臺,從新浪微博等社交網(wǎng)絡數(shù)據(jù)分析的角度,研究面向城市的信息感知技術;研究結果表明,基于社交網(wǎng)絡建立城市規(guī)模的計算模型,能迅速感知城市發(fā)展的進程,發(fā)現(xiàn)城市運行規(guī)律,從而實現(xiàn)高效、智能的城市。

        關鍵詞: 大數(shù)據(jù);城市計算;社交網(wǎng)絡;城市感知

        Abstract: In this paper, we focus on urban information sensing technology with respect to the Nanjing urban information sensing platform and social network data. Our experimental results show that the urban computing module based on social network data is quite helpful in sensing urban rhythm, discovering the regular pattern, and achieving a more intelligent and efficient city.

        Key words: big data; urban computing; social network; urban sensing

        哈佛大學E.Glaeser在其新著《Triumph of the city》[1]中指出:城市是人類最偉大的發(fā)明,是創(chuàng)新的發(fā)動機,城市化讓人更加富有、智慧、綠色、健康和幸福。然而,城市化的進程帶來了服務與管理上的巨大挑戰(zhàn)。如果離開信息技術,城市化很可能演變?yōu)榫薮蟮臑碾y。另一方面,隨著移動互聯(lián)、社交網(wǎng)絡、云計算等信息技術的發(fā)展,數(shù)據(jù)在互聯(lián)網(wǎng)上以遠超人們想象的速度迅速膨脹。據(jù)統(tǒng)計,全球每秒鐘發(fā)送290萬封電子郵件;Twitter上每天發(fā)布5 000萬條消息;谷歌通過大規(guī)模集群及分布式MapReduce系統(tǒng),每天需要處理24 PB的數(shù)據(jù);淘寶網(wǎng)會員超過3.7億,每天交易量千萬筆,產(chǎn)生幾十太字節(jié)的數(shù)據(jù)。這些海量數(shù)據(jù)早已超越了目前人力所能處理的范疇,大數(shù)據(jù)時代已經(jīng)來臨:企業(yè)關注的重點轉向了擁有數(shù)據(jù)的規(guī)模以及處理大數(shù)據(jù)的能力。

        近年來的城市計算[2]等技術,受到了極大的關注。在城市計算的概念中,城市空間里的任意設備、車輛、建筑、道路,包括人等都可作為一個計算單元來協(xié)同完成一個城市級別的計算。近年來,涌現(xiàn)了一些比較有代表性的工作:在哥本哈根,研究人員通過自行車輪胎上的傳感器探知城市空氣質(zhì)量、噪音等[3];在美國馬薩諸塞州,研究人員通過手機用戶的通信時刻與位置分析城市動態(tài)信息[4];在北京,微軟亞洲研究院的研究者通過分析出租車軌跡研究城市交通問題[5]。

        本文依據(jù)我們開發(fā)的分析平臺,通過分析用戶在社交網(wǎng)絡上產(chǎn)生的數(shù)據(jù)來感知城市信息。本文旨在展示:依托于網(wǎng)絡數(shù)據(jù)分析尤其是社交網(wǎng)絡數(shù)據(jù)分析,當前已經(jīng)可以獲取城市運行的關鍵信息,因此可以避免過度把注意力局限到信息采集基礎設施的建設方面。

        1 社交網(wǎng)絡是城市感知的

        重要途徑

        據(jù)統(tǒng)計,截至2012年12月底,中國互聯(lián)網(wǎng)用戶達到5.64億,互聯(lián)網(wǎng)普及率達到了42.1%。其中,作為新型社交媒體,微博近兩年獲得了爆炸式的發(fā)展,用戶規(guī)模達到3.09億,較2010年底增長了2.46億[6]。圖1為中國近兩年互聯(lián)網(wǎng)用戶及微博用戶規(guī)模變化示意圖。

        社交網(wǎng)絡的興起及大量活躍用戶的存在,源源不斷地產(chǎn)生著大量記錄城市生活的數(shù)據(jù),這類數(shù)據(jù)具有交互性、實時性、社會性的特點,隱含著大量有價值的信息,因此社交網(wǎng)絡又被譽為“數(shù)據(jù)科學家眼中的金礦”[7]。社交網(wǎng)絡數(shù)據(jù)的價值引起的許多研究者的關注,文獻[8]針對社交網(wǎng)絡中的大型用戶關系網(wǎng)絡,提出了一種新的分層社區(qū)發(fā)現(xiàn)算法;Hao Tu等人[9]通過聚類方法,對城市熱點話題進行檢測;Laura Ferrari等人[10]基于社交網(wǎng)絡中的位置信息,通過挖掘頻繁模式分析城市信息;文獻[11]基于Google的MapReduce并行框架,通過譜聚類的方法分析社交網(wǎng)絡中的用戶關系。以上研究從用戶關系、言論、位置等方面對社交網(wǎng)絡進行了分析,取得了一定的成果,對通過社交網(wǎng)絡數(shù)據(jù)感知城市信息有著非常積極的推動作用。

        2 社交網(wǎng)絡中的城市信息

        本文結合新浪微博數(shù)據(jù),自主開發(fā)了南京城市信息感知平臺,主要完成了以下幾個方面的工作。

        2.1 城市屬性挖掘

        在中國600多個城市中,既有上海、北京這樣的國際大都市,也有麗江、鳳凰這樣的旅游名城。每個城市都有自己獨特的印記和發(fā)展軌跡,表現(xiàn)出不同的政治、經(jīng)濟、文化、地理、環(huán)境等特征,并反映在城市生活的各個方面。圖2為江蘇省各地級市微博用戶活躍度與人均GDP比較圖。

        從圖2中可以發(fā)現(xiàn),除南京作為政治中心外,其他地級市的微博活躍度與人均GDP存在明顯的相關性,微博活躍度在一定程度上可以反映出該城市的政治、經(jīng)濟地位。

        除微博活躍度外,微博中還包含用戶位置、關系、言論等信息,對這些信息進行分析,可以得到更豐富的城市整體及各個區(qū)域的政治、經(jīng)濟、文化等屬性特征,從而可以幫助人們更好地感知城市、理解城市。

        2.2 城市動態(tài)性分析

        動態(tài)性是城市的基本特征,而城市里各個具體對象在位置上的變化,如車輛的運行、人群的移動等,是城市動態(tài)性最直接體現(xiàn)。感知城市中移動對象移動的軌跡并對軌跡數(shù)據(jù)進行分析,可以發(fā)現(xiàn)人類社會活動的特征和統(tǒng)計規(guī)律,進而可以從微觀到宏觀的不同尺度上認知和把握紛繁多變的城市動態(tài)。

        通過對社交網(wǎng)絡用戶在時間軸上發(fā)布的言論、圖片等信息進行分析,可以得到用戶在空間位置上的變化,比如社交網(wǎng)絡中的“簽到”功能,支持用戶隨時記錄并分享地理位置信息,提供了豐富的空間移動軌跡數(shù)據(jù)。圖3基于社交網(wǎng)絡的簽到信息對南京不同地點一天中的人流量進行了比較。

        對圖3進行分析,可以發(fā)現(xiàn)景區(qū)、餐廳、酒吧的人流量表現(xiàn)出了明顯不同的特征?;谖恢眯畔?,對城市各空間對象,如道路、商城、小區(qū)、醫(yī)院等動態(tài)規(guī)律進行分析,有助于人們更好地把握城市動態(tài)特征,從而服務于人們的城市生活。

        2.3 社區(qū)發(fā)現(xiàn)

        城市是由人組成的,而人類行為大多有潛在的規(guī)律。研究表明,人類行為軌跡表現(xiàn)出很強的時間與空間上的相關性[12],而社交網(wǎng)絡中的社區(qū)結構同樣具有小世界特性,并且表征著人類的共有愛好或者真實世界中的社會關系。

        了解人的社交結構,可以通過社交網(wǎng)絡中用戶間的交互信息,利用譜圖技術或者動態(tài)社區(qū)發(fā)現(xiàn)算法[13]完成用戶間社區(qū)結構的提取,再通過文本分析的技術,分析同一社區(qū)的構成原因,如圖4所示。

        正是由于人類行為的規(guī)律性,導致了城市中的種種宏觀特征。在數(shù)據(jù)挖掘更加注重個性化、社交化的今天,從社交網(wǎng)絡中挖掘出用戶的社交結構和生活模式(行為、意圖、經(jīng)驗等),對于研究城市的規(guī)律有著極其重要的意義。

        2.4 異常事件檢測

        異常事件分析是城市計算中的重要研究內(nèi)容。在城市中,異常事件的發(fā)生,如流感爆發(fā)、臨時交通管制、暴雨災害等公共事件,往往會對居民生活出行及生命財產(chǎn)等造成損失。

        傳統(tǒng)的檢測手段往往不能及時發(fā)現(xiàn)異常事件。以監(jiān)測流感為例,衛(wèi)生部門主要通過分析確診病例來監(jiān)測流感爆發(fā)。由于患者從感染流感到醫(yī)院確診通常需要幾天時間,這給流感檢測帶來了時間上的延遲,而社交網(wǎng)絡可以為實時監(jiān)測流感信息提供重要的數(shù)據(jù)來源。在社交網(wǎng)絡中,很多患者在感染流感初期會通過微博發(fā)布身體情況,這些信息具有很高的可信度。通過對社交網(wǎng)絡中有關流感的數(shù)據(jù)進行采集、分析,不但可以實時監(jiān)測流感爆發(fā),還可以預測流感的發(fā)展趨勢,并及時采取有效的預防和治療措施。

        目前,哈佛醫(yī)學院的學者[14]通過采集Twitter中的數(shù)據(jù)來預測流感趨勢,并將預測結果與美國疾病預防和控制中心的數(shù)據(jù)進行比對,獲得了比較理想的結果。

        除流感外,社交網(wǎng)絡在交通事故、群體事件、自然災害等突發(fā)事件的檢測中也有著非常重要的作用。社交網(wǎng)絡實時性的特點,使其成為檢測異常事件的重要手段之一。研究基于社交網(wǎng)絡的城市異常事件檢測,可以降低異常事件對城市正常運行的影響,減少異常事件給城市居民帶來的不便及損失。

        3 社交網(wǎng)絡數(shù)據(jù)分析的挑戰(zhàn)

        社交網(wǎng)絡數(shù)據(jù)是由數(shù)億人在互聯(lián)網(wǎng)上隨機產(chǎn)生的,導致數(shù)據(jù)雜亂無章,且存在許多重復及無用數(shù)據(jù),數(shù)據(jù)質(zhì)量偏低。因此,如何從雜亂無章的社交網(wǎng)絡數(shù)據(jù)中,尋找有價值的知識和信息,給科研工作提出了新的挑戰(zhàn)和要求:

        (1)管理和處理大規(guī)模多源異構數(shù)據(jù)

        社交網(wǎng)絡數(shù)據(jù)是典型的多源異構數(shù)據(jù),由不同互聯(lián)網(wǎng)公司產(chǎn)生,且包含圖像、文本、聲音等多種格式;社交網(wǎng)絡數(shù)據(jù)還包含用戶關系、移動軌跡、地理信息、時間序列等各種類型;同時,社交網(wǎng)絡包含的數(shù)據(jù)量非常大,且源源不斷地產(chǎn)生大量實時數(shù)據(jù),這些都給數(shù)據(jù)管理和處理帶來了很大的挑戰(zhàn)。

        (2)在線實時分析社交網(wǎng)絡數(shù)據(jù)

        許多智慧城市的應用,如城市突發(fā)事件檢測、城市交通流信息等,有著很高的實時性要求。因此,在對社交網(wǎng)絡數(shù)據(jù)進行分析時,雖然數(shù)據(jù)量很大,但數(shù)據(jù)分析過程必須快速高效,以滿足實時應用的要求。

        (3)如何從雜亂無章的社交網(wǎng)絡數(shù)據(jù)中獲取知識

        社交網(wǎng)絡數(shù)據(jù)采集成本較低,但同時質(zhì)量也很低,這要求我們從海量數(shù)據(jù)中去粗取精,從大數(shù)據(jù)中提取典型特征;同時單個方面的數(shù)據(jù)往往只能發(fā)現(xiàn)局部的信息量,必須結合多方面的數(shù)據(jù)去獲取更深層次的知識。

        (4)如何有效地表達從社交網(wǎng)絡中獲取的知識并指導人們的決策

        社交網(wǎng)絡中可以獲取城市生活各個角度的信息,但如何合理使用這些信息,將其用于指導城市管理,為人們提供更便利、智能的城市生活,也是比較有挑戰(zhàn)的研究課題。

        4 結束語

        社交網(wǎng)絡的興起為城市感知提供了豐富的數(shù)據(jù)來源,但其數(shù)據(jù)的復雜性也給研究工作帶來的諸多挑戰(zhàn)。目前的研究工作只是冰山一角,新的研究工作需要轉變思維方式,綜合各種技術手段,以從紛繁復雜的社交網(wǎng)絡數(shù)據(jù)中發(fā)現(xiàn)特定的模式和新的規(guī)律,從而幫助人們更好地感知城市信息及發(fā)展規(guī)律,為人們提供更加美好、綠色、智能的城市生活。

        參考文獻

        [1] GLAESER E L. 城市如何讓我們變得更加富有、智慧、綠色、健康和幸福 [M]. 劉潤泉, 譯. 上海:上海社會科學院出版社, 2012.

        [2] PAULOS E, HONICKY R J, HOOKER B. Handbook of research on urban informatics: The practice and promise of the real-time city [M]. Hershey, PA, USA:IGI Global, 2008.

        [3] OUTRAM C, RATTI C, BIDERMAN A. The copenhagen wheel: An innovative electric bicycle system that harnesses the power of real-time information and crowd sourcing [C]//Proceedings of the EVER Monaco International Exhibition Conference on Ecologic Vehicles Renewable Energies(EVER’10), Mar 25-28,2010, Monaco.

        [4] CALABRESE F, PEREIRA F C, DI LORENZO G, et al. The geography of taste: Analyzing cell-phone mobility and social events [C]//Proceedings of the 8th International Conference on Pervasive Computing(Pervasive’10), May 17-20, 2010, Helsinki, Finland. 2010: 22-37.

        [5] YUAN J, ZHENG Y, XIE X, et al. Driving with knowledge from the physical world [C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’11), Aug 21-24, 2011, San Diego, CA, USA. New York, NY, USA: ACM, 2011:316-324.

        [6] 第31次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告 [R]. 北京: 中國互聯(lián)網(wǎng)絡信息中心, 2013.

        [7] BIAN J, AGICHTEIN E, LIU Y, et al. Learning to recognize reliable users and content in social media with coupled mutual reinforcement [C]//Proceedings of the 18th International Conference on World Wide Web (WWW’09), Apr 20-24, 2009, Madrid, Spain. New York, NY, USA:ACM, 2009: 51-60.

        [8] LU P, LUO S, HU L, et.al. A novel parallel hierarchical community detection method for large networks [EB/OL]. [2013-02-16]. http://biglearn.org/2012/files/papers/biglearning2012_submission_4.pdf.

        [9] TU H, DING J. An efficient clustering algorithm for microblogging hot topic detection [C]//Proceedings of the International Conference on Computer Science Service System(CSSS’12), Aug 11-13,2012, Nanjing, China. Piscataway, NJ,USA: IEEE, 2012: 738-741.

        [10] FERRARI L, ROSI A, MAMEI M, et.al. Extracting urban patterns from location-based social networks [C]//Proceedings of the 3rd ACM SIGSPATIAL International Workshop on Location-based Social Networks(LBSN’11). Nov 1,2011, Chicago, IL,USA. New York, NY, USA: ACM, 2011:9-16.

        [11] ZHONG Q, et.al. Parallel spectral clustering based on MapReduce [J]. ZTE Communications, 2013. 2013, 2(11):30-37.

        [12] BROCKMANN D, L HUFNAGEL L, GEISEL T. The scaling laws of human travel [J]. Nature, 2006, 439:462-465.

        [13] FORTUNATO S. Community detection in graphs [J]. Physics Reports, 2010:75-174.

        [14] ACHREKAR H, GANDHE A, LAZARUS R, et al. Predicting Flu trends using Twitter data [C]//Proceedings of the 2011 IEEE Conference on Computer Communications Workshops (INFOCOM WKSHPS’11), Apr 10-15,2011, Shanghai, China. Piscataway, NJ,USA: IEEE, 2011:702-707.

        作者簡介

        李文俊,東南大學信息科學與工程學院在讀博士研究生;研究方向為大數(shù)據(jù)分析、數(shù)據(jù)挖掘、Web數(shù)據(jù)分析等。

        陸建,東南大學信息科學與工程學院講師;研究領域為數(shù)據(jù)分析和數(shù)據(jù)壓縮;已參與完成基金項目3項;已發(fā)表學術論文3篇。

        王橋,東南大學教授、博士生導師,東南大學信號與信息處理國家重點學科主任;長期從事信號分析、圖像處理以及網(wǎng)絡技術研究;已發(fā)表學術論文30余篇,出版專著1部。

        图片小说视频一区二区| 蜜臀av一区二区三区人妻在线| 少妇人妻在线伊人春色| 日本伦理精品一区二区三区 | 国产真实乱对白精彩久久老熟妇女| 国产欧美一区二区精品性色| 日韩欧美精品有码在线观看| 日本黄网色三级三级三级| 精人妻无码一区二区三区| 国产成人无码一区二区三区在线| 国产系列丝袜熟女精品视频| 中文字幕日韩精品亚洲精品| 国产情侣一区二区三区| 久久综合狠狠综合久久| 国产精品无码久久久久免费AV| 高清国产精品一区二区| 久久国产劲爆∧v内射| 自慰无码一区二区三区| 国产一区二区三区精品久久呦| 一区二区三区一片黄理论片| 欧美肥妇毛多水多bbxx水蜜桃 | 在线观看av永久免费| 亚洲成a人片77777kkkkk| 精品国产一区二区三区性色| 午夜精品久久久久久毛片| 久久99欧美| 久久五月精品中文字幕| 亚洲男女内射在线播放| 性欧美暴力猛交69hd| 久久久国产不卡一区二区| 亚洲国产一区二区网站| 国产精品美女久久久久av福利| 国产一区免费观看| 亚洲精品99久91在线| 一本色道久久hezyo无码| www国产精品内射熟女| 超清无码AV丝袜片在线观看| 亚洲精品在线免费视频| 在线涩涩免费观看国产精品 | 狠狠亚洲婷婷综合色香五月| 日韩在线一区二区三区中文字幕|