李 恒, 沈華偉, 黃 蔚, 程學旗
(1. 中國科學院大學 人工智能學院,北京 100049; 2. 國家基礎地理信息中心,北京 100830; 3. 中國科學院 計算技術研究所,網(wǎng)絡數(shù)據(jù)科學與技術重點實驗室,北京 100190; 4. 中國科學院 網(wǎng)絡數(shù)據(jù)科學與技術重點實驗室,北京 100190)
伴隨著移動互聯(lián)網(wǎng)與社交網(wǎng)絡媒體的深度融合,具有定位功能的移動智能設備和軟件越來越普及,基于位置服務(Location Based Service,LBS)的應用更加流行,地理社會網(wǎng)絡(Geo-Social Networks,GSN)積累的海量時空社交網(wǎng)絡媒體數(shù)據(jù)極具研究價值。如何從GSN產(chǎn)生的海量數(shù)據(jù)中提取出有用、可靠、可知識化的綜合信息,并通過信息可視化方式表達、展示與分析,成為研究者們關注的一個熱點。
地理社會網(wǎng)絡不同于傳統(tǒng)的社會網(wǎng)絡服務(Social Network Service,SNS),時間屬性和空間地理位置屬性(簡稱時空屬性)成為其獨特而最重要的屬性。通訊方式的變革導致GSN的迅速發(fā)展,諸如國外的Twitter、Facebook;國內(nèi)的微博、人人網(wǎng)等加速了互聯(lián)網(wǎng)虛擬社區(qū)與現(xiàn)實真實社會的交互。簡單來講,SNS產(chǎn)生的海量社交媒體信息經(jīng)由用戶發(fā)布、自由評論和轉發(fā)等操作產(chǎn)生聯(lián)系。比如,當用戶發(fā)布微博時,可以同時發(fā)布帶有地理位置的信息,而通過與社交網(wǎng)絡聚合而成的地理社會網(wǎng)絡,就成為其在真實空間范圍上社會關系的反映。
信息可視化利用計算機交互式地顯示抽象數(shù)據(jù),從而使人們增強對抽象信息的認知[1-2],這是一個將數(shù)據(jù)信息轉化為視覺形式的過程,認知心理學和圖形設計是信息可視化的兩大基礎。GSN大數(shù)據(jù)可視化就是在多維度個性化信息挖掘推薦(認知心理學)的基礎上,借助地圖(圖形設計)這種獨特的、更具藝術性的表達方法直觀展示,使人們能夠充分利用視覺和感知能力去觀察、處理接收到的社交信息。
海量具有時空屬性的社會網(wǎng)絡可視化分析,主要基于社交網(wǎng)絡、地理信息服務、計算機圖形學、統(tǒng)計學等多個學科,通過人機交互界面、探索式數(shù)據(jù)分析等方法輔助完成數(shù)據(jù)的分析和推理。對個人而言,用戶希望系統(tǒng)自動基于位置簽到提供附近可能感興趣的人和地點等信息;對企業(yè)而言,則希望從用戶的位置簽到和行動軌跡挖掘出與其行為習慣和愛好等相關的信息,從而為廠家制定商業(yè)決策、開展商業(yè)活動提供有效參考;對政府而言,通過地理位置信息整合與監(jiān)控主題相關的信息,為實現(xiàn)空間網(wǎng)絡輿情監(jiān)測預告和新聞專題追蹤提供有力支撐。因此,地理社會網(wǎng)絡數(shù)據(jù)可視化分析需要從可視化的方法和結果兩個維度進行深入研究。
國內(nèi)外對地理社會網(wǎng)絡數(shù)據(jù)可視化分析的研究起步較晚,主要依賴于大數(shù)據(jù)分析技術、信息可視化技術、社會網(wǎng)絡與計算、地理信息系統(tǒng)等技術的綜合研究與探索。本節(jié)主要針對地理社會網(wǎng)絡數(shù)據(jù)可視化分析所涉及的三大方面:地理社會網(wǎng)絡、信息可視化和地理社會網(wǎng)絡數(shù)據(jù)可視化,進行全面綜述。
地理社會網(wǎng)絡通過將地理位置信息融合進傳統(tǒng)社會網(wǎng)絡,將人們的現(xiàn)實生活與虛擬世界連接在了一起。基于位置的社會網(wǎng)絡(Location Based Social Network,LBSN)可以幫助用戶,發(fā)現(xiàn)當前所在位置附近感興趣的人和地點,也可以分享自己所感興趣的位置點(Point of Interest,POI)信息。目前典型的LBSN系統(tǒng)應用有Foursquare、Brightkite和Geolife等。
地理社會網(wǎng)絡的發(fā)展比較晚[3],最早始于2009年美國計算機協(xié)會(Association for Computing Machinery,ACM)舉辦的GSN領域的國際會議。會議主要探討了地理社會網(wǎng)絡分析過程中暴露出的位置隱私保護、移動行為挖掘、位置預測、基于地理位置的用戶行為建模、基于地理位置的個性化興趣與好友推薦等問題。2012年,國際Web信息系統(tǒng)會議組織了GSN數(shù)據(jù)挖掘競賽,其中以包含微博內(nèi)容數(shù)據(jù)、用戶關系數(shù)據(jù)的新浪微博數(shù)據(jù)集為數(shù)據(jù)源,進行了海量數(shù)據(jù)查詢性能分析和預測。同年,知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)組織也舉行了GSN學術競賽,與Web信息系統(tǒng)會議競賽相似,同樣采用了帶有地理位置的微博數(shù)據(jù)作為研究數(shù)據(jù)集,但側重用戶間的關注與被關注情況的研究。值得一提的是,2012年Nokia在舉辦了移動數(shù)據(jù)挖掘競賽的基礎上,開展了首屆地理信息開發(fā)者大會,主要內(nèi)容是研究地理社會網(wǎng)絡中的位置服務的發(fā)展及展望。之后,國內(nèi)外的研究者將用戶行為分析、推薦和預測、地理位置檢索和存儲、信息可視化等方面作為地理社會網(wǎng)絡的研究熱點。
對于計算機而言,計算能力和存儲能力的不斷提升為適應大數(shù)據(jù)時代日益增長的海量數(shù)據(jù)的處理提供了可能。通過互聯(lián)網(wǎng),對海量數(shù)據(jù)進行分析、統(tǒng)計和歸納,并從中提取有用的信息,發(fā)現(xiàn)隱藏的規(guī)律,已成為網(wǎng)絡數(shù)據(jù)科學家研究的重點。信息可視化基于圖像表達,人們通過視覺能比其他感官組合獲得更多的信息[4],這也使得可視化成為當今最流行的理解海量數(shù)據(jù)的方法。
1.2.1 圖表信息可視化
圖表形式的信息可視化最早出現(xiàn)于18世紀,數(shù)學家Lambert與歷史和政治學家Playfair首次創(chuàng)建了可視化圖表。19世紀的法國科學家Minard和Marey首次采用非純手工方式繪制了圖表[5],他們將復雜的數(shù)據(jù)轉化成直觀的圖表,從而幫助人們了解數(shù)據(jù)。進入20世紀,伴隨著計算機技術的進步,信息可視化技術進一步拓展。現(xiàn)代信息可視化起源于20世紀80年代的科學計算可視化[6],最早出現(xiàn)在G Robertson等[7]于1989年發(fā)表的Thecognitivecoprocessorarchitectureforinteractiveuserinterfaces一文中。按照Shneiderman[8-9]對信息可視化數(shù)據(jù)的分類,不同維度的數(shù)據(jù)其可視化方法不同,具體分類如表1所示。
1.2.2 地理信息可視化
作為最重要的可視化手段,地理信息可視化是空間信息可視化所必不可少的。地理信息可視化[10]主要包含地圖可視化和地理信息系統(tǒng)(Geographic Information System,GIS)可視化兩種類型。
地圖[11],即以符號描繪空間元素,采用制圖學理論在平面上表達地球表征。地圖可視化[12-13],即將地理數(shù)據(jù)轉換成可視的圖形,來表達地學現(xiàn)象與規(guī)律;GIS可視化[14]則側重于地學數(shù)據(jù)模型與結構設計,多維數(shù)據(jù)顯示,人文、經(jīng)濟空間區(qū)域數(shù)據(jù)可視化等,其可視化分析結果也以地圖形式表示??臻g區(qū)域數(shù)據(jù)包含了點數(shù)據(jù)和線數(shù)據(jù),地理空間中的一個區(qū)域表現(xiàn)的屬性,例如,人口密度、人均收入等,多采用顏色表示屬性的值。如圖1國家地理信息公共服務平臺“天地圖”所示,借助GIS可視化方式展示了2014年中國城鎮(zhèn)居民人均總收入情況,顏色由淺至深反映了人均總收入由少到多的變化。
表1 信息可視化
圖1 中國城鎮(zhèn)居民人均總收入情況
地理社會網(wǎng)絡產(chǎn)生海量時空數(shù)據(jù),其可視化表達與分析是信息可視化的重要研究內(nèi)容之一。時空數(shù)據(jù)可視化能夠形象、直觀地揭示社會網(wǎng)絡中人與人,人與位置之間的關聯(lián)、軌跡、社區(qū)等各種關系信息,成為分析地理社會網(wǎng)絡最重要的方法之一。自20世紀80年代信息可視化被應用于社會網(wǎng)絡分析[15]以來,通過集成信息可視化技術和統(tǒng)計學相關方法,已經(jīng)形成各種類型多維度的海量數(shù)據(jù)可視化分析算法。
多維度時空信息可視化,是綜合運用計算機圖形學、機器視覺、統(tǒng)計學和數(shù)據(jù)挖掘等技術,將采集到的數(shù)據(jù)直接映射為圖形、圖像、三維地圖、視頻和動畫等,多媒體綜合表達和分析的新方法。其核心是海量時空數(shù)據(jù)可視化布局算法,即如何在可視化空間對海量時空數(shù)據(jù)進行分布顯示。目前,布局算法[16-17]主要集中在:基于屬性的節(jié)點連接圖表示的布局算法,比如樹形布局、彈性布局和層次布局等;基于鄰接矩陣圖表示的布局算法。其中,彈性布局又稱為力導引布局算法[18],該算法廣泛應用于復雜網(wǎng)狀布局和樹狀數(shù)據(jù)的可視化,由Eades P于20世紀90年代初期率先提出。國外對于力導引布局算法的研究由來已久,從最初Eades、KK、FR等基本模型開始到2003年左右,重點對KK模型進行了改進,提出了基于多維尺度分析的布局算法[19]。2003年以后,多層迭代繪制、非歐空間圖繪制、受約束圖繪制等不同研究方向不斷興起,并持續(xù)至今。由于可視化粒度越細,提供的信息就越多越完整。研究者一般通過優(yōu)化布局算法來進一步減少重疊,利用渲染和融合充分表現(xiàn)每個數(shù)據(jù)對象的方法,比如熱力圖(Heat Map)、實際渲染等。國內(nèi)研究者全武、吳鵬、萬懷宇等人[20-22]則在此類算法基礎上,克服結構分析顯示方面的缺陷,創(chuàng)造性地提出了Marching-Graph布局收斂、子群分析布局SAL(subgroup analysis layout)等改進算法。如圖2所示,全國水雨情信息平臺則以熱力圖形式展示了當日全國氣象干旱信息,顏色由深到淺反映了干旱程度由重到輕。
圖2 2017年08月13日全國降水距平指數(shù)圖圖片來源:http://xxfb.hydroinfo.gov.cn/gjIndex.html
在本節(jié)中,我們針對地理社會網(wǎng)絡數(shù)據(jù)可視化分析方法進行綜述。主要從LBSN時空數(shù)據(jù)抽取方法和LBSN時空數(shù)據(jù)與地圖聚合方法兩大步驟進行研究和全面總結。
LBSN是一種基于用戶地理位置的共享和追蹤;以智能通信網(wǎng)絡為媒介,以智能手持終端為主要載體的新型社會網(wǎng)絡。LBSN時空數(shù)據(jù)的抽取必須借助于移動互聯(lián)網(wǎng)和興趣點(POI)信息,支持用戶實時地記錄并自由、方便、快捷地分享地理位置等信息服務。LBSN中各要素之間的對應關系如圖3所示。POI點數(shù)據(jù)對應真實社會的地理位置信息,用戶基于社交網(wǎng)絡媒體和應用完成POI點的簽到,從而建立起LBSN時空數(shù)據(jù)抽取模型。
圖3 LBSN各要素對應關系
LBSN時空數(shù)據(jù)抽取自用戶個人行為和習慣,因此具有高度的隨機性。通過對這些不確定軌跡進行可視化分析,可以定量估算社群的社會活動特征,發(fā)掘其行為在不同時空粒度下的統(tǒng)計規(guī)律,能夠更深層次地認知智慧城市中社群的社交行為、生活軌跡和環(huán)境變化等。
LBSN時空數(shù)據(jù)與地圖聚合是地理社會網(wǎng)絡數(shù)據(jù)可視化的重要步驟。抽取后的時空數(shù)據(jù)具有地理位置信息,可以在地圖中以坐標形式進行標記,從而完成LBSN時空數(shù)據(jù)與地圖的聚合。同時,海量時空數(shù)據(jù)本身所攜帶的社會、人文、經(jīng)濟等其他信息也與地圖實現(xiàn)深度聚合。為了解決海量時空數(shù)據(jù)可視化的覆蓋密集顯示,以及加載和顯示性能過慢的問題,需要合理地選擇和布局地圖上的可視化元素,呈現(xiàn)盡可能多的信息才是關鍵。以微博為例,大量使用移動終端的用戶上傳了地理位置信息。由于用戶可以互相關注,也可以轉發(fā)其他用戶的微博,因此,這些用戶之間的互動構成了LBSN。通過可視化方法將這些位置信息與微博文本內(nèi)容結合并分析,可以直觀理解社交傳播和社會輿情的地域特征。
MIT的Senseable城市實驗室[23]是目前比較著名的關注數(shù)據(jù)可視化的研究所,旨在探討和預測數(shù)字技術如何改變?nèi)藗兊纳罘绞郊捌鋵Τ鞘幸?guī)模的影響。位于紐約的infographics工作室[24]則是專門研究數(shù)據(jù)可視化的著名工作室之一。國內(nèi)研究者陳為、朱標[25]等人基于貝葉斯網(wǎng)絡,針對地理空間數(shù)據(jù)提出了連續(xù)變量離散化的可視化交互算法,實現(xiàn)了包括地理分類、因果關系分析和異常檢測等多任務可視化視圖分析。北京大學可視化與可視化分析實驗室袁曉如團隊[26]針對待遇地理標簽的社交媒體數(shù)據(jù),以新浪微博為原型,開發(fā)了Weibo Footprint可視化分析工具;借助該系統(tǒng)工具可以點擊進行時空過濾、使用時間刷進行空間縮放,探索自己旅行的足跡、常去的地方,還可以跟好友一起探索每個人的行為軌跡。
海量時空數(shù)據(jù)的可視化往往要揭示空間與時間之間的關聯(lián),因此通常采用順序動畫來展示。由于LBSN時空數(shù)據(jù)在可視化中的布局按照其地理位置固定,因此,順序動畫中每幀之間的變化僅僅是其中隨時間變化的信息。如圖4所示,圖4(a)和圖4(b)對比了不同時刻,國貿(mào)CBD地區(qū)的通勤人流量,高亮連線以順序動畫的形式顯示了從四面八方匯聚的人流,從時序性角度對海量時空軌跡進行了描繪。
圖4 中國北京市國貿(mào)CBD地區(qū)上午6時通勤人流量圖片來源:http://renqi.map.baidu.com/traffic/
圖4 中國北京市國貿(mào)CBD地區(qū)上午8時通勤人流量圖片來源:http://renqi.map.baidu.com/traffic/
本節(jié)中,我們針對地理社會網(wǎng)絡數(shù)據(jù)可視化分析結果進行綜述。主要以地理社會網(wǎng)絡信息傳播可視化,和與地圖聚合后的細粒度可視化兩個角度進行研究和總結。
地理社會網(wǎng)絡可視化分析基于可視化表達效果和可視化分析方法本身,而LBSN時空信息可視化過程本身,能夠增強數(shù)據(jù)識別效率,傳遞有效信息,強化認知理解,最終形成對海量時空數(shù)據(jù)的二次分析。時空信息可視化分析即從時序性和空間特性角度對LBSN數(shù)據(jù)進行多維度可視化表達與分析,能夠將地理社會關系網(wǎng)絡描繪成由點、線組成的圖,直觀地分析其復雜網(wǎng)絡信息傳播;還可以在地圖聚合的基礎上,通過分析圖中的節(jié)點大小、分布位置和點線密度等,實現(xiàn)社會群體的行為監(jiān)測和輿情預測。高影響力關鍵用戶節(jié)點的存在和轉發(fā)是引發(fā)GSN信息持續(xù)性傳播和擴散的關鍵因素,對輿情和社會群體行為的走勢有著決定性作用。以新浪微博為例[27],其話題傳播具有一定的模式和特點,但不同話題的微博傳播又具有較大的差異性和地域性特點。因此,海量時空信息傳播的可視化必須基于時間和空間屬性特征來區(qū)別其與傳統(tǒng)社會網(wǎng)絡的差異性。鐘杰[28]等通過研究話題的微博信息傳播拓撲結構,為地理社會網(wǎng)絡微博輿情可視化分析提供了基礎。徐顧偉[29]等則基于移動社會網(wǎng)絡的用戶位置數(shù)據(jù),生成用戶活動熱度分布圖,并以顏色深淺反映一段時間內(nèi)空間各處的人口密度高低,從而直接反映室內(nèi)空間資源的利用情況。關迎暉[30]等從布局算法、數(shù)據(jù)處理、用戶交互與分析等方面,對Gephi、Cytoscape、Protovis等各種商業(yè)和開源可視化分析軟件、工具及開發(fā)庫進行了具體的對比分析,并形成了基于Gephi對大型、復雜的數(shù)據(jù)進行可視化處理的分析方案。姜磊[31]等針對網(wǎng)絡傳播復雜化、高風險化的熱點、突發(fā)事件頻發(fā)的特征,提出了一種網(wǎng)絡輿情可視化建模的新方法。周芳如[32]等基于地圖法和社會網(wǎng)絡分析法,實現(xiàn)對旅游信息在微博用戶之間傳播所形成的時空特征、網(wǎng)絡結構形態(tài)等完整分析。柴玥[33]等人則統(tǒng)計分析《中國國家地理》新浪微博四年間的6 882條微博狀態(tài)的內(nèi)容及相關信息,使用PKUVIS軟件對其傳播個案進行了充分的可視化分析。
地理信息的可視化展示主要基于空間點數(shù)據(jù)、空間線數(shù)據(jù)、空間區(qū)域數(shù)據(jù)以及時空數(shù)據(jù)順序動畫等可視方式??臻g數(shù)據(jù)是基于位置信息的時變數(shù)據(jù),社會網(wǎng)絡數(shù)據(jù)是基于社會網(wǎng)絡的非時空文本數(shù)據(jù)。兩者結合起來,充分運用可視化粒度更細、提供的信息更完整的力布局算法來減少重疊,充分利用渲染和融合來盡可能豐富、直觀地表現(xiàn)每個數(shù)據(jù)對象的屬性??傮w來說,采用與地圖聚合的細粒度海量時空數(shù)據(jù)可視化表達地理社會網(wǎng)絡具有以下幾個方面優(yōu)勢:
(1) 地理社會網(wǎng)絡可視化表現(xiàn)形式更加多樣,表達效果更加美觀,包含數(shù)據(jù)信息更加豐富;
(2) 可以從宏觀上了解地理社會網(wǎng)絡的傳播機制和地域性規(guī)律,從而挖掘更多的社會價值;
(3) 實時更新和顯示地理社會網(wǎng)絡時空數(shù)據(jù),其動態(tài)更新過程可以不斷獲取最新的海量時空數(shù)據(jù),從而使信息表達更及時、更鮮活、更準確。
地理社會網(wǎng)絡雖然產(chǎn)生較晚,但依靠移動互聯(lián)網(wǎng)的普及,應運而生的LBSN發(fā)展迅猛,包括LBS的廣泛應用,社會計算與大數(shù)據(jù)、人工智能和機器學習等新技術的不斷進步,很大程度上促進了GSN的快速發(fā)展。研究者們普遍采用形式新穎、直觀的信息可視化方式進行表達與分析,從GSN積累的海量時空數(shù)據(jù)中提取出了有用、可靠、可知識化的綜合信息。GSN使得虛擬空間和物理世界、人類社會與地理空間完美銜接,海量時空數(shù)據(jù)可視化分析[34]成為了解GSN傳播機制和地域性規(guī)律的重要手段。
信息可視化分析與表達作為一種直觀、便捷的方式具有很強的視覺沖擊力和高用戶體驗度。目前,諸如Gephi、D3.js、Protvis等可視化開發(fā)組件也越來越多,針對地理社會網(wǎng)絡可視化的未來研究方興未艾: ①LBSN獲取的海量時空數(shù)據(jù)較精細,但也充滿著噪聲,存在數(shù)據(jù)缺失問題,如何借助可視化手段更加高效地提取時空行為特征與活動模式,是亟待解決的難題之一;②用戶愈加強烈的個性化、社會化需求,使得商務智能(BI)應用,政府輿情監(jiān)測等對用戶行為相似性分析要求更高,可以通過地理社會網(wǎng)絡可視化手段挖掘其行為軌跡,進行用戶畫像;③地理社會網(wǎng)絡可視化分析必然涉及用戶隱私,海量時空數(shù)據(jù)可視化分析的同時應注重用戶個人隱私信息安全和保護;④探索包括地圖聚合方式在內(nèi)的多維時空數(shù)據(jù)協(xié)同可視化分析手段,針對多維時空數(shù)據(jù)的稀疏采樣、復雜層次以及時空關聯(lián)深入探討和研究;⑤進一步增加面向用戶、空間和時間“三位一體”的可視化分析,采用更為多樣化、人性化的可視化展示方式等方面逐漸成為國內(nèi)外研究者未來的重點研究方向。
移動互聯(lián)網(wǎng)與地理社會網(wǎng)絡的深度融合,催生了GSN和LBS產(chǎn)業(yè),如何從行業(yè)積累的海量時空數(shù)據(jù)中提取出有用、可靠、可知識化的綜合信息,并通過信息可視化方式表達與分析,成為本文研究和綜述的核心內(nèi)容。本文通過對LBSN時空數(shù)據(jù)抽取、與地圖聚合可視化、可視化分析等方面進行研究綜述,以期為今后開展地理社會網(wǎng)絡時空數(shù)據(jù)的可視化、分析和交互等研究提供有價值的參考。