亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于手機(jī)大數(shù)據(jù)的城市人口流動(dòng)分析系統(tǒng)

        2015-12-02 02:30:04章志剛金澈清
        關(guān)鍵詞:居住地區(qū)縣基站

        包 婷,章志剛,金澈清

        (華東師范大學(xué) 數(shù)據(jù)科學(xué)與工程研究院 上海市高可信計(jì)算重點(diǎn)實(shí)驗(yàn)室,上海 200062)

        0 引 言

        信息技術(shù)的高速發(fā)展加速了城市化進(jìn)程.在此過(guò)程中,城市人口的劇增也加大了城市管理難度,例如交通壓力、就業(yè)壓力等.由于地區(qū)間經(jīng)濟(jì)發(fā)展不均衡,城市內(nèi)部各區(qū)域的功能分工各有不同,導(dǎo)致城市內(nèi)部人口會(huì)大量流動(dòng).受限于地理和社交等因素,人們的行為往往呈現(xiàn)出規(guī)律性[1-3],就是人們?cè)诠ぷ鞯睾途幼〉氐闹芷谛晕恢米冞w[4].通過(guò)分析人口流動(dòng)行為以及居民工作地和居住地等信息,有助于優(yōu)化社會(huì)資源分配,應(yīng)對(duì)交通壓力、維護(hù)社會(huì)公共治安.

        長(zhǎng)期以來(lái),人口流動(dòng)行為研究往往采用如現(xiàn)場(chǎng)觀察調(diào)查、問(wèn)卷調(diào)查、座談訪談等人工手段,成本高昂且效率不高.隨著智能手機(jī)的不斷發(fā)展與普及,海量的手機(jī)軌跡數(shù)據(jù)為研究城市人口流動(dòng)行為提供了一種新方法.在各大城市中,各個(gè)移動(dòng)通訊運(yùn)營(yíng)商均布置了多個(gè)基站.當(dāng)用戶接聽(tīng)/撥打電話、收發(fā)短信或者使用數(shù)據(jù)通訊服務(wù)時(shí),就會(huì)生成基站連接記錄,產(chǎn)生海量的手機(jī)數(shù)據(jù).手機(jī)軌跡數(shù)據(jù)不僅數(shù)量龐大,而且質(zhì)量低下.基站類(lèi)型多樣,包括微站、宏站、直放站和射頻拉遠(yuǎn)站,覆蓋范圍從幾百米到幾千米不等.而定位精度很大程度上依賴于基站的分布密度及其覆蓋范圍的大小,在不同區(qū)域,基站的分布密度差異顯著.例如市中心區(qū)域的基站密度遠(yuǎn)高于郊區(qū)的基站密度.此外,基站跳變也會(huì)極大地影響手機(jī)軌跡數(shù)據(jù)的質(zhì)量;換言之,如果用戶所處位置恰巧處于多個(gè)基站的服務(wù)范圍之內(nèi),當(dāng)用戶稍微移動(dòng)位置甚至固定在某個(gè)地方時(shí),手機(jī)也會(huì)在多個(gè)基站間切換連接,而我們使用手機(jī)與基站連接日志記錄來(lái)判定用戶的移動(dòng)軌跡,這就導(dǎo)致難以真正判定用戶的真實(shí)位置.

        盡管手機(jī)定位數(shù)據(jù)是離散和稀疏的,但利用手機(jī)數(shù)據(jù)仍然可以對(duì)人們的行為進(jìn)行高精度的預(yù)測(cè)[5].該結(jié)論為利用手機(jī)數(shù)據(jù)研究城市人口流動(dòng)提供了理論前提.現(xiàn)有工作大都是針對(duì)集中式環(huán)境,無(wú)法直接應(yīng)用于海量數(shù)據(jù)環(huán)境.為此,本文提出了一種基于Map/Reduce的分布式框架來(lái)對(duì)城市人口流動(dòng)行為進(jìn)行研究分析,具有較好的執(zhí)行效率和可擴(kuò)展性.本文利用運(yùn)營(yíng)商提供的海量手機(jī)軌跡數(shù)據(jù),對(duì)手機(jī)用戶在城市的流動(dòng)行為進(jìn)行分析和挖掘,同時(shí)對(duì)數(shù)據(jù)進(jìn)行了模糊化處理以滿足用戶的隱私保護(hù)需求,并建立了多個(gè)模型,包括進(jìn)出城市的人口流動(dòng)行為分析模型、市內(nèi)各區(qū)縣間的人口流動(dòng)行為分析模型,特別地,對(duì)區(qū)縣間流動(dòng)行為建立了居民工作地居住地流動(dòng)行為分析模型.這些模型為更好地了解用戶特征,分析城市人口流動(dòng)提供了可能.

        1 相關(guān)工作

        近年來(lái),已有不少工作針對(duì)手機(jī)軌跡數(shù)據(jù)研究用戶的行為模式.文獻(xiàn)[7]將OD(Origin-Destination,起止)矩陣作為輸入,從手機(jī)軌跡數(shù)據(jù)中提取用戶起止點(diǎn)信息.文獻(xiàn)[8]將移動(dòng)手機(jī)流量關(guān)聯(lián)到交通流量,設(shè)計(jì)GSM(Global System for Mobile Communication)網(wǎng)絡(luò)模擬器來(lái)模擬從電話網(wǎng)絡(luò)中提取出的網(wǎng)絡(luò)數(shù)據(jù),將數(shù)據(jù)處理后轉(zhuǎn)化成OD矩陣,從而判定出移動(dòng)行為的起始地點(diǎn).文獻(xiàn)[9]將基站的連接記錄與交通流量相結(jié)合,建立OD矩陣,從而進(jìn)一步分析用戶軌跡.文獻(xiàn)[10]從手機(jī)數(shù)據(jù)中提取用戶每天位置軌跡并轉(zhuǎn)化為活動(dòng)序列,將序列進(jìn)行分類(lèi)得到用戶活動(dòng)的轉(zhuǎn)移模式.文獻(xiàn)[11]利用近百萬(wàn)條手機(jī)數(shù)據(jù)提取用戶行為模式并分析不同用戶工作地間的相關(guān)性.文獻(xiàn)[12]利用聚類(lèi)、回歸的方法分析匿名化的手機(jī)數(shù)據(jù),根據(jù)用戶稀疏的位置信息發(fā)現(xiàn)有意義的重要位置如工作地、居住地.海量的手機(jī)數(shù)據(jù)為分析人們行為提供了可能,文獻(xiàn)[13]利用手機(jī)軌跡數(shù)據(jù)挖掘用戶異常聚集活動(dòng),如異常的社會(huì)活動(dòng)的發(fā)現(xiàn).文獻(xiàn)[14]將手機(jī)數(shù)據(jù)與推薦系統(tǒng)相結(jié)合,挖掘用戶行為模式并向用戶推薦感興趣的社會(huì)活動(dòng).

        文獻(xiàn)[15]利用實(shí)時(shí)采集的移動(dòng)手機(jī)數(shù)據(jù)分析城市交通狀況、預(yù)測(cè)行人活動(dòng)序列.社會(huì)經(jīng)濟(jì)水平可以反映出人們住房、教育、健康以及其他基礎(chǔ)服務(wù)情況,文獻(xiàn)[16]利用手機(jī)數(shù)據(jù)聚類(lèi)分析后的信息來(lái)確定社會(huì)經(jīng)濟(jì)水平,并利用SVM和隨機(jī)森林模型來(lái)預(yù)測(cè)社會(huì)經(jīng)濟(jì)水平.有很多研究利用手機(jī)數(shù)據(jù)對(duì)交通流量進(jìn)行評(píng)估,但這些研究往往忽視了每輛車(chē)可能有多個(gè)手機(jī)的情況,文獻(xiàn)[17]利用聚類(lèi)的方法判定同一輛車(chē)中是否有多臺(tái)手機(jī),從而利用手機(jī)數(shù)據(jù)確定車(chē)速、車(chē)輛密度等,并對(duì)高速公路交通流量作出更精確評(píng)估.

        由于手機(jī)軌跡數(shù)據(jù)數(shù)量龐大且質(zhì)量低下,同時(shí)為了不泄露用戶隱私,移動(dòng)運(yùn)營(yíng)商往往會(huì)將用戶手機(jī)軌跡數(shù)據(jù)進(jìn)行模糊處理,這些給相關(guān)研究帶來(lái)了很大的挑戰(zhàn).本文針對(duì)城市人口流入流出行為展開(kāi)研究,利用手機(jī)軌跡數(shù)據(jù)發(fā)現(xiàn)用戶行為模式,并挖掘用戶工作地、居住地信息,為今后的研究提供了一種新思路.

        2 系統(tǒng)框架結(jié)構(gòu)

        本節(jié)介紹系統(tǒng)的框架結(jié)構(gòu),如圖1所示.

        圖1 系統(tǒng)框架結(jié)構(gòu)Fig.1 System architecture

        構(gòu)建人口流動(dòng)分析平臺(tái)需要使用以下數(shù)據(jù):基站連接日志數(shù)據(jù)、基站信息數(shù)據(jù)、用戶注冊(cè)信息.基站連接日志數(shù)據(jù)描述了用戶每一次手機(jī)連接基站的情況,包括:手機(jī)設(shè)備號(hào)、連接起始時(shí)間、連接基站號(hào)、連接扇區(qū)號(hào)、手機(jī)開(kāi)關(guān)機(jī)狀態(tài)、加載時(shí)間等字段.基站數(shù)據(jù)描述了基站的基礎(chǔ)信息,包括:基站ID、地理位置、GPS坐標(biāo)、所在行政區(qū)等.用戶注冊(cè)信息包括:用戶身份證號(hào)碼、姓名、手機(jī)號(hào)、性別、出生年月等.

        為了保護(hù)用戶隱私和移動(dòng)運(yùn)營(yíng)商的隱私,在發(fā)布使用數(shù)據(jù)時(shí),本文對(duì)這兩部分?jǐn)?shù)據(jù)進(jìn)行了隱私保護(hù).對(duì)于用戶注冊(cè)信息,隱匿了身份證號(hào)碼和姓名,且對(duì)其手機(jī)號(hào)和基站連接日志中的手機(jī)號(hào)使用了一致的加密手段.為了保護(hù)移動(dòng)運(yùn)營(yíng)商的基站信息,對(duì)基站位置在不影響功能分析的基礎(chǔ)上做了位置修正.

        系統(tǒng)架構(gòu)在設(shè)計(jì)上采用分布式、分層結(jié)構(gòu),包括大數(shù)據(jù)管理層、業(yè)務(wù)邏輯層、應(yīng)用支撐層、界面展示層4層結(jié)構(gòu).

        大數(shù)據(jù)管理層使用HBase、Hive、Pig、ZooKeeper來(lái)管理基站連接日志.Hadoop集群上使用MapReduce框架來(lái)執(zhí)行任務(wù),數(shù)據(jù)庫(kù)使用HBase,數(shù)據(jù)倉(cāng)庫(kù)使用Hive,并使用Pig語(yǔ)言來(lái)簡(jiǎn)化Hadoop工作任務(wù),使用Zookeeper進(jìn)行集群內(nèi)的協(xié)作服務(wù).

        業(yè)務(wù)邏輯層利用數(shù)據(jù)管理層對(duì)手機(jī)數(shù)據(jù)分析處理后輸出的數(shù)據(jù),建立分析模型,包括城市間人口流動(dòng)模型、區(qū)縣間人口流動(dòng)模型、居住地分析模型、工作地分析模型.針對(duì)這四個(gè)模型,對(duì)數(shù)據(jù)進(jìn)行分析處理,訓(xùn)練出相應(yīng)的特征,這些特征可用來(lái)表示城市人口在城市間、各區(qū)縣間、居住地/工作地這三個(gè)層次的流動(dòng)情況.

        后臺(tái)開(kāi)發(fā)框架使用集成的Structs.Struts采用Java Servlet/JSP技術(shù),開(kāi)發(fā)Web應(yīng)用程序的開(kāi)放源碼的框架.?dāng)?shù)據(jù)庫(kù)主要用來(lái)存儲(chǔ)后臺(tái)分析好的結(jié)果,本項(xiàng)目采用MySQL數(shù)據(jù)庫(kù),MySQL是開(kāi)源數(shù)據(jù)庫(kù)且體積小、速度快、適用于快速部署.后臺(tái)處理程序使用Java/Python語(yǔ)言編寫(xiě),負(fù)責(zé)處理前端發(fā)過(guò)來(lái)的請(qǐng)求,并從大數(shù)據(jù)平臺(tái)獲取分析結(jié)果,存放到數(shù)據(jù)庫(kù)中.系統(tǒng)通過(guò)創(chuàng)建腳本文件并將文件加入到任務(wù)計(jì)劃中,實(shí)現(xiàn)周期性更新數(shù)據(jù).

        界面展示層用來(lái)與用戶進(jìn)行交互,并展示系統(tǒng)分析結(jié)果.網(wǎng)頁(yè)效果設(shè)計(jì)采用的主要是Flash技術(shù),使用Flash技術(shù)可以創(chuàng)作出可改變尺寸的導(dǎo)航界面以及其他奇特的效果.本項(xiàng)目采用Flash技術(shù)的主要原因是可以自定義開(kāi)發(fā),開(kāi)發(fā)周期短,圖形和動(dòng)畫(huà)效果豐富,并且Flash使用向量運(yùn)算的方式,產(chǎn)生出來(lái)的文件占用存儲(chǔ)空間較?。到y(tǒng)使用JSON+XML技術(shù)來(lái)獲取數(shù)據(jù)庫(kù)中的數(shù)據(jù).

        3 大數(shù)據(jù)管理

        大數(shù)據(jù)管理使用Hadoop這一開(kāi)源平臺(tái)來(lái)實(shí)現(xiàn).如圖2[18]所示,該平臺(tái)集成了HBase、Hive、Pig、Zookeeper等實(shí)用工具,方便了用戶對(duì)數(shù)據(jù)的管理和操作.HBase是Hadoop的數(shù)據(jù)庫(kù),能夠?qū)Υ髷?shù)據(jù)提供隨機(jī)、實(shí)時(shí)的讀寫(xiě)訪問(wèn)功能,是一個(gè)高可靠、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng).HBase存儲(chǔ)的數(shù)據(jù)從邏輯上來(lái)看就像一張很大的表,并且它的數(shù)據(jù)列可以根據(jù)需要?jiǎng)討B(tài)地增加.Hive是一個(gè)基于Hadoop文件系統(tǒng)之上的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu).它為數(shù)據(jù)倉(cāng)庫(kù)的管理提供了許多功能:數(shù)據(jù)ETL(抽取、轉(zhuǎn)換和加載)工具、數(shù)據(jù)存儲(chǔ)管理和大型數(shù)據(jù)集的查詢和分析能力.同時(shí),Hive定義了類(lèi)SQL的語(yǔ)言——Hive QL.Hive QL允許用戶進(jìn)行和SQL相似的操作,還允許開(kāi)發(fā)人員方便地使用map和reduce操作,這對(duì)Map/Reduce框架是一個(gè)強(qiáng)有力的支持.Hive本身建立在Hadoop的體系架構(gòu)上,可將外部命令解析成一個(gè)Map/Reduce可執(zhí)行計(jì)劃.Pig為大型數(shù)據(jù)集的處理提供了更高層次的抽象,它提供了一套強(qiáng)大的數(shù)據(jù)變換操作,這些操作整體上描述了一組數(shù)據(jù)流到另一組數(shù)據(jù)流的轉(zhuǎn)換,而這些轉(zhuǎn)換操作被轉(zhuǎn)換成一系列的Map/Reduce作業(yè),這樣一來(lái)使得程序員僅僅需要編寫(xiě)簡(jiǎn)單的腳本代碼,就能輕松處理TB級(jí)的數(shù)據(jù)集[18].此外,Pig和Hive還為HBase提供了高層語(yǔ)言支持,使得在HBase上進(jìn)行數(shù)據(jù)統(tǒng)計(jì)處理變得非常簡(jiǎn)單.

        圖2 大數(shù)據(jù)管理的技術(shù)框架Fig.2 Technical architecture of data management

        為方便各種分析任務(wù)對(duì)用戶信息和基站信息的實(shí)時(shí)查詢,本系統(tǒng)將用戶的注冊(cè)信息和和基站的信息存放在HBase中.同時(shí),將用戶連接基站數(shù)據(jù)存放在HDFS上,并導(dǎo)入到Hive所構(gòu)建的數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行管理.為了滿足各種任務(wù)分析需求,本系統(tǒng)提供了3種數(shù)據(jù)操作方式:首先,對(duì)于簡(jiǎn)單的數(shù)據(jù)查詢使用Hive QL命令來(lái)進(jìn)行操作.比如查詢指定用戶某天連接過(guò)哪些基站,使用Hive QL編寫(xiě)一句查詢語(yǔ)句就能完成任務(wù);其次,對(duì)于批處理任務(wù),本系統(tǒng)通過(guò)Pig腳本程序?qū)崿F(xiàn).比如,由于用戶連接基站數(shù)據(jù)每天會(huì)批量更新,如果想知道用戶每天都出現(xiàn)在哪些區(qū)縣.在實(shí)現(xiàn)該任務(wù)時(shí)涉及到兩個(gè)數(shù)據(jù)的連接操作,這時(shí)使用Pig腳本程序能夠方便的完成上述分析任務(wù);最后,對(duì)于復(fù)雜分析任務(wù),通過(guò)編寫(xiě)Map/Reduce程序?qū)Υ娣旁贖DFS的數(shù)據(jù)進(jìn)行操作,比如需要從用戶連接基站歷史記錄中分析出用戶的居住地時(shí),Hive QL和Pig程序無(wú)法滿足需求,這時(shí)就需要用戶自己編寫(xiě)Map/Reduce程序完成分析.

        4 模型分析

        本節(jié)介紹本系統(tǒng)所涉及到的各個(gè)分析模型.人口流動(dòng)的分析涉及范圍很廣,包括城市的流入流出分析、城市內(nèi)部各區(qū)縣間人口流動(dòng)分析和用戶居住地/工作地分析.系統(tǒng)分別建立了三個(gè)相應(yīng)的數(shù)據(jù)分析模型.

        4.1 城市流入流出模型分析

        本文提出了一種利用手機(jī)軌跡數(shù)據(jù)監(jiān)測(cè)人口流動(dòng)的方法,處理框架如圖3所示.首先對(duì)基站連接數(shù)據(jù)進(jìn)行預(yù)處理,以降低手機(jī)基站數(shù)據(jù)低質(zhì)問(wèn)題的影響,然后分析進(jìn)出城市的行為模式,利用分析分類(lèi)模型判定用戶軌跡是否進(jìn)出城市.

        (1)數(shù)據(jù)預(yù)處理

        該過(guò)程是為了減小基站定位不準(zhǔn)以及信號(hào)跳變?cè)斐傻挠绊?,本系統(tǒng)分析手機(jī)基站數(shù)據(jù)特點(diǎn),挖掘出用戶的重要停留區(qū)域,由此降低用戶在該區(qū)域范圍內(nèi)的信號(hào)定位不準(zhǔn)以及信號(hào)頻繁跳變問(wèn)題的影響.將這些停留區(qū)域按時(shí)序串聯(lián)以構(gòu)成用戶的活動(dòng)軌跡.?dāng)?shù)據(jù)預(yù)處理部分包括三步:①去除異常點(diǎn)與建立移動(dòng)軌跡;②挖掘用戶活動(dòng)軌跡;③建立樞紐區(qū)域和邊境區(qū)域.

        圖3 進(jìn)出城市人口流動(dòng)處理框架Fig.3 Processing framework of population flow among cities

        (2)進(jìn)出城市流動(dòng)分析

        用戶行為軌跡復(fù)雜,本文通過(guò)分析用戶進(jìn)出城市的軌跡行為特點(diǎn),與非進(jìn)入非離開(kāi)城市行為進(jìn)行對(duì)照,挖掘軌跡特征.具體特征如下:

        1)信號(hào)消失時(shí)長(zhǎng) 相鄰兩停留點(diǎn)之間的時(shí)間間隔.

        2)樞紐區(qū)域出現(xiàn)概率 用戶進(jìn)入或離開(kāi)城市時(shí),在某交通樞紐處(如火車(chē)站、機(jī)場(chǎng)等)出現(xiàn)的可能性.

        3)樞紐區(qū)域停留指數(shù) 用戶在某樞紐區(qū)的停留程度.

        4)是否在邊境區(qū)域出現(xiàn) 用戶的手機(jī)信號(hào)消失或出現(xiàn)時(shí),是否與城市邊境處的基站進(jìn)行連接交互.

        5)與居住地和工作地的平均距離 手機(jī)信號(hào)消失或出現(xiàn)時(shí),用戶與其居住地和工作地之間的平均距離.

        用戶進(jìn)出城市的行為必定發(fā)生在某一信號(hào)消失時(shí)段的前后,因此本文針對(duì)信號(hào)消失時(shí)段的前后,分別得到用戶的離開(kāi)行為特征向量和進(jìn)入行為特征向量,然后利用標(biāo)注數(shù)據(jù)訓(xùn)練分類(lèi)模型(如決策樹(shù)、邏輯回歸等),之后運(yùn)用分類(lèi)模型的訓(xùn)練結(jié)果進(jìn)行軌跡行為判定,最終判定用戶在某時(shí)刻是否進(jìn)入或離開(kāi)了城市[19].

        4.2 城市各區(qū)縣間人口流動(dòng)模型分析

        區(qū)縣間人口分析框架如圖4所示.首先同樣需要進(jìn)行數(shù)據(jù)預(yù)處理,處理方法與城市間人口流動(dòng)數(shù)據(jù)預(yù)處理方式一致,然后通過(guò)分析各區(qū)縣間人口流動(dòng)判定用戶在區(qū)縣間流動(dòng)情況.

        針對(duì)某一用戶的行為軌跡,數(shù)據(jù)預(yù)處理階段可得到該用戶的多個(gè)重要停留區(qū),用戶在這些區(qū)域中有較大的可能性進(jìn)行活動(dòng),停留的時(shí)間較長(zhǎng).本文將這些重要的停留區(qū)域用圓表示,這些圓的圓心所在的區(qū)縣即為用戶的停留區(qū)縣,將處于同一區(qū)縣并且時(shí)間上相隔小于一定閾值的停留區(qū)域進(jìn)行狀態(tài)合并,即可得到該用戶的區(qū)縣停留狀態(tài),該狀態(tài)信息中包括區(qū)縣ID和停留的起止時(shí)間.

        由于用戶去往目的區(qū)縣的過(guò)程中可能會(huì)經(jīng)過(guò)某些“經(jīng)過(guò)區(qū)”,例如某用戶從普陀出發(fā),去往閔行上班,途中經(jīng)過(guò)長(zhǎng)寧區(qū)和徐匯區(qū),這兩個(gè)區(qū)即為“經(jīng)過(guò)區(qū)”.在分析用戶在區(qū)縣間流入流出行為時(shí),需過(guò)濾“經(jīng)過(guò)區(qū)”,以挖掘用戶行走路線的真正意圖.上述過(guò)程所得的停留區(qū)縣即為用戶真正的活動(dòng)區(qū)縣,“經(jīng)過(guò)區(qū)”不構(gòu)成停留區(qū)縣狀態(tài),因此時(shí)間上相鄰的兩個(gè)停留區(qū)縣間的狀態(tài)轉(zhuǎn)移伴隨著用戶的一次離開(kāi)區(qū)縣和進(jìn)入另一區(qū)縣的行為.最后通過(guò)匯總?cè)w數(shù)據(jù)集中用戶所有停留區(qū)縣間的狀態(tài)轉(zhuǎn)移情況,即可得到在各個(gè)時(shí)間段內(nèi)的不同區(qū)縣間的人口流動(dòng)情況[19].

        圖4 區(qū)縣間人口流動(dòng)處理框架Fig.4 Processing framework of population flow among districts

        4.3 居民工作地、居住地模型分析

        為了發(fā)現(xiàn)用戶工作地居住地信息,本文提出了一個(gè)基于Map/Reduce的框架,該處理框架主要包含4個(gè)步驟:①過(guò)濾各個(gè)用戶的軌跡記錄;②找出包含工作地、居住地的候選區(qū)域;③調(diào)用傳統(tǒng)聚類(lèi)算法對(duì)候選區(qū)域進(jìn)行聚類(lèi)操作;④從聚類(lèi)結(jié)果中發(fā)現(xiàn)工作地、居住地信息.同時(shí),本文在該框架中分別嵌入了兩種不同的發(fā)現(xiàn)策略,即:GPMA和SPMA.這個(gè)分布式挖掘框架主要思路是:首先,通過(guò)Map/Reduce編程模型將同一個(gè)用戶在總時(shí)間內(nèi)的連接記錄,合并到同一個(gè)計(jì)算節(jié)點(diǎn).然后,選擇合適的位置范圍化方法,針對(duì)用戶原始連接基站的記錄使用狀態(tài)生成算法生成狀態(tài)序列.接著,根據(jù)停留時(shí)間和停留次數(shù),刪除那些不滿足給定閾值的狀態(tài),從剩下的狀態(tài)所對(duì)應(yīng)的區(qū)域中找出那些可能包含工作地、居住地位置的候選區(qū)域.最后,對(duì)找出的候選區(qū)域繼續(xù)聚類(lèi),從聚類(lèi)結(jié)構(gòu)中分析出用戶的工作地、居住地信息.

        針對(duì)基于網(wǎng)格范圍和基于基站覆蓋范圍的兩種區(qū)域范圍化方法,利用提出的分布式挖掘框架,設(shè)計(jì)了兩種并行挖掘算法:GPMA算法和SPMA算法.GPMA算法首先將整個(gè)區(qū)域進(jìn)行柵格化,然后將用戶連接基站的情況映射為在各個(gè)網(wǎng)格內(nèi)的停留狀態(tài),停留狀態(tài)包含停留的網(wǎng)格號(hào)、起始停留時(shí)間、結(jié)束停留時(shí)間.由于精度和基站跳變的原因,則認(rèn)為該用戶停留在某網(wǎng)格中時(shí),實(shí)際所處位置也有可能是該網(wǎng)格的鄰居網(wǎng)格.SPMA算法利用基站覆蓋范圍來(lái)表示用戶所在區(qū)域范圍,它將用戶連接基站的情況轉(zhuǎn)換為連接各個(gè)基站的序列.GPMA算法思想的想法比較簡(jiǎn)單直觀,但該方法將同一網(wǎng)格中的基站等同看待,這會(huì)加大所得工作地、居住地位置的偏差.而SPMA算法克服了這一問(wèn)題,它將每一個(gè)基站單獨(dú)看待,每一個(gè)基站可以有不同的覆蓋范圍.當(dāng)用戶連接到某基站時(shí),則用戶可以確定用戶在該基站的覆蓋范圍內(nèi),同時(shí)由于基站切換原因,用戶也可能在該基站鄰居的覆蓋范圍內(nèi)[20].

        5 界面展示

        圖5是城市各區(qū)縣間人口流動(dòng)展示界面.為了提高用戶與系統(tǒng)的交互性,用戶可直接點(diǎn)擊地圖上的相應(yīng)區(qū)縣直接選擇,查看其它各區(qū)縣流入到該區(qū)縣或者該區(qū)縣流出到其他區(qū)縣的人口流量.默認(rèn)展示的是當(dāng)天的人口流量.系統(tǒng)后端進(jìn)行數(shù)據(jù)處理后將結(jié)果保存在MySQL數(shù)據(jù)庫(kù)中,并編寫(xiě)腳本文件實(shí)現(xiàn)系統(tǒng)數(shù)據(jù)的周期性更新.前端采用XML+JSON技術(shù)獲取所需數(shù)據(jù),考慮到系統(tǒng)的多模塊性以及用戶所選時(shí)間段的多樣性,采用分模塊加載數(shù)據(jù),提高系統(tǒng)的響應(yīng)速度,提供良好的用戶體驗(yàn).

        圖5 人口流動(dòng)界面對(duì)比圖Fig.5 Contrast figure of interface of population flowing

        圖6是系統(tǒng)的數(shù)據(jù)對(duì)比圖模塊,分別從上海市、各區(qū)縣的角度來(lái)動(dòng)態(tài)展示不同時(shí)期的人口流動(dòng)對(duì)比情況.系統(tǒng)提供了月與月間、周末與工作日間的對(duì)比,多樣化的展示人口流動(dòng)的變化情況.系統(tǒng)設(shè)計(jì)了簡(jiǎn)單查詢與復(fù)合查詢兩種查詢功能.簡(jiǎn)單查詢提供按照時(shí)間的查詢,復(fù)合查詢提供區(qū)縣、時(shí)間的組合查詢.用戶可根據(jù)自身需求采用相應(yīng)查詢方法,獲取所需數(shù)據(jù).

        圖6 數(shù)據(jù)對(duì)比圖Fig.6 Contrast figure of data

        6 總 結(jié)

        本文利用大數(shù)據(jù)平臺(tái)分析用戶的手機(jī)軌跡數(shù)據(jù),挖掘用戶的行為模式,設(shè)計(jì)了基于傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)、Hadoop集群和MySQL數(shù)據(jù)庫(kù)的上海市人口流動(dòng)分析平臺(tái),包括三個(gè)分析模塊,分別是城市間人口流動(dòng)分析模塊、區(qū)縣間人口流動(dòng)分析模塊、工作地/居住地流動(dòng)分析模塊.在分析城市間人口流動(dòng)時(shí),提出了在分布式框架下的基于軌跡行為特征的判定算法;在分析區(qū)縣間人口流動(dòng)時(shí),對(duì)用戶在區(qū)縣間流動(dòng)行為加以分析;對(duì)工作地、居住地進(jìn)行分析時(shí),介紹了兩種挖掘重要位置信息的算法:GPMA和SPMA.本文為有效、準(zhǔn)確分析城市人口行為提供了有力支持.

        [1]GONZALEZ M C,HIDALGO C A,BARABASI A L.Understanding individual human mobility patterns[J].Nature,2008,453(7196):779-782.

        [2]SONG C,QU Z,BLUMM N,et al.Limits of predictability in human mobility[J].Science,2010,327(5968):1018-1021.

        [3]SONG C,KOREN T,WANG P,et al.Modelling the scaling properties of human mobility[J].Nature Physics,2010,6(10):818-823.

        [4]LI Z,DING B,HAN J,et al.Mining periodic behaviors for moving objects[C]//Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2010:1099-1108.

        [5]陳佳,胡波,左小清,等.利用手機(jī)定位數(shù)據(jù)的用戶特征挖掘[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2014,39(6):734-738.

        [6]ASHBROOK D,STARNER T.Using GPS to learn significant locations and predict movement across multiple users[J].Personal and Ubiquitous Computing,2003,7(5):275-286.

        [7]WHITE J,WELLS I.Extracting origin destination information from mobile phone data[C]//11th International Conference on Road Transport Information and Control,2002:30-34.

        [8]CACERES N,WIDEBERG J P,BENITEZ F G.Deriving origin destination data from a mobile phone network[J].Intelligent Transport Systems,IET,2007,1(1):15-26.

        [9]IQBAL M S,CHOUDHURY C F,WANG P,et al.Development of origin-destination matrices using mobile phone call data[J].Transportation Research Part C Emerging Technologies,2014,40(1):63-74.

        [10]LIU F,JANSSENS D,CUI J X,et al.Building a validation measure for activity-based transportation models based on mobile phone data[J].Expert Systems with Applications,2014,41(14):6174-6189.

        [11]PHITHAKKITNUKOON S,HORANONT T,LORENZO G D,et al.Activity-aware map:identifying human daily activity pattern using mobile phone data[C]//Proceedings of the First international conference on Human behavior understanding.Springer-Verlag,2010:14-25.

        [12]ISAACMAN S,BECKER R,CACERES R,et al.Identifying Important Places in People′s Lives from Cellular Network Data[J].Lecture Notes in Computer Science,2011,6696:133-151.

        [13]TRAAG V A,BROWET A,CALABRESE F,et al.Social Event Detection in Massive Mobile Phone Data Using Probabilistic Location Inference[C]//Proceedings of the Third IEEE International Conference on Social Computing,2011:9-11.

        [14]QUERCIA D,LATHIA N,CALABRESE F,et al.Recommending social events from mobile phone location data[C]//Proceedings of the 10th International Conference on Data Mining(ICDM),2010:971-976.

        [15]CALABRESE F,COLONNA M,LOVISOLO P,et al.Real-Time Urban Monitoring Using Cell Phones:A Case Study In Rome[J].IEEE Transactions on Intelligent Transportation Systems,2011,12(1):141-151.

        [16]SOTO V,F(xiàn)RIAS-MARTINEZ V,VIRSEDA J,et al.Prediction of Socioeconomic Levels Using Cell Phone Records[J].Lecture Notes in Computer Science,2011,6787:377-388.

        [17]HONGYAN G,F(xiàn)ASHENG L.Estimating freeway traffic measures from mobile phone location data[J].European Journal of Operational Research,2013,229(1):252-260.

        [18]陸嘉恒.Hadoop實(shí)戰(zhàn)[M].第2版.北京:機(jī)械工業(yè)出版社,2012:85-329.

        [19]孔揚(yáng)鑫.手機(jī)軌跡數(shù)據(jù)的人口流動(dòng)分析[R].上海:華東師范大學(xué)軟件工程學(xué)院,2015.

        [18]章志剛.面向海量手機(jī)軌跡數(shù)據(jù)的重要位置發(fā)現(xiàn)[R].上海:華東師范大學(xué)軟件工程學(xué)院,2015.

        猜你喜歡
        居住地區(qū)縣基站
        鳥(niǎo)類(lèi)居住地
        Binturong熊貍
        麋鹿&大象
        可惡的“偽基站”
        區(qū)縣電視臺(tái)如何做好重大賽事報(bào)道
        新聞傳播(2016年20期)2016-07-10 09:33:31
        基于GSM基站ID的高速公路路徑識(shí)別系統(tǒng)
        小基站助力“提速降費(fèi)”
        北京:上游水質(zhì)不合格 下游區(qū)縣將收補(bǔ)償金
        基站輻射之爭(zhēng)亟待科學(xué)家發(fā)聲
        山東:符合條件外來(lái)人口可在居住地申請(qǐng)低保
        色狠狠av老熟女| 亚洲一二三四五中文字幕| 最新中文字幕亚洲一区| 天天躁日日躁狠狠躁av麻豆| 久久久久女人精品毛片| 久久国产精品国产精品日韩区 | 91桃色在线播放国产| 美女下蹲露大唇无遮挡| 亚洲中文字幕在线第二页| 狠狠久久久久综合网| 激情综合网缴情五月天| 深夜黄色刺激影片在线免费观看| 18禁裸体动漫美女无遮挡网站| 国内精品人妻无码久久久影院导航| 午夜tv视频免费国产区4| 最新国产主播一区二区| 久久精品av在线观看| 爽爽精品dvd蜜桃成熟时电影院| 日韩爱爱网站| 精品国产97av一区二区三区| 森中文字幕一区二区三区免费| 欧美性猛交xxxx富婆| 国产亚洲欧美在线| 在线视频亚洲一区二区三区| av剧情演绎福利对白| 18禁黄久久久aaa片| 无码精品一区二区免费AV| 亚洲全国最大的人成网站| 又硬又粗进去好爽免费| 狠狠色噜噜狠狠狠888米奇视频| 国产日韩精品一区二区在线观看播放| 亚洲av手机在线一区| 国产成人亚洲精品无码青| 精品人妻系列无码人妻免费视频| 日韩激情网| 日本在线观看一二三区| 亚洲成a人无码| 日本免费一区尤物| 国产精品二区三区在线观看| 无码精品一区二区三区在线| 亚洲老妇色熟女老太|