亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Spark的移動用戶行為軌跡大數(shù)據(jù)分析

        2018-06-20 07:24:10張嘉誠張曉濱
        西安工程大學學報 2018年3期
        關鍵詞:移動用戶軌跡聚類

        張嘉誠,張曉濱

        (西安工程大學 計算機科學學院,陜西 西安 710048)

        0 引 言

        文獻[3]基于實際的移動學習環(huán)境,提出一種根據(jù)傳感器與學習操作行為對學習場景進行感知分類的方法;文獻[4]針對移動用戶行為識別模型中過度擬合的問題,提出一種基于隨機Dropout深度信念網(wǎng)絡的移動用戶行為識別方法;文獻[5]提出了基于多重運動特征的軌跡相似性度量,該度量對分析和理解移動對象的運動行為和規(guī)律具有重要意義;文獻[6]建構了數(shù)據(jù)驅動的移動用戶行為研究框架,系統(tǒng)梳理了移動用戶行為研究的方法.

        隨著智慧城市建設和大數(shù)據(jù)等概念的不斷深入,社會和用戶對移動互聯(lián)的要求越來越高[7].基于軌跡數(shù)據(jù)的行為分析已滲透到各行各業(yè)[8-9].本文將移動互聯(lián)與大數(shù)據(jù)計算框架Spark相結合,對用戶行為軌跡數(shù)據(jù)分析進行服務設計,對用戶軌跡數(shù)據(jù)進行卡方檢驗和聚類分析,得到出行方式的普遍結果及在距離限制下的結果.

        圖 1 移動用戶行為軌跡分析總體架構圖Fig.1 The overall architecture of mobile user behavior trajectory analysis

        1 移動用戶數(shù)據(jù)分析平臺設計

        1.1 架構及功能設計

        移動用戶行為軌跡大數(shù)據(jù)分析系統(tǒng)基于可靠性、可擴展性、安全性、可維護性等原則,支持Hive、MySQL、Hadoop、HBase等平臺的數(shù)據(jù)接入,同時采取分布式的任務調度執(zhí)行,保證任務高效的執(zhí)行.整個分析系統(tǒng)分為移動終端數(shù)據(jù)感知層、Spark數(shù)據(jù)分析層和結果展示層,移動用戶行為軌跡分析總體架構圖如圖1所示.

        (1) 移動終端數(shù)據(jù)感知層利用移動設備、GPS記錄器實時收集用戶軌跡數(shù)據(jù),并將數(shù)據(jù)作為數(shù)據(jù)分析層的輸入.

        (2) Spark數(shù)據(jù)分析層主要是基于Spark分布式計算平臺,利用其自身函數(shù)庫分析數(shù)據(jù)收集層所收集到的數(shù)據(jù).Spark在進行數(shù)據(jù)分析時,SparkContext和SparkExecutor不可缺少,其任務調度和執(zhí)行的框架圖如圖2所示.

        行業(yè)精神是“一個行業(yè)在長期的發(fā)展實踐中逐步提煉和培育形成,并為行業(yè)全體成員所認同的價值取向、理想信念、心理特征和精神風貌的總和”[3]。受互聯(lián)網(wǎng)時代的沖擊,傳統(tǒng)行業(yè)間的界限正在日趨模糊,但各行業(yè)精神卻在隨著時代發(fā)展而不斷充實新的內涵。“雙一流”建設強調高校教師要有較高的思想政治素質和業(yè)務素質,并特別強調要“傳承創(chuàng)新優(yōu)秀文化”。我國行業(yè)特色型大學作為承擔行業(yè)人才培養(yǎng)和供給的高等教育載體,必須承擔“行業(yè)精神”傳承的歷史使命和責任,這也是各行業(yè)特色型大學“特色一流大學精神和大學文化”建設的重要組成部分和內容,因此,行業(yè)特色型大學教師要注重行業(yè)精神的培育與宣傳。

        圖 2 任務調度和執(zhí)行框架圖Fig.2 Frame diagrams of task scheduling and execution

        從圖2可以看出,SparkContext啟動用戶程序,負責與Executor通過資源調度模塊進行通信;Executor通過Worker節(jié)點運行,負責執(zhí)行任務[10].

        (3) 結果展示層主要是對數(shù)據(jù)分析層所分析的用戶軌跡數(shù)據(jù)結果以圖表等形式直觀地展示出來.

        1.2 數(shù)據(jù)采集

        在獲取移動用戶行為軌跡數(shù)據(jù)的過程中,主要通過GPS記錄器、具有GPS功能的手機、手環(huán)和移動APP獲取用戶行為軌跡信息[11-12].全球定位系統(tǒng)主要是通過衛(wèi)星信號記錄坐標數(shù)據(jù),記錄的時間頻率由移動設備決定;移動軌跡數(shù)據(jù)是用戶使用移動終端時產(chǎn)生的坐標信息.所用的移動用戶行為軌跡數(shù)據(jù)來自微軟研究亞洲項目中的數(shù)據(jù),該數(shù)據(jù)集包括182個志愿者自2007.4月到2012.8月出行的經(jīng)度、緯度、海拔高度及出行時間、出行方式等,數(shù)據(jù)集中相關定義:

        (1) GPS軌跡點:t時刻下軌跡點的經(jīng)緯坐標(x,y,t);

        (2) 用戶行為軌跡:連續(xù)的軌跡點構成用戶行為軌跡T={(X1,Y1,Z1)…(Xn,Yn,Zn)}.

        GPS采集的數(shù)據(jù)是用戶移動行為軌跡數(shù)據(jù)的主要來源,客觀反映了其在真實世界中的路線軌跡,以海量軌跡行為數(shù)據(jù)集為基礎,從分析移動行為軌跡數(shù)據(jù)出發(fā),得到移動用戶的普遍行為特點[13-15].

        2 移動行為軌跡數(shù)據(jù)分析

        2.1 出行方式統(tǒng)計

        在對出行方式進行統(tǒng)計分析時,采用Pearson卡方檢驗對移動軌跡數(shù)據(jù)因素間的相關性分析,在對數(shù)據(jù)處理分析前,應獲取判斷相關性的因子,由于在獲取因子時互不干擾,因此,創(chuàng)建兩個彈性分布式存儲(即RDD)對數(shù)據(jù)文件進行處理得到原始數(shù)據(jù)集合,通過調用SparkContext中的sc.textFile()讀取HDFS中的分布式文件,并以數(shù)據(jù)分片的形式存儲在集群中[16],通過.flatMap()函數(shù)對每行的單詞以空格分隔為單詞的列表,然后將這個按照行構成的單詞列表合并為單詞列表集合,將所得單詞列表集合中的每個單詞轉化為Double類型.map(-.toDouble).得到處理好的原始數(shù)據(jù)集合,在原始數(shù)據(jù)集合上采用卡方檢驗對數(shù)據(jù)的處理步驟如下:

        (1) 任意選定兩個獨立因子(如出行人員a,出行方式b),提出原假設值H0;

        (2) 在出行方式數(shù)據(jù)集中各屬性交叉統(tǒng)計,記錄出現(xiàn)頻數(shù)f,行總頻數(shù)R,列總頻數(shù)C;

        圖 3 出行方式統(tǒng)計結果圖Fig.3 Statistical results of travel patterns

        (5) 設定顯著性水平α,當觀察頻數(shù)和期望頻數(shù)偏離程度較大時(即χ2〉α),則拒絕該假設,即認為該出行人員a拒絕該出行方式b;當觀察頻數(shù)和期望頻數(shù)偏離程度較小時(即χ2〈α),則接收該假設,即認為該出行人員接受該出行方式.基于此對數(shù)據(jù)進行處理,得到出行人員對不同出行方式的接受程度,即得到對出行方式的統(tǒng)計結果如圖3所示.

        從圖3可以看出,基于特定應用場景下的移動用戶軌跡數(shù)據(jù)統(tǒng)計,人們的出行方式普遍選擇步行、公交車、自行車、小汽車等,基于此特定數(shù)據(jù)下的多種出行方式,步行是被人們接受的出行方式,其次是公交和自行車,而摩托車則受用戶接受的程度較?。欢紤]出行方式可能會受出行距離、出行天氣等客觀因素的影響,不能僅從此統(tǒng)計結果得出何種出行方式更受人們青睞.文中以出行距離為限制條件,分析不同出行距離對出行方式選擇的影響.

        2.2 出行方式排名

        在分析出行方式排名時,通過Spark并行處理不同時間段的距離,對所得距離用K-Means算法聚類分析,該算法通過迭代過程把數(shù)據(jù)集劃分為不同類別,使評價聚類性能的準則函數(shù)達到最優(yōu)[17].

        如上文所述,同一個用戶的GPS軌跡數(shù)據(jù)包括軌跡點(x,y,t),通過式(1)歐式距離公式計算用戶從t1時刻的軌跡點(x1,y1)到t2時刻的軌跡點(x2,y2)之間的兩點距離:

        (1)

        式中:TA,TB為用戶軌跡點;xak為TA軌跡中第k個軌跡點的經(jīng)度;xbk為TA軌跡中第k個軌跡點的緯度,同理可知uak,ubk的含義.由于各個軌跡點間的距離各自獨立互不干擾,因此可以并行化處理,多個任務同時處理軌跡點間的距離,得到用戶軌跡點間的距離數(shù)據(jù)集D(d1,d2,…dn),改進傳統(tǒng)的K-Means算法,對此距離數(shù)據(jù)集聚類分析,得到不同出行距離下的出行方式.

        改進傳統(tǒng)的K-Means算法,使其基于Spark數(shù)據(jù)分析層中的MapReduce模式并行處理用戶出行方式數(shù)據(jù)集主要步驟:

        (1) 對HDFS中的距離數(shù)據(jù)集D聚類中心初始化,選出初始聚類中心并存于文件中;

        (2) 劃分HDFS中的數(shù)據(jù)集為多個數(shù)據(jù)塊,用Map函數(shù)處理;

        (3) 將待聚類的距離數(shù)據(jù)集和初始聚類中心或迭代產(chǎn)生的新聚類中心作為Map階段的輸入,將數(shù)據(jù)塊以的形式處理為多個簇中心,并將這些結果作為Reduce階段的輸入信息,然后通過Reduce函數(shù)計算同一類中距離的均值,作為新聚類中心.

        (4) 在main函數(shù)中,計算聚類中心的相似度,如果大于預先設定的閾值則算法結束輸出結果,否則進行下一次迭代.

        在K-Means算法確定簇中心時,將初始簇中心向量和簇類數(shù)目作為共享數(shù)據(jù),將整個移動數(shù)據(jù)分組成k類,開始隨機選擇簇中心,計算每個節(jié)點數(shù)據(jù)到簇中心的距離,將節(jié)點數(shù)據(jù)劃到離其最近的簇中心,通過每次迭代不斷更新簇中心[18],循環(huán)以上步驟,在目標函數(shù)達到最優(yōu)或者最大迭代次數(shù)即可停止,K-Means算法處理數(shù)據(jù)步驟:

        (1) 將出行方式劃分到對應類中:對出行距離數(shù)據(jù)集D(d1,d2,…dn)隨機選取k個聚類中心點{b1,b2,b3…bk};

        (2) 重選聚類中心:在每個簇內,計算同一類中距離的均值作為該簇類的聚類中心.

        采用歐氏距離公式計算不同出行方式下的出行距離數(shù)據(jù)集對象xd與中心點xb的距離dist(Td,Tb),對所有屬于同一中心點,即相同出行方式下的出行距離求均值:

        表 1 出行方式排名統(tǒng)計結果

        在對出行方式排名分析的過程中,將距離數(shù)據(jù)集合D分為k個簇類,對每個點的出行方式xi進行聚類處理,將每個點的出行方式xi僅歸于k個聚簇中的1個,通過多次測試不同k值下的聚簇信息,選定最合適的k值及對應k值下的出行方式xi,得到不同出行距離對出行方式的影響結果見表1.

        從表1可以看出,以出行距離為限制條件,通過分析不同出行距離下對出行方式的選擇得出距離較遠時,人們傾向于選擇火車、汽車;距離較近時,人們傾向于步行或自行車,說明出行距離對出行方式的選擇有很大的影響.

        基于軌跡數(shù)據(jù)的行為分析已滲透到各行各業(yè),通過對移動用戶軌跡數(shù)據(jù)的分析,得到海量移動用戶的普遍行為特點.

        3 結束語

        采用皮爾森卡方檢驗算法統(tǒng)計軌跡數(shù)據(jù)中的出行方式,通過改進的K-Means算法分析出行距離對出行方式的選擇.在實現(xiàn)了對用戶行為軌跡數(shù)據(jù)的統(tǒng)計分析后得出移動用戶行為的特點及用戶出行的規(guī)律,更好地實現(xiàn)了在正確的時間和地點為用戶提供個性化得服務.

        參考文獻(References):

        [1] PENCHIKALA S.Big data processing with apache Spark-(Part 1):Introduction 2015[EB/OL].(2015-12-25)[2018-01-01].https://www.infoq.com/articles/apache-spark-introduction.

        [2] 李致昊,朱閩峰,黃兆嵩,等.一個基于基站軌跡數(shù)據(jù)的城市移動模式可視分析系統(tǒng)[J].計算機輔助設計與圖形學學報,2018,30(1):68-78.

        LI Z H,ZHU M F,HUANG Z S,et al.A visual analytics approach for urban mobility patterns based on mobile phone data[J].Journal of Computer-Aided Design & Computer Graphics,2018,30(1):68-78.

        [3] 葉舒雁,張未展,齊天亮,等.一種基于傳感器與用戶行為數(shù)據(jù)分析的移動學習場景感知分類方法[J].計算機研究與發(fā)展,2016,53(12):2721-2728.

        YE S Y,ZHANG W Z,QI T L,et al.A sensor and user behavior data analysis based method of mobile learning situation perception[J].Journal of Computer Research and Development,2016,53(12):2721-2728.

        [4] 王忠民,王希,宋輝.基于隨機Dropout深度信念網(wǎng)絡的移動用戶行為識別方法[J].計算機應用研究,2017,34(12):1-6.

        WANG Z M,WANG X,SONG H.Human activity recognition method based on random Dropout deep belief network[J].Application Research of Computers,2017,34(12):1-6.

        [5] 朱進,胡斌,邵華.基于多重運動特征的軌跡相似性度量模型[J].武漢大學學報(信息科學版),2017,42(12):1703-1710.

        ZHU J,HU B,SHAO H.Trajectory similarity measure based on multiple movement features[J].Geomatics and Information Science of Wuhan University,2017,42(12):1703-1710.

        [6] 黃文彬,吳家輝,徐山川,等.數(shù)據(jù)驅動的移動用戶行為研究框架與方法分析[J].情報科學,2016,34(7):14-20.

        HUANG W B,WU J H,XU S C,et al.Data-driven mobile user behavior analysis framework and methods[J].Information Science,2016,34(7):14-20.

        [7] 劉先林.移動互聯(lián)時代的GIS[J].遙感信息,2017,32(1):1-4.

        LIU X L.Geographic information in mobile internet Era[J].Remote Sensing Information,2017,32(1):1-4.

        [8] 黃騰,阮宗才.基于運動軌跡分析的頭部行為識別[J].計算機工程,2012,38(17):218-221,231.

        HUANG T,RUAN Z C.Head behavior recognition based on analysis of trajectory[J].Computer Engineering,2012,38(17):218-221,231.

        [9] 許佳捷,鄭凱,池明旻,等.軌跡大數(shù)據(jù):數(shù)據(jù)、應用與技術現(xiàn)狀[J].通信學報,2015,36(12):97-105.

        XU J J,ZHENG K,CHI M M,et al.Trajectory big data:Data,applications and techniques[J].Journal on Communications,2015,36(12):97-105.

        [10] 馮興杰,王文超.Hadoop與Spark應用場景研究[J].計算機應用研究,2018,35(9):1-8.

        FENG X J,WANG W C.Hadoop and Spark application scenario research[J].Application Research of Computers,2018,35(9):1-8.

        [11] 蒲劍蘇,屈華民,倪明選.移動軌跡數(shù)據(jù)的可視化[J].計算機輔助設計與圖形學學報,2012,24(10):1273-1282.

        PU J S,QU H M,NI M X.Survey on visualization of trajectory data[J].Journal of Computer-Aided Design & Computer Graphics,2012,24(10):1273-1282.

        [12] 劉震,付俊輝,趙楠.基于移動通信數(shù)據(jù)的用戶移動軌跡預測方法[J].計算機應用與軟件,2013,30(2):10-13.

        LIU Z,FU J H,ZHAO N.Users mobile track prediction method based on mobile communication data[J].Computer Applications and Software,2013,30(2):10-13.

        [13] 陳萬志,林澍,王麗,等.基于用戶移動軌跡的個性化健康建議推薦方法[J].智能系統(tǒng)學報,2016,11(2):264-271.

        CHEN W Z,LIN S,WANG L,et al.Personalized recommendation algorithm of health advice based on the user′s mobile trajectory[J].CAAI Transactions on Intelligent Systems,2016,11(2):264-271.

        [14] LOU Y,ZHANG C,ZHENG Y,et al.Map-matching for low-sampling-rate GPS trajectories[C]//Proceedings of ACM SIGSPATIAL Conference on Geographical Information Systems.Seattle:ACM,2009:352-361.

        [15] YE Y,ZHENG Y,CHEN Y,et al.Mining individual life pattern based on location history[C]//Tenth International Conference on Mobile Data Management:Systems,Services and Middleware.Taipei:IEEE,2009:1-10.

        [16] 余濤,劉澤燊.基于Spark的并行遺傳算法研究[J].計算機時代,2017(1):43-46.

        YU T,LIU Z S.Research of massive parallel genetic algorithm based on Spark[J].Computers Era,2017(1):43-46.

        [17] 劉江華.一種基于kmeans聚類算法和LDA主題模型的文本檢索方法及有效性驗證[J].情報科學,2017,35(2):16-21.

        LIU J H.A text retrieval method based on kmeans clustering algorithm and LDA topic model and its effectiveness[J].Information Science,2017,35(2):16-21.

        [18] 王永貴,武超,戴偉.基于MapReduce的隨機抽樣k-means算法[J].計算機工程與應用,2016,52(8):74-79.

        WANG Y G,WU C,DAI W.k-means algorithm of random sample based on MapReduce[J].Computer Engineering and Applications,2016,52(8):74-79.

        猜你喜歡
        移動用戶軌跡聚類
        軌跡
        軌跡
        軌跡
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        進化的軌跡(一)——進化,無盡的適應
        中國三峽(2017年2期)2017-06-09 08:15:29
        無線通信技術未來發(fā)展趨勢分析
        基于預測位置的移動用戶位置隱私保護研究
        基于改進的遺傳算法的模糊聚類算法
        聯(lián)通4個月流失移動用戶887萬
        金融理財(2015年7期)2015-07-15 08:29:02
        一種層次初始的聚類個數(shù)自適應的聚類方法研究
        中文字幕乱码琪琪一区| 四虎国产精品免费久久| 无码aⅴ在线观看| 亚洲第一免费播放区| 日韩精品一区二区三区影音视频| 国产精品理论片在线观看| 激情综合一区二区三区| 亚洲成人免费无码| 亚洲成av人片在久久性色av| 久久精品免费一区二区喷潮| 国产精品亚洲一区二区三区在线| 亚洲AV无码成人网站久久精品| 免费观看在线一区二区| 人妻少妇不满足中文字幕| 久久无码av中文出轨人妻| 亚洲AV无码国产永久播放蜜芽| 一区二区三区在线日本| 草草影院发布页| 午夜不卡av免费| 久久久久久久尹人综合网亚洲| 国产一区资源在线播放| 久久综合九色综合久99| 亚洲人成网站77777在线观看 | 国产在线精品一区二区中文| 精品免费在线| 少妇裸淫交视频免费看| 国产美女高潮流白浆免费视频| 亚洲av无码专区电影在线观看| 亚洲精品美女自拍偷拍| 日本免费视频一区二区三区| 日本做受120秒免费视频| 在线看片无码永久免费aⅴ| 免费人成黄页网站在线观看国产| 麻豆精品国产专区在线观看| 国产涩涩视频在线观看| 免费黄网站久久成人精品| 国产老熟女伦老熟妇露脸| 亚洲妇女自偷自偷图片| 亚洲片一区二区三区| 伊人久久亚洲综合av影院| 三年片免费观看影视大全视频 |