亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

移動網(wǎng)絡(luò)中的用戶移動模式預(yù)測

2016-11-15 08:30:29何海洋北京郵電大學(xué)數(shù)據(jù)科學(xué)中心網(wǎng)絡(luò)體系構(gòu)建與融合北京市重點實驗室

信息通信技術(shù)與政策 2016年10期

關(guān)鍵詞：用戶

何海洋北京郵電大學(xué)數(shù)據(jù)科學(xué)中心，網(wǎng)絡(luò)體系構(gòu)建與融合北京市重點實驗室

何海洋北京郵電大學(xué)數(shù)據(jù)科學(xué)中心，網(wǎng)絡(luò)體系構(gòu)建與融合北京市重點實驗室

隨著移動互聯(lián)網(wǎng)的快速發(fā)展，利用移動數(shù)據(jù)分析移動用戶的移動性成為移動互聯(lián)網(wǎng)研究的一大熱點。本文提出了基于時間的Markov（Time-Based Markov，TBM）算法，并利用南方某省運營商3周的連續(xù)數(shù)據(jù)，使用TBM算法對移動類用戶進行位置預(yù)測。通過試驗，證明了所提出的方法比基礎(chǔ)Markov方法有更高的預(yù)測準確率，這對運營商和位置服務(wù)提供商有重要意義。

移動模式；預(yù)測準確率；用戶聚類

1 引言

隨著移動互聯(lián)網(wǎng)用戶數(shù)量和通信數(shù)據(jù)量的不斷增長，通過移動互聯(lián)網(wǎng)上真實流量數(shù)據(jù)分析用戶行為意義重大。通過移動網(wǎng)絡(luò)數(shù)據(jù)可以進行數(shù)據(jù)使用、應(yīng)用使用、移動模式等用戶行為分析。在各類用戶行為分析中，分析用戶移動模式并進行用戶移動性預(yù)測有著重要意義。通過研究移動模式，運營商可以達到用戶移動性預(yù)測、用戶移動性管理等目的。

用戶移動模式的研究大多根據(jù)用戶歷史路徑，通過機器學(xué)習(xí)算法調(diào)整歷史樣本數(shù)據(jù)調(diào)整分類器參數(shù)，從而預(yù)測某個用戶將來的位置。LZ-Based算法通過路徑樹的不斷更新實現(xiàn)預(yù)測。Markov算法沒路徑樹的建立過程，而是直接匹配歷史路徑，并可以改變匹配階數(shù)。貝葉斯算法、神經(jīng)網(wǎng)絡(luò)算法、隱式馬爾可夫模型等也可用于移動性預(yù)測。

以上算法將空間上下文作為影響用戶移動性預(yù)測的主要因素。而近些年，越來越多的研究者們開始考慮時間因素對預(yù)測結(jié)果的影響。

除了空間和時間因素，希望將一個用戶特定的移動特點對用戶移動性的影響因素加以考慮。例如，對于預(yù)測一個用戶在某一段時間的位置這樣的問題，預(yù)測一個朝九晚五工作的白領(lǐng)比預(yù)測一個天天跑業(yè)務(wù)的銷售員更容易，因為白領(lǐng)的移動習(xí)慣更規(guī)律。所以，希望進一步地證明對于擁有不同時空移動特點的用戶，應(yīng)該使用不同方法進行預(yù)測。

2 基于時間的Markov預(yù)測算法

基礎(chǔ)的Markov預(yù)測算法只關(guān)心用戶的歷史地理位置而并不關(guān)心時間。實際上人們生活中的行為習(xí)慣和時間段有緊密的相連性。為了提高預(yù)測算法的準確度，本文提出基于時間的馬爾可夫算法（Time Based Markov，TBM）。同時，關(guān)聯(lián)地理位置與時間，并對基礎(chǔ)Markov處理的相同用戶數(shù)據(jù)進行計算，得出更高準確率的結(jié)果。

基于用戶的歷史軌跡，如果用戶當(dāng)前所在的時間和地點為已知，TBM可以預(yù)測該用戶的下一跳，以及當(dāng)前時間點與下一跳時間點的時間間隔。算法的主要步驟如下：

（1）首先建立用戶的時間和位置歷史路徑序列。

（2）給定一個當(dāng)前時間和位置，以及一個時間閾值，在整個歷史路徑（T，LOC）中尋找某記錄點（t，loc），與（tr，locr）滿足地理位置相同（即），確定路徑時間點在歷史路徑時間點前后時間閾值范圍內(nèi)（即）。

（3）如果沒有歷史路徑點符合以上所述的情況，將返回“No Match”為結(jié)果。

（4）如果有個結(jié)果滿足以上要求，將他們命名為。然后，為每一個歷史位置尋找下一個位置，并且計算須預(yù)測的與下一跳（）的時間間隔。之后，會獲得一系列數(shù)據(jù)。

（5）選擇出現(xiàn)概率最大的。

為了更好地解釋這個算法，下面給出一個例子。如果現(xiàn)在是早上9∶00，某人處于地理位置c點，同時設(shè)置時間閾值為一個小時（Ts=1h）。

首先TBM會搜索小明歷史路徑如下：

之后，TBM在歷史路徑中尋找符合匹配關(guān)系的記錄點，即地理位置為滿足loc=c并且前后時間間隔在時間閾值范圍內(nèi)（8∶00＜t＜10∶00）的記錄點。從給出的路徑中可以看出，有6個這樣的記錄點被加粗標出。接下來，算法找出這些記錄的點的下一個記錄點（被下劃線標出）。列出下一跳記錄點們的地理位置與當(dāng)前需預(yù)測路徑點的時間間隔，如（d，0），（e，0），（d，0），（e，0），（d，2），（d，0）。其中，可以算出（d，0）出現(xiàn)的概率最大為50%。因此，基于時間的Markov算法則預(yù)測接下來將會在一個小時之內(nèi)移動到地點d。

該算法背后的主要思想是基于用戶行為強烈地決定于歷史移動模式，而這種模式不僅僅依賴于他們經(jīng)過的地點，還包括他們經(jīng)過這些地點的時間。例如，一個用戶剛剛在公司食堂吃過飯，如果吃的午餐，他更可能回辦公室，但如果是晚餐，則更可能直接回家。因此，提出的算法既考慮了空間因素，又考慮了時間因素，這樣相比只考慮空間因素的算法可以更加準確地預(yù)測用戶移動模式。

3 數(shù)據(jù)集

希望借助以上提出的兩種基于時間移動性預(yù)測算法對不同用戶使用，比較不同方法對不用用戶的適用性和有效性。采用南方某省運營商真實移動網(wǎng)絡(luò)采集到的4G移動數(shù)據(jù)進行試驗，數(shù)據(jù)包括連續(xù)3周，具體時間為2013.10.10—2013.10.31?？梢詮脑拞螖?shù)據(jù)中提取出用戶ID、基站IP、訪問時間、狀態(tài)等信息，具體數(shù)據(jù)的大體結(jié)構(gòu)可參見表1，其中基站IP可通過IP-經(jīng)緯度對照表轉(zhuǎn)化為經(jīng)緯度信息。

表1 輸入數(shù)據(jù)形式表

所有數(shù)據(jù)包含3474個用戶和729個eNodeBs（4G基站），考慮到某些用戶在數(shù)據(jù)集中有非常少的記錄，使得很難分析這些用戶的移動性。在試驗中為了讓每個用戶有足夠多的記錄來分析，首先將連接基站數(shù)少于10個和連接次數(shù)少于500次的用戶過濾掉；由于TBM本質(zhì)為預(yù)測用戶下一跳，更適合預(yù)測移動性較強的用戶，于是又通過基于熵值的用戶聚類算法將用戶聚類為固定類用戶和移動類用戶，兩類用戶數(shù)量分別為1409和795。對于固定類用戶，可以使用基于空間概率分布的方法預(yù)測用戶在某一段時間的位置。后續(xù)的試驗中將針對795個移動類用戶進行移動模式預(yù)測。處于數(shù)據(jù)安全原因，已經(jīng)將用戶的隱私信息通過Hash處理。

4 用戶移動模式預(yù)測

基于TBM算法，將在本節(jié)預(yù)測移動用戶的下一跳，如果一個用戶在一段時間內(nèi)一直連著相同的小區(qū)基站，將這些記錄點全部合并為一個記錄，同時到達時間也設(shè)置為第一個記錄的時間。用前兩周的數(shù)據(jù)做訓(xùn)練，然后如果一個用戶在第三周總共移動了n次，而后有m個移動軌跡被預(yù)測正確，則認為準確率為m/n。每個用戶的準確率最后取平均值得到最終準確率。分別使用Markov和TBM對預(yù)測準確率進行試驗，其中TBM的Ts參數(shù)分別設(shè)置為1和2h。同時，算法在移動類用戶和所有用戶分別進行了試驗，最終的試驗結(jié)果如表2所示。

表2 Markov和TBM的預(yù)測準確率

從表2得知，TBM相比于基礎(chǔ)Markov對移動用戶能達到更好的預(yù)測效果。當(dāng)時間閾值Ts設(shè)置為1h，TBM的預(yù)測準確率從46.9%上升至47.7%；當(dāng)時間閾值Ts設(shè)置為2h，可以得到更高的預(yù)測準確率。

為了研究時間閾值Ts對TBM算法的影響，設(shè)置時間閾值在區(qū)間［0.5h，5h］的變化，以0.5h為步長，對移動用戶針對每一個不同的時間閾值使用TBM進行預(yù)測。得到如圖1所示的結(jié)果，以時間閾值Ts為橫坐標，以準確率為縱坐標。從圖1中可以知道時間閾值的最好選擇是2.5～3h。如果想要找到一個移動用戶在某個時間點如早上10∶00的軌跡，那么最好是觀察該用戶每天從早晨7∶30—12∶30的移動軌跡。

圖1 時間差與準確率的關(guān)系

接下來，進一步通過觀察預(yù)測效果較差的結(jié)果來改進算法。首先，在圖2中畫出了一些隨機移動類用戶的移動軌跡。在每個子圖中，每個點代表用戶連接的一個基站，兩個點之間的線代表用戶從其中一點移動到另一點。其中，容易預(yù)測出錯的一些點已經(jīng)圈標注出來。

通過觀察，發(fā)現(xiàn)用戶在容易預(yù)測出錯的區(qū)域通常有這樣的移動軌跡：假設(shè)該用戶當(dāng)前在，通過觀察他的歷史路徑，該用戶移動到和的概率幾乎是相同的。這暗示可以考慮提高TBM的階數(shù)，即考慮的前一位置：如果前一位置是，則他更可能去；如果前一位置是，則更可能去?；诖?，改變了TBM算法中的第5步：定義作為的前一位置，如果選擇最大概率的和是同一位置，則選擇擁有第二大概率的。通過這種方式改進TBM算法，移動類用戶的平均預(yù)測準確率達到了59.2%。

圖2 示例用戶移動軌跡

5 結(jié)束語

本文提出了TBM算法預(yù)測移動類用戶的下一跳和到達時間。和基礎(chǔ)Markov的46.8%的預(yù)測準確率相比，TBM通過優(yōu)化的預(yù)測準確率可以達到59.2%。試驗結(jié)果證明了對于不同移動特點的用戶，使用不同的預(yù)測算法進行移動模式發(fā)現(xiàn)會使預(yù)測效果更好，這對于網(wǎng)絡(luò)服務(wù)提供商、位置服務(wù)提供商等都有重大的意義。

Prediction of user mobility pattern in mobile internet

HE Haiyang

The mobile Internet in recent years has been developing rapidly. Using mobile traffic data to analyze user mobility has become a hot topic in the area of mobile Internet research. In this paper， we present the Time- Based Markov （TBM） predictor for the location prediction of mobile users.With three-consecutive-week data collected from Long Term Evolution （LTE） mobile network， we use TBM predictor on mobile users. Experiments demonstrate the effectiveness and better performance of our proposed methods compared with the baselines， which is of great importance for iSPs or location based service Providers.

mobility pattern；prediction accuracy；user clustering

2016-06-20）