黃文彬+徐山川+吳家輝+王軍
〔摘要〕基站通信網(wǎng)絡(luò)數(shù)據(jù)蘊(yùn)含著豐富的移動用戶行為,從移動用戶頻繁活動、規(guī)律行為以及移動速度3方面建構(gòu)移動用戶行為畫像,可以為個(gè)性化服務(wù)提供更完整豐富的信息。在分析和挖掘某電信運(yùn)營商3萬位移動用戶記錄的基站數(shù)據(jù)的基礎(chǔ)上,本文采用頻繁模式挖掘、構(gòu)建概率矩陣、計(jì)算熵等方法,從用戶基站日志中所包含的地理位置信息中構(gòu)建移動用戶行為畫像。研究結(jié)果表明,該畫像模型可顯示移動用戶的頻繁活動規(guī)律、周期性行為及出行方式,可作為分析移動用戶群體行為及用戶間交互行為的基礎(chǔ)。
〔關(guān)鍵詞〕移動數(shù)據(jù);移動行為;移動用戶;用戶畫像;周期性行為;頻繁序列
〔Abstract〕Cellular mobile data service logs contains massive mobile user behavior,based on which mobile user behavior profile,including frequent activities,periodic behaviors and user speed,can be built to provide rich information for personalized services.Analyzing 30,000 users station data provided by a telecommunication operator,user profile is built from location sequence by means of frequent pattern mining,probability matrix constructing and entropy calculating.The user profile proposed shows that users frequent behavior patterns,periodic behavior patterns and speed distribution could be an important reference for further research on population mobile behavior analysis and user interaction behavior.
〔Key words〕mobile data;user behavior;mobile user;user profile;periodic behavior;frequent sequences
由于智能手機(jī)的普及,人們的生活行為與移動智能設(shè)備連接的更緊密,截止到2014年5月,蘋果系統(tǒng)與安卓系統(tǒng)為主的智能手機(jī)操作系統(tǒng)占據(jù)了智能手機(jī)市場份額的964%。相對于傳統(tǒng)的桌面端,人們可以隨時(shí)隨地通過移動終端設(shè)備取得服務(wù),各種與移動終端相結(jié)合的新興商業(yè)模式與日俱增,依據(jù)用戶的地理位置為用戶提供基于用戶地理位置的服務(wù)(LBS)便是一個(gè)典型應(yīng)用,與此同時(shí)用戶所攜帶的手持設(shè)備由于服務(wù)的需求被動的生成了一系列包含網(wǎng)絡(luò)服務(wù)基站信息(如基站ID,基站坐標(biāo))、時(shí)間信息等內(nèi)容,并且針對這些數(shù)據(jù)的分析與挖掘?yàn)槔斫庥脩舳喾矫娴男袨槟J教峁┝酥陵P(guān)重要的途徑。
移動數(shù)據(jù)與傳統(tǒng)桌面端用戶日志主要差異在于提供了用戶的地理位置變化,許多研究將用戶的地理位置按時(shí)間排序,采用序列挖掘的算法挖掘用戶移動序列的頻繁模式[2-6],并且Yava?使用所構(gòu)建的頻繁模式對用戶將來的地理位置進(jìn)行了預(yù)測,應(yīng)用在基站資源的預(yù)分配[4]。同時(shí),探討如何從比較長期的地理位置日志中挖掘周期性的行為也是研究熱點(diǎn)之一[-10]。從移動用戶數(shù)據(jù)中構(gòu)建用戶特征屬性可作為識別用戶重要依據(jù)-12],其中Zhu等人除了考慮地理位置頻繁序列之外,通過在手機(jī)設(shè)備中安裝專門的位置記錄軟件收集用戶地理位置數(shù)據(jù)并提出頻繁停留地點(diǎn)、頻繁移動路徑、有意義的地理位置與交通工具4種用戶特征來描述用戶,構(gòu)建了更有意義的用戶屬性]。劉瑜等人提出了利用大數(shù)據(jù)的方法通過對社交網(wǎng)站簽到數(shù)據(jù)以及其他信息進(jìn)行了人類移動模式的研究的流程[3]。除了地理位置相關(guān)的研究之外,Tseng等人把用戶的地理位置序列與對應(yīng)所使用的服務(wù)進(jìn)行了組合,通過挖掘兩者共同出現(xiàn)的頻繁模式來預(yù)測用戶將來的行為[4-15]。此外,Zhu等人把所有的手機(jī)所反映的行為考慮在內(nèi),通過手機(jī)的原始傳感器數(shù)據(jù)與自然語言的詞相對應(yīng),采用自然語言處理中的方法構(gòu)建語言模型反映用戶行為,并應(yīng)用于設(shè)備被盜檢測、移動應(yīng)用安全等方面[6]。張慷等人則提出了一個(gè)整合客戶資料、語言行為、移動互聯(lián)網(wǎng)行為等分析用戶畫像的總體架構(gòu),但在用戶屬性上缺少細(xì)化挖掘分析。由于用戶數(shù)據(jù)多涉及隱私問題,現(xiàn)有的研究多采用模擬數(shù)據(jù)或是通過在手機(jī)端安裝軟件收集少量用戶GPS或基站數(shù)據(jù)改進(jìn)用戶頻繁序列挖掘算法,并且主要著重刻畫某些方面的移動用戶行為,在國內(nèi)外的研究中,通過海量通信網(wǎng)絡(luò)服務(wù)基站信息數(shù)據(jù)建構(gòu)移動用戶畫像相對都比較少。
本文采用北京某電信企業(yè)記錄3萬移動用戶1個(gè)月的移動數(shù)據(jù),其中包含用戶的通話時(shí)間和時(shí)長、通話基站坐標(biāo)、網(wǎng)絡(luò)請求時(shí)間、網(wǎng)絡(luò)請求基站坐標(biāo)等記錄。筆者利用該數(shù)據(jù)從頻繁活動規(guī)律、周期性活動規(guī)律、移動速度3個(gè)方面建構(gòu)移動用戶畫像的行為屬性,實(shí)證研究結(jié)果顯示這3個(gè)方面能夠反映真實(shí)用戶整體的行為習(xí)慣,這對移動用戶行為相關(guān)研究及移動服務(wù)提供商的用戶研究提供了重要的參考。
數(shù)據(jù)集名稱數(shù)據(jù)集描述用戶通話日志撥打時(shí)間、基站坐標(biāo)用戶網(wǎng)絡(luò)請求日志請求發(fā)起的時(shí)間、請求服務(wù)類型、基站坐標(biāo)
該數(shù)據(jù)是典型的基站記錄,只在用戶手機(jī)與基站通訊時(shí)產(chǎn)生的日志,其中用戶通話日志共有6百萬條記錄與網(wǎng)絡(luò)請求日志共有4億條記錄。相比之下通話日志記錄更稀疏,本研究重點(diǎn)采用網(wǎng)絡(luò)通訊數(shù)據(jù)分析用戶移動行為。本研究的網(wǎng)絡(luò)日志數(shù)據(jù)預(yù)處理的流程見圖1。首先將網(wǎng)絡(luò)數(shù)據(jù)拆分成基站坐標(biāo)數(shù)據(jù)及網(wǎng)絡(luò)請求數(shù)據(jù);由于用戶訪問頁面的時(shí)候通常伴隨著圖片、腳本、及其他等諸多請求,筆者再利用域名、位置等信息對網(wǎng)絡(luò)請求數(shù)據(jù)進(jìn)行壓縮,以提煉出用戶真實(shí)網(wǎng)絡(luò)行為;同時(shí),利用國內(nèi)企業(yè)提供的地圖API獲取每一個(gè)基站坐標(biāo)的具體地址、周圍的建筑和場所的名稱標(biāo)簽、以及商圈資訊等語義化信息。圖1數(shù)據(jù)預(yù)處理流程
通過數(shù)據(jù)構(gòu)建用戶畫像的前提是該用戶有足夠的通話及網(wǎng)絡(luò)請求日志記錄,這批數(shù)據(jù)里有些用戶1個(gè)月中僅僅發(fā)起了數(shù)十條網(wǎng)絡(luò)請求,因此必須篩選清除網(wǎng)絡(luò)請求記錄稀疏的用戶。本研究將1天按小時(shí)分割成24個(gè)時(shí)段,若用戶在某時(shí)段中產(chǎn)生了數(shù)據(jù)請求,則標(biāo)記該用戶在該時(shí)段為活躍時(shí)段,通過篩選活躍時(shí)段至少為8的天數(shù)大于20天的用戶共計(jì)16萬用戶作為主要的研究對象。
移動用戶行為畫像的構(gòu)建
移動屬性的畫像構(gòu)建流程見圖。筆者從數(shù)據(jù)中所獲取的用戶行為坐標(biāo)并根據(jù)用戶停留時(shí)間的長短分為停留點(diǎn)與移動點(diǎn)。通過停留點(diǎn)的坐標(biāo)集合建構(gòu)用戶的周期性活動規(guī)律和頻繁活動規(guī)律研究用戶的生活習(xí)慣。其中周期性活動規(guī)律是指該用戶在1天中各時(shí)段停留地理位置的概率分布,結(jié)合基站坐標(biāo)的語義化信息推斷出用戶的住家、工作場所、偏好地點(diǎn)以及作息規(guī)律。頻繁活動規(guī)律是指該用戶的停留地點(diǎn)之間存在明顯的順序關(guān)系,結(jié)合基站坐標(biāo)的語義化信息可推斷出用戶的活動目的與服務(wù)需求。通過移動點(diǎn)的坐標(biāo)集合建構(gòu)用戶在停留點(diǎn)間的移動路徑,通過該兩點(diǎn)時(shí)間區(qū)間的交通路徑、時(shí)間和速度展現(xiàn)該用戶的交通方式以及選擇偏好。
圖地理位置屬性構(gòu)建流程圖
停留點(diǎn)與移動點(diǎn)
本研究采用的數(shù)據(jù)是電信運(yùn)營商服務(wù)器記錄的用戶基站服務(wù)日志,并非通過GPS記錄用戶精確地理坐標(biāo),由于基站通訊的數(shù)據(jù)限制,無法細(xì)粒度的描述用戶的精確坐標(biāo)與對應(yīng)時(shí)間,該數(shù)據(jù)只有當(dāng)用戶與基站通訊時(shí)的信息記錄,筆者利用時(shí)間區(qū)間區(qū)分用戶停留坐標(biāo)為停留點(diǎn)或移動點(diǎn)的定義。假設(shè)用戶u共有n個(gè)基站請求記錄,利用時(shí)間tsj依序標(biāo)記該用戶的坐標(biāo)為locj,則該用戶位置與時(shí)間序列可表示成:
則該Trajuk,m是一個(gè)用戶移動路徑,所記錄的移動坐標(biāo)即為移動點(diǎn),而ΔT是移動路徑的時(shí)間區(qū)間。本文針對該批數(shù)據(jù)分析處理設(shè)置Δt=5分鐘和ΔT=30分鐘,并按照以上所定義的概念構(gòu)建用戶的停留坐標(biāo)、停留時(shí)間區(qū)間、用戶的移動路徑以及移動時(shí)間區(qū)間。圖3左圖為某用戶31天的地理位置展示圖,右圖為記錄該用戶的暫留點(diǎn)位置展示圖
筆者提取數(shù)據(jù)中某用戶31天位置記錄并采用上述的定義進(jìn)行計(jì)算,圖3左圖顯示了該用戶整月的停留點(diǎn)和移動點(diǎn),其中同顏色是指該時(shí)間段屬于連續(xù)位置子序列,白色為信息缺失的部份。圖3右圖顯示將移動點(diǎn)從圖上移除后的結(jié)果,可見地理位置快速切換的移動數(shù)據(jù)已經(jīng)被剔除,且綜合觀察仍可得到長時(shí)間駐留地點(diǎn)的信息。
周期性活動規(guī)律計(jì)算
為了構(gòu)建用戶在1天中各時(shí)段停留地理位置的概率分布,首先筆者將該用戶位置時(shí)間序列Traju轉(zhuǎn)變成以時(shí)間區(qū)間表示用戶活動序列BTraju,通過用戶的停留點(diǎn)數(shù)據(jù)構(gòu)建用戶在不同的時(shí)間區(qū)段停留的概率值,以進(jìn)一步清理在某時(shí)間區(qū)段中的不可能長時(shí)間規(guī)律存在的停留點(diǎn),分析用戶的周期性活動規(guī)律。假設(shè)用戶記錄的數(shù)據(jù)總時(shí)長個(gè)數(shù)L下有n個(gè)停留區(qū)間,按照停留點(diǎn)坐標(biāo)loci、停留區(qū)間的起始時(shí)間STi、停留區(qū)間的結(jié)束時(shí)間ETi來表示用戶活動序列BTraju為:
其后將獲取一個(gè)n×d的概率矩陣,其中n為該用戶的暫存點(diǎn)坐標(biāo)個(gè)數(shù),d為周期T內(nèi)的時(shí)段個(gè)數(shù)。本文設(shè)置T=4小時(shí)、d=48,即以1天為周期、30分鐘為時(shí)間區(qū)段構(gòu)建概率矩陣,并針對每個(gè)時(shí)間區(qū)段建構(gòu)最有可能長時(shí)間規(guī)律駐留的停留點(diǎn),其方法如下:
輸入:用戶的地理位置概率矩陣。
輸出:該用戶各個(gè)時(shí)段最有可能長時(shí)間規(guī)律的停留點(diǎn)。
(1)構(gòu)建用戶tj∈d個(gè)時(shí)段處于各個(gè)停留點(diǎn)loci∈n的概率和∑p(loci,tj)。
(2)計(jì)算各個(gè)時(shí)段可能長時(shí)間停留坐標(biāo)的閾值。
a.預(yù)先設(shè)置用戶在某時(shí)段處于該位置的概率值τ。
b.針對每個(gè)停留點(diǎn)計(jì)算,若∑p(loci,tj)<τ,則不認(rèn)為該時(shí)段存在長時(shí)間規(guī)律的暫留點(diǎn),此時(shí)設(shè)置Γtj=-1;否則設(shè)置該時(shí)段的長時(shí)間規(guī)律停留點(diǎn)的閾值Γtj=1∑p(loci,tj)。
(3)對各個(gè)時(shí)段采用閾值列表Γtj獲取長時(shí)間規(guī)律的停留點(diǎn)坐標(biāo)。
最后通過設(shè)置概率閾值獲取用戶各個(gè)時(shí)段長時(shí)間活動規(guī)律停留點(diǎn)的序列,筆者將在本文的節(jié)說明本方法的實(shí)證結(jié)果與示例討論。
頻繁活動規(guī)律計(jì)算
為了分析用戶的頻繁活動規(guī)律,筆者首先將用戶停留點(diǎn)序列STraju轉(zhuǎn)變成用戶連續(xù)的停留點(diǎn)序列:
S是用戶所有停留點(diǎn)的個(gè)數(shù),由于筆者是以天為單為進(jìn)行用戶序列分析,因此CSTraju等于每天的子序列DCSTrajuj的組合。
那么,我們可以將用戶頻繁活動規(guī)律的挖掘轉(zhuǎn)化為頻繁序列挖掘的問題。我們采用GSP(Generalized Sequential Patterns)[8]算法對每一個(gè)用戶的停留坐標(biāo)序列集挖掘其中的頻繁停留坐標(biāo)序列,算法如下。
輸入:用戶每天的子序列DCSTrajuj∈d
輸出:頻繁停留坐標(biāo)序列
(1)設(shè)置k=1。
(2)獲取長度為k的子序列以及子序列的支持度,并刪除支持度小于minSup的子序列。
(3)利用長度為k的頻繁序列生成長度為k+1的序列。
(4)k=k+1,跳轉(zhuǎn)到2,直到找不到頻繁序列或者不再有新的子序列。
其中,支持度是指在序列集DCSTrajuj∈d中包含長度為的子序列的頻次,并且最小支持度是minSup實(shí)驗(yàn)參數(shù)。在獲取頻繁序列之后,在從中選擇最長頻繁序列作為序列挖掘的結(jié)果,筆者將在本文的節(jié)說明該方法的實(shí)證結(jié)果與示例討論。
4移動速度計(jì)算
筆者引入了熵]的概念建構(gòu)用戶當(dāng)時(shí)的移動熵用以刻畫用戶在各個(gè)時(shí)刻的移動速度,利用用戶移動點(diǎn)序列MTraju進(jìn)行用戶移動熵的計(jì)算,并根據(jù)時(shí)間點(diǎn)t在時(shí)間范圍ΔT內(nèi)用戶出現(xiàn)在不同地點(diǎn)的概率刻畫用戶的移動速度,其方法如下:
所計(jì)算的移動熵說明用戶在時(shí)間ΔT所變化的基站坐標(biāo)越多,相應(yīng)的其移動速度就越大。如果移動熵為0則說明用戶沒有進(jìn)行基站的切換。用戶的停留時(shí)間區(qū)間移動熵為0,用戶的移動時(shí)間區(qū)間通過取等時(shí)間跨度的時(shí)間節(jié)點(diǎn)可以獲取多個(gè)時(shí)間點(diǎn)的移動坐標(biāo),這些坐標(biāo)可以構(gòu)建用戶的移動速度圖。
3移動用戶畫像示例
本章節(jié)筆者從周期性活動規(guī)律、頻繁活動規(guī)律、用戶移動速度3個(gè)方面通過4個(gè)用戶的真實(shí)數(shù)據(jù)的實(shí)證結(jié)果與示例說明用戶的移動行為屬性。
周期性活動規(guī)律示例
利用節(jié)提出的算法建構(gòu)每個(gè)用戶的坐標(biāo)概率矩陣,用戶1的坐標(biāo)概率矩陣見圖4,橫坐標(biāo)表示1天48個(gè)時(shí)間段,縱坐標(biāo)表示該用戶的所有基站坐標(biāo)。為了包含數(shù)據(jù)隱私,基站坐標(biāo)末兩碼已模糊化處理,圖中方塊的顏色由淺到深表示該時(shí)段在對應(yīng)坐標(biāo)的概率逐漸增大。由于基站數(shù)據(jù)僅能記錄用戶使用基站的記錄,而用戶在有Wi-Fi無線網(wǎng)的環(huán)境使用的網(wǎng)絡(luò)請求是沒有記錄的,因此每個(gè)用戶都會有數(shù)據(jù)缺失,即用戶在各個(gè)時(shí)段的概率之和小于1。圖4顯示該用戶在時(shí)段1~17(0點(diǎn)至8點(diǎn)30分)使用坐標(biāo)〈116154xx,40052xx〉基站的概率大,在時(shí)段19~44(9點(diǎn)鐘至22點(diǎn)鐘)使用坐標(biāo)〈116348xx,39921xx〉基站的概率大,由此推斷該用戶住家是在基站〈116154xx,40052xx〉的覆蓋范圍內(nèi),利用語義化信息查知該基站位于北京市海淀區(qū)溫泉鎮(zhèn),而用戶辦公場所是在基站〈116348xx,39921xx〉的覆蓋范圍內(nèi),并位于北京市西城區(qū)萬通新世界大廈,同時(shí)也可以判斷該用戶的工作時(shí)長大約都在時(shí)段19~44之間,且可能因公務(wù)需求偶爾住宿在其他地方。利用閾值Γtj刪除概率獲取該用戶的時(shí)間規(guī)律,通過與基站的語義化信息進(jìn)行整合,可以清晰的展現(xiàn)用戶的活動規(guī)律表,其結(jié)果如表所示。
隨后14點(diǎn)50到15點(diǎn)25之間,用戶再次使用交通工具低速移動,從中關(guān)村商圈回到北京市朝陽區(qū)安貞街道附近區(qū)域并之后停止活動。圖7左圖是用戶4按照時(shí)間的移動點(diǎn)圖
綜合上述的周期性活動規(guī)律、頻繁活動規(guī)律、用戶移動速度的分析方法并添加坐標(biāo)語義信息后所獲得的用戶行為生活習(xí)慣和活動規(guī)律容易暴露個(gè)人隱私或識別出用戶個(gè)人身份,同時(shí)也說明對通信數(shù)據(jù)進(jìn)行挖掘分析對用戶具有信息安全的疑慮。
4結(jié)論
本文利用移動網(wǎng)絡(luò)基站數(shù)據(jù)從周期性活動規(guī)律、頻繁活動規(guī)律以及移動速度三方面構(gòu)建了移動用戶的用戶畫像,結(jié)合所提供的可視化視圖可以清晰地展現(xiàn)出用戶地理位置相關(guān)的行為,所獲取的屬性相互印證和補(bǔ)充,展現(xiàn)了1個(gè)用戶每天的生活規(guī)律和移動情況。由于本文所獲取的用戶數(shù)據(jù)時(shí)間跨度僅1個(gè)月,筆者只以1天為周期的活動規(guī)律進(jìn)行挖掘,但這分析結(jié)果已經(jīng)可以推測出用戶的工作方式、住家地點(diǎn)、工作地點(diǎn)、生活規(guī)律、出行方式與模式。由于該用戶數(shù)據(jù)存在部分空缺,對用戶的微觀行為刻畫比較有限,未來筆者會將這移動屬性與網(wǎng)絡(luò)訪問信息相結(jié)合獲取更準(zhǔn)確更細(xì)粒度的用戶移動行為和偏好。若能將所有用戶的移動用戶畫像并且支持用戶屬性檢索,便可以快速檢索出具有相似特定屬性的用戶群,便可以針對需求提供用戶相應(yīng)的個(gè)人化服務(wù)。
參考文獻(xiàn)
Idc.Worldwide Quarterly Mobile Phone Tracker.2014.
[2]Lee S C,Paik J,Ok J,et al.Efficient mining of user behaviors by temporal mobile access patterns[J].Intl J.Computer Science Security,2007,7(2):285-291.
[3]Chen T S,Chou Y S,Chen T C.Mining user movement behavior patterns in a mobile service environment[J].Systems,Man and Cybernetics,Part A:Systems and Humans,IEEE Transactions on,2012,42(1):87-101.
[4]Yava? G,Katsaros D,Ulusoy ?,et al.A data mining approach for location prediction in mobile environments[J].Data & Knowledge Engineering,2005,54(2):121-146.
[5]曾燦燦.基于數(shù)據(jù)挖掘的移動行為預(yù)測[D].武漢:華中科技大學(xué),2011.
[6]王曉明.基于移動數(shù)據(jù)的軌跡模式挖掘算法的研究與應(yīng)用[D].沈陽:東北大學(xué),2013.
Baratchi M,Meratnia N,Havinga P J M.Recognition of periodic behavioral patterns from streaming mobility data[M].Mobile and Ubiquitous Systems:Computing,Networking,and Services.Springer International Publishing,2014:102-115.
[8]Li Z,Ding B,Han J,et al.Mining periodic behaviors for moving objects[C]∥Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2010:1099-1108.
[9]Zhang M,Kao B,Cheung D W,et al.Mining periodic patterns with gap requirement from sequences[J].ACM Transactions on Knowledge Discovery from Data(TKDD),2007,1(2):7.
[0]Ji Y,Zhang C,Zuo Z,et al.Mining user daily behavior based on location history[C]∥Communication Technology(ICCT),2012 IEEE 14th International Conference on.IEEE,2012:881-886.
]Zhu Y,Zhang Y,Shang W,et al.Trajectory enabled service support platform for mobile users behavior pattern mining[C].Mobile and Ubiquitous Systems:Networking & Services,MobiQuitous,2009.MobiQuitous 09.6th Annual International.IEEE,2009:1-10.
[2]薛冉.基于地理位置服務(wù)的用戶移動屬性的構(gòu)建和比較[D].濟(jì)南:山東大學(xué),2013.
[3]劉瑜,康朝貴,王法輝.大數(shù)據(jù)驅(qū)動的人類移動模式和模型研究[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2014,(6):8.
[4]Lu E H C,Tseng V S,Yu P S.Mining cluster-based temporal mobile sequential patterns in location-based service environments[J].IEEE Transactions on knowledge and data engineering,2011,23(6):914-927.
[5]Tseng V S M,Lin K W C.Mining sequential mobile access patterns efficiently in mobile web systems[C]∥Advanced Information Networking and Applications,2005.AINA 2005.19th International Conference on.IEEE,2005,(2):762-767.
[6]Zhu J,Hu H,Hu S,et al.Mobile behaviometrics:Models and applications[C]∥Communications in China(ICCC),2013 IEEE/CIC International Conference on.IEEE,2013:117-123.
張慷.手機(jī)用戶畫像在大數(shù)據(jù)平臺的實(shí)現(xiàn)方案[J].信息通信,2014,(2):266-267.
[8]Srikant R,Agrawal R.Mining sequential patterns:Generalizations and performance improvements[M].Springer Berlin Heidelberg,1996.