夏東
摘要: 移動(dòng)智能終端能方便地通過GPS獲取大量的用戶位置數(shù)據(jù),從而清楚地知道用戶的位置軌跡和關(guān)鍵地點(diǎn)。為了有效發(fā)現(xiàn)移動(dòng)用戶的行為特征,通過采用POI分類原則對用戶位置建立興趣點(diǎn)語義,并使用了基于時(shí)間變化的移動(dòng)用戶興趣關(guān)聯(lián)模型的挖掘算法,得到了具有不同出行特征的人群,從而提出了基于走勢圖和?;鶊D的可視化展現(xiàn)和分析方案。最后,根據(jù)分析研究,實(shí)現(xiàn)了對移動(dòng)用戶出行和特征的可視化方法研究,并通過實(shí)際案例驗(yàn)證了可行性。
關(guān)鍵詞:時(shí)間變化;關(guān)聯(lián)分析;可視化;行為特征
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)33-0012-04
如今,隨著移動(dòng)智能終端的普及,越來越多的移動(dòng)設(shè)備都具備GPS功能,用戶使用一些電子地圖時(shí),比如百度地圖、高德地圖等,會(huì)收集用戶活動(dòng)位置的GPS數(shù)據(jù),對這些數(shù)據(jù)的分析能幫助軟件商更加了解用戶的行為特征,有助于在以后的軟件功能升級中加入對用戶使用軟件習(xí)慣的決策考慮,提高軟件的用戶體驗(yàn)度。數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘來自大事務(wù)數(shù)據(jù)集之間的關(guān)聯(lián)和統(tǒng)計(jì)的發(fā)現(xiàn),主要考慮支持度和置信度。對于手機(jī)用戶,由于可以無縫上網(wǎng)的特殊性,隨著時(shí)間的推移,出行位置變化會(huì)呈現(xiàn)一定的規(guī)律性,關(guān)注在最近用戶出行位置的情況能更有效反應(yīng)用戶的出行愛好。通過對分析的數(shù)據(jù)進(jìn)行可視化的展示能更加直觀展示隱藏的信息。
1相關(guān)工作
1.1數(shù)據(jù)處理
當(dāng)用戶使用電子地圖app軟件時(shí),它能收集用戶活動(dòng)位置的GPS數(shù)據(jù),并通過移動(dòng)互聯(lián)網(wǎng)將代表用戶位置的經(jīng)緯度數(shù)據(jù)傳輸?shù)椒?wù)器,通過對這些數(shù)據(jù)的分析對于了解用戶的行為趨勢具有至關(guān)重要的作用。為了有效獲取用戶的地理位置數(shù)據(jù),采用了數(shù)據(jù)統(tǒng)計(jì)技術(shù),在統(tǒng)計(jì)的基礎(chǔ)上對數(shù)據(jù)進(jìn)行清理、集成、存儲和轉(zhuǎn)換,并根據(jù)POI分類原則對位置建立興趣點(diǎn)語義,從而對得到的結(jié)果進(jìn)行聚類分析,采用K-means聚類算法,是一種數(shù)據(jù)點(diǎn)到目標(biāo)點(diǎn)距離作為最優(yōu)的分類算法,通過聚類能得到位置語義興趣相似的類[1],對相似的類采用FP-Growth算法進(jìn)行興趣點(diǎn)關(guān)聯(lián)分析[2]。
1.2數(shù)據(jù)可視化
數(shù)據(jù)可視化是利用各種可視化技術(shù),將數(shù)據(jù)展示出來,幫助用戶更好的理解和分析數(shù)據(jù)[3]。本文采用基于走勢圖和?;鶊D的可視化展示方案,走勢圖是一種緊湊簡潔的數(shù)據(jù)趨勢表達(dá)方式,建立在折線圖的基礎(chǔ)上,使用高度密集的線段來表示數(shù)據(jù)隨時(shí)間的變化趨勢,但因?yàn)榇笮〉南拗?,不容易表達(dá)太多詳細(xì)信息。為了解決這問題,提出了結(jié)合網(wǎng)絡(luò)圖特征的走勢圖,能達(dá)到更好的可視化效果。桑基圖是一種能量分流圖,特征是開始和結(jié)尾的總體寬度相等,最重要的是能很好展示出不同時(shí)間段數(shù)據(jù)間的脈絡(luò)關(guān)系。
2基于時(shí)間的用戶出行數(shù)據(jù)關(guān)聯(lián)分析
本文課題研究是基于移動(dòng)終端出行數(shù)據(jù)的用戶特征可視化,試著發(fā)現(xiàn)用戶日常行為中相似的行為特征,更好地了解移動(dòng)用戶的行為習(xí)慣。根據(jù)這一需求,確定了本文研究整體流程,如圖1所示,主要分為4個(gè)步驟:1)獲取研究需要的移動(dòng)出行數(shù)據(jù);2)根據(jù)需求對數(shù)據(jù)進(jìn)行篩選,整理出有效的數(shù)據(jù);3)對整理好的數(shù)據(jù)建立可視化模型,根據(jù)模型選擇合適的可視化方法,進(jìn)行可視化映射;4)根據(jù)展現(xiàn)的結(jié)果,結(jié)合出行的需求和實(shí)際情況分析反饋,獲得滿足要求的可視化結(jié)果。
2.1問題分析
移動(dòng)設(shè)備上能方便獲取用戶的出行位置信息,通過對移動(dòng)用戶位置數(shù)據(jù)運(yùn)用數(shù)據(jù)挖掘技術(shù),得到移動(dòng)用戶出行愛好的特點(diǎn),系統(tǒng)中需要統(tǒng)計(jì)用戶出行的情況,重點(diǎn)在于時(shí)序變化、人群比較、出行規(guī)律:
a) 移動(dòng)用戶出行位置的隨機(jī)性。移動(dòng)用戶的出行位置點(diǎn)具有連續(xù)性,一天時(shí)間內(nèi)每個(gè)不同的位置點(diǎn)變化都是相互關(guān)聯(lián)的,但是用戶出現(xiàn)的位置點(diǎn)受客觀的影響是不確定的。
b) 移動(dòng)用戶出行位置的規(guī)律性。在大部分情況下,移動(dòng)用戶的訪問都是有規(guī)律的,如家>公司>家這樣的出行組合;像周末、節(jié)假日會(huì)出現(xiàn)不同的訪問情況,如家>其它(去醫(yī)院、出差等)>家這樣的出行組合,并不能說這些特殊的情況沒有研究價(jià)值,它可能在很長一段時(shí)間重復(fù)的出現(xiàn)。
2.2影響移動(dòng)用戶出行的因素
一些特殊時(shí)間、事件會(huì)影響移動(dòng)用戶的出行,如遇到節(jié)假日和周末會(huì)對出行產(chǎn)生一些變化,因?yàn)橹苣┖凸?jié)假日用戶在工作單位出現(xiàn)的幾率會(huì)明顯降低,而在其它地點(diǎn)如健身場館、商場等出現(xiàn)的幾率會(huì)升高。對于出行會(huì)產(chǎn)生很大的影響還有兩個(gè)因素:用戶的年齡、性別。由于用戶年齡和性別的差異,如身份因素學(xué)生、白領(lǐng)、退休職工等不同而選擇相異的出行。
2.3用戶出行規(guī)律和平均使用手機(jī)時(shí)長的關(guān)系
用戶使用手機(jī)時(shí)間的長短會(huì)因?yàn)槌鲂形恢玫攸c(diǎn)的不同而發(fā)生相應(yīng)的變化,這種變化也具有一定的規(guī)律性,如在工作單位的時(shí)候使用手機(jī)的時(shí)長可能會(huì)比較短,下班后晚間在居住的地點(diǎn)使用手機(jī)的時(shí)間會(huì)相對增加;在上下班往返于居住和工作環(huán)境的時(shí)間里使用手機(jī)時(shí)間可能也相應(yīng)增加。
2.4移動(dòng)用戶出行數(shù)據(jù)處理方法
出行數(shù)據(jù)的處理方法流程包括清理數(shù)據(jù)、集成數(shù)據(jù)、存儲數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù):
(1) 數(shù)據(jù)清理。噪聲信息和錯(cuò)誤信息等很多存在于原始數(shù)據(jù)中。
(2) 數(shù)據(jù)集成。進(jìn)行集成不同相似度數(shù)據(jù),如九寨溝屬于旅游景點(diǎn)類的。
(3) 數(shù)據(jù)存儲。將集成好的數(shù)據(jù)進(jìn)行存儲。
(4) 數(shù)據(jù)轉(zhuǎn)換。對存儲好的數(shù)據(jù)進(jìn)行有目的的挖掘,轉(zhuǎn)換得到有價(jià)值的結(jié)果。
2.5移動(dòng)用戶出行數(shù)據(jù)POI興趣點(diǎn)
通過手機(jī)GPS獲得了用戶的位置數(shù)據(jù),為了更好的分析移動(dòng)用戶的興趣位置,采用POI興趣點(diǎn)分類位置數(shù)據(jù),興趣點(diǎn)(Point of Interest,簡稱POI)在用戶地理信息系統(tǒng)中,包含名稱、類別、經(jīng)度和維度這四個(gè)方面的信息,它可以是一所學(xué)校、一個(gè)操場、一個(gè)汽車站等,能更加準(zhǔn)確的確定用戶的興趣位置。潘明遠(yuǎn)等[4]通過研究地理信息和對自然語言的處理,總結(jié)了POI分類的原則和方法,并構(gòu)建了POI分類模型。
2.6POI興趣點(diǎn)分類
根據(jù)移動(dòng)用戶的出行行為特點(diǎn),結(jié)合POI分類的原則,將用戶位置數(shù)據(jù)分為一級、二級的層級結(jié)構(gòu)兩類,其中一級類是和人們生活密切相關(guān)的美食、購物、旅游景點(diǎn)等17個(gè)類,二級類是在大類基礎(chǔ)上細(xì)分的小類。如表1所示。
2.7基于時(shí)間的關(guān)聯(lián)分析算法
FP-Growth[5]算法是由韓家煒等提出的使用了一種緊縮的數(shù)據(jù)結(jié)構(gòu)來存儲查找頻繁項(xiàng)集所需要的全部信息的關(guān)聯(lián)規(guī)則挖掘算法。然而一味地追求效率的提高是不夠的,還需要同時(shí)針對特殊情況對獲得的結(jié)果集進(jìn)行精煉,使數(shù)據(jù)有更高的置信度。
1) 通過下面的例子解釋這個(gè)問題。
從表2中看出,在4月28日之前,用戶只滑動(dòng)過“NBA臺球CBA 足球“,沒有滑動(dòng)過”健康“;并且,在4月18日后,“NBA臺球“都是一起被用戶所滑動(dòng)的。根據(jù)上面的解釋,得出關(guān)聯(lián)規(guī)則的置信度:
A. 從4月15日起:Conf(NBA 臺球CBA)=290/500=58%
B. 從4月18日起:Conf(NBA 臺球CBA)=290/40072%
C. 從4月20日起:Conf(NBA臺球CBA)=290/290=100%
D. 從4月20日起:Conf(NBA臺球CBA足球)=180/29062%
E. 從4月28日起:Conf(NBA臺球CBA 足球健康)=90/90=100%
從中看出:因?yàn)樵?月28日之前“健康”都沒有出現(xiàn)過,所以規(guī)則[ 從4月28日起:Conf(NBA臺球CBA 足球==>健康)=90/90=100%]看起來更準(zhǔn)確。從而能更清晰知道先前滑動(dòng)的項(xiàng)集(NBA臺球CBA 足球)和最新滑動(dòng)的項(xiàng)集(健康)之間的關(guān)聯(lián)。通過研究最新滑動(dòng)圖片的關(guān)聯(lián)規(guī)則,能有助于在策略的規(guī)定下,由前期的項(xiàng)集產(chǎn)生關(guān)聯(lián)更強(qiáng)的后期項(xiàng)集。
2.8基于時(shí)間排序的位置語義關(guān)聯(lián)
大部分關(guān)聯(lián)挖掘算法(如:Apriori、FP-Growth)關(guān)注的是提高頻繁項(xiàng)集挖掘的效率,而不是根據(jù)特殊情況挖掘特殊項(xiàng)集。通常而言,時(shí)間因素對歷史項(xiàng)集提供一個(gè)更高的支持度,對最新的項(xiàng)集有更差的支持度,所以使用流行的關(guān)聯(lián)挖掘算法能得到需要的結(jié)果。但是對于特殊項(xiàng)集加入時(shí)間的分析,能得到更準(zhǔn)確的結(jié)果。
將需要處理的數(shù)據(jù)從Mysql數(shù)據(jù)庫取出,處理前的數(shù)據(jù)如圖2所示。
通過運(yùn)用上面的算法對用戶位置興趣點(diǎn)進(jìn)行處理,記錄每個(gè)興趣點(diǎn)第一次發(fā)生的時(shí)間,并基于出現(xiàn)時(shí)間的先后順序?qū)Λ@得的頻繁項(xiàng)集中的興趣點(diǎn)進(jìn)行排序,最終得到的結(jié)果如表3所示,對比現(xiàn)實(shí)中人的活動(dòng)規(guī)律,得到的組合規(guī)律符合實(shí)際中人的出行行為習(xí)慣。
3 數(shù)據(jù)可視化轉(zhuǎn)化
對大量的手機(jī)出行數(shù)據(jù)進(jìn)行有針對性的篩選和處理后,通過頁面的表現(xiàn)形式對結(jié)果進(jìn)行展示,方便用戶可以自己去觀察數(shù)據(jù)中的有用價(jià)值。增加新的維度,那么往往只能采用以下辦法,增加新的下拉列表、時(shí)間軸等與原圖耦合度不高的部件來顯示,這種部件越多,用戶理解起來也會(huì)越困難,增加一個(gè)兩個(gè)可以接受,如果維度過多,應(yīng)拆開為多圖顯示?;谏鲜鰧Ρ敬慰梢暬芯繂栴}的探討和對用戶數(shù)據(jù)的分析,本文采用基于ECharts圖表組件來實(shí)現(xiàn)對數(shù)據(jù)的可視化展示,逐漸探索出了基于移動(dòng)終端出行數(shù)據(jù)的用戶特征可視化的流程和方法。
3.1走勢圖
通過FP-tree對多維數(shù)據(jù)的分析處理,我們選擇采用個(gè)性化的走勢圖來展示,需要展示的移動(dòng)用戶信息,包含時(shí)間、年齡、出行位置、性別,其中時(shí)間和年齡是固定不變的,屬于靜態(tài)數(shù)據(jù),出行位置、平均使用手機(jī)時(shí)長是隨著時(shí)間變化的,屬于動(dòng)態(tài)數(shù)據(jù)。普通的走勢圖不能體現(xiàn)不同位置語義的問題,為了解決這個(gè)問題,結(jié)合網(wǎng)絡(luò)圖方法,展示關(guān)聯(lián)規(guī)則,可以利用不同顏色的結(jié)點(diǎn)代表項(xiàng)目,結(jié)點(diǎn)之間的連線代表項(xiàng)目間的關(guān)聯(lián)關(guān)系。如圖3所示,采用不同的顏色視覺編碼來表示出行位置語義。
3.2桑基圖
為了更好讓用戶查看到不同人群的關(guān)聯(lián)分析結(jié)果,采用?;鶊D(Sankey diagram )來展示數(shù)據(jù),常用于能源、材料成分、金融等數(shù)據(jù)的可視化分析,能很好地展示數(shù)據(jù)間的分流合流情況。?;鶊D中的基本圖形是不同寬度的矩陣,用不同的面積代表數(shù)據(jù)的大小,配以不同的顏色能更好地區(qū)分不同的實(shí)體,使用線的走向代表數(shù)據(jù)的分流、合流情況。最終得到的?;鶊D形式可視化展示的結(jié)果如圖4所示。
?;鶊D能更好地利用空間,每個(gè)矩陣能很清晰的顯示每個(gè)出行位置人數(shù)的多少,通過觀察線的走向可以看出人群流向不同矩陣的分布情況。桑基圖比較適合展示人群活動(dòng)流向關(guān)聯(lián)的可視化效果。
4案例分析
4.1總體規(guī)律
為實(shí)驗(yàn)準(zhǔn)備了10萬條用戶出行位置數(shù)據(jù),每一條數(shù)據(jù)都對應(yīng)POI興趣點(diǎn)中的類,每個(gè)用戶每天八個(gè)時(shí)間段最多有八個(gè)興趣點(diǎn),這些點(diǎn)中可能會(huì)有重復(fù)的,如住宅、宿舍的興趣點(diǎn)可能會(huì)出現(xiàn)在凌晨、早晨和晚上三個(gè)時(shí)間段。我們使用FP-tree,對所有用戶一個(gè)月內(nèi)每天出行興趣點(diǎn)進(jìn)行關(guān)聯(lián)分析,對得到的分析進(jìn)行時(shí)間排序,得到結(jié)果見表3。
如表4所示,將一天分為8個(gè)時(shí)間段。
從表3中得出的數(shù)據(jù)關(guān)聯(lián)結(jié)果,結(jié)合表4中不同時(shí)間段,找出對應(yīng)的出行興趣點(diǎn),得到如下的活動(dòng)情況表,如表5所示。
從表5中人群活動(dòng)的情況我們可以看出,所有人群的特征可以歸納為3種:
a) 出行特征規(guī)律是(家->公司->家),如人群1、人群2和人群6。
b) 出行特征規(guī)律是(宿舍->學(xué)校->宿舍),如人群3。
c) 出行特征規(guī)律是(家/酒店->其它->家/酒店),如人群4、人群5和人群7。
根據(jù)實(shí)際調(diào)查的情況,數(shù)據(jù)對比一致,這3種活動(dòng)規(guī)律的人群確實(shí)能代表大部分用戶的行為特征。不同人群可視化展示效果如圖4所示。
4.2特殊時(shí)間、事件對用戶出行影響的分析
從所有數(shù)據(jù)中選出周末、節(jié)假日的數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,對得到的結(jié)果進(jìn)行可視化展示效果如圖5所示。
從圖5中可以看出,在周末和節(jié)假日用戶的出行特征會(huì)產(chǎn)生明顯的變化,去學(xué)校和公司的人群明顯減少,而出行特征規(guī)律(家/酒店->其它->家/酒店)的用戶明顯增加。如圖6所示,
周末因?yàn)椴簧习嗪筒簧蠈W(xué),所以教育和公司兩個(gè)位置的人數(shù)明顯比工作日少;而節(jié)假日的到來,很多用戶會(huì)選擇旅游、回家等,相對工作日和周末,酒店和其它(如:旅游景點(diǎn)等)的用戶數(shù)會(huì)出現(xiàn)大量增長。通過以上對比分析,結(jié)果符合現(xiàn)實(shí)中大部分用戶的行為習(xí)慣,所以,以上的分析是合理的。
5總結(jié)
本文完整地介紹了一種基于時(shí)間變化的用戶出行和特征的可視化方法研究。從大量用戶的移動(dòng)位置數(shù)據(jù)中,對數(shù)據(jù)進(jìn)行處理、分析和POI分類,獲得符合需求的用戶特征數(shù)據(jù)。并利用可視化技術(shù),將數(shù)據(jù)清晰地展示出來,從而幫助軟件運(yùn)營商推送更精確的信息給用戶,提高用戶的體驗(yàn)度。為此,使用關(guān)聯(lián)分析算法獲得用戶出行興趣點(diǎn)之間的相似性,結(jié)合時(shí)間排序?qū)﹃P(guān)聯(lián)興趣點(diǎn)進(jìn)行對應(yīng)時(shí)間段的映射,通過桑基圖結(jié)合時(shí)間將一天用戶活動(dòng)規(guī)律可視化展示出來,以此來實(shí)現(xiàn)對移動(dòng)用戶出行特征的分析。
參考文獻(xiàn):
[1]羅倩.K-means聚類中心的魯棒優(yōu)化算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2015,36(9):2396-2400.
[2]曹鶴玲,姜淑娟,鞠小林,等.基于動(dòng)態(tài)切片和關(guān)聯(lián)分析的錯(cuò)誤定位方法[J].計(jì)算機(jī)學(xué)報(bào),2015,38(11):2188-2202.
[3]張宏鑫,盛風(fēng)帆,徐沛原,等.基于移動(dòng)終端日志數(shù)據(jù)的人群特征可視化 [J].軟件學(xué)報(bào),2016,27(5):1174-1187.
[4]潘明遠(yuǎn),方金云,章立生.基于用戶反饋的POI搜索引擎優(yōu)化研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(32):112-115.
[5]Han Jiawei, Pei Jian, Yin Yiwen. Mining frequent patterns without candidate generation[C] // SIGMOD00. [ s.l.] :[ s.n.] ,2000.