亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于時(shí)間變化的用戶出行和特征的可視化方法研究

        2017-03-21 14:44:15夏東
        電腦知識與技術(shù) 2016年33期
        關(guān)鍵詞:行為特征關(guān)聯(lián)分析可視化

        夏東

        摘要: 移動(dòng)智能終端能方便地通過GPS獲取大量的用戶位置數(shù)據(jù),從而清楚地知道用戶的位置軌跡和關(guān)鍵地點(diǎn)。為了有效發(fā)現(xiàn)移動(dòng)用戶的行為特征,通過采用POI分類原則對用戶位置建立興趣點(diǎn)語義,并使用了基于時(shí)間變化的移動(dòng)用戶興趣關(guān)聯(lián)模型的挖掘算法,得到了具有不同出行特征的人群,從而提出了基于走勢圖和?;鶊D的可視化展現(xiàn)和分析方案。最后,根據(jù)分析研究,實(shí)現(xiàn)了對移動(dòng)用戶出行和特征的可視化方法研究,并通過實(shí)際案例驗(yàn)證了可行性。

        關(guān)鍵詞:時(shí)間變化;關(guān)聯(lián)分析;可視化;行為特征

        中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)33-0012-04

        如今,隨著移動(dòng)智能終端的普及,越來越多的移動(dòng)設(shè)備都具備GPS功能,用戶使用一些電子地圖時(shí),比如百度地圖、高德地圖等,會(huì)收集用戶活動(dòng)位置的GPS數(shù)據(jù),對這些數(shù)據(jù)的分析能幫助軟件商更加了解用戶的行為特征,有助于在以后的軟件功能升級中加入對用戶使用軟件習(xí)慣的決策考慮,提高軟件的用戶體驗(yàn)度。數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘來自大事務(wù)數(shù)據(jù)集之間的關(guān)聯(lián)和統(tǒng)計(jì)的發(fā)現(xiàn),主要考慮支持度和置信度。對于手機(jī)用戶,由于可以無縫上網(wǎng)的特殊性,隨著時(shí)間的推移,出行位置變化會(huì)呈現(xiàn)一定的規(guī)律性,關(guān)注在最近用戶出行位置的情況能更有效反應(yīng)用戶的出行愛好。通過對分析的數(shù)據(jù)進(jìn)行可視化的展示能更加直觀展示隱藏的信息。

        1相關(guān)工作

        1.1數(shù)據(jù)處理

        當(dāng)用戶使用電子地圖app軟件時(shí),它能收集用戶活動(dòng)位置的GPS數(shù)據(jù),并通過移動(dòng)互聯(lián)網(wǎng)將代表用戶位置的經(jīng)緯度數(shù)據(jù)傳輸?shù)椒?wù)器,通過對這些數(shù)據(jù)的分析對于了解用戶的行為趨勢具有至關(guān)重要的作用。為了有效獲取用戶的地理位置數(shù)據(jù),采用了數(shù)據(jù)統(tǒng)計(jì)技術(shù),在統(tǒng)計(jì)的基礎(chǔ)上對數(shù)據(jù)進(jìn)行清理、集成、存儲和轉(zhuǎn)換,并根據(jù)POI分類原則對位置建立興趣點(diǎn)語義,從而對得到的結(jié)果進(jìn)行聚類分析,采用K-means聚類算法,是一種數(shù)據(jù)點(diǎn)到目標(biāo)點(diǎn)距離作為最優(yōu)的分類算法,通過聚類能得到位置語義興趣相似的類[1],對相似的類采用FP-Growth算法進(jìn)行興趣點(diǎn)關(guān)聯(lián)分析[2]。

        1.2數(shù)據(jù)可視化

        數(shù)據(jù)可視化是利用各種可視化技術(shù),將數(shù)據(jù)展示出來,幫助用戶更好的理解和分析數(shù)據(jù)[3]。本文采用基于走勢圖和?;鶊D的可視化展示方案,走勢圖是一種緊湊簡潔的數(shù)據(jù)趨勢表達(dá)方式,建立在折線圖的基礎(chǔ)上,使用高度密集的線段來表示數(shù)據(jù)隨時(shí)間的變化趨勢,但因?yàn)榇笮〉南拗?,不容易表達(dá)太多詳細(xì)信息。為了解決這問題,提出了結(jié)合網(wǎng)絡(luò)圖特征的走勢圖,能達(dá)到更好的可視化效果。桑基圖是一種能量分流圖,特征是開始和結(jié)尾的總體寬度相等,最重要的是能很好展示出不同時(shí)間段數(shù)據(jù)間的脈絡(luò)關(guān)系。

        2基于時(shí)間的用戶出行數(shù)據(jù)關(guān)聯(lián)分析

        本文課題研究是基于移動(dòng)終端出行數(shù)據(jù)的用戶特征可視化,試著發(fā)現(xiàn)用戶日常行為中相似的行為特征,更好地了解移動(dòng)用戶的行為習(xí)慣。根據(jù)這一需求,確定了本文研究整體流程,如圖1所示,主要分為4個(gè)步驟:1)獲取研究需要的移動(dòng)出行數(shù)據(jù);2)根據(jù)需求對數(shù)據(jù)進(jìn)行篩選,整理出有效的數(shù)據(jù);3)對整理好的數(shù)據(jù)建立可視化模型,根據(jù)模型選擇合適的可視化方法,進(jìn)行可視化映射;4)根據(jù)展現(xiàn)的結(jié)果,結(jié)合出行的需求和實(shí)際情況分析反饋,獲得滿足要求的可視化結(jié)果。

        2.1問題分析

        移動(dòng)設(shè)備上能方便獲取用戶的出行位置信息,通過對移動(dòng)用戶位置數(shù)據(jù)運(yùn)用數(shù)據(jù)挖掘技術(shù),得到移動(dòng)用戶出行愛好的特點(diǎn),系統(tǒng)中需要統(tǒng)計(jì)用戶出行的情況,重點(diǎn)在于時(shí)序變化、人群比較、出行規(guī)律:

        a) 移動(dòng)用戶出行位置的隨機(jī)性。移動(dòng)用戶的出行位置點(diǎn)具有連續(xù)性,一天時(shí)間內(nèi)每個(gè)不同的位置點(diǎn)變化都是相互關(guān)聯(lián)的,但是用戶出現(xiàn)的位置點(diǎn)受客觀的影響是不確定的。

        b) 移動(dòng)用戶出行位置的規(guī)律性。在大部分情況下,移動(dòng)用戶的訪問都是有規(guī)律的,如家>公司>家這樣的出行組合;像周末、節(jié)假日會(huì)出現(xiàn)不同的訪問情況,如家>其它(去醫(yī)院、出差等)>家這樣的出行組合,并不能說這些特殊的情況沒有研究價(jià)值,它可能在很長一段時(shí)間重復(fù)的出現(xiàn)。

        2.2影響移動(dòng)用戶出行的因素

        一些特殊時(shí)間、事件會(huì)影響移動(dòng)用戶的出行,如遇到節(jié)假日和周末會(huì)對出行產(chǎn)生一些變化,因?yàn)橹苣┖凸?jié)假日用戶在工作單位出現(xiàn)的幾率會(huì)明顯降低,而在其它地點(diǎn)如健身場館、商場等出現(xiàn)的幾率會(huì)升高。對于出行會(huì)產(chǎn)生很大的影響還有兩個(gè)因素:用戶的年齡、性別。由于用戶年齡和性別的差異,如身份因素學(xué)生、白領(lǐng)、退休職工等不同而選擇相異的出行。

        2.3用戶出行規(guī)律和平均使用手機(jī)時(shí)長的關(guān)系

        用戶使用手機(jī)時(shí)間的長短會(huì)因?yàn)槌鲂形恢玫攸c(diǎn)的不同而發(fā)生相應(yīng)的變化,這種變化也具有一定的規(guī)律性,如在工作單位的時(shí)候使用手機(jī)的時(shí)長可能會(huì)比較短,下班后晚間在居住的地點(diǎn)使用手機(jī)的時(shí)間會(huì)相對增加;在上下班往返于居住和工作環(huán)境的時(shí)間里使用手機(jī)時(shí)間可能也相應(yīng)增加。

        2.4移動(dòng)用戶出行數(shù)據(jù)處理方法

        出行數(shù)據(jù)的處理方法流程包括清理數(shù)據(jù)、集成數(shù)據(jù)、存儲數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù):

        (1) 數(shù)據(jù)清理。噪聲信息和錯(cuò)誤信息等很多存在于原始數(shù)據(jù)中。

        (2) 數(shù)據(jù)集成。進(jìn)行集成不同相似度數(shù)據(jù),如九寨溝屬于旅游景點(diǎn)類的。

        (3) 數(shù)據(jù)存儲。將集成好的數(shù)據(jù)進(jìn)行存儲。

        (4) 數(shù)據(jù)轉(zhuǎn)換。對存儲好的數(shù)據(jù)進(jìn)行有目的的挖掘,轉(zhuǎn)換得到有價(jià)值的結(jié)果。

        2.5移動(dòng)用戶出行數(shù)據(jù)POI興趣點(diǎn)

        通過手機(jī)GPS獲得了用戶的位置數(shù)據(jù),為了更好的分析移動(dòng)用戶的興趣位置,采用POI興趣點(diǎn)分類位置數(shù)據(jù),興趣點(diǎn)(Point of Interest,簡稱POI)在用戶地理信息系統(tǒng)中,包含名稱、類別、經(jīng)度和維度這四個(gè)方面的信息,它可以是一所學(xué)校、一個(gè)操場、一個(gè)汽車站等,能更加準(zhǔn)確的確定用戶的興趣位置。潘明遠(yuǎn)等[4]通過研究地理信息和對自然語言的處理,總結(jié)了POI分類的原則和方法,并構(gòu)建了POI分類模型。

        2.6POI興趣點(diǎn)分類

        根據(jù)移動(dòng)用戶的出行行為特點(diǎn),結(jié)合POI分類的原則,將用戶位置數(shù)據(jù)分為一級、二級的層級結(jié)構(gòu)兩類,其中一級類是和人們生活密切相關(guān)的美食、購物、旅游景點(diǎn)等17個(gè)類,二級類是在大類基礎(chǔ)上細(xì)分的小類。如表1所示。

        2.7基于時(shí)間的關(guān)聯(lián)分析算法

        FP-Growth[5]算法是由韓家煒等提出的使用了一種緊縮的數(shù)據(jù)結(jié)構(gòu)來存儲查找頻繁項(xiàng)集所需要的全部信息的關(guān)聯(lián)規(guī)則挖掘算法。然而一味地追求效率的提高是不夠的,還需要同時(shí)針對特殊情況對獲得的結(jié)果集進(jìn)行精煉,使數(shù)據(jù)有更高的置信度。

        1) 通過下面的例子解釋這個(gè)問題。

        從表2中看出,在4月28日之前,用戶只滑動(dòng)過“NBA臺球CBA 足球“,沒有滑動(dòng)過”健康“;并且,在4月18日后,“NBA臺球“都是一起被用戶所滑動(dòng)的。根據(jù)上面的解釋,得出關(guān)聯(lián)規(guī)則的置信度:

        A. 從4月15日起:Conf(NBA 臺球CBA)=290/500=58%

        B. 從4月18日起:Conf(NBA 臺球CBA)=290/40072%

        C. 從4月20日起:Conf(NBA臺球CBA)=290/290=100%

        D. 從4月20日起:Conf(NBA臺球CBA足球)=180/29062%

        E. 從4月28日起:Conf(NBA臺球CBA 足球健康)=90/90=100%

        從中看出:因?yàn)樵?月28日之前“健康”都沒有出現(xiàn)過,所以規(guī)則[ 從4月28日起:Conf(NBA臺球CBA 足球==>健康)=90/90=100%]看起來更準(zhǔn)確。從而能更清晰知道先前滑動(dòng)的項(xiàng)集(NBA臺球CBA 足球)和最新滑動(dòng)的項(xiàng)集(健康)之間的關(guān)聯(lián)。通過研究最新滑動(dòng)圖片的關(guān)聯(lián)規(guī)則,能有助于在策略的規(guī)定下,由前期的項(xiàng)集產(chǎn)生關(guān)聯(lián)更強(qiáng)的后期項(xiàng)集。

        2.8基于時(shí)間排序的位置語義關(guān)聯(lián)

        大部分關(guān)聯(lián)挖掘算法(如:Apriori、FP-Growth)關(guān)注的是提高頻繁項(xiàng)集挖掘的效率,而不是根據(jù)特殊情況挖掘特殊項(xiàng)集。通常而言,時(shí)間因素對歷史項(xiàng)集提供一個(gè)更高的支持度,對最新的項(xiàng)集有更差的支持度,所以使用流行的關(guān)聯(lián)挖掘算法能得到需要的結(jié)果。但是對于特殊項(xiàng)集加入時(shí)間的分析,能得到更準(zhǔn)確的結(jié)果。

        將需要處理的數(shù)據(jù)從Mysql數(shù)據(jù)庫取出,處理前的數(shù)據(jù)如圖2所示。

        通過運(yùn)用上面的算法對用戶位置興趣點(diǎn)進(jìn)行處理,記錄每個(gè)興趣點(diǎn)第一次發(fā)生的時(shí)間,并基于出現(xiàn)時(shí)間的先后順序?qū)Λ@得的頻繁項(xiàng)集中的興趣點(diǎn)進(jìn)行排序,最終得到的結(jié)果如表3所示,對比現(xiàn)實(shí)中人的活動(dòng)規(guī)律,得到的組合規(guī)律符合實(shí)際中人的出行行為習(xí)慣。

        3 數(shù)據(jù)可視化轉(zhuǎn)化

        對大量的手機(jī)出行數(shù)據(jù)進(jìn)行有針對性的篩選和處理后,通過頁面的表現(xiàn)形式對結(jié)果進(jìn)行展示,方便用戶可以自己去觀察數(shù)據(jù)中的有用價(jià)值。增加新的維度,那么往往只能采用以下辦法,增加新的下拉列表、時(shí)間軸等與原圖耦合度不高的部件來顯示,這種部件越多,用戶理解起來也會(huì)越困難,增加一個(gè)兩個(gè)可以接受,如果維度過多,應(yīng)拆開為多圖顯示?;谏鲜鰧Ρ敬慰梢暬芯繂栴}的探討和對用戶數(shù)據(jù)的分析,本文采用基于ECharts圖表組件來實(shí)現(xiàn)對數(shù)據(jù)的可視化展示,逐漸探索出了基于移動(dòng)終端出行數(shù)據(jù)的用戶特征可視化的流程和方法。

        3.1走勢圖

        通過FP-tree對多維數(shù)據(jù)的分析處理,我們選擇采用個(gè)性化的走勢圖來展示,需要展示的移動(dòng)用戶信息,包含時(shí)間、年齡、出行位置、性別,其中時(shí)間和年齡是固定不變的,屬于靜態(tài)數(shù)據(jù),出行位置、平均使用手機(jī)時(shí)長是隨著時(shí)間變化的,屬于動(dòng)態(tài)數(shù)據(jù)。普通的走勢圖不能體現(xiàn)不同位置語義的問題,為了解決這個(gè)問題,結(jié)合網(wǎng)絡(luò)圖方法,展示關(guān)聯(lián)規(guī)則,可以利用不同顏色的結(jié)點(diǎn)代表項(xiàng)目,結(jié)點(diǎn)之間的連線代表項(xiàng)目間的關(guān)聯(lián)關(guān)系。如圖3所示,采用不同的顏色視覺編碼來表示出行位置語義。

        3.2桑基圖

        為了更好讓用戶查看到不同人群的關(guān)聯(lián)分析結(jié)果,采用?;鶊D(Sankey diagram )來展示數(shù)據(jù),常用于能源、材料成分、金融等數(shù)據(jù)的可視化分析,能很好地展示數(shù)據(jù)間的分流合流情況。?;鶊D中的基本圖形是不同寬度的矩陣,用不同的面積代表數(shù)據(jù)的大小,配以不同的顏色能更好地區(qū)分不同的實(shí)體,使用線的走向代表數(shù)據(jù)的分流、合流情況。最終得到的?;鶊D形式可視化展示的結(jié)果如圖4所示。

        ?;鶊D能更好地利用空間,每個(gè)矩陣能很清晰的顯示每個(gè)出行位置人數(shù)的多少,通過觀察線的走向可以看出人群流向不同矩陣的分布情況。桑基圖比較適合展示人群活動(dòng)流向關(guān)聯(lián)的可視化效果。

        4案例分析

        4.1總體規(guī)律

        為實(shí)驗(yàn)準(zhǔn)備了10萬條用戶出行位置數(shù)據(jù),每一條數(shù)據(jù)都對應(yīng)POI興趣點(diǎn)中的類,每個(gè)用戶每天八個(gè)時(shí)間段最多有八個(gè)興趣點(diǎn),這些點(diǎn)中可能會(huì)有重復(fù)的,如住宅、宿舍的興趣點(diǎn)可能會(huì)出現(xiàn)在凌晨、早晨和晚上三個(gè)時(shí)間段。我們使用FP-tree,對所有用戶一個(gè)月內(nèi)每天出行興趣點(diǎn)進(jìn)行關(guān)聯(lián)分析,對得到的分析進(jìn)行時(shí)間排序,得到結(jié)果見表3。

        如表4所示,將一天分為8個(gè)時(shí)間段。

        從表3中得出的數(shù)據(jù)關(guān)聯(lián)結(jié)果,結(jié)合表4中不同時(shí)間段,找出對應(yīng)的出行興趣點(diǎn),得到如下的活動(dòng)情況表,如表5所示。

        從表5中人群活動(dòng)的情況我們可以看出,所有人群的特征可以歸納為3種:

        a) 出行特征規(guī)律是(家->公司->家),如人群1、人群2和人群6。

        b) 出行特征規(guī)律是(宿舍->學(xué)校->宿舍),如人群3。

        c) 出行特征規(guī)律是(家/酒店->其它->家/酒店),如人群4、人群5和人群7。

        根據(jù)實(shí)際調(diào)查的情況,數(shù)據(jù)對比一致,這3種活動(dòng)規(guī)律的人群確實(shí)能代表大部分用戶的行為特征。不同人群可視化展示效果如圖4所示。

        4.2特殊時(shí)間、事件對用戶出行影響的分析

        從所有數(shù)據(jù)中選出周末、節(jié)假日的數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,對得到的結(jié)果進(jìn)行可視化展示效果如圖5所示。

        從圖5中可以看出,在周末和節(jié)假日用戶的出行特征會(huì)產(chǎn)生明顯的變化,去學(xué)校和公司的人群明顯減少,而出行特征規(guī)律(家/酒店->其它->家/酒店)的用戶明顯增加。如圖6所示,

        周末因?yàn)椴簧习嗪筒簧蠈W(xué),所以教育和公司兩個(gè)位置的人數(shù)明顯比工作日少;而節(jié)假日的到來,很多用戶會(huì)選擇旅游、回家等,相對工作日和周末,酒店和其它(如:旅游景點(diǎn)等)的用戶數(shù)會(huì)出現(xiàn)大量增長。通過以上對比分析,結(jié)果符合現(xiàn)實(shí)中大部分用戶的行為習(xí)慣,所以,以上的分析是合理的。

        5總結(jié)

        本文完整地介紹了一種基于時(shí)間變化的用戶出行和特征的可視化方法研究。從大量用戶的移動(dòng)位置數(shù)據(jù)中,對數(shù)據(jù)進(jìn)行處理、分析和POI分類,獲得符合需求的用戶特征數(shù)據(jù)。并利用可視化技術(shù),將數(shù)據(jù)清晰地展示出來,從而幫助軟件運(yùn)營商推送更精確的信息給用戶,提高用戶的體驗(yàn)度。為此,使用關(guān)聯(lián)分析算法獲得用戶出行興趣點(diǎn)之間的相似性,結(jié)合時(shí)間排序?qū)﹃P(guān)聯(lián)興趣點(diǎn)進(jìn)行對應(yīng)時(shí)間段的映射,通過桑基圖結(jié)合時(shí)間將一天用戶活動(dòng)規(guī)律可視化展示出來,以此來實(shí)現(xiàn)對移動(dòng)用戶出行特征的分析。

        參考文獻(xiàn):

        [1]羅倩.K-means聚類中心的魯棒優(yōu)化算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2015,36(9):2396-2400.

        [2]曹鶴玲,姜淑娟,鞠小林,等.基于動(dòng)態(tài)切片和關(guān)聯(lián)分析的錯(cuò)誤定位方法[J].計(jì)算機(jī)學(xué)報(bào),2015,38(11):2188-2202.

        [3]張宏鑫,盛風(fēng)帆,徐沛原,等.基于移動(dòng)終端日志數(shù)據(jù)的人群特征可視化 [J].軟件學(xué)報(bào),2016,27(5):1174-1187.

        [4]潘明遠(yuǎn),方金云,章立生.基于用戶反饋的POI搜索引擎優(yōu)化研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(32):112-115.

        [5]Han Jiawei, Pei Jian, Yin Yiwen. Mining frequent patterns without candidate generation[C] // SIGMOD00. [ s.l.] :[ s.n.] ,2000.

        猜你喜歡
        行為特征關(guān)聯(lián)分析可視化
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        基于CGAL和OpenGL的海底地形三維可視化
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        基于隨機(jī)函數(shù)Petri網(wǎng)的系統(tǒng)動(dòng)力學(xué)關(guān)聯(lián)分析模型
        關(guān)聯(lián)分析技術(shù)在學(xué)生成績分析中的應(yīng)用
        基于行為分析的木馬檢測系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
        基于關(guān)聯(lián)分析的學(xué)生活動(dòng)參與度與高校社團(tuán)管理實(shí)證研究
        科技視界(2016年15期)2016-06-30 12:43:00
        居民休閑度假行為特征及影響因素分析
        商(2016年11期)2016-05-04 01:38:02
        不同的數(shù)據(jù)挖掘方法分類對比研究
        亚洲中文字幕乱码在线观看| 久久综合九色综合网站| 国产zzjjzzjj视频全免费| 99精品欧美一区二区三区美图| 情色视频在线观看一区二区三区 | 国产精品白浆一区二小说| 久久精品国产88久久综合 | 亚洲无人区乱码中文字幕动画 | 很黄很色的女同视频一区二区| 欧洲女人与公拘交酡视频| 亚洲精品无码久久久久久| 国产精品无码专区综合网| 青青草视频国产在线观看| 伊人久久大香线蕉av最新午夜| 国产无套乱子伦精彩是白视频| 伊人久久大香线蕉av网禁呦| 两个人看的www中文在线观看| 国产成人精品蜜芽视频| 久久精品国产自产对白一区| 97色伦图片97综合影院| 人妻少妇精品视频无码专区| 亚洲mv国产精品mv日本mv| 91麻豆精品一区二区三区| 日本精品久久不卡一区二区| 肉色欧美久久久久久久免费看| 国产精品毛片无码| 精品国产日韩无 影视| 亚洲综合在不卡在线国产另类| 中文有码无码人妻在线| 国产亚洲精品资源在线26u| 国产精品白浆视频一区| 日韩精品极品免费在线视频| 国产美女主播视频一二三区| 亚洲人成电影在线播放| 国产极品美女高潮抽搐免费网站 | 一区二区午夜视频在线观看| 天天摸天天做天天爽水多| 免费精品一区二区三区第35| 亚洲综合日韩中文字幕| 亚洲精品成人一区二区三区| 国产 精品 自在 线免费|