亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于到達(dá)時(shí)間的行為模式挖掘?

        2020-11-02 09:00:40李克華劉志鋒周從華
        關(guān)鍵詞:軌跡語義聚類

        李克華 劉志鋒 周從華

        (江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院 鎮(zhèn)江 212013)

        1 引言

        隨著GPS 定位技術(shù)的不斷發(fā)展與智能移動(dòng)設(shè)備的普及,軌跡數(shù)據(jù)的獲取不再困難。比如通過開啟智能收集中的定位服務(wù),可以記錄用戶的位置,所有這些位置記錄組成了該用戶的原始軌跡,從這些軌跡中推斷出用戶的日常行為習(xí)慣。針對(duì)這一相關(guān)應(yīng)用的需求逐漸增多,在個(gè)性化服務(wù)中,幫助服務(wù)供應(yīng)商了解用戶的生活規(guī)律,預(yù)測(cè)用戶的行駛路徑,實(shí)現(xiàn)商品或路徑推薦;或者在推薦系統(tǒng)中,通過用戶分享的軌跡數(shù)據(jù),發(fā)現(xiàn)用戶的生活方式、興趣愛好等,推薦趣味相投的朋友;因此,近年來不少學(xué)者開始關(guān)注移動(dòng)用戶軌跡模式的研究。

        移動(dòng)用戶軌跡模式的挖掘分為兩類:基于地理位置的軌跡模式挖掘和基于語義信息的軌跡模式挖掘。前者主要關(guān)注的是位置特征,即GPS類型的移動(dòng)數(shù)據(jù),后者主要關(guān)注的是語義信息,這類數(shù)據(jù)有些需要從GPS軌跡中計(jì)算得到語義信息,有些則是已經(jīng)標(biāo)注好語義的數(shù)據(jù);同傳統(tǒng)的軌跡挖掘算法相比,語義軌跡行為模式挖掘計(jì)算量大大減小,并且能更好地反映用戶平常的行為模式與生活習(xí)慣。

        在語義軌跡模式挖掘技術(shù)方面,目前缺乏一種能夠處理用戶在基于語義點(diǎn)到達(dá)時(shí)間下的高準(zhǔn)確性的軌跡模式挖掘方法。為了解決這一問題,本文提出了一種基于到達(dá)時(shí)間的語義行為模式挖掘方法。將原始的語義軌跡轉(zhuǎn)化成具有代表性的語義軌跡模式,并根據(jù)語義軌跡模式進(jìn)行用戶相似度的度量。該方法的優(yōu)勢(shì)在于1)能夠提高不同語義行為模式之間的區(qū)分度;2)能夠發(fā)現(xiàn)具有相似生活方式或行為習(xí)慣的移動(dòng)對(duì)象群體。

        2 相關(guān)工作

        本節(jié)首先介紹了語義軌跡頻繁模式挖掘方法,然后概括了現(xiàn)有的語義軌跡相似度度量方法。

        Zheng Yu 等提出了將地理軌跡轉(zhuǎn)化為語義軌跡的方法,基于移動(dòng)對(duì)象在某個(gè)區(qū)域范圍內(nèi)停留的時(shí)間來判定停留點(diǎn),一系列的停留點(diǎn)便形成了語義軌跡[1]。Furtado 等將原始的軌跡序列轉(zhuǎn)換成一系列的子序列片段,然后按照網(wǎng)格軌跡序列的形狀相似程度和空間上的遠(yuǎn)近程度對(duì)分段后的子軌跡進(jìn)行重組,進(jìn)而通過應(yīng)用子樹結(jié)構(gòu)和技術(shù)來找出頻繁的路徑模式[9]。Huang 等通過定義距離公式,將軌跡進(jìn)行聚類,軌跡在不同聚類轉(zhuǎn)移的模式即為軌跡的頻繁模式,但該方法不適用于語義軌跡[2]。Liu等提出了基于地理位置的語義軌跡頻繁模式挖掘方法。該方法采用STP-tree 對(duì)語義軌跡的模式按照地點(diǎn)的先后順序進(jìn)行索引,每條路徑代表一個(gè)模式,遍歷STP-tree找到所有符合給定頻繁閾值的模式即可得到語義軌跡頻繁模式[3]。Ying 等將軌跡經(jīng)過的地點(diǎn)作為軌跡的語義點(diǎn),并基于這些語義點(diǎn)建立T-pattern Tree,其結(jié)構(gòu)類似STP-Tree,只是T-pattern Tree 的每一條邊記錄了語義軌跡從一個(gè)地點(diǎn)轉(zhuǎn)移到另一個(gè)地點(diǎn)所需要的時(shí)間,同樣的,遍歷T-pattern Tree 找到所有符合給定閾值的模式即可得到語義軌跡頻繁模式挖掘[4]。上述方法中,只有文獻(xiàn)[4]考慮了語義軌跡中的時(shí)間因素,但只考慮了語義點(diǎn)之間的轉(zhuǎn)移時(shí)間,沒有考慮到達(dá)時(shí)間。

        文獻(xiàn)[1,5,7]討論并研究了語義軌跡的相似性。文獻(xiàn)將軌跡轉(zhuǎn)換成語義軌跡,然后通過移動(dòng)對(duì)象之間的相似性進(jìn)行用戶推薦,文獻(xiàn)[1]依據(jù)用戶之間軌跡模式的相似性定義用戶之間的相似性,文獻(xiàn)[5]通過層次樹狀結(jié)構(gòu)計(jì)算相似性?;诘乩硖卣餍畔⒌南嗨菩远攘糠椒ㄖ荒芴幚碥壽E的位置信息,而基于語義信息的相似性度量方法沒有考慮到達(dá)時(shí)間的影響,因此現(xiàn)有的相似性度量方法不能解決基于到達(dá)時(shí)間的語義軌跡相似性問題。

        為了解決上述問題,本文提出了一種基于到達(dá)時(shí)間的行為模式挖掘方法。

        3 問題定義

        本節(jié)給出語義行為模式相關(guān)的定義

        定義1語義點(diǎn)語義點(diǎn)S定義為

        其中,s是用戶的停留點(diǎn),tarrive是用戶在語義點(diǎn)S的到達(dá)時(shí)間。

        定義2語義軌跡

        語義軌跡是一個(gè)由n個(gè)語義點(diǎn)組成的序列。

        對(duì)任意的si和si+1,有ti≤ti+1。語義軌跡長(zhǎng)度即為所包含的語義點(diǎn)的數(shù)量,記為|ST|=n。所有語義軌跡組成的集合稱為語義軌跡集,記為R,軌跡的數(shù)量為 |R|。

        定義3用戶語義行為模式 給定用戶語義軌跡集合R和最小支持度sup,用戶行為語義模式即從軌跡中挖掘出頻繁語義行為模式P=,滿足條件:

        最后,給出本文問題描述:基于到達(dá)時(shí)間的語義行為模式挖掘是指給定用戶語義軌跡集合R,最小支持度sup 和時(shí)間閾值δt,依據(jù)sup 和δt,從語義軌跡集合中進(jìn)行用戶語義軌跡頻繁模式的提取,得到可以反映用戶生活習(xí)慣的語義行為模式。

        4 語義軌跡頻繁模式挖掘

        本節(jié)介紹了用戶的語義行為模式挖掘方法。在行為模式挖掘之前,先對(duì)原始數(shù)據(jù)進(jìn)行語義軌跡的轉(zhuǎn)換,關(guān)于地理數(shù)據(jù)轉(zhuǎn)換為語義軌跡數(shù)據(jù)的研究較為豐富[8],本節(jié)不再詳細(xì)描述,然后針對(duì)每一個(gè)用戶,挖掘出他的頻繁語義模式。這里以在校大學(xué)生的數(shù)據(jù)集為例進(jìn)行說明。整合大學(xué)生的智能卡使用信息以及校園內(nèi)各個(gè)地點(diǎn)的門禁日志可以得到學(xué)生的語義軌跡。對(duì)每個(gè)學(xué)生,以天為單位從其個(gè)人記錄中提取出若干條包含時(shí)間的語義軌跡,如表格1所示。

        表1 語義軌跡集示例

        語義軌跡代表了學(xué)生在某一天的時(shí)空行為,語義軌跡頻繁模式挖掘是從許多語義軌跡中找出行為模式。每個(gè)用戶的語義軌跡隨著用戶移動(dòng)地點(diǎn)及時(shí)間的不同呈現(xiàn)多樣化形式,但是可以通過行為模式挖掘分析出不同用戶的行為習(xí)慣。我們基于prefix-span算法的思想來構(gòu)建頻繁模式挖掘算法。

        定義4投影數(shù)據(jù)庫(kù) 給定語義軌跡集合R,α的投影數(shù)據(jù)庫(kù)R(α)=,tuple定義為

        其中,id軌跡在語義軌跡集中的標(biāo)識(shí)號(hào),pos是α中最后的語義點(diǎn)在語義軌跡中的位置,t是最后一個(gè)語義點(diǎn)的到達(dá)時(shí)間,proj是pos以α為前綴的子序列。

        算法1:行為模式挖掘算法

        輸入:語義軌跡集R,時(shí)間間隔δt,

        最小支持度θ

        輸出:頻繁語義模式FP

        1.S1←frequent(R(P))

        2.for β in S1do

        3. P'←P⊕β

        4. R(P)←?

        5. for p in R(P)do

        6. S ←R(p.id)

        7. for i:i >p.pos Si=β do

        8. R(P')←R(P')∪<p.id,i,Si.t,p.proj⊕β >

        9. end for

        10. end for

        11. for p'in R(P')do

        12. T ←SET(R(P'),p',δt)

        13. if |T |≥θ× |R |th en

        14. Pnew←getPattern(P',T)

        15. P ←P ∪Pnew

        16. end if

        17. end for

        18.end for

        19.return P

        算法中函數(shù)SET()計(jì)算到達(dá)時(shí)間差額在δt范圍內(nèi)的項(xiàng)目集,假設(shè)與p'等價(jià)的到達(dá)時(shí)間范圍G,的等價(jià)到達(dá)時(shí)間范圍G=[p'.t-δt,p'.t+δt]。

        函數(shù)getPattern()根據(jù)集合T中的平均到達(dá)時(shí)間構(gòu)建β的到達(dá)時(shí)間,最終返回頻繁語義行為模式P'=P(β,tβ) 。

        在行為模式挖掘算法中,首先找出語義軌跡集中長(zhǎng)度為1 的語義符號(hào)項(xiàng)集S1,將P與S1中的語義點(diǎn)β進(jìn)行拓展,并在語義軌跡集合R中構(gòu)造投影數(shù)據(jù)庫(kù)(行1-10),然后遞歸構(gòu)建頻繁語義行為模式。對(duì)每一個(gè)項(xiàng)集p',調(diào)用函數(shù)SET()返回行為模式中與其等價(jià)的語義集軌跡合T,經(jīng)判斷,若為頻繁模式,調(diào)用函數(shù)getPattern()構(gòu)建頻繁語義行為模式。

        5 語義模式相似度

        本節(jié)介紹了語義行為模式相似度的度量。研究表明,語義行為模式之間的相似度取決于兩個(gè)模式之間的公共子序列。當(dāng)兩種行為模式之間的公共子序列越長(zhǎng),我們認(rèn)為兩種行為模式越相似。

        MSTP-similarity算法計(jì)算的是每個(gè)用戶最長(zhǎng)的語義軌跡模式之間的相似度。語義軌跡的長(zhǎng)度越長(zhǎng),它所產(chǎn)生的子序列數(shù)目越多。模式的所有子序列都會(huì)參與到用戶的相似度計(jì)算中,為了避免重復(fù)計(jì)算帶來的誤差問題該方法只使用最長(zhǎng)語義軌跡模式表示用戶的頻繁行為習(xí)慣。計(jì)算方式如下:

        在上一節(jié)中我們已經(jīng)對(duì)用戶語義軌跡進(jìn)行了頻繁語義軌跡模式的提取,得到的結(jié)果代表了用戶的行為模式,無需另選最長(zhǎng)語義軌跡。但是原算法在計(jì)算行為模式相似度的時(shí)候存在一個(gè)問題:只基于兩個(gè)序列的符號(hào)的等同性來進(jìn)行相似性的計(jì)算。由于本文的語義行為模式序列中還具有時(shí)間信息,這些信息對(duì)于計(jì)算兩個(gè)行為模式的相似度具有重要的作用。所以,本節(jié)基于原來的MSTP-simi?larity 做了改進(jìn),使其可以將用戶對(duì)語義點(diǎn)的到達(dá)時(shí)間考慮到相似度計(jì)算中。首先,給出基于到達(dá)時(shí)間的最長(zhǎng)公共子序列定義:

        定義5最長(zhǎng)公共子序列給定兩個(gè)用戶語義行為模式P和Q,最長(zhǎng)公共子序列滿足條件:

        為了突出到達(dá)時(shí)間對(duì)用戶語義行為模式的影響,給出了時(shí)間因子的定義。

        定義6時(shí)間因子 給定用戶語義行為模式P,Q,當(dāng)其子序列元素一致時(shí),元素對(duì)相似度的貢獻(xiàn)值通過時(shí)間因子來表達(dá),定義如下:

        定義7用戶行為模式相似度 給定用戶語義行為模式P,Q及公共子串,P,Q之間的相似度定義為

        給定語義軌跡模式,當(dāng)公共子序列越多、時(shí)間因子越大時(shí),兩個(gè)模式越相似。由于尋找公共子序列的過程十分耗時(shí),本文采用動(dòng)態(tài)規(guī)劃法來尋找。動(dòng)態(tài)規(guī)劃方法采用二維數(shù)組標(biāo)識(shí)中間計(jì)算結(jié)果,避免了重復(fù)計(jì)算而提高了效率。相似度計(jì)算算法如下。

        算法中,我們采用動(dòng)態(tài)規(guī)劃算法逐步計(jì)算了P,Q之間的相似度,矩陣分別存儲(chǔ)了P_ratio,Q_ratio以及公共子序列的長(zhǎng)度count。首先對(duì)矩陣初始化,第一行第一列皆為0;然后依據(jù)count變化逐步計(jì)算P_ratio,Q_ratio。比如,矩陣的第一個(gè)元素count加1,然后P_ratio增加,Q_ratio增加(1/| {dor,lib}|)*T13,通過這種方式,逐步處理得到矩陣中的值。最后,根據(jù)定義計(jì)算兩個(gè)用戶的相似度。

        6 實(shí)驗(yàn)結(jié)果與分析

        6.1 數(shù)據(jù)集及實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)數(shù)據(jù):某大學(xué)經(jīng)過脫敏處理過后的9475名學(xué)生的校園語義軌跡。原始數(shù)據(jù)集示例如圖1。

        圖1 數(shù)據(jù)集概覽

        實(shí)驗(yàn)環(huán)境:編譯軟件/python 3.6.0,操作系統(tǒng)/Windows10/CPU/Intel(R)CORE(TM)i5-2450M,主頻2.50GHz,內(nèi)存8G。

        6.2 數(shù)據(jù)預(yù)處理

        我們以天為單位將學(xué)生的“數(shù)字足跡”轉(zhuǎn)化為語義軌跡軌跡,處理后的數(shù)據(jù)詳情如表2所示。

        表2 預(yù)處理后數(shù)據(jù)

        6.3 語義軌跡頻繁模式挖掘?qū)嶒?yàn)

        首先對(duì)實(shí)驗(yàn)的有效性進(jìn)行驗(yàn)證,即考慮到達(dá)時(shí)間后挖掘出的語義軌跡模式是否比沒有考慮到達(dá)時(shí)間時(shí)更具有代表性,更能表現(xiàn)用戶行為習(xí)慣,部分用戶語義行為模式挖掘結(jié)果如下。

        表3 基于到達(dá)時(shí)間的語義模式

        由于考慮了用戶在每個(gè)語義點(diǎn)的時(shí)間因素,挖掘出的行為模式更能體現(xiàn)每個(gè)學(xué)生的行為習(xí)慣,比如學(xué)生8和學(xué)生37,若不考慮時(shí)間約束下的行為模式挖掘,二者的校園語義軌跡近似相同,容易造成二人的生活習(xí)慣也類似的錯(cuò)覺,從而不利于后續(xù)相似度的計(jì)算。但是引入了到達(dá)時(shí)間之后發(fā)現(xiàn),學(xué)生8 的生活習(xí)慣傾向于早起去食堂吃早飯并喜歡去圖書館,白天的大部分時(shí)間不會(huì)在宿舍;而學(xué)生37則是基本不吃早飯而且經(jīng)常到中午才會(huì)離開宿舍,二者呈現(xiàn)出的行為模式完全不同。

        本節(jié)模擬了100 個(gè)用戶,依據(jù)每個(gè)用戶的行為模式生成了1000 條語義軌跡,20%條隨機(jī)生成,80%條語義軌跡依據(jù)4 中用戶行為習(xí)慣生成,為了更精確的評(píng)估挖掘算法的準(zhǔn)確率,定義如下:

        其中,ηcorrect是正確的語義行為模式個(gè)數(shù),ηall是語義行為模式的個(gè)數(shù)。參數(shù)設(shè)置如下:num=100,trj=1000,Lpat=6,Npc=20 。

        圖2 展示了不同時(shí)間閾值、不同支持度得到的行為模式準(zhǔn)確度。當(dāng)頻繁模式支持度偏小時(shí),得到的結(jié)果在不同時(shí)間閾值下沒有明顯的增加減小,因?yàn)橹С侄冗^小時(shí),挖掘到的行為模式并非主流結(jié)果,不能有效代表一個(gè)用戶的行為模式。當(dāng)支持度在0.1以上時(shí),挖掘到的語義模式更具代表性,隨著時(shí)間閾值的增加,準(zhǔn)確率也不斷提高。值得注意的是,當(dāng)時(shí)間閾值在40min~50min 以上時(shí),準(zhǔn)確率沒有改善,還有下降趨勢(shì),這是因?yàn)殡S著時(shí)間差增大,導(dǎo)致不同模式之間的區(qū)分度降低,從而影響了挖掘效果。

        圖2 準(zhǔn)確性評(píng)估

        6.4 相似度度量實(shí)驗(yàn)

        行為模式可以展現(xiàn)用戶的生活習(xí)慣和行為規(guī)律,經(jīng)濟(jì)能力相似的用戶通常具有類似的行為模式,為了驗(yàn)證這一假設(shè),對(duì)基于行為模式的用戶相似度度量方法辨別不同背景(經(jīng)濟(jì)能力)的用戶的效果進(jìn)行探索。

        實(shí)驗(yàn)中,首先基于行為模式計(jì)算每個(gè)學(xué)生對(duì)的相似度,然后基于學(xué)生間相似度矩陣采用k-means算法對(duì)所有學(xué)生進(jìn)行聚類。對(duì)于每一類學(xué)生,在4個(gè)聚類中尋找其主導(dǎo)聚類。采用兩個(gè)指標(biāo)評(píng)價(jià)該聚類效果:主導(dǎo)內(nèi)聚度(Iadr)和主導(dǎo)外聚度(Io?dr)。主導(dǎo)內(nèi)聚度指主導(dǎo)聚類中具有指定助學(xué)金人數(shù)和主導(dǎo)聚類中總?cè)藬?shù)的比例,主導(dǎo)外聚度指主導(dǎo)聚類中含有指定助學(xué)金的人數(shù)和該助學(xué)金獲得的總?cè)藬?shù)的比例。另外,為了考察引入到達(dá)時(shí)間后在本節(jié)方法中的效果,基于上述相同的實(shí)驗(yàn)設(shè)置,在不考慮時(shí)間因素的情況下提取行為模式并計(jì)算相似度,然后重新進(jìn)行用戶聚類。主導(dǎo)內(nèi)聚度和主導(dǎo)外聚度相較于未考慮時(shí)間因素下得到的結(jié)果均顯著增大,這說明了基于時(shí)間對(duì)用戶行為模式進(jìn)行挖掘得到的結(jié)果更能反映用戶生活習(xí)慣相似性。

        圖3 基于學(xué)生相似度的聚類效果

        7 結(jié)語

        針對(duì)語義軌跡模式挖掘中沒有考慮到達(dá)時(shí)間的問題,本文提出了基于到達(dá)時(shí)間的行為模式挖掘方法,首先對(duì)包含時(shí)間信息的語義軌跡進(jìn)行頻繁模式提取,然后基于挖掘到的頻繁模式對(duì)用戶計(jì)算相似度,并在真實(shí)數(shù)據(jù)集上驗(yàn)證了該方法的有效性和正確性。本文提出的方法在路徑預(yù)測(cè)、朋友推薦以及不同用戶群體區(qū)分等方面具有廣泛的應(yīng)用前景。未來可將其與地理軌跡特征結(jié)合起來處理,以達(dá)到更好的實(shí)用效果。

        猜你喜歡
        軌跡語義聚類
        軌跡
        軌跡
        語言與語義
        軌跡
        基于DBSACN聚類算法的XML文檔聚類
        進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        認(rèn)知范疇模糊與語義模糊
        97女厕偷拍一区二区三区| 国产精品区一区第一页| 无码精品一区二区免费AV| 国产在线观看不卡网址| 日本护士口爆吞精视频| 国产又a又黄又潮娇喘视频| 亚洲成在人线久久综合| av网址不卡免费在线观看| 国产日产一区二区三区四区五区| 久久久久久亚洲av无码蜜芽| 麻豆国产高清精品国在线| 国产毛片三区二区一区| 国产三级伦理视频在线| 成人av蜜桃在线观看| 夜夜躁日日躁狠狠久久av| 日韩人妻一区二区三区蜜桃视频| 国产喷水福利在线视频| 国产高清亚洲精品视频| 国产一区二区资源在线观看| 国产精品免费无遮挡无码永久视频 | 亚洲精品在线视频一区二区| 亚洲乱码国产乱码精华| 国产在线精品欧美日韩电影| 国产av色| 亚洲av色福利天堂久久入口| 亚洲精品久久久久avwww潮水| 国产欧美乱夫不卡无乱码| 亚洲天堂av大片暖暖| 成人av资源在线播放| 国产乱码人妻一区二区三区| 被黑人猛烈30分钟视频| 国产无线乱码一区二三区| 国产一区二区三区杨幂| 色熟妇人妻久久中文字幕| 欧美黑吊大战白妞| 中文亚洲日韩欧美| 欧洲一级无码AV毛片免费| 蜜桃臀av一区二区三区| 欧美xxxx色视频在线观看| 亚洲成在人线久久综合| av免费在线观看网站大全|