亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于時(shí)空周期模式挖掘的活動(dòng)語義識(shí)別方法

        2021-06-10 17:20:46郭茂祖邵首飛趙玲玲李陽
        智能系統(tǒng)學(xué)報(bào) 2021年1期
        關(guān)鍵詞:語義分類特征

        郭茂祖,邵首飛,趙玲玲,李陽

        (1. 北京建筑大學(xué) 電氣與信息工程學(xué)院,北京 100044; 2. 北京建筑大學(xué) 建筑大數(shù)據(jù)智能處理方法研究北京市重點(diǎn)實(shí)驗(yàn)室,北京 100044; 3. 哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)

        活動(dòng)語義識(shí)別是指從人類的時(shí)空軌跡數(shù)據(jù)或離散的位置序列中挖掘出人類的活動(dòng)信息[1]。智能移動(dòng)終端的廣泛應(yīng)用提供了海量的個(gè)體位置相關(guān)的時(shí)空數(shù)據(jù),如社交媒體簽到數(shù)據(jù)、GPS(global positioning system)軌跡數(shù)據(jù)和手機(jī)信令數(shù)據(jù)等[2]。這些數(shù)據(jù)為精細(xì)粒度下個(gè)體的活動(dòng)識(shí)別提供了有力支撐。相比原始的時(shí)空軌跡數(shù)據(jù)或位置序列信息,帶有語義的活動(dòng)軌跡數(shù)據(jù)更能直觀地反應(yīng)人類的具體活動(dòng),這有助于深入了解每個(gè)個(gè)體的生活模式,發(fā)現(xiàn)個(gè)體的個(gè)性需求,為個(gè)體提供定制化服務(wù),也可以發(fā)現(xiàn)與個(gè)體活動(dòng)模式相同或相似的群體,進(jìn)而識(shí)別群體的共性特征和需求[3]。這些信息的挖掘可以用于配置交通資源和資源規(guī)劃[4],如公交車的班次和地點(diǎn)的設(shè)定、共享單車的投放量和投放地點(diǎn)、商場(chǎng)的選址等,從而達(dá)到優(yōu)化社會(huì)資源配置、精細(xì)化滿足各種群體的不同需求的目的[1,5-6]。

        人類的活動(dòng)軌跡在空間上是多重交叉的[7],在時(shí)間上表現(xiàn)出序列性和一定的周期性[8-10]。已有的大部分方法都是在GPS軌跡數(shù)據(jù)的空間特征—活動(dòng)地點(diǎn)的POI(point of interest)數(shù)據(jù)和運(yùn)動(dòng)特征(速度、加速度)之上構(gòu)建分類模型,進(jìn)而識(shí)別用戶的活動(dòng)語義[11-15]。該類方法忽略了活動(dòng)軌跡的時(shí)間特性,導(dǎo)致該類方法的識(shí)別結(jié)果過度依賴于POI獲取的準(zhǔn)確性,而忽視了用戶某些活動(dòng),難以準(zhǔn)確獲取相應(yīng)POI的實(shí)際問題,而且容易混淆用戶在不同時(shí)間訪問相近的地方發(fā)生的不同活動(dòng),本文在文獻(xiàn)[16-17]提取用戶活動(dòng)軌跡周期模式的方法上使用LombScargle[18-19]方法挖掘用戶軌跡數(shù)據(jù)的周期作為用戶活動(dòng)特征中的周期特征,再結(jié)合用戶活動(dòng)的持續(xù)時(shí)間、活動(dòng)中心點(diǎn)附近POI,及活動(dòng)發(fā)生的年份、月份、季節(jié)、日期、是否是節(jié)假日和是否是周末等時(shí)間特征[15],使用隨機(jī)森林分類器挖掘用戶活動(dòng)語義。

        1 相關(guān)研究

        現(xiàn)有的活動(dòng)語義識(shí)別方法可以分為:基于空間特征的識(shí)別方法和基于運(yùn)動(dòng)特征的識(shí)別方法。文獻(xiàn)[11]從用戶活動(dòng)的空間角度,采用活動(dòng)地點(diǎn)的POI數(shù)據(jù)挖掘語義信息。并且考慮到POI數(shù)據(jù)不均勻以及POI在不同地區(qū)主題下對(duì)用戶活動(dòng)的影響度不同等因素,引入隱含狄利克雷分布 (latent dirichlet allocation,LDA)主題模型提取活動(dòng)地點(diǎn)POI的主題特征。通過地區(qū)內(nèi)POI與主題的相關(guān)程度來確定在該主題下POI對(duì)用戶活動(dòng)的影響度,從而確定用戶在活動(dòng)地點(diǎn)產(chǎn)生的活動(dòng)模式。文獻(xiàn)[12]使用移動(dòng)基站提供的數(shù)據(jù)集結(jié)合Open-StreetMap上的POI信息對(duì)用戶的行為進(jìn)行識(shí)別和預(yù)測(cè)。文獻(xiàn)[13]設(shè)計(jì)自助數(shù)據(jù)采集系統(tǒng),以志愿者的方式采集數(shù)據(jù),并利用用戶的軌跡、年齡、收入、居住等特征和支持向量機(jī)(support vector machine, SVM)模型來識(shí)別用戶的活動(dòng)語義。文獻(xiàn)[14]利用社交簽到數(shù)據(jù),融合簽到地點(diǎn)頻次等信息識(shí)別活動(dòng)語義。文獻(xiàn)[15]采用聚類方法獲取空間熱度特征并利用極限梯度提升 (eXtreme gradient boosting,XGBoost)建模識(shí)別用戶活動(dòng)模式。文獻(xiàn)[20]逐步提取用戶的實(shí)時(shí)位置,將運(yùn)動(dòng)過程中訪問的地點(diǎn)與人類的活動(dòng)相關(guān)聯(lián)起來,進(jìn)而推斷用戶進(jìn)行的活動(dòng)。上述方法的核心思想是從活動(dòng)軌跡點(diǎn)的空間信息提取特征來建模,但是用戶的軌跡信息在空間和時(shí)間上是緊密相連的,因此該類方法忽略了時(shí)間特性,導(dǎo)致該類方法的識(shí)別結(jié)果過度依賴于POI獲取的準(zhǔn)確性而忽視了用戶某些活動(dòng)難以準(zhǔn)確獲取相應(yīng)POI的實(shí)際問題,而且容易混淆用戶在不同時(shí)間訪問相近的地方發(fā)生的不同活動(dòng)。

        人類活動(dòng)具有顯著的周期性特征[9],已有的研究就軌跡的周期性進(jìn)行挖掘,如文獻(xiàn)[16]中就移動(dòng)對(duì)象頻繁訪問某一地方的核心點(diǎn)(reference spot)提取用戶空間信息,并融合傅里葉變換(fourier transform)獲取用戶的時(shí)間信息。通過提取核心點(diǎn)提取用戶的空間信息,再通過傅里葉變換檢測(cè)活動(dòng)發(fā)生的周期,提取用戶的時(shí)間信息。使用傅里葉變換挖掘用戶活動(dòng)周期時(shí)必須獲取軌跡數(shù)據(jù)的均值采樣,但是由于天氣的原因無法獲取均值采樣的軌跡數(shù)據(jù)。此時(shí)必須通過線性插值的方法使不規(guī)則的樣本變成均值的軌跡。但是由于軌跡數(shù)據(jù)量龐大的原因,這種插值會(huì)帶來巨大的計(jì)算量。文獻(xiàn)[17]在此基礎(chǔ)上,先將單個(gè)用戶軌跡數(shù)據(jù)運(yùn)用基于密度的帶噪聲應(yīng)用空間聚類(density based spatial clustering of application with noise,DBSCAN),聚類后獲取用戶的活動(dòng)軌跡點(diǎn),再結(jié)合OpenStreetMap中的POI信息進(jìn)行地點(diǎn)匹配得到帶有地點(diǎn)特征的軌跡數(shù)據(jù),最后使用LombScargle[18,21]算法挖掘用戶活動(dòng)的周期。該算法可以直接從非規(guī)則采樣的軌跡中挖掘出用戶的活動(dòng)周期。但是文獻(xiàn)[16-17]均是挖掘用戶軌跡的周期模式,并沒有結(jié)合用戶活動(dòng)產(chǎn)生的軌跡點(diǎn)的空間信息挖掘用戶的活動(dòng)語義。

        2 周期模式挖掘

        針對(duì)個(gè)體的部分活動(dòng)存在周期性這一特征,本文從訪問位置的周期性挖掘出發(fā),將周期性活動(dòng)的周期提取、停留時(shí)間、周期性活動(dòng)的相關(guān)POI進(jìn)行提取,構(gòu)成以時(shí)空周期性為核心的特征表示。

        單個(gè)用戶產(chǎn)生的活動(dòng)軌跡表示為一個(gè)三維的時(shí)空序列,則用戶一天的活動(dòng)序列S可以表示為

        式中: l ng 、 l at、t表示軌跡點(diǎn)的經(jīng)度、緯度、時(shí)間,i1、in表示用戶進(jìn)行第i個(gè)活動(dòng)的第一和最后一個(gè)軌跡點(diǎn)。需要說明的是,活動(dòng)軌跡并不總是連續(xù)的,它只表示用戶在某地發(fā)生某個(gè)活動(dòng)時(shí)產(chǎn)生的軌跡。

        2.1 活動(dòng)地點(diǎn)匹配

        活動(dòng)地點(diǎn)匹配是將原始的軌跡序列S依據(jù)空間距離和時(shí)間距離使用DBSCAN算法進(jìn)行聚類,進(jìn)而將聚類后每個(gè)軌跡點(diǎn)所在的軌跡簇ID標(biāo)記為該軌跡點(diǎn)的place-id[22]??臻g上的距離使用經(jīng)緯度之間的歐幾里得距離,時(shí)間距離使用軌跡點(diǎn)的時(shí)間戳差值,最后將空間距離和時(shí)間距離的算術(shù)平均值作為聚類距離,如式(1)。聚類后為每個(gè)聚類簇分配一個(gè)ID作為分類簇中所有對(duì)應(yīng)軌跡點(diǎn)的place-id,聚類的同時(shí)能夠舍棄一些離群點(diǎn),聚類后得四維向量:(lngi,lati,ti,place_idi)

        算法1 DBSCAN算法。

        輸入樣本集D=(x1,x2,···,xn),領(lǐng)域參數(shù)(ε,MinPts),樣本距離度量方式。

        1) 初始化核心對(duì)象集合 ? =?,聚類簇個(gè)數(shù)k=0 ,未訪問的樣本集合 Γ =D,簇劃分C=?

        2) forjin 1 ,2,···,ndo

        3)通過距離度量方式,找到xj的 ε 鄰域子樣

        6) end for

        7) while ? ≠? do

        8) 隨機(jī)選取 ? 中的一個(gè)核心對(duì)象o,?cur={o},

        9) if?cur=?

        10)C={C1,C2,···,Ck},?=??Ck

        continue

        11) else

        12)?=??Ck

        13) end if

        14)在 ?cur中取出一個(gè)核心對(duì)象o′通過鄰域距離閾值 ε 找出所有的 ε ? 鄰域Nε(o′), ? =Nε(o′)∩Γ,Ck=Ck∪?,Γ=Γ??,?cur=?cur∪(?∩?)?o′

        15) end while

        輸出簇劃分C={C1,C2,···,Ck}。

        2.2 周期模式挖掘

        對(duì)于GPS軌跡數(shù)據(jù),一個(gè)連續(xù)采樣的軌跡滿足在某個(gè)軌跡簇pi中對(duì)任意連續(xù)的i,j使得成立。一個(gè)不連續(xù)采樣的軌跡滿足存在連續(xù)的i,j使得成立。以往挖掘序列周期模式使用的方法為傅里葉變換(fourier transform)和自相關(guān)(autocorrelation)[8,16]。使用傅里葉變換有一個(gè)重要的前提條件,要求輸入的樣本必須是均值采樣。然而,由于天氣和采樣設(shè)備故障原因,自然采集的軌跡基本上都是不規(guī)則的。因此使用傅里葉變換之前需要進(jìn)行線性插值,將不規(guī)則樣本補(bǔ)全。對(duì)于大量的軌跡數(shù)據(jù)來說,線性插值的計(jì)算量相當(dāng)大。LombScargle算法由文獻(xiàn)[18]提出用于檢測(cè)不規(guī)則采樣時(shí)間序列周期,并由文獻(xiàn)[21]用LombScargle功率-頻率圖檢測(cè)出不規(guī)則間隔的時(shí)間序列周期。該算法能夠省去計(jì)算量大的線性插值,并且能夠識(shí)別出序列中所有的周期[23]。

        對(duì)于時(shí)間序列來說,xj是采樣tj時(shí)刻對(duì)應(yīng)的樣本值j=1,2,···,N。LombScargle圖能夠反應(yīng)出序列的周期,LombScargle周期圖通過式(1)計(jì)算得出:

        式中 τ 是每個(gè)f特定的值,以保證對(duì)于不規(guī)則樣本的時(shí)移不變性,其中 τ 和f的關(guān)系為

        對(duì)于LombScargle圖,圖中每個(gè)峰值表示一個(gè)周期。LombScargle圖是通過錯(cuò)誤預(yù)警概率(false alarm probability)來表示該峰值的顯著性,其計(jì)算為

        從式(2)的分布得出,一個(gè)有效的功率峰值z(mì),在給定一個(gè)誤差 α 時(shí)必須要超過統(tǒng)計(jì)顯著性的值,可由式(3)計(jì)算得出:

        算法2周期模式挖掘算法。

        輸入其中

        1) forpiinPdo

        2) forpjinPdo

        3) if p lace?idj≠place?idi

        4)將pj加入P′

        5) end for

        6)P′代入式(1)求出PSL的峰值pmax,對(duì)應(yīng)頻率fi, 取倒數(shù)表示周期Ti

        7)按照式(2)求出pmax的錯(cuò)誤預(yù)警概率Pri

        8)qi=ti,place?idi,Ti,Pri將qi加入Q中

        9) end for

        輸出帶有周期的GPS軌跡序列Q=

        3 活動(dòng)語義識(shí)別

        基于周期模式挖掘的語義識(shí)別流程如圖1。首先,將用戶的活動(dòng)軌跡聚類成若干個(gè)軌跡簇,然后為不同軌跡簇中的每個(gè)軌跡點(diǎn)分配一個(gè)獨(dú)特的ID作為識(shí)別周期模式的地點(diǎn)標(biāo)識(shí)。之后使用這些地點(diǎn)標(biāo)識(shí)識(shí)別出每個(gè)活動(dòng)發(fā)生的周期模式,計(jì)算活動(dòng)軌跡中心點(diǎn),利用軌跡中心點(diǎn)獲取活動(dòng)地點(diǎn)附近的POI信息,最后將這些特征作為隨機(jī)森林分類器的輸入識(shí)別用戶的活動(dòng)義。

        圖1 本文提出的方法總體流程Fig. 1 Overall procedure of our proposed method

        3.1 特征提取

        時(shí)空軌跡具有序列性、時(shí)空緊密性、不規(guī)矩的時(shí)間間隔、空間層次性和包含背景語義信息等特征。序列性指前后2個(gè)相鄰的軌跡點(diǎn)在時(shí)間上有先后順序。緊密性指軌跡的空間特征和時(shí)間特征緊密相連,不能分割。不規(guī)則的時(shí)間間隔指現(xiàn)實(shí)生活中由設(shè)備采集到的數(shù)據(jù)是非均值采樣。空間層次性指人的時(shí)空軌跡是區(qū)域聚集性和在不同板塊下有不同的層次表示。背景語義能一定程度上反映活動(dòng)者在這個(gè)地方進(jìn)行的活動(dòng)類型。針對(duì)這些特性,本文加入了用戶活動(dòng)參考點(diǎn)的經(jīng)緯度作為空間特征。通過地圖API (application programming interface)獲得的POI信息,作為背景語義特征。進(jìn)行活動(dòng)的起始時(shí)間、活動(dòng)的時(shí)長(zhǎng)、活動(dòng)的日期(活動(dòng)發(fā)生的年份、月份、日期、是否周末)作為時(shí)間特征,以及活動(dòng)的周期特征(包含識(shí)別周期過程中每個(gè)周期對(duì)應(yīng)的錯(cuò)誤預(yù)警概率)。

        3.2 模型選擇

        隨機(jī)森林是采用有放回抽樣的方式從訓(xùn)練集中選取一定比例的樣本和一定個(gè)數(shù)的特征作為子訓(xùn)練集,使用多個(gè)決策樹在不同的子訓(xùn)練集中進(jìn)行分類,并且將最后多數(shù)分類器得到的分類結(jié)果作為最終分類結(jié)果的分類器。該分類器有較好的抗噪性,并且在高維和大數(shù)據(jù)的數(shù)據(jù)集下有很好的分類性能,本文采用隨機(jī)森林算法識(shí)別活動(dòng)語義。

        3.2.1 決策樹

        決策樹模型呈樹形結(jié)構(gòu),在分類問題中,表示基于特征對(duì)實(shí)例進(jìn)行分類的過程。決策樹學(xué)習(xí)過程包含3個(gè)步驟:特征選擇、決策樹的生成和決策樹的剪枝。

        1)特征選擇。

        通過計(jì)算并比較特征的信息熵或者基尼系數(shù)進(jìn)行特征選擇。在分類問題中,設(shè)有K個(gè)類別,樣本屬于第k個(gè)類別的概率為pk,則概率分布的基尼系數(shù)由式(4)得到:

        樣本集合D的基尼指數(shù)為

        式中Ck為數(shù)據(jù)集D中屬于k類的樣本子集。如果數(shù)據(jù)集D根據(jù)特征A在某個(gè)取值a上進(jìn)行分割,得到D1、D22個(gè)部分后,那么在特征A下集合D的基尼系數(shù)表示為

        2)決策樹生成。

        決策樹生成有ID3、C4.5和分類回歸樹 (classification and regression tree,CART)。

        本文用到的是CART算法構(gòu)建分類樹。CART算法采用基尼系數(shù)作為評(píng)判準(zhǔn)則,通過式(6)選取使得基尼系數(shù)最小的特征和對(duì)應(yīng)特征取值遞歸構(gòu)建二叉樹分類樹進(jìn)行分類。

        3)決策樹的剪枝。

        決策樹生成算法遞歸地產(chǎn)生決策樹,直到不能進(jìn)行下去為止。這樣的算法產(chǎn)生的樹對(duì)訓(xùn)練數(shù)據(jù)分類很準(zhǔn)確,但對(duì)未知數(shù)據(jù)集的分類往往沒有那么準(zhǔn)確—過擬合。解決過擬合的方式是考慮生成樹的復(fù)雜度,對(duì)已經(jīng)生成的決策樹進(jìn)行簡(jiǎn)化—剪枝。

        3.2.2 基于隨機(jī)森林的活動(dòng)語義分類

        隨機(jī)森林是由很多獨(dú)立的決策樹組成的一個(gè)森林,每棵樹之間相互獨(dú)立,在最終模型組合時(shí),通過投票的方式?jīng)Q定最終的分類結(jié)果。

        算法3 活動(dòng)語義識(shí)別算法。

        輸入提取完的活動(dòng)軌跡特征矩陣M。

        1)將特征矩陣分成訓(xùn)練集M1和測(cè)試集M2。

        2)從訓(xùn)練集M1中隨機(jī)有放回選取一定比例的樣本M1i(i表示第i棵決策樹)作為一棵決策樹的輸入樣本。

        3)通過CART方法構(gòu)建n個(gè)決策樹,將所有決策樹的分類結(jié)果概率最高的作為隨機(jī)森立分類器的結(jié)果。

        4)n從1~200變化,得到分類器最好精度時(shí)對(duì)應(yīng)的決策樹的個(gè)數(shù)。

        5)將訓(xùn)練完成的分類器放在測(cè)試集上測(cè)試。輸出模型的訓(xùn)練和測(cè)試精度。

        輸出模型的精度。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)設(shè)置

        本文采用的數(shù)據(jù)是來自Yang等[24]通過Foursquare提供的開發(fā)者API收集的來自紐約和東京2個(gè)城市用戶的簽到數(shù)據(jù),數(shù)據(jù)有8個(gè)特征:用戶ID、活動(dòng)地點(diǎn)ID、場(chǎng)地類別ID、場(chǎng)地類別名稱、經(jīng)度、緯度、UTC時(shí)間、時(shí)間偏移量。東京數(shù)據(jù)集TKY包含57萬條數(shù)據(jù),紐約數(shù)據(jù)集NYC包含22萬條數(shù)據(jù),這2個(gè)城市的簽到數(shù)據(jù)集時(shí)間跨度超過10個(gè)月,從2012年4月12日—到2013年2月16日紐約1 083個(gè)用戶和東京2 293個(gè)用戶的簽到數(shù)據(jù)記錄。在有無周期對(duì)比實(shí)驗(yàn)中本文根據(jù)簽到地點(diǎn)名稱采用多專家決策的方法最終標(biāo)記為12類(Shopping, Restaurant, Work,Travel, Entertainment, Service, Meeting, Education,Sports, Rest, Medical, Art)。實(shí)驗(yàn)中,為了能識(shí)別用戶的周期,設(shè)定少于5次訪問次數(shù)的地點(diǎn)為用戶不常去的地點(diǎn),沒有周期性,實(shí)驗(yàn)中去除了這些數(shù)據(jù)。TKY簽到數(shù)據(jù)中標(biāo)簽分布如圖2,標(biāo)記完的簽到數(shù)據(jù)如圖3。

        圖2 簽到數(shù)據(jù)種類分布Fig. 2 Distribution of check-ins categories

        圖3 簽到數(shù)據(jù)樣式Fig. 3 Examples of check-ins data

        4.2 實(shí)驗(yàn)結(jié)果

        4.2.1 周期模式的識(shí)別

        識(shí)別周期模式中,識(shí)別的周期通常指最小正周期,因此需要傳入周期的取值范圍限制識(shí)別出周期的大小。去除10個(gè)月少于5次簽到的數(shù)據(jù)周期為(0, 1 440)小時(shí)(1個(gè)月按30 d計(jì)算),某個(gè)用戶的某個(gè)活動(dòng)周期—頻率圖如圖4所示,通過圖5中周期—頻率圖得到最大峰值對(duì)應(yīng)的周期為24.15 h。這表明用戶在這個(gè)地方的活動(dòng)每隔24.15 h會(huì)發(fā)生一次。

        4.2.2 活動(dòng)語義識(shí)別結(jié)果

        為了驗(yàn)證周期特征對(duì)活動(dòng)語義識(shí)別的有效性,本文在相同的實(shí)驗(yàn)條件下,對(duì)比了加入和不加入周期模式特征進(jìn)行活動(dòng)語義的識(shí)別的性能。分別使用準(zhǔn)確度、精準(zhǔn)率、召回率、F1值對(duì)分類結(jié)果進(jìn)行的評(píng)價(jià),其計(jì)算為

        式中:TP、 FP、 TN、FN表示將正類分正確、將正類分錯(cuò)誤、將負(fù)類分正確、負(fù)類分錯(cuò)誤的個(gè)數(shù)。

        圖4 某個(gè)特定活動(dòng)對(duì)應(yīng)的LombScargle功率—頻率Fig. 4 LombScargle power-frequency diagram corresponding to a specific activity

        圖5 有無周期的分類結(jié)果Fig. 5 The histogram without or with period

        在周期模式特征中加入錯(cuò)誤預(yù)警概率作為聯(lián)合周期特征,隨機(jī)森林最后參數(shù)設(shè)置為n-estimator=84,在TKY數(shù)據(jù)集上得到的實(shí)驗(yàn)結(jié)果如圖5所示。加入周期特征后準(zhǔn)確率從0.871提升到0.968,精準(zhǔn)率從0.874提升到0.973,召回率從0.826提升到0.951,F(xiàn)1值從0.848提升到0.962。由數(shù)值結(jié)果可以看出加入周期特征后在各個(gè)分類結(jié)果中都取得了10%以上的提升。

        分別繪制每個(gè)分類的結(jié)果,得到加入周期特征前后的混淆矩陣如圖6、圖7,矩陣橫軸表示預(yù)測(cè)的類別,縱軸表示真實(shí)的類別。方格對(duì)角線的值表示識(shí)別正確的類別占總類別的比值,其中空白表示值為0,即在預(yù)測(cè)樣本中完成分類正確。從圖6中可以看出,沒有加入周期前模型對(duì)Edu(Education)、 Spo(Sport)、 Res(Restaurant)這幾種活動(dòng)的識(shí)別精度較低(0.726,0.689,0.707),加入周期模式特征后這些活動(dòng)的識(shí)別效果得到了20%左右的提升,識(shí)別精度均超過0.9。從圖6可以看出,Edu和Sho、 Spo和Sho、 Res和Ser(Service)混淆得最為嚴(yán)重,其原因在于人類在學(xué)習(xí)、運(yùn)動(dòng)的活動(dòng)中,進(jìn)行活動(dòng)的時(shí)間和場(chǎng)所受個(gè)人偏好影響比較大,這些活動(dòng)的持續(xù)時(shí)間較長(zhǎng),在特征方面容易與購物、飲食和社會(huì)服務(wù)(銀行,派出所,居委會(huì),政府等社會(huì)公共設(shè)施內(nèi)進(jìn)行的活動(dòng))等行為混淆。由于人類的這些行為周期性比較明顯,加上周期模式特征后,這些行為會(huì)被更加準(zhǔn)確地識(shí)別出來。

        圖6 不加入周期特征的混淆矩陣Fig. 6 The confusion matrix without period

        圖7 加入周期特征的混淆矩陣Fig. 7 The confusion matrix with period

        為了驗(yàn)證本文方法有更好的識(shí)別精度,本文和文獻(xiàn)[24-25]在相同的數(shù)據(jù)集下(東京市簽到數(shù)據(jù)集、紐約市數(shù)據(jù)集)進(jìn)行實(shí)驗(yàn)。本文和文獻(xiàn)[24-25]都采簽到地點(diǎn)名稱作為用戶的活動(dòng)語義標(biāo)簽,TKY數(shù)據(jù)集包含的標(biāo)簽個(gè)數(shù)為247個(gè),NYC包含的標(biāo)簽個(gè)數(shù)為251個(gè)。實(shí)驗(yàn)結(jié)果如表1,LIAO等[25]采用2個(gè)基學(xué)習(xí)器和一個(gè)元學(xué)習(xí)器將時(shí)間特征和序列特征整合用于預(yù)測(cè)用戶的活動(dòng)目的和活動(dòng)位置,YANG等[24]提出一種上下文感知框架對(duì)用戶活動(dòng)偏好進(jìn)行推理,從而識(shí)別用戶的活動(dòng)語義。實(shí)驗(yàn)結(jié)果如表1所示,在NYC數(shù)據(jù)集上本文的識(shí)別方法相對(duì)于LIAO提升精度35.9%,相對(duì)于YANG提升了10.8%。在TKY數(shù)據(jù)集上分別提升了37.8%和23.7%。實(shí)驗(yàn)結(jié)果表明周期模式挖掘算法具有更好的識(shí)別精度,也驗(yàn)證了用戶在長(zhǎng)時(shí)間活動(dòng)軌跡中周期性的重要作用。

        5 結(jié)束語

        本文通過對(duì)比是否加入周期特征的方法,驗(yàn)證了加入周期模式能有效提高活動(dòng)語義的識(shí)別性能;同時(shí),在與LIAO、YANG方法的對(duì)比中可以發(fā)現(xiàn)本文的方法具有更好的識(shí)別精度,驗(yàn)證了本文方法的有效性。本文充分利用了人的部分活動(dòng)帶有顯著的周期性這一特點(diǎn),挖掘了歷史活動(dòng)的周期模式,來提高對(duì)當(dāng)前活動(dòng)的識(shí)別的準(zhǔn)確性。因此本文方法更適合個(gè)體活動(dòng)記錄的時(shí)間跨度較大的數(shù)據(jù)場(chǎng)景,以便更好地捕捉活動(dòng)的周期特征。本文的活動(dòng)語義識(shí)別方法是基于周期模式特征為主要特征,因此對(duì)于人的部分不頻繁的活動(dòng)模式識(shí)別效果不佳,這也是未來要研究的方向之一。

        猜你喜歡
        語義分類特征
        分類算一算
        語言與語義
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        视频在线国产一区二区| 人妻系列无码专区久久五月天| 精品国产亚洲人成在线观看| 黄色国产一区二区99| 久久久av波多野一区二区 | 高潮迭起av乳颜射后入| 日子2020一区二区免费视频| 中文字幕无线精品亚洲乱码一区| 亚洲国产熟女精品传媒| 少妇激情一区二区三区视频 | 亚洲欧美乱综合图片区小说区| chinese国产乱在线观看| 国产日产久久福利精品一区| 中国亚洲av第一精品| 国产精品欧美久久久久久日本一道| 亚洲色大成网站www尤物| 日本一区二区三区小视频| 午夜av天堂精品一区| 无码va在线观看| 精品国产香蕉伊思人在线又爽又黄| 亚洲成人色黄网站久久| 精品国产sm最大网站| 欧妇女乱妇女乱视频| 日韩无码电影| 久久精品国产亚洲av久五月天| 亚洲无线码一区二区三区| 婷婷中文字幕综合在线| 国产精品一区二区久久乐下载| 国产风骚主播视频一区二区| 久久精品中文字幕| 亲子乱aⅴ一区二区三区下载| 色婷婷丁香综合激情| 91偷自国产一区二区三区| 人人妻人人狠人人爽天天综合网| 一区二区日韩国产精品| 久久国产精品免费久久久| 亚洲人成网站18禁止| 成人一区二区免费视频| 日韩在线视频不卡一区二区三区 | 少妇高潮av久久久久久| 99re热这里只有精品最新|