亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于結(jié)構(gòu)相似度的軌跡聚類算法

2011-07-17 08:56:06袁冠夏士雄張磊周勇

通信學(xué)報(bào) 2011年9期

袁冠，夏士雄，張磊，周勇

（中國(guó)礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，江蘇徐州 221116）

1 引言

近幾年，GPS設(shè)備、傳感器網(wǎng)絡(luò)、衛(wèi)星和無線通信等技術(shù)的快速發(fā)展，使得全球范圍內(nèi)的各種移動(dòng)對(duì)象都可以得到有效跟蹤，由此產(chǎn)生了越來越多的移動(dòng)對(duì)象軌跡數(shù)據(jù)。這些數(shù)據(jù)蘊(yùn)含著大量信息，迫切需要研究人員進(jìn)行有效分析。數(shù)據(jù)分析典型的目標(biāo)就是聚集相似的運(yùn)動(dòng)軌跡，提取移動(dòng)對(duì)象的運(yùn)動(dòng)特征模式和預(yù)測(cè)移動(dòng)對(duì)象運(yùn)動(dòng)行為。聚類分析是對(duì)數(shù)據(jù)對(duì)象進(jìn)行分組，使得同一組中對(duì)象之間具有較高的相似度，而不同組中的對(duì)象具有較低的相似度[1]。軌跡聚類的目標(biāo)是尋找那些具有相同運(yùn)動(dòng)模式的軌跡，通過對(duì)軌跡內(nèi)部運(yùn)動(dòng)模式和特征信息的分析，確定軌跡間的相似程度，然后將相似程度較高的軌跡歸為一類。近年來，有很多學(xué)者對(duì)聚類進(jìn)行了研究，典型的如文獻(xiàn)[1～3, 7～11]，比較有代表性的算法如：K-MEANS、BIRCH，DBSCAN、OPTICS、STING等[2]。這些方法在軌跡聚類中大多對(duì)軌跡中的采樣點(diǎn)位置進(jìn)行聚類，無法從全局的角度把握軌跡的特征和運(yùn)動(dòng)趨勢(shì)。在非約束環(huán)境下，軌跡具有局部的相似性和整體的非相似性。事實(shí)上，軌跡中的不同部分在時(shí)空數(shù)據(jù)分析中都扮演非常重要的角色，如圖1所示[2]的5條軌跡中，它們?cè)诰匦慰蛑械姆侄问窍嗨频?，而矩形框之外的部分則差別較大。

圖1 軌跡間的局部相似性

目前，軌跡聚類研究大多是以整條軌跡作為基本單元參與聚類計(jì)算，而通過對(duì)軌跡進(jìn)行分段展開軌跡聚類的研究不多，這樣存在 2個(gè)問題：① 忽略軌跡的局部特征；② 無法發(fā)現(xiàn)軌跡中的公共子模式。在典型的軌跡分段分析方法中，為了獲得高質(zhì)量的聚類結(jié)果，最大的挑戰(zhàn)是需要將不同的軌跡段聚集到不同的類簇中[2,4]。傳統(tǒng)聚類算法中對(duì)象的不匹配程度（距離）通常由一些相互獨(dú)立屬性之間差值的加權(quán)和來表示，由于軌跡的局部相似性，這種方式不能直接用于軌跡之間的距離測(cè)量。KREVELD[4]等首次將軌跡的時(shí)間依賴關(guān)系引入到形狀依賴的軌跡分析中，通過軌跡采樣點(diǎn)之間的時(shí)延來計(jì)算軌跡的相似度。KNORR[13]等通過用一些獨(dú)立的屬性來表示軌跡的特征，如：起始位置、方向、速度（包括最大、最小、平均速度），然后通過加權(quán)和的距離算法來計(jì)算軌跡間的相似度。這些方法都將軌跡看作一個(gè)整體，忽略了軌跡的局部特征，無法匹配路徑較長(zhǎng)或較復(fù)雜的軌跡。LEE[2]等為了表示復(fù)雜軌跡的局部特征，采用圖像處理中的線段 Hausdorff距離的思想，將軌跡劃分成若干t-partition。該方法很好地解決了復(fù)雜軌跡之間的比較問題，但是，由于每個(gè)t-partition僅僅是軌跡段的2個(gè)端點(diǎn)的連線，是軌跡的近似描述，造成了軌跡局部特征的丟失。

從文獻(xiàn)[2～7,14]中可以看出，現(xiàn)有的軌跡分析還僅僅是從軌跡的靜態(tài)數(shù)據(jù)本身出發(fā)，沒有充分考慮到軌跡內(nèi)部所蘊(yùn)含的有價(jià)值信息，如：軌跡的產(chǎn)生時(shí)間對(duì)其形狀、位置、分布、轉(zhuǎn)角等特征的影響以及采樣的誤差對(duì)于軌跡計(jì)算的影響等。軌跡數(shù)據(jù)不僅僅是傳統(tǒng)意義上的按照時(shí)間排序的靜態(tài)點(diǎn)集合，而是在特定時(shí)間與環(huán)境下對(duì)象的運(yùn)動(dòng)路徑，因此，在軌跡數(shù)據(jù)分析過程中，應(yīng)考慮更多的軌跡特征信息，如：發(fā)生的時(shí)間、位置、方向、轉(zhuǎn)角、速度等，這些特征屬性體現(xiàn)了軌跡的結(jié)構(gòu)組成。特征之間的敏感度（應(yīng)用領(lǐng)域確定）可以通過特征屬性的權(quán)重進(jìn)行調(diào)整。軌跡的匹配程度可以用基于結(jié)構(gòu)的相似度來衡量，這種方式更能體現(xiàn)軌跡內(nèi)在、外在的異同，增強(qiáng)分析效果。

針對(duì)以上問題及軌跡自身的結(jié)構(gòu)特征，本文提出了基于結(jié)構(gòu)相似度的軌跡聚類算法。結(jié)構(gòu)相似度最初用于文獻(xiàn)[12]中的圖像質(zhì)量評(píng)價(jià)，后來被用于文本結(jié)構(gòu)分析中。本文借鑒圖像質(zhì)量評(píng)價(jià)中的結(jié)構(gòu)相似度（SSIM, structural similarity）的思想，抽取軌跡的結(jié)構(gòu)性特征信息，并通過計(jì)算軌跡的結(jié)構(gòu)相似度進(jìn)行聚類。為了避免傳統(tǒng)算法對(duì)整條軌跡聚類而造成的精確度不高，本文首先計(jì)算軌跡的每個(gè)轉(zhuǎn)角，根據(jù)轉(zhuǎn)角閾值將軌跡劃分成若干軌跡段（也稱為基本特征單元，用于描述軌跡的局部特征，轉(zhuǎn)角閾值由應(yīng)用領(lǐng)域確定）。接下來比較所有軌跡段的結(jié)構(gòu)相似度，然后提出基于結(jié)構(gòu)相似度的軌跡聚類算法(TC-SS, trajectory clustering algorithm based on structural similarity)。由于基于結(jié)構(gòu)相似度的軌跡計(jì)算量比較大，為了加速計(jì)算，本文采用類 R-Tree的結(jié)構(gòu)來存儲(chǔ)軌跡段以及其近鄰索引，通過空間代價(jià)來換取時(shí)間代價(jià)，提高檢索速率。最后，本文通過詳細(xì)的實(shí)驗(yàn)分析了各個(gè)參數(shù)對(duì)算法以及實(shí)驗(yàn)結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明，本文的方法可以對(duì)軌跡進(jìn)行有效劃分，同時(shí)還保留軌跡的重要特征，計(jì)算出的聚類結(jié)果較其他文獻(xiàn)更具有實(shí)際意義。

2 相關(guān)定義

為了更好地描述本文方法，需要對(duì)軌跡及其相關(guān)屬性進(jìn)行形式化描述。文獻(xiàn)[2]對(duì)軌跡進(jìn)行了相關(guān)定義，本文同樣適用。TD(trajectory database)表示軌跡集合，TD={TR1,TR2,…,TRn}。軌跡(TR)是由若干個(gè)多維度的位置點(diǎn)按照時(shí)間順序組成的一個(gè)序列：TRi={P1,P2,…,Pm}(1≤i≤n)，其中，Pj(1≤j≤m)表示為＜Locationj,Tj＞，是軌跡中的一個(gè)采樣點(diǎn)，表示在Tj時(shí)刻運(yùn)動(dòng)物體位置為L(zhǎng)ocationj，其中，Locationj是一個(gè)多維度的位置點(diǎn)。一條軌跡Pc1,Pc2,…,Pci(1≤c1＜c2＜…≤m)表示TRi的軌跡段或子軌跡，記作：TS(trajectory segment)，TSi={Li1,Li2,…,Linum}。軌跡段表示通過計(jì)算轉(zhuǎn)角后而劃分的軌跡段或子軌跡，包含軌跡的局部特征。

2.1 軌跡段劃分

軌跡段的結(jié)構(gòu)相似度匹配是定義軌跡聚類的關(guān)鍵問題之一，而軌跡段的劃分又決定了軌跡段的結(jié)構(gòu)相似度匹配的準(zhǔn)確程度。軌跡劃分的目標(biāo)在于發(fā)現(xiàn)軌跡行為變化特別快的特征點(diǎn)，通過這些點(diǎn)將軌跡劃分為若干軌跡段。通過這些點(diǎn)對(duì)軌跡進(jìn)行劃分，能夠有效地保持軌跡局部特征，同時(shí)又不會(huì)丟失軌跡的全局特征。本文中軌跡的劃分是通過計(jì)算軌跡轉(zhuǎn)角的大小來決定的。軌跡的轉(zhuǎn)角反映了軌跡方向的變化程度，過大的轉(zhuǎn)角體現(xiàn)了軌跡內(nèi)部的一些突變，這些轉(zhuǎn)角較大的采樣點(diǎn)亦被稱為拐點(diǎn)或突變點(diǎn)。依據(jù)轉(zhuǎn)角來劃分軌跡有利于保存軌跡局部較為平穩(wěn)的結(jié)構(gòu)特征。

文獻(xiàn)[2]采用一種簡(jiǎn)單的策略對(duì)軌跡進(jìn)行劃分，雖然比較簡(jiǎn)單且不需要過多的參數(shù)來干預(yù)，但這不能從根本上解決軌跡細(xì)節(jié)信息丟失的可能性。

定義1 軌跡轉(zhuǎn)角（corner）：相鄰軌跡分段的轉(zhuǎn)向角，反映了軌跡運(yùn)動(dòng)的趨勢(shì)。如圖2所示，連續(xù)軌跡分段在采樣點(diǎn)處的夾角表示為α，軌跡的轉(zhuǎn)角表示為θ1和θ2。為了便于軌跡運(yùn)動(dòng)趨勢(shì)的相似度計(jì)算，指定外向轉(zhuǎn)角θ1為正值，內(nèi)向轉(zhuǎn)角θ2為負(fù)值。

圖2 軌跡轉(zhuǎn)角示意

由圖2可以看出：a，b，c分別為夾角α的鄰邊和對(duì)邊，則夾角α的計(jì)算式如(1)所示。

根據(jù)式(1)，轉(zhuǎn)角θ的計(jì)算公式定義如下：

軌跡段的劃分是軌跡分析的第1步，本文借鑒文獻(xiàn)[3]中定義的2階段拐點(diǎn)檢測(cè)算法并進(jìn)行改進(jìn)。整個(gè)算法由3部分組成：①掃描軌跡中的點(diǎn)序列；②利用式(1)、式(2)計(jì)算軌跡轉(zhuǎn)角；③根據(jù)轉(zhuǎn)角閾值ω對(duì)滿足|θ|＞ω的軌跡點(diǎn)進(jìn)行劃分。軌跡劃分算法的時(shí)間復(fù)雜度O(n)，其中，n為采樣點(diǎn)的個(gè)數(shù)。

2.2 軌跡結(jié)構(gòu)

定義2 軌跡結(jié)構(gòu)（trajectory structure）：是軌跡內(nèi)部特征屬性的集合，這些特征屬性構(gòu)成了軌跡的全部。本文中，軌跡并不單純地由若干個(gè)靜態(tài)采樣點(diǎn)按照時(shí)間序列組成的線段。軌跡蘊(yùn)含著豐富的信息，如：速度、形狀、位置、轉(zhuǎn)角、加速度等，在軌跡分析時(shí)充分考慮這些特征，可以增強(qiáng)準(zhǔn)確度和分析效果。本文定義的軌跡結(jié)構(gòu)包括4個(gè)特征，Trajectory Structure ＜Direction, Speed, Angle, Location＞分別為方向、速度、轉(zhuǎn)角、位置等。定義W={WD,WS,WA,WL}為特征權(quán)重向量，分別對(duì)應(yīng)軌跡的結(jié)構(gòu)特征向量。各權(quán)重滿足：① 所有權(quán)重取值均大于或等于零；②WD+WS+WA+WL=1。軌跡結(jié)構(gòu)的特征屬性的敏感程度可以通過特征權(quán)重進(jìn)行調(diào)節(jié)，例如：在位置敏感的軌跡分析方法中，通過設(shè)置權(quán)重（WD =WS=WA=0,WL= 1）實(shí)現(xiàn)，這種情況同基于密度的軌跡分析思想是一致的。

2.3 軌跡結(jié)構(gòu)相似度

借鑒 WANG等[12]關(guān)于結(jié)構(gòu)相似度的思想，在進(jìn)行軌跡聚類時(shí)，首先根據(jù)轉(zhuǎn)角將軌跡劃分成若干軌跡段，接下來提取軌跡段的結(jié)構(gòu)信息，通過計(jì)算軌跡段的結(jié)構(gòu)相似度來確定 2條軌跡段的相似程度，進(jìn)而完成聚類?；谝陨纤枷?，本文提出基于結(jié)構(gòu)相似度的軌跡聚類算法(TC-SS)。

定義3 結(jié)構(gòu)相似度(SSIM)計(jì)算：根據(jù)定義2，軌跡段的結(jié)構(gòu)相似度通過其結(jié)構(gòu)距離(SDIST)來衡量。SDIST計(jì)算包括4個(gè)部分的比較：方向的比較DirDist (Li,Lj)；速度的比較SpeedDist (Li,Lj)；轉(zhuǎn)角的比較AngleDist (Li,Lj)以及位置的比較LocDist (Li,Lj)。其中Li，Lj為軌跡段(1≤i≠j≤n)，這 4 部分的比較構(gòu)成了軌跡段結(jié)構(gòu)相似度的計(jì)算，如式(3)，式(4)所示，Normalized(…)為距離的歸一化函數(shù)，由于軌跡結(jié)構(gòu)中每一個(gè)特征的值域是不一樣的，因此，結(jié)構(gòu)距離的歸一化實(shí)質(zhì)上是每個(gè)特征距離的歸一化。結(jié)構(gòu)相似度表示為1減去歸一化的結(jié)構(gòu)距離。

當(dāng)利用SSIM進(jìn)行軌跡相似度比對(duì)時(shí)，需要對(duì)不在同一軌跡的所有段進(jìn)行結(jié)構(gòu)比較。SSIM 體現(xiàn)了軌跡段在結(jié)構(gòu)上的相似程度，因此SSIM越大（即距離越小）表示軌跡段越相似，反之越不相似。從定義3可以看出，基于結(jié)構(gòu)相似度的計(jì)算方法體現(xiàn)了軌跡段在結(jié)構(gòu)上的差異程度，由此可知，軌跡段結(jié)構(gòu)相似度的距離是對(duì)稱的，即SSIM(Li,Lj)= SSIM(Lj,Li)。

2.4 軌跡聚類

軌跡的匹配程度主要通過相似度來確定[1]，通過對(duì)比文獻(xiàn)[2,3,15]可以發(fā)現(xiàn)，基于密度的聚類方法可以很好地適應(yīng)軌跡段聚類。由于這些方法可以發(fā)現(xiàn)任意形狀的聚類，更重要的是，可以通過調(diào)整密度相關(guān)的參數(shù)來控制聚類的覆蓋面，因此，本文采用TC-SS來完成軌跡的聚類，下面給出TC-SS的相關(guān)定義：一個(gè)聚類主要由結(jié)構(gòu)上相似的軌跡段組成，這些結(jié)構(gòu)相似的軌跡段稱之為軌跡段的近鄰。

定義4 ε-近鄰集(ε-neighbor)：給定近鄰閾值ε，對(duì)于軌跡段Li，如果存在軌跡段Lj(i≠j)，滿足SSIM(Li,Lj)≤ε，則Lj屬于Li的ε-近鄰集，記作：

定義4給出了軌跡段的ε-近鄰集，反應(yīng)了軌跡段的相似程度。根據(jù)軌跡段的ε-近鄰集，給出軌跡段聚類的相關(guān)定義。

定義 5 核距離(Cdis, core-distance)：給定軌跡段Li，自然數(shù)σ(σ≤|Nε(Li)|)，設(shè)σ-Dis(Li)表示Li到其第σ個(gè)近鄰的距離，則Li的核距離表示如下：

若其 ε-近鄰的個(gè)數(shù)|Nε(Li)| ＜σ，則Li的核距離為空(φ)，其中σ為用戶指定參數(shù)。

定義6 可達(dá)距離(Rdis, reachability-distance)：給定軌跡段Li，Lj，自然數(shù)σ(σ≤|Nε(Li)|)，則Li，Lj的可達(dá)距離定義如下：

其中，Cdis(Li)為對(duì)應(yīng)的 Cdisε,σ(Li)。與定義 5 類似，若其ε-近鄰的個(gè)數(shù)|Nε(Li)| ＜σ，則Li，Lj的可達(dá)距離為空(φ)，即2個(gè)軌跡段是不可達(dá)的，反之稱之為距離可達(dá)。

3 基于結(jié)構(gòu)相似度的軌跡聚類算法

現(xiàn)有的軌跡數(shù)據(jù)分析方法過分地追求算法的效率而忽略了軌跡的特征及內(nèi)外在特征信息，同時(shí)也沒能有效處理數(shù)據(jù)采集時(shí)帶來的異常情況。TC-SS突破了傳統(tǒng)的基于幾何形狀和密度的方法，可以區(qū)分不同的空間區(qū)域中近似物體運(yùn)動(dòng)。表1給出算法相關(guān)的參數(shù)及其說明。

表1 參數(shù)說明

根據(jù)相關(guān)定義，TC-SS首先根據(jù)轉(zhuǎn)角將軌跡劃分成軌跡段集合。然后將軌跡段與不在同一軌跡上的其他軌跡段進(jìn)行結(jié)構(gòu)相似度比較，并形成軌跡段的ε-近鄰集。最后根據(jù)ε-近鄰集數(shù)目來確定軌跡聚類中心軌跡段，進(jìn)而完成聚類。

3.1 結(jié)構(gòu)相似度計(jì)算

在2.3節(jié)定義的結(jié)構(gòu)相似度計(jì)算中說明了結(jié)構(gòu)相似度所包含的具體比較內(nèi)容：方向信息的比較DirDist (Li,Lj)；速度信息的比較SpeedDist (Li,Lj)；轉(zhuǎn)角信息的比較AngleDist (Li,Lj)；位置信息的比較LocDist (Li,Lj)。其中，1≤i≠j≤n，軌跡段Li由Pi1,Pi2,…,Pin(1≤i1＜i2＜…≤m)組成。

1) 方向信息的比較：DirDist(Li,Lj)表示相對(duì)于軌跡段Li，Lj在運(yùn)動(dòng)趨勢(shì)上的偏轉(zhuǎn)程度。如圖3(a)所示，其中，φ是軌跡段的方向夾角。

圖3 軌跡結(jié)構(gòu)信息對(duì)比

方向距離的最好情況是2個(gè)軌跡段的方向相同且夾角(φ)較?。ń朴谕蚱叫校?，這時(shí)DirDist≈0，最差情況是2個(gè)軌跡段的方向相反且夾角(φ)較大（近似于反向平行），這時(shí)DirDist為較短軌跡段長(zhǎng)度。

2) 速度的比較：SpeedDist(Li,Lj)體現(xiàn)了對(duì)象移動(dòng)速度的差異化比較。式(8)給出了速度信息的比較公式。

其中，Smax(Li,Lj)表示|Vmax(Li)?Vmax(Lj)|，體現(xiàn)軌跡段間最大速度的差異絕對(duì)值。同理，Savg，Smin分別是平均速度、最小速度的差異程度的絕對(duì)值。SpeedDist從最大、最小和平均速度3個(gè)方面來表示綜合速度的差異。

3) 轉(zhuǎn)角的比較：AngleDist(Li,Lj) 反應(yīng)了軌跡段內(nèi)部的方向變化特征，反應(yīng)了軌跡內(nèi)部的波動(dòng)程度。根據(jù)式(2)，內(nèi)向變化的角為正角，外向變化的角為負(fù)角。軌跡的轉(zhuǎn)角是一個(gè)累加量，每一個(gè)轉(zhuǎn)角的數(shù)值是由軌跡的方向來決定。

轉(zhuǎn)角距離如圖3(b)所示，最好的情況下就是Li和Lj的每一個(gè)轉(zhuǎn)角都匹配，AngleDist為0，最差情況就是每個(gè)轉(zhuǎn)角互為相反方向，也就是說在軌跡段內(nèi)2條軌跡呈對(duì)立鋸齒狀，這時(shí)AngleDist為1。通過轉(zhuǎn)角的比較能夠體現(xiàn)軌跡的內(nèi)部變化情況。

4) 位置的對(duì)比：LocDist (Li,Lj) 位置計(jì)算方法在基于密度的軌跡相似度研究中均有涉及。為了簡(jiǎn)化計(jì)算，本文采用Hausdorff距離[1]公式來衡量軌跡段的位置距離。

3.2 TC-SS描述

根據(jù)上面的分析，TC-SS包括2個(gè)階段：① 根據(jù)轉(zhuǎn)角對(duì)軌跡進(jìn)行劃分，計(jì)算軌跡段的結(jié)構(gòu)相似度；② 根據(jù)基于密度的聚類算法思想，提出TC-SS，并完成聚類。在第1階段，首先計(jì)算每個(gè)軌跡采樣點(diǎn)Pci處的轉(zhuǎn)角θ，然后根據(jù)轉(zhuǎn)角閾值ω劃分軌跡成軌跡段集合TS(第2行)，接下來根據(jù)權(quán)重對(duì)軌跡段進(jìn)行相似度計(jì)算，并計(jì)算軌跡段的ε-近鄰集合(第3行～7行)。第2階段是軌跡段聚類(第8行～18行)，首先初始化聚類 ID 和軌跡段聚類標(biāo)志(第 8行～9行)，接下來遍歷軌跡段，尋找核心聚類并設(shè)置聚類ID(第10行～16行)，判斷近鄰中是否滿足距離可達(dá)，若滿足則對(duì)近鄰軌跡段進(jìn)行聚類 ID標(biāo)記(第 15行～17行)，同時(shí)擴(kuò)展聚類(第19行～27行)直到結(jié)束。

圖4 軌跡聚類算法偽代碼

為了更直觀地分析軌跡聚類效果，本文以 2種方式來表示軌跡聚類：① 以不同顏色來表示軌跡聚類的信息；② 本文參考文獻(xiàn)[2]聚類的特征軌跡表示方法，通過特征軌跡來表示軌跡聚類的信息。

3.3 算法性能分析

TC-SS中的轉(zhuǎn)角閾值ω、ε-近鄰閾值以及近鄰數(shù)量閾值σ是影響算法計(jì)算代價(jià)的主要參數(shù)。這些參數(shù)的含義非常直觀，領(lǐng)域?qū)＜液苋菀状_定一個(gè)比例合適的閾值。ω的設(shè)定不能太小，太小意味著容易丟失軌跡的重要特征細(xì)節(jié)；同樣不能太大，太大容易將軌跡的突變或由采樣導(dǎo)致的異常包含進(jìn)去，降低聚類分析的效果。由于本文采用類 R-Tree的結(jié)構(gòu)存儲(chǔ)軌跡段并為其近鄰增加空間索引，通過空間效率換取時(shí)間效率，TC-SS的時(shí)間復(fù)雜度為O(nlgn)，其中，n表示軌跡分段數(shù)目。

4 實(shí)驗(yàn)及分析

為了驗(yàn)證 TC-SS，開發(fā)了軌跡數(shù)據(jù)分析系統(tǒng)TrajMiner。該系統(tǒng)由Borland C++ Builder 6.0開發(fā)，軌跡數(shù)據(jù)存儲(chǔ)在SQLServer 2000中。實(shí)驗(yàn)進(jìn)行的軟硬件環(huán)境包括：Windows XP，Lenovo ThinkCentre(Pentium Duro 2.8G的CPU，1G內(nèi)存)。本文使用以下2個(gè)數(shù)據(jù)集。①大西洋颶風(fēng)數(shù)據(jù)(http://weather.unisys.com/hurricane/index.html)，包括颶風(fēng)經(jīng)緯度、持續(xù)最大速率、壓力、采樣時(shí)間等信息。本文抽取1950年～2009年的數(shù)據(jù)子集，包括由19 750個(gè)采樣點(diǎn)組成的639條軌跡，并選取經(jīng)度緯度、采樣時(shí)間等3個(gè)屬性參與實(shí)驗(yàn)。②動(dòng)物運(yùn)動(dòng)軌跡(http://www.fs.fed.us/pnw/starkey/publications/index.shtml)，包括無線傳感定位數(shù)據(jù)（以及其他信息），本文抽取1995年鹿的運(yùn)動(dòng)軌跡（簡(jiǎn)稱Deer1995）由 20 065個(gè)采樣點(diǎn)組成的32條軌跡，并從傳感定位信息中抽取x，y坐標(biāo)、定位時(shí)間等信息參與實(shí)驗(yàn)分析。

4.1 參數(shù)選擇與結(jié)果對(duì)比

TC-SS的計(jì)算代價(jià)主要依賴于轉(zhuǎn)角閾值ω、近鄰閾值ε以及近鄰數(shù)量閾值σ，ω越大軌跡劃分的段越少。由于軌跡結(jié)構(gòu)的特征，計(jì)算過程中造成的軌跡段結(jié)構(gòu)距離的累加，會(huì)造成聚類結(jié)構(gòu)松散且持續(xù)過長(zhǎng)，這樣容易將噪聲軌跡以及其他不相關(guān)的軌跡聚為一類。而隨著ε的增加，|Nε|就會(huì)減少，這樣會(huì)造成聚類數(shù)目過多等情況。為了與文獻(xiàn)[2]中的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比，圖 5以颶風(fēng)數(shù)據(jù)為例，顯示了σ=20、16 (ω=30,ε=39)情況下的聚類效果。采用文獻(xiàn)[2]中的方法對(duì)聚類中的特征軌跡進(jìn)行表示。從圖中可以看出圖5(a)的聚類數(shù)目較少，且相對(duì)集中，而圖 5(b)的聚類效果相對(duì)比較分散且聚類數(shù)目較多，原因在于由于σ較小，距離特征軌跡較遠(yuǎn)但又比較相似的軌跡段被劃分為另外一個(gè)聚類。

圖5 颶風(fēng)數(shù)據(jù)在不同σ值的聚類效果

圖5中的聚類結(jié)果表示參考文獻(xiàn)[2]中的特征軌跡表示方法，對(duì)聚類中的特征軌跡段進(jìn)行了標(biāo)記。為了驗(yàn)證本文算法的效果，本文采用颶風(fēng)數(shù)據(jù)、Deer1995 2個(gè)數(shù)據(jù)集在不同參數(shù)下進(jìn)行計(jì)算驗(yàn)證。

由表2可以看出，由于TC-SS通過犧牲空間來換取時(shí)間效率，因此TC-SS消耗的時(shí)間僅與軌跡數(shù)量有關(guān)，相關(guān)參數(shù)的設(shè)置對(duì)算法的運(yùn)行速度影響不大，但是對(duì)聚類結(jié)果影響相對(duì)較大。

表2 不同參數(shù)下的軌跡聚類數(shù)目比較與性能分析

本文從軌跡結(jié)構(gòu)出發(fā)，分析軌跡內(nèi)部蘊(yùn)含特征，充分考慮特征屬性：方向、速度、轉(zhuǎn)角、位置等，較文獻(xiàn)[2～8]更為全面，因此本文聚類算法的可靠度與可信度都相對(duì)較高。圖6以Deer1995為例展示不同參數(shù)下的聚類效果。從圖6(a)可以看出，由于ε設(shè)置較大，導(dǎo)致|Nε|較小，因此在比較稀疏地區(qū)的軌跡段被認(rèn)為是噪音區(qū)，聚類主要集中在軌跡比較密集區(qū)；而在圖6(b)中，由于ε設(shè)置得當(dāng)，分散區(qū)域的軌跡被聚集起來，原先被孤立的軌跡段也根據(jù)結(jié)構(gòu)相似度被有效劃分到相應(yīng)的聚類中。如圖6(b)中的 2#聚類區(qū)域原本在圖 6(a)中被認(rèn)為是噪音，同時(shí)，圖6(b)中的1#聚類區(qū)域也得到了不斷的延伸，覆蓋了圖6(a)中的2#聚類。原本對(duì)象活動(dòng)較為偏遠(yuǎn)的3#區(qū)域，由于具有相對(duì)集中的軌跡且對(duì)象行為較為相似，因此被聚為一類。

圖6 不同參數(shù)下Deer1995實(shí)驗(yàn)結(jié)果比較

同本文方法最為接近的文獻(xiàn)[2]，由于其對(duì)參數(shù)變化非常敏感，參數(shù)的微小調(diào)整都會(huì)導(dǎo)致聚類結(jié)果的巨大變化。如果軌跡段沒有被正確地聚類，或者丟失了一些重要的特征，文獻(xiàn)[2]將不能捕捉到復(fù)雜的軌跡運(yùn)動(dòng)模式。

4.2 同類算法性能對(duì)比

本文提出的TC-SS與TRACLUS[2]、DBSCAN、OPTICS等都是密度相關(guān)的聚類算法。為了比較TC-SS與同類算法的優(yōu)劣，本文選取颶風(fēng)數(shù)據(jù)集分別與上面3種算法進(jìn)行比較（參數(shù)選取均為在同環(huán)境下的最優(yōu)參數(shù)），以驗(yàn)證TC-SS的性能。

從表 3中可以看出，相對(duì)于其他 3種方法，TC-SS具有較好的運(yùn)行速度，且發(fā)現(xiàn)的聚類數(shù)目要更多，主要有以下原因：① TC-SS采用類 R-Tree的結(jié)構(gòu)存儲(chǔ)軌跡段并為其近鄰增加空間索引，犧牲空間換取時(shí)間效率；② TC-SS以軌跡結(jié)構(gòu)特征為依據(jù)，從多角度來計(jì)算軌跡結(jié)構(gòu)相似性，容易發(fā)現(xiàn)比較隱蔽的離群軌跡群；③ 在參數(shù)設(shè)置時(shí)，TC-SS的部分參數(shù)直接參與軌跡聚類而不需要進(jìn)一步計(jì)算，參數(shù)調(diào)整更為直觀，有利于發(fā)現(xiàn)隱藏的軌跡運(yùn)動(dòng)模式。

表3 不同算法之間的性能比較

5 結(jié)束語

本文從軌跡數(shù)據(jù)的特性出發(fā)，提出了軌跡結(jié)構(gòu)的概念，充分考慮軌跡內(nèi)外在特征信息。首先根據(jù)轉(zhuǎn)角將軌跡劃分成包含局部特征的軌跡段集合，通過計(jì)算軌跡段的結(jié)構(gòu)相似度確定相似的軌跡段集合，然后提出了TC-SS，并完成聚類。實(shí)驗(yàn)表明本文算法不僅具有很高的效率，且獲得的軌跡聚類更具有實(shí)際意義，是一種高效的軌跡聚類算法。本文的算法在氣候監(jiān)測(cè)、動(dòng)物遷徙等領(lǐng)域具有重要的意義和價(jià)值。下一步工作將致力于分析軌跡在時(shí)間維度內(nèi)的運(yùn)動(dòng)模式，探索時(shí)間對(duì)軌跡產(chǎn)生及運(yùn)動(dòng)模式的影響。

[1]陳繼東，孟小峰，賴彩鳳.基于道路網(wǎng)絡(luò)的對(duì)象聚類[J].軟件學(xué)報(bào)，2007, 18(2):332-344.CHEN J D, MENG X F, LAI C F.Clustering objects in a road network[J].Journal of Software, 2007, 18(2):332-344.

[2]LEE J G, HAN J W, WHANG K Y.Trajectory clustering: a partition-and-group framework[A].Proceedings of the 2007 ACM SIG-MOD International Conference on Management of Data[C].Beijing,China, 2007.593-604.

[3]CHANG C, ZHOU B Y.Multi-granularity visualization of trajectory clusters using sub-trajectory clustering[A].Proceedings of the 7th IEEE International Conference on Data Mining Workshops[C].Miami,Florida, USA, 2009.577-582.

[4]KREVELD M V, LUO J.The definition and computation of trajectory and sub-trajectory similarity[A].Proceedings of the 15th Annual ACM International Symposium on Advances in Geographic Information Systems[C].Seattle, Washington, USA.2007.324-327.

[5]PELEKIS N, KOPANAKIS I, MARKETOS G,et al.Similarity search in trajectory databases[A].Proceedings of the 14th International Symposium on Temporal Representation and Reasoning[C].Washington, DC, USA, 2007.129-140.

[6]MICHAIL V, MARIOS H, DIMITRIOS G.Indexing multidimensional time-series[J].The International Journal on Very Large Data Bases,2006, 15(1):1-20.

[7]GAFFNEY S, SMYTH P.Trajectory clustering with mixtures of regression models[A].Proceedings of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].San Diego, California, USA, 1999.63-72.

[8]TSUMOTO S, HIRANO S.Behavior grouping based on trajectory mining[A].Social Computing and Behavioral Modeling[C].Springer Press, German, 2009.219-226.

[9]LI X L, HAN J W, LEE J G,et al.Traffic density-based discovery of hot routes in road networks[A].Proceedings of the 10th International Conference on Advances in Spatial and Temporal Databases[C].Boston, MA, USA, 2007.441-459.

[10]YUTAKA Y, TETSUJI S.Clustering multidimensional trajectories based on shape and velocity[A].Proceedings of the 22nd International Conference on Data Engineering Workshops[C].Washington, DC,USA, 2006.12-22.

[11]NANNI M, PEDRESCHI D.Time-focused density-based clustering of trajectories of moving objects[J].Journal of Intelligent Information Systems, 2006, 27(3):267-289.

[12]WANG Z, BOVIK A C, SHEIKH H R.Image quality assessment:from error visibility to structural similarity[J].IEEE Transactions on Image Processing, 2004, 13(4):600-612.

[13]KNORR E M, NG R T, TUCAKOV V.Distance-based outliers: algorithms and applications[J].International Journal on Very Large Data Bases, 2000, 8(3/4):237-253.

[14]FRENTZOS E, GRATSIAS K, THEODORIDIS Y.Index-based most similarity trajectory search[A].Proceedings of IEEE 23rd International Conference on Data Engineering[C].Istanbul, Turkey, 2007.816-825.

[15]NANOPOULOS A, THEODORIDIS Y, MANOLOPOULOS Y.C2P:clustering based on closest pairs[A].Proceedings of the 27th International Conference on Very Large Data Bases[C].San Francisco, CA,USA, 2001.331?340.