宋玲,呂舜銘,劉洪鑫,呂強(qiáng),牛小飛,劉新鋒
1. 山東建筑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 濟(jì)南 250101
2. 國家電網(wǎng)公司信息通信分公司,北京 100031
3. 國網(wǎng)技術(shù)學(xué)院,山東 濟(jì)南 250002
隨著越來越多的傳感器和移動(dòng)設(shè)備的普及以及智能化,用戶的活動(dòng)行為及其活動(dòng)軌跡等信息也越來越容易獲取,逐漸積累了越來越豐富的人類活動(dòng)數(shù)據(jù)集。借助于機(jī)器學(xué)習(xí)等方法來挖掘這些大數(shù)據(jù),獲取人群的活動(dòng)模式及其發(fā)展趨勢,并且挖掘其相關(guān)的社會(huì)人口學(xué)模式,可以有助于更好地理解人類行為,是個(gè)人信息需求分析的基礎(chǔ),同時(shí)也是提高各種智能系統(tǒng)的關(guān)鍵,可以為推薦系統(tǒng)、電子商務(wù)以及城市規(guī)劃等應(yīng)用提供數(shù)據(jù)和決策支持。
基于人群活動(dòng)行為的模式理解是極其復(fù)雜的,涉及到活動(dòng)的各種屬性,包括活動(dòng)的類型,發(fā)生的時(shí)間、地點(diǎn),參與者以及活動(dòng)軌跡。人類的活動(dòng)行為的表現(xiàn)及其時(shí)間分配實(shí)質(zhì)上又受社會(huì)人口學(xué)影響。因此對人群活動(dòng)行為的模式挖掘具有較大的難度。模式挖掘的首要任務(wù)是計(jì)算人的活動(dòng)行為之間的相似度,所以首先需要抽取出描述活動(dòng)行為的屬性。人類活動(dòng)行為可以用不同的屬性來描述。作為對活動(dòng)行為的一種描述, Ying 等[1]提出活動(dòng)行為相似度通過最大活動(dòng)軌跡來計(jì)算。Zhang 等[2]使用活動(dòng)序列的最長公共子序列(longest common sequence,LCS)來表示活動(dòng)軌跡之間的相似性。時(shí)空信息作為對活動(dòng)行為的另一種描述,在特征提取和表示中起著重要的作用。Banovic 等[3]將活動(dòng)行為日志轉(zhuǎn)換為活動(dòng)上下文的事件序列,用于表示人的日?;顒?dòng)行為。為了更深入地掌握人的活動(dòng)動(dòng)態(tài),Zhang 等[2]從活動(dòng)和旅行事件中提取活動(dòng)的空間和時(shí)間特征。You 等[4]通過同時(shí)考慮語義信息和地理信息來計(jì)算軌跡相似性。在Chakri 等[5]的工作中,知識發(fā)現(xiàn)用于從語義軌跡中提取空間和時(shí)間信息。
為了挖掘用戶的時(shí)空活動(dòng)模式,有些學(xué)者使用空間統(tǒng)計(jì),如核密度估計(jì)、K 函數(shù)和空間自相關(guān)和可視化技術(shù)來分析活動(dòng)在時(shí)空上的分布和密度,然后確定密集活動(dòng)[6-8]。時(shí)空流分析和軌跡分析主要依靠時(shí)空上的距離來識別密集活動(dòng)[9-11]。這類方法沒有將單個(gè)軌跡作為一個(gè)整體來對待,無法挖掘出具有代表性的模式特征。有的學(xué)者使用機(jī)器學(xué)習(xí)模型進(jìn)行模式挖掘,如Shen 等[12]從個(gè)體的角度基于個(gè)人活動(dòng)之間的時(shí)空距離通過聚類進(jìn)行活動(dòng)類別的識別。Zhang 等[2]綜合考慮了活動(dòng)及其活動(dòng)的空間相交性、時(shí)間相交性以及活動(dòng)軌跡來計(jì)算個(gè)體之間的相似度,并進(jìn)一步基于社會(huì)網(wǎng)絡(luò)分析進(jìn)行社區(qū)發(fā)現(xiàn)。Kwan 等[13]利用序列比對將人類活動(dòng)描述為多維序列,并將活動(dòng)模式相似性評估作為一個(gè)多目標(biāo)優(yōu)化問題,提出的多目標(biāo)進(jìn)化算法用于計(jì)算個(gè)體活動(dòng)模式相似性,然后使用聚類方法進(jìn)行模式挖掘。給定一個(gè)人的時(shí)間和地點(diǎn),Benetka 等[14]提出了一個(gè)針對活動(dòng)的推薦系統(tǒng),Krishna 等[15]提出一個(gè)基于長短期記憶人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測活動(dòng)以及活動(dòng)持續(xù)時(shí)間的方法。
LCS 是一個(gè)經(jīng)典問題,其在很多領(lǐng)域有廣泛應(yīng)用,長期以來許多研究者對LCS 做出了優(yōu)化。有研究已經(jīng)證明LCS 問題算法的時(shí)間復(fù)雜度下界為Ω(mlogn)[16]。該問題最常用的算法是動(dòng)態(tài)規(guī)劃, Hirschberg[17]提出了時(shí)間復(fù)雜度為O(pn)的算法,Nakatsu 等[18]提出了時(shí)間復(fù)雜度為O(n(m-p))的算法。
在以往的相關(guān)研究中,研究者往往僅利用活動(dòng)軌跡來描述用戶的活動(dòng)行為,忽略了時(shí)間對活動(dòng)的影響。本文認(rèn)為人的時(shí)序活動(dòng)序列描述了從時(shí)間的先后順序下的活動(dòng)特征,反映了人的重要行為特征,因此本文基于時(shí)序活動(dòng)序列挖掘人的活動(dòng)模式。
在時(shí)序活動(dòng)序列的相似度計(jì)算中,計(jì)算的關(guān)鍵是需要同時(shí)考慮活動(dòng)序列以及序列中每個(gè)活動(dòng)發(fā)生的時(shí)間。為此本文考慮了相似活動(dòng)的合并,將時(shí)間相鄰且活動(dòng)相似的時(shí)間離散為一個(gè)時(shí)間段,將每一段看作一個(gè)加權(quán)的點(diǎn),這樣一個(gè)人的日常活動(dòng)是關(guān)于時(shí)間和活動(dòng)的二維表示,2 個(gè)人的時(shí)序活動(dòng)序列的比較就成了三維的比較。為了降低三維比較的算法復(fù)雜度,鑒于活動(dòng)的時(shí)間段離散化程度比較大的特點(diǎn),使用線段樹和貪心算法進(jìn)行降維,在借鑒前人LCS 研究的基礎(chǔ)上,提出了一個(gè)復(fù)雜度為O(p(m-p))的時(shí)序活動(dòng)序列的相似度算法。
最長公共時(shí)序活動(dòng)子序列問題可以描述為:設(shè)序列X和Y是定義在活動(dòng)集C上的序列,給定2 個(gè)用戶的活動(dòng)的序列X和Y,找出X和Y的一個(gè)最長公共子序列Z。注意,在此活動(dòng)集中的活動(dòng)是是包含了時(shí)間信息的。定義X的前i個(gè)前驅(qū)為Xi,Y的前j個(gè)前驅(qū)為Yj。因?yàn)槿说娜粘r(shí)序活動(dòng)序列描述了其行為習(xí)慣,所以使用最長公共時(shí)序活動(dòng)子序列的長度來衡量用戶之間的行為相似度。
對于給定活動(dòng)序列X和Y,LHi[k]表示所有與子序列Xi有公共子序列長度為k的Yj中j的最小值,即:LHi[k]=min{j| LCS(Xi,Yj)=k}。由此可以得出:
1)對于 ?i(0≤i≤n),如果LHi[k]和LHi[k+1]都存在,則LHi[k]<LHi[k+1];
2)對 于 ?i(0≤i≤n-1),如 果LHi[k] 和LHi+1[k]都存在,則LHi[k]≥LHi+1[k];
3)對于 ?i(0≤i≤n-1),如果LHi[k]和LHi+1[k+1]都存在,則LHi[k]<LHi+1[k+1];
4)對于 ?i(0≤i≤n-1),如果LHi[k] 和LHi+1[k]都存在,如果xi+1=yi且j>LHi[k],LHi+1[k]=j;否則如果xi+1=yi且j≤LHi[k],LHi+1[k]=LHi[k]。
根據(jù)上述分析及相關(guān)定理,算法存儲設(shè)計(jì)如下所示:
1)用一維數(shù)組L存儲xi=yj時(shí)的跳躍點(diǎn),L的下標(biāo)表示Xi和Yj的公共子序列的長度,L[k]表示Xi和Yj的公共子序列的長度為k的j的最小值,(L[k],k)表示c[i][j]的跳躍點(diǎn),c[i][j]為Xi和Yj的最長公共子序列的長度。
2)線性掃描字符序列Y,為字符集中的每個(gè)字符ai建立一個(gè)列表charList[ai],表中升序記錄序列Y中每個(gè)字符ai出現(xiàn)的位置。
3)使用一維數(shù)組charListLen[ai] 記錄列表charList[ai]的長度,使用一維數(shù)組charListIndex[ai]記錄掃描列表charList[ai]的指針位置。
使用LHi[k] 計(jì)算LHi+1[k] 時(shí),在LHi[k] 的基礎(chǔ)上,對于xi+1=yi的所有j,將min{ LHi[k] | LHi[k]>j|}替換為在LHi[k] 中出現(xiàn)的j,如果min{ LHi[k]|LHi[k]>j|}不存在,則將j放到LHi(max{k|LHi[k]exist}+1),計(jì)算結(jié)束。
計(jì)算最長公共時(shí)序活動(dòng)子序列的長度時(shí),只需要基于L數(shù)組就地進(jìn)行即可,因此空間復(fù)雜度為O(n)。L數(shù)組最多包含p個(gè)元素,由LHi[k]計(jì)算LHi[k+1]的方法可知,只需要對L數(shù)組遍歷一次即可,該操作的時(shí)間復(fù)雜度為O(p),此操作共進(jìn)行m次,其中,m1∈{0},m2∈{0,1},m3∈{0,1,2},……因此最壞情況下mp=p,故最壞情況下時(shí)間復(fù)雜度為O(1+2+…+p+(m-p)p),即:O((m-p)p)。構(gòu)造最優(yōu)解的過程中只需要對X序列線性遍歷即可,時(shí)間復(fù)雜度為O(m),故整個(gè)算法的時(shí)間復(fù)雜度為
O((m-p)p)。
以上提出的最長公共時(shí)序活動(dòng)子序列算法,不僅考慮了活動(dòng)序列,同時(shí)考慮了活動(dòng)所發(fā)生的時(shí)間,所以計(jì)算相似度矩陣的復(fù)雜度較高。以本文所用的數(shù)據(jù)集為例,描述了人日常一天1 440 min的所有活動(dòng),樣本個(gè)數(shù)在10 000 左右,所以計(jì)算相似度矩陣的復(fù)雜度大約為O(1014)。為了降低算法的復(fù)雜度,我們將時(shí)間相鄰且活動(dòng)相似的時(shí)間離散為一個(gè)時(shí)間段,這種離散化的處理使得變量的分布比較集中,也就是說相同連續(xù)的類型比較多。因?yàn)樘幚淼膶ο笫腔顒?dòng)及其時(shí)間,粒度是分鐘,每個(gè)活動(dòng)會(huì)持續(xù)多個(gè)分鐘,所以比較集中?;跀?shù)據(jù)集的序列存在這種特殊性,所以最壞情況出現(xiàn)的概率幾乎為0,極大提高了計(jì)算效率。而像DNA 序列,雖然只有4 種類型符號,但都是交錯(cuò)的,離散化效果并不理想,所以本算法對DNA 這種類型的計(jì)算效率不高。效率高低主要取決于離散化程度,其效率和離散化后的區(qū)間個(gè)數(shù)正相關(guān)。對于類型比較少的序列使用后綴數(shù)組等方法來提升計(jì)算速度。
基于以上相似度矩陣,首先使用譜聚類算法將其劃分成各不相交的簇。
相比K-means 和基于密度的聚類算法,譜聚類只需要用戶的相似度矩陣,對于稀疏數(shù)據(jù)的聚類處理較有效。因?yàn)槭褂昧私稻S,在處理高維數(shù)據(jù)時(shí)比傳統(tǒng)聚類算法效果好,對數(shù)據(jù)分布的適應(yīng)性也更強(qiáng)。譜聚類的主要思想是首先把所有的數(shù)據(jù)映射為空間中的點(diǎn),然后用邊的權(quán)值表示兩點(diǎn)之間的相似度,最后進(jìn)行切圖,使切割后的子圖內(nèi)的權(quán)值和盡可能的高,并且子圖間的權(quán)值和盡可能的低。
譜聚類算法描述如下:
1)構(gòu)圖。將每個(gè)樣本都看作是頂點(diǎn)V,并將這些點(diǎn)V用邊E連接起來,邊的權(quán)重表示樣本的相似度,從而得到頂點(diǎn)之間的相似性矩陣W;
2)通過相似性矩陣W計(jì)算得到頂點(diǎn)間的度矩陣D,即W的每一行元素和;
3)計(jì)算拉普拉斯矩陣L=D-W;
4)計(jì)算L的特征值,取最小的k個(gè)特征值和對應(yīng)的特征向量;
5)使用K-means 算法對特征向量進(jìn)行聚類。
1)輪廓系數(shù)(silhouette coefficient,SC)結(jié)合了分離度和內(nèi)聚度2 種影響因素,取值為[-1,1],結(jié)果越趨近于1 代表聚簇的分離度都相對較優(yōu)。其輪廓系數(shù)的計(jì)算方法為
式中:ai為點(diǎn)i到其同一簇內(nèi)其他點(diǎn)的距離的平均值,bi為點(diǎn)i到與點(diǎn)i最近的不同簇的點(diǎn)的距離的平均值。所以整體聚類的輪廓函數(shù)為
2)CH 分?jǐn)?shù)通過計(jì)算簇中各點(diǎn)與簇的中心點(diǎn)的距離平方和來度量簇的內(nèi)聚度,通過計(jì)算各簇中心點(diǎn)與數(shù)據(jù)集中心的點(diǎn)距離的平方和來評估數(shù)據(jù)集的離散度,CH 分?jǐn)?shù)由內(nèi)聚度與緊密度的比值得到。因此,CH 分?jǐn)?shù)越大表示聚簇自身越緊密,簇與簇之間越分散。CH 分?jǐn)?shù)的計(jì)算方法為式中:n為類的數(shù)目,k為當(dāng)前的類, tr(Bk)為類間離差矩陣的跡,tr(Wk)為類內(nèi)離差矩陣的跡,Bk為簇間分散平均值,Wk為簇內(nèi)分散值,d( )為距離計(jì)算公式。
3)Davies-Bouldin 指 數(shù)(Davies-Bouldin index,DBI)為任意2 個(gè)簇的簇內(nèi)距離的平均距離之和與兩簇質(zhì)心間距之比的最大值。設(shè)有m個(gè)時(shí)間序列,這些時(shí)間序列聚簇為n個(gè)簇。m個(gè)時(shí)間序列設(shè)為輸入矩陣X,N為簇?cái)?shù),計(jì)算公式為
本文使用美國時(shí)間使用調(diào)查(American Time Use Survey,ATUS)連續(xù)6 a 的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,原因如下: 1)ATUS 是美國勞工統(tǒng)計(jì)局積累的多年的統(tǒng)計(jì)數(shù)據(jù),真實(shí)度較高; 2)數(shù)據(jù)具有代表性,樣本的數(shù)量、特征值以及類別信息都比較廣泛和詳細(xì),不容易導(dǎo)致過擬合現(xiàn)象;3)記錄了用戶一天詳細(xì)的活動(dòng)、時(shí)間、地點(diǎn)、人物以及社會(huì)人口學(xué)屬性,為活動(dòng)的模式挖掘提供了詳實(shí)豐富的數(shù)據(jù);4)根據(jù)2013—2018 年的數(shù)據(jù)進(jìn)行發(fā)展趨勢研究。
2013—2018 年的樣本個(gè)數(shù)分別是11 385、11 592、10 905、10 493、10 223 和9 593 個(gè)。提取用戶的活動(dòng)特征以及社會(huì)人口學(xué)特征,然后對數(shù)據(jù)集進(jìn)行去重處理,并對特征嚴(yán)重缺失的數(shù)據(jù)值進(jìn)行刪除處理,還有少量特征缺失的數(shù)據(jù)進(jìn)行均值填充處理。最后針對特征的性質(zhì)以及計(jì)算需要,進(jìn)行了歸一化和標(biāo)準(zhǔn)化處理。
本文系統(tǒng)采用B/S 結(jié)構(gòu),核心計(jì)算部分集中到服務(wù)器上,可以在Web 瀏覽器界面進(jìn)行可視化調(diào)參、遠(yuǎn)程添加計(jì)算任務(wù)、異步計(jì)算以及計(jì)算結(jié)果可視化等操作,簡化了調(diào)參和計(jì)算過程。服務(wù)端主要由配置文件、數(shù)據(jù)文件、結(jié)果文件、線程池計(jì)算隊(duì)列和計(jì)算模塊構(gòu)成,其中計(jì)算模塊又分為相似矩陣計(jì)算模塊、聚類計(jì)算模塊、可視化計(jì)算模塊和統(tǒng)計(jì)計(jì)算模塊。各個(gè)組成部分的相互關(guān)系以及整體結(jié)構(gòu)如圖1 所示。
圖1 模式挖掘系統(tǒng)的B/S 結(jié)構(gòu)
模式挖掘系統(tǒng)中存在較多的關(guān)鍵參數(shù),面向不同的應(yīng)用的時(shí)候,在數(shù)據(jù)處理和分析過程中存在參數(shù)調(diào)整的問題,因而模式挖掘系統(tǒng)實(shí)現(xiàn)了一個(gè)可視化操作界面,實(shí)現(xiàn)對數(shù)據(jù)集的監(jiān)控、關(guān)鍵步驟的計(jì)算、參數(shù)的調(diào)整、數(shù)據(jù)的保存、異步計(jì)算以及數(shù)據(jù)結(jié)果分析等功能。
3.3.1 聚類
表1 聚類評價(jià)指標(biāo)
3.3.2 模式的典型特征分析
下面對聚類結(jié)果進(jìn)行分析和挖掘。圖2 將2018 年k=7 的聚類結(jié)果通過活動(dòng)序列圖對一天的活動(dòng)時(shí)間分布進(jìn)行可視化。從凌晨的4:00 到第二天凌晨的3:59,將簇中每個(gè)人一天1 440 min的所有活動(dòng)通過不同的顏色表示,這樣通過觀察該圖的顏色分布,可以直觀地發(fā)現(xiàn)簇7 呈現(xiàn)的顏色分布具有明顯性的差異,具有較好的辨識度,說明該聚類較好地捕捉到典型的活動(dòng)模式。
圖2 2018 年k=7 時(shí)的活動(dòng)時(shí)間序列
我們對2013—2018 年的聚簇結(jié)果通過活動(dòng)序列圖顯示其典型特征,發(fā)現(xiàn)不同年份所聚類的7 個(gè)簇所呈現(xiàn)的活動(dòng)序列圖分布大體比較一致。如2013 年的簇7、2014 年的簇3、2015 年的簇7、2016 年的簇3、2017 年的簇2 和2018 年的簇7,它們的活動(dòng)序列圖呈現(xiàn)相似的特征。更進(jìn)一步,我們計(jì)算一天中各時(shí)刻的各類活動(dòng)的人群密度函數(shù)。圖3 為某類簇在2013—2018 年所呈現(xiàn)的概率密度圖,我們觀察到該類簇在不同的年份呈現(xiàn)相似的概率分布,由此推論出它們屬于同一類活動(dòng)模式。
圖4 是2013 年的簇7、2014 年的簇3、2015 年的簇7、2016 年的簇3、2017 年的簇2 和2018 年的簇7 的概率分布圖,觀察到該類簇在不同的年份呈現(xiàn)相似的概率分布,屬于同一類活動(dòng)模式。與圖3 比較,發(fā)現(xiàn)它們呈現(xiàn)明顯不同的概率密度分布,由此推論圖3 和圖4 呈現(xiàn)了2 種不同的模式的概率密度分布。
圖3 k=7 時(shí)的概率密度分布(2013 年簇3、2014 年簇6、2015 年簇1、2016 年簇7、2017 年簇7 和2018 年簇6)
圖4 k=7 時(shí)的概率密度分布(2013 年簇7、2014 年簇3、2015 年簇7、2016 年簇3、2017 年簇2 和2018 年簇7)
通過以上對活動(dòng)時(shí)間序列圖和概率密度分布圖的可視化,我們對2013—2018 年的聚簇結(jié)果進(jìn)行對比分析,得到同一模式在不同年份所對應(yīng)的簇。
3.3.3 模式的主要特征分析
本節(jié)針對k=7 時(shí)的聚類結(jié)果,對簇內(nèi)的樣本進(jìn)行統(tǒng)計(jì)分析,提取活動(dòng)行為以及社會(huì)人口學(xué)的典型特征,得到以下7 種模式:
小白說,真是萬幸,幸虧你摔到了綠化帶的樹苗堆里,再說,你還遇到了一位好心的老板,第一時(shí)間就把你送到了醫(yī)院。
#1:個(gè)人護(hù)理時(shí)間最長,工作時(shí)間最少,年齡中年,收入較低,黑人比例較高,受教育程度較低;
#2:社交、休閑和娛樂時(shí)間最長,工作時(shí)間你較少,年齡最大,黑人比例較高,收入較低,受教育程度較低;
#3:工作時(shí)間主要分布在凌晨00:00 左右,年齡最低,收入低,男性較多,黑人比例較高,受教育程度較低;
#4:家務(wù)活動(dòng)為主,中年,女性較多,白人比例較高,收入中等,受教育程度較高;
#5:與其他模式相比,花在工作上的時(shí)間最多,中年,收入高,和家人相處的時(shí)間較少;
#6:花在休閑、旅行、宗教、購物和購買服務(wù)的時(shí)間較多,參與的活動(dòng)類型較多,老年,中等收入,白人比例較高,受教育程度較高;
#7:花在休閑、旅行、教育、宗教、鍛煉、吃喝、購物和購買服務(wù)的時(shí)間最多, 參與的活動(dòng)類型最多,中年,收入最高,白人比例較高,受教育程度較高,職業(yè)多為科技和管理類,家庭成員較多,工作時(shí)間較短,陪伴家人時(shí)間較多。
從以上分析可以看出,#1 和#7 是區(qū)別度較大的2 種模式,本節(jié)以這2 種模式為例,分別從活動(dòng)行為和社會(huì)人口學(xué)角度進(jìn)行趨勢分析。活動(dòng)行為包括參與的活動(dòng)及其花費(fèi)的時(shí)間,社會(huì)人口學(xué)因素包括年齡、家庭收入、種族、性別、職業(yè)、家庭人口數(shù)、工作時(shí)間、陪伴家庭的時(shí)間和休閑時(shí)間。我們畫出這些特征在2013—2018 年的變化趨勢圖,分析結(jié)果如下。
3.4.1 模式#1 的發(fā)展趨勢分析
活動(dòng):餐飲的時(shí)間在56~61 min,社交休閑的時(shí)間在255~300 min,體育鍛煉娛樂的時(shí)間在11~18 min,宗教及其精神活動(dòng)的時(shí)間在22~26 min,出行時(shí)間在35~40 min,個(gè)人護(hù)理時(shí)間在815~853 min,教 育 時(shí) 間 在9~23 min,購買 時(shí)間 在15~18 min。2013—2018 年,總體變化不大,個(gè)人護(hù)理與教育這2 種活動(dòng)有增長的趨勢。
年 齡:10~19、20~29、30~39、40~49、50~59、60~69 歲各年齡段人群比例大致均勻,70 歲以上人數(shù)比例有所減少。在2013—2018 年,60 歲以下的人數(shù)比例有降低的趨勢,而60~79 歲的人數(shù)比例具有升高的趨勢。
收入:收入主要分布在$15 000~149 999,在各子區(qū)間人群比例大致均勻。家庭收入低于$15 000的約占20%,而高于$100 000 的約占10%。在2013—2018 年,收入在$35 000 以下的人數(shù)比例有降低的趨勢,高于$35 000 的人數(shù)比例整體略有升高的趨勢。
各種族的人數(shù)比例:白人的比例在66.74%~70.45%,略有下降的趨勢;黑人的比例在22.73%~25.90%,變化不大;亞洲人比例在3.20%~5.81%,略有增長的趨勢。
職業(yè):除了建筑工程、食品準(zhǔn)備及其服務(wù)、建筑清潔維護(hù)、銷售以及安裝修理行業(yè),其他職業(yè)的比例略有上升的趨勢。
家庭人口數(shù):整體曲線下降,說明人口數(shù)比例隨著家庭人口數(shù)的增多而降低。家庭人口數(shù)在1 個(gè)的占比為28.91%~34.74%,人口數(shù)比例有增加的趨勢;大于2 個(gè)的人口數(shù)比例均有所下降的趨勢。家庭人口數(shù)在2 個(gè)的占比為23.86%~28.45%,家庭人口數(shù)在3 個(gè)的占比為16.09%~18.00%,家庭人口數(shù)在4 個(gè)的占比為12.71%~15.56%,家庭人口數(shù)在5 個(gè)的占比為6.41%~8.28%,家庭人口數(shù)大于5 個(gè)的人數(shù)比例明顯減少。
工作時(shí)長: 大約10% 的人不工作;15.10%~17.47%的人工作時(shí)長是1~99 min,占比最高;在100~699 min 的每100 min 時(shí)間段上的人數(shù)分布較均勻,在每個(gè)時(shí)段的比例大概在10%左右。
陪伴家庭時(shí)長:不陪伴家人的人數(shù)比例在43.63%~48.36%,且有增長的趨勢;陪伴家庭的時(shí)間在1~699min 的每100 min 時(shí)間段上比較均勻,在每個(gè)時(shí)間段上占比大約在5.93%~9.08%。
休閑時(shí)間:大約10% 的人沒有休閑時(shí)間,休閑時(shí)間1~99 min 人數(shù)比例最高,大約在16%~18%,在100~699 min 每100 min 時(shí)間段人數(shù)比例平穩(wěn)下降。
3.4.2 模式#7 的挖掘及其發(fā)展趨勢分析
活動(dòng):餐飲的時(shí)間在85~94 min,社交休閑的時(shí)間在127~208 min,體育鍛煉娛樂的時(shí)間在40~67 min,宗教及其精神活動(dòng)的時(shí)間在53~75 min,出行的時(shí)間在158~185 min,教育的時(shí)間在61~106 min,購買的時(shí)間在45~55 min,這些活動(dòng)花費(fèi)的時(shí)間明顯比#1 多;而個(gè)人護(hù)理在561~572 min,比#1 明顯少。2013—2018 年,旅行、工作時(shí)間有增加的趨勢,宗教及其精神活動(dòng)有減少的趨勢,其他基本持平。
年齡:20~29 歲和70 歲以上的人員數(shù)量較少,其他年齡的人員分布較均勻,50 歲以下比例具有減少的趨勢,50 歲以上比例具有增加的趨勢。
收入:收入曲線呈現(xiàn)上升趨勢,收入越高,所占比例人數(shù)越多。收入在$15 000 以下的人數(shù)比例在10%以內(nèi),而且有減少的趨勢;收入在$100 000以上的人數(shù)接近30%,而且有增加的趨勢。
種族的人數(shù)比例: 白人的比例在78.48%~82.88%,比#1 模式的高出約12 個(gè)百分點(diǎn);黑人的比例在9.2%~13.15%,比#1 模式的低約12 個(gè)百分點(diǎn);亞洲人比例在4.99%~7.25%。
職業(yè)上:在管理、工商金融、計(jì)算機(jī)和數(shù)學(xué)、建筑和工程、生命物理和社會(huì)科學(xué)、法律、教育培新、藝術(shù)設(shè)計(jì)、醫(yī)療、保護(hù)性服務(wù)、銷售、辦公行政方面的職業(yè)的人數(shù)比例比#1 多;從事社區(qū)服務(wù)、健康支持、食物準(zhǔn)備和服務(wù)、建筑、安裝維護(hù)和修理、個(gè)人護(hù)理服務(wù)、生產(chǎn)和運(yùn)輸?shù)谋壤?1 少。從事商業(yè)和金融、計(jì)算機(jī)和數(shù)學(xué)、教育培訓(xùn)和圖書館的人數(shù)比例有升高的趨勢,其他職業(yè)的人數(shù)比例有下降的趨勢。
家庭人口數(shù):家庭人口數(shù)在1 個(gè)的占比為18.44%~22.97%,比#1 低出10 個(gè)百分點(diǎn),人數(shù)比例有增大的趨勢;家庭人口數(shù)在2 個(gè)和3 個(gè)的占比和#1 基本持平,人數(shù)比例有增大的趨勢;家庭人口個(gè)數(shù)在4 個(gè)的占比為19.15%~23.43%,比#1 高大約7 個(gè)百分點(diǎn);家庭人口個(gè)數(shù)在5 個(gè)及其以上的比#1 大約高出3 個(gè)百分點(diǎn)。2013—2018 年家庭人口數(shù)大于2 個(gè)的人數(shù)比例趨勢有所下降。
工作時(shí)長:大約10% 的人不工作,32.44%~39.08%的人工作時(shí)長是1~199 min,占比最高;之后的各時(shí)間段的人數(shù)占比越來越小。2013—2018 年,工作時(shí)長0~300 min 的人數(shù)有下降的趨勢,而工作時(shí)長300 min 以上的有增長的趨勢。
陪伴家庭時(shí)長:不陪伴家人的人數(shù)比例在28.91%~34.45%,比#1 低大約14 個(gè)百分點(diǎn),有增長的趨勢;陪伴家庭的時(shí)間在1~799 min 的每100 min時(shí)間段分布比較平穩(wěn),之后呈現(xiàn)長尾特征,略有下降趨勢。
休閑時(shí)間:休閑時(shí)間為1~99 min 的人數(shù)比例最高,之后人數(shù)比例逐漸下降。在300 min 以內(nèi)的時(shí)間段的比例人數(shù)有減少趨勢,而在300 min以上的時(shí)間段的人數(shù)比例呈現(xiàn)增加趨勢。
綜上,#1 和#7 的活動(dòng)行為和社會(huì)人口學(xué)模式及其發(fā)展趨勢具有明顯的不同。共同之處是2 種模式都存在著老齡化、收入增加的趨勢,但是,在其他方面呈現(xiàn)馬太效應(yīng)的趨勢。更進(jìn)一步說明了人類的活動(dòng)行為是由其社會(huì)人口學(xué)特征決定的。
本文首先提出了一個(gè)基于時(shí)序活動(dòng)序列相似度來計(jì)算用戶相似度的方法,然后基于相似度矩陣進(jìn)行聚簇,最后進(jìn)行模式分析和挖掘,并基于連續(xù)多年的數(shù)據(jù)進(jìn)行了模式趨勢分析。因?yàn)槟J酵诰蛑写嬖诒姸嚓P(guān)鍵參數(shù),因而本文提出的模式挖掘系統(tǒng)實(shí)現(xiàn)了對數(shù)據(jù)集的監(jiān)控、關(guān)鍵步驟的計(jì)算、參數(shù)的調(diào)整、數(shù)據(jù)的保存、異步計(jì)算以及數(shù)據(jù)結(jié)果分析等功能。該界面可以簡化研究操作,在提高研究效率的同時(shí)也降低了操作失誤所帶來的問題。
通過本文的研究,我們發(fā)現(xiàn)具有相似時(shí)間活動(dòng)序列的人,他們之間可能具有相似的活動(dòng)行為,同時(shí)具有相似的社會(huì)人口學(xué)特征。本文提出的方法不僅適用于時(shí)間使用調(diào)查表的模式挖掘,也適用于從移動(dòng)終端設(shè)備收集的人群活動(dòng)數(shù)據(jù)集的模式挖掘。在未來的工作中,我們首先將基于本體在相似度的計(jì)算中增加語義的理解;接下來,將提取簇群中最長的公共活動(dòng)子序列,以進(jìn)一步了解人類活動(dòng)行為模式;最后,我們將該方法應(yīng)用于從移動(dòng)終端設(shè)備收集的數(shù)據(jù)集,并應(yīng)用于推薦系統(tǒng)。