亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向簽到日志的用戶行為模式交互探索*

        2019-07-08 08:55:16李叢敏陶文源
        軟件學(xué)報(bào) 2019年6期
        關(guān)鍵詞:群體行為視圖使用者

        李叢敏, 李 杰, 張 康, 陶文源

        1(天津大學(xué) 智能與計(jì)算學(xué)部,天津 300354)

        2(The University of Texas at Dallas Computer Science Department, USA Texas 75080)

        在很多領(lǐng)域中,用戶簽到日志是一種常見的數(shù)據(jù)類型,這類數(shù)據(jù)直接記錄了用戶對(duì)于某種設(shè)施的使用情況,常見的使用場(chǎng)景包括賓館入住記錄、網(wǎng)吧上網(wǎng)登記和在線系統(tǒng)的登錄日志等.從這類數(shù)據(jù)中挖掘出具有相似行為的用戶群體并分析該群體的行為模式,在信息服務(wù)、在線搜索服務(wù)、醫(yī)學(xué)診斷、網(wǎng)絡(luò)安全、商業(yè)營(yíng)銷等方面具有非常重要的作用.

        現(xiàn)有的方法常?;诮y(tǒng)計(jì)對(duì)用戶時(shí)序行為進(jìn)行分組,然而由于日志數(shù)據(jù)、行為模式、統(tǒng)計(jì)方法等方面的限制,已有的方法往往很難獲得準(zhǔn)確且易于理解的結(jié)果,其挑戰(zhàn)主要體現(xiàn)在:

        · 簽到日志的高維稀疏性:簽到日志往往時(shí)間跨度較長(zhǎng),用戶在不同時(shí)間點(diǎn)使用設(shè)施,形成了時(shí)間分布上的高維向量,使得行為特征在高維空間分布較為稀疏.因此,無(wú)論是傳統(tǒng)的聚類等機(jī)器學(xué)習(xí)算法、社區(qū)發(fā)現(xiàn)算法,還是推薦系統(tǒng)算法往往都不能直接得到高質(zhì)量的具有相似行為模式的群體;

        · 行為模式具有多樣性且與時(shí)間層次緊密相關(guān):數(shù)據(jù)集中往往同時(shí)存在多個(gè)行為模式,且行為模式可能發(fā)生在任何特定的時(shí)間尺度上,例如白天、夜晚、假期、春季、下雨天等.多個(gè)行為模式交叉在一起,對(duì)其發(fā)現(xiàn)和理解帶來(lái)了較大的挑戰(zhàn);

        · 統(tǒng)計(jì)方法對(duì)參數(shù)和數(shù)據(jù)分布有要求:現(xiàn)有的分析方法往往需要事先設(shè)定某些先驗(yàn)參數(shù)[1],或者要求數(shù)據(jù)符合某些特定的分布.這些參數(shù)設(shè)定和前提假設(shè)往往需要復(fù)雜的數(shù)據(jù)驗(yàn)證,并且依賴分析人員對(duì)數(shù)據(jù)的理解和經(jīng)驗(yàn).這也加大了群體行為模式發(fā)現(xiàn)的難度.

        越來(lái)越多的研究人員采用可視分析方法分析群體模式,然而這些工作更多地只是展示統(tǒng)計(jì)分析的結(jié)果,缺少相似行為模式發(fā)現(xiàn)的過(guò)程.與其不同,本文設(shè)計(jì)了動(dòng)態(tài)探索群體模式的可視分析方法,主要貢獻(xiàn)如下.

        · 定義了一個(gè)動(dòng)態(tài)迭代探索過(guò)程.該方法以一種“順藤摸瓜”的迭代方式將用戶逐步加入到群體中.本文引入了信息熵,動(dòng)態(tài)地獲得具有較好行為區(qū)分度的時(shí)間子區(qū)間,并探索在此區(qū)間內(nèi)具有相似行為特征的群體;

        · 開發(fā)了一個(gè)支持以上迭代方法的可視分析工具.通過(guò)該工具,使用者可以交互地控制分析過(guò)程,直觀地理解和驗(yàn)證所獲得的群體行為模式,并根據(jù)可視化反饋,實(shí)時(shí)主動(dòng)地調(diào)整分析過(guò)程;

        · 對(duì)群體在不同時(shí)間尺度上的統(tǒng)計(jì)和關(guān)聯(lián)進(jìn)行分析,并減少由于數(shù)據(jù)偶然性帶來(lái)的噪聲,幫助使用者對(duì)群體行為模式進(jìn)行理解.通過(guò)迭代前后群體行為模式的對(duì)比,驗(yàn)證本文方法的有效性.

        1 問(wèn)題描述

        1.1 數(shù) 據(jù)

        簽到日志包含大量人員在較長(zhǎng)時(shí)間上的行為記錄,其結(jié)構(gòu)主要包括兩方面信息,即設(shè)施使用時(shí)間和用戶的基本信息.表1展示了某網(wǎng)吧3個(gè)用戶的上網(wǎng)記錄,其中,身份證號(hào)表示個(gè)人信息,上線和下線時(shí)間反映其在網(wǎng)吧上網(wǎng)的時(shí)間區(qū)間.大部分用戶只是固定或不固定地、有限度地使用設(shè)施,因此行為記錄在時(shí)間尺度上具有較為明顯的稀疏性.用戶簽到日志數(shù)據(jù),時(shí)間的跨度很廣,并且絕大多數(shù)用戶使用某設(shè)施的起止時(shí)間不同,造成用戶使用設(shè)施時(shí)間沒(méi)有對(duì)齊,描述用戶行為的時(shí)間結(jié)構(gòu)不統(tǒng)一,這給行為模式的探索造成了困難.

        Table 1 User check-in logs in net bar表1 網(wǎng)吧用戶簽到日志

        1.2 任 務(wù)

        本文為數(shù)據(jù)分析人員提供了可視分析工具,幫助分析和理解簽到數(shù)據(jù)中存在的群體行為模式.如果某些用戶經(jīng)常同時(shí)使用設(shè)施,則可認(rèn)為這些用戶屬于一個(gè)群體,并具有相似的行為模式.本文的主要任務(wù)是找到頻繁在某些時(shí)間片上簽到的用戶群體.以網(wǎng)吧數(shù)據(jù)為例,有些用戶經(jīng)常在周末上網(wǎng),有些則經(jīng)常在晚上或凌晨上網(wǎng).了解這些群體行為,有助于獲取群體行為習(xí)慣,推斷其身份,有針對(duì)性地開展行業(yè)應(yīng)用.同一用戶群體可能同時(shí)存在多種行為模式,這給模式的發(fā)現(xiàn)和理解造成了困難,因此,本文將這一探索過(guò)程分為3個(gè)不同層次的任務(wù).

        · T1:行為特征可視化.直觀地可視化數(shù)據(jù)中個(gè)體和群體的設(shè)施使用行為.該任務(wù)是后續(xù)分析的基礎(chǔ),分析人員可以據(jù)此選擇具有特定行為特征的用戶,并交互探索與其具有相似行為的群體.所展示的行為特征應(yīng)包括基本的行為時(shí)序特征,如周期性、趨勢(shì)、高頻使用階段、行為的統(tǒng)計(jì)指標(biāo)以及不同用戶間的行為相似程度;

        · T2:用戶群體發(fā)現(xiàn).尋找頻繁共同使用設(shè)施的群體.由于簽到數(shù)據(jù)的稀疏性和用戶行為的偶然性,該過(guò)程往往受到數(shù)據(jù)噪聲的影響.方法應(yīng)該提供必要的數(shù)據(jù)處理和過(guò)程控制,減少數(shù)據(jù)噪聲帶來(lái)的影響.探索過(guò)程應(yīng)可視化并具有較好的交互能力,使分析人員實(shí)時(shí)全面地理解和調(diào)整分析過(guò)程.發(fā)現(xiàn)過(guò)程應(yīng)該減少參數(shù)影響,參數(shù)能隨中間結(jié)果的變化而變化,發(fā)現(xiàn)過(guò)程也應(yīng)是參數(shù)不斷優(yōu)化的過(guò)程;

        · T3:群體行為模式理解.在發(fā)現(xiàn)共同行為模式的基礎(chǔ)上,應(yīng)進(jìn)一步分析該模式在時(shí)間尺度上的分布特征.其目標(biāo)是理解所發(fā)現(xiàn)模式的實(shí)際物理意義,輔助推斷群體的行為習(xí)慣和可能的身份,并據(jù)此開展實(shí)際行業(yè)應(yīng)用.方法應(yīng)該能從不同的時(shí)間尺度(如周、天、小時(shí)等)對(duì)群體行為特征進(jìn)行理解,能將發(fā)現(xiàn)的群體與初始數(shù)據(jù)進(jìn)行對(duì)比,驗(yàn)證本文方法的有效性.

        2 相關(guān)工作

        簽到日志在很多領(lǐng)域都具有非常重要的分析應(yīng)用價(jià)值.有些研究通過(guò)對(duì)簽到日志的分析,優(yōu)化資源配置.Peng等人[2]通過(guò)社交媒體簽到日志,檢查出租車高需求區(qū)域,改善出租車資源分配.Li等人[3]通過(guò)行李托運(yùn)日志,分析用戶行李登機(jī)行為和行李需求特征,優(yōu)化機(jī)場(chǎng)資源配置.有些研究通過(guò)對(duì)用戶使用產(chǎn)品的行為和需求模式分析,改進(jìn)產(chǎn)品設(shè)計(jì).如 Leemans等人[4]通過(guò)分析用戶的軟件事件日志得到在現(xiàn)實(shí)生活中用戶操作軟件系統(tǒng)的過(guò)程,從而發(fā)現(xiàn)軟件存在的問(wèn)題.Liu[5]和 Chen[6]等人通過(guò)分析社交媒體簽到日志,為用戶推薦其感興趣的主題.一些研究通過(guò)對(duì)用戶商店簽到日志的分析,得到用戶的消費(fèi)模式,從而改善營(yíng)銷策略.如Chen等人[7]通過(guò)分析顧客使用商場(chǎng)WiFi的簽到日志,分析時(shí)間對(duì)顧客選擇商場(chǎng)偏好的影響,從而基于時(shí)間為顧客推薦商場(chǎng).Doi等人[8]通過(guò)商店簽到日志的分析,得到消費(fèi)者的偏好,改進(jìn)營(yíng)銷方案.還有一些其他的研究在不同的領(lǐng)域中也具有重要的意義.例如,Yang等人[9]通過(guò)分析游客使用社交媒體的簽到日志,分析游客的旅游路線,幫助人們做出經(jīng)濟(jì)有效的旅行決策.Liu等人[10]通過(guò)分析用戶使用出租車的日志,找到放置廣告牌的最佳位置.以上研究更偏重于對(duì)個(gè)人或整體簽到日志的統(tǒng)計(jì)分析,很少有通過(guò)分析用戶間相似度尋找分組行為模式的研究.

        群體行為的發(fā)現(xiàn)往往根據(jù)個(gè)體之間的相似度,使用分組算法對(duì)數(shù)據(jù)分組.很多研究使用聚類的方法來(lái)尋找具有相似行為模式的分組.Frhan等人[11]提出了模式聚類和關(guān)聯(lián)聚類的方法來(lái)尋找用戶行為相似的群體.Lei等人[12]使用聚類方法尋找微博用戶的行為模式.這些方法往往對(duì)數(shù)據(jù)分布有要求且較依賴參數(shù).各類社區(qū)發(fā)現(xiàn)算法也是經(jīng)常采用的方法.Bron等人[13]用算法生成組,生成候選用戶集,刪除不符合派系定義的候選用戶,算法的終止條件是生成了一個(gè)完全連通的圖.Liu等人[14]提出了一種基于網(wǎng)絡(luò)連接強(qiáng)度的重疊社區(qū)發(fā)現(xiàn)算法,該算法從重要性最高的用戶逐步擴(kuò)展,直到滿足終止條件.He等人[15]使用SimRank相似性度量和NMF模型發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)中的社區(qū).Zhou等人[16]使用基于主題感知特性的隱式關(guān)系和基于互動(dòng)行為的顯示關(guān)系對(duì)動(dòng)態(tài)社交用戶網(wǎng)絡(luò)模型進(jìn)行擴(kuò)展和完善,從而發(fā)現(xiàn)更為合理的社區(qū).推薦系統(tǒng)是另一類典型的群體行為模式發(fā)現(xiàn)方法.Rohit等人[17]使用基于潛在語(yǔ)義索引的推薦系統(tǒng)算法來(lái)尋找相似類型的博客.Maake等人[18]利用選擇性驅(qū)動(dòng)的推薦系統(tǒng)算法為用戶推薦需要的論文.Yi等人[19]分別使用基于圖形數(shù)據(jù)庫(kù)和基于深度學(xué)習(xí)的方法為用戶推薦同類型的電影.Hariadi[20]基于混合屬性和個(gè)性的推薦系統(tǒng)算法為用戶提供相關(guān)的書籍.這些分組算法往往使用用戶間的相似度分組,但相似度通常存在噪聲和稀疏數(shù)據(jù),且相似度的度量方法也會(huì)影響分組結(jié)果,因此這些算法的準(zhǔn)確率不高.不僅如此,預(yù)設(shè)的參數(shù)也無(wú)法根據(jù)中間結(jié)果實(shí)時(shí)調(diào)整.

        越來(lái)越多的研究采用可視分析探索用戶行為模式.Liu等人[10]通過(guò)熱圖表示用戶在空間的行為模式.Saas等人[21]將熱圖、樹狀圖、折線圖結(jié)合,分析游戲玩家的行為模式.Krueger等人[22]使用圍巾圖和時(shí)空立方體圖揭示訪問(wèn)者序列模式.Li等人[23]使用柱狀圖、平行坐標(biāo)圖等視圖發(fā)現(xiàn)犯罪數(shù)據(jù)的多個(gè)屬性模式.Zhang等人[24]將熱圖和餅圖結(jié)合,展示在公共交通系統(tǒng)中用戶的流動(dòng)模式.Li[25]通過(guò)詞云、時(shí)間流、地圖等視圖尋找文本時(shí)空模式.Zhao等人[26]利用邊緣重疊度概念,減少M(fèi)SV的視覺(jué)混亂,同時(shí)保留網(wǎng)絡(luò)通信的時(shí)變特征,分析動(dòng)態(tài)網(wǎng)絡(luò)的變化模式.Zhou等人[27]基于地圖發(fā)現(xiàn)移動(dòng)學(xué)習(xí)者的行為模式.Chen[28]通過(guò)詞云、平行坐標(biāo)圖來(lái)分析社交媒體中重大事件,將分析關(guān)聯(lián)模式,將模式形成故事.Wei等人[29]通過(guò)自組織映射將網(wǎng)絡(luò)點(diǎn)擊流投影到二維區(qū)域,研究用戶瀏覽網(wǎng)頁(yè)模式.Zhao等人[30]通過(guò)多維可視評(píng)估,使用模糊聚類尋找群體行為模式.Li等人[31,32]分別通過(guò)地圖、散點(diǎn)圖等多視圖協(xié)同尋找共現(xiàn)模式和氣象變化模式.這些研究更多是對(duì)分析結(jié)果的展示,用戶無(wú)法直觀了解探索過(guò)程.

        綜上所述,簽到日志的研究偏重于統(tǒng)計(jì)分析,鮮有根據(jù)用戶相似度尋找群體行為模式的研究.而關(guān)于分組算法的研究大多因數(shù)據(jù)的稀疏性,分組結(jié)果的準(zhǔn)確率不高.同時(shí),關(guān)于行為模式的可視化研究大多是對(duì)分析結(jié)果的展示,使用者無(wú)法了解探索分析過(guò)程.為了解決以上問(wèn)題,本文使用動(dòng)態(tài)子空間策略迭代探索具有相似行為模式的群體,并通過(guò)可視化工具使用戶可以實(shí)時(shí)地控制探索過(guò)程,從而直觀地理解和驗(yàn)證所獲得的群體行為模式.

        3 分析流程

        根據(jù)數(shù)據(jù)特征和任務(wù),本文設(shè)計(jì)了一個(gè)發(fā)現(xiàn)群體的迭代探索方法和一個(gè)支持迭代過(guò)程的可視分析工具.如圖1,本文輸入簽到數(shù)據(jù),經(jīng)過(guò)迭代和可視分析處理,輸出找到的群體和群體行為模式.

        分析流程分為如下4部分.

        (1) 數(shù)據(jù)預(yù)處理

        簽到日志是用戶使用設(shè)施的記錄,不同用戶使用設(shè)施的時(shí)間各不相同并且數(shù)據(jù)量很大,這給群體的尋找?guī)?lái)了困難.為了解決該困難,本文對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將原始記錄處理為時(shí)間對(duì)齊,結(jié)構(gòu)統(tǒng)一地用于描述用戶行為的特征向量,具體方法如下.

        本文把每個(gè)用戶的簽到時(shí)間對(duì)應(yīng)一個(gè)長(zhǎng)度統(tǒng)一的離散化的簽到時(shí)間片集合.首先,本文把簽到時(shí)間劃分成m個(gè)連續(xù)的時(shí)間片序列T=(t1,t2,t3,...,tm).為了便于計(jì)算,時(shí)間片采用固定長(zhǎng)度,其時(shí)間跨度可以根據(jù)分析目標(biāo)進(jìn)行靈活設(shè)定,時(shí)間跨度越小,會(huì)得到越精確的時(shí)間片序列,但是時(shí)間片序列也會(huì)變長(zhǎng)、更加稀疏,同時(shí)也增大計(jì)算復(fù)雜度.較長(zhǎng)的跨度可能產(chǎn)生錯(cuò)誤的行為記錄,因此,使用者要根據(jù)數(shù)據(jù)特點(diǎn)靈活設(shè)定時(shí)間跨度.本文為每個(gè)用戶生成一個(gè)簽到時(shí)間片集合,用戶i在時(shí)間片序列T上對(duì)應(yīng)一個(gè)簽到時(shí)間片集合ci=(ci1,ci2,ci3,...,cim).如果用戶i在時(shí)間片tj內(nèi)使用某設(shè)施,則向量對(duì)應(yīng)位置的cij=1;否則,cij=0.例如,本文將用戶上網(wǎng)數(shù)據(jù)的時(shí)間跨度設(shè)為30分鐘,因?yàn)楦鶕?jù)統(tǒng)計(jì)大部分的有效數(shù)據(jù),用戶連續(xù)上網(wǎng)時(shí)間都超過(guò)了30分鐘.如果用戶a在8:40~10:10和12:00~13:00上網(wǎng),那么生成的簽到時(shí)間片集合如圖2中的ca所示.

        本文根據(jù)簽到時(shí)間片集合計(jì)算兩兩用戶之間的行為相似性,從而判斷兩個(gè)用戶是否屬于一個(gè)群體.行為相似性是后續(xù)迭代探索的計(jì)算依據(jù).如果兩個(gè)用戶使用設(shè)施重合度較高,即簽到時(shí)間片集合中“1”的重合度較高,則認(rèn)為這兩個(gè)用戶具有很相似的行為.令ca和cb分別為用戶a和b的簽到時(shí)間片集合,a和b之間的行為相似度定義見公式(1):

        以圖2為例,ca和cb分別為a和b的簽到時(shí)間片集合,則ca∩cb=5,ca∪cb=9,sab=0.556.

        為了提高后續(xù)的分析效率,在數(shù)據(jù)初始化時(shí),可以依據(jù)用戶在全部時(shí)間區(qū)間內(nèi)的行為特征進(jìn)行初始分組.初始分組可使用現(xiàn)有的聚類算法.聚類算法需設(shè)置較小的簇個(gè)數(shù),以保證具有相似行為特征的用戶不被分開,本文將初始化分組得到的組稱為初始組,如圖3中(a6)有3個(gè)初始組.后續(xù)分析可以針對(duì)初始化得到的其中一個(gè)組開展.這一過(guò)程是可選的,當(dāng)數(shù)據(jù)量不大或用戶行為不存在明顯差異無(wú)法得到清晰的簇時(shí),可不進(jìn)行初始化分組.

        (2) 行為特征可視化

        行為特征可視化的目的是直觀地向使用者展示初始組的行為特征,為行為模式探索提供初始的依據(jù).本文提供了多種可視化設(shè)計(jì)輔助使用者選擇初始用戶,可視化設(shè)計(jì)包含行為相似性、統(tǒng)計(jì)指標(biāo)、行為分布這3部分.

        首先,使用者通過(guò)用戶行為相似性的可視化設(shè)計(jì),即投影分布,觀察用戶間的相對(duì)關(guān)系,結(jié)合投影點(diǎn)的大小(點(diǎn)的大小映射某個(gè)統(tǒng)計(jì)屬性)選擇一個(gè)初始用戶;第二,當(dāng)使用者選擇某個(gè)初始用戶后,系統(tǒng)可以在底部統(tǒng)計(jì)屬性視圖中展示其多個(gè)量化指標(biāo),如 Betweenness,Closeness等;第三,用戶關(guān)系視圖中展示初始組和初始用戶的行為分布.使用者可根據(jù)行為特征動(dòng)態(tài)地更換初始用戶.在以上多種方式中,行為分布對(duì)于初始點(diǎn)選擇非常重要.一個(gè)好的初始個(gè)體,應(yīng)在時(shí)間尺度上具有較為集中的行為分布,通過(guò)觀察行為特征視圖可以了解其在不同時(shí)間尺度上的分布情況,有助于選出具有潛在行為模式的群體.依據(jù)這些行為特點(diǎn),使用者可快速了解用戶之間的相似程度,用戶個(gè)體在初始組中的地位和使用設(shè)施的時(shí)間分布特征,初始組和初始用戶在不同時(shí)間尺度的行為分布情況等信息.使用者將根據(jù)這些信息,在下一階段選擇合適的用戶作為群體的初始用戶.

        (3) 用戶群體發(fā)現(xiàn)

        尋找具有相似行為模式的群體本質(zhì)上是用戶聚類的過(guò)程.由于時(shí)間片集合分布稀疏以及用戶行為的偶然性,導(dǎo)致很多時(shí)間片對(duì)于群體的發(fā)現(xiàn)是沒(méi)有作用的,因此,本文選擇一種子空間探索的方法,挑選出時(shí)間片子集來(lái)取代整個(gè)時(shí)間片集合進(jìn)行探索.子空間就是時(shí)間片子集,它相對(duì)于原數(shù)據(jù)來(lái)說(shuō),維度降低了很多,稀疏性也有了很大的改善.該方法解決了上文中提出的簽到日志數(shù)據(jù)的高維稀疏性問(wèn)題.在子空間中,群體使用設(shè)施的行為較為一致.不僅如此,本文設(shè)計(jì)了一個(gè)迭代探索過(guò)程,每一次迭代都會(huì)依據(jù)當(dāng)前群體中用戶行為數(shù)據(jù)的分布,動(dòng)態(tài)改變用于探索的子空間.同時(shí),迭代過(guò)程還把在子空間上與群體行為相似度較大的其他用戶加入群體,從而保證新生成的群體使用設(shè)施的時(shí)間也能夠集中在子空間上.每個(gè)時(shí)間片可看做一個(gè)離散隨機(jī)變量,本文使用信息熵度量群體在不同時(shí)間片上使用設(shè)施的一致性,熵越大,表示群體在該時(shí)間片上的簽到行為越一致,可以認(rèn)為在該時(shí)間片上更有可能存在特定的簽到行為模式.熵的計(jì)算如下:

        其中,P(uj)表示用戶uj在時(shí)間片ti上使用某設(shè)施的概率,n表示當(dāng)前群體用戶的個(gè)數(shù).eti的值越大,表示群體在ti時(shí)間片共同簽到行為越一致.本方法會(huì)為熵設(shè)置閾值et,只有熵大于et的時(shí)間片才會(huì)進(jìn)入下一次迭代,以確保群體行為在時(shí)間片上具有較高的一致性.迭代過(guò)程見算法1,迭代探索的具體流程如圖1的“用戶群體發(fā)現(xiàn)”所示.

        算法1.迭代過(guò)程算法.

        U為初始組集合,U′為新生成的群體集合,a為初始用戶,T為總的時(shí)間片集合,T′為根據(jù)熵選擇的時(shí)間片子空間集合,

        sij為用戶i和用戶j之間的行為相似度,ei為在時(shí)間片i上的熵,st為行為相似度的閾值,et為熵的閾值.

        在迭代開始之前,使用者選擇閾值st和et,此時(shí)初始狀態(tài)僅一個(gè)用戶,無(wú)群體模式,為了不失一般性,此時(shí)不計(jì)算熵,而是在全部時(shí)間片上尋找與其具有相似行為的用戶加入U(xiǎn)′,進(jìn)行群體的初始化,在后續(xù)迭代過(guò)程中計(jì)算熵,并通過(guò)熵選擇時(shí)間片.迭代開始后,本方法首先使用當(dāng)前U′中的用戶計(jì)算所有時(shí)間片T的熵,選取大于et的時(shí)間片,得到子空間T′?T,然后計(jì)算U′和U中兩兩用戶在T′上的相似度,選擇U中相似度大于st的用戶加入到U′中.如果沒(méi)有新用戶加入到U′,則停止迭代,得到群體U′;否則,按以上步驟執(zhí)行下一次迭代.迭代過(guò)程也可由使用者控制結(jié)束.

        (4) 行為模式理解

        完成探索之后,本文幫助使用者理解群體的行為模式.群體行為模式中經(jīng)常存在多個(gè)行為模式交叉的問(wèn)題,為了解決該問(wèn)題,本文將群體使用設(shè)施的時(shí)間按照不同的時(shí)間尺度進(jìn)行劃分,如“小時(shí)”、“周”、“日”等,之后,對(duì)不同的時(shí)間尺度采用同一個(gè)分析框架,分別對(duì)不同時(shí)間區(qū)間上的用戶進(jìn)行統(tǒng)計(jì),并分析這些區(qū)間上用戶的關(guān)聯(lián)程度,幫助使用者分析群體在不同時(shí)間尺度上的行為模式.

        在理解群體行為模式時(shí),為了便于描述不同用戶在不同時(shí)間區(qū)間上的簽到分布,本文統(tǒng)計(jì)用戶在不同時(shí)間區(qū)間上的簽到比例(用戶在某時(shí)間區(qū)間上使用設(shè)施的時(shí)長(zhǎng)占該用戶使用設(shè)施總時(shí)長(zhǎng)的百分比),不同用戶會(huì)有不同的行為偏好.為了描述所找到的群體的共同的行為偏好,本文使用弦圖描述群體在哪些時(shí)間區(qū)間同時(shí)簽到以及在這些區(qū)間上簽到的相同的用戶個(gè)數(shù).例如,群體中只包含兩個(gè)用戶,假設(shè)用戶在周一~周三的簽到比例為50%,49%,1%,此時(shí)在弦圖中,周一~周三這3個(gè)時(shí)間區(qū)間上,兩兩都有連線且連線的粗度和顏色都是一樣的.明顯地,該用戶絕大部分時(shí)間在周一和周二上網(wǎng),在周三上網(wǎng)具有很強(qiáng)偶然性,因此周三對(duì)理解行為模式的理解不僅沒(méi)有幫助,反而會(huì)干擾使用者的理解.為了減少噪音和突出重要的組群內(nèi)的模式,本文設(shè)置了“25%”,“50%”,“75%”這3個(gè)閾值,以選出群體內(nèi)前x%高的分布的時(shí)間區(qū)間進(jìn)行繪圖.本文使用兩兩時(shí)間區(qū)間上的相同用戶個(gè)數(shù)來(lái)表示用戶在時(shí)間區(qū)間上的關(guān)聯(lián)程度,通過(guò)相同用戶的絕對(duì)個(gè)數(shù)和相對(duì)個(gè)數(shù)來(lái)表示不同時(shí)間區(qū)間上用戶的絕對(duì)和相對(duì)關(guān)系.絕對(duì)個(gè)數(shù)為兩兩時(shí)間區(qū)間上相同用戶的個(gè)數(shù),相對(duì)個(gè)數(shù)為相同用戶的個(gè)數(shù)與兩時(shí)間區(qū)間上用戶并集元素個(gè)數(shù)的比值.最后,本文通過(guò)弦圖將統(tǒng)計(jì)結(jié)果和關(guān)聯(lián)程度可視化,如圖3(b)所示.

        4 可視設(shè)計(jì)

        為了讓使用者實(shí)時(shí)全面地了解并靈活地控制行為模式探索過(guò)程,我們開發(fā)了一種可視分析工具.本文將從分析流程出發(fā),分別介紹6個(gè)與探索流程相關(guān)的視圖.

        (1) 統(tǒng)計(jì)屬性視圖

        統(tǒng)計(jì)屬性視圖用來(lái)幫助使用者了解初始組中的個(gè)體在統(tǒng)計(jì)屬性上的特征,如圖 3(d)所示.這些統(tǒng)計(jì)特征包括用戶個(gè)體在初始組內(nèi)的作用和地位以及使用某設(shè)施時(shí)間的分布特征.使用者可以通過(guò)該視圖了解每個(gè)用戶在統(tǒng)計(jì)屬性上的特征,并將其作為選擇迭代探索的初始用戶的依據(jù)之一(T1).

        本文使用了9個(gè)統(tǒng)計(jì)屬性來(lái)描述個(gè)體的特征,如圖3(d)所示.這些屬性包括:

        1) Core指點(diǎn)度中心性(degree centrality),它描述了個(gè)體位于組中“核心”位置的程度;

        2) Betweenness是中介中心性(betweenness centrality),是指?jìng)€(gè)體在組中起到的“橋梁”或“中介”作用的程度,描述了該個(gè)體與其他個(gè)體交往的能力;

        3) Closeness表示接近中心性(closeness centrality),反映了組中個(gè)體與其他個(gè)體之間的接近程度;

        4) Normality描述個(gè)體使用設(shè)施的時(shí)間符合正態(tài)分布的程度;

        5) Uniformity反映了個(gè)體使用設(shè)施的時(shí)間分布的穩(wěn)定程度;

        6) Outliers用來(lái)衡量時(shí)間分布中離群值的個(gè)數(shù);

        7) Unique是個(gè)體使用設(shè)施的次數(shù)在時(shí)間分布上唯一值的個(gè)數(shù),表示數(shù)據(jù)的唯一性;

        8) Age 為初始組用戶年齡分布,共有“<20”,“20~30”,“30~40”,“>40”這 4 個(gè)年齡段,在圖 3(d)中,表示這 4個(gè)年齡段的顏色依次變深;

        9) Sex為初始組用戶的性別分布,在圖3(d)中,表示Male的顏色比表示Female顏色淺.

        本文通過(guò)一個(gè)熱力圖表格來(lái)表示各個(gè)用戶屬性值特征,表格的每一列代表一個(gè)用戶,從上到下依次是各個(gè)屬性的值對(duì)應(yīng)的矩形,矩形的顏色越深,表示對(duì)應(yīng)屬性值越大.最左側(cè)標(biāo)有屬性名的按鈕控制用戶的順序,點(diǎn)擊其中一個(gè)按鈕,可視化工具會(huì)按照對(duì)應(yīng)屬性值的大小對(duì)用戶排序.在迭代過(guò)程中,本文使用對(duì)應(yīng)迭代次數(shù)顏色的矩形框來(lái)表示加入群體P′的用戶.

        (2) 用戶關(guān)系視圖

        用戶關(guān)系視圖是本文的主視圖,用來(lái)幫助使用者了解初始組用戶的行為相似性(T1)以及迭代探索的步驟(T2),如圖3(e)所示.在每次迭代中,群體的變化、某個(gè)用戶是在第幾次迭代被加入群體的以及在迭代過(guò)程中群體的某個(gè)用戶與其他用戶的關(guān)系等信息都可從該視圖中得到.

        本文根據(jù)預(yù)處理階段得到的用戶簽到時(shí)間片集合對(duì)初始組數(shù)據(jù)降維,將結(jié)果投影到二維的用戶關(guān)系視圖中.降維算法[33]有很多種,比如線性方法PCA,LDA、非線性方法MDS,T-SNE等.其中,T-SNE[34]又稱為t分布隨機(jī)領(lǐng)域嵌入算法,它是用于探索高維數(shù)據(jù)的非線性維數(shù)降低算法.它將多維數(shù)據(jù)映射到適合人類觀察的兩個(gè)或多個(gè)維度,主要是保證高維空間中相似的數(shù)據(jù)點(diǎn)在低維空間中的距離盡量較近.MDS[35]同樣用于高維非線性降維,但它更適合用于沒(méi)有特征矩陣只有相似矩陣的情況.由于簽到時(shí)間片集合是特征矩陣同時(shí)又是高維數(shù)據(jù),同時(shí),本文希望降維之后在高維中相似的點(diǎn)在低維空間也能保持相對(duì)關(guān)系,綜合以上考慮,本文選擇 T-SNE算法.用戶關(guān)系視圖中,每個(gè)點(diǎn)代表初始組中的一個(gè)用戶,點(diǎn)之間的相對(duì)位置表示用戶行為相似性.其中,碰撞算法[36]用來(lái)減少點(diǎn)的重疊.視圖中點(diǎn)的大小由控制面板 Attribute的值來(lái)確定,若復(fù)選框中值為 Core,那么用戶的 Core值越大,對(duì)應(yīng)到視圖中的點(diǎn)越大.

        在迭代開始之前,使用者在控制面板視圖 3(a)中選擇相似度的閾值st和熵的閾值et,然后根據(jù)用戶行為相似性,圖3(b)中用戶行為分布以及圖3(d)中統(tǒng)計(jì)屬性上的特征,進(jìn)行初始用戶的選擇.迭代過(guò)程中,如果某個(gè)用戶已被加入到群體U′,那么該用戶對(duì)應(yīng)點(diǎn)的顏色變淺,該用戶周圍也會(huì)生出花瓣,如圖3(e)所示.圖中花瓣個(gè)數(shù)表示該用戶與群體中其他用戶相似度大于閾值st的用戶個(gè)數(shù),花瓣的顏色用來(lái)表示迭代的次數(shù),顏色越深,迭代次數(shù)越大.不同于其他分組算法,本文的方法將使用者考慮其中,通過(guò)交互控制迭代進(jìn)度,進(jìn)入下一次迭代或返回上一次迭代,或終止迭代.使用者還可以在群體中加入或剔除某個(gè)用戶.

        (3) 子空間選擇視圖

        子空間選擇視圖是對(duì)子空間中時(shí)間片在不同時(shí)間尺度上的統(tǒng)計(jì),用于了解迭代過(guò)程中子空間的變化(T2),如圖3(c)所示.該視圖的前4行是對(duì)子空間T′在“月”、“周”、“日”、“小時(shí)”的統(tǒng)計(jì),顏色深淺代表時(shí)間片的個(gè)數(shù).該視圖的最后一行是對(duì)時(shí)間片分布的展示,該行被分為m個(gè)小矩形R=(r1,r2,r3,...,rm),對(duì)應(yīng)在數(shù)據(jù)預(yù)處理時(shí)m個(gè)連續(xù)的時(shí)間片T=(t1,t2,t3,...,tm),如果某個(gè)時(shí)間片的熵大于閾值,即ei>et,那么ri被染上色;否則,ri為無(wú)色.

        (4) 組信息視圖

        (5) 行為特征視圖

        行為特征視圖用于對(duì)初始組和個(gè)體行為分布的描述、群體行為模式的理解和探索結(jié)果的驗(yàn)證(T3),如圖3(b),該視圖對(duì)不同時(shí)間尺度上行為分布和關(guān)聯(lián)進(jìn)行統(tǒng)計(jì)分析.在迭代探索開始之前,本文需選擇初始用戶,該視圖對(duì)初始組和初始用戶在不同時(shí)間尺度上的行為分布進(jìn)行統(tǒng)計(jì)分析,結(jié)合圖3(d)和圖3(e)中對(duì)統(tǒng)計(jì)屬性和行為相似性的可視化,幫助使用者選擇初始用戶.在迭代過(guò)程中,該視圖會(huì)隨著群體的變化而變化.使用者可結(jié)合用戶關(guān)系視圖,調(diào)整迭代過(guò)程中群體中的用戶.使用者分析群體行為的分布和關(guān)聯(lián),得到群體的行為模式.使用者在該視圖中對(duì)初始組、群體、剩下組(初始組用戶減去群體用戶得到的組)的行為模式進(jìn)行對(duì)比,從而驗(yàn)證本文方法的正確性.同時(shí),使用者還可以通過(guò)該視圖和子空間選擇視圖中時(shí)間的對(duì)應(yīng)關(guān)系,驗(yàn)證動(dòng)態(tài)子空間策略的正確性.

        在行為特征視圖中,使用者在圖3(b1)Evaluation復(fù)選框中的“日”、“周”、“小時(shí)”這3個(gè)時(shí)間尺度上選擇以后,視圖會(huì)展示對(duì)應(yīng)時(shí)間尺度的關(guān)系圖.圖 3(b2)的第2個(gè)復(fù)選框Percent是對(duì)重要用戶的百分比進(jìn)行篩選,視圖對(duì)篩選結(jié)果進(jìn)行統(tǒng)計(jì).圖 3(b3)中,Threshold用來(lái)控制連線的多少,弦圖中的連線會(huì)隨著滑動(dòng)條值的增大去掉顏色比較淺的線(也就是相對(duì)用戶個(gè)數(shù)比較少的連線).行為特征視圖主要由弦圖構(gòu)成,圖3(b)共有3個(gè)弦圖,從上到下依次初始組關(guān)系圖、群體關(guān)系圖、剩下組關(guān)系圖.群體關(guān)系圖和剩下組關(guān)系圖都會(huì)隨著迭代過(guò)程不斷變化.弦圖的弧長(zhǎng)代表在對(duì)應(yīng)時(shí)間上用戶的個(gè)數(shù).連接弧的弦具有顏色和粗細(xì)兩個(gè)特征,它們分別代表兩個(gè)弧中相同用戶個(gè)數(shù)的相對(duì)值和絕對(duì)值.顏色越深,表示兩個(gè)弧相同用戶的相對(duì)值越大;線越粗,表示絕對(duì)值越大.

        (6) 控制面板

        控制面板視圖包含使用者可控的所有變量,用于變量選取.使用者對(duì)該視圖的操作貫穿了本文的大部分工作,包含分組算法選取、初始組集合表示、初始組選取、用戶關(guān)系視圖中點(diǎn)大小的表示、閾值選取和新群體的表示.使用者可在圖3(a1)中選擇分組算法(kmeans,spectral clustering,decision tree等)生成初始分組,并在Group Number中選擇生成初始組的個(gè)數(shù).若數(shù)據(jù)量較少,初始數(shù)據(jù)也可不進(jìn)行分組.圖 3(a3)中,Attribute復(fù)選框包含“Core”“Betweenness”“Closeness”“Normality”“Uniformity”“Outliers”“Unique”這 7 個(gè)統(tǒng)計(jì)屬性,使用者可按需選擇一個(gè)屬性,用戶關(guān)系視圖中點(diǎn)的大小將映射該屬性值的大小.圖3(a4)和3(a5)中的“Similarity”和“Entropy”兩個(gè)滑動(dòng)條控制迭代過(guò)程中的兩個(gè)閾值,分別為時(shí)間行為相似度的閾值st和熵的閾值et.只有大于st的用戶和大于et的時(shí)間片才會(huì)進(jìn)入下一次迭代.使用者若希望得到關(guān)系緊密的群體,可把閾值調(diào)大;反之,可調(diào)小.在該視圖最下方的柱狀圖是組的列表,每個(gè)小矩形代表一個(gè)組,矩形的長(zhǎng)代表組中用戶的數(shù)量.圖3(a6)記錄了全體用戶的整體分組情況,其狀態(tài)會(huì)隨著探索結(jié)束后產(chǎn)生的新群體發(fā)生變化.圖 3(a6)展示了初始狀態(tài)(全體個(gè)體被分為 3個(gè)組),迭代結(jié)束之后,產(chǎn)生新的狀態(tài)(包含178個(gè)用戶的組分為兩個(gè)分別包含168個(gè)用戶和10個(gè)用戶的新組).

        5 案例分析

        本節(jié)利用真實(shí)的網(wǎng)吧上網(wǎng)數(shù)據(jù),分別從群體發(fā)現(xiàn)和群體行為理解兩個(gè)方法驗(yàn)證方法的有效性.

        5.1 群體發(fā)現(xiàn)

        本文首先對(duì)上網(wǎng)數(shù)據(jù)進(jìn)行初始化.在數(shù)據(jù)離散化時(shí),本案例將時(shí)間跨度設(shè)為 30分鐘,因?yàn)楦鶕?jù)統(tǒng)計(jì),大部分用戶的連續(xù)上網(wǎng)時(shí)間都超過(guò)了30分鐘.由于上網(wǎng)記錄的數(shù)據(jù)量較大,本案例根據(jù)數(shù)據(jù)量將數(shù)據(jù)分成3個(gè)組,生成初始組的用戶個(gè)數(shù)分別為85,37,178.本案例通過(guò)3個(gè)組中用戶個(gè)數(shù)的比較,得出用戶個(gè)數(shù)為178的組數(shù)據(jù)量最大,分組結(jié)果可能最為粗糙,因此,本案例選擇初始用戶個(gè)數(shù)為178的初始組進(jìn)行迭代探索.

        首先,本文根據(jù)用戶的行為相似性、統(tǒng)計(jì)指標(biāo)以及行為分布為初始組選擇初始個(gè)體(T1).因?yàn)樵诔跏冀M中重要的用戶是該組的核心,與很多用戶都有關(guān)聯(lián),同時(shí),迭代方法是通過(guò)用戶之間的相似度將用戶加入到群體的,所以本案例使用Core值來(lái)映射用戶關(guān)系視圖中點(diǎn)的大小.如圖4(b)所示,被圓形框標(biāo)記出來(lái)的點(diǎn)較大,表示該點(diǎn)對(duì)應(yīng)的用戶在初始組中比較重要,并且該點(diǎn)位于用戶關(guān)系視圖的中心,周圍環(huán)繞著很多的用戶,表示與其行為相似的用戶有很多.如圖 5所示,被矩形框出的用戶對(duì)應(yīng)圖 4中被圓形框標(biāo)記的點(diǎn),該點(diǎn)在初始組中“Core”“Betweenness”“Closeness”的值較大,表示在初始組中的“重要性”“橋梁”作用、與其他點(diǎn)的接近程度方面的值較大.并且該點(diǎn)使用設(shè)施在時(shí)間上的分布較為集中,離群值較少.因此,本案例選擇該點(diǎn)作為初始個(gè)體.

        然后,本文進(jìn)行迭代探索(T2).如圖 4所示,已加入群體的點(diǎn)用圓形框標(biāo)記,群體中點(diǎn)相似度大于閾值的點(diǎn)用方形框標(biāo)記,它們會(huì)在下一次迭代中加入群體.如圖4(b)所示,與初始點(diǎn)相似度大于閾值的點(diǎn)有4個(gè),在圖4(c)中,這4個(gè)點(diǎn)被加入群體,此時(shí),初始點(diǎn)對(duì)應(yīng)的點(diǎn)周圍有4個(gè)花瓣,表示該點(diǎn)與剛進(jìn)入群體的點(diǎn)相似度均較大;剛進(jìn)入群體的4個(gè)點(diǎn)都只有一個(gè)花瓣,表示這些點(diǎn)只與初始點(diǎn)相似度較大,4個(gè)點(diǎn)之間相似度不大.通過(guò)圖4(b)~圖4(d)這3次迭代后,已無(wú)點(diǎn)被加入群體.由于子空間被不斷改變,群體中的點(diǎn)可能在新的子空間中,與其他點(diǎn)的相似度均小于閾值,即無(wú)花瓣的顏色較淺的點(diǎn),如圖4(d)中被箭頭標(biāo)記的點(diǎn),本文將這些點(diǎn)從群體中去除.如圖4(d)所示,最終本文得到了一個(gè)用戶數(shù)為10的群體.

        得到具有相似行為模式的群體之后,本案例通過(guò)行為特征視圖對(duì)群體行為模式進(jìn)行理解(T3).用戶上網(wǎng)的偶然性給群體行為模式的理解帶來(lái)了困難,因此,本案例對(duì)在不同時(shí)間尺度上的用戶進(jìn)行篩選,通過(guò)比較群體在“25%”“50%”和“75%”這 3個(gè)閾值上弦圖的效果之后,我們發(fā)現(xiàn)閾值為“25%”時(shí),弦圖中弧的分布更為清晰集中,并且細(xì)小的連線和顏色較淺連線也減少了很多.這表示在閾值為“25%”時(shí),用戶上網(wǎng)模式更為明顯,并且不同時(shí)間上的關(guān)聯(lián)也較為緊密,因此,本案例使用閾值為“25%”時(shí)的行為特征視圖對(duì)群體行為模式進(jìn)行理解.

        圖6是對(duì)初始組、群體和剩下組在“小時(shí)”“天”“周”上行為分布的展示.圖6(a)中,在“小時(shí)”上,群體中大部分用戶在16~21時(shí)上網(wǎng),且連線呈完全圖,因此群體明顯集中在16~21時(shí)上網(wǎng).如圖6(b)所示,在“日”上,與其他兩組相比,群體在時(shí)間分布的比重上有了很大變化,大部分用戶分布在1~4日、12日、17日,且群體在這些時(shí)間的比重明顯高于其他時(shí)間.初始組和剩下組的時(shí)間分布差別不大,時(shí)間之間的關(guān)聯(lián)比較混亂,沒(méi)有明顯的規(guī)律.在“周”上,群體在周三、周四、周末上網(wǎng)的比重較大.周末有很多用戶一起上網(wǎng),周三、周四也有較多用戶一起上網(wǎng).群體中,上網(wǎng)的人的籍貫主要分布在河北、浙江,性別均為男性,并且年齡全部在20歲~30歲之間,如圖3(f).綜上所述:群體成員主要在月初(1~4日)和月中(12日、17日),周三、周四、周末,16~21時(shí)上網(wǎng).

        群體的行為模式可得出如下結(jié)論:用戶主要在周三、周四、周末和傍晚、晚上上網(wǎng),并且沒(méi)有熬夜.同時(shí),我們根據(jù)基本屬性分布可知,群體均為男性且年齡在20歲~30歲之間,因此該群體可能為課余時(shí)間較多大學(xué)生或上班時(shí)間較為松散的上班族.對(duì)比初始組、群體和剩下組中用戶在時(shí)間上的分布,我們可以明顯看到群體中的用戶上網(wǎng)時(shí)間更集中,并且關(guān)聯(lián)也更緊密清晰,這也驗(yàn)證了本文方法的正確性.

        5.2 行為特征理解

        本案例通過(guò)行為特征視圖中不同時(shí)間尺度上人數(shù)的統(tǒng)計(jì)和關(guān)聯(lián),以及子空間選擇視圖中時(shí)間片在不同時(shí)間尺度的分布,對(duì)群體行為特征進(jìn)行進(jìn)一步的理解(T3).本案例對(duì)網(wǎng)吧初始分組的另一個(gè)組進(jìn)行迭代探索,該組有85個(gè)用戶,探索得到的群體中有12個(gè)用戶.該組群體發(fā)現(xiàn)流程與第5.1節(jié)大致相同,因此本案例不再詳細(xì)描述.圖 7(a)是群體分別在時(shí)間尺度為“月”“小時(shí)”“日”“周”上的行為特征圖.圖 7(b)是群體的子空間在“月”“周”“日”“小時(shí)”上的統(tǒng)計(jì)分布.

        圖7(a1)為群體在“月”上的行為特征視圖.在圖7(a1)中,11月上網(wǎng)的用戶明顯多于12月.對(duì)應(yīng)圖7(b1)中,時(shí)間片的分布也是如此,兩圖時(shí)間分布相對(duì)應(yīng).圖 7(a2)中,群體中大部分用戶在周末上網(wǎng),且上網(wǎng)人數(shù)相差不大,說(shuō)明群體中大部分用戶在周末一起上網(wǎng).對(duì)應(yīng)圖7(b2)中時(shí)間片的分布,即周末分布較多,群體在周末一起上網(wǎng)的概率較大.圖 7(a3)為群體在“日”上的行為特征視圖,群體中大部分用戶3日、4日、9日、10日、14日、18日~20日上網(wǎng),在4日、10日、19日分布更多,連線更粗且構(gòu)成完全圖,說(shuō)明群體中有更多用戶在4日、10日、19日一起上網(wǎng),與圖7(b3)中的時(shí)間分布大致相對(duì)應(yīng).但時(shí)間片在9日分布最多,而圖7(a3)中,9日的用戶分布卻不是最多的.如圖7(a4),在“時(shí)”上,群體上網(wǎng)的人數(shù)大多分布在17時(shí)~21時(shí),并且兩兩之間都有連線,構(gòu)成一個(gè)完全圖,表明群體該時(shí)間上網(wǎng)的用戶有一部分是相同的,即群體中有一部分用戶經(jīng)常在17時(shí)~21時(shí)一起上網(wǎng).18~20時(shí)之間的連線明顯比其他連線粗,表明在18時(shí)~20時(shí),群體中有更多用戶一起上網(wǎng).在圖7(b4)中,17時(shí)~21時(shí)的時(shí)間片分布較多,說(shuō)明群體在該時(shí)間段一起上網(wǎng)的概率較大,與圖 7(a4)中部分用戶一起上網(wǎng)的時(shí)間相對(duì)應(yīng).18時(shí)~20時(shí)的時(shí)間片分布更多,也與圖7(a4)對(duì)應(yīng).

        根據(jù)上述分析,群體在不同時(shí)間尺度上網(wǎng)規(guī)律如下:在“小時(shí)”上,群體經(jīng)常在17時(shí)~21時(shí)上網(wǎng),并且上網(wǎng)時(shí)間更集中在18時(shí)~20時(shí);在“日”上,群體在月初(3日、4日、9日)和月中(14日、18日~20日)上網(wǎng),且上網(wǎng)時(shí)間更加集中在4日、10日、19日;在“周”上,群體集中周末上網(wǎng).根據(jù)群體上網(wǎng)模式,我們發(fā)現(xiàn):群體通常在周末和晚上上網(wǎng),并且可能在17日~21時(shí)連續(xù)上網(wǎng),說(shuō)明群體可能在工作日有工作要做,因此我們推測(cè)該群體的身份為上班族.

        圖 7(a)和圖 7(b)統(tǒng)計(jì)中,兩圖在時(shí)間上基本能夠相互對(duì)應(yīng);同時(shí),由于圖 7(b)只是對(duì)子空間的統(tǒng)計(jì),而圖 7(a)是對(duì)全部時(shí)間片集合的統(tǒng)計(jì),并且群體只是在子空間的時(shí)間片上一起上網(wǎng)的概率較大,一起上網(wǎng)不是必然事件,因此,兩視圖不能完全對(duì)應(yīng).總體來(lái)說(shuō),兩圖時(shí)間上基本相互對(duì)應(yīng),間接驗(yàn)證了本文動(dòng)態(tài)子空間策略的正確性.

        6 專家意見

        為了對(duì)本文方法的可用性進(jìn)行評(píng)估,我們進(jìn)行了一個(gè)實(shí)驗(yàn).我們邀請(qǐng)了15位參與者(5位女性、10位男性,年齡在24歲~49歲),為了避免模糊指代,本文根據(jù)研究領(lǐng)域?qū)⑴c者編號(hào).參與者包含2位來(lái)自數(shù)據(jù)可視化領(lǐng)域的教授(編號(hào)V1,V2),5位來(lái)自數(shù)據(jù)可視化方向的研究生(編號(hào)V3~V7),1位來(lái)自人工智能領(lǐng)域的副教授(編號(hào)A1),3位來(lái)自人機(jī)交互領(lǐng)域的專家(編號(hào)H1~H3),3位來(lái)自大數(shù)據(jù)領(lǐng)域的研究員(編號(hào)D1~D3),1位來(lái)自虛擬現(xiàn)實(shí)研究領(lǐng)域的副教授(編號(hào)R1).他們之前均未使用過(guò)本文方法.我們首先向參與者介紹本文提出的問(wèn)題和解決方法,然后參與者使用可視化工具尋找上網(wǎng)數(shù)據(jù)的群體行為模式.最后,我們對(duì)參與者進(jìn)行訪談.

        大多數(shù)參與者認(rèn)為本文可視界面美觀,操作流程簡(jiǎn)單流暢,視圖含義易于理解,有較強(qiáng)的可用性.他們指出:多視圖協(xié)同展示迭代過(guò)程,可幫助他們多方位實(shí)時(shí)了解數(shù)據(jù)信息.9個(gè)參與者(V1,V2,V4,V6,H2,H3,D1,D3,R1)指出:用戶關(guān)系視圖可幫助他們利用位置判斷用戶行為相似性,并在本文方法的理解上起到了關(guān)鍵作用.7個(gè)專家(V1,V3,V7,H1,D2,D3,R1)認(rèn)為:本文的行為特征視圖,簡(jiǎn)單易懂,不僅可幫助他們了解在迭代過(guò)程中群體模式的變化,而且 3個(gè)弦圖的對(duì)比,可明顯地看出群體與其他兩組的區(qū)別,從而驗(yàn)證本文方法的正確性.同時(shí),他們還指出:行為特征視圖使用弦圖,直觀展示了不同時(shí)間上的分布和關(guān)聯(lián),能容易地找到具體細(xì)致的行為模式.V1認(rèn)為:用戶關(guān)系視圖中花瓣的設(shè)計(jì)新穎美觀,點(diǎn)會(huì)隨著迭代過(guò)程改變顏色,添加花瓣易引起注意,使復(fù)雜的迭代過(guò)程變得易于理解.V2指出:若數(shù)據(jù)量很大,聚類算法分組后每組用戶數(shù)仍很多,由于可視界面可容納的用戶數(shù)有限,會(huì)出現(xiàn)點(diǎn)重疊等問(wèn)題.經(jīng)測(cè)試,本方法可容納數(shù)千用戶,滿足大部分應(yīng)用場(chǎng)景的需要.如果數(shù)據(jù)集包含了更多的樣本,可通過(guò)提升初始聚類的個(gè)數(shù),以減少單個(gè)初始簇中用戶個(gè)數(shù).

        大多數(shù)參與者認(rèn)為:信息熵用來(lái)度量活動(dòng)的穩(wěn)定性,在很多領(lǐng)域有應(yīng)用,如檢測(cè)網(wǎng)絡(luò)異常、圖像處理等,本文將熵用于檢測(cè)群體在某時(shí)間上使用設(shè)施的一致性是可取的.他們還指出:動(dòng)態(tài)子空間策略相當(dāng)于在中間過(guò)程中改變參數(shù),是對(duì)分組算法的創(chuàng)新.D1認(rèn)為:動(dòng)態(tài)子空間策略雖新穎,可以改變過(guò)程中的參數(shù),但對(duì)于該策略的驗(yàn)證不夠直接,應(yīng)設(shè)計(jì)進(jìn)一步的驗(yàn)證.D2指出:本文所提方法需要構(gòu)建初始聚類,以縮小探索空間和提高后期迭代分析的效率,并提供了多個(gè)候選聚類算法,但不同的聚類算法可能產(chǎn)生不同的聚類結(jié)果.本文提供了多個(gè)候選聚類算法,并采用歐式距離作為用戶相似度指標(biāo).雖然不同的聚類算法和距離指標(biāo)可能產(chǎn)生不同的結(jié)果,但由于初始聚類只是對(duì)用戶進(jìn)行粗略的分組,且聚類算法設(shè)置的簇個(gè)數(shù)較小,具有相似行為特征的用戶被分到不同簇的可能性較小,因此,使用不同的聚類算法對(duì)后續(xù)具有相同行為模式群體的探索影響不大.此外,這一過(guò)程是可選的,當(dāng)數(shù)據(jù)量不大或用戶行為不存在明顯的差異無(wú)法得到清晰的簇時(shí),可不進(jìn)行初始化分組.

        H1認(rèn)為:本文交互操作方便有效,他們可靈活探索群體,可依需選擇閾值,從而控制群體用戶的個(gè)數(shù)和相似程度,通過(guò)交互控制迭代探索過(guò)程;同時(shí),可根據(jù)自己的判斷和需要從群體中增刪用戶.這些交互設(shè)計(jì)新穎特別,將人的智慧融入其中.4個(gè)參與者(V3,V4,H1,H2)認(rèn)為:他們雖可通過(guò)鼠標(biāo)交互控制迭代過(guò)程,但鼠標(biāo)點(diǎn)擊敏感,一次無(wú)意識(shí)的點(diǎn)擊就會(huì)改變迭代進(jìn)程,如果本文使用其他的交互方式可能會(huì)更好.因?yàn)楸疚牡牡椒ㄊ强赡娴?因此該問(wèn)題可通過(guò)另一交互操作返回上一迭代進(jìn)程來(lái)解決.6個(gè)參與者(V5~V7,H2,H3,R1)認(rèn)為:他們雖可通過(guò)交互控制探索進(jìn)程,但交互操作太多,不易記憶,且未在探索過(guò)程中用到全部交互操作.H3認(rèn)為:本文案例中,時(shí)間跨度是兩個(gè)月,但使用者可能只對(duì)某時(shí)間段比較感興趣,因此,若本文可動(dòng)態(tài)選擇時(shí)間段,這將會(huì)有更好的體驗(yàn).

        綜上所述,大多數(shù)參與者對(duì)本文方法表示了欣賞,一些參與者對(duì)本文方法提出了中肯的建議.我們會(huì)根據(jù)這些建議,在未來(lái)的工作中找到合理的方案來(lái)調(diào)整本文的設(shè)計(jì).

        7 討 論

        本節(jié)對(duì)方法中潛在的問(wèn)題進(jìn)行分析,并提供可能的解決方法.

        · 數(shù)據(jù)噪聲.若某用戶長(zhǎng)期占用設(shè)施,則其日志于行為模式發(fā)現(xiàn)是無(wú)用的,迭代探索時(shí),很多用戶會(huì)因該用戶加入群體,使其他用戶與該用戶關(guān)聯(lián)很強(qiáng),其他用戶之間的關(guān)聯(lián)很弱.但本文會(huì)對(duì)用戶間關(guān)系可視化,如圖 3(e),若某個(gè)點(diǎn)有很多花瓣,而群體內(nèi)其他點(diǎn)僅一個(gè)花瓣,表明其他用戶只與該用戶有關(guān),可通過(guò)交互去掉該用戶;

        · 可視重疊.本文通過(guò)降維,將數(shù)據(jù)映射到用戶關(guān)系視圖中,但映射會(huì)造成一些相似點(diǎn)的重疊.為了減少重疊,本文使用碰撞算法調(diào)整點(diǎn)的相對(duì)位置,但位置變化會(huì)對(duì)用戶間關(guān)系的判斷造成一定的影響,且用戶數(shù)越多影響越大.本文考慮用氣泡代替某些區(qū)域,在需要時(shí)再將該區(qū)域放大,當(dāng)區(qū)域變大時(shí),用戶間的重疊就會(huì)相對(duì)減少;

        · 可視化空間有限.由于可視化空間有限,可視化工具不能無(wú)限制地容納數(shù)據(jù),數(shù)據(jù)量越大,視圖中點(diǎn)重疊問(wèn)題越嚴(yán)重,算法調(diào)整后,點(diǎn)的位置變化越大.本文可增加聚類算法設(shè)置的簇個(gè)數(shù),從而減少初始組的數(shù)據(jù)量;

        · 閾值選擇的主觀性.迭代開始之前,使用者要選擇熵和相似度的閾值,由使用者主觀決定,因此有兩個(gè)極限情況:當(dāng)閾值都選擇為0時(shí),初始組的用戶都會(huì)進(jìn)入群體,造成迭代探索失效;當(dāng)閾值都為1時(shí),群體中只包含最初選擇的一個(gè)用戶.由于迭代方法是可逆的,因此在遇到這兩種情況時(shí),使用者可交互地回到最初狀態(tài),調(diào)整閾值;

        · 可擴(kuò)展性.本文方法僅根據(jù)數(shù)據(jù)的時(shí)間屬性探索行為模式,并未結(jié)合空間等其他信息.若方法結(jié)合其他信息,可能會(huì)得到更加準(zhǔn)確的群體;同時(shí),也使行為模式更易于理解.因?yàn)楸疚臄?shù)據(jù)均來(lái)自于一個(gè)網(wǎng)吧,因此本文僅使用了時(shí)間屬性.作者將來(lái)會(huì)分析簽到日志的時(shí)空模式,將時(shí)間先后順序和空間拓?fù)潢P(guān)系納入分析范疇.

        8 總結(jié)與展望

        本文設(shè)計(jì)了一個(gè)行為模式探索流程和一個(gè)可視分析工具,該流程使用動(dòng)態(tài)迭代方法逐步將用戶加入群體,同時(shí)引入熵的概念,挑選時(shí)間子空間,逐步提升迭代效果.可視分析工具將迭代過(guò)程可視化,幫助使用者實(shí)時(shí)了解數(shù)據(jù)的變化.使用者根據(jù)這些變化將自身的判斷融合進(jìn)迭代過(guò)程,通過(guò)交互對(duì)迭代過(guò)程進(jìn)行調(diào)整,并對(duì)探索結(jié)果進(jìn)行理解和驗(yàn)證.最后,本文通過(guò)兩個(gè)案例分析以及專家意見驗(yàn)證本文方法的可用性.在未來(lái)的工作中,我們將嘗試將不同的行為記錄結(jié)合在一起,通過(guò)不同方面的屬性對(duì)用戶進(jìn)行分析,得到更為準(zhǔn)確的群體.對(duì)于閾值的選取,我們將為使用者推薦更為合理的閾值作為參考.現(xiàn)在的工具通過(guò)弦圖向使用者描述用戶在時(shí)間上的分布,未來(lái)我們也將改進(jìn)可視化工具,使行為模式更加易于理解.我們還將對(duì)動(dòng)態(tài)子空間策略進(jìn)行進(jìn)一步的驗(yàn)證.

        猜你喜歡
        群體行為視圖使用者
        “法定許可”情況下使用者是否需要付費(fèi)
        群體行為識(shí)別深度學(xué)習(xí)方法研究綜述
        新型拼插休閑椅,讓人與人的距離更近
        好日子(2018年5期)2018-05-30 16:24:04
        化工園區(qū)突發(fā)事件情景下的群體行為模擬演化研究*
        基于因果分析的群體行為識(shí)別
        5.3 視圖與投影
        視圖
        Y—20重型運(yùn)輸機(jī)多視圖
        SA2型76毫米車載高炮多視圖
        抓拍神器
        欧洲亚洲第一区久久久| 宅男666在线永久免费观看| 婷婷久久久亚洲欧洲日产国码av| 国产精品麻豆成人AV电影艾秋| 日韩有码中文字幕第一页| 成年网站在线91九色| 国产亚av手机在线观看| 人妻被黑人粗大的猛烈进出 | 亚洲国产成人无码电影| 免费视频亚洲一区二区三区| 色狠狠色狠狠综合天天| 日韩人妻精品无码一区二区三区| 日韩免费高清视频网站| 国产夫妻自偷自拍第一页| 国产成人精品无码一区二区三区 | 东京热久久综合久久88| 亚洲日韩精品国产一区二区三区| 日韩人妻无码精品系列专区无遮| 69精品国产乱码久久久| 日韩精品无码一本二本三本色| 粗一硬一长一进一爽一a级| 美女精品国产一区二区三区| 风韵人妻丰满熟妇老熟| 日本亚洲欧美色视频在线播放| 欧美在线区| 色av色婷婷18人妻久久久| 四虎永久在线精品免费一区二区| 老熟妇乱子伦av| 激情中文丁香激情综合| 人妻在线有码中文字幕| 国产精品久线在线观看| 日本成人久久| 人妻少妇激情久久综合| 久久久久久自慰出白浆| 国产成人久久777777| 玖玖资源站无码专区| 国产成人精品日本亚洲i8| 性色av闺蜜一区二区三区| 国产高清精品自在线看| 快射视频网站在线观看| 97日日碰人人模人人澡|