亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        用戶序列行為分析研究與應(yīng)用綜述

        2018-10-10 03:25:08陳恩紅陳玉瑩
        關(guān)鍵詞:用戶分析模型

        陳恩紅,陳玉瑩,潘 鎮(zhèn),李 徵

        (中國科學(xué)技術(shù)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院 大數(shù)據(jù)分析與應(yīng)用安徽省重點實驗室,安徽 合肥 230027)

        近幾十年來,伴隨著整個社會對移動互聯(lián)網(wǎng)的廣泛接受,用戶產(chǎn)生的數(shù)據(jù)呈現(xiàn)出爆炸式增長[1],如新浪的日活微博超過1.34億,Twitter的總用戶量已經(jīng)超過5億.與此同時,人們利用信息技術(shù)進(jìn)行生產(chǎn)和搜集數(shù)據(jù)的能力也大幅度提高[2].遍布各個行業(yè)的海量數(shù)據(jù)包含大量和用戶相關(guān)的信息,利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘的建模方法可以對用戶的行為數(shù)據(jù)進(jìn)行深度分析,挖掘出用戶行為數(shù)據(jù)背后隱藏的興趣愛好、消費傾向,為企業(yè)在市場競爭中留住已有用戶、吸引潛在用戶提供重要的技術(shù)支撐.因此,用戶行為分析成為工業(yè)界和學(xué)術(shù)界廣泛關(guān)注的課題[3-4].

        在現(xiàn)實世界中,用戶在很多場景中的行為是序列化的,很多信息呈現(xiàn)序列特征[5-6],這種序列數(shù)據(jù)在用戶行為分析中也得到了極大的體現(xiàn).例如:現(xiàn)代電商平臺的用戶瀏覽購買數(shù)據(jù)包含了長期和短期兩種不同模式的興趣愛好[7-8];基于社交媒體的微博數(shù)據(jù)往往是以時間線的形式呈現(xiàn),用戶在不同時刻產(chǎn)生的文本等內(nèi)容往往在主題和情感上各不相同[9];基于在線學(xué)習(xí)平臺的學(xué)生數(shù)據(jù)往往以周期形式變化,學(xué)生在不同學(xué)習(xí)階段的學(xué)習(xí)內(nèi)容和知識水平也會各不相同[10].因此,序列信息成為用戶行為分析中十分重要的影響因素.圍繞該領(lǐng)域的相關(guān)研究中,一個主要的挑戰(zhàn)就是如何分析利用用戶序列行為數(shù)據(jù),更加精準(zhǔn)地對用戶序列行為進(jìn)行建模并應(yīng)用于各個行業(yè)的實際場景.

        序列模式挖掘最早是由Agrawal等[11]在1995年針對超市購物籃數(shù)據(jù)的分析中提出的.序列模式挖掘的目標(biāo)是要找出序列數(shù)據(jù)庫中所有超過最小支持度閾值的序列模式.除了購物籃數(shù)據(jù),序列模式挖掘還有著廣泛的應(yīng)用領(lǐng)域,如商業(yè)組織可以利用序列模式挖掘研究用戶購買行為模式特征和用戶網(wǎng)絡(luò)訪問模式.序列模式挖掘與關(guān)聯(lián)規(guī)則挖掘在很多方面是相似的, 但序列模式挖掘更關(guān)心數(shù)據(jù)之間順序的關(guān)聯(lián)性.最早的序列模式挖掘算法大多基于關(guān)聯(lián)規(guī)則挖掘算法Apriori[11].近些年來,在序列模式挖掘的基礎(chǔ)上,人們提出了很多基于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù)的序列建模方法,如張量分解[12-13]、隱馬爾科夫[14]、動態(tài)貝葉斯網(wǎng)[15]和循環(huán)神經(jīng)網(wǎng)絡(luò)[16].結(jié)合各個領(lǐng)域數(shù)據(jù)的獨有特征,用戶序列行為分析的研究與應(yīng)用在各個領(lǐng)域大放異彩.

        論文對近年來用戶序列行為分析的研究與應(yīng)用進(jìn)行綜述.首先,詳細(xì)闡述序列數(shù)據(jù)的格式和特征,以及用戶序列行為分析的各類任務(wù);其次,從基于分解的模型、貝葉斯模型、深度學(xué)習(xí)模型3個方面梳理用戶序列行為分析技術(shù)的研究現(xiàn)狀;然后,從社交網(wǎng)絡(luò)、推薦系統(tǒng)、智慧教育、智慧交通4個領(lǐng)域列舉了用戶序列行為分析的實際應(yīng)用場景;最后,從建模技術(shù)和應(yīng)用價值兩個方向?qū)τ脩粜蛄行袨榉治龅奈磥戆l(fā)展趨勢進(jìn)行探討和展望.

        1 序列數(shù)據(jù)特征與問題定義

        用戶的行為往往受用戶興趣、時間、地理位置、社交好友等多種因素的影響.其中,序列數(shù)據(jù)往往展現(xiàn)了用戶行為變化的規(guī)律,其數(shù)據(jù)格式在不同領(lǐng)域具有獨特的數(shù)據(jù)特征和形式.該章節(jié)首先總結(jié)了用戶序列行為數(shù)據(jù)的幾種主要特性,其次闡述了基于這些時序數(shù)據(jù)的幾類數(shù)據(jù)挖掘任務(wù).

        1.1 序列行為數(shù)據(jù)特征

        用戶序列行為數(shù)據(jù)可以表示為一個有限集{(x1,y1),(x2,y2),…,(xn,yn)}.例如,當(dāng)某一個用戶瀏覽購物網(wǎng)站時,產(chǎn)生的序列行為可表示為

        {(a,click),(b,click),(a,cart),(b,collect),(b,buy),…,(f,click),(f,buy)},

        其中:a,b,f代表不同商品;click,cart,collect,buy分別代表點擊、加購物車、收藏、購買行為.

        時間序列是序列的一種特殊形式,當(dāng)xi為時間數(shù)據(jù)并且x2-x1=x3-x2=…=xn-xn-1時,這個序列是一個時間序列(time series).時間序列在近幾十年被廣泛地研究,在表示與索引[17,19]、相似度衡量[20-22]、分割[23-26]、可視化[27-30]、模式發(fā)現(xiàn)與聚類[31-35]、分類[36-37]、規(guī)則發(fā)現(xiàn)[38]和摘要[39]等研究方向上都有大量研究成果.由于篇幅所限,論文略過時間序列的經(jīng)典算法,而著重介紹近些年來在用戶序列行為上使用的技術(shù)和應(yīng)用場景.

        用戶的序列行為數(shù)據(jù)并不僅僅是具有時間信息的數(shù)據(jù),用戶在長期或者短期的行為往往有一定的規(guī)律和模式,按照數(shù)據(jù)變化的規(guī)律將用戶序列行為數(shù)據(jù)分為以下4種類別:

        趨勢(長期)變化:它用于反映用戶在一段時間內(nèi)的行為規(guī)律,通常可用于挖掘用戶長期行為數(shù)據(jù)的共性以及未來趨勢的預(yù)測,如根據(jù)用戶的在線時長或者行為記錄,預(yù)測用戶的流失率[40]和潛在的興趣[41].

        序列(短期)變化:它用于反映用戶在短時間內(nèi)頻繁進(jìn)行的一系列操作,這類數(shù)據(jù)往往更能反映用戶當(dāng)前時刻的主要意圖[7],對用戶建模的在線實時更新起到了極其重要的作用.

        周期性變化:它反映的是每間隔一段時間后,用戶會呈現(xiàn)相似的狀態(tài).如基于在線學(xué)習(xí)輔導(dǎo)系統(tǒng)的學(xué)生行為數(shù)據(jù),因為學(xué)生在一段時間內(nèi)可能會集中學(xué)習(xí)某個章節(jié)相關(guān)的課程,不同時間段內(nèi),學(xué)生所需要學(xué)習(xí)的課程內(nèi)容,以及對應(yīng)知識水平往往會有一定的差異[10].

        隨機(jī)性(異常)變化:它反映的是隨機(jī)或者特定事件引起的零星時序變化.如雙十一期間用戶指數(shù)級增長的消費記錄,某個熱點新聞造成的用戶微博大量轉(zhuǎn)發(fā)[42]等.該類數(shù)據(jù)對于特定時間或者事件所引發(fā)的用戶行為的分析十分重要.

        1.2 序列分析任務(wù)

        針對序列數(shù)據(jù)的特性,一系列的數(shù)據(jù)挖掘任務(wù)在不同的場景下展開,這些任務(wù)可以分為以下幾類:預(yù)測、分類、聚類、搜索與檢索、模式發(fā)現(xiàn).在該節(jié)中,將提供關(guān)于這些任務(wù)更詳細(xì)的描述.

        預(yù)測任務(wù):序列預(yù)測任務(wù)通常是基于先前的序列數(shù)據(jù)預(yù)測未來可能的取值,為了做到這一點,需要建立一個對序列敏感的預(yù)測模型[43],模型的輸出隨序列的變化動態(tài)更新.實際應(yīng)用中有很多序列預(yù)測需求,如基于學(xué)生學(xué)習(xí)數(shù)據(jù)的成績排名預(yù)測[44]、基于用戶瀏覽記錄的商品推薦[7-8,16]等.

        分類任務(wù):在序列分類任務(wù)中,呈現(xiàn)給系統(tǒng)的每個序列被假定為屬于單個或者多個類別,目標(biāo)是自動確定給定輸入序列的對應(yīng)類別[45-46].其主要特性在于:序列內(nèi)部是有序的,并且這種序列性對于正確分類的影響不可忽視.如基于用戶評論的情感分類任務(wù),一條用戶的評論信息可以看成一條文本序列,而文本內(nèi)部每個詞是有序的,這種順序性對于正確區(qū)分用戶的情感十分必要[47].

        聚類任務(wù):序列的聚類是基于序列集合的相似性對它們進(jìn)行分組.聚類對序列數(shù)據(jù)特別敏感,因為它本身潛在的趨勢特性,有助于聚類算法快速捕獲數(shù)據(jù)集中的結(jié)構(gòu)信息.如基于用戶的網(wǎng)絡(luò)活動日志,可以對用戶進(jìn)行聚類和分組以展示不同的導(dǎo)航模式[48].在金融數(shù)據(jù)中,它有助于挖掘具有相似價格變動趨勢的股票,從而對用戶的投資風(fēng)險進(jìn)行評估[49].

        搜索與檢索任務(wù):搜索與檢索任務(wù)是序列數(shù)據(jù)挖掘中一項重要的任務(wù),其核心思想在于從大量的序列文檔中快速有效地定位子序列(通常指查詢),或者判斷查詢和待搜索文本的序列相似性匹配[50].

        模式發(fā)現(xiàn)任務(wù):基于序列數(shù)據(jù)的模式發(fā)現(xiàn)任務(wù)是將排序信息合并到模式發(fā)現(xiàn)中,其與基礎(chǔ)的頻繁模式挖掘的區(qū)別在于,每一個事務(wù)都有對應(yīng)的時間戳,用戶的一次交易行為包含一系列的事務(wù)集合,事務(wù)與事務(wù)之間具有時間先后順序[51].

        2 用戶序列行為分析技術(shù)

        該章節(jié)將總結(jié)近年來用戶序列行為分析的三種主要技術(shù)方案,即基于張量分解的模型、貝葉斯模型和深度學(xué)習(xí)模型,并著重闡述如何將序列信息融合到建模過程中.

        2.1 基于張量分解的模型

        概率矩陣分解模型[52-53](probabilistic matrix factorization, 簡稱PMF)因其簡單高效的特性被廣泛應(yīng)用于各類得分預(yù)測任務(wù)中,特別是在基于協(xié)同過濾的推薦系統(tǒng)中.其特點在于通過隱含特征來聯(lián)系用戶和物品,將“用戶-項目”評分矩陣R分解為維度為D的“用戶-隱含特征”矩陣U和“物品-隱含特征”矩陣V,有

        (1)

        然而,傳統(tǒng)的各類矩陣分解模型往往基于一個靜態(tài)的假設(shè),并不能直接應(yīng)用到時間序列數(shù)據(jù),因此,近些年來,研究者們基于矩陣分解提出了各種改進(jìn)以應(yīng)用于時間序列數(shù)據(jù).一個最直接的想法便是增加時間的維度T,從2維的矩陣轉(zhuǎn)化為3維的張量,有

        (2)

        張量分解模型被廣泛應(yīng)用于各類時序預(yù)測任務(wù)中.如圖1所示,張量分解[11-12]將“用戶-項目-時間”評分張量分解為“用戶-隱含特征”矩陣U、“物品-隱含特征”矩陣V和“時間-隱含特征”矩陣T,由于加入了時間的特征矩陣,不同時刻的用戶-項目評分大不相同.

        圖1 張量CP分解

        Chua等[54]認(rèn)為時間因素主要體現(xiàn)在用戶的序列行為上,即用戶在不同時刻的隱含特征矩陣是在上一時刻的基礎(chǔ)上不斷變化的,基于以上的分析,他們提出了動態(tài)矩陣分解模型(dynamic matrix factorization, 簡稱DMF)為

        (3)

        此外,也有學(xué)者嘗試加入一些外部的先驗知識實現(xiàn)基于矩陣分解的動態(tài)建模.Wu等[55]認(rèn)為用戶在不同時刻的消費偏好受到用戶當(dāng)前時刻的自身偏好,以及用戶當(dāng)前社交關(guān)系好友偏好的影響.其將社交學(xué)理論和用戶的時序行為融合到概率矩陣分解模型中,最后模型將得到用戶在不同時刻的購物偏好,以及用戶不同時刻社交關(guān)系的構(gòu)建.Koren等[56]認(rèn)為每個物品的受歡迎程度會隨著時間變化而改變,用戶也會隨著時間改變他們的評價標(biāo)準(zhǔn).故作者在傳統(tǒng)的矩陣分解中加入物品和用戶個性化的參數(shù),表示用品的受歡迎程度以及用戶的評分標(biāo)準(zhǔn),而這些參數(shù)都是跟時間相關(guān)的.

        2.2 貝葉斯模型

        貝葉斯網(wǎng)絡(luò)是一個有向無環(huán)圖(directed acyclic graph, 簡稱DAG),它反映了一系列變量間的概率依存關(guān)系,沒有考慮時間因素對變量的影響.而沿時間軸變化的貝葉斯網(wǎng)絡(luò)即構(gòu)成動態(tài)貝葉斯網(wǎng)絡(luò),如圖2所示.動態(tài)貝葉斯網(wǎng)[57]既能夠表征變量之間的概率依存關(guān)系,又能描述這一系列變量隨時間變化的情況,是貝葉斯網(wǎng)絡(luò)在時間變化過程上的擴(kuò)展.因此,動態(tài)貝葉斯網(wǎng)被廣泛應(yīng)用于用戶序列行為分析的建模[15,57-59].文獻(xiàn)[57-58]將動態(tài)貝葉斯網(wǎng)絡(luò)應(yīng)用于學(xué)生建模,評估學(xué)生在學(xué)習(xí)過程中的認(rèn)知水平.Chapelle等[15]利用動態(tài)貝葉斯網(wǎng)絡(luò)為用戶提供更加精準(zhǔn)的網(wǎng)絡(luò)搜索排名,移動用戶的行為和地理位置分析也同樣適用[59].

        圖2 動態(tài)貝葉斯網(wǎng)絡(luò)示意圖

        此外,隱馬爾科夫模型(hidden Markov model, 簡稱HMM)是一種特殊的貝葉斯網(wǎng)絡(luò),其作為一種有效序列模型也在用戶序列行為分析中得到了廣泛的應(yīng)用[60-66]. HMM的基本模型如圖3所示,其最基本的假設(shè)即當(dāng)前狀態(tài)yt只與前一個狀態(tài)yt-1有關(guān),這種序列性描述了由一個隱藏的馬爾科夫鏈隨機(jī)生成不可觀測的狀態(tài)隨機(jī)序列{xt-2,xt-1,xt},再由各個狀態(tài)生成一個觀測而產(chǎn)生觀測隨機(jī)序列{yt-2,yt-1,yt}的過程.而現(xiàn)實生活中,大量場景下的序列數(shù)據(jù)都符合隱馬爾科夫的這種基本假設(shè). Dias等[60]利用隱馬爾科夫模型實現(xiàn)了對金融時間序列數(shù)據(jù)的聚類;文獻(xiàn)[61-64]是隱馬爾科夫模型在追蹤學(xué)生認(rèn)知水平領(lǐng)域的一系列擴(kuò)展;文獻(xiàn)[65-66]將隱馬爾科夫模型成功應(yīng)用于推薦系統(tǒng).

        圖3 隱馬爾科夫模型示意圖

        2.3 深度學(xué)習(xí)模型

        隨著深度學(xué)習(xí)模型在自然語言處理(natural language processing, 簡稱NLP)等領(lǐng)域序列分析上取得了巨大成功,越來越多的研究人員開始關(guān)注深度學(xué)習(xí)模型,并使用深度學(xué)習(xí)方法對行為序列數(shù)據(jù)進(jìn)行處理,從中挖掘行為模式,分析序列關(guān)系.例如:Zhou等[67]提出了一種基于注意力網(wǎng)絡(luò)模型用于建模用戶的行為從而輔助用戶個性化推薦過程中;Zheng等[45-46,68]利用多通道的卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)對時間序列的分類.事實上,用戶行為中存在大量復(fù)雜的關(guān)聯(lián),這種關(guān)聯(lián)往往是非線性的。深度學(xué)習(xí)模型能夠較好地學(xué)習(xí)和構(gòu)建輸入特征之間非線性的復(fù)雜關(guān)系,因此,深度學(xué)習(xí)模型可以很好地捕捉用戶行為上下文關(guān)系,并對序列行為進(jìn)行有效學(xué)習(xí).因此,深度學(xué)習(xí)模型可以很好地捕捉用戶行為上下文關(guān)系,并對行為序列進(jìn)行有效學(xué)習(xí).

        在深度學(xué)習(xí)模型中,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, 簡稱RNN)是一種常見的序列模型.循環(huán)神經(jīng)網(wǎng)絡(luò)通過引入定向循環(huán)來處理序列數(shù)據(jù)的前后關(guān)聯(lián),網(wǎng)絡(luò)會對前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前輸出的計算中.如圖4所示,在某一時刻t,隱藏層的輸入不僅包括輸入層xt,還包括上一時刻隱藏層的輸出ht-1,這樣網(wǎng)絡(luò)的每一步輸出ot都會和序列前列的輸入相關(guān).循環(huán)神經(jīng)網(wǎng)絡(luò)的這種特性對序列數(shù)據(jù)的動態(tài)建模有著十分明顯的優(yōu)勢,研究人員利用循環(huán)神經(jīng)網(wǎng)絡(luò)的這種特性演化出了兩種變種,即長短期記憶網(wǎng)絡(luò)(long short-term memory, 簡稱LSTM)與門循環(huán)單元(gated recurrent unit, 簡稱GRU),這兩種網(wǎng)絡(luò)都對非規(guī)整、變長序列進(jìn)行了很好的改進(jìn).

        圖4 循環(huán)神經(jīng)網(wǎng)絡(luò)示意圖

        得益于循環(huán)神經(jīng)網(wǎng)絡(luò)對序列的動態(tài)特征的有效學(xué)習(xí),越來越多的工作開始結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)對用戶行為序列進(jìn)行分析與建模.例如:Hidasi等[69]使用GRU模型對用戶短會話(session)場景下的點擊行為進(jìn)行建模,并推薦用戶下一個感興趣的商品;Su等[70]使用循環(huán)神經(jīng)網(wǎng)絡(luò)對學(xué)生學(xué)習(xí)行為進(jìn)行序列分析并運(yùn)用到試題表現(xiàn)的預(yù)測中;文獻(xiàn)[71]利用LSTM深度挖掘用戶社交媒體上發(fā)布內(nèi)容的時間序列關(guān)系從而對發(fā)布內(nèi)容熱度進(jìn)行預(yù)測.這些工作都證明了深度學(xué)習(xí)模型能夠從用戶數(shù)據(jù)中高效地學(xué)習(xí)行為背后隱藏的用戶與市場序列模式.

        3 用戶序列分析的應(yīng)用場景

        用戶序列行為分析可以應(yīng)用于多種場景,該章節(jié)將著重介紹推薦系統(tǒng)、社交網(wǎng)絡(luò)、智慧教育和智慧交通4個方面,除此之外,用戶序列行為分析還可用于廣告點擊、事件檢測等任務(wù).

        3.1 推薦系統(tǒng)

        推薦系統(tǒng)是電子商務(wù)平臺最重要的組成部分,通過對用戶序列行為的分析與挖掘,推薦系統(tǒng)能夠智能地發(fā)現(xiàn)用戶偏好,并對用戶的下一次交易過程提供一定的幫助和指導(dǎo).

        在傳統(tǒng)工作中,研究人員常常結(jié)合數(shù)據(jù)挖掘方法與用戶心理學(xué)[72]、行為學(xué)[73-74]等交叉學(xué)科知識,對用戶歷史的行為序列進(jìn)行靜態(tài)建模,挖掘其中隱含的用戶固有行為模式與用戶偏好更好為用戶提供更高的推薦服務(wù).如Liu等[72]通過分析用戶行為序列中隱藏的用戶對商品的猶豫度,從而輔助推薦系統(tǒng)更好地為用戶進(jìn)行推薦.隨著研究人員對用戶行為序列研究的深入,越來越多的序列推薦場景開始引起大家的關(guān)注,如基于短會話的推薦[69]、下一個商品[75]、購物籃推薦[76]、興趣點(point of interest, 簡稱POI)推薦[77]等.這些場景往往建立在對用戶的購買或者決策行為的序列分析基礎(chǔ)之上,綜合考慮了用戶偏好的序列特征,學(xué)習(xí)到用戶行為模式并對用戶的下一個行為進(jìn)行預(yù)測,更加合理地為用戶進(jìn)行推薦.例如:文獻(xiàn)[76]提出了一種結(jié)合矩陣分解的馬爾科夫鏈用來預(yù)測用戶的下一個購物籃可能會出現(xiàn)的商品,從而對用戶的下一次購物籃進(jìn)行推薦;Wang等[78]使用深度學(xué)習(xí)模型對用戶行為序列進(jìn)行表達(dá),并用于預(yù)測用戶下一個購物籃中的商品;文獻(xiàn)[79]提出了一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,在基于短會話的商品推薦中較大地提升了推薦結(jié)果的準(zhǔn)確度.

        推薦系統(tǒng)領(lǐng)域中,用戶決策過程的序列特征對用戶行為理解與預(yù)測是十分重要的.這些序列信息不僅可以幫助系統(tǒng)更加深入地理解商品之間的顯式序列關(guān)系,還能更進(jìn)一步地輔助理解用戶的動態(tài)偏好信息以及用戶的購物目的[80],這對構(gòu)建更加準(zhǔn)確、智能的推薦系統(tǒng)起到了很大作用.

        3.2 社交網(wǎng)絡(luò)

        真實世界中,社交網(wǎng)絡(luò)結(jié)構(gòu)一直處于演化過程,伴隨著新的節(jié)點和鏈接的加入,近年來越來越多的研究工作關(guān)注于時序的鏈路預(yù)測,即輸入數(shù)據(jù)通常包含社交邊創(chuàng)立的時間或者不同階段社交網(wǎng)絡(luò)的快照信息[81].一種簡單有效的方法,是將多個時間段的鏈路數(shù)據(jù)通過加權(quán)平均壓縮到一個矩陣中,然后利用靜態(tài)的鏈路預(yù)測方法處理壓縮后的矩陣[82-83].其他研究者提出了利用張量分解或者非參數(shù)時間序列模型來挖掘社交圖演化過程[84-85].

        此外,用戶的消費偏好對社交圖的結(jié)構(gòu)有著重要影響,而用戶也可能會根據(jù)社交朋友的決定改變自身的消費行為.Jamali等[86]從宏觀角度研究了社交網(wǎng)絡(luò)和用戶評分行為的雙向關(guān)系;Yang等[87]對用戶的消費行為和社交鏈接進(jìn)行了共同建模;Wu等[88]集合社交情境下的用戶消費情況建模以及用戶對產(chǎn)品的時序喜愛程度,預(yù)測用戶的時序產(chǎn)品使用率,并且利用用戶-產(chǎn)品之間的消費行為以及用戶-用戶建立的社交鏈接行為,對用戶的消費行為和社交行為的聯(lián)合演化建模[55].

        3.3 智慧教育

        隨著教育信息化的持續(xù)深入以及互聯(lián)網(wǎng)的迅猛發(fā)展,在線教育已成為計算機(jī)融合傳統(tǒng)教育領(lǐng)域而形成的一個新的重要研究和應(yīng)用方向.面向?qū)W生的在線學(xué)習(xí)數(shù)據(jù)的建模技術(shù)主要應(yīng)用于以下3種實際任務(wù):得分預(yù)測[89]、知識水平診斷[90]、退課預(yù)測[91].教育學(xué)專家指出,學(xué)生在長時間的學(xué)習(xí)進(jìn)程中會不斷學(xué)習(xí)新的知識遺忘舊的知識,甚至?xí)驗樽陨淼亩栊詫W(xué)習(xí)任務(wù)不斷拖延[92].因此基于序列行為數(shù)據(jù)的學(xué)生建模是智慧教育領(lǐng)域的一個重要研究課題.

        Thai等[93]利用張量分解技術(shù)基于學(xué)生歷史的答題數(shù)據(jù)預(yù)測其未來的表現(xiàn).Chen等[10]將教育學(xué)中的學(xué)習(xí)曲線和遺忘曲線等先驗知識應(yīng)用到概率矩陣分解模型中,動態(tài)地追蹤學(xué)生不同時刻的知識掌握水平,并預(yù)測其在不同時刻的做題表現(xiàn).考慮到學(xué)生做題先后的序列性,有學(xué)者將循環(huán)神經(jīng)網(wǎng)絡(luò)模型應(yīng)用到學(xué)生答題的序列預(yù)測任務(wù)中,循環(huán)神經(jīng)網(wǎng)絡(luò)的隱含層輸出可用于表征學(xué)生答題過程中知識水平的變化,并取得了可觀的表現(xiàn)[91].考慮到試題的難度差異,Su等[70]利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)表征試題的文本信息,并結(jié)合學(xué)生的序列作答數(shù)據(jù)預(yù)測學(xué)生的答題表現(xiàn).

        得分預(yù)測任務(wù)往往只能獲得學(xué)生基于試題層面的表現(xiàn),而針對性的教學(xué)輔導(dǎo)往往更加關(guān)注學(xué)生知識水平的不足,因此基于知識點層面的知識水平分析也引起了廣大學(xué)者的關(guān)注.基于隱馬爾科夫模型的貝葉斯追蹤模型(Bayesian knowledge tracing, 簡稱BKT)在智能輔導(dǎo)系統(tǒng)中廣泛應(yīng)用,其把學(xué)生在某一個知識點下的做題結(jié)果看作一條馬爾科夫鏈,學(xué)生對于該知識點的掌握情況則是對應(yīng)的轉(zhuǎn)移狀態(tài)[61].有學(xué)者將學(xué)生個性化的猜測和遺忘參數(shù)結(jié)合到BKT模型中,提升了BKT模型的知識診斷精度和解釋性[63].而 Pardos等[64]認(rèn)為猜測和遺忘應(yīng)該是跟試題相關(guān)的,而不是學(xué)生,將試題的難度信息等應(yīng)用到學(xué)生序列性知識水平診斷工作中.Zhang等[94]結(jié)合知識點和學(xué)生序列答題數(shù)據(jù),利用動態(tài)的記憶網(wǎng)絡(luò)實時追蹤學(xué)生知識水平的變化.

        此外,退課預(yù)測也是在線學(xué)習(xí)系統(tǒng)的主要研究任務(wù)之一.Lykourentzou等[91]將學(xué)生是否能完成課程看作一個二分類任務(wù),結(jié)合學(xué)生每天的在線學(xué)習(xí)時長、提交作業(yè)的次數(shù)等時序特征并利用神經(jīng)網(wǎng)絡(luò)、最大支持向量機(jī)等機(jī)器學(xué)習(xí)算法測試分類的表現(xiàn).而Halawa等[40]則認(rèn)為學(xué)生退課的概率往往跟學(xué)生日常的活躍程度以及學(xué)習(xí)的持久程度相關(guān).

        3.4 智慧交通

        智慧交通能緩解資源供需不匹配、路網(wǎng)利用不均衡、公共交通分擔(dān)率低等原因造成的交通擁堵,改善城市交通狀況,提高城市交通系統(tǒng)的整體運(yùn)行效率,在智慧城市建設(shè)中發(fā)揮著非常重要的作用.其中,用戶軌跡數(shù)據(jù)挖掘是智慧交通重要的研究方向,用戶的運(yùn)動軌跡可視為用戶個體的序列行為,出租車等車輛的移動軌跡可視為用戶群體的序列行為.研究者通過全球定位系統(tǒng)、無線局域網(wǎng)絡(luò)、藍(lán)牙等技術(shù)手段,獲取用戶和車輛等物體的位置、時間、訪問頻率、共現(xiàn)模式等信息,然后通過數(shù)據(jù)挖掘等技術(shù)分析與理解移動對象的活動規(guī)律和特性,預(yù)測個體行為和群體事件,并應(yīng)用于智慧交通、城市規(guī)劃等任務(wù)中.

        在算法方面,Wang等[95]提出了基于Apriori的有效組模式挖掘算法和基于FP-Growth的有效組圖結(jié)構(gòu)挖掘算法來挖掘組模式.Zheng等[96-97]不僅考慮利用軌跡簡化技術(shù)來簡化軌跡,在軌跡段上進(jìn)行聚類,而且通過建立網(wǎng)格索引大大降低了空間區(qū)域查詢的計算量.他們還研究了在軌跡數(shù)據(jù)庫不斷增加的情況下,利用增量式算法挖掘聚集模式.Ge等[98]提出實時軌跡異常檢測算法,通過分析移動對象的行為發(fā)現(xiàn)前K個(top-K)異常軌跡.不同于以往的基于距離的軌跡計算,他們同時考慮了異常軌跡在空間距離上和運(yùn)動方向上的離群因素,首先為空間區(qū)域建立方格,為每個方格定義方向矩陣,根據(jù)軌跡的歷史數(shù)據(jù)生成基于方向的摘要向量;然后計算指定軌跡和摘要向量的距離,以此判斷該軌跡的異常情況.在應(yīng)用方面,Yuan等綜合考慮了交通模式、時間、目的地等情境信息及司機(jī)群體智慧,實現(xiàn)了一種實時的路線推薦[99]以及載客地點推薦方法[100].

        4 結(jié)束語

        針對用戶序列行為領(lǐng)域的研究與應(yīng)用,論文首先分析和介紹了序列數(shù)據(jù)的特性以及基于用戶序列行為數(shù)據(jù)的數(shù)據(jù)挖掘任務(wù);然后,從基于分解的模型、貝葉斯模型、深度學(xué)習(xí)模型3個方面詳細(xì)闡述并總結(jié)了近些年來用戶序列行為建模的技術(shù)進(jìn)展;最后,列舉了用戶序列行為在推薦系統(tǒng)、社交網(wǎng)絡(luò)、智慧教育、智慧交通4個領(lǐng)域的實際應(yīng)用場景.

        從上述研究現(xiàn)狀可以看出,基于用戶序列行為的分析仍然是一個充滿挑戰(zhàn)的研究領(lǐng)域,它仍然有許多值得深入探索和亟待解決的問題.首先,從建模技術(shù)的角度,文獻(xiàn)[101-102]嘗試使用不同的深度學(xué)習(xí)模型對用戶的序列行為建模.但是用戶的序列行為分析往往對時間非常敏感,導(dǎo)致算法的在線實時更新對算法的復(fù)雜度和時間效率要求更為嚴(yán)格,而且用戶的序列數(shù)據(jù)往往長短不一,并且具有稀疏、隱含興趣多變的特性,如何設(shè)計更為高效的算法實現(xiàn)對用戶序列行為更為精準(zhǔn)的分析仍具有很大的挑戰(zhàn).其次,從用戶情境的角度來看,文獻(xiàn)[103]對用戶的多種序列行為同時建模.但是用戶的行為往往受地理位置、社交好友、自身興趣多種因素的影響,如何綜合多種因素對用戶進(jìn)行序列建模仍值得進(jìn)一步探索.最后,從應(yīng)用場景的角度出發(fā):文獻(xiàn)[104]對移動設(shè)備的用戶按鍵序列行為進(jìn)行建模,來識別用戶;文獻(xiàn)[105]對某網(wǎng)站的用戶點擊序列行為進(jìn)行建模,來預(yù)測用戶的未來行為.但是不同場景下的數(shù)據(jù)規(guī)律和特征往往區(qū)別很大,而對于不同領(lǐng)域的用戶行為規(guī)律往往需要綜合領(lǐng)域?qū)<液托睦韺W(xué)專家等各方面的先驗知識.如何泛化用戶序列建模的技術(shù),降低領(lǐng)域?qū)<蚁闰炛R的影響,使其能夠在新領(lǐng)域快速展開應(yīng)用也是一個值得深入研究的課題.

        猜你喜歡
        用戶分析模型
        一半模型
        隱蔽失效適航要求符合性驗證分析
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        粗一硬一长一进一爽一a视频| 国产久热精品无码激情| 亚洲成av人最新无码| 久久久久久无码AV成人影院| 国产亚洲3p一区二区| 亚洲熟女综合色一区二区三区 | 官网A级毛片| 国产一区二区中文字幕在线观看| 精品在线视频免费在线观看视频| 黄射视频在线观看免费| 国产后入又长又硬| 美日韩毛片| 蜜桃在线观看免费高清| 永久中文字幕av在线免费| 精品国产免费一区二区三区香蕉| 国产中老年妇女精品 | 欧美俄罗斯乱妇| 亚洲AV无码精品呻吟| 亚洲处破女av一区二区| 国产不卡精品一区二区三区| 小宝极品内射国产在线| 免费一本色道久久一区| 四虎在线中文字幕一区| 亚洲2022国产成人精品无码区| 青青久在线视频免费观看| 欧洲午夜视频| 色婷婷av一区二区三区不卡| 国内嫩模自拍偷拍视频| 无码av中文一区二区三区| 欧美日韩亚洲国内综合网| 亚洲加勒比无码一区二区在线播放| 国产视频一区二区三区免费| 国产精品日日做人人爱| 热re99久久精品国产99热| 2021久久精品国产99国产| 亚洲中文字幕乱码一二三| 亚洲av中文无码乱人伦在线视色| 亚洲国产成人久久一区www| 国产亚洲女人久久久久久| 日本超级老熟女影音播放| 无码人妻av免费一区二区三区|