李 鵬 于曉洋 孫渤禹
?
基于用戶群組行為分析的視頻推薦方法研究
李 鵬*①②于曉洋①孫渤禹②
①(哈爾濱理工大學測控技術(shù)與儀器黑龍江省高校重點實驗室 哈爾濱 150080)②(哈爾濱理工大學計算機科學與技術(shù)學院 哈爾濱 150080)
該文采用權(quán)重增量及相似聚集的用戶行為分析算法,為用戶推薦個性化視頻提供了一個有效的解決方案。方法包含3個主要部分,首先利用RFM(Recentness, Frequency, Monetary amount)模型分析用戶的行為,將相同行為的用戶歸為一組;然后結(jié)合用戶的最近習慣,使用基于權(quán)重增量的Apriori算法挖掘用戶之間的關(guān)聯(lián)規(guī)則,并用向量空間模型進行相似度計算從而實現(xiàn)用戶相似聚集;最后進行協(xié)同過濾式推薦,完成整體個性化視頻推薦過程。該方法的特點是行為數(shù)據(jù)自動收集獲取,避免了直接對視頻大數(shù)據(jù)的處理;另外,視頻推薦隨著用戶行為的改變而動態(tài)變化,更加符合實際情況。實驗結(jié)果表明,該方法有效并且穩(wěn)定,相比于單一推薦方法,在準確率、召回率等綜合指標上均有明顯提升。
視頻推薦;行為分析;權(quán)重增量;Apriori算法
隨著互聯(lián)網(wǎng)的迅速普及,網(wǎng)絡傳輸、數(shù)據(jù)存儲和視頻壓縮等相關(guān)技術(shù)的快速發(fā)展,來自于不同領(lǐng)域的各種視頻數(shù)據(jù)正在以驚人的速度增長,其規(guī)模已十分龐大。例如,世界最大視頻分享網(wǎng)站YouTube已經(jīng)擁有超過1.5×108個視頻,并且每天還有近6.5×104個新視頻被上傳[1]。面對如此數(shù)量級的大數(shù)據(jù),用戶想要找到自己感興趣的視頻將變成一件非常困難的事情。因此,自動的視頻推薦系統(tǒng)成為人們迫切需求的產(chǎn)品,而有關(guān)推薦方法的研究也成為近年來計算機領(lǐng)域的一個熱點研究問題,得到了國內(nèi)外眾多研究人員的廣泛關(guān)注[2]。
用戶行為分析方法最早來源于管理學領(lǐng)域,通過分析客戶的行為指導企業(yè)運營管理[11]。近年來,有學者將此方法的思想引入到計算機領(lǐng)域的研究,劉奕群等人[12]采用用戶行為分析的方法對搜索引擎性能進行自動評價;陳亞睿等人[13]通過對用戶行為分析模型的研究,有效遏制不可信云終端用戶的侵入行為。我們認為用戶對視頻的點播觀看行為可以反映用戶對視頻的興趣態(tài)度,由此提出對一系列視頻具有相似行為操作的用戶應該具有相似的喜好和興趣點的假設(shè);本文采用的所有技術(shù)都旨在驗證這個假設(shè)是否成立。
本文視頻推薦系統(tǒng)的基本流程,如圖1所示,主要是為了用戶提供個性化的視頻推薦服務。用戶通過界面瀏覽,得知視頻的長短、風格、視頻名稱、國家地區(qū)、年代等內(nèi)容標簽,用戶可查看視頻列表并觀看自己喜歡的視頻,而用戶事務數(shù)據(jù)庫便是記錄視頻編號、類別風格等信息。本文通過3種模塊階段來呈現(xiàn)視頻推薦的過程:
(1)用戶分組模塊通過RFM模型對用戶行為進行分析,將視頻數(shù)據(jù)和觀看視頻客戶數(shù)據(jù)轉(zhuǎn)化為用戶觀看視頻的行為操作數(shù)據(jù),并通過日志數(shù)據(jù)對用戶進行第1次分組;
(2)數(shù)據(jù)挖掘模塊將用戶日志數(shù)據(jù)進行基于改進的權(quán)重增量的Apriori算法分析并取得用戶頻繁項的關(guān)聯(lián)規(guī)則,這樣可挖掘出用戶在最近行為中的規(guī)則習慣;
(3)協(xié)同推薦模塊基于相似向量比對用戶的相似度后,聚集相似規(guī)則用戶,最后進行協(xié)同推薦,將相似比對結(jié)果做 top-N推薦的階段。
視頻用戶的行為分析指標是通過對用戶在觀看過程中的行為進行統(tǒng)計和分析后從中得到的一般規(guī)律所構(gòu)成。通過對用戶行為進行分析并且掌握用戶行為的規(guī)律性,就有可能預測用戶將要發(fā)生的行為來實現(xiàn)期望目標。分析使用視頻點播服務的用戶行為,是希望了解用戶的特征與規(guī)律,以實現(xiàn)個性化推薦。用戶行為分析指標主要從以下幾個方面進行分析。
圖1 基于用戶行為分析的視頻推薦流程圖
根據(jù)相關(guān)研究,RFM用戶數(shù)據(jù)分析的指標是由用戶數(shù)據(jù)庫中3個特殊的要素構(gòu)成:最近一次消費時間(Recentness) ,消費頻率(Frequency) 和消費金額(Monetary Amount), 3個要素統(tǒng)一到1個RFM(Recentness, Frequency, Monetary amount)模型[14]。
(1)最近一次消費時間(Recentness)是指用戶最后一次消費距離分析時的時間長度。當Recentness值較小時,用戶再消費的幾率比較大,因而其在最近一次消費時間特征值較高。
(2)消費頻率(Frequency)是指用戶在一定時間內(nèi)消費該產(chǎn)品的次數(shù)。一般而言,當用戶的消費次數(shù)越多時,該用戶價值和忠誠度較高。反之,該用戶價值和忠誠度較低。
(3)消費金額(Monetary Amount)是指在一段時間內(nèi),用戶在此產(chǎn)品上花費的總金額。一般而言,當用戶的消費金額越高時,其用戶價值越高。
本文將對于視頻的用戶行為分析指標以及RFM的三要素做一個相對應的指標映射。如圖2所示,我們把用戶最后觀看時間當作最近一次消費時間;把在一段時間內(nèi)的觀看頻率當作消費頻率;把總觀看個數(shù)當作消費金額。不過,本文要將消費金額的計算方式改為計算類別文件(Itemsets)的次數(shù),而類別文件選得越多也代表著用戶會在這個類別文件上花費的時間越多,每一個類別文件就是單位金額。
本文通過行為分析可將用戶分為8個群組,根據(jù)每一個用戶的RFM值,我們以全部用戶的RFM的總平均值為標準,并且以↑表示其值大于總平均值,而↓小于總平均值。利用這種表示可以分成8個群組(↑↑↑, ↑↑↓,↑↓↑, ↑↓↓, ↓↑↑, ↓↑↓, ↓↓↑,↓↓↓)。每一位用戶將其RFM值與平均值做一個比較,由此可以找出每一位用戶的群組類型,并將每一位用戶分組到符合的群組內(nèi),而系統(tǒng)對于每一個群組會指定不同的推薦策略。
圖2 用戶行為分析與RFM映射圖
傳統(tǒng)數(shù)據(jù)庫由于要計算全部的觀看數(shù)據(jù),所以要獲得用戶的高頻繁文件,勢必要造成系統(tǒng)執(zhí)行時間以及成本的增加,影響了視頻推薦的即時性。并且,用戶最近觀看的選擇也不一定會一直圍繞相同的類別風格。因此,本文采用基于權(quán)重的增量式數(shù)據(jù)挖掘(Incremental Mining based on Weight, IMW)思想,從而找出用戶在最近時間內(nèi)的觀看興趣類別,增量式挖掘不但可以縮短數(shù)據(jù)挖掘的時間還能夠動態(tài)地挖掘出用戶最近習慣。
Apriori算法作為挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的重要算法是迄今為止最有影響力的關(guān)聯(lián)規(guī)則算法之一,其核心是基于兩階段頻繁項集思想的遞推算法[15]。在權(quán)重增量思想中,我們設(shè)定一個支持度閾值,只有權(quán)重支持度超過設(shè)定的支持度閾值,才能停止增量計算。隨著增量計算次數(shù)的不同,所得到的結(jié)果排列也會不一樣。本文通過對權(quán)重增量思想中一個參數(shù)的迭代次數(shù)閾值的設(shè)定,省去設(shè)定權(quán)重增量思想的支持度閾值以及Apriori算法中的最小支持度閾值,從而達到簡化計算提高效率的目的。
本文方法是將權(quán)重增量的思想加入到Apriori算法里并進行改進,從而求得研究中理想的規(guī)則,以下是描述挖掘規(guī)則的步驟:
步驟1 假設(shè)先取觀看數(shù)據(jù)庫內(nèi)的最后筆交易,并計算每一項集類別的次數(shù)值。
步驟6 最后剩下的二項集類別將視為用戶的最近習慣規(guī)則(Recent behavior rules, Rbr)。
本文通過向量空間模型(Vector Space Model, VSM)對用戶進行相似度計算,并且依據(jù)用戶最近習慣和興趣得出的規(guī)則來做用戶聚類,對相似用戶進行再一次聚集。其目的是為了聚集相似類別項目的用戶,找出用戶間更加相似的群組,達到真正協(xié)同過濾方法下分享信息的作用。定義如下:
接下來進行相似向量的計算,相似向量的定義如下:
求得相似向量后,就可進行每一用戶之間的相似度對比。
本文采用空間向量模型進行用戶之間的相似度對比。在向量空間模型中,兩位用戶1和2之間的行為相似度Sim(1,2)常用向量之間夾角的余弦值表示,如式(5):
通過VSM模型,就可以對群組中用戶的最近習慣規(guī)則向量表示做相似度計算,向量中的每一個元素都作為向量的特征項,對同一分組中的兩兩用戶做相似度計算,并以相似度作為系數(shù),對所要推薦給其他用戶的視頻做推薦度分析。若兩個用戶的類別相似向量的相似度高,那么就將一個用戶的視頻以高比例的數(shù)量推薦給其他用戶,若兩個用戶的類別相似向量的相似度低,就將一個用戶的視頻以低比例的數(shù)量推薦給其他用戶。
針對同一群組內(nèi)的用戶,我們進行了組內(nèi)相似用戶聚類,聚集了同一群組內(nèi)與其他用戶最相近風格的用戶。本方法是利用RFM模型分類后,在相同群的其他用戶所點選的視頻來進行相互推薦。這種方式的目的是經(jīng)由第2次的分類聚集,可以得出更接近用戶習慣和興趣分類,其做法就是將其他用戶所選擇的視頻,依據(jù)之前用戶的喜好類別不重復地推薦給用戶,達到協(xié)同過濾式信息共享的結(jié)果。
假設(shè)1的同組其他相似同喜好用戶2和3,可以知道3位用戶所選擇的視頻編號(其中代表第個視頻)。先把1與2在相同類別中的,不重復地推薦給1,例如:2將{:1,2,:6,:9}推薦給1。而3相同的類別也推薦給1,例如:3將{:2,4,:6,8}推薦給1。這樣,就會綜合2與3兩者的結(jié)果不重復地推薦給1,即{:1,2,4,:6,8,:9}。
針對視頻推薦方法的評價是一個比較困難的問題。由于視頻推薦的對象是人,因而對視頻喜好的選擇因人而異,甚至在不同時間、不同環(huán)境下同一個人的選擇也存在差異。因此,人們無法構(gòu)建統(tǒng)一的公共數(shù)據(jù)集來衡量各種方法之間的優(yōu)劣,絕大多數(shù)的研究只能通過組織一定數(shù)量的用戶對自己的方法與基本方法進行評價,以驗證自己提出的策略或所采用的技術(shù)是否有效且穩(wěn)定。我們也采用這種實驗策略,通過組織本中心的部分人員作為實驗者,對本文所采用的技術(shù)進行評價。
為驗證本文方法的有效性和穩(wěn)定性,本文搭建了一個實驗平臺。實驗數(shù)據(jù)分為5種類型共有400個視頻,其中250個為訓練語料,剩余150個為測試語料,每種分類的前50個作為訓練語料,后30個作為測試語料。本實驗共有15位實驗者在30天內(nèi)生成了1733條日志數(shù)據(jù)。為了證明本文方法的有效性與穩(wěn)定性、本文構(gòu)造了4種方法,分別用以驗證RFM模型,權(quán)重增量以及相似聚集3種技術(shù)在推薦過程中分別所起的作用,4種方法分別表示如下:
方法1:使用權(quán)重增量與RFM模型。
方法2:使用權(quán)重增量與RFM模型及相似聚集。
方法3:不使用權(quán)重增量但使用RFM模型及相似聚集。
方法4:使用權(quán)重增量但是不加入任何分組方法。
本實驗采用準確率、召回率和值這3個指標來衡量實驗方法的有效性,為了計算實驗數(shù)據(jù)的準確率和召回率,評價指標的計算公式如式(6),式(7),式(8)所示。本文將實驗和分類問題的混淆矩陣相結(jié)合,從而更好地描述系統(tǒng)的性能,如表1所示。其中TP表示的是方法推薦的并且用戶真實喜歡的視頻數(shù),F(xiàn)P表示方法推薦的但不是用戶喜歡的視頻數(shù),F(xiàn)N表示方法沒有推薦但是用戶實際喜歡的視頻數(shù),而TN則是方法既沒有推薦而且用戶也不喜歡的視頻數(shù)。
表1 分類混淆矩陣
通過對15名實驗者觀看視頻的行為數(shù)據(jù)進行采集并分析,采用構(gòu)建的4種方法分別進行視頻推薦,得到了如表2所示的實驗結(jié)果。
表2用戶的權(quán)重增量+RFM+相似聚集與其它方法的評價指標對比
方法1方法2方法3方法4 平均準確率0.640.760.520.56 平均召回率0.670.790.650.64 平均F值0.650.780.580.60 時間復雜度O(n)O(n2)O(n2)O(lgn)
方法2與其它方法的比較可以說明,單純只考慮RFM模型分組在推薦的過程中可能會出現(xiàn)較多其他用戶的推薦,因此可能推薦一些非用戶喜好或興趣的視頻,所以,本實驗設(shè)計證明兩次分組效果優(yōu)于單獨的一次分組。而方法3不使用增量挖掘技術(shù),推薦時會不管用戶的喜好,任意推薦其他用戶所點選的視頻,造成推薦比較雜亂,所以用戶對這種混亂的推薦可能不喜歡,因此推薦后的準確率明顯低于使用增量挖掘的方法,證明權(quán)重增量挖掘的重要性。另外,方法4不使用分組技術(shù),其平均準確率為56%,明顯低于方法2使用分組技術(shù)的準確率,因此分組技術(shù)更能讓用戶可以得到想要的,而不是一堆視頻,讓用戶不知道怎么選。以上實驗數(shù)據(jù)證明了方法2的有效性,但還需要驗證方法的穩(wěn)定性。
圖3顯示了15位用戶的準確率的分布。可以看出,用戶7在推薦方法2的準確率最高為82%,而最低是用戶2使用推薦方法2的準確率也有68%。其中用戶在使用方法2時所得到的大多數(shù)的準確率數(shù)值明顯高于其它3種方法所得到的準確率,其中方法1和方法4在準確率的穩(wěn)定性相對較差。
圖4顯示了15位用戶的召回率的分布。用戶4使用方法2所得到的召回率最高為84%,而最低的是用戶12的召回率也有72%。其中用戶在使用方法2時所得到的大部分的召回率數(shù)值明顯高于其它3種方法所得到的召回率,其中方法1和方法3在召回率的穩(wěn)定性相對較差。
本文對文中視頻協(xié)同推薦框架下所涉及的3種算法分別進行了時間復雜度分析:基于RFM模型的用戶行為分析算法(RFM)本質(zhì)是一種匹配算法,算法對用戶3種行為元素進行采樣,并與可能形成的8種情況進行匹配,將用戶進行群組集聚。這種匹配算法沒有循環(huán)存在,因此其時間復雜度為常數(shù);基于改進權(quán)重增量的Apriori算法(IMW)本質(zhì)是一種遞歸算法,算法主要對于用戶的近期觀看行為規(guī)則進行增量式的更新,匹配算法的時間復雜度最小為(),采用折半查找時間復雜度最大為(lg);向量空間模型(VSM)是一種普遍使用的高效相似度計算模型,VSM內(nèi)積計算的時間復雜度是(),待推薦的用戶要與已知用戶集分別進行相似度計算,其時間復雜度也為()。因此,基于VSM模型的用戶相似聚集算法(similarity)的時間復雜度為(2)。通過以上分別對3種算法的時間復雜度分析,可以對實驗中所驗證4種方法的時間復雜度進行對比,具體如表2所示??梢钥吹?,方法1的時間復雜度最小為(),方法2和方法3的時間復雜度最大為(2),影響時間復雜度的主要因素是采用VSM模型進行用戶相似聚集。但是從其它指標上綜合考慮,此算法對于提升視頻推薦效果確實起到了重要的作用。從代價上考慮,在實際應用系統(tǒng)中算法的時間復雜度為(2)是可以被接受的,如支持向量機(SVM)算法被廣泛地應用于各種實際系統(tǒng)開發(fā)之中,其時間復雜度即為(2)。
圖3 4種方法的準確率分布圖
圖4 4種方法的召回率分布圖
通過對以上數(shù)據(jù)的分析可以看到,方法2利用權(quán)重增量及相似聚集的RFM模型推薦方法,能夠更好地發(fā)現(xiàn)用戶的喜好,從而相比其它基本方法具有更好的推薦能力,具有較高的準確率,并在一定程度上也表現(xiàn)出了方法的穩(wěn)定性。因此,可以證明本文研究方法中所涉及的3種技術(shù),即權(quán)重增量挖掘、組內(nèi)用戶相似聚集以及基于RFM模型的用戶行為分析均對視頻推薦具有正向推動,是一種有效的手段。另外,也進一步證明了本文先前的假設(shè)是成立的,即對一系列視頻具有相似行為操作的用戶應該具有相似的喜好和興趣點。
本文首先通過RFM模型將價值或者行為相同用戶歸為同一群組,結(jié)合用戶最近習慣和行為,采用Apriori算法來挖掘關(guān)聯(lián)式規(guī)則;然后用相似向量矩陣計算所有用戶之間的相似度關(guān)系,進行相似聚集;最后利用協(xié)同過濾式推薦方法給用戶進行視頻推薦,從而完成個性化推薦的整個過程。本文通過實驗結(jié)果驗證了此推薦方法的有效性和穩(wěn)定性。結(jié)合RFM模型及相似聚集推薦比單純只使用RFM模型分組方式效果好,利用權(quán)重增量挖掘與分組方式實驗結(jié)果表明,能夠推薦給用戶更準確的喜好視頻。而整體上,本實驗的準確率高達76%,比其它推薦方法高出16.2%~32.5%,召回率高達79%,比其它推薦方法高出15.1%~18.9%。綜合上述實驗結(jié)果,可以證明本文所采用的3種技術(shù)相結(jié)合的方法是一種行之有效的視頻推薦策略,基本達到了預期的效果。
本文的主要貢獻在于提出了采用用戶行為分析的方法對視頻進行推薦,目前還沒有查閱到同樣采用行為分析進行視頻推薦的相關(guān)文獻。通過自動采集用戶觀看視頻的行為數(shù)據(jù),并通過技術(shù)手段分析這些數(shù)據(jù)找到具有相同喜好的用戶,進而進行協(xié)同推薦。行為數(shù)據(jù)可以實現(xiàn)動態(tài)實時采集,行為數(shù)據(jù)屬于形式化數(shù)據(jù),其處理難度小、速度快,從而可以實現(xiàn)及時更新,同時也避免了以巨大代價對視頻大數(shù)據(jù)進行的直接處理。在視頻推薦的實際應用中,推薦的及時性往往比推薦方法的準確性更重要,因此對其應用研究不能僅著眼于算法的復雜化,而相反應該尋找簡單、穩(wěn)定的策略。在今后的研究中,我們將繼續(xù)深入探索基于行為分析的視頻推薦方法,積極研究用戶深層次行為屬性特點,豐富行為模式內(nèi)涵。
[1] SKrishnapp, D K, Zink M, and Griwodz C. Cache-centric video recommendation: an approach to improve the efficiency if YouTube caches[C]. Preceedings of the 4th ACM Multimedia System Conference, Oslo, 2013: 261-270.
[2] Zhao Xiao-jian, Yuan Jin, and Wang Meng. Video recommendation over multiple information sources[J]., 2011, 19(1): 3-15.
[3] De V J, Degrande N, and Verhoeyen M. Video content recommendation: an overview and discussion on technologies and business models[J]., 2011, 16(2): 235-250.
[4] Park J, Lee S, and Kim K. Online video recommendation through tag-cloud aggregation[J].2011, 18(1): 78-87.
[5] Su Chun-rong, Li Yu-wei and Zhang Rui-zhe. An adaptive video program recommender based on group user profiles[J]., 2013, 21(2): 499-509.
[6] Ozturk G and Kesim C N. A hybrid video recommendation system using a graph-based algorithm[J]., 2011, 6704: 406-415.
[7] Silveira D, Alessandro, and Wives L K. POI enhanced video recommender system using collaboration and social networks[C]. Preceedings of the 8th International Conference on Web Information Systems and Technologies, Valencia, 2012: 717-722.
[8] Ma Xiao-qiang, Wang Hai-yang, and Li Hai-tao. Exploring sharing patterns for video recommendation on YouTube-like social media[J]., 2013, DOI: 1007/s00530-013-0309-1.
[9] Niu Jian-wei, Zhao Xiao-ke, Zhu Li-ke,.. Affivir: an affect-based internet video recommendation system[J]., 2013, 120: 422-433.
[10] Zhao Si-cheng, Yao Hong-xun, and Sun Xiao-shuai. Video classification and recommendation based on affective analysis of viewers[J].,2013,119: 101-110.
[11] Rapach D E and Wohar M E. Forecasting the recent behaviorof US business fixed investment spending: an analysis of competing models[J]., 2007, 26(1): 33-51.
[12] 劉奕群, 岑榮偉, 張敏. 基于用戶行為分析的搜索引擎自動性能評價[J]. 軟件學報, 2008, 19(11): 3023-3032.
Liu Yi-qun, Cen Rong-wei, and Zhang Min. Automatic search engine performance evaluation based on user behavior analysis[J]., 2008, 19(11): 3023-3032.
[13] 陳亞睿, 田立勤, 楊揚. 云計算環(huán)境下基于動態(tài)博弈論的用戶行為模型與分析[J]. 電子學報, 2011, 39(8): 1818-1823.
Chen Ya-rui, Tian Li-qin, and Yang Yang. Model and analysis of user behavior based on dynamic game theory in cloud computing[J]., 2011, 39(8): 1818-1823.
[14] Chen Toly. The RFM-FCM approach for customer clustering[J]., 2012, 8(4): 358-373.
[15] Awadalla M H and Elfar S G. Aggregate function based enhanced apriori algorithm for mining association rules[J]., 2012, 9(3): 277-287.
李 鵬: 男,1978年生,教授,碩士生導師,研究方向為網(wǎng)絡信息處理、機器學習、人工智能.
于曉洋: 男,1962年生,教授,博士生導師,研究方向為圖像加密與隱藏、視覺三維檢測.
Video Recommendation Method Based on Group User Behavior Analysis
Li Peng①②Yu Xiao-yang①Sun Bo-yu②
①(,,,150080,)②(,,150080,)
This paper presents an effective solution for personalized video recommendation based on the weight increment and similar aggregation user behavior analysis algorithm. The method is implemented in three steps: first, the user behavior is analyzed using the RFM (Recentness, Frequency, Monetary amount) model, users with the same behavior are classified as a group; second, the Apriori algorithm based on weight increment is applied to mining association rules between users in line with the recent habits of users, and by using the VSM model for similarity calculation, the user similarity aggregation is realized; finally, the whole process of personalized video recommendation is completed by means of collaborative filtering. The proposed method can automatically collects user behavioral data and avoids direct video big data processing. In addition, the video recommend dynamically changes with the change of user behavior. The experiment results show that, the presented effective and stable, and the method achieves significantly increasement in precision and recall comparing with the single recommendation method.
Video recommendation; Behavior analysis; Incremental weight; Apriori algorithm
TP393
A
1009-5896(2014)06-1485-07
10.3724/SP.J.1146.2013.01225
李鵬 pli@hrbust.edu.cn
2013-08-13收到,2013-11-08改回
國家自然科學基金(61103149),中國博士后科學基金(2011M500682),黑龍江省高校青年學術(shù)骨干項目(1253G023)和哈爾濱市青年科技創(chuàng)新人才專項基金(2012RFQXG093)資助課題