李芳芳 王占剛
摘要:根據(jù)用戶觀看的視頻時(shí)長(zhǎng)與視頻的實(shí)際時(shí)長(zhǎng)信息來計(jì)算用戶對(duì)該視頻的喜好度,在spark內(nèi)存計(jì)算框架下,以喜好度作為特征項(xiàng),使用樸素貝葉斯,TF-IDF和改進(jìn)了的TFC-IDFC分類算法,對(duì)視頻用戶屬性進(jìn)行分析,建立用戶年齡區(qū)間的分類模型。此分類模型適合視頻網(wǎng)站運(yùn)營(yíng)商將信息準(zhǔn)確的推薦給用戶,同時(shí)可提高信息的利用率??紤]到傳統(tǒng)的TF-IDF算法沒有體現(xiàn)特征項(xiàng)在類內(nèi)和類間的分布特點(diǎn),提出了改進(jìn)的TFC-IDFC算法,通過正確率和F1值兩個(gè)指標(biāo)對(duì)以上三種分類算法的評(píng)價(jià),證明了加權(quán)的分類算法比不加權(quán)的算法分類效果更好,改進(jìn)的TFC-IDFC算法比傳統(tǒng)的TF-IDF算法效果更優(yōu)。
關(guān)鍵詞:TF-IDF;喜好度;spark;視頻;用戶分類
0引言
在現(xiàn)今的日常生活中,網(wǎng)絡(luò)視頻已成為人們學(xué)習(xí)、娛樂、交流的主要途徑。然而用戶在享受豐富視頻資源的同時(shí),視頻查找過程卻消耗了越來越多的時(shí)間和精力。如何充分利用用戶在視頻網(wǎng)站瀏覽行為以及視頻觀看行為信息進(jìn)行分析,建立用戶標(biāo)簽,將用戶想要的信息準(zhǔn)確的推薦給用戶,實(shí)現(xiàn)精準(zhǔn)運(yùn)營(yíng),已成為近年數(shù)據(jù)分析領(lǐng)域的熱門研究之一。
由于視頻與文字、圖片、語(yǔ)音相比數(shù)據(jù)量大,分析過程復(fù)雜,目前基于用戶分析大部分都集中在對(duì)微博、手機(jī)上網(wǎng)日志,社交網(wǎng)絡(luò)等領(lǐng)域的研究,很少對(duì)視頻網(wǎng)站數(shù)據(jù)進(jìn)行分析。馮婷婷通過用戶瀏覽視頻的行為,利用支持向量機(jī)等分類器進(jìn)行性別推理;張慷通過大數(shù)據(jù)平臺(tái)對(duì)DPI上網(wǎng)日志和用戶信息進(jìn)行深度分析,形成手機(jī)用戶畫像;張巖峰等人通過用戶在微博上的言行等信息,提出了對(duì)用戶的個(gè)性化維度進(jìn)行分類分析的方法;王雯等人通過關(guān)聯(lián)規(guī)則挖掘的方式對(duì)原短文本進(jìn)行特征補(bǔ)充,提出了一種spark平臺(tái)上對(duì)短文本特征擴(kuò)展及分類方法;Francisco等人從用戶關(guān)系網(wǎng)絡(luò)信息中學(xué)習(xí)用戶特征,使用PageRank等方法進(jìn)行分類;Fernandes等人以Twitter為例,用SVM算法對(duì)真實(shí)用戶和虛假用戶進(jìn)行分類檢測(cè)。
Spark作為一種基于內(nèi)存計(jì)算的分布式計(jì)算框架,在計(jì)算性能上比Hadoop要快的多,適合于迭代算法和交互式數(shù)據(jù)分析,能提升大數(shù)據(jù)處理的實(shí)時(shí)性和準(zhǔn)確性,應(yīng)用在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域;TF-IDF算法簡(jiǎn)單快速,結(jié)果比較符合實(shí)際情況,但傳統(tǒng)的TF-IDF并沒有考慮特征項(xiàng)與類之間的關(guān)聯(lián)。所以,本文通過用戶行為分析計(jì)算出喜好度作為特征值,利用Spark框架與改進(jìn)的TF-IDF算法訓(xùn)練用戶年齡區(qū)間的分類模型,計(jì)算出每個(gè)特征項(xiàng)的權(quán)重優(yōu)化模型,提高分類結(jié)果。endprint