亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Spark框架下的受眾分群及矩陣分解的推薦算法研究

        2016-08-09 07:23:32周虹君殷復(fù)蓮陳怡婷周嘉琪伊成昱
        中國(guó)新通信 2016年11期

        周虹君 殷復(fù)蓮 陳怡婷 周嘉琪 伊成昱

        【摘要】 本文針對(duì)協(xié)同過濾推薦算法中存在的矩陣稀疏問題,提出了基于聚類和矩陣分解的推薦算法,并結(jié)合隱式反饋信息構(gòu)建的電視用戶收視偏好模型,將推薦算法應(yīng)用有電視動(dòng)畫受眾分群和推薦中。針對(duì)受眾分群和節(jié)目推薦所使用的聚類算法和推薦算法涉及大量的迭代計(jì)算的問題,采用了高效的分布式計(jì)算系統(tǒng)——Spark進(jìn)行電視動(dòng)畫節(jié)目推薦研究。該方法提高了推薦準(zhǔn)確度,運(yùn)行時(shí)間明顯減少,具有較強(qiáng)的可擴(kuò)展性。

        【關(guān)鍵詞】 Spark 受眾分群 矩陣分解 推薦 電視動(dòng)畫 節(jié)目標(biāo)簽

        引言

        推薦算法是目前應(yīng)用較廣的數(shù)據(jù)挖掘技術(shù),在學(xué)術(shù)研究和應(yīng)用方面都得到了廣泛關(guān)注。Shihang H[1]在MapReduce上實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)服務(wù)的協(xié)同過濾推薦,而MapReduce并不擅長(zhǎng)推薦算法的迭代計(jì)算;Jing M[2]構(gòu)建了大規(guī)模的廣告推薦系統(tǒng);Duo L[3]提出了基于統(tǒng)計(jì)模型的推薦方法,以解決協(xié)同過濾算法中的矩陣稀疏問題,并將其應(yīng)用于用戶行為分析及推薦中;YiBo H[4]提出了基于聚類的協(xié)同過濾推薦算法,但其涉及的迭代式計(jì)算較多,致使無法實(shí)現(xiàn)較高的效率。Manda W[5]等人在Spark上實(shí)現(xiàn)了基于ALS模型的協(xié)同過濾推薦。結(jié)合以上研究以及存在的問題,文本利用Spark在內(nèi)存計(jì)算和迭代計(jì)算上的優(yōu)勢(shì),提出了Spark框架下受眾分群及聚類分解的推薦算法,將其應(yīng)用于廣電動(dòng)畫節(jié)目受眾推薦研究中。本文使用隱式反饋信息構(gòu)建“用戶-標(biāo)簽”收視偏好模型,通過聚類劃分用戶簇實(shí)現(xiàn)受眾分群,然后使用矩陣分解的推薦算法針對(duì)不同的用戶簇進(jìn)行推薦,可進(jìn)一步降低矩陣的稀疏性。使用“用戶-標(biāo)簽”收視偏好模型進(jìn)行受眾分群,一方面可以通過標(biāo)簽實(shí)現(xiàn)對(duì)用戶的肖像刻畫,另一方面可以使得各用戶簇的特性更加直觀。

        一、用戶收視偏好模型

        動(dòng)畫節(jié)目受眾分群和推薦需基于用戶收視偏好模型,本文使用隱含在用戶與節(jié)目交互之中的隱式反饋信息構(gòu)建該模型,包括二元數(shù)據(jù)(如用戶是否觀看了某個(gè)動(dòng)畫節(jié)目)和計(jì)數(shù)數(shù)據(jù)(如用戶收看某動(dòng)畫節(jié)目的收視時(shí)長(zhǎng)、收看次數(shù))[7]。

        1.1“用戶-標(biāo)簽”偏好模型

        使用爬蟲技術(shù)獲取動(dòng)畫節(jié)目標(biāo)簽并與用戶收視數(shù)據(jù)結(jié)合,形成“用戶-標(biāo)簽”基本模型,使用收視時(shí)長(zhǎng)、節(jié)目播出時(shí)長(zhǎng)重構(gòu)出“用戶-標(biāo)簽”偏好模型的特征——忠誠(chéng)度和興趣度,構(gòu)成“用戶-標(biāo)簽”偏好集合:IL={L1,L2},L1、L2分別表示用戶對(duì)節(jié)目的忠誠(chéng)度和興趣度。

        忠誠(chéng)度:某用戶收視含某標(biāo)簽的節(jié)目總時(shí)長(zhǎng)與含該標(biāo)簽的節(jié)目播出總時(shí)長(zhǎng)的關(guān)系,表征該用戶對(duì)某標(biāo)簽的忠誠(chéng)程度。如式所示:

        原始的收視偏好矩陣很稀疏,通過矩陣分解可有效降低收視矩陣的稀疏程度[6]。矩陣分解的求解方法很多,常用方法有:最小二乘迭代法ALS和隨機(jī)梯度下降法SGD。

        ALS模型中,對(duì)R≈PQT固定P求解Q,然后再固定Q求解P,重復(fù)交替這兩步直至算法收斂[5]。本文基于Spark分布式計(jì)算框架,因此采用更易于分布式計(jì)算的ALS算法。

        2.2推薦算法的評(píng)價(jià)指標(biāo)

        為評(píng)價(jià)算法推薦的準(zhǔn)確性,本文中采用一下評(píng)價(jià)指標(biāo):均方誤差MSE、均方根誤差RMSE、全局平均準(zhǔn)確率MAP[7]。MSE表示評(píng)價(jià)數(shù)據(jù)的變化程度,其值越小,說明推薦模型描述實(shí)驗(yàn)數(shù)據(jù)具有更好精確度,RMSE為其標(biāo)準(zhǔn)差。而MAP是基于排名的評(píng)價(jià)指標(biāo),其值越高說明推薦的節(jié)目越精準(zhǔn),節(jié)目的排位也更能滿足用戶。其具體定義分別如下式

        三、實(shí)驗(yàn)及結(jié)果分析

        本文使用某省單月用戶收視作為實(shí)驗(yàn)數(shù)據(jù), 進(jìn)行動(dòng)畫節(jié)目核心受眾分群及其推薦。實(shí)驗(yàn)在Linux上搭建Spark平臺(tái),并使用Python API、Anaconda科學(xué)計(jì)算集成以及IPython Notebook作為IDE。

        3.1“用戶-標(biāo)簽”偏好模型的受眾分群

        (1)Spark平臺(tái)下的K-means受眾分群

        計(jì)算動(dòng)畫節(jié)目受眾所投入的累計(jì)時(shí)長(zhǎng),取時(shí)長(zhǎng)最長(zhǎng)的70個(gè)動(dòng)畫標(biāo)簽進(jìn)行降維處理,并構(gòu)建“用戶-標(biāo)簽”偏好矩陣。使用K-Means聚類實(shí)現(xiàn)用戶分群,本文將最大迭代次數(shù)設(shè)為100,確保算法達(dá)到收斂。由于聚類簇?cái)?shù)K會(huì)影響最后的聚類效果,因此需要通過實(shí)驗(yàn)來確定。目標(biāo)函數(shù)WCSS是K-means聚類的內(nèi)部評(píng)價(jià)指標(biāo),其數(shù)值可以表征聚類結(jié)果的誤差,其值越大,代表聚類的誤差越大。本實(shí)驗(yàn)通過改變K值,綜合聚類效果及運(yùn)行時(shí)間確定K的取值。實(shí)驗(yàn)結(jié)果如圖1:

        隨著K增大,目標(biāo)函數(shù)WCSS數(shù)值降低,聚類效果越好,同時(shí)運(yùn)行時(shí)間也增加。綜合不同K下的WCSS和運(yùn)行時(shí)間,本文選擇K=8作為聚類的簇?cái)?shù),根據(jù)“用戶-標(biāo)簽”偏好模型,將用戶劃分成8類。

        使用節(jié)目標(biāo)簽對(duì)分群后的各類簇用戶進(jìn)行肖像刻畫。表3為各類簇前十個(gè)高頻核心標(biāo)簽。如表,類1用戶偏愛冒險(xiǎn)、國(guó)產(chǎn)動(dòng)畫;類2用戶的興趣集中在益智和戰(zhàn)斗、冒險(xiǎn)類動(dòng)畫;類3用戶偏向親子和家庭類動(dòng)畫,可預(yù)測(cè)其主要受眾為低齡兒童;類4用戶的興趣集中在輔導(dǎo)、音樂類及真人秀節(jié)目;類5用戶的標(biāo)簽集中在搞笑和益智類;類6用戶的興趣度明顯集中在音樂、輔導(dǎo)等益智類的節(jié)目;類7用戶喜歡劇情、冒險(xiǎn)、戰(zhàn)斗類的動(dòng)畫;類8用戶偏向于游戲、綜藝等少兒類節(jié)目。

        (2)不同平臺(tái)下受眾分群的對(duì)比

        本實(shí)驗(yàn)在Spark和R中使用K-menas對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行聚類,并就其CPU占用時(shí)間進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如表4。使用Spark受眾分群的CPU占用時(shí)間比R少一個(gè)數(shù)量級(jí),時(shí)間減少約80%,說明在迭代運(yùn)算方面,Spark更有優(yōu)勢(shì)。

        3.2矩陣分解的協(xié)同過濾推薦算法

        使用“用戶-節(jié)目”收視偏好模型,根據(jù)分群后結(jié)果,使用矩陣分解的協(xié)同過濾算法分別對(duì)各類用戶推薦,本實(shí)驗(yàn)使用ALS進(jìn)行矩陣分解。實(shí)驗(yàn)將用戶的最大因子向量維度設(shè)為100維,最大迭代次數(shù)設(shè)為10次,收斂閾值設(shè)為0.01。

        本實(shí)驗(yàn)對(duì)某月收看動(dòng)畫節(jié)目天數(shù)最多(29天)的機(jī)頂盒的用戶進(jìn)行推薦,受眾分群后該用戶屬于用戶簇5,此類用戶偏愛冒險(xiǎn)、奇幻、搞笑類動(dòng)畫。推薦結(jié)果按照偏好評(píng)分取前50個(gè)節(jié)目。

        (1)有無受眾分群的推薦結(jié)果比較

        實(shí)驗(yàn)中,分別對(duì)經(jīng)過受眾分群的用戶和未分群的用戶進(jìn)行節(jié)目推薦,預(yù)測(cè)出的評(píng)分表示用戶對(duì)該節(jié)目的偏好程度。為用戶ID=174294377推薦評(píng)分高的前十個(gè)節(jié)目,如表4:

        可以看出,受眾分群后的推薦結(jié)果可挖掘到未分群推薦所忽略的節(jié)目,例如偏好評(píng)分較高的《熊出沒之叢林總動(dòng)員》和《大風(fēng)車》,未出現(xiàn)在無受眾分群的推薦列表中。因此,受眾分群的協(xié)同過濾推薦可以挖掘到更多更加滿足用戶收視偏好的節(jié)目。

        (2)有無受眾分群的推薦結(jié)果、以及用戶原始偏好指數(shù)對(duì)比

        表5顯示,矩陣分解的推薦算法在整體上表現(xiàn)都是優(yōu)秀的,無論是有無進(jìn)行受眾分群的推薦,都沒有較嚴(yán)重的誤差;另一方面,受眾分群后進(jìn)行推薦相比于未分群進(jìn)行節(jié)目推薦,更加接近用戶原始偏好指數(shù),推薦結(jié)果的可信度更高。

        (3)有無受眾分群的推薦結(jié)果評(píng)價(jià)指標(biāo)對(duì)比

        該實(shí)驗(yàn)對(duì)全部用戶進(jìn)行動(dòng)畫節(jié)目推薦,分別計(jì)算兩個(gè)推薦方式的MSE、RMSE、MAPK、和運(yùn)行時(shí)間,實(shí)驗(yàn)結(jié)果如表6:

        上圖顯示,經(jīng)過受眾分群的推薦,其MSE和RMSE的值越低,說明節(jié)目推薦的準(zhǔn)確度越高,其準(zhǔn)確率提高了60%;另一方面MAP的值越高,說明就排名而言,受眾分群的推薦更接近用戶的偏好。從運(yùn)行時(shí)間而言,該算法節(jié)省了50%的運(yùn)行時(shí)間。

        四、總結(jié)

        本文基于分布式處理框架Spark,提出了基于聚類和矩陣分解的推薦算法,并結(jié)合隱式反饋信息構(gòu)建的電視用戶收視偏好模型,將推薦算法應(yīng)用有電視動(dòng)畫受眾分群和推薦中。通過對(duì)高頻受眾進(jìn)行有無受眾分群的推薦,對(duì)比驗(yàn)證得出,基于受眾分群的節(jié)目推薦,可以挖掘出傳統(tǒng)推薦所忽視的節(jié)目,從個(gè)體上,提高了所推薦節(jié)目預(yù)測(cè)評(píng)分的準(zhǔn)確性,從整體上,提高了推薦節(jié)目列表的排名準(zhǔn)確度。該方法能夠明顯減少推薦時(shí)間并且提高推薦準(zhǔn)確度,具有良好的可擴(kuò)展性。

        參 考 文 獻(xiàn)

        [1] Shihang H,et al.Collaborative filtering of web service based on MapReduce[C]. ICSS.2014

        [2] Jing M.A recommend system for modelling large-scale advertising[C].CCT.2014

        [3] Duo L, et al. A NEW ITEM RECOMMEND ALGORITHM OF SPARSE DATA SET BASED ON USER BEHAVIOR ANALYZING[C].ICSP.2014

        [4] YiBo H. An Item Based Collaborative Filtering Using Item Clustering Prediction[C].ISECS.2009

        [5] Manda W, et al. Algorithmic Acceleration of Parallel ALS for Collaborative Filtering: Speeding up Distributed Big Data Recommendation in Spark[C].ICPADS.2015

        [6] 鄭鳳飛,黃文培.基于Spark的矩陣分解推薦算法[J].中國(guó)機(jī)器學(xué)習(xí)會(huì)議.2015

        [7] Nick P.Machine Learning with Spark[J]. Packt Publishing - ebooks Account.2014

        [8]ZAHARIA M,et al.Resilient distributed datasets: a fault-tolerant abstraction for in-memory cluster computing[C].EECS.2011

        曰韩无码二三区中文字幕| 看全色黄大色大片免费久久久| 国产伦理自拍视频在线观看| 亚洲区1区3区4区中文字幕码| 精品国产a毛片久久久av| 国产熟人精品一区二区| 80s国产成年女人毛片| 777米奇色8888狠狠俺去啦| 欧美亚洲日本国产综合在线| 国内精品伊人久久久久av| 国产精品国产三级国产在线观| 全程国语对白资源在线观看| 成人在线观看av毛片| 精品国产一区二区三区2021| 小鲜肉自慰网站| 精品国产黑色丝袜高跟鞋| 精品日韩欧美一区二区三区在线播放| 国产精品又黄又爽又色| 91九色中文视频在线观看| 日本熟妇人妻xxxx| 免费拍拍拍网站| 欧美老妇人与禽交| 麻豆AV无码久久精品蜜桃久久| 国产精品久久三级精品| 真实夫妻露脸爱视频九色网| 久久久久久久久毛片精品| 黑人巨大av在线播放无码| 日批视频免费在线观看| 在线观看黄片在线播放视频 | 中文字幕中文字幕777| 亚洲一区二区二区视频| 国内精品伊人久久久久网站| 日产精品久久久久久久性色| 国产精品自产拍在线观看中文| 国内精品久久人妻性色av| 国产精品白浆一区二区免费看| 又粗又黑又大的吊av| 无码人妻精一区二区三区| 中文字幕乱偷乱码亚洲| 亚洲高清在线不卡中文字幕网| 国产高清一区二区三区视频|