亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Ambari的協(xié)同過(guò)濾推薦算法的研究

        2019-09-25 13:22:14許挺娟

        許挺娟

        摘要:傳統(tǒng)的協(xié)同過(guò)濾推薦((Collaborative Filtering,CF)算法是目前應(yīng)用最廣泛的一種推薦算法,但是由于CF存在稀疏性、冷啟動(dòng)等問(wèn)題,所以本文提出了基于mahout的CF算法。結(jié)果表明,相比較傳統(tǒng)的兩種CF算法,使用基于mahout的CF算法能夠提升推薦時(shí)間和推薦精度。

        關(guān)鍵詞:協(xié)同過(guò)濾;mahout;推薦算法;Taste引擎

        中圖分類號(hào):TP312 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2019)06-0133-02

        0 引言

        目前,由百度、谷歌所推出的推薦引擎已經(jīng)被廣泛應(yīng)用,但是推薦引擎是大眾性的,不具有個(gè)性化特點(diǎn)。所以推薦系統(tǒng)就由此產(chǎn)生。推薦方法主要包括三種:基于內(nèi)容的推薦算法、基于模型的推薦和協(xié)同過(guò)濾推薦。協(xié)同過(guò)濾方法是上述推薦方法中應(yīng)用最為廣泛的,但是它還是有很多問(wèn)題需要解決的。如稀疏性問(wèn)題(Sparsity)、可擴(kuò)展性問(wèn)題(Scalability)等。本文提出了基于Ambari平臺(tái)的協(xié)同過(guò)濾推薦算法?;贛ovieLens數(shù)據(jù)集的實(shí)驗(yàn)表明,本文算法很好地解決了協(xié)同過(guò)濾的問(wèn)題,同時(shí)提高了推薦精度及響應(yīng)時(shí)間。

        1 相關(guān)技術(shù)

        1.1 Ambari

        Ambari是Apache下的一種基于Web的工具,所以他支持Apache下的大多數(shù)服務(wù),就本文來(lái)說(shuō),最重要的是mahout框架,mahout提供了一系列經(jīng)典的機(jī)器學(xué)習(xí)算法。其中Taste引擎提供了一系列的組件,這樣我們就可以使用Mahout中的Taste幫助構(gòu)建推薦系統(tǒng)。

        1.2 協(xié)同過(guò)濾算法

        協(xié)同過(guò)濾推薦算法主要分為基于用戶的協(xié)同過(guò)濾技術(shù)(user-cf)和基于項(xiàng)目(item-cf)的協(xié)同過(guò)濾技術(shù)。user-cf在于考慮的是用戶之間的相似性。首先,識(shí)別出與目標(biāo)用戶具有高度相似性的鄰居用戶,然后向用戶推薦鄰居最喜歡的項(xiàng)目。而item-cf是從項(xiàng)目角度出發(fā)的,主要通過(guò)計(jì)算項(xiàng)目之間的相似性。

        2 構(gòu)建基于Ambari的協(xié)同過(guò)濾的推薦系統(tǒng)

        2.1 基于mapReduce的推薦系統(tǒng)的設(shè)計(jì)

        推薦算法的實(shí)現(xiàn)分為兩個(gè)步驟:

        (1)mapReduce包括map函數(shù)和reduce函數(shù),首先,將電影原始的數(shù)據(jù)作為鍵值對(duì)發(fā)送到中間映射函數(shù);

        (2)map以不同的鍵值對(duì)接收數(shù)據(jù)。在map任務(wù)接收到產(chǎn)品數(shù)據(jù)時(shí),發(fā)出用戶ID和電影信息,其中用戶ID作為鍵,電影信息作為值。通過(guò)split、shuffle過(guò)程,每個(gè)reducer任務(wù)將接收一個(gè)用戶已經(jīng)觀看的所有電影。然后reducer發(fā)出每個(gè)用戶所帶來(lái)的電影列表,從而達(dá)到為每一個(gè)用戶建立一個(gè)推薦列表。

        2.2 基于mahout的推薦系統(tǒng)的設(shè)計(jì)

        本文采用基于用戶的推薦算法,推薦系統(tǒng)需要應(yīng)用Taste中的各個(gè)組件來(lái)實(shí)現(xiàn),核心代碼:

        File file = new File("e://xtj//dataset//ml-10M100K//rating.rat");

        DataModel dataModel = new GroupLensDataModel(file);

        UserSimilarity similarity = new UserSimilarity(data Model);

        UserNeighborhood userNeighborhood = new User Neighborhood(10,similarity,dataModel);

        Recommender recommender = new GenericUserBased Recommender(dataModel,userNeighborhood,similarity);

        List recommendedItemList = recommender.recommend(5,10);

        System.out.println("推薦");

        System.out.println("為ID=5的用戶推薦10部電影");

        for(RecommendedItem recommendedItem:recommended ItemList) {

        System.out.println(recommendedItem);

        }

        本文采用基于Ambari框架下的mahout框架來(lái)實(shí)現(xiàn),我們?cè)趍apReduce和mahout相比較下,證明了mahout加快了推薦的速度和精度。

        3 實(shí)驗(yàn)結(jié)果

        3.1 環(huán)境搭建

        實(shí)驗(yàn)使用的電腦是小米Air 13.3,windows10系統(tǒng),處理器為:i7-7500U CPU @2.70GHZ 2.90GHZ,內(nèi)存為8G,mahout版本為0.9.0。

        (1)處理數(shù)據(jù)集:實(shí)驗(yàn)采用公開(kāi)的MovieLens1M電影數(shù)據(jù)集,該數(shù)據(jù)集有1000萬(wàn)多條記錄,包含72000名用戶對(duì)于10000多部電影的評(píng)分。該數(shù)據(jù)集中含有movies.dat,ratings.dat和tags.dat 3個(gè)文件;

        (2)然后通過(guò)java編寫(xiě)程序分析ratings.dat中的數(shù)據(jù),得出基于用戶的協(xié)同過(guò)濾比較適合該數(shù)據(jù)集。

        3.2 推薦策略

        在本文中,我將采取兩種常用的推薦指標(biāo)來(lái)評(píng)價(jià)推薦算法的好壞。一種是余弦相似度方法,另一種是平均絕對(duì)誤差MAE。其中余弦相似度是空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體間(用戶或者項(xiàng)目)差異的大小。余弦值越接近1,就說(shuō)明夾角越接近0度,也就是兩個(gè)向量越相似。

        相似度公式為:cos(θ)=? ? ? ? ? ? ? ? ? ? ? ? (1)

        通過(guò)計(jì)算兩個(gè)向量之間的夾角來(lái)衡量?jī)蓚€(gè)向量的相似度,角度越小說(shuō)明相似度越高。而MAE的值越小,表明算法的推薦精度越高。這種方法就是衡量推薦與真實(shí)的用戶之間的偏差如式(2):

        MAE=|yi-ti|? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)

        其中,yi表示預(yù)測(cè)值,ti表示真實(shí)值。一般來(lái)說(shuō),平均絕對(duì)誤差越小,推薦結(jié)果越準(zhǔn)確,系統(tǒng)性能就越好。

        3.3 實(shí)驗(yàn)結(jié)果對(duì)比

        (1)從上面選取好的數(shù)據(jù)集中分別選取數(shù)據(jù)集為1000,5000,10000,20000、40000和60000作為6組實(shí)驗(yàn)數(shù)據(jù),分別用余弦相似度和本文的基于mahout的方法進(jìn)行MAE值比較。實(shí)驗(yàn)證明,數(shù)據(jù)集越稀疏,MAE值就越大,也就是表明數(shù)據(jù)越多,MAE值也就越小。也可以看出本文的方法和傳統(tǒng)的余弦相似度的方法來(lái)比較,本文的方法更夠提高推薦質(zhì)量。

        (2)接下來(lái)分析相同條件下的協(xié)同過(guò)濾算法的運(yùn)行時(shí)間,我們給出了hadoop和mahout條件下的運(yùn)行情況。在相同數(shù)據(jù)集的情況下,基于mahout的CF算法明顯比基于hadoop的CF算法快一些;而且在數(shù)據(jù)集很大的情況下,基于mahout的CF算法時(shí)間更少一些。

        4 結(jié)語(yǔ)

        本文介紹了傳統(tǒng)的推薦算法算法,分析了基于Ambari下的協(xié)同過(guò)濾算法。實(shí)驗(yàn)表明在大規(guī)模數(shù)據(jù)的情況下,采用基于Ambari的協(xié)同過(guò)濾推薦模型可以提高推薦的效率和精度。

        參考文獻(xiàn)

        [1] 何波,潘力.融合內(nèi)容和改進(jìn)協(xié)同過(guò)濾的個(gè)性化推薦算法[J].控制工程,2018,25(08):1553-1558.

        [2] 姚靜靜.基于協(xié)同過(guò)濾的電影推薦算法研究與實(shí)現(xiàn)[D].北京郵電大學(xué),2018.

        [3] 李曉瑜.協(xié)同過(guò)濾推薦算法綜述[J].商丘師范學(xué)院學(xué)報(bào),2018,34(09):7-10.

        [4] Yejia Zeng,Zehui Qu. Trust-Based Neural Collaborative Filtering[J].Journal of Physics: Conference Series,2019,1229(1).

        Research on Collaborative Filtering Recommendation Algorithm Based on Ambari

        XU Ting-juan

        (Xi'an Polytechnic University, Xi'an Shaanxi? 710048)

        Abstract:The traditional Collaborative Filtering (CF) algorithm is one of the most widely used recommendation algorithms at present. However, due to the sparsity and cold start of CF, this paper proposes a CF algorithm based on mahout. The results show that compared with the two traditional CF algorithms, the CF algorithm based on mahout can improve the recommendation time and accuracy.

        Key words:Collaborative filtering; mahout; recommendation algorithm; Taste engine

        中文字幕色婷婷在线视频| 蜜桃精品免费久久久久影院| 国产偷v国产偷v亚洲偷v| 亚洲青涩在线不卡av| 91盗摄偷拍一区二区三区| 国产一区二区精品久久岳| 亚洲国产无套无码av电影| 亚洲tv精品一区二区三区| 人妻少妇中文字幕av| 国产区女主播在线观看| 色屁屁www影院免费观看入口| 亚洲电影一区二区三区 | 女同另类一区二区三区| 国99精品无码一区二区三区| 狠狠色成人综合网| 国产乱子伦精品免费女| 亚洲专区一区二区三区四区五区| 天天躁夜夜躁狠狠躁婷婷| 国产激情内射在线影院| 亚洲另在线日韩综合色| 日本顶级片一区二区三区| 成熟了的熟妇毛茸茸 | 国产精品一级av一区二区| 91精品国产综合久久久密臀九色| 成人综合网站| 亚洲视频1区| 最新国内视频免费自拍一区| 欧美白人战黑吊| 亚洲熟女综合一区二区三区| 久久99久久99精品免观看不卡| 午夜视频一区二区三区在线观看| 肉色欧美久久久久久久免费看| 国产精品一区二区 尿失禁| 久久精品国产亚洲av成人擦边| 青青草视频在线观看网| 中文字幕在线精品视频入口一区| 国产精品偷伦视频免费手机播放| 亚洲自偷自拍另类第一页| 国产aⅴ激情无码久久久无码| 欧美老熟妇欲乱高清视频| 成人无码激情视频在线观看|