亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Mahout的新用戶推薦算法的設(shè)計與實現(xiàn)*

        2015-09-22 06:19:49高獻衛(wèi)師智斌
        計算機工程與科學 2015年8期
        關(guān)鍵詞:協(xié)同算法用戶

        高獻衛(wèi),師智斌

        (中北大學計算機與控制工程學院,山西 太原 030051)

        基于Mahout的新用戶推薦算法的設(shè)計與實現(xiàn)*

        高獻衛(wèi),師智斌

        (中北大學計算機與控制工程學院,山西 太原 030051)

        為了解決大數(shù)據(jù)背景下新用戶因沒有歷史數(shù)據(jù)而導致推薦難和推薦效率低等問題,提出將基于Mahout的協(xié)同過濾算法與基于Map Reduce的Top N算法相結(jié)合的技術(shù)方法,來實現(xiàn)新用戶推薦算法,從而構(gòu)建新用戶推薦系統(tǒng)的架構(gòu),并對Hadoop Top N算法以及Mahout中協(xié)同過濾算法進行設(shè)計與實現(xiàn)。理論分析和實驗驗證表明,該新用戶推薦算法在推薦效率、對大規(guī)模數(shù)據(jù)處理的伸縮性以及推薦質(zhì)量上都明顯優(yōu)于單獨使用協(xié)同過濾算法的新用戶推薦。

        新用戶推薦;Mahout;推薦系統(tǒng);Hadoop;大數(shù)據(jù)

        1 引言

        隨著Internet和IT(Information Technology),特別是社交網(wǎng)絡(luò)SNS(Social Networking Services)、電子商務(wù)E-commerce和基于位置的服務(wù)LBS(Location Based Services)的快速發(fā)展,以及云物移大智(云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和智慧城市)等新概念和新技術(shù)的出現(xiàn),數(shù)據(jù)增長的速度很快。用戶獲取信息很困難,從而引起“信息過載”問題。有許多網(wǎng)絡(luò)應(yīng)用(如門戶網(wǎng)站,百度、谷歌等搜索引擎),追根究底是幫助用戶過濾無用信息。然而,這些所謂的工具,只能滿足非個性化的需求,對于個性化需求卻無法滿足。所以,作為“個性化服務(wù)”[1,2]的一個分支——推薦系統(tǒng)[3~6],通 過分析“用戶-項目”之間的二元關(guān)系,幫助用戶找到感興趣的項目。目前,推薦系統(tǒng)有了巨大的進步,應(yīng)用在電子商務(wù)、信息檢索、移動應(yīng)用、電子旅游、網(wǎng)絡(luò)廣告等方面。

        同時,由于數(shù)據(jù)來源的多樣性(互聯(lián)網(wǎng)日志、傳感器數(shù)據(jù)和移動互聯(lián)網(wǎng)等)和數(shù)據(jù)種類的繁多(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等),推薦系統(tǒng)數(shù)據(jù)的存儲和并行計算經(jīng)受了嚴重的考驗。困擾人們多年的大數(shù)據(jù)存儲和并行計算問題,在Hadoop分布式計算框架出現(xiàn)后,得到了有效的解決。

        然而,實現(xiàn)推薦系統(tǒng)算法是一件很費力的事情,Mahout的出現(xiàn)解決了這個問題。Mahout是Apache Software Foundation旗下的頂級開源項目,它由Lucene衍生而來,同時也是基于Hadoop框架的,主要包含數(shù)據(jù)挖掘、機器學習、推薦系統(tǒng)等若干算法庫,旨在幫助開發(fā)人員更加方便快捷地開發(fā)智能應(yīng)用程序。

        國內(nèi)外主要的傳統(tǒng)推薦系統(tǒng)的算法都是基于歷史數(shù)據(jù)進行推薦,國內(nèi)外主要采用的方法有三種:一是協(xié)同過濾推薦方法[5],發(fā)現(xiàn)新異興趣,不依賴于領(lǐng)域知識,但是卻依賴于歷史數(shù)據(jù)。二是新用戶標簽推薦方法[7],個性化標簽間接地反映用戶的興趣,然而卻存在伸縮性、稀疏性和冷啟動等典型的問題。三是協(xié)同過濾和小世界模型新用戶推薦方法[8],使得新用戶能夠找到與自己更類似的群組,然而在算法的融合上,推薦質(zhì)量和效果不是很明顯。而且很少推薦系統(tǒng)是基于Mahout實現(xiàn)的。

        本文創(chuàng)新地結(jié)合了Top N算法和協(xié)同過濾算法,推出了基于大數(shù)據(jù)量的新用戶推薦算法,從而解決了新用戶推薦難、效率不高、推薦不匹配等問題。并通過約會對象推薦系統(tǒng)來驗證了其有效性和伸縮性。

        2 相關(guān)技術(shù)介紹

        2.1 主要推薦算法

        推薦算法主要包括[9]:協(xié)同過濾推薦(Collaborative Filtering Recommendation)、基于內(nèi)容的推薦(Content-Based Recommendation)、基于知識的推薦(Knowledge-based Recommendation)和混合推薦(Hybrid Recommendation)。其優(yōu)缺點綜合比較[10]見表1。

        2.2 分布式與存儲技術(shù)——Hadoop

        Google發(fā)布的關(guān)于分布式基礎(chǔ)設(shè)施的論文對業(yè)界產(chǎn)生了巨大的影響,其中的Map Reduce和GFS(Google File System)等思想為分布式計算與存儲提供了關(guān)鍵參考,Hadoop是其開源實現(xiàn)。

        Hadoop[11]平臺具有高可伸縮、低成本、高可靠、方便易用等特點、其核心是HDFS(Hadoop Distribute File System)分布式文件系統(tǒng)和Map Reduce框架。前者使得在成本可控的情況下處理海量數(shù)據(jù)成為可能;后者則是一種采用分治策略、專為大規(guī)模分布式并行數(shù)據(jù)處理設(shè)計的簡化編程模型,它借鑒了函數(shù)式編程的思想,將針對大規(guī)模數(shù)據(jù)的處理任務(wù)統(tǒng)一地抽象為 Map(映射)和Reduce(規(guī)約)兩種操作。由于Hadoop集群可以按需橫向動態(tài)擴展,利用Hadoop平臺可以突破數(shù)據(jù)規(guī)模給推薦系統(tǒng)帶來的大數(shù)據(jù)分析的瓶頸,滿足高性能、高伸縮性計算的需求。

        Table 1 Comparison of main recommendation algorithms表1 主要推薦算法的比較

        2.3 機器學習算法——Mahout

        Apache Mahout[12]是ASF(Apache Software Foundation)開發(fā)的一個全新的開源項目,其主要目標是創(chuàng)建一些可伸縮的機器學習算法,供開發(fā)人員在Apache的許可下免費使用。Mahout包含許多實現(xiàn),包括集群、分類、CF(Collaborative Filtering)和進化程序。此外,通過使用Apache Hadoop庫,Mahout可以有效地擴展到云中。

        用Mahout來構(gòu)建推薦系統(tǒng),是一件既簡單又困難的事情。簡單是因為 Mahout完整地封裝了“協(xié)同過濾”算法,并實現(xiàn)了并行化,提供非常簡單的API接口;困難是因為我們不了解算法細節(jié),很難根據(jù)業(yè)務(wù)的場景進行算法配置和調(diào)優(yōu)。常用的使用Mahout實現(xiàn)的算法有:基于用戶的協(xié)同過濾

        算法UserCF、基于物品的協(xié)同過濾算法ItemCF、SlopeOne算法、KNN Linear interpolation itembased推薦算法、SVD推薦算法和Tree Clusterbased推薦算法等。

        3 協(xié)同過濾算法與Top N算法相結(jié)合的新用戶推薦系統(tǒng)

        新用戶推薦必須具備的三元素是:新用戶A、推薦對象B和評價模式C。

        3.1 名稱解釋

        名稱1(Top N算法)使用直接排序法或者Hash Table法找出最高(低)的集合。

        名稱2(新用戶A)作為推薦的受益者,是被推薦對象。

        名稱3(推薦對象B)是推薦的對象,該對象被推薦給新用戶A。

        名稱4(評價模式C)是新用戶A對推薦對象B的評分。

        3.2 新用戶推薦算法思想

        綜合使用Top N和協(xié)同過濾算法來對新用戶做推薦。其算法思想如下:

        分析原始數(shù)據(jù),使用Top N算法求出N個推薦對象B的ID,得到基礎(chǔ)數(shù)據(jù)“Top基礎(chǔ)數(shù)據(jù)D”;分析原始數(shù)據(jù),使用協(xié)同過濾算法,計算出推薦對象B的信息,得到基礎(chǔ)數(shù)據(jù)“推薦基礎(chǔ)數(shù)據(jù)E”;新用戶A對“Top基礎(chǔ)數(shù)據(jù)D”進行相關(guān)評價,并記錄該評價模式“評價模式C”;利用該“評價模式C”對“推薦基礎(chǔ)數(shù)據(jù)E”進行篩選,找出“推薦基礎(chǔ)數(shù)據(jù)E”中的評價模式和“評價模式C”相似的數(shù)據(jù)“篩選數(shù)據(jù)E”;對“篩選數(shù)據(jù)E”,使用Top N算法得到的結(jié)果即為新用戶推薦算法的結(jié)果。

        其算法過程如圖1所示。

        Figure 1 Process chart of the recommendation algorithm for new users圖1 新用戶推薦算法過程圖

        3.3 系統(tǒng)設(shè)計與實現(xiàn)

        如圖2所示,系統(tǒng)采用JSP+Spring MVC+ MyBatis+Spring框架開發(fā),采用Hadoop云平臺的HDFS文件系統(tǒng)和MySQL數(shù)據(jù)庫來存儲數(shù)據(jù)。原始數(shù)據(jù)直接存入 HDFS中,計算出來的用戶檔案推薦基礎(chǔ)數(shù)據(jù)存入MySQL數(shù)據(jù)庫。

        3.3.1系統(tǒng)流程圖

        如圖3所示,在登錄的時候設(shè)置進入門檻,這樣只有系統(tǒng)管理人員才能進入監(jiān)控界面。只有進入監(jiān)控界面才能正常地調(diào)用新用戶推薦算法的執(zhí)行。

        Figure 2 System development framework圖2 系統(tǒng)開發(fā)架構(gòu)圖

        Figure 3 System flowchart圖3 系統(tǒng)流程圖

        3.3.2 算法設(shè)計與實現(xiàn)

        (1)Top N算法設(shè)計。

        Hadoop top N算法是統(tǒng)計所有檔案中的平均用戶評分最大的前N個項目,也就是說,需要針對原始用戶數(shù)據(jù),求得每個項目的平均用戶評分,然后把這些項目按照用戶評分從大到小的順序排列,取前N個項目。

        首先分析一下Top N算法的Map Reduce流程。輸入數(shù)據(jù)的格式是:[userId,profileId,pref Value],其中user Id是不需要的,需要的只是profile Id和與之對應(yīng)的pref Value,同時需要記錄每個項目已經(jīng)被多少個用戶評價過,這樣方便項目的平均評分。Mapper的輸入輸出數(shù)據(jù)格式見表2。

        Table 2 Input and output format of Mapper表2 Mapper輸入輸出格式

        ①Mapper階段。

        Mapper把[user Id,profile Id,pref Value]這樣的數(shù)據(jù)經(jīng)過轉(zhuǎn)換,輸出,也就是輸出每個檔案以及檔案的評分和次數(shù)1次。

        接著是Combiner。Combiner主要是在Map端工作,可以先整合一部分數(shù)據(jù),這樣傳輸?shù)絩educe端的數(shù)據(jù)就會減少,提高效率。Combiner把所有key相同也就是profile Id是同一個的評分、次數(shù)都分別加起來,輸出的和Mapper是一樣的,但是數(shù)據(jù)已經(jīng)改變了。評分和次數(shù)是同一個Mapper中相同檔案的總和。

        ②Reduce階段。

        Reduce的主要工作就是計算每個檔案的平均評分,然后對所有的項目按照評分從大到小進行排序,最后取前N(N取10)個檔案ID即可。

        (2)Mahout中協(xié)同過濾算法設(shè)計。

        Mahout中協(xié)同過濾推薦實現(xiàn)的組件圖如圖4所示。

        Figure 4 Component diagram implemented by the collaborative filtering recommendation in Mahout圖4 Mahout中協(xié)同過濾推薦實現(xiàn)的組件圖

        Mahout最經(jīng)典的三種協(xié)同過濾的推薦策略:User CF、Item CF和Slope One。本文中約會對象推薦系統(tǒng)中使用Mahout的Item CF算法來獲取推薦的基礎(chǔ)數(shù)據(jù)。

        基于Mahout實現(xiàn)Item CF:

        Data Model model=new Eile Data Model(new Eile(“preferences.dat“));

        ItemSimilarity similarity=new PearsonCorrelation-Similarity(model);

        Recommender recommender=new Generic ItemBased Recommender(model,similarity);

        (3)新用戶推薦算法設(shè)計。

        算法最開始運行的是Mapper,在Mapper的初始化中也就是setup函數(shù)中,需要先讀出用戶對Top 10檔案的評分,把這些數(shù)據(jù)讀入到一個向量userPrefs中。接著在map函數(shù)中針對每一條記錄數(shù)據(jù)求其與向量userPrefs的相似度similarity,然后輸出用戶ID和相似度similarity即可。相似度的計算公式如下:

        similarity=(1/(1+sqrt(v1,v2)))(1)

        其中,sqrt(v1,v2)表示向量v1和向量v2的均方差。

        考慮到后面Reduce中需要對所有的數(shù)據(jù)都進行統(tǒng)一處理,這里Mapper輸出的key必須保持一致,這里設(shè)置輸出的key是new IntWritable(1)。

        Mapper輸出數(shù)據(jù)后,Reduce把key相同的值都整合起來,統(tǒng)一處理(由于Mapper輸出的key都是一樣的,因此這里的數(shù)據(jù)是全部數(shù)據(jù))。在Mapper中輸出的value格式是自定義的Writable類型。

        在Reduce端的過程其實和前面Top10算法維護的一個10個元素的堆棧類似,只是堆棧中Map元素的key是用戶ID而已。在算法結(jié)束后,在HDFS文件系統(tǒng)上就可以得到和新用戶推薦的約會對象檔案ID信息。

        4 實驗與分析

        通過實現(xiàn)推薦約會的系統(tǒng)來驗證新用戶推薦系統(tǒng)的有效性和面對大數(shù)據(jù)的伸縮性。系統(tǒng)中使用的數(shù)據(jù)在http:∥w ww.occamslab.com/petricek/data/中下載。這份數(shù)據(jù)是135 359個匿名用戶對168 791個其他用戶檔案信息的評分數(shù)據(jù)。數(shù)據(jù)格式:[1,133,8],表示用戶1對133檔案的評分是8分(10分滿分)。

        環(huán)境配置如表3和表4所示。

        Table 3 Hardware configuration表3 硬件配置

        Table 4 Software configuration表4 軟件配置

        5 推薦效果評估

        本文對新用戶推薦算法進行性能分析和實驗測試。分別從性能評估和推薦質(zhì)量評估兩個方面進 行 分 析[13]。

        首先性能評估主要從執(zhí)行效率方面考慮。采用參數(shù)f=T1/Tn作比較。T1是Task Tracker節(jié)點為1時算法的執(zhí)行時間,Tn是Task Tracker節(jié)點為n時算法的執(zhí)行時間。通過比較f參數(shù)可以得出 Hadoop節(jié)點數(shù)量對算法執(zhí)行效率的影響狀況。

        從實驗結(jié)果圖5和圖6可以看出,對于同一數(shù)據(jù)集,增加Task Tracker節(jié)點數(shù)量,新用戶推薦算法明顯比只使用協(xié)同過濾推薦算法推薦效率要高。而且計算數(shù)據(jù)集越大,Hadoop集群的大小影響越明顯。

        Figure 5 10 MB data圖5 10 MB數(shù)據(jù)

        一般地,推薦質(zhì)量評估方法是采用平均絕對誤差MAE(Mean Absolute Error)來評價,MAE越小,推薦的質(zhì)量就越高。MAE計算公式為:

        其中,N是用戶所獲得的推薦項目的數(shù)量,j為第1,…,N個推薦項目,a為待推薦的用戶。Raj為預測值,Paj為真實值,|Raj—Paj|為絕對誤差,U表示集合的全集,n為自然數(shù)。

        Figure 6 100 MB data圖6 100 MB數(shù)據(jù)

        Mahout算法庫中Recommender Evaluator就是利用MAE來評價“推薦的項目”是否與“實際情況”相符合的。但是,上面的推薦都是通過用戶歷史數(shù)據(jù)進行推薦的,由于新用戶推薦缺乏歷史數(shù)據(jù),所以定量地進行推薦質(zhì)量評估有一定困難。因此,本文主要從定性的角度分析推薦質(zhì)量評估問題。

        同時,還對新用戶推薦算法Map Reduce前后做“加速比”的對比。其加速比S=Tm/T1,其中Tm表示“新用戶推薦算法”在不同節(jié)點數(shù)量的集群上所需要運行的時間;T1表示不需要Map Reduce化的“新用戶推薦算法”運行所需的時間。我們測試了集群數(shù)量為一個節(jié)點、二個節(jié)點、四個節(jié)點和八個節(jié)點的情況,如圖7所示。

        Figure 7 Performance comparison of the speedup圖7 加速比性能比較結(jié)果

        由圖7可知,利用Hadoop集群,可以很好地提高算法的執(zhí)行效率。尤其是數(shù)據(jù)量大的時候,加速比減小的幅度比較大。所以,在數(shù)據(jù)量比較大的時候,使用Map Reduce實現(xiàn)新用戶推薦算法性能比較好。

        單獨使用協(xié)同過濾推薦算法對新用戶進行推薦。從結(jié)果看出,可以發(fā)現(xiàn)潛在的但自己尚未發(fā)現(xiàn)的興趣偏好,也可以被推薦和自己類似的興趣愛好。但是,畢竟是類似的興趣愛好,有的時候推薦數(shù)量過多,從而推薦質(zhì)量跟不上去。而新用戶推薦算法,以自己的興趣愛好為導向,加上整合協(xié)同過濾的相似度概念,從而推薦出的興趣愛好都是自己喜歡的興趣愛好,而且在數(shù)量上得到了精選。這就是新用戶推薦算法的魅力所在。

        6 結(jié)束語

        本文利用 Mahout中內(nèi)置的協(xié)同過濾算法和基于Map Reduce實現(xiàn)的Top N算法進行“混合”來實現(xiàn)新用戶推薦算法。構(gòu)建了一個新用戶推薦模型,并通過開發(fā)推薦約會對象系統(tǒng)來驗證新用戶推薦系統(tǒng)的有效性和面對大規(guī)模數(shù)據(jù)的伸縮性。由于Mahout是一個可伸縮的機器學習算法庫,而Hadoop可以通過Map Reduce實現(xiàn)對大數(shù)據(jù)集的分布式并行計算處理,使Hadoop和Mahout可以快速開發(fā)出,數(shù)據(jù)處理能力強、功能全的企業(yè)級推薦系統(tǒng)。通過推薦約會對象系統(tǒng),能很好地為新用戶推薦,有一定的準確度和可行性。將來,會對算法進行優(yōu)化,使得準確度更高。

        [1] Zeng Chun,Xing Chun-xiao,Zhou Li-zhu.A survey of personalization technology[J].Journal of Software,2002,13 (10):1952-1961.(in Chinese)

        [2] Adomavicius G,Tuzhilin A.Personalization technologies:A process-oriented perspective[J].Communications of the ACM,2005,48(10):83-90.

        [3] Adomavicius G,Tuzhilin A.Toward the next generation of recommender systems:A survey of the state-of-the-art and possible extensions[J].IEEE Transactions on Knowledge and Data Engineering(TKDE),2005,17(6):734-749.

        [4] Ricci F,Rokach L,Shapira B,et al.Recommender systems Handbook[M].Berlin:Springer-Verlag,2011.

        [5] Xu Hai-ling,Wu Xiao,Li Xiao-dong,et al.Comparison study of Internet recommendation system[J].Journal of Software,2009,20(2):350-362.(in Chinese)

        [6] Liu Jian-guo,Zhou Tao,Wang Bing-hong.Personalized recommender systems:A survey of the state-of-the-art[J].Chinese Journal of Progress in Natural Science,2009,19(1):1-15.(in Chinese)

        [7] Liao Zhi-fang,Wang Chao-qun,Li Xiao-qing,et al.Recommendation algorithm of label recommendation of tensor decomposition and new user label[J].Journal of Chinese Computer Systems,2013,34(11):2472-2476.(in Chinese)

        [8] Hu Zhu-qing,Liu Si-si,Liu Chen-guang,et al.Exploration on the combination of new user issues with small world network of collaborative filtering system[J].Silicon Valley,2012(8):191.(in Chinese)

        [9] Wang Li-cai,Meng Xiang-wu,Zhang Yu-jie.Context-aware recommender system[J].Journal of Software,2012,23(1):1-20.(in Chinese)

        [10] Li Wen-hai,Xu Shu-ren.Design and implementation of E-commerce recommender system based on Hadoop[J].Computer Engineering and Design,2014,35(1):130-143.(in Chinese)

        [11] Yang Zhi-wen,Liu Bo.Collaborative filtering recommendation algorithm based on Hadoop platform[J].Computer System Application,2013,22(7):108-112.(in Chinese)

        [12] Zhu Qian,Qian Li.Analysis and design of mahout-based recommender system[J].Bulletin of Science and Technology,2013,29(6):35-36.(in Chinese)

        [13] Feng Guo-he,Huang Jia-xing.Research on collaborative filtering book recommendation based on Hadoop and Mahout [J].Library and Information Service,2013,57(18):116-121.(in Chinese)

        附中文參考文獻:

        [1] 曾春,邢春曉,周立柱.個性化服務(wù)技術(shù)綜述[J].軟件學報,2002,13(10):1952-1961.

        [5] 許海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學報,2009,20(2):350-362.

        [6] 劉建國,周濤,汪秉宏.個性化推薦系統(tǒng)的研究進展[J].自然科學進展,2009,19(1):1-15.

        [7] 廖志芳,王超群,李小慶,等.張量分解的標簽推薦及新用戶標簽推薦算法[J].小型微型計算機系統(tǒng),2013,34(11):2472-2476.

        [8] 胡竹青,劉絲絲,劉晨光,等.對協(xié)同過濾系統(tǒng)的新用戶問題與小世界網(wǎng)絡(luò)結(jié)合的探索[J].硅谷,2012(8):191.

        [9] 王立才,孟祥武,張玉潔.上下文感知推薦系統(tǒng)[J].軟件學報,2012,23(1):1-20.

        [10] 李文海,許舒人.基于Hadoop的電子商務(wù)推薦系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機工程與設(shè)計,2014,35(1):130-143.

        [11] 楊志文,劉波.基于Hadoop平臺協(xié)同過濾推薦算法[J].計算機系統(tǒng)應(yīng)用,2013,22(7):108-112.

        [12] 朱倩,錢立.基于Mahout的推薦系統(tǒng)的分析與設(shè)計[J].科技通報,2013,29(6):35-36.

        [13] 奉國和,黃家興.基于Hadoop與Mahout的協(xié)同過濾圖書推薦研究[J].圖書情報工作,2013,51(18):116-121.

        高獻衛(wèi)(1985),男,江蘇睢寧人,碩士生,CCF會員(E200032998G),研究方向為大數(shù)據(jù)和數(shù)據(jù)挖掘。E-mail:gaoxianwei@ 126.com

        GAO Xian-wei,born in 1985,MS candidate,CCF member(E200032998G),his research interests include big data,and data mining.

        師智斌(1971 ),女,山西太原人,博士,副教授,研究方向為人工智能和數(shù)據(jù)挖掘。E-mail:shizb@nuc.edu.cn

        SHI Zhi-bin,born in 1971,PhD,associate professor,her research interests include artificial intelligence,and data mining.

        Design and implementation of a new user recommendation algorithm based on Mahout

        GAO Xian-wei,SHI Zhi-bin
        (School of Computer Science and Control Engineering Technology,North University of China,Taiyuan 030051,China)

        Recommendation for new users in big data era is difficult and the efficiency is very low due to the lack of historical data.In order to solve these problems,we propose a new user recommendation algorithm,which combines the collaborative filtering algorithm based on the Mahout and the Top N algorithm based on the Map Reduce.We build a new user recommendation system architecture,design and implement the Hadoop Top N algorithm and the collaborative filtering algorithm in the Mahout.Theoretical analysis and experimental results show that the proposed recommendation algorithm for big data processing has better recommended efficiency,scalability and quality than the collaborative filtering algorithm.

        new user recommendation;Mahout;recommendation system;Hadoop;big data

        TP311

        A

        10.3969/j.issn.1007-130X.2015.08.005

        1007-130X(2015)08-1444-06

        2014-11-24;

        2015-05-15

        通信地址:223400江蘇省淮安市漣水縣翰林苑小區(qū)28號樓202室

        Address:Room 202,28 Building,Hanlinyuan Community,Lianshui,Huai'an 223400,Jiangsu,P.R.China

        猜你喜歡
        協(xié)同算法用戶
        蜀道難:車與路的協(xié)同進化
        科學大眾(2020年23期)2021-01-18 03:09:08
        基于MapReduce的改進Eclat算法
        Travellng thg World Full—time for Rree
        “四化”協(xié)同才有出路
        汽車觀察(2019年2期)2019-03-15 06:00:50
        進位加法的兩種算法
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        三醫(yī)聯(lián)動 協(xié)同創(chuàng)新
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        一種改進的整周模糊度去相關(guān)算法
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        午夜av天堂精品一区| 亚洲AV无码一区二区三区ba| 久久99久久99精品免观看女同| 在线观看免费视频发布白白色| 音影先锋中文字幕在线| 国产揄拍国产精品| 久久亚洲精品成人| 日本一区二区三深夜不卡| 国产自拍在线观看视频| 亚洲av无码成人网站在线观看| 无码中文字幕色专区| 狠狠亚洲超碰狼人久久老人| 水蜜桃在线精品视频网| 日本熟妇hdsex视频| 思思99热精品免费观看| 女优av福利在线观看| 久草视频在线手机免费看| 99精品国产一区二区三区| 91亚洲国产成人aⅴ毛片大全 | 最新亚洲精品国偷自产在线 | 国产影片中文字幕| 精品国产亚欧无码久久久| 日本韩国一区二区高清| 欧美成人午夜免费影院手机在线看| 人妻无码久久一区二区三区免费| 亚洲欧洲日产国码无码| 国产精品自拍午夜伦理福利| 熟妇熟女乱妇乱女网站| 老熟女多次高潮露脸视频| 成年人男女啪啪网站视频| 国产青青草在线观看视频| a级毛片成人网站免费看| 91成人午夜性a一级毛片| 丝袜美腿诱惑区在线播放| 高潮内射双龙视频| 91日韩高清在线观看播放| 久久精品国产精品亚洲婷婷| 人人妻人人澡人人爽人人精品浪潮| 射死你天天日| 人妻中文字幕不卡精品| 91麻豆精品国产91久久麻豆|