亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Mahout的新用戶推薦算法的設計與實現(xiàn)*

2015-09-22 06:19:49高獻衛(wèi)師智斌

計算機工程與科學 2015年8期

關鍵詞：用戶系統(tǒng)

高獻衛(wèi)，師智斌

（中北大學計算機與控制工程學院，山西太原 030051）

基于Mahout的新用戶推薦算法的設計與實現(xiàn)*

高獻衛(wèi)，師智斌

（中北大學計算機與控制工程學院，山西太原 030051）

為了解決大數(shù)據(jù)背景下新用戶因沒有歷史數(shù)據(jù)而導致推薦難和推薦效率低等問題，提出將基于Mahout的協(xié)同過濾算法與基于Map Reduce的Top N算法相結合的技術方法，來實現(xiàn)新用戶推薦算法，從而構建新用戶推薦系統(tǒng)的架構，并對Hadoop Top N算法以及Mahout中協(xié)同過濾算法進行設計與實現(xiàn)。理論分析和實驗驗證表明，該新用戶推薦算法在推薦效率、對大規(guī)模數(shù)據(jù)處理的伸縮性以及推薦質(zhì)量上都明顯優(yōu)于單獨使用協(xié)同過濾算法的新用戶推薦。

新用戶推薦；Mahout；推薦系統(tǒng)；Hadoop；大數(shù)據(jù)

1 引言

隨著Internet和IT（Information Technology），特別是社交網(wǎng)絡SNS（Social Networking Services）、電子商務E-commerce和基于位置的服務LBS（Location Based Services）的快速發(fā)展，以及云物移大智（云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和智慧城市）等新概念和新技術的出現(xiàn)，數(shù)據(jù)增長的速度很快。用戶獲取信息很困難，從而引起“信息過載”問題。有許多網(wǎng)絡應用（如門戶網(wǎng)站，百度、谷歌等搜索引擎），追根究底是幫助用戶過濾無用信息。然而，這些所謂的工具，只能滿足非個性化的需求，對于個性化需求卻無法滿足。所以，作為“個性化服務”［1，2］的一個分支——推薦系統(tǒng)［3～6］，通過分析“用戶-項目”之間的二元關系，幫助用戶找到感興趣的項目。目前，推薦系統(tǒng)有了巨大的進步，應用在電子商務、信息檢索、移動應用、電子旅游、網(wǎng)絡廣告等方面。

同時，由于數(shù)據(jù)來源的多樣性（互聯(lián)網(wǎng)日志、傳感器數(shù)據(jù)和移動互聯(lián)網(wǎng)等）和數(shù)據(jù)種類的繁多（結構化、半結構化和非結構化等），推薦系統(tǒng)數(shù)據(jù)的存儲和并行計算經(jīng)受了嚴重的考驗。困擾人們多年的大數(shù)據(jù)存儲和并行計算問題，在Hadoop分布式計算框架出現(xiàn)后，得到了有效的解決。

然而，實現(xiàn)推薦系統(tǒng)算法是一件很費力的事情，Mahout的出現(xiàn)解決了這個問題。Mahout是Apache Software Foundation旗下的頂級開源項目，它由Lucene衍生而來，同時也是基于Hadoop框架的，主要包含數(shù)據(jù)挖掘、機器學習、推薦系統(tǒng)等若干算法庫，旨在幫助開發(fā)人員更加方便快捷地開發(fā)智能應用程序。

國內(nèi)外主要的傳統(tǒng)推薦系統(tǒng)的算法都是基于歷史數(shù)據(jù)進行推薦，國內(nèi)外主要采用的方法有三種：一是協(xié)同過濾推薦方法［5］，發(fā)現(xiàn)新異興趣，不依賴于領域知識，但是卻依賴于歷史數(shù)據(jù)。二是新用戶標簽推薦方法［7］，個性化標簽間接地反映用戶的興趣，然而卻存在伸縮性、稀疏性和冷啟動等典型的問題。三是協(xié)同過濾和小世界模型新用戶推薦方法［8］，使得新用戶能夠找到與自己更類似的群組，然而在算法的融合上，推薦質(zhì)量和效果不是很明顯。而且很少推薦系統(tǒng)是基于Mahout實現(xiàn)的。

本文創(chuàng)新地結合了Top N算法和協(xié)同過濾算法，推出了基于大數(shù)據(jù)量的新用戶推薦算法，從而解決了新用戶推薦難、效率不高、推薦不匹配等問題。并通過約會對象推薦系統(tǒng)來驗證了其有效性和伸縮性。

2 相關技術介紹

2.1 主要推薦算法

推薦算法主要包括［9］：協(xié)同過濾推薦（Collaborative Filtering Recommendation）、基于內(nèi)容的推薦（Content-Based Recommendation）、基于知識的推薦（Knowledge-based Recommendation）和混合推薦（Hybrid Recommendation）。其優(yōu)缺點綜合比較［10］見表1。

2.2 分布式與存儲技術——Hadoop

Google發(fā)布的關于分布式基礎設施的論文對業(yè)界產(chǎn)生了巨大的影響，其中的Map Reduce和GFS（Google File System）等思想為分布式計算與存儲提供了關鍵參考，Hadoop是其開源實現(xiàn)。

Hadoop［11］平臺具有高可伸縮、低成本、高可靠、方便易用等特點、其核心是HDFS（Hadoop Distribute File System）分布式文件系統(tǒng)和Map Reduce框架。前者使得在成本可控的情況下處理海量數(shù)據(jù)成為可能；后者則是一種采用分治策略、專為大規(guī)模分布式并行數(shù)據(jù)處理設計的簡化編程模型，它借鑒了函數(shù)式編程的思想，將針對大規(guī)模數(shù)據(jù)的處理任務統(tǒng)一地抽象為 Map（映射）和Reduce（規(guī)約）兩種操作。由于Hadoop集群可以按需橫向動態(tài)擴展，利用Hadoop平臺可以突破數(shù)據(jù)規(guī)模給推薦系統(tǒng)帶來的大數(shù)據(jù)分析的瓶頸，滿足高性能、高伸縮性計算的需求。

Table 1 Comparison of main recommendation algorithms表1 主要推薦算法的比較

2.3 機器學習算法——Mahout

Apache Mahout［12］是ASF（Apache Software Foundation）開發(fā)的一個全新的開源項目，其主要目標是創(chuàng)建一些可伸縮的機器學習算法，供開發(fā)人員在Apache的許可下免費使用。Mahout包含許多實現(xiàn)，包括集群、分類、CF（Collaborative Filtering）和進化程序。此外，通過使用Apache Hadoop庫，Mahout可以有效地擴展到云中。

用Mahout來構建推薦系統(tǒng)，是一件既簡單又困難的事情。簡單是因為 Mahout完整地封裝了“協(xié)同過濾”算法，并實現(xiàn)了并行化，提供非常簡單的API接口；困難是因為我們不了解算法細節(jié)，很難根據(jù)業(yè)務的場景進行算法配置和調(diào)優(yōu)。常用的使用Mahout實現(xiàn)的算法有：基于用戶的協(xié)同過濾

算法UserCF、基于物品的協(xié)同過濾算法ItemCF、SlopeOne算法、KNN Linear interpolation itembased推薦算法、SVD推薦算法和Tree Clusterbased推薦算法等。

3 協(xié)同過濾算法與Top N算法相結合的新用戶推薦系統(tǒng)

新用戶推薦必須具備的三元素是：新用戶A、推薦對象B和評價模式C。

3.1 名稱解釋

名稱1（Top N算法）使用直接排序法或者Hash Table法找出最高（低）的集合。

名稱2（新用戶A）作為推薦的受益者，是被推薦對象。

名稱3（推薦對象B）是推薦的對象，該對象被推薦給新用戶A。

名稱4（評價模式C）是新用戶A對推薦對象B的評分。

3.2 新用戶推薦算法思想

綜合使用Top N和協(xié)同過濾算法來對新用戶做推薦。其算法思想如下：

分析原始數(shù)據(jù)，使用Top N算法求出N個推薦對象B的ID，得到基礎數(shù)據(jù)“Top基礎數(shù)據(jù)D”；分析原始數(shù)據(jù)，使用協(xié)同過濾算法，計算出推薦對象B的信息，得到基礎數(shù)據(jù)“推薦基礎數(shù)據(jù)E”；新用戶A對“Top基礎數(shù)據(jù)D”進行相關評價，并記錄該評價模式“評價模式C”；利用該“評價模式C”對“推薦基礎數(shù)據(jù)E”進行篩選，找出“推薦基礎數(shù)據(jù)E”中的評價模式和“評價模式C”相似的數(shù)據(jù)“篩選數(shù)據(jù)E”；對“篩選數(shù)據(jù)E”，使用Top N算法得到的結果即為新用戶推薦算法的結果。

其算法過程如圖1所示。

Figure 1 Process chart of the recommendation algorithm for new users圖1 新用戶推薦算法過程圖

3.3 系統(tǒng)設計與實現(xiàn)

如圖2所示，系統(tǒng)采用JSP+Spring MVC+ MyBatis+Spring框架開發(fā)，采用Hadoop云平臺的HDFS文件系統(tǒng)和MySQL數(shù)據(jù)庫來存儲數(shù)據(jù)。原始數(shù)據(jù)直接存入 HDFS中，計算出來的用戶檔案推薦基礎數(shù)據(jù)存入MySQL數(shù)據(jù)庫。

3.3.1系統(tǒng)流程圖

如圖3所示，在登錄的時候設置進入門檻，這樣只有系統(tǒng)管理人員才能進入監(jiān)控界面。只有進入監(jiān)控界面才能正常地調(diào)用新用戶推薦算法的執(zhí)行。

Figure 2 System development framework圖2 系統(tǒng)開發(fā)架構圖

Figure 3 System flowchart圖3 系統(tǒng)流程圖

3.3.2 算法設計與實現(xiàn)

（1）Top N算法設計。

Hadoop top N算法是統(tǒng)計所有檔案中的平均用戶評分最大的前N個項目，也就是說，需要針對原始用戶數(shù)據(jù)，求得每個項目的平均用戶評分，然后把這些項目按照用戶評分從大到小的順序排列，取前N個項目。

首先分析一下Top N算法的Map Reduce流程。輸入數(shù)據(jù)的格式是：［userId，profileId，pref Value］，其中user Id是不需要的，需要的只是profile Id和與之對應的pref Value，同時需要記錄每個項目已經(jīng)被多少個用戶評價過，這樣方便項目的平均評分。Mapper的輸入輸出數(shù)據(jù)格式見表2。

Table 2 Input and output format of Mapper表2 Mapper輸入輸出格式

①Mapper階段。

Mapper把［user Id，profile Id，pref Value］這樣的數(shù)據(jù)經(jīng)過轉(zhuǎn)換，輸出為，也就是輸出每個檔案以及檔案的評分和次數(shù)1次。

接著是Combiner。Combiner主要是在Map端工作，可以先整合一部分數(shù)據(jù)，這樣傳輸?shù)絩educe端的數(shù)據(jù)就會減少，提高效率。Combiner把所有key相同也就是profile Id是同一個的評分、次數(shù)都分別加起來，輸出的和Mapper是一樣的，但是數(shù)據(jù)已經(jīng)改變了。評分和次數(shù)是同一個Mapper中相同檔案的總和。

②Reduce階段。

Reduce的主要工作就是計算每個檔案的平均評分，然后對所有的項目按照評分從大到小進行排序，最后取前N（N取10）個檔案ID即可。

（2）Mahout中協(xié)同過濾算法設計。

Mahout中協(xié)同過濾推薦實現(xiàn)的組件圖如圖4所示。

Figure 4 Component diagram implemented by the collaborative filtering recommendation in Mahout圖4 Mahout中協(xié)同過濾推薦實現(xiàn)的組件圖

Mahout最經(jīng)典的三種協(xié)同過濾的推薦策略：User CF、Item CF和Slope One。本文中約會對象推薦系統(tǒng)中使用Mahout的Item CF算法來獲取推薦的基礎數(shù)據(jù)。

基于Mahout實現(xiàn)Item CF：

Data Model model=new Eile Data Model（new Eile（“preferences.dat“））；

ItemSimilarity similarity=new PearsonCorrelation-Similarity（model）；

Recommender recommender=new Generic ItemBased Recommender（model，similarity）；

（3）新用戶推薦算法設計。

算法最開始運行的是Mapper，在Mapper的初始化中也就是setup函數(shù)中，需要先讀出用戶對Top 10檔案的評分，把這些數(shù)據(jù)讀入到一個向量userPrefs中。接著在map函數(shù)中針對每一條記錄數(shù)據(jù)求其與向量userPrefs的相似度similarity，然后輸出用戶ID和相似度similarity即可。相似度的計算公式如下：

similarity=（1/（1+sqrt（v1，v2）））（1）

其中，sqrt（v1，v2）表示向量v1和向量v2的均方差。

考慮到后面Reduce中需要對所有的數(shù)據(jù)都進行統(tǒng)一處理，這里Mapper輸出的key必須保持一致，這里設置輸出的key是new IntWritable（1）。

Mapper輸出數(shù)據(jù)后，Reduce把key相同的值都整合起來，統(tǒng)一處理（由于Mapper輸出的key都是一樣的，因此這里的數(shù)據(jù)是全部數(shù)據(jù)）。在Mapper中輸出的value格式是自定義的Writable類型。

在Reduce端的過程其實和前面Top10算法維護的一個10個元素的堆棧類似，只是堆棧中Map元素的key是用戶ID而已。在算法結束后，在HDFS文件系統(tǒng)上就可以得到和新用戶推薦的約會對象檔案ID信息。

4 實驗與分析

通過實現(xiàn)推薦約會的系統(tǒng)來驗證新用戶推薦系統(tǒng)的有效性和面對大數(shù)據(jù)的伸縮性。系統(tǒng)中使用的數(shù)據(jù)在http：∥w ww.occamslab.com/petricek/data/中下載。這份數(shù)據(jù)是135 359個匿名用戶對168 791個其他用戶檔案信息的評分數(shù)據(jù)。數(shù)據(jù)格式：［1，133，8］，表示用戶1對133檔案的評分是8分（10分滿分）。

環(huán)境配置如表3和表4所示。

Table 3 Hardware configuration表3 硬件配置

Table 4 Software configuration表4 軟件配置

5 推薦效果評估

本文對新用戶推薦算法進行性能分析和實驗測試。分別從性能評估和推薦質(zhì)量評估兩個方面進行分析［13］。

首先性能評估主要從執(zhí)行效率方面考慮。采用參數(shù)f=T1/Tn作比較。T1是Task Tracker節(jié)點為1時算法的執(zhí)行時間，Tn是Task Tracker節(jié)點為n時算法的執(zhí)行時間。通過比較f參數(shù)可以得出 Hadoop節(jié)點數(shù)量對算法執(zhí)行效率的影響狀況。

從實驗結果圖5和圖6可以看出，對于同一數(shù)據(jù)集，增加Task Tracker節(jié)點數(shù)量，新用戶推薦算法明顯比只使用協(xié)同過濾推薦算法推薦效率要高。而且計算數(shù)據(jù)集越大，Hadoop集群的大小影響越明顯。

Figure 5 10 MB data圖5 10 MB數(shù)據(jù)

一般地，推薦質(zhì)量評估方法是采用平均絕對誤差MAE（Mean Absolute Error）來評價，MAE越小，推薦的質(zhì)量就越高。MAE計算公式為：

其中，N是用戶所獲得的推薦項目的數(shù)量，j為第1，…，N個推薦項目，a為待推薦的用戶。Raj為預測值，Paj為真實值，|Raj—Paj|為絕對誤差，U表示集合的全集，n為自然數(shù)。

Figure 6 100 MB data圖6 100 MB數(shù)據(jù)

Mahout算法庫中Recommender Evaluator就是利用MAE來評價“推薦的項目”是否與“實際情況”相符合的。但是，上面的推薦都是通過用戶歷史數(shù)據(jù)進行推薦的，由于新用戶推薦缺乏歷史數(shù)據(jù)，所以定量地進行推薦質(zhì)量評估有一定困難。因此，本文主要從定性的角度分析推薦質(zhì)量評估問題。

同時，還對新用戶推薦算法Map Reduce前后做“加速比”的對比。其加速比S=Tm/T1，其中Tm表示“新用戶推薦算法”在不同節(jié)點數(shù)量的集群上所需要運行的時間；T1表示不需要Map Reduce化的“新用戶推薦算法”運行所需的時間。我們測試了集群數(shù)量為一個節(jié)點、二個節(jié)點、四個節(jié)點和八個節(jié)點的情況，如圖7所示。

Figure 7 Performance comparison of the speedup圖7 加速比性能比較結果

由圖7可知，利用Hadoop集群，可以很好地提高算法的執(zhí)行效率。尤其是數(shù)據(jù)量大的時候，加速比減小的幅度比較大。所以，在數(shù)據(jù)量比較大的時候，使用Map Reduce實現(xiàn)新用戶推薦算法性能比較好。

單獨使用協(xié)同過濾推薦算法對新用戶進行推薦。從結果看出，可以發(fā)現(xiàn)潛在的但自己尚未發(fā)現(xiàn)的興趣偏好，也可以被推薦和自己類似的興趣愛好。但是，畢竟是類似的興趣愛好，有的時候推薦數(shù)量過多，從而推薦質(zhì)量跟不上去。而新用戶推薦算法，以自己的興趣愛好為導向，加上整合協(xié)同過濾的相似度概念，從而推薦出的興趣愛好都是自己喜歡的興趣愛好，而且在數(shù)量上得到了精選。這就是新用戶推薦算法的魅力所在。

6 結束語

本文利用 Mahout中內(nèi)置的協(xié)同過濾算法和基于Map Reduce實現(xiàn)的Top N算法進行“混合”來實現(xiàn)新用戶推薦算法。構建了一個新用戶推薦模型，并通過開發(fā)推薦約會對象系統(tǒng)來驗證新用戶推薦系統(tǒng)的有效性和面對大規(guī)模數(shù)據(jù)的伸縮性。由于Mahout是一個可伸縮的機器學習算法庫，而Hadoop可以通過Map Reduce實現(xiàn)對大數(shù)據(jù)集的分布式并行計算處理，使Hadoop和Mahout可以快速開發(fā)出，數(shù)據(jù)處理能力強、功能全的企業(yè)級推薦系統(tǒng)。通過推薦約會對象系統(tǒng)，能很好地為新用戶推薦，有一定的準確度和可行性。將來，會對算法進行優(yōu)化，使得準確度更高。

［1］ Zeng Chun，Xing Chun-xiao，Zhou Li-zhu.A survey of personalization technology［J］.Journal of Software，2002，13 （10）：1952-1961.（in Chinese）

［2］ Adomavicius G，Tuzhilin A.Personalization technologies：A process-oriented perspective［J］.Communications of the ACM，2005，48（10）：83-90.

［3］ Adomavicius G，Tuzhilin A.Toward the next generation of recommender systems：A survey of the state-of-the-art and possible extensions［J］.IEEE Transactions on Knowledge and Data Engineering（TKDE），2005，17（6）：734-749.

［4］ Ricci F，Rokach L，Shapira B，et al.Recommender systems Handbook［M］.Berlin：Springer-Verlag，2011.

［5］ Xu Hai-ling，Wu Xiao，Li Xiao-dong，et al.Comparison study of Internet recommendation system［J］.Journal of Software，2009，20（2）：350-362.（in Chinese）

［6］ Liu Jian-guo，Zhou Tao，Wang Bing-hong.Personalized recommender systems：A survey of the state-of-the-art［J］.Chinese Journal of Progress in Natural Science，2009，19（1）：1-15.（in Chinese）

［7］ Liao Zhi-fang，Wang Chao-qun，Li Xiao-qing，et al.Recommendation algorithm of label recommendation of tensor decomposition and new user label［J］.Journal of Chinese Computer Systems，2013，34（11）：2472-2476.（in Chinese）

［8］ Hu Zhu-qing，Liu Si-si，Liu Chen-guang，et al.Exploration on the combination of new user issues with small world network of collaborative filtering system［J］.Silicon Valley，2012（8）：191.（in Chinese）

［9］ Wang Li-cai，Meng Xiang-wu，Zhang Yu-jie.Context-aware recommender system［J］.Journal of Software，2012，23（1）：1-20.（in Chinese）

［10］ Li Wen-hai，Xu Shu-ren.Design and implementation of E-commerce recommender system based on Hadoop［J］.Computer Engineering and Design，2014，35（1）：130-143.（in Chinese）

［11］ Yang Zhi-wen，Liu Bo.Collaborative filtering recommendation algorithm based on Hadoop platform［J］.Computer System Application，2013，22（7）：108-112.（in Chinese）

［12］ Zhu Qian，Qian Li.Analysis and design of mahout-based recommender system［J］.Bulletin of Science and Technology，2013，29（6）：35-36.（in Chinese）

［13］ Feng Guo-he，Huang Jia-xing.Research on collaborative filtering book recommendation based on Hadoop and Mahout ［J］.Library and Information Service，2013，57（18）：116-121.（in Chinese）

附中文參考文獻：

［1］曾春，邢春曉，周立柱.個性化服務技術綜述［J］.軟件學報，2002，13（10）：1952-1961.

［5］許海玲，吳瀟，李曉東，等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究［J］.軟件學報，2009，20（2）：350-362.

［6］劉建國，周濤，汪秉宏.個性化推薦系統(tǒng)的研究進展［J］.自然科學進展，2009，19（1）：1-15.

［7］廖志芳，王超群，李小慶，等.張量分解的標簽推薦及新用戶標簽推薦算法［J］.小型微型計算機系統(tǒng)，2013，34（11）：2472-2476.

［8］胡竹青，劉絲絲，劉晨光，等.對協(xié)同過濾系統(tǒng)的新用戶問題與小世界網(wǎng)絡結合的探索［J］.硅谷，2012（8）：191.

［9］王立才，孟祥武，張玉潔.上下文感知推薦系統(tǒng)［J］.軟件學報，2012，23（1）：1-20.

［10］李文海，許舒人.基于Hadoop的電子商務推薦系統(tǒng)的設計與實現(xiàn)［J］.計算機工程與設計，2014，35（1）：130-143.

［11］楊志文，劉波.基于Hadoop平臺協(xié)同過濾推薦算法［J］.計算機系統(tǒng)應用，2013，22（7）：108-112.

［12］朱倩，錢立.基于Mahout的推薦系統(tǒng)的分析與設計［J］.科技通報，2013，29（6）：35-36.

［13］奉國和，黃家興.基于Hadoop與Mahout的協(xié)同過濾圖書推薦研究［J］.圖書情報工作，2013，51（18）：116-121.

高獻衛(wèi)（1985），男，江蘇睢寧人，碩士生，CCF會員（E200032998G），研究方向為大數(shù)據(jù)和數(shù)據(jù)挖掘。E-mail：gaoxianwei@ 126.com

GAO Xian-wei，born in 1985，MS candidate，CCF member（E200032998G），his research interests include big data，and data mining.

師智斌（1971 ），女，山西太原人，博士，副教授，研究方向為人工智能和數(shù)據(jù)挖掘。E-mail：shizb@nuc.edu.cn

SHI Zhi-bin，born in 1971，PhD，associate professor，her research interests include artificial intelligence，and data mining.

Design and implementation of a new user recommendation algorithm based on Mahout

GAO Xian-wei，SHI Zhi-bin
（School of Computer Science and Control Engineering Technology，North University of China，Taiyuan 030051，China）

Recommendation for new users in big data era is difficult and the efficiency is very low due to the lack of historical data.In order to solve these problems，we propose a new user recommendation algorithm，which combines the collaborative filtering algorithm based on the Mahout and the Top N algorithm based on the Map Reduce.We build a new user recommendation system architecture，design and implement the Hadoop Top N algorithm and the collaborative filtering algorithm in the Mahout.Theoretical analysis and experimental results show that the proposed recommendation algorithm for big data processing has better recommended efficiency，scalability and quality than the collaborative filtering algorithm.

new user recommendation；Mahout；recommendation system；Hadoop；big data

TP311

10.3969/j.issn.1007-130X.2015.08.005

1007-130X（2015）08-1444-06

2014-11-24；

2015-05-15

通信地址：223400江蘇省淮安市漣水縣翰林苑小區(qū)28號樓202室

Address：Room 202，28 Building，Hanlinyuan Community，Lianshui，Huai'an 223400，Jiangsu，P.R.China