亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop和MapReduce的商品推薦

        2019-08-06 04:25:13陶冶
        計(jì)算機(jī)時代 2019年7期
        關(guān)鍵詞:大數(shù)據(jù)

        陶冶

        摘? 要: 電子商務(wù)網(wǎng)站、社交網(wǎng)站以及醫(yī)療、教育、公共平臺等各種領(lǐng)域的應(yīng)用等已深入人們的日常生活,海量信息帶來便捷的同時也產(chǎn)生了無用信息的干擾,過濾信息進(jìn)行智能推薦已成為一種需求。采用協(xié)同過濾算法對產(chǎn)品的用戶評價數(shù)據(jù)進(jìn)行分析,能夠跨領(lǐng)域運(yùn)作分析,具有很好的通用性。依據(jù)綜合因素對算法進(jìn)行改進(jìn)后,利用MapReduce和Storm對提取的數(shù)據(jù)進(jìn)行處理,得到數(shù)據(jù)過濾后的商品推薦列表,并通過實(shí)驗(yàn)驗(yàn)證了算法預(yù)測的準(zhǔn)確度。

        關(guān)鍵詞: 大數(shù)據(jù); 協(xié)同過濾算法; Hadoop; MapReduce

        中圖分類號:TP31? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號:1006-8228(2019)07-29-04

        Abstract: E-commerce websites, social networking websites and applications in various fields such as medical, education, and public platforms have penetrated into people's daily life. Massive information brings convenience, but also produces interference of useless information. Filtering information for intelligent recommendation has become a demand. Collaborative filtering algorithm is used to analyze the user evaluation data of product, which can be used in cross-domain operation analysis and has good versatility. After improving the algorithm with comprehensive factors, the extracted data are processed by Mapreduce and Storm, and the recommended commodity list filtered by data is obtained. The accuracy of the prediction is verified by experiments.

        Key words: big data; collaborative filtering algorithm; Hadoop; MapReduce

        0 引言

        對于大數(shù)據(jù)的并行處理分析,我們常利用各種推薦方法的優(yōu)點(diǎn)和系統(tǒng)的組織結(jié)構(gòu),目前,并行計(jì)算的框架有很多種。谷歌公司的云計(jì)算技術(shù)和MapReduce的并行計(jì)算框架有較好的發(fā)展前景,軟件借助Hadoop開源云計(jì)算平臺開發(fā)實(shí)現(xiàn)。系統(tǒng)在結(jié)合推薦技術(shù)和云計(jì)算技術(shù)基礎(chǔ)上,實(shí)現(xiàn)對實(shí)時采集并且進(jìn)行整理過的數(shù)據(jù)通過推薦算法,進(jìn)行分析,通過MapReduce的多次作業(yè)后生成一個推薦列表。

        1 技術(shù)及主要內(nèi)容

        1.1 協(xié)同過濾算法

        借助協(xié)同過濾算法對海量用戶的歷史交易數(shù)據(jù)進(jìn)行分析,比如消費(fèi)者對物品的評價信息,點(diǎn)擊信息和購買信息等等,然后通過協(xié)同過濾方法對這些數(shù)據(jù)進(jìn)行處理,最后生成比較準(zhǔn)確的推薦列表。協(xié)同過濾方法非常受到一些大型購物網(wǎng)站的熱愛。協(xié)同過濾方法分為基于物品和基于消費(fèi)者兩種方法[1]。前者的核心思想是通過消費(fèi)者的行為歷史數(shù)據(jù)的分析,求出物品之間的相似度,然后推薦相似的物品給消費(fèi)者。后者的核心思想是,計(jì)算出相似的消費(fèi)者,然后給目標(biāo)消費(fèi)者推薦相似的消費(fèi)者購買過的物品。

        1.2 主要內(nèi)容

        先介紹大數(shù)據(jù)處理方法框架和協(xié)同過濾方法,然后在Hadoop大數(shù)據(jù)處理平臺上對以物品為中心的協(xié)同過濾算法進(jìn)行實(shí)驗(yàn),將消費(fèi)者的歷史數(shù)據(jù),例如瀏覽,點(diǎn)擊,收藏,購買等等這樣的數(shù)據(jù)輸入,最后生成推薦列表。

        2 協(xié)同過濾推薦算法

        2.1 推薦技術(shù)

        2.1.1 基于物品內(nèi)容屬性的推薦

        基于物品內(nèi)容屬性的推薦(CBF),是根據(jù)消費(fèi)者的歷史行為數(shù)據(jù),對其進(jìn)行矩陣的建模分析,經(jīng)過多次的矩陣的操作,為消費(fèi)者推薦與物品的屬性比較相似的的物品,其核心在于對物品集合中所有的物品的特征進(jìn)行提取,建模,找出物品之間的相關(guān)屬性[2]?;谖锲穬?nèi)容屬性的推薦圖如圖1所示。

        消費(fèi)者B購買或?yàn)g覽了衣服1,然后基于物品內(nèi)容屬性的推薦系統(tǒng)(CBF)就為其推送與衣服1屬性相同或相似的衣服2,不推送與衣服1內(nèi)容屬性不同或者差異比較大的衣服3。通過分析消費(fèi)者歷史數(shù)據(jù)發(fā)現(xiàn)其消費(fèi)愛好,這不依賴消費(fèi)者之間任何關(guān)系的關(guān)系,它完全是根據(jù)物品之間的相似度或者說是物品的屬類是否相同。

        2.1.2 基于規(guī)則的推薦

        基于規(guī)則的推薦方法,其實(shí)就是根據(jù)消費(fèi)者的消費(fèi)歷史行為數(shù)據(jù)找出消費(fèi)物品之間的相關(guān)性,總結(jié)出相關(guān)的規(guī)則,基于規(guī)則的推薦圖如圖2所示。

        消費(fèi)者A購買了三星手機(jī),就可以為購買者推薦與該手機(jī)所相配的耳機(jī)或手機(jī)殼,這樣的推薦是根據(jù)用戶的實(shí)際需求,具有合理的推薦意義,能幫助消費(fèi)者快速找到所需要的物品,這種推薦簡單有效。分析此例,這種推薦方法是沒有依賴消費(fèi)者之間的關(guān)系的,只是根據(jù)物品之間的關(guān)聯(lián)關(guān)系進(jìn)行推薦的。所以這種關(guān)聯(lián)關(guān)系是此算法的核心和關(guān)鍵。

        2.1.3 協(xié)同過濾推薦

        協(xié)同過濾算法從兩個角度分析數(shù)據(jù):一個是用戶,另一個是物品。

        下面對協(xié)同過濾算法做介紹:

        ⑴ 基于用戶的協(xié)同過濾算法(UserCF):通過分析消費(fèi)者對物品的評分來研究消費(fèi)者的相似性,對相似的消費(fèi)者做相同的推薦[3]。簡單的說,如果消費(fèi)者A和消費(fèi)者B有著比較高的相似度,當(dāng)消費(fèi)者A對物品S有著比較大的興趣愛好時,就可以對消費(fèi)者B推薦物品S。基于用戶的協(xié)同過濾示例圖如圖3所示。從圖3可以看出,消費(fèi)者C和消費(fèi)者A有著比較高的相似度,所以,對消費(fèi)者A可以推薦一下物品D。

        ⑵ 基于物品的協(xié)同過濾算法(ItemCF):基于物品的協(xié)同過濾算法,對不同的物品的評分來自于對歷史數(shù)據(jù)進(jìn)行大數(shù)據(jù)挖掘,從而根據(jù)物品之間的相似度推薦消費(fèi)者喜歡的物品?;谖锲返膮f(xié)同過濾示例圖如圖4所示。

        2.1.4 混合推薦

        協(xié)同過濾推薦、知識推薦、內(nèi)容推薦、規(guī)則推薦,這幾種推薦方法都有各自的優(yōu)缺點(diǎn),所以提出混合的推薦方法?;旌贤扑]方法,就是組合這幾種算法來消除各自的缺點(diǎn),所以混合推薦的確有著比較高的準(zhǔn)確性。

        3 大數(shù)據(jù)分析的相關(guān)技術(shù)框架

        3.1 離線計(jì)算Hadoop

        Hadoop是Apache下面的一套開源的開發(fā)平臺。Hadoop提供的主要功能有就是利用集群服務(wù)器,根據(jù)用戶的業(yè)務(wù)邏輯,讀數(shù)據(jù)進(jìn)行分布式處理。Hadoop的核心組件有:MAPREDUCE(分布式運(yùn)算編程框架),HDFS(分布式文件系統(tǒng)),YURN(運(yùn)算資源調(diào)度系統(tǒng))[4]。

        3.1.1 HDFS工作機(jī)制的簡單介紹

        HDFS集群主要分為兩大角色第一是NameNode,第二是DataNode。NameNode是負(fù)責(zé)全部管控元數(shù)據(jù),DataNode 是負(fù)責(zé)全部管理文件數(shù)據(jù)塊,每個文件被分成固定大小的塊分布存儲在多臺datanode上,Datanode會按照一定的時間間隔向Namenode匯報它所保存的文件block的信息,內(nèi)部的HDFS工作原理是客戶端透明的,客戶端通過向namenode申請來進(jìn)行HDFS訪問的。

        3.1.2 分布式計(jì)算框架(MAPREDUCE)

        Mapreduce采用分布式運(yùn)算框架,被Hadoop數(shù)據(jù)分析的應(yīng)用當(dāng)做核心架構(gòu)[5]。Mapreduce可以整合業(yè)務(wù)邏輯代碼和自帶默認(rèn)的組件為分布式運(yùn)算程序,并發(fā)的運(yùn)行在一個Hadoop集群上。

        3.1.3 apreduce框架結(jié)構(gòu)及核心運(yùn)行機(jī)制

        apreduce程序有三類分布式實(shí)例進(jìn)程:①M(fèi)RAppMaster:完成過程調(diào)用和狀態(tài)轉(zhuǎn)換;②mapTask:負(fù)責(zé)map階段的整個數(shù)據(jù)處理流程,也就是切片的過程[6];③ReduceTask:負(fù)責(zé)reduce階段整個數(shù)據(jù)處理流程。

        3.2 流式計(jì)算Storm

        相對于離線計(jì)算,流式計(jì)算就是數(shù)據(jù)的產(chǎn)生、傳輸、計(jì)算以及展示都是實(shí)時的[7]。Storm是用來實(shí)時的處理數(shù)據(jù),提供簡單容易理解的接口,便于開發(fā)。

        3.2.1 Storm核心組件

        ⑴ Nimbus:是負(fù)責(zé)資源分配和任務(wù)調(diào)度。

        ⑵ Supervisor:執(zhí)行Nimbus的任務(wù),控制和管理自己的Worker進(jìn)程。

        ⑶ Worker:分為兩種任務(wù)Spout和Bolt,是處理組件邏輯的運(yùn)行進(jìn)程。

        ⑷ Task:Worker中每一個Spout/Bolt線程稱為一個Task。一個executor物理線程被多個Task共享[8]。

        3.2.2 流式計(jì)算一般架構(gòu)

        Storm流式計(jì)算的順序框架圖如圖5所示。

        ⑴ 其中flume用來獲取數(shù)據(jù)。

        ⑵ Kafka用來臨時保存數(shù)據(jù)。

        ⑶ Strom用來計(jì)算數(shù)據(jù)。

        ⑷ Redis是個內(nèi)存數(shù)據(jù)庫,用來保存數(shù)據(jù)。

        4 實(shí)驗(yàn)以及實(shí)驗(yàn)結(jié)果的分析

        4.1 實(shí)驗(yàn)簡介

        4.2 實(shí)驗(yàn)設(shè)計(jì)

        實(shí)驗(yàn)輸入的數(shù)據(jù)格式如圖6所示。

        4.3 實(shí)驗(yàn)結(jié)果以及總結(jié)

        實(shí)驗(yàn)結(jié)果數(shù)據(jù)如圖7所示,通過實(shí)驗(yàn)驗(yàn)證了基于Hadoop平臺的優(yōu)化協(xié)同過濾推薦算法,數(shù)據(jù)經(jīng)過六次mapreduce并行化作業(yè)后的正確性和準(zhǔn)確性,要得到最好的推薦效果,準(zhǔn)確率和召回率各為80.6%,16.2%。該實(shí)驗(yàn)系統(tǒng)推薦商品的滿意度為80.6%,網(wǎng)絡(luò)商品推薦系統(tǒng)提高了用戶的工作效率,能有效滿足用戶在網(wǎng)購系統(tǒng)中的需求,具有良好的可擴(kuò)展性。

        5 結(jié)束語

        在數(shù)據(jù)推薦算法的前提下,通過案例分析了基于屬性、規(guī)則、用戶、物品、混合等推薦算法的原理特點(diǎn),搭建了基于虛擬機(jī)、Linux下Hadoop環(huán)境、Eclipse開發(fā)環(huán)境的實(shí)驗(yàn)平臺,使用Storm流式計(jì)算,將消費(fèi)者的歷史數(shù)據(jù),例如瀏覽,點(diǎn)擊,收藏,購買等等這樣的數(shù)據(jù)輸入,利用Mapreduce對類似于(item_id,user_id,action,vtime)的互聯(lián)網(wǎng)上用戶行為數(shù)據(jù)進(jìn)行運(yùn)算處理,最得到數(shù)據(jù)過濾后的商品推薦列表。使用該方法得到的推薦具有較高的準(zhǔn)確性和社會效益,值得進(jìn)一步研究和推廣。

        參考文獻(xiàn)(References):

        [1] (美)Benoy Antony等著.Hadoop大數(shù)據(jù)解決方案 [M].清華大學(xué)出版社,2017.

        [2] 丁維龍等.Storm大數(shù)據(jù)流式計(jì)算及應(yīng)用實(shí)踐[M].電子工業(yè)出版社,2016.

        [3] 李嵩,李書琴,劉斌.改進(jìn)的協(xié)同過濾算法及其并行化實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2018.12:3853-3859

        [4] 曹超.基于用戶評論分析的推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué)碩士學(xué)位論文,2017.

        [5] 胡波.B公司基于協(xié)同過濾算法的零售商品推薦系統(tǒng)研究[D].北京交通大學(xué)碩士學(xué)位論文,2018.

        [6] 鄧園園,吳美香,潘家輝.基于物品的改進(jìn)協(xié)同過濾算法及應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019.1:182-187

        [7] 陳軍,謝衛(wèi)紅,陳揚(yáng)森.國內(nèi)外大數(shù)據(jù)推薦算法領(lǐng)域前沿動態(tài)研究[J].中國科技論壇,2018.1:173-181

        [8] 孫竹.基于商品關(guān)系改進(jìn)的協(xié)同過濾推薦算法[D].燕山大學(xué)碩士論文,2017.

        猜你喜歡
        大數(shù)據(jù)
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        色吊丝中文字幕| 国产乱人伦av在线a| 一二三四在线视频社区3| av草草久久久久久久久久久 | 国产91人妻一区二区三区| 国产成人无码精品久久二区三区| 亚洲精品无码高潮喷水在线| 无码伊人久久大香线蕉| 精品一区二区三区人妻久久福利| 亚洲av无码国产精品色午夜字幕 | 精品推荐国产精品店| AV在线毛片| 日本va中文字幕亚洲久伊人 | 国产又爽又黄又刺激的视频| 国产乱子伦露脸在线| 日本韩国黄色三级三级| 性色av色香蕉一区二区蜜桃| 欧美另类人妖| 国产精品天堂| 色噜噜精品一区二区三区 | 免费人成年激情视频在线观看 | 国产精品久久久久影视不卡| 少妇性l交大片免费1一少| 欧美性生交活xxxxxdddd| 韩国精品一区二区三区无码视频| 国产成人福利在线视频不卡| 日韩有码在线一区二区三区合集| 美丽人妻在夫前被黑人| 一区二区国产在线观看| 偷柏自拍亚洲综合在线| av天堂精品久久综合网| 国内精品伊人久久久久影院对白| 天堂在线观看av一区二区三区 | 免费人成视频网站在线观看不卡| 少妇连续高潮爽到抽搐| 777午夜精品免费观看| 精品欧美久久99久久久另类专区| 精品人妻av中文字幕乱| 日本高清视频永久网站www| 日本一本久道| 日韩精品一区二区在线视|