亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)于推薦系統(tǒng)的數(shù)據(jù)存儲(chǔ)研究

        2015-09-16 08:22:09何文娟錢亞彬
        現(xiàn)代計(jì)算機(jī) 2015年12期
        關(guān)鍵詞:用戶產(chǎn)品信息

        徐 彬,何文娟,錢亞彬

        關(guān)于推薦系統(tǒng)的數(shù)據(jù)存儲(chǔ)研究

        徐彬,何文娟,錢亞彬

        (河南大學(xué)計(jì)算機(jī)與信息工程學(xué)院,開封475000)

        隨著互聯(lián)網(wǎng)的快速發(fā)展,電子商務(wù)行業(yè)的豐富化加劇,推薦系統(tǒng)被廣大用戶和網(wǎng)站運(yùn)營商所接受。而隨著大數(shù)據(jù)時(shí)代的來臨,推薦系統(tǒng)面臨的不僅僅是對(duì)產(chǎn)品的需求更多的是對(duì)速度的追求,經(jīng)過對(duì)傳統(tǒng)數(shù)據(jù)存儲(chǔ)算法的研究,給出基于RCFile的數(shù)據(jù)存儲(chǔ)來解決該類問題。

        存儲(chǔ);RCFile;RDSR;推薦系統(tǒng)

        0 引言

        隨著互聯(lián)網(wǎng)的快速發(fā)展,電子商務(wù)行業(yè)也隨之急速地發(fā)展,人們面臨著多樣化的商品選擇,這就意味著人們的選擇范圍越來越大,更多的商品是不能快速地被顧客看到的。這種電子商務(wù)的背景下,推薦系統(tǒng)服務(wù)正在以一種十分迅速的方式進(jìn)入人們的視線,與此同時(shí)爆炸式的數(shù)據(jù)也充斥在電子商務(wù)中間,新加入用戶的數(shù)據(jù)越來越多,新加入的產(chǎn)品信息也越來越多,對(duì)于推薦系統(tǒng)來說,新用戶的加入、新的產(chǎn)品的加入有很多,另外針對(duì)推薦系統(tǒng)的推薦算法,數(shù)據(jù)的查詢也同樣需要一種合適的存儲(chǔ)算法來加快查詢的效率。本文將引入一種高效的存儲(chǔ)算法,以便于能夠更有效地處理推薦系統(tǒng)中的用戶和產(chǎn)品數(shù)據(jù),使得推薦系統(tǒng)能夠更加快速地添加、查詢用戶和產(chǎn)品的信息。

        1 國內(nèi)外研究背景

        目前國內(nèi)外的推薦系統(tǒng)針對(duì)大數(shù)據(jù)的環(huán)境,通常運(yùn)用開源的框架Hadoop來架構(gòu)系統(tǒng),用來處理大規(guī)模的數(shù)據(jù)集[1],Hadoop是由HDFS和MapReduce兩個(gè)核心部分組成,即包括了分布式文件系統(tǒng)和編程模型兩個(gè)部分。

        MapReduce是Hadoop的數(shù)據(jù)處理部分也稱為編程模型[2],是運(yùn)用在大規(guī)模的數(shù)據(jù)集合中的重要技術(shù)。MapReduce包含了兩個(gè)部分:Map(映射)和Reduce(歸約)。

        2 推薦系統(tǒng)

        2.1基本概念

        推薦系統(tǒng)是電子商務(wù)網(wǎng)站通過對(duì)用戶的行為分析,給用戶提供推薦服務(wù)的系統(tǒng),使得用戶能夠更快速更準(zhǔn)確地找到適合自己的產(chǎn)品,這種推薦的行為是模擬銷售人員向顧客推薦產(chǎn)品幫助購買的過程。

        推薦系統(tǒng)的定義為利用函數(shù)計(jì)算目標(biāo)用戶的推薦度(如用戶的評(píng)價(jià)和鄰居用戶的評(píng)價(jià)等),其中需要用到所有的用戶的集合,通過函數(shù)計(jì)算出給目標(biāo)用戶推薦的產(chǎn)品集合[3]。公式如下:

        (4)應(yīng)用精準(zhǔn)化鉆井系統(tǒng)軟件對(duì)多口施工井進(jìn)行技術(shù)方案的編寫、制定,并根據(jù)與現(xiàn)場實(shí)際的貼合度進(jìn)行反饋和修正。

        較為經(jīng)常用到的推薦算法有:基于協(xié)同過濾推薦、基于內(nèi)容推薦、基于關(guān)聯(lián)規(guī)則推薦、混合型推薦等。

        (1)基于系統(tǒng)過濾推薦:提取出系統(tǒng)中與被推薦用戶有著相同愛好的用戶的歷史評(píng)論和購買行為,預(yù)測出被推薦用戶的可能喜歡的產(chǎn)品。

        (2)基于內(nèi)容推薦:提取出系統(tǒng)中被推薦用戶自己的行為,跟蹤用戶的行為數(shù)據(jù),通過這些數(shù)據(jù)推測出用戶可能喜歡的產(chǎn)品。

        (3)基于關(guān)聯(lián)規(guī)則推薦:提取出系統(tǒng)中不同產(chǎn)生關(guān)聯(lián)的信息,將這些信息運(yùn)用到被推薦用戶的推薦中,給被推薦用戶推薦與他已經(jīng)購買的產(chǎn)品相關(guān)聯(lián)的其他的產(chǎn)品。

        (4)混合型推薦:鑒于這些常用的推薦算法都有一定的缺點(diǎn),在實(shí)際運(yùn)用中并不能達(dá)到我們的要求,因此,實(shí)際的推薦系統(tǒng)大多把不同的推薦算法進(jìn)行結(jié)合。

        2.2推薦系統(tǒng)數(shù)據(jù)處理要求

        由于使用推薦系統(tǒng)的用戶需要的是能夠快速地加入系統(tǒng)[4],這就意味著需要一種能夠?qū)?shù)據(jù)快速載入的存儲(chǔ)方式,這種需求在大數(shù)據(jù)的環(huán)境下顯得更為重要,人們要求數(shù)據(jù)的加載時(shí)間要更加的短暫。

        通過上文介紹的推薦系統(tǒng)的幾種推薦算法可以得知,推薦系統(tǒng)的推薦算法很多都是基于提取出已有的信息為基礎(chǔ),將已經(jīng)提取出的信息進(jìn)行解析計(jì)算,來得出被推薦用戶所需要的產(chǎn)品,針對(duì)這樣一種情況我們需要一種能符合實(shí)時(shí)查詢請(qǐng)求和高并發(fā)用戶提交查詢的優(yōu)化算法,這就需要底層的存儲(chǔ)結(jié)構(gòu)能夠在查詢不斷增加時(shí)還能夠擁有較高的查詢處理速度。

        3 傳統(tǒng)的數(shù)據(jù)處理策略

        3.1行存儲(chǔ)

        行存儲(chǔ)(Row-store)是目前推薦系統(tǒng)最常用的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)[5],是按照行的方式儲(chǔ)存數(shù)據(jù)的,在推薦系統(tǒng)中根據(jù)用戶或者產(chǎn)品的加入時(shí)間,按次序?qū)⑺鼈円来闻帕?,在傳統(tǒng)的數(shù)據(jù)存儲(chǔ)算法中,行存儲(chǔ)是主要的方式,其中的數(shù)據(jù)都按一樣的格式存儲(chǔ),如圖1所示。

        3.2列存儲(chǔ)

        列存儲(chǔ)將數(shù)據(jù)以列的方式進(jìn)行存儲(chǔ)[6],這種存儲(chǔ)方式對(duì)于列的讀取有一定的優(yōu)化作用,將每一列放到一個(gè)子關(guān)系中或者將相關(guān)的列放入到不同的列組(這種情況下有列組之間有重疊),如圖2所示。

        圖1 

        圖2 

        4 基于RCFile的推薦系統(tǒng)數(shù)據(jù)存儲(chǔ)算法

        本文介紹的RCFile算法是一種類似于PAX混合存儲(chǔ)算法的算法,先利用水平分組,再豎直分組的方式來進(jìn)行存儲(chǔ)。與行存儲(chǔ)相似的地方在于,RCFile的同一行信息都在一個(gè)節(jié)點(diǎn)上,另外與列存儲(chǔ)不同的地方在于,RCFile能夠垂直地進(jìn)行數(shù)據(jù)壓縮,并能不讀取不必要的列信息,如圖3所示。

        4.1算法原理

        推薦系統(tǒng)在大數(shù)據(jù)環(huán)境下由于其新加入用戶數(shù)量龐大,和產(chǎn)品的數(shù)量龐大這一特征,在數(shù)據(jù)的存儲(chǔ)和查詢中會(huì)產(chǎn)生很多的數(shù)據(jù),如果數(shù)據(jù)過多會(huì)導(dǎo)致網(wǎng)絡(luò)堵塞,無法快速地處理數(shù)據(jù),有時(shí)也有可能造成數(shù)據(jù)丟失,這就使得之后的數(shù)據(jù)分析算法不夠準(zhǔn)確。本文基于存儲(chǔ)特征數(shù)據(jù)的推薦系統(tǒng)的特點(diǎn),針對(duì)協(xié)同過濾算法提出了一種基于RCFile的推薦系統(tǒng)數(shù)據(jù)存儲(chǔ)算法(Recommender System Data Storage based on RCFile,RDSR)。RDSD算法的基本思想是:針對(duì)協(xié)同過濾算法將用戶的評(píng)價(jià)信息按照相同的數(shù)據(jù)類型,先按照行的存儲(chǔ)方式存儲(chǔ),使同一類數(shù)據(jù)放在同一個(gè)節(jié)點(diǎn)上,然后,使用列存儲(chǔ)的優(yōu)勢(shì)將每個(gè)列分開獨(dú)立壓縮,并在讀取數(shù)據(jù)時(shí)能夠跳過不必要的列。

        圖3 

        4.2數(shù)據(jù)集的選擇

        為了驗(yàn)證本文提出的基于RC Flies的推薦系統(tǒng)數(shù)據(jù)存儲(chǔ)的算法的改進(jìn),本文在DataNode節(jié)點(diǎn)固定的條件下,不同用戶moviepilot數(shù)據(jù)輸入測試系統(tǒng),本部分實(shí)驗(yàn)分為四個(gè)不同的數(shù)據(jù)集的數(shù)量進(jìn)行。首先,以用戶為單位從Moviepilot數(shù)據(jù)庫中分別抽取100個(gè)用戶、200個(gè)用戶、500個(gè)用戶、1000個(gè)用戶和2000個(gè)用戶,以此作為本節(jié)實(shí)驗(yàn)的測試數(shù)據(jù)集,選取的數(shù)據(jù)集中包含了上萬部電影以及用戶對(duì)電影的評(píng)分(評(píng)分及評(píng)價(jià)的電影數(shù)量都不同)。

        4.3實(shí)驗(yàn)結(jié)果分析

        對(duì)于上文中提到的數(shù)據(jù),使用行存儲(chǔ)、列存儲(chǔ)和RCFile存儲(chǔ),分別對(duì)數(shù)據(jù)運(yùn)行協(xié)同過濾推薦算法,得出了不同的數(shù)據(jù)集在不同節(jié)點(diǎn)上的對(duì)比時(shí)間,具體結(jié)果如圖4:

        圖4 

        根據(jù)上圖所示我們可以很清楚地看出本文所提到的基于RCFile的RDSR算法,相比于行存儲(chǔ)和列存儲(chǔ)在數(shù)據(jù)量越來越大的情況下有很明顯的優(yōu)勢(shì),這能夠很好地驗(yàn)證本文提出的觀點(diǎn)。

        5 結(jié)語

        本文給出了基于RCFile的推薦系統(tǒng)數(shù)據(jù)存儲(chǔ)的研究,選擇了基于RCFile的RDSR算法,與行存儲(chǔ)和列存儲(chǔ)進(jìn)行比較,得出的結(jié)果是RDSR算法能夠使得推薦系統(tǒng)能夠更快速的使用推薦算法。該算法能夠在一定情況下解決推薦系統(tǒng)所面臨的實(shí)際問題具有一定的實(shí)際意義。

        [1]于利勝,張延松,王珊等.基于行存儲(chǔ)模型的模擬列存儲(chǔ)策略研究.計(jì)算機(jī)研究與展.ISSN100021239/CN1121777/TP 47(5): 8782885,2010

        [2]Goldberg D,Nichols D,Oki BM,et al.Using Collaborative Filtering to Weave an Information Tapesty[J].Communications of the ACM 2002,35(12):61~70

        [3]Konstan JA,Miller BN,Maltz D,et al.GroupLens:Applying Collaborative Filtering to Usenet News[J].Communications of the ACM, 2012,40(3):77~78

        [4]Goldberg K.Roeder T,Gupta D,et al.Eigentaste:A Constant Time Collaboratve Filtering Algorithm[J].Information Retrieval J,2009,4(2):133~151

        [5]S.Ghemawat.H.Gobioff,S,Leung.The Google File System[C].In Proc.of ACM Symposium on Operating Systems Principles,Lake George, NY,Oct 2003:29~43

        [6]Lith,Adam,Mattsson,Jakob.Investigating Storage Solutions for Large Data-A Comparison of Well Performing and Scalable Data Storage Solutions for Real Time Extraction and Batch Insertion of Data,2010

        Storage;RCFile;RDSR;Recommendation System

        Research on Data Store of Recommendation System

        XU Bin,HE Wen-juan,QIAN Ya-bin

        (College of Computer and Information Engineering,Henan University,Kaifeng 475000)

        With the development of Internet,e-commerce industry increases rapidly,recommendation system is accepted by users and Website operators.With the advent of the era of big data,the recommendation system faces more than just demand for the speed of product,through the study of traditional data storage algorithm,gives RCFile based data storage to solve the issues.

        1007-1423(2015)12-0030-04

        10.3969/j.issn.1007-1423.2015.12.007

        徐彬(1966-),男,河南新鄉(xiāng)人,高級(jí)工程師,本科,研究方向?yàn)殡娮由虅?wù)

        何文娟(1988-),女,河南開封人,在讀研究生,研究方向?yàn)橛?jì)算機(jī)應(yīng)用技術(shù)

        錢亞彬(1990-),男,河南開封人,在讀研究生,研究方向?yàn)橛?jì)算機(jī)技術(shù)

        2015-03-26

        2015-04-03

        猜你喜歡
        用戶產(chǎn)品信息
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        2015產(chǎn)品LOOKBOOK直擊
        Coco薇(2015年1期)2015-08-13 02:23:50
        如何獲取一億海外用戶
        展會(huì)信息
        新產(chǎn)品
        玩具(2009年10期)2009-11-04 02:33:14
        產(chǎn)品
        下一個(gè)酷產(chǎn)品是什么
        舒適廣告(2008年9期)2008-09-22 10:02:48
        久久久久亚洲av无码网站| 91伦理片视频国产精品久久久| 97se亚洲国产综合在线| 国产精品国产成人国产三级| 亚洲国产成人手机在线电影| 国产精品成人av在线观看| 国内精品久久久久久无码不卡| 99久久综合国产精品免费| 按摩少妇高潮在线一区| 中文字幕av长濑麻美| 久久久久亚洲精品男人的天堂| 久久丫精品国产亚洲av不卡 | 精品久久久久久无码人妻蜜桃| 区二区欧美性插b在线视频网站| 无码av专区丝袜专区| 亚洲福利二区三区四区| 妃光莉中文字幕一区二区| 又大又粗欧美黑人aaaaa片| 日日躁夜夜躁狠狠躁超碰97| 欧美日韩国产高清| 亚洲成人精品在线一区二区| 亚洲中文字幕无码中文字| 自拍偷自拍亚洲精品播放| 一区二区三区在线观看日本视频| 上海熟女av黑人在线播放| 国产一区二区内射最近更新| 国内精品久久久久久久久齐齐| 2022AV一区在线| 91久久国产香蕉视频| 无码任你躁久久久久久久| 精品国产一区二区三区AV小说 | 国产成+人+综合+亚洲欧美丁香花| 97se亚洲国产综合自在线图片| 亚洲av乱码一区二区三区观影| 国产免费三级av在线| av无码久久久久不卡网站下载| 国产激情无码Av毛片久久| 久久伊人精品中文字幕有| 久久99精品久久水蜜桃| 99ri国产在线观看| 免费蜜桃视频在线观看|