亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop 的大數(shù)據(jù)運營系統(tǒng)

        2021-07-16 10:07:26高海超常祎雯楊文峰馮學(xué)偉
        科學(xué)技術(shù)創(chuàng)新 2021年19期
        關(guān)鍵詞:歷史數(shù)據(jù)分布式向量

        高海超 常祎雯 楊文峰 馮學(xué)偉 鄧 哲 白 濤

        (延安大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院,陜西 延安 716000)

        1 概述

        當(dāng)下正處于大數(shù)據(jù)時代,用戶在網(wǎng)絡(luò)中的各種操作都會留下數(shù)據(jù),數(shù)據(jù)背后的價值性毋庸置疑。各行各業(yè)對挖掘數(shù)據(jù)價值的需求日益劇增。對于電商企業(yè)來說,用戶的點擊、分享、加購物車、收藏、購買等歷史數(shù)據(jù)可以對電商企業(yè)的發(fā)展和規(guī)劃起到極大地指導(dǎo)作用,能夠提高用戶黏度,增強用戶購物體驗,幫助企業(yè)實現(xiàn)更好的運營效果。

        為了更好的利用數(shù)據(jù)背后的價值,可利用計算機對歷史數(shù)據(jù)進行分析。由于數(shù)據(jù)龐大,需要算力極高??煽紤]采用分布式計算,以PC 機集群來對大數(shù)據(jù)進行處理,來彌補小型企業(yè)計算機性能低下的問題。同時采用分布式存儲,還能更好的對數(shù)據(jù)進行存儲及備份,提高系統(tǒng)容錯性。

        為使用戶在購物時,能夠得到系統(tǒng)推薦的,更貼合用戶需求的商品。則需要對用戶的過往操作數(shù)據(jù)進行分析,通過歷史數(shù)據(jù)得出規(guī)律,并為用戶推薦合適的商品是大數(shù)據(jù)運營系統(tǒng)最重要的目的。本文以商品推薦為例,通過Hadoop 分布式大數(shù)據(jù)處理框架,對銷售數(shù)據(jù)以及用戶行為數(shù)據(jù)進行清洗及分析,同時還使用Spark 提供的機器學(xué)習(xí)庫中的多種算法來訓(xùn)練模型,并通過模型計算得到推薦值。使得用戶在購物時,能夠從多種維度收到來自平臺的個性化推薦。以實現(xiàn)增強用戶的購物體驗,提高用戶黏度,進而增大平臺銷售量。

        2 分布式存儲

        由于本項目需要根據(jù)大量歷史數(shù)據(jù)進行分析,才能得到更好的推薦結(jié)果,面對大規(guī)模數(shù)據(jù),采用分布式的存儲是非常有必要的。Hadoop 提供的HDFS(Hadoop distributed file system)就是一個分布式文件系統(tǒng),如圖1 所示。

        圖1 HDFS 結(jié)構(gòu)圖

        將文件默認按128M分為多個block,進而存儲在多個Data Node 節(jié)點上,每個block 默認保存3 個備份。

        3 數(shù)據(jù)清洗

        數(shù)據(jù)清洗部分主要依賴于Hadoop 下的MapReduce 來進行,本項目編程語言使用Java,在開發(fā)過程中,可直接用Java 調(diào)用Hadoop 接口,覆寫map 和reduce 方法,根據(jù)實際數(shù)據(jù)及需求,來對數(shù)據(jù)進行清洗和補償。

        3.1 去重

        在數(shù)據(jù)處理過程中,發(fā)現(xiàn)存在一些操作數(shù)據(jù)產(chǎn)生時間相同,分析是系統(tǒng)運行過程中被惡意訪問,或者存在刷點擊量的行為,而這些行為數(shù)據(jù)對實際數(shù)據(jù)分析毫無用處,故需要對其進行清除,這里考慮使用MapReduce 將完全相同數(shù)據(jù)只讀取其中一個,將其它的無用數(shù)據(jù)進行清除,以達到去重目的。

        3.2 IP 地址補償

        由于需要按地域區(qū)分用戶,并按地域進行分析,故要對IP地址進行補償。將一串IP 地址其視為256 進制數(shù),然后將其轉(zhuǎn)為整型數(shù),將其視為地址最大數(shù),進而在0 和最大數(shù)中間隨機生成1 個數(shù),再通過位運算,將其轉(zhuǎn)為IP 地址格式,即可得出隨機IP 地址。

        4 數(shù)據(jù)分析

        根據(jù)用戶登陸與操作情況進行分析,設(shè)用戶操作分別為瀏覽、收藏、加購、付款四種類型,分別賦值1-4 分可得用戶評分向量。

        4.1 活躍用戶記錄

        活躍用戶記錄可利用位圖來實現(xiàn),以1 作為登錄,0 作為登錄,以此來記錄用戶的具體登錄情況。以此方法,可以將一個月的數(shù)據(jù)合并為一條數(shù)據(jù),這樣可以極大的減少數(shù)據(jù)的空間占用,同時實現(xiàn)對用戶活躍度的記錄。

        4.2 基于協(xié)同過濾的商品推薦

        基于用戶的協(xié)同過濾,通過不同用戶對物品的評分來評測用戶之間的相似性,基于用戶之間的相似性做出推薦,如圖2 所示。

        圖2 對相似用戶的物品推薦

        為實現(xiàn)以上算法,引入Co-occurrence Matrix(同現(xiàn)矩陣)與User Preference Vector(用戶評分向量),以同現(xiàn)矩陣與用戶評分向量相乘得到Recommended Vector(推薦向量)。最后按照排序高低對用戶進行推薦,如圖3 所示。

        圖3 基于協(xié)同過濾的商品推薦算法示意圖

        4.3 ALS(交替最小二乘法)

        直接調(diào)用Spark 的Mllib 庫中的算法實現(xiàn)。將用戶對商品的評分矩陣分解為2 個矩陣分別設(shè)為X 與Y。

        隨機生成X,Y,固定Y,使用公式3 更新Xu,固定X,使用公式(4)更新Yi,重復(fù)交替執(zhí)行公式(3)和公式(4),直到均方根誤差RMSE 收斂。ALS 算法流程圖如圖4 所示。

        圖4 ALS 算法流程圖

        5 結(jié)論

        以HDFS 作為存儲系統(tǒng),借助kafka 與flume 對數(shù)據(jù)進行采集,之后調(diào)用Spark 的Mllib,使用位圖、同現(xiàn)矩陣、ALS(交替最小二乘法)等算法實現(xiàn)了對數(shù)據(jù)進行處理與分析,并得到推薦結(jié)果。對提升用戶體驗與增強用戶黏性,做出了巨大的幫助。

        猜你喜歡
        歷史數(shù)據(jù)分布式向量
        基于充電策略估算動力電池容量的方法
        汽車電器(2025年1期)2025-02-03 00:00:00
        向量的分解
        基于設(shè)備PF性能曲線和設(shè)備歷史數(shù)據(jù)實現(xiàn)CBM的一個應(yīng)用模型探討
        智能制造(2021年4期)2021-11-04 08:54:36
        基于故障歷史數(shù)據(jù)和BP神經(jīng)網(wǎng)絡(luò)的接地選線方案研究
        聚焦“向量與三角”創(chuàng)新題
        分布式光伏熱錢洶涌
        能源(2017年10期)2017-12-20 05:54:07
        基于Hadoop技術(shù)實現(xiàn)銀行歷史數(shù)據(jù)線上化研究
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        最近中文字幕完整版免费| 五月婷婷丁香视频在线观看| 国产熟人精品一区二区| 内射欧美老妇wbb| 日韩综合无码一区二区| 人成午夜免费视频无码| 中文乱码字慕人妻熟女人妻| 欧美激情在线不卡视频网站| 久久精品国产热久久精品国产亚洲 | 国产精品内射后入合集| 午夜无码片在线观看影院y| 熟妇人妻精品一区二区视频| 中文字字幕人妻中文| 啦啦啦www播放日本观看| 欧洲在线一区| 日韩亚洲午夜精品一区二区三区| 韩国一区二区三区黄色录像| 日本va欧美va精品发布| 欧美极品少妇性运交| 国产经典免费视频在线观看| 免费观看国产激情视频在线观看 | 人人妻人人澡人人爽欧美一区| 熟女熟妇伦av网站| 国产美女白浆| 女优视频一区二区三区在线观看| 91精品国产综合久久熟女| 国产七十六+老熟妇| 一群黑人大战亚裔女在线播放| 无码国产一区二区色欲| 国内自拍偷国视频系列| 高清不卡一区二区三区| 欧美黑人巨大xxxxx| 三级国产女主播在线观看| 免费视频一区二区三区美女| 无码人妻h动漫中文字幕| 青青草97国产精品免费观看| 在线视频青青草猎艳自拍69| 亚洲一区二区精品在线| 中文字幕在线日亚洲9| 国产精品亚洲欧美天海翼| 中文字幕日韩一区二区不卡|