亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的電商用戶行為分析系統(tǒng)設(shè)計與實現(xiàn)

        2021-06-28 10:15:00
        宿州教育學(xué)院學(xué)報 2021年3期
        關(guān)鍵詞:轉(zhuǎn)化率分布式電商

        陳 偉

        (宿州職業(yè)技術(shù)學(xué)院計算機信息系 安徽·宿州 234101)

        隨著移動互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)上購物日益普及,網(wǎng)購數(shù)據(jù)規(guī)模呈幾何級增長。中國互聯(lián)網(wǎng)絡(luò)信息中心2020年9月29日發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》[1]中顯示,截至2020年6月,我國網(wǎng)絡(luò)購物用戶規(guī)模達7.49億,較2020年3月增長3912萬,占網(wǎng)民整體的79.7%。電商用戶行為數(shù)據(jù)中蘊含著大量有價值的信息,對海量行為數(shù)據(jù)進行挖掘分析得出用戶行為規(guī)律并進行決策制定,對電商企業(yè)來說尤為重要。傳統(tǒng)的單機處理及關(guān)系數(shù)據(jù)庫已無法滿足大規(guī)模數(shù)據(jù)處理和分析需求,大數(shù)據(jù)技術(shù)的出現(xiàn)為海量數(shù)據(jù)的存儲、分析等提供了技術(shù)支撐。文獻[2]利用Hadoop設(shè)計用戶行為分析引擎,并與傳統(tǒng)單機處理進行對比,處理效率優(yōu)勢明顯;文獻[3]介紹了網(wǎng)絡(luò)用戶消費行為大數(shù)據(jù)分析對電商營銷策略的影響;文獻[4-8]詳細(xì)闡述了Hadoop分布式架構(gòu)及數(shù)據(jù)分析方法,文獻[9]利用Hadoop設(shè)計了用戶行為分析系統(tǒng),提高了分析效率;文獻[10]設(shè)計的移動用戶上網(wǎng)行為分析系統(tǒng)能夠幫助運營商準(zhǔn)確定位用戶需求,為用戶提供個性化服務(wù)。本文在上述研究的基礎(chǔ)上,從電商用戶行為入手,展開對Hadoop電商用戶行為系統(tǒng)的研究。

        一、相關(guān)技術(shù)

        Hadoop是Apache公司的一個分布式系統(tǒng)基礎(chǔ)架構(gòu)[11][12],擁有高可靠性、高擴展性、高效性、低成本等特點[13],主要包括HDFS(Hadoop Distributed File System)分布式文件系統(tǒng)和MapReduce分布式計算框架,利用Hadoop集群可以實現(xiàn)海量數(shù)據(jù)的高速存儲和并行計算, 與傳統(tǒng)數(shù)據(jù)庫系統(tǒng)相比,Hadoop在大數(shù)據(jù)處理方面具有諸多優(yōu)勢[14-15]。Hadoop生態(tài)圈中還包含其他開源的子項目,如分布式數(shù)據(jù)倉庫Hive,分布式協(xié)調(diào)服務(wù)Zookeeper,分布式、按列存儲數(shù)據(jù)庫HBase等,如圖1所示。

        圖1 Hadoop生態(tài)圈

        HDFS分布式文件系統(tǒng)采用流式數(shù)據(jù)存儲,部署成本較低,能夠運行在廉價的硬件上,具有高容錯、低成本、高性能、高吞吐量等特點[16],主要用于大數(shù)據(jù)的分布式存儲。HDFS采用主從結(jié)構(gòu),包含一個名字節(jié)點NameNode和若干個數(shù)據(jù)節(jié)點DataNode[17],名字節(jié)點負(fù)責(zé)存儲元數(shù)據(jù),真實數(shù)據(jù)存儲在數(shù)據(jù)節(jié)點。HDFS把文件分割為多個數(shù)據(jù)塊進行存儲,采用副本機制,把塊數(shù)據(jù)復(fù)制多個副本存儲在不同節(jié)點,實現(xiàn)數(shù)據(jù)的分布存儲,提高數(shù)據(jù)讀寫的效率,保證了數(shù)據(jù)的可靠性。

        MapReduce分布式計算框架主要用于大規(guī)模數(shù)據(jù)的并行計算,分為Map和Reduce兩個階段,提供了簡便的分布式計算編程模型,程序員無須關(guān)心MapReduce分布式處理細(xì)節(jié),只需按照MapReduce規(guī)范編寫程序?qū)崿F(xiàn)Map函數(shù)和Reduce函數(shù)業(yè)務(wù)邏輯,系統(tǒng)便能在集群節(jié)點上自動分配和執(zhí)行任務(wù),完成數(shù)據(jù)的并行計算和處理[18]。

        Hive是基于Hadoop的數(shù)據(jù)倉庫架構(gòu),可以實現(xiàn)大規(guī)模數(shù)據(jù)的查詢和統(tǒng)計分析。Hive將數(shù)據(jù)映射為數(shù)據(jù)庫中的表,利用類似SQL的HiveQL查詢語言實現(xiàn)查詢分析功能,HiveQL語句會在執(zhí)行時自動轉(zhuǎn)化為MapReduce任務(wù)在Hadoop集群上執(zhí)行[16]。Hive本身不具備存儲功能,所有數(shù)據(jù)存儲在HDFS中,元數(shù)據(jù)則保存在關(guān)系數(shù)據(jù)庫中。Hive處理大規(guī)模數(shù)據(jù)集時延遲較高,不適用于數(shù)據(jù)的實時查詢,主要用于數(shù)據(jù)離線分析、日志分析,如電商網(wǎng)站用戶行為分析。

        二、系統(tǒng)設(shè)計和實現(xiàn)

        (一)系統(tǒng)架構(gòu)設(shè)計

        本文系統(tǒng)主要實現(xiàn)用戶行為的統(tǒng)計和行為分析,主要功能包括數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)可視化等,系統(tǒng)整體架構(gòu)如圖2,系統(tǒng)數(shù)據(jù)處理流程如圖3。

        圖2 系統(tǒng)整體架構(gòu)

        圖3 系統(tǒng)數(shù)據(jù)流圖

        采集層:利用Flume采集電商服務(wù)器端用戶行為數(shù)據(jù),把數(shù)據(jù)處理后發(fā)送至HDFS。

        存儲層:用戶行為數(shù)據(jù)采集上傳至HDFS存儲,導(dǎo)入到數(shù)據(jù)倉庫Hive進行計算處理,分析結(jié)果保存至MySql數(shù)據(jù)庫中。

        計算層:根據(jù)分析需求建立分析需求模型,利用HiveQL啟動集群MapReduce任務(wù)對預(yù)先處理后用戶行為數(shù)據(jù)進行分析處理,挖掘用戶行為規(guī)律。服務(wù)層:處于展示層和計算層之間,利用Python語言編寫程序,把計算層分析結(jié)果傳送至展示層。

        展示層:根據(jù)MySql中保存的計算結(jié)果,利用pyecharts可視化工具把用戶行為數(shù)據(jù)以圖表形式呈現(xiàn),方便分析者快速理解和分析數(shù)據(jù)。

        Sqoop是一款開源的分布式數(shù)據(jù)遷移工具,主要用于Hive與傳統(tǒng)關(guān)系數(shù)據(jù)庫間數(shù)據(jù)傳遞。本文采用Sqoop工具實現(xiàn)Hive與Mysql的數(shù)據(jù)互導(dǎo),為pyecharts數(shù)據(jù)可視化提供數(shù)據(jù)來源。

        (二)系統(tǒng)實現(xiàn)

        1.系統(tǒng)部署

        為簡化系統(tǒng)部署,該系統(tǒng)采用VMware虛擬機方式搭建Hadoop分布式集群,集群中1個master節(jié)點作為NameNode和2個slave節(jié)點作為DateNode,節(jié)點操作系統(tǒng)均安裝64位ubuntu16.04LTS,安裝Hadoop、Hive、Sqoop、JDK、MySQL等軟件,并完成相關(guān)配置。

        在windows宿主機上安裝Python3.8,通過pip工具安裝pyecharts和Jupyter Notebook, 利用Jupyter Notebook可執(zhí)行編寫好的python程序生成pyecharts圖表,實現(xiàn)數(shù)據(jù)可視化。

        2.數(shù)據(jù)預(yù)處理

        本次用戶分析使用阿里云天池數(shù)據(jù)進行模擬,數(shù)據(jù)集為UserBehavior.csv,為淘寶2017年11月25日至2017年12月3日共9天的用戶行為記錄。該數(shù)據(jù)集約1億條記錄(100,150,807),包含用戶數(shù)量987,994個,每條記錄由用戶ID、商品ID、商品類目ID、行為類型和時間戳組成。把數(shù)據(jù)集上傳至HDFS中進行存儲,在Hive中創(chuàng)建數(shù)據(jù)庫User_Behavior,根據(jù)數(shù)據(jù)集中字段創(chuàng)建用戶行為臨時表user_1,通過HiveQL語句對數(shù)據(jù)集中數(shù)據(jù)進行空值及重復(fù)值處理,利用Hive中日期函數(shù)把times時間戳字段進行轉(zhuǎn)換,得到日期、小時以備分析數(shù)據(jù)使用。處理后數(shù)據(jù)寫入新表user_action,字段結(jié)構(gòu)如下表1所示。

        表1 user_ac t i on表結(jié)構(gòu)f

        其中,用戶行為類型字段的值包括pv(瀏覽)、cart(加購物車)、fav(收藏)、buy(下單)。數(shù)據(jù)集中存在當(dāng)前時間范圍之外的不符合規(guī)定的異常數(shù)據(jù),需要進行清除,最后預(yù)處理完后的數(shù)據(jù)記錄數(shù)為100,095,133條。

        3.數(shù)據(jù)分析

        (1)統(tǒng)計每日新增首次下單用戶。以2017年11月25日為第一天開始計算。

        統(tǒng)計結(jié)果如圖4,9天中每天都有新用戶下單,每日下單數(shù)在減少,到12月2日周六時有所回升,推測應(yīng)該是與周末促銷活動刺激有關(guān)。

        圖4 每日新增首次下單用戶情況

        (2)統(tǒng)計新增下單用戶的留存情況。統(tǒng)計每天新增下單用戶的次日、3日、5日、7日留存用戶數(shù)和留存率,進而分析淘寶下單用戶的流失情況,如圖5所示。結(jié)果表明,淘寶用戶的次日、3日、5日、7日留存率基本維持在20%左右,網(wǎng)站可根據(jù)留存率情況分析用戶流失原因,進行適時的策略調(diào)整。

        圖5 用戶留存情況

        (3)用戶行為轉(zhuǎn)化

        行為轉(zhuǎn)化(PV):PV是用戶瀏覽商品詳情頁面的點擊數(shù)總和,根據(jù)PV瀏覽記錄、收藏+加購記錄、購買記錄來構(gòu)建行為轉(zhuǎn)化模型。匯總所有用戶行為結(jié)果如圖6。瀏覽到有購買意向階段轉(zhuǎn)化率為9.39%((fav+cart)/pv),瀏覽到購買轉(zhuǎn)化率為2.25%(buy/pv),說明購買商品前用戶會有大量的商品詳情頁點擊瀏覽,約為44次 (pv/buy=89660654/2015775)。如果能夠根據(jù)用戶需求個性推薦,可提高轉(zhuǎn)化率,減少用戶瀏覽成本。

        圖6 用戶行為匯總

        用戶轉(zhuǎn)化(UV):UV為訪問商品頁面的獨立訪客數(shù),用戶轉(zhuǎn)化率是下單購買用戶占總瀏覽用戶的比例,分析結(jié)果如圖7,從瀏覽商品詳情頁到夠買的用戶轉(zhuǎn)化率達68.3%(buy/pv),可見淘寶網(wǎng)站用戶轉(zhuǎn)化率較高,說明平臺用戶體驗、產(chǎn)品服務(wù)、用戶需求、信任度等各方面得到用戶認(rèn)可。

        圖7 獨立訪客用戶行為

        (4)每天用戶行為情況

        由圖8可見,9天中前7天的用戶活躍情況相對平穩(wěn),到12月2日和3日收藏數(shù)、加購數(shù)、購買數(shù)都出現(xiàn)小幅增長,尤其加購數(shù)增幅明顯,對比同為周末的11月25日和26日的表現(xiàn),推測后個周末可能會有促銷活動或與雙十二大促有關(guān),用戶數(shù)、訪問量大幅增加,加購數(shù)增幅較大說明用戶正為促銷時批量購買商品做好準(zhǔn)備。

        圖8 每天用戶行為情況

        (5)各時段用戶行為情況

        為了能夠更客觀地分析不同時段的用戶行為,把9天中的各個時段數(shù)據(jù)匯總一起來觀察各個用戶行為變化趨勢,如圖9所示。

        圖9 每時段用戶行為情況

        可見,訪問量、用戶數(shù)等5項指標(biāo)變化趨勢基本吻合,0點到3點各項指標(biāo)急劇下滑,4點到達最低值,5點到10點逐步回升,10點至18點相對平穩(wěn),18點迅速上升,到21、22點到達最高峰,22點以后又開始下降。這也符合人們正常作息時間規(guī)律,從轉(zhuǎn)化率角度來看上午10點左右點擊-購買和(收藏+加購)-購買行為路徑轉(zhuǎn)化率最高,而用戶數(shù)高峰時段轉(zhuǎn)化率卻在降低,如圖10所示。因此,可以考慮在18點至22點之間推出力度較大的促銷活動或上架新商品等方式來提高轉(zhuǎn)化率。

        圖10 各個時段轉(zhuǎn)化率

        結(jié) 語

        利用Hadoop平臺設(shè)計電商用戶行為分析系統(tǒng),對HDFS、Hive等關(guān)鍵技術(shù)進行了闡述,從數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)存儲等方面入手進行系統(tǒng)設(shè)計,以淘寶用戶行為數(shù)據(jù)集為例詳細(xì)介紹了數(shù)據(jù)分析處理的實現(xiàn)過程,最后對數(shù)據(jù)處理結(jié)果進行存儲并可視化。結(jié)果表明該系統(tǒng)能夠根據(jù)用戶行為習(xí)慣、用戶行為轉(zhuǎn)化等不同維度對用戶行為進行挖掘分析,可為電商平臺調(diào)整營銷策略、提升用戶體驗等方面提供參考建議和數(shù)據(jù)支撐。本文主要是利用Hadoop技術(shù)進行離線數(shù)據(jù)的分析,下一步工作將進一步優(yōu)化該系統(tǒng),實現(xiàn)日志數(shù)據(jù)的實時分析和處理。

        猜你喜歡
        轉(zhuǎn)化率分布式電商
        電商助力“種得好”也“賣得火”
        我國全產(chǎn)業(yè)領(lǐng)域平均國際標(biāo)準(zhǔn)轉(zhuǎn)化率已達75%
        電商鄙視鏈中的拼多多
        分布式光伏熱錢洶涌
        能源(2017年10期)2017-12-20 05:54:07
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        曲料配比與米渣生醬油蛋白質(zhì)轉(zhuǎn)化率的相關(guān)性
        基于DDS的分布式三維協(xié)同仿真研究
        雷達與對抗(2015年3期)2015-12-09 02:38:50
        透視化學(xué)平衡中的轉(zhuǎn)化率
        電商下鄉(xiāng)潮
        機電信息(2015年28期)2015-02-27 15:57:42
        西門子 分布式I/O Simatic ET 200AL
        国产女人体一区二区三区| 无人视频在线观看免费播放影院 | 99久久久无码国产精品免费砚床| 亚洲高清有码在线观看| 亚洲不卡高清av在线| 亚洲youwu永久无码精品| 亚洲综合精品伊人久久| 国产av国片精品jk制服| 人妻少妇被猛烈进入中文字幕| 中文字幕Aⅴ人妻一区二区苍井空| 在线亚洲免费精品视频| 亚洲一区二区在线观看网址| 久久综合狠狠色综合伊人| 国产精品成人嫩妇| 激情视频在线播放一区二区三区| 久久精品国产熟女亚洲| 2020年国产精品| 亚洲VA不卡一区| 久久亚洲国产高清av一级| 色与欲影视天天看综合网| 日本阿v网站在线观看中文| 九一成人AV无码一区二区三区| 美女和男人一起插插插| 男人的天堂av网站| 富婆如狼似虎找黑人老外| 亚洲精品一品二品av| 亚洲一区二区三区四区地址| 午夜性无码专区| 国产精品偷伦免费观看的| 91热久久免费频精品99| 久久精品国产亚洲av果冻传媒| 亚洲精品久久久久久动漫| 亚洲AV永久无码精品表情包| 精品国产一区二区三区性色| 国产亚洲aⅴ在线电影| 台湾佬自拍偷区亚洲综合| 亚洲中文欧美日韩在线| 在线亚洲精品中文字幕美乳色| 亚洲午夜成人精品无码色欲 | 国产成人亚洲综合| 性饥渴艳妇性色生活片在线播放|