亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺構(gòu)建

        2019-03-06 10:22:26蔡艷婧
        關(guān)鍵詞:數(shù)據(jù)源數(shù)據(jù)挖掘分布式

        蔡艷婧,王 強(qiáng),程 實(shí)

        (1.南通大學(xué),江蘇 南通 226019;2.江蘇商貿(mào)職業(yè)學(xué)院,江蘇 南通 226011)

        0 引 言

        隨著互聯(lián)網(wǎng)快速發(fā)展,用戶利用網(wǎng)絡(luò)技術(shù)可體驗(yàn)到多樣化、高速率的網(wǎng)絡(luò)服務(wù)[1]?;ヂ?lián)網(wǎng)中的用戶呈現(xiàn)爆炸式增長,用戶在網(wǎng)絡(luò)上產(chǎn)生海量的數(shù)據(jù),構(gòu)建大數(shù)據(jù)分析平臺能夠從大量數(shù)據(jù)中分析出用戶上網(wǎng)的共性與個(gè)性特征,挖掘用戶上網(wǎng)內(nèi)容偏好等行為習(xí)慣規(guī)律[2],提升網(wǎng)絡(luò)資源配置。完整、高效的大數(shù)據(jù)分析平臺為大數(shù)據(jù)運(yùn)用提供一站式基本服務(wù)[3],對實(shí)現(xiàn)網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)的準(zhǔn)確分析具有重要意義。

        文獻(xiàn)[4]基于大數(shù)據(jù)處理技術(shù)的AIS應(yīng)用研究,只利用彈性數(shù)據(jù)集構(gòu)建分布式數(shù)據(jù)庫實(shí)現(xiàn)AIS數(shù)據(jù)分析,無法實(shí)時(shí)滿足大數(shù)據(jù)分析需求,不能挖掘出網(wǎng)絡(luò)瀏覽行為。文獻(xiàn)[5]基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型,只針對大數(shù)據(jù)技術(shù)處理網(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行初步探索,缺乏大數(shù)據(jù)挖掘過程,分析網(wǎng)絡(luò)瀏覽行為存在一定的局限性。文獻(xiàn)[6]提出大數(shù)據(jù)環(huán)境下的分布式數(shù)據(jù)流處理關(guān)鍵技術(shù),只分析分布式數(shù)據(jù)流處理技術(shù),同樣缺乏數(shù)據(jù)的挖掘和管理過程,分析網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)效果差。

        為解決上述問題,本文構(gòu)建基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺,提高網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析的效率。

        1 基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺

        1.1 平臺總體結(jié)構(gòu)設(shè)計(jì)

        構(gòu)建的基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺的結(jié)構(gòu)用圖1描述。

        圖1 平臺架構(gòu)圖

        本文平臺層次結(jié)構(gòu)分明,針對大量用戶網(wǎng)絡(luò)瀏覽行為產(chǎn)生數(shù)據(jù)實(shí)施存儲與管理問題,平臺使用分布式存儲系統(tǒng)HDFS與分布式計(jì)算系統(tǒng)Spark組成的分布式集群[7]。圖1描述平臺架構(gòu)圖分為五層,分別為:

        (1)視圖層:將用戶請求操作發(fā)送至前端Web界面再發(fā)送至控制層,由前端Web界面呈現(xiàn)用戶請求操作結(jié)果。視圖層調(diào)用Echarts插件對數(shù)據(jù)概況和挖掘結(jié)果分別使用折線圖和柱狀圖等方式呈現(xiàn)給用戶[8],能夠直接了解用戶網(wǎng)絡(luò)瀏覽行為分析的數(shù)據(jù)結(jié)果。

        (2)控制層:視圖層將數(shù)據(jù)上傳、清洗等請求發(fā)送到控制層。控制層收集視圖層用戶操作信息與數(shù)據(jù),再發(fā)送到服務(wù)層處理,同時(shí)接收服務(wù)層處理后的結(jié)果,將結(jié)果反饋到視圖層呈現(xiàn)在前端[9]??刂茖佑伤膫€(gè)模塊組成:采用數(shù)據(jù)管理控制模塊解決前端數(shù)據(jù)管理場景中數(shù)據(jù)上傳和數(shù)據(jù)清洗等相關(guān)請求,分析前端的文件名與文件流,調(diào)用數(shù)據(jù)管理服務(wù)模塊將數(shù)據(jù)上傳到HDFS中,這一過程為數(shù)據(jù)上傳請求;通過用戶特征分析控制模塊管理前端用戶網(wǎng)絡(luò)瀏覽行為特征,分析場景中數(shù)據(jù)多維與相關(guān)性等請求;采用數(shù)據(jù)挖掘計(jì)算控制模塊控制數(shù)據(jù)挖掘任務(wù)中分類分析的創(chuàng)建任務(wù),以及實(shí)施任務(wù)的生命周期,管理前端挖掘計(jì)算場景相關(guān)請求[10]并調(diào)用數(shù)據(jù)挖掘計(jì)算服務(wù)模塊實(shí)現(xiàn)具體操作;利用用戶分群分析控制模塊管理前端用戶分群分析操作請求,并調(diào)用用戶分群分析服務(wù)模塊實(shí)現(xiàn)具體操作。

        (3)服務(wù)層:管理控制層請求,依據(jù)控制層請求對應(yīng)的數(shù)據(jù)模型完成相關(guān)操作。數(shù)據(jù)模型的增減查改操作由服務(wù)層中對應(yīng)的四個(gè)服務(wù)模塊控制;Hadoop與Spark分布式集群的計(jì)算能力由服務(wù)層中兩個(gè)管理模塊與兩個(gè)腳本模塊調(diào)配使用,處理異步化的具體情況為:采用任務(wù)狀態(tài)管理模塊管理Hadoop與Spark任務(wù)創(chuàng)建與結(jié)果查詢等的生命周期;通過任務(wù)腳本管理模塊處理任務(wù)腳本信息與類型等對應(yīng)的不同分布式服務(wù)[11],出現(xiàn)新的分布式服務(wù)時(shí)只需在任務(wù)腳本管理模塊直接注冊即可;為能夠讓用戶實(shí)時(shí)了解服務(wù)模塊的管理步驟,得到異步操作的目標(biāo),采用多線程把腳本發(fā)送至集群Spakk分布式集群中分析。

        (4)數(shù)據(jù)持久化層:增減改查數(shù)據(jù)方式和封裝數(shù)據(jù)持久化方式通過Hibernate完成,確保數(shù)據(jù)模型映射到數(shù)據(jù)庫內(nèi)。

        (5)數(shù)據(jù)層:在HDFS內(nèi)存儲用戶的網(wǎng)絡(luò)瀏覽數(shù)據(jù)源,在MySQL數(shù)據(jù)庫內(nèi)存儲特征數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)層管理HDFS和MySQL數(shù)據(jù)的存儲過程[12]。使用HDFS分布式文件系統(tǒng)存儲海量網(wǎng)絡(luò)用戶瀏覽數(shù)據(jù)的數(shù)據(jù)源。特征數(shù)據(jù)庫利用MySQL緩存數(shù)據(jù)的統(tǒng)計(jì)分析挖掘運(yùn)算結(jié)果,將用戶網(wǎng)絡(luò)瀏覽數(shù)據(jù)狀況等相關(guān)內(nèi)容直接呈現(xiàn)在前端。

        1.2 平臺動態(tài)流程設(shè)計(jì)

        以數(shù)據(jù)源上傳與數(shù)據(jù)挖掘計(jì)算為例,詳細(xì)介紹平臺的動態(tài)流程。

        (1)數(shù)據(jù)上傳流程設(shè)計(jì)

        平臺把數(shù)據(jù)源上傳至HDFS內(nèi)的過程則是數(shù)據(jù)源上傳,該過程實(shí)現(xiàn)了海量網(wǎng)絡(luò)瀏覽數(shù)據(jù)源的存儲。平臺利用多線程方法和任務(wù)狀態(tài)管理模塊控制文件上傳任務(wù)的生命周期,減少文件上傳時(shí)I/O堵塞情況。圖2描述了數(shù)據(jù)源上傳流程圖。

        圖2 數(shù)據(jù)源上傳流程圖

        圖2描述的數(shù)據(jù)源上傳流程為:通過Web前端獲取用戶發(fā)出數(shù)據(jù)上傳請求的數(shù)據(jù)源文件;為得到數(shù)據(jù)上傳請求內(nèi)的文件名等參數(shù),管理控制層的數(shù)據(jù)管理控制模塊上傳數(shù)據(jù)請求,并調(diào)用服務(wù)層的數(shù)據(jù)管理服務(wù)模塊實(shí)施上傳;任務(wù)狀態(tài)管理模塊同數(shù)據(jù)管理服務(wù)模塊間的數(shù)據(jù)傳遞完成數(shù)據(jù)上傳任務(wù),并將上傳請求成功的結(jié)果返回控制層;文件狀態(tài)為上傳中時(shí),視圖層呈現(xiàn)出反饋成功的結(jié)果,由數(shù)據(jù)管理控制模塊轉(zhuǎn)換為json格式,用戶通過Web前端了解到該數(shù)據(jù)源的文件名、狀態(tài)等信息。

        (2)數(shù)據(jù)挖掘計(jì)算流程設(shè)計(jì)

        平臺使用數(shù)據(jù)挖掘計(jì)算功能,可以讓用戶直接在Web頁面通過決策樹方式挖掘數(shù)據(jù)。用戶為獲取可視化結(jié)果,選取已完成的數(shù)據(jù)源,利用數(shù)據(jù)挖掘與填入算法的參數(shù),在Spark分布集群內(nèi)運(yùn)算數(shù)據(jù)挖掘任務(wù)。平臺利用異步實(shí)施方式,提高用戶體驗(yàn)與平臺易用性。平臺管理用戶提交的數(shù)據(jù)挖掘任務(wù)信息,由前端頁面呈現(xiàn)該任務(wù)的實(shí)時(shí)情況,分布式聚類運(yùn)算由異步任務(wù)調(diào)用Spark,并在后臺運(yùn)算,任務(wù)完成后便可查看任務(wù)結(jié)果[13]。圖3描述數(shù)據(jù)挖掘計(jì)算流程圖。

        圖3 數(shù)據(jù)挖掘計(jì)算流程圖

        分析圖3可得,數(shù)據(jù)源列表在前端頁面呈現(xiàn)的情況為:用戶進(jìn)入數(shù)據(jù)挖掘計(jì)算頁面后,數(shù)據(jù)源列表是由數(shù)據(jù)挖掘計(jì)算控制模塊對數(shù)據(jù)挖掘計(jì)算服務(wù)模塊發(fā)起請求,通過任務(wù)狀態(tài)管理模塊從業(yè)務(wù)數(shù)據(jù)庫中獲取數(shù)據(jù)源信息,并將該信息逐層返回到前端;用戶選取已存在數(shù)據(jù)源并點(diǎn)擊下一步,平臺支持的聚類算法信息列表由數(shù)據(jù)挖掘計(jì)算控制模塊對數(shù)據(jù)挖掘計(jì)算服務(wù)模塊發(fā)出請求,聚類算法的類型、參數(shù)列表等信息可從業(yè)務(wù)數(shù)據(jù)庫內(nèi)獲取,并逐層返回到前端;用戶選取與填寫對應(yīng)的算法與參數(shù),將聚類計(jì)算任務(wù)提交到數(shù)據(jù)挖掘計(jì)算控制模塊內(nèi),數(shù)據(jù)挖掘計(jì)算服務(wù)模塊接收挖掘計(jì)算控制模塊的任務(wù)請求,將任務(wù)信息通過挖掘計(jì)算服務(wù)模塊加入業(yè)務(wù)數(shù)據(jù)庫內(nèi);聚類計(jì)算任務(wù)由挖掘計(jì)算服務(wù)模塊調(diào)用任務(wù)狀態(tài)管理模塊實(shí)施,聚類計(jì)算任務(wù)完成的結(jié)果發(fā)送至控制層;當(dāng)前用戶能夠在頁面了解到聚類任務(wù)名稱、類型等信息。

        1.3 平臺實(shí)現(xiàn)

        1.3.1 平臺數(shù)據(jù)管理實(shí)現(xiàn)

        平臺具有數(shù)據(jù)管理功能,通過數(shù)據(jù)上傳功能能確保用戶上傳數(shù)據(jù)集到分布式系統(tǒng)HDFS中,數(shù)據(jù)管理在Web頁面內(nèi)查詢對應(yīng)信息,數(shù)據(jù)文件上傳、數(shù)據(jù)文件刪除、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分布特征統(tǒng)計(jì)組成數(shù)據(jù)管理[14],因篇幅有限,平臺描述了服務(wù)層中每個(gè)模塊中類的交互與調(diào)用關(guān)系,如圖4描述,上傳數(shù)據(jù)文件過程中,服務(wù)層數(shù)據(jù)源服務(wù)模塊管理用戶選取本地要上傳的數(shù)據(jù)文件,數(shù)據(jù)文件在Web頁面內(nèi),用戶將上傳數(shù)據(jù)任務(wù)請求發(fā)送到數(shù)據(jù)層,分析得到相關(guān)參數(shù)。

        圖4 數(shù)據(jù)上傳

        分析圖4數(shù)據(jù)上傳圖可得:HDFS接收用戶通過Web前端請求的上傳數(shù)據(jù),請求上傳數(shù)據(jù)源利用控制層數(shù)據(jù)源管理控制模塊調(diào)用服務(wù)層中SourceSvr類的uploadSource方式,上傳數(shù)據(jù)名稱等參數(shù);source實(shí)例是將要上傳的數(shù)據(jù)源,其由SourceSvr類的uploadSource方式初步形成,且業(yè)務(wù)數(shù)據(jù)庫內(nèi)接收更新的source,數(shù)據(jù)源名稱、上傳用戶等構(gòu)成記錄數(shù)據(jù)源的信息;平臺使用HadoopScript類中增添upload方式調(diào)用HDFS內(nèi)的API,將數(shù)據(jù)上傳到HDFS中,通過HadoopScript實(shí)例完成數(shù)據(jù)上傳;業(yè)務(wù)數(shù)據(jù)庫內(nèi)接收任務(wù)信息持久化、規(guī)劃上傳任務(wù)時(shí)間和狀態(tài)等信息、上傳數(shù)據(jù)任務(wù)由SourceSvr類調(diào)用JobManage類submitJob方式實(shí)現(xiàn)。

        1.3.2 網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)挖掘?qū)崿F(xiàn)

        平臺通過決策樹算法準(zhǔn)確挖掘網(wǎng)絡(luò)瀏覽行為,決策樹算法能夠準(zhǔn)確挖掘海量數(shù)據(jù)中的易解析形式。決策樹能夠作為數(shù)值型數(shù)據(jù)與非數(shù)值型數(shù)據(jù)存在。決策樹ID3算法分析節(jié)點(diǎn)的檢測屬性由最大信息增益屬性決定,通過各網(wǎng)絡(luò)瀏覽行為檢測屬性已知值建立決策樹的分支,根節(jié)點(diǎn)屬性的各值都是一個(gè)子集,將該步驟規(guī)劃遞歸地使用在各子樹中,實(shí)現(xiàn)子集內(nèi)元素為同類后停止規(guī)劃,形成網(wǎng)絡(luò)瀏覽行為決策樹。

        決策樹ID3算法假設(shè)存在r個(gè)不同網(wǎng)絡(luò)瀏覽數(shù)據(jù){d1,d2,…,dr}在瀏覽行為檢測屬性D中,r個(gè)網(wǎng)絡(luò)瀏覽行為{k1,k2,…kr,}通過利用屬性D對總體瀏覽過程K規(guī)劃,K內(nèi)樣本體現(xiàn)在Ky中,它們在D上具有值dy,假設(shè)檢測屬性為D,集合K節(jié)點(diǎn)的分枝與子集相對應(yīng)。設(shè)定子集Ky中類Px的樣本數(shù)為Kx,y。公式(1)反映D規(guī)劃的網(wǎng)絡(luò)瀏覽行為子集熵為:

        (1)

        公式(1)中,第y個(gè)子集權(quán)為(kx,y,…,kn,y)/k,等于子集內(nèi)樣本個(gè)數(shù)除以K內(nèi)的樣本總數(shù),D值為d。F(D)與子集規(guī)劃純度呈負(fù)相關(guān)性。公式(2)描述規(guī)定的子集Ky為:

        (2)

        公式(2)內(nèi),Ky內(nèi)樣本屬于類Px的機(jī)率為Qx,y=Kx,y/|Ky|。公式(3)反映D上分枝得到的信息增益為:

        H(D)=X(k1,k2,…,kn)-F(D)

        (3)

        公式(3)內(nèi),信息增益通過網(wǎng)絡(luò)瀏覽行為檢測屬性D值引起的期望壓縮為H(D)。將運(yùn)算得到的最大屬性信息增益當(dāng)成集合K的檢測屬性。決策樹ID3算法利用相同的步驟,遞歸的構(gòu)建網(wǎng)絡(luò)瀏覽行為樣本判定樹,實(shí)現(xiàn)網(wǎng)絡(luò)瀏覽行為的準(zhǔn)確挖掘[15]。

        2 實(shí)驗(yàn)分析

        實(shí)驗(yàn)為了檢測本文平臺的有效性,對本文平臺的功能與性能進(jìn)行測試,詳細(xì)過程為:

        2.1 環(huán)境部署

        構(gòu)建硬件環(huán)境中,本文平臺利用7臺設(shè)備為E5-2620V3 CUP、128G內(nèi)存和1TB硬盤的聯(lián)想服務(wù)器構(gòu)建底層分布式集群。HDFS分布式文件系統(tǒng)、Yarn分布式資源管理和Spark分布式集群部署在底層分布式集群內(nèi),在7臺服務(wù)器內(nèi)選取1臺服務(wù)器為主節(jié)點(diǎn),剩余6臺服務(wù)器為從節(jié)點(diǎn)。在構(gòu)建軟件環(huán)境內(nèi)選取適用性較高的軟件。

        2.2 平臺功能測試

        平臺功能測試由界面邏輯和整體結(jié)構(gòu)兩點(diǎn)出發(fā),檢測用例依據(jù)平臺要求撰寫,實(shí)驗(yàn)詳細(xì)研究本文平臺的功能,分析本文平臺的數(shù)據(jù)源上傳、數(shù)據(jù)預(yù)處理以及聚類分析功能的實(shí)際結(jié)果能否達(dá)到預(yù)期效果。

        實(shí)驗(yàn)檢驗(yàn)本文平臺能否成功向HDFS反饋數(shù)據(jù)管理模塊內(nèi)數(shù)據(jù)集,數(shù)據(jù)源上傳功能測試用例由表1所示。

        表1 數(shù)據(jù)源上傳功能測試用例

        實(shí)驗(yàn)檢驗(yàn)數(shù)據(jù)預(yù)處理功能經(jīng)過本文平臺的數(shù)據(jù)清洗能否達(dá)到規(guī)定條件,數(shù)據(jù)預(yù)處理功能測試用例由表2表示。

        表2 數(shù)據(jù)預(yù)處理功能測試用例

        檢驗(yàn)本文平臺能否成功實(shí)施數(shù)據(jù)挖掘計(jì)算內(nèi)的聚類分析,并準(zhǔn)確獲取結(jié)果,聚類分析功能測試用例由表3表示。

        表3 聚類分析功能測試用例由

        由表1、表2、表3了解到本文平臺進(jìn)行數(shù)據(jù)源上傳、數(shù)據(jù)預(yù)處理以及聚類分析的功能符合預(yù)期結(jié)果,說明本文平臺是一種有效的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺。

        2.3 平臺性能測試

        2.3.1 數(shù)據(jù)源管理的響應(yīng)時(shí)間測試

        listAllSources請求為數(shù)據(jù)源管理請求,數(shù)據(jù)源信息由listAllSources接口得到,在多用戶并發(fā)狀況下,利用工具Jmeter模擬檢測本文平臺和基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺進(jìn)行數(shù)據(jù)源管理的響應(yīng)時(shí)間,用表4描述。

        表4 數(shù)據(jù)源管理的響應(yīng)時(shí)間/ms

        由表4得知,在不同的并發(fā)數(shù)下,本文平臺對listAllSources請求與整體響應(yīng)時(shí)間的平均值分別為30.25 ms與843.75 ms;基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺對listAllSources請求與整體響應(yīng)時(shí)間的平均值分別為56.75 ms與1352 ms,對比分析可以得出,本文平臺對于listAllSources數(shù)據(jù)源管理請求的響應(yīng)時(shí)間以及整體響應(yīng)時(shí)間比基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺分別少26.5 ms和508.25 ms,說明本文平臺具有較高的數(shù)據(jù)源管理響應(yīng)效率。

        2.3.2 用戶行為特征分析的響應(yīng)時(shí)間測試

        getSummary、perHourUser、topApp、topWeb和serviceType這5個(gè)請求是較為關(guān)鍵的網(wǎng)絡(luò)用戶行為特征分析請求,每個(gè)維度的統(tǒng)計(jì)結(jié)果分別由這5個(gè)接口得到,各接口接收各維度返回結(jié)果,并由前端并行管理5個(gè)接口。在多用戶并發(fā)狀況下,利用工具Jmeter模擬檢測本文平臺和基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺進(jìn)行用戶行為特征分析的響應(yīng)時(shí)間,用表5描述。

        表5 用戶行為特征分析的響應(yīng)時(shí)間/ms

        由表5了解到,隨著并發(fā)數(shù)的不斷提升,兩種平臺對于5種不同用戶行為特征分析請求的響應(yīng)時(shí)間也逐漸提升,但是本文平臺的響應(yīng)時(shí)間始終低于基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺,并且在相同的并發(fā)數(shù)下,本文平臺的整體響應(yīng)時(shí)間遠(yuǎn)遠(yuǎn)低于基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺,本文平臺的整體響應(yīng)平均時(shí)間比基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺少836.5 ms,說明本文平臺分析用戶行為特征時(shí)具有較高的響應(yīng)效率。

        2.3.3 數(shù)據(jù)挖掘及用戶流量分群分析的響應(yīng)時(shí)間測試

        本文平臺進(jìn)行數(shù)據(jù)挖掘與用戶流量分群分析的工作機(jī)制相同,需要向Spark分布式集群內(nèi)反饋任務(wù)腳本,用戶以任務(wù)方式請求提交形成的子線程向任務(wù)腳本反饋,主要包括同步的任務(wù)提交與異步的分布式計(jì)算任務(wù),用戶體驗(yàn)會受到同步任務(wù)提交的影響,其中submitDMJob請求和submitUserAnaJob請求分別是數(shù)據(jù)挖掘和用戶流量分群分析請求。

        在多用戶并發(fā)狀況下,利用工具Jmeter模擬檢測本文平臺和基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺進(jìn)行數(shù)據(jù)挖掘和用戶流量分群的響應(yīng)時(shí)間,用表6描述。

        表6 數(shù)據(jù)挖掘及用戶流量分群分析的響應(yīng)時(shí)間/ms

        通過表6了解到,本文平臺對于數(shù)據(jù)挖掘submitDMJob請求和用戶流量分群行為分析submitUserAnaJob請求的平均時(shí)間響應(yīng)分別為62.25 ms和55.25 ms,而基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺對于兩種請求的平均響應(yīng)時(shí)間分別為239.25 ms和232 ms,對比分析這些數(shù)據(jù)可以看出,本文平臺具有較高的數(shù)據(jù)挖掘和用戶流量分群響應(yīng)分析效率。

        3 結(jié) 語

        本文構(gòu)建了基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺,通過分布式存儲系統(tǒng)HDFS與分布式計(jì)算系統(tǒng)Spark組成的分布式集群存儲與管理網(wǎng)絡(luò)瀏覽行為產(chǎn)生的數(shù)據(jù),為用戶提供了一站式網(wǎng)絡(luò)用戶瀏覽行為分析服務(wù),利用決策樹ID3算法挖掘用戶網(wǎng)絡(luò)瀏覽行為。實(shí)驗(yàn)分別測試了本平臺的功能與性能,得出本文平臺的數(shù)據(jù)源上傳、數(shù)據(jù)預(yù)處理以及聚類分析功能符合預(yù)期結(jié)果,本文平臺對數(shù)據(jù)源管理listAllSources請求與整體響應(yīng)時(shí)間的平均值比基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺低26.5 ms和508.25 ms,具有較高的數(shù)據(jù)源管理效率;本文平臺進(jìn)行用戶行為特征分析的整體響應(yīng)時(shí)間比基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺低836.5 ms,具有較高的用戶行為特征分析效率;本文平臺具有較高的數(shù)據(jù)挖掘與用戶流量分群分析的響應(yīng)效率,綜合分析可得,本文平臺可完成高效率的網(wǎng)絡(luò)瀏覽行為分析,取得了令人滿意的效果。

        猜你喜歡
        數(shù)據(jù)源數(shù)據(jù)挖掘分布式
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        分布式光伏熱錢洶涌
        能源(2017年10期)2017-12-20 05:54:07
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價(jià)研究
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于DDS的分布式三維協(xié)同仿真研究
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價(jià)算法
        西門子 分布式I/O Simatic ET 200AL
        麻豆国产高清精品国在线| 少妇厨房愉情理伦片免费| 大香蕉av一区二区三区| 中文字幕一区二区人妻痴汉电车| 国产无遮挡a片又黄又爽| 久久亚洲av成人无码电影a片| 亚洲中文字幕一区二区三区多人| 欧美综合区| 影音先锋每日av色资源站| 4hu四虎永久免费地址ww416| 91乱码亚洲精品中文字幕| 国产亚洲视频在线观看播放| 久久亚洲av成人无码国产| 中文字幕日韩精品一区二区三区 | 亚洲国产精品自拍一区| 东北妇女xx做爰视频| 亚洲欧洲免费无码| 91国产熟女自拍视频| 久久HEZYO色综合| 国产高清无码在线| 国产精品自在线拍国产| 久久久噜噜噜久久中文福利 | 亚洲中文字幕无码久久2020| 蜜桃一区二区三区| 极品av一区二区三区| 中文字幕视频一区二区| 国产丝袜在线精品丝袜不卡| 久久aⅴ人妻少妇嫩草影院| 国产精品无码素人福利| 中国无码人妻丰满熟妇啪啪软件| av免费在线免费观看| 国产精品国产三级农村妇女| 久久99老妇伦国产熟女高清| 欧美在线不卡视频 | av一区二区三区在线| 99久久婷婷亚洲综合国产| 日本岛国一区二区三区| 日本女优中文字幕看片| 免费在线亚洲视频| 日韩欧美在线综合网| 中文日韩亚洲欧美制服|