亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Spark平臺(tái)下聚類挖掘的智能推薦系統(tǒng)

        2021-11-11 05:53:36鐘桂鳳龐雄文孫道宗劉宇東
        關(guān)鍵詞:智能用戶

        鐘桂鳳,龐雄文,孫道宗,劉宇東

        (1.廣州理工學(xué)院 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣東 廣州 510540;2.華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 530631;3.華南農(nóng)業(yè)大學(xué) 電子工程學(xué)院,廣東 廣州 510642)

        互聯(lián)網(wǎng)高速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)量迅速增長(zhǎng),用戶對(duì)網(wǎng)絡(luò)的依賴程度及數(shù)據(jù)獲取便捷度的需求明顯提升,用戶主動(dòng)搜索獲取服務(wù)的方式正逐漸改變[1],平臺(tái)推薦服務(wù)方式被用戶青睞。對(duì)于區(qū)塊鏈和資源共享等網(wǎng)絡(luò)服務(wù)平臺(tái)來說,數(shù)據(jù)資源需要進(jìn)行聚類歸檔,并根據(jù)用戶在平臺(tái)的訪問和使用習(xí)慣[2],對(duì)用戶進(jìn)行類別評(píng)分,然后根據(jù)相似度計(jì)算獲得用戶和資源的相似關(guān)系,最后為用戶推薦相似度最高的資源。這種基于數(shù)據(jù)聚類的智能推薦系統(tǒng)是當(dāng)前網(wǎng)絡(luò)推薦系統(tǒng)的主流模式,這種模式因?yàn)樯婕暗骄垲愡\(yùn)算,在類別較多且數(shù)據(jù)規(guī)模較大的情況下,推薦的準(zhǔn)確率和效率均會(huì)受到影響,因此多類別聚類和大規(guī)模運(yùn)算效率是該推薦模式需要重點(diǎn)解決的問題。

        當(dāng)前,基于聚類挖掘的智能推薦技術(shù)研究較多,Liu等[3]采用深度模型來實(shí)現(xiàn)K-means聚類挖掘,并用于在線學(xué)習(xí)資源推薦,能夠根據(jù)用戶短時(shí)間的學(xué)習(xí)習(xí)慣進(jìn)行資源推薦,但是受模型限制,推薦的準(zhǔn)確率并不高;Liu等[4]采用深度學(xué)習(xí)算法來提升K-means聚類的準(zhǔn)確率,對(duì)網(wǎng)站在線用戶提供廣告推薦,具有一定的智能推薦效果,但也出現(xiàn)了輕度誤判;Ming等[5]根據(jù)用戶歷史點(diǎn)歌情況,利用聚類挖掘算法實(shí)現(xiàn)了不同用戶的歌單推薦,取得了良好效果,但其采用的方法處于封閉歌單庫(kù)訓(xùn)練,導(dǎo)致適用度有一定局限。上述方法均在一定程度上提高了聚類的準(zhǔn)確率,但是均沒有效利用云計(jì)算平臺(tái)來提升推薦效率。

        狼群算法是近期提出的一種新型群體智能優(yōu)化算法,能夠解決全局尋優(yōu)和局部極值問題。本文嘗試引入狼群算法來對(duì)K-means聚類算法進(jìn)行優(yōu)化,以提高多類別聚類的準(zhǔn)確率,同時(shí)引入Spark平臺(tái)的多節(jié)點(diǎn)并行計(jì)算來提高聚類和推薦效率。

        1 Spark結(jié)構(gòu)

        Spark作為大規(guī)模數(shù)據(jù)處理常用引擎,采用主-從節(jié)點(diǎn)管理模式共同完成數(shù)據(jù)處理任務(wù),但是在功能結(jié)構(gòu)上,主-從節(jié)點(diǎn)具有同等的運(yùn)算能力,其主要結(jié)構(gòu)[6,7],如圖1所示。

        圖1 Spark結(jié)構(gòu)

        除了這種主-從節(jié)點(diǎn)協(xié)同工作模式之外,Spark平臺(tái)還有一個(gè)優(yōu)點(diǎn)就是大部分?jǐn)?shù)據(jù)運(yùn)算都在其平臺(tái)節(jié)點(diǎn)內(nèi)存的彈性分布式數(shù)據(jù)集(Resilient distributed datasets,RDD)中完成,這種方式極大地提升了數(shù)據(jù)存取效率,完成大規(guī)模數(shù)據(jù)的聚類與推薦,解決了聚類中頻繁迭代造成的運(yùn)算效率不高問題,同時(shí)也解決了智能推薦的實(shí)時(shí)性問題。

        2 基于狼群優(yōu)化的K-means聚類挖掘的協(xié)同過濾推薦

        2.1 K-means算法

        聚類空間中任意兩點(diǎn)i和j的距離Sij數(shù)學(xué)[8]表示

        (1)

        設(shè)中心點(diǎn)xi包含n個(gè)屬性,表示方法為(xi1,xi2,…,xin)和待聚類點(diǎn)xj(xj1,xj2,…,xjn),xi與xj的距離為

        (2)

        根據(jù)式(2)可以計(jì)算所有待聚類的樣本點(diǎn)至中心點(diǎn)距離集,根據(jù)距離dij來判定xi與xj是否同類。然后根據(jù)距離集建立聚類目標(biāo)函數(shù),求解式(3)的最小值

        (3)

        xj∈N(xi)意思是:xj為N個(gè)樣本點(diǎn)中除了中心點(diǎn)xi的剩余樣本點(diǎn),滿足:∑j,xj∈N(xi)Sijxj=1,Sij≥0。

        將式(3)進(jìn)一步展開得[9]

        (4)

        最后得到目標(biāo)函數(shù)為

        minε

        (5)

        K均值聚類的效率取決于待聚類點(diǎn)的維度與樣本數(shù)據(jù)量。一般而言,聚類的準(zhǔn)確率和效率隨著待聚類樣本的數(shù)量及維度增加而降低。在處理大規(guī)模聚類精度問題和聚類時(shí)間問題僅采用K-means算法不夠,因?yàn)?除了待聚類的數(shù)據(jù)量外,K均值聚類算法初始中心點(diǎn)的選擇也很重要,它影響著聚類的效率,所以,有必要對(duì)K-means算法進(jìn)行一定改進(jìn)。

        2.2 狼群算法

        設(shè)狼群總量為N,數(shù)據(jù)維度為D,則第i只狼位置為Xi=(xi1,xi2,…,xid,…xiD),其中1≤i≤N,1≤d≤D。

        xid=xmin+rand*(xmax-xmin)

        (6)

        式中:xmax和xmin分別表示d維空間的上下限。rand為[0,1]隨機(jī)值。

        根據(jù)適應(yīng)度值最高的狼作為頭狼,其周圍的為探狼,數(shù)量為Tnum,其游走步長(zhǎng)[10]為

        StepG(d)=|maxd-mind|/S

        (7)

        式中:1≤d≤D,S為可設(shè)置的權(quán)重常量。

        探狼位置更新

        (8)

        式中:i=1,2,…,Tnum,h為游走方向數(shù)。

        狼群中剩余狼移動(dòng)步長(zhǎng)

        StepB(d)=2×|maxd-mind|/S

        (9)

        位置更新為

        式中:i=1,2,…,N-Tnum-1。si,d為d維空間中第i只狼與頭狼距離,si,d∈Dd。

        (10)

        式中:ω為距離因子常量。

        當(dāng)狼群找到獵物,頭狼號(hào)令圍攻,運(yùn)動(dòng)步長(zhǎng)和位置更新計(jì)算方式[11]為

        StepW(d)=|maxd-mind|/(2×S)

        (11)

        (12)

        式中:si,d∈Dd,i=1,2,…,N-1,λ∈[-1,1]隨機(jī)值。

        2.3 協(xié)同過濾推薦

        通過狼群優(yōu)化的K-means算法進(jìn)行聚類后,可以獲得用戶對(duì)所有待推薦的資源或服務(wù)的評(píng)分,然后采用協(xié)同過濾算法進(jìn)行有效推薦。

        設(shè)推薦的用戶集合為U={u1,u2,…,um},待推薦的資源集合為I={i1,i2,…,in},rm,n表示第m個(gè)用戶對(duì)第n個(gè)資源的評(píng)分,那么用戶a和b的相似關(guān)系[12]為

        (13)

        在協(xié)同過濾時(shí),除了可以對(duì)用戶之間的相似性進(jìn)行分析之外,最重要的是需要求解用戶對(duì)資源的評(píng)分,用戶j對(duì)資源k的評(píng)分方法為

        (14)

        根據(jù)資源評(píng)分分?jǐn)?shù),為用戶推薦評(píng)分高的資源,從而完成智能推薦。該算法的智能性體現(xiàn)在無需所有用戶對(duì)所有資源進(jìn)行評(píng)分,而是通過用戶訪問網(wǎng)絡(luò)的習(xí)慣數(shù)據(jù),采用狼群優(yōu)化的K-means聚類來預(yù)測(cè)用戶對(duì)資源的評(píng)分值。

        2.4 聚類及推薦流程

        首先,分析客戶端的智能推薦任務(wù)需求,然后搭建Spark平臺(tái),部署合適規(guī)模的分布式節(jié)點(diǎn),接著建立聚類運(yùn)算模型,并通過狼群算法對(duì)初始聚類中心點(diǎn)進(jìn)行優(yōu)化,通過聚類結(jié)果獲取用戶-屬性評(píng)分?jǐn)?shù)據(jù),最后采用協(xié)同過濾完成智能推薦。Spark平臺(tái)下聚類挖掘的智能推薦流程主要如圖2所示。

        圖2 Spark平臺(tái)下智能推薦流程圖

        3 實(shí)例仿真

        為了驗(yàn)證Spark平臺(tái)下聚類挖掘的智能推薦性能,分別對(duì)公共數(shù)據(jù)集和自有數(shù)據(jù)集進(jìn)行仿真,其中公共數(shù)據(jù)集為Movie Lens數(shù)據(jù)集,自有數(shù)據(jù)集為某在線教育平臺(tái)。Movie Lens數(shù)據(jù)集作為推薦系統(tǒng)仿真的經(jīng)典數(shù)據(jù)集,能夠很好地驗(yàn)證聚類挖掘的推薦性能,而在線學(xué)習(xí)平臺(tái)因?yàn)橛脩袅勘姸嗪蛯W(xué)習(xí)資源數(shù)據(jù)量大,很容易獲得大規(guī)模數(shù)據(jù)樣本,充分驗(yàn)證Spark平臺(tái)的推薦優(yōu)勢(shì)。

        Spark平臺(tái)共包含1個(gè)Master節(jié)點(diǎn)和9個(gè)Work節(jié)點(diǎn),所有節(jié)點(diǎn)具有相同的硬件性能。

        3.1 Movie Lens數(shù)據(jù)集仿真

        為了驗(yàn)證狼群優(yōu)化的K-means聚類算法在Movie Lens數(shù)據(jù)集的智能推薦性能,采用狼群優(yōu)化的K-means算法完成聚類,然后通過協(xié)同過濾完成影片推薦。

        表1 Movie Lens實(shí)驗(yàn)數(shù)據(jù)集

        3.1.1 不同聚類中心數(shù)的推薦性能

        聚類中心個(gè)數(shù)K對(duì)影片評(píng)分矩陣影響敏感,從而影響影片協(xié)同過濾推薦的穩(wěn)定性,因此差異化設(shè)置K,驗(yàn)證推薦準(zhǔn)確率的RMSE值。

        圖3表明RMSE值隨著K值的增加先減小后增大,當(dāng)分類類別較小時(shí),影片類別分類粒度大,因此推薦的影片與用戶實(shí)際評(píng)分值偏差大,Data1和Data2在K=16時(shí)獲得了最優(yōu)RMSE,而Data3在K=18時(shí)獲得了最優(yōu)RMSE值。當(dāng)繼續(xù)增加K值后,RMSE逐漸增大,推薦穩(wěn)定性變差。因此,選擇在后續(xù)針對(duì)Movie Lens數(shù)據(jù)集仿真時(shí),K取值范圍設(shè)置為[16,18]。

        圖3 不同K值的推薦準(zhǔn)確率RMSE值

        3.1.2 基于公共數(shù)據(jù)集的推薦性能

        設(shè)置K=16,采用狼群優(yōu)化的K-means算法進(jìn)行聚類挖掘,并采用協(xié)同過濾推薦算法對(duì)Movie Lens數(shù)據(jù)集訓(xùn)練,訓(xùn)練時(shí)共有10個(gè)節(jié)點(diǎn)組成Spark平臺(tái)進(jìn)行計(jì)算。

        表2 推薦性能(Movie Lens數(shù)據(jù)集)

        推薦時(shí)間性能方面,容量的差別在推薦時(shí)間上表現(xiàn)不明顯,這主要是采取了Spark平臺(tái)的作用,對(duì)于10個(gè)節(jié)點(diǎn)來說,因3個(gè)樣本數(shù)據(jù)容量差異導(dǎo)致的推薦時(shí)間變化非常小。

        3.2 在線學(xué)習(xí)平臺(tái)數(shù)據(jù)集仿真

        為了進(jìn)一步驗(yàn)證本文算法和Spark平臺(tái)結(jié)合的智能推薦性能,采用在線學(xué)習(xí)平臺(tái)數(shù)據(jù)集進(jìn)行仿真。分別選擇了粵港澳大灣區(qū)某大型在線學(xué)習(xí)平臺(tái)1個(gè)月的用戶學(xué)習(xí)數(shù)據(jù),組建成4個(gè)不同容量的樣本:Data1(12.95MB),Data2(656.82MB),Data3(1.42GB),Data4(8.03GB)。

        3.2.1 聚類結(jié)果可視化

        將4種數(shù)據(jù)樣本分別進(jìn)行狼群優(yōu)化K-means聚類。根據(jù)用戶和資源的類別屬性獲得用戶-資源評(píng)分?jǐn)?shù)據(jù),差異化設(shè)置K值,取推薦準(zhǔn)確率最高K值作為聚類中心數(shù);為了直觀顯示聚類結(jié)果,對(duì)聚類結(jié)果進(jìn)行可視化,其中Data1的聚類結(jié)果如圖4所示。

        圖4 Data1聚類結(jié)果可視化

        狼群優(yōu)化的K-means聚類算法在三維空間內(nèi)將Data1數(shù)據(jù)集分為5類。根據(jù)分類結(jié)果,可以獲得樣本所有用戶和資源屬性的評(píng)分,然后再進(jìn)行協(xié)同過濾計(jì)算獲得推薦結(jié)果。

        3.2.2 推薦性能仿真

        差異化設(shè)置聚類中心數(shù),對(duì)不同K值下的推薦性能進(jìn)行仿真,取最優(yōu)K值完成5個(gè)樣本的狼群優(yōu)化K-means和協(xié)同過濾智能推薦。

        從表3可以看出,推薦的準(zhǔn)確率保持在91%以上,準(zhǔn)確率受樣本容量的影響較小,而推薦時(shí)間隨著樣本容量在增加,雖然Data3和Data4樣本容量量級(jí)變大,推薦時(shí)間并未有快速增長(zhǎng),這主要是Spark平臺(tái)多節(jié)點(diǎn)運(yùn)算的原因。

        表3 推薦性能(在線學(xué)習(xí)平臺(tái)數(shù)據(jù)集)

        3.2.3 Spark平臺(tái)的加速性能仿真

        為了驗(yàn)證Spark平臺(tái)對(duì)智能推薦速度的影響,求解Spark推薦相對(duì)于單機(jī)推薦的加速比:

        (15)

        Ta與Ts為單機(jī)和Spark多節(jié)點(diǎn)的各自推薦時(shí)間。

        從表4可以看出,當(dāng)Worker節(jié)點(diǎn)數(shù)量增加,Spark加速效果明顯,樣本容量越大,Worker節(jié)點(diǎn)數(shù)對(duì)加速比影響越顯著。Data1的樣本容量為12.95 MB,Worker節(jié)點(diǎn)達(dá)到10時(shí),加密比只比單機(jī)增加了0.001,而當(dāng)樣本容量為8.03 GB時(shí),加速比相對(duì)于單機(jī)增加了42.907,因此Spark平臺(tái)提高了大容量樣本的推薦效率,特別適合大規(guī)模聚類挖掘及推薦。

        表4 Spark加速性能

        3.3 不同推薦算法性能仿真

        為了繼續(xù)驗(yàn)證本文算法在智能推薦系統(tǒng)中的性能,分別從在線學(xué)習(xí)平臺(tái)的4個(gè)數(shù)據(jù)集中各抽取500個(gè)樣本組建成新的數(shù)據(jù)集Data5,將SVM算法[13]、深度神經(jīng)網(wǎng)絡(luò)(DNN)[14]、XGBoost算法[15]和本文算法分別進(jìn)行仿真。

        如圖5所示,4種不同算法的推薦準(zhǔn)確率在初期時(shí)均隨著迭代次數(shù)的增加而不斷提升,然后趨于穩(wěn)定。推薦性能包括兩個(gè)方面:準(zhǔn)確率和收斂速度,可從這2個(gè)方面綜合分析。首先,在推薦準(zhǔn)確率方面,算法穩(wěn)定即收斂后,本文算法和XGBoost算法最優(yōu),均超過了0.9,而SVM算法最差,僅約為0.7;其次,在收斂速度方面,SVM表現(xiàn)最優(yōu)為190次,本文算法次之,約為230次,XGBoost算法最差。根據(jù)4種算法的綜合推薦性能對(duì)比來看,本文算法在準(zhǔn)確率和收斂速度2個(gè)方面均排名靠前,這說明其對(duì)在線學(xué)習(xí)樣本的綜合推薦性能最佳。

        圖5 不同算法的推薦性能

        4 結(jié)束語(yǔ)

        本文采用狼群優(yōu)化的K-means算法完成聚類挖掘,并采用協(xié)同過濾算法完成智能推薦,推薦準(zhǔn)確率高;為了解決大規(guī)模數(shù)據(jù)的推薦問題,引入Spark平臺(tái)多節(jié)點(diǎn)共同完成聚類和推薦,提高了智能推薦效率。后續(xù)研究將進(jìn)一步優(yōu)化聚類參數(shù)及Spark節(jié)點(diǎn)的自適應(yīng)加入,以提高智能推薦準(zhǔn)確率,同時(shí)節(jié)省節(jié)點(diǎn)計(jì)算資源。

        猜你喜歡
        智能用戶
        智能制造 反思與期望
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        智能制造·AI未來
        商周刊(2018年18期)2018-09-21 09:14:46
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        Camera360:拍出5億用戶
        亚洲一区二区三区成人网站| 国产一区二区三区成人| 久草青青91在线播放| 久激情内射婷内射蜜桃| 国产精品毛片无遮挡高清| 亚洲欧美日韩一区在线观看| 五月开心六月开心婷婷网| 男女做爰高清免费视频网站| 欲妇荡岳丰满少妇岳 | 日本大胆人体亚裔一区二区| 免费观看人妻av网站| 国产人妻熟女高跟丝袜图片| 韩国v欧美v亚洲v日本v| 阿v视频在线| 国产精品女同二区五区九区 | 日产精品一区二区在线| 日本中文一区二区在线| 国产欧美日韩综合精品一区二区| 好男人视频在线视频| 在线成人tv天堂中文字幕| 国产一区二区三区在线爱咪咪| 图片小说视频一区二区| 中文成人无码精品久久久不卡| 成人区视频| 亚洲天堂av免费在线| 亚洲综合一区中文字幕| 久久99国产精一区二区三区| 欧洲熟妇乱xxxxx大屁股7| 在线观看精品国产福利片87| 久久人妻精品免费二区| 成人影片麻豆国产影片免费观看| 欧美内射深喉中文字幕| 中文字幕在线日韩| 亚洲国产一区二区精品| 亚洲精品久久国产精品| 国产成人免费一区二区三区| 天天草夜夜草| 国产午夜激情视频在线看| 国产精品成熟老女人| 后入内射欧美99二区视频| a√无码在线观看|