亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合模型的內(nèi)容資源流行度預(yù)測算法

        2020-12-25 03:16:26方元武何雪
        微型電腦應(yīng)用 2020年12期
        關(guān)鍵詞:對數(shù)差分樣本

        方元武, 何雪

        (1.中國移動通信集團(tuán)廣東有限公司, 廣東 廣州 510627; 2.廣州豐石科技有限公司, 廣東 廣州 510650)

        0 引言

        隨著互聯(lián)網(wǎng)內(nèi)容井噴式上架和爆發(fā)式增長,對網(wǎng)絡(luò)服務(wù)商的服務(wù)器資源和網(wǎng)絡(luò)帶寬提出了更高的要求,內(nèi)容的緩存命中率也極大影響著用戶的體驗(yàn)[1]。如何在有限的條件下更合理地進(jìn)行內(nèi)容緩存是網(wǎng)絡(luò)服務(wù)面臨的主要問題,解決此問題的關(guān)鍵是需要一套科學(xué)決策方法對內(nèi)容資源的流行度進(jìn)行精準(zhǔn)預(yù)測。精準(zhǔn)的流行度預(yù)測不僅在用戶體驗(yàn)上預(yù)知用戶行為,降低訪問時延,也能在網(wǎng)絡(luò)安全方面提前部署,減少因擁塞等問題導(dǎo)致的網(wǎng)絡(luò)溢出[2]。

        預(yù)測領(lǐng)域經(jīng)過多年的研究,已經(jīng)在視頻[3]、社交[4]、新聞[5]、民生[6]、旅游[7]等多個行業(yè)應(yīng)用,起到了很好的預(yù)測效果和指導(dǎo)作用,但是隨著社交互聯(lián)網(wǎng)的持續(xù)演進(jìn),現(xiàn)有研究對不同情況的預(yù)測卻稍顯不足。文獻(xiàn)[8]提出基于累計(jì)訪問次數(shù)方差的相關(guān)性構(gòu)建時間序列模型,優(yōu)于現(xiàn)有的流行度預(yù)測,但缺少考慮社交網(wǎng)絡(luò)行為帶來的話題影響,參數(shù)維度不足;文獻(xiàn)[9]提出基于logistic機(jī)器學(xué)習(xí)算法計(jì)算用戶行為信息,適用于消費(fèi)數(shù)據(jù)稀疏的案例,對于長歷史數(shù)據(jù)缺乏參考意義;文獻(xiàn)[10]提出新型混合多回歸模型預(yù)測視頻流行度,該模型使用瀏覽時間和分享次數(shù)作為預(yù)測變量,考慮了用戶網(wǎng)絡(luò)行為,優(yōu)于其他線性回歸模型,然而對時間序列樣本較多的數(shù)據(jù),預(yù)測效果欠佳。

        本文結(jié)合已有研究,以社交網(wǎng)絡(luò)數(shù)據(jù)為基礎(chǔ),提出一種不限歷史數(shù)據(jù)長短的內(nèi)容資源的流行度預(yù)測算法。分別針對歷史數(shù)據(jù)稀疏的資源和長歷史特征數(shù)據(jù)的資源采用線性回歸算法和ARIMA時間序列算法。對比傳統(tǒng)的流行度預(yù)測,這種混合的流行度預(yù)測算法,既適應(yīng)稀疏數(shù)據(jù)的局部性特征也能適應(yīng)長歷史數(shù)據(jù)的季節(jié)性變化特征,表現(xiàn)出更高的預(yù)測精度。

        1 流行度預(yù)測算法

        1.1 算法流程介紹

        流行度是度量內(nèi)容資源熱度的重要指標(biāo)之一。對流行度的預(yù)測,機(jī)器學(xué)習(xí)是運(yùn)用的較多的一種方法,然而機(jī)器學(xué)習(xí)通常需要基于大量樣本進(jìn)行模型訓(xùn)練,以提高預(yù)測精度[11]。對于上新或者數(shù)據(jù)周期短的內(nèi)容資源,機(jī)器學(xué)習(xí)算法預(yù)測效果明顯失真[12]。為了適應(yīng)不同情況的內(nèi)容資源預(yù)測,實(shí)驗(yàn)采用基于線性的多元回歸和基于時間序列的ARIMA模型結(jié)合的混合預(yù)測模型。多元回歸預(yù)測適用于數(shù)據(jù)稀疏的內(nèi)容資源,ARIMA算法適用于樣本數(shù)據(jù)較大并且具備季節(jié)性周期的數(shù)據(jù)。這種混合模型通過互補(bǔ)的方式,提高了預(yù)測的包容性,能夠在變化的環(huán)境中保證一定的預(yù)測精度,如圖1所示。

        圖1 內(nèi)容資源的流行度預(yù)測模型算法流程

        1.2 基于多元回歸的流行度預(yù)測算法

        數(shù)據(jù)稀疏內(nèi)容資源呈現(xiàn)出歷史數(shù)據(jù)的局部性、相鄰時間記錄的強(qiáng)相關(guān)性的特點(diǎn),正好與多元回歸算法切合[13]?;趦?nèi)容資源流行度的多元線性回歸預(yù)測算法,如式(1)。

        (1)

        式(1)利用最近t-1(t<=7)天的流行度預(yù)測第t天的流行度,Y(t)即為預(yù)測結(jié)果。Ni為內(nèi)容資源在第i天流行指數(shù)(見公式(1)),βi為第i天的權(quán)重,εt(t=1,2,…,n)是隨機(jī)項(xiàng)誤差,α是常數(shù),n為天數(shù)。

        受社交網(wǎng)絡(luò)的影響,內(nèi)容資源的流行程度不一,對于突發(fā)性的內(nèi)容可能經(jīng)過前期潛伏之后,后期呈指數(shù)級別上升,前后產(chǎn)生巨大的差距,容易因預(yù)測計(jì)算溢出導(dǎo)致結(jié)果失真。應(yīng)對這種情況,可以在線性回歸的基礎(chǔ)上進(jìn)行對數(shù)處理,然后基于對數(shù)結(jié)果預(yù)測內(nèi)容資源流行度。這樣的做法在保持原數(shù)據(jù)單調(diào)性的同時,也能弱化數(shù)據(jù)變化的敏感度。通過多元指數(shù)線性變換和對數(shù)變換建立多元對數(shù)回歸模型。

        多元指數(shù)線性回歸模型,如式(2)。

        (2)

        對數(shù)變換公式,如式(3)。

        (3)

        1.3 基于ARIMA的流行度預(yù)測算法

        ARIMA[14]模型是一種只考慮數(shù)據(jù)內(nèi)在聯(lián)系的時間序列算法,更適用于長歷史特征的數(shù)據(jù)分析。ARIMA包含3個部分,AR代表的自回歸模型(Autoregression);I代表的差分運(yùn)算(Intergrated);MA代表的移動平均模型(Moving Average)。自回歸項(xiàng)p,差分階數(shù)d,移動平均項(xiàng)數(shù)q分別是自回歸模型、差分運(yùn)算和移動平均模型的參數(shù)[15],取值皆為非負(fù)整數(shù),用ARIMA(p,d,q)表示。

        經(jīng)過差分處理使序列趨于平穩(wěn)化后的ARIMA(p,d,q)模型表示,如式(4)。

        (4)

        式中,{Ni-p,…,Ni-2,Ni-1,Ni}表示該時間序列數(shù)據(jù);B表示延遲算子;{εi-q,…,εi-2,εi-1,εi}表示隨機(jī)干擾序列;{φ1,φ2,…,φp}、{θ1,θ2,…,θq}分別表示自回歸系數(shù)和移動平均系數(shù);d=(1-B)d表示d階差分;S表示季節(jié)周期。

        2 實(shí)驗(yàn)

        2.1 數(shù)據(jù)收集

        本文通過編寫爬蟲程序,爬取了Alexa網(wǎng)站、中國站長站、微博等網(wǎng)站,收集包括訪問量、瀏覽量、搜索指數(shù)、話題熱度等數(shù)據(jù)。為了使數(shù)據(jù)更加易于處理,剔除了訪問量、瀏覽量小于100的資源,最后剩余8 304個樣本資源。

        2.2 數(shù)據(jù)準(zhǔn)備

        社交互聯(lián)網(wǎng)的新時代,單純以訪問量、流量評估流行度已不足以滿足對內(nèi)容資源的評價,話題次數(shù)、搜索次數(shù)也對資源流行程度產(chǎn)生重要影響。因此,結(jié)合網(wǎng)絡(luò)行為特征,選取訪問量、瀏覽量(PV)、搜索指數(shù)、話題熱度為參數(shù)對資源的流行度進(jìn)行評價,如式(5)。

        Ni=w1(v,i)+w2(p,i)+w3(s,i)+w4(t,i)

        (5)

        式中,Ni是第i個資源的流行指數(shù),w1,w2,w3,w4分別是訪問量、PV、搜索指數(shù)及話題熱度對流行指數(shù)的影響系數(shù)。

        經(jīng)過流行指數(shù)評價標(biāo)記,得到所有樣本資源每天的流行度指數(shù),流行度d值越大代表資源的網(wǎng)絡(luò)流程程度越高。樣本數(shù)據(jù),如表1所示。

        表1 內(nèi)容資源流行度樣本數(shù)據(jù)

        2.3 數(shù)據(jù)建模

        根據(jù)圖1的算法流程,按照數(shù)據(jù)是否低于7天將上述數(shù)據(jù)拆分為的稀疏資源和長歷史特征資源,分別對其進(jìn)行線性對數(shù)回歸模型構(gòu)建和ARIMA模型構(gòu)建。

        1.多元對數(shù)回歸模型構(gòu)建

        數(shù)據(jù)范圍在一周內(nèi)的數(shù)據(jù)樣本共23個,將23個樣本數(shù)據(jù)按照線性模型方程進(jìn)行線性指數(shù)求和,然后對指數(shù)和進(jìn)行對數(shù)變化,得到方程的解,如圖2所示。

        圖2 多元對數(shù)回歸計(jì)算結(jié)果

        如圖2,(1) 判定系數(shù)R2=0.958 513,接近1,說明稀疏數(shù)據(jù)資源第t天與第t-1,t-2,…,1天的流行度存在強(qiáng)相關(guān)性,擬合程度較高[16]。

        (2) 統(tǒng)計(jì)量F=341.502 2,若取顯著性水平α=0.05,由F分布表查詢臨界值F0.05(6,15)=2.79<341.502 2,表示y(t)與N1,N2,…,Nt之間不存在顯著差異,即存在相關(guān)性。

        2.ARIMA模型構(gòu)建

        步驟一:序列平穩(wěn)化,差分定階。按照算法流程將一周以上的樣本數(shù)據(jù)進(jìn)行時間序列呈現(xiàn)。逐步對時間序列進(jìn)行階數(shù)的差分處理使序列平穩(wěn);經(jīng)過二階差分,單位根(ADF)檢驗(yàn)序列得到統(tǒng)計(jì)值為-7.231,落在1%的置信區(qū)間,概率小于0.05,因此確定差分階數(shù)d=2。

        步驟二:參數(shù)估計(jì)。利用Eviews軟件計(jì)算得到平穩(wěn)序列后的自相關(guān)圖和偏相關(guān)圖,如圖3所示。

        圖3 序列差分后的ACF圖和PACF圖

        自相關(guān)系數(shù)在滯后4階的時候落在2倍標(biāo)準(zhǔn)差的邊緣,PACF呈二階拖尾,因此q可以考慮取1或4,p可以取1或2,對模型進(jìn)行檢驗(yàn),如表2所示。

        表2 模型檢驗(yàn)結(jié)果

        參數(shù)(2,1)的AIC和SC檢驗(yàn)參數(shù)最理想,確定模型為ARIMA(2,2,1)。

        步驟三:模型適應(yīng)性檢驗(yàn)。檢查模型的殘差是否相關(guān),平均分布是否為0。因此,獲取計(jì)算結(jié)果的值進(jìn)行模型診斷,如圖4所示。

        (a)

        (b)

        圖4(a)時間序列中,殘差沒有明顯的周期性變化;圖4(b)對殘差進(jìn)行差分計(jì)算,發(fā)現(xiàn)時間序列殘差與其本身的滯后版本沒有明顯的自相關(guān)性。綜上,判斷殘差為白噪聲。實(shí)驗(yàn)構(gòu)建的ARIMA(2,2,1)模型對長周期序列的內(nèi)容資源流行度預(yù)測是合適的。

        2.4 模型預(yù)測

        將上述已確定參數(shù)的多元對數(shù)回歸模型和ARIMA模型組合為混合模型,并輸入歷史數(shù)據(jù),利用混合模型預(yù)測未來流行度指數(shù)。模型預(yù)測情況,如圖5所示。

        圖5 混合模型內(nèi)容流行度預(yù)測情況

        由圖可知預(yù)測值與實(shí)際值高度重合。

        2.5 MAE模型性能評估

        采用MAE(平均絕對誤差)方法評估混合模型實(shí)際預(yù)測誤差,如式(6)。

        (6)

        實(shí)驗(yàn)分別對文章提出的混合模型(mixture)與其他文獻(xiàn)中提到的基于線性回歸模型預(yù)測方法(linear-model)、基于對數(shù)回歸模型預(yù)測方法(log-model)以及基于ARIMA模型的預(yù)測方法進(jìn)行對比,如圖6所示。

        圖6 預(yù)測絕對誤差率對比結(jié)果

        由圖可知,實(shí)驗(yàn)中的混合預(yù)測方法的預(yù)測絕對誤差率低于0.38%,誤差率最小。

        3 總結(jié)

        為實(shí)現(xiàn)對不同歷史數(shù)據(jù)周期內(nèi)容資源的流行度預(yù)測,本文結(jié)合多種統(tǒng)計(jì)學(xué)方法,在對基礎(chǔ)數(shù)據(jù)預(yù)處理后,分別對短周期資源和長周期資源進(jìn)行多元對數(shù)回歸算法流行度預(yù)測和ARIMA時間序列算法流行度預(yù)測。經(jīng)過誤差分析和對比后,得到的混合模型絕對誤差率在0.38%以下,優(yōu)于其他模型方案。該模型可以基于歷史數(shù)據(jù),為互聯(lián)網(wǎng)服務(wù)商在資源緩存方面提前規(guī)劃提供指導(dǎo),提前布局。在結(jié)合實(shí)際應(yīng)用的過程中,可以擴(kuò)大樣本數(shù)據(jù)范圍,利用現(xiàn)代科技的大數(shù)據(jù)處理能力和人工智能技術(shù),挖掘更多特征信息,提升數(shù)據(jù)的科學(xué)決策能力。

        猜你喜歡
        對數(shù)差分樣本
        含有對數(shù)非線性項(xiàng)Kirchhoff方程多解的存在性
        指數(shù)與對數(shù)
        數(shù)列與差分
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        指數(shù)與對數(shù)
        對數(shù)簡史
        推動醫(yī)改的“直銷樣本”
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        村企共贏的樣本
        基于差分隱私的大數(shù)據(jù)隱私保護(hù)
        精品国精品国产自在久国产应用| 久久婷婷综合激情五月| 国产 精品 自在 线免费| 亚洲aⅴ天堂av天堂无码麻豆| 国产日韩欧美网站| 91蜜桃国产成人精品区在线| 日本一区二区三区四区高清不卡| 国内成+人 亚洲+欧美+综合在线 | 中日韩欧美高清在线播放| 精品中文字幕精品中文字幕 | 免费观看全黄做爰大片| 啪啪无码人妻丰满熟妇| AV教师一区高清| 亚洲av网站在线免费观看| 久久影院午夜理论片无码| 精产国品一二三产区m553麻豆| 国产综合久久久久影院| 精品日韩在线观看视频| 亚洲av香蕉一区区二区三区| 亚洲美国产亚洲av| 一区二区三区国产97| 蜜桃视频在线观看网址| 欧美日韩视频在线第一区| 亚洲AV永久无码精品导航| 国产精品一区二区三区成人| 久久99精品久久久久婷婷| 看曰本女人大战黑人视频| 久国产精品久久精品国产四虎| 亚洲一区二区三区成人网| 亚洲第一最快av网站| 国产在线丝袜精品一区免费| 久久精品一区二区三区不卡牛牛| 国产美女高潮流白浆免费视频| 好男人日本社区www| 国产视频不卡在线| 日韩精品一区二区免费| 亚洲va中文字幕| 浪荡少妇一区二区三区| 久草中文在线这里只有精品| 国产午夜福利在线观看红一片| 国产精品一区二区韩国AV|