亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LSTM的媒體網站用戶流量預測與負載均衡方法

        2018-03-01 10:24:40謝海濤陳樹
        網絡空間安全 2018年10期
        關鍵詞:長短期記憶網絡負載均衡

        謝海濤 陳樹

        摘 要:媒體網站的用戶流量呈現平穩(wěn)性、周期性、不規(guī)則變動等特征,對用戶流量的有效預測有助于管理者設計更合理的負載均衡(Load Balance)策略。鑒于傳統(tǒng)預測技術難以對蘊含在不同時間跨度中的知識進行融合,論文提出了一種基于深度學習技術“長短期記憶網絡(LSTM)”的用戶流量預測及負載均衡方法。該方法將網站的各類運營數據作為影響流量的特征,從而挖掘流量與其特征間的關聯(lián)知識。根據未來時間窗口的流量預測結果,進行服務器資源預留,以實現較好的負載均衡效果。實驗表明,相對于傳統(tǒng)方法,論文方法的請求響應時間均值更低。

        關鍵詞:用戶流量預測;長短期記憶網絡;負載均衡

        中圖分類號:TP393 文獻標識碼:A

        1 引言

        負載均衡是將用戶的請求分發(fā)到不同服務器,以縮短請求響應時間的技術。對媒體網站來說,用戶訪問量的準確預測是設計更合理的負載均衡策略、改善用戶訪問體驗的數據依據。媒體網站的訪問量總體上呈現出平穩(wěn)性、趨勢性、周期性、隨機性等特征。例如,網站內容質量的提高讓用戶流量穩(wěn)中有升;用戶流量會伴隨日夜交替而產生周期性起伏;發(fā)布熱門內容會導致用戶流量的激增等。上述現象表明用戶訪問量具有時間序列(Time Series)數據的典型特征,也使得媒體網站的用戶流量預測變得較為困難。

        對于用戶流量問題,已存在諸多研究成果。傳統(tǒng)方法主要基于統(tǒng)計學、隨機過程、機器學習(淺層學習)等技術提出解決方案。上述方法在用戶訪問量預測問題上取得了不錯的應用效果。不過,傳統(tǒng)方法在持續(xù)提高預測精度過程中遇到瓶頸,其重要原因是無法對蘊含在不同時間跨度中的知識進行有效提取及融合,即不具備“記住對預測有用的信息,忘記對預測無用的信息”能力。對此,本文提出了一種基于長短期記憶網絡(深度學習)的媒體網站用戶流量預測方法,并設計了基于預測結果的負載均衡優(yōu)化策略。

        創(chuàng)新點在于兩點:

        (1)LSTM的深層結構與遺忘記憶機制,可融合不同時間跨度的歷史信息;

        (2)考慮到高峰流量通常伴有相似的內容請求,負載均衡策略會預留出優(yōu)質的服務器資源,對流量進行集中處理和響應。

        在本文隨后的章節(jié)中,將首先闡述相關研究成果;然后對所解決問題進行形式化,并基于LSTM提出了媒體網站流量預測方法;接著設計了具有資源預留機制的負載均衡方法;最后開展對比實驗。

        2 相關研究綜述

        用戶流量預測(Network Traffic Prediction)作為評估與保障網絡可靠性、網絡安全性的機制,被廣泛應用于門戶網站、電子商務網站等[1]。根據數據建模方法與視角的不同,主流方法包括三種:

        (1)基于泊松分布、小波分析等的統(tǒng)計類建模方法;

        (2)基于線性時間序列(Linear Time Series)模型、非線性時間序列(Nonlinear Time Series)模型、馬爾科夫過程的隨機過程類建模方法;

        (3)基于神經網絡、支持向量機等的機器學習類(Machine Learning)方法。

        Erlang很早便提出基于排隊論方法學來建模用戶到達率問題,使用泊松分布對數據建模[2]。洪飛等基于小波分析技術建模網絡流量[3]。綜合自回歸移動平均模型ARIMA也常被用于解決該問題,它將數據從非平穩(wěn)時間序列轉化為平穩(wěn)時間序列,其特點在于能從數據中捕獲到隨時間變化的隨機模式,隨機模式是指隨機過程的特征隨時間變化[4]。溫祥西、韓敏等基于支持向量機提出了時間序列預測模型[5,6]。彭喜元等使用原始數據構建出多個特征,并基于神經網絡進行學習和預測[7]。

        綜上,媒體網站用戶訪問量具有典型的非線性時間序列特征,且存在各類外部隨機擾動。對其進行精準預測需要模型從不同時間尺度上學習數據規(guī)律。在難以可視化高維數據、難以描述隨機過程機制的情況下,使用LSTM模型將媒體的各類行為特征作為輸入,能最大限度捕捉特征變化規(guī)律,適于解決該問題。

        3 基于LSTM的媒體網站訪問量預測方法

        3.1 訪問量預測問題的形式化描述

        媒體網站某段時間內用戶訪問量數據V可記為:。其中,t是時間片序號,v代表時間片內的訪問量。按照上述表示法,媒體網站在運營中的各類行為均可被形式化描述為數據特征,如表1所示。

        基于上述表示法,訪問量預測問題的輸入數據表示為:

        本節(jié)要解決的問題,即通過對若干歷史時間片內上述數據的學習,預測未來若干時間片內的訪問量。

        3.2 長短期記憶網絡

        LSTM(Long Short Term Memory)是一種基于循環(huán)神經網絡RNN改進而來的模型[8]。LSTM在長短時間跨度的序列數據預測中,比RNN表現更好。神經網絡作為具有輸入層、隱藏層、輸出層的機器學習模型可學習到數據中的非線性關系。神經網絡通過后向和前向傳播完成參數的調整。當按照計算時間將RNN展開后,如圖1所示。

        其中,U、V、W是參數,x、s、o分別為輸入、隱含層、輸出。LSTM在RNN基礎上通過增加“遺忘機制”“選擇記憶機制”實現了適應長短期時間跨度的序列數據學習能力。相比于RNN,LSTM有兩套傳輸狀態(tài):單元狀態(tài)(Cell State)和隱藏層狀態(tài)(Hidden State),前者隨時間變化較慢,后者變化較快,具體細節(jié)如下:

        某時刻t的單元狀態(tài)和隱藏層狀態(tài)分別記為:Ct,ht。若當前輸入為Xt,<α,β>表示將兩向量進行拼接(Concatenate),那么LSTM中的一組變量計算如下:

        (1)

        其中,zi,zf,zo由權重矩陣與拼接向量相乘得到,σ代表sigmoid激活函數,將數值映射為0到1區(qū)間。上述三變量作為模型的門控信號,分別控制著輸入、遺忘、輸出機制。z通過tanh函數將數值映射為-1到1區(qū)間,作為其它構件的輸入數據。以上變量隨后參與如下運算過程,并最終形成輸出yt,計算流程如圖2所示。

        其中,⊕是矩陣相加算子,是同型矩陣相乘算子,即:矩陣中對應元素相乘。上述結構圖中的各變量計算方法如下:

        (2)

        LSTM在時序數據學習中,展現出如下的機制:

        忘記機制:使用忘記門控信號zf對上一時刻所持有的信息Ct-1進行選擇性忘記,忘記不重要的信息,即對結果預測無用的信息。

        選擇記憶機制:對當前時刻的輸入信息Xt進行選擇性記憶,記住相對重要的信息,即對結果預測有用的信息,通過門控信號zi以及之前計算得到的z得到。

        將上述兩路信息組合,形成當前時刻的單元狀態(tài)Ct。以上信息經過tanh函數并通過輸出門控信號zo來決定輸出內容,并最終形成輸出yt。

        3.3 基于LSTM的訪問量預測方法

        由于LSTM接受向量形式的輸入與輸出。將時間序列樣本數據轉換為LSTM輸入數據,其主要方法是將原數據與其按照步長沿時間錯位后的數據拼接而成。若某單變量Var時間序列數據為<…a,b,c,d,e,…>,那么步長為2的轉換數據如表2所示,其中步長為2表示當前時刻t的數值受之前兩個時刻t-1,t-2的數值影響。在數據轉換完后,變量Vart即對應監(jiān)督學習中的樣本的目標值Y,Vart-1,Vart-2組成了樣本的特征向量X。

        上述轉換可預測未來1個單位時間跨度的數值,若要針對2個單位時間跨度預測,可將數據轉換為如表3所示。其與表2的區(qū)別在于,用該組數據訓練的LSTM模型的輸出向量包含兩個預測數值,對應于未來兩個時間片段。

        在本研究中,由于需要基于媒體的多類行為特征以及用戶流量本身,來預測未來若干時間片段的用戶流量,那么對于表4中的數據可轉換為表5中的數據,其中Var_1、Var_2表示兩個特征。

        通過上述轉換,將多變量時間序列轉化為了LSTM學習與預測時所需要的樣本特征與目標值記錄。之后將記錄劃分為訓練集和測試集,便可生成未來若干時間片中用戶流量的預測結果。

        4 基于用戶流量預測結果的負載均衡優(yōu)化方法

        常用的負載均衡方法包括五大類。

        (1)輪詢法。將用戶請求按順序輪流地分發(fā)給后端服務器處理。

        (2)隨機法。通過系統(tǒng)的隨機算法,根據后端服務器的列表來隨機選取其中的一臺服務器進行分發(fā)。

        (3)源地址哈希法。根據發(fā)起請求的客戶IP地址,通過哈希函數計算得到的一個數值,用該數值對服務器列表進行選擇和分發(fā)。

        (4)加權法。后端服務器通常具有不同的配置和負載,對配置高、負載低的機器給與高權重,將更多的請求分發(fā)給權重高的服務器。

        (5)最小連接數法。由于后端服務器的配置不同,對于請求的處理速度也不同,該方法根據服務器當前連接的情況,動態(tài)地選取其中積壓請求數最較少的服務器來處理當前請求。

        上述傳統(tǒng)的負載均衡方法,并沒有考慮不同請求之間的相似性。對于媒體網站,處于相近時間的用戶請求往往具有較大相似性。例如,媒體網站發(fā)布一則重要消息后,激增的用戶流量經常均指向同一內容??紤]到服務器的緩存機制和資源預取機制,若隨機或輪詢分發(fā)請求,其服務器平均響應時間要遠高于集中處理的時間。

        對此,本文提出了基于流量預測和服務器資源預留的負載均衡方法,其主旨:若預測到未來某時間片中,用戶流量超過閾值,則根據服務器性能,為該時間片預留服務器資源,當該時間片到臨時,將請求集中分發(fā)到預留的服務器,方法邏輯圖如圖3所示。

        5 實驗與分析

        本文基于Python機器學習開發(fā)環(huán)境開發(fā)LSTM模型。該環(huán)境搭建兼容Windows與Linux平臺。首先下載Anaconda工具并安裝,確保環(huán)境中有機器學習開發(fā)所必需的合適版本的基礎類庫。隨后,安裝深度學習所需要的Python類庫,包括Theano、TensorFlow和Keras。在設計與實現LSTM前,需要明確的模型重要特征包括:

        (1)基于多少個歷史時間片段的數據進行學習;

        (2)針對未來多少個時間片段做預測;

        (3)隱藏層有多少個神經元;

        (4)損失函數的選擇,如平均絕對誤差MAE;

        (5)優(yōu)化算法選擇,如隨機梯度下降法SGD;

        (6)樣本數據的訓練輪次以及參數優(yōu)化中的一批次數據規(guī)模。

        在模型特征確定后,實現模型的偽代碼如下:

        用戶流量預測的實驗數據源于真實數據和仿真數據。其中,真實數據來源于基于微信公眾號搭建的媒體網站的服務器日志,以IP地址來區(qū)分不同用戶的訪問行為。仿真數據則基于新浪微博(中國計算機學會CCF官微)的爬取數據而生成,生成方法為將微博賬戶的各類行為及點贊情況類比為媒體網站的各類行為及用戶流量。數據在用途上分為訓練集與測試集,分別用于訓練模型和進行測試,仿真數據由程序自動生成。在評價模型效果之前,需要對模型預測精度進行定義。本文中,當預測數值落在實際數值一定范圍內,則認為該次預測準確,否則為不準確。精度定義為準確預測占全部預測的比例。公式如下:

        (3)

        仿真實驗分別針對用戶流量預測和負載均衡方法展開5組實驗,每組實驗分別模擬具有不同特質的用戶流量,得到結果如圖4和圖5所示。

        從圖4和圖5可見,基于LSTM的用戶流量預測方法相比于傳統(tǒng)方法具有更高的精度?;诹髁款A測的負載均衡方法具有更短的服務器平均響應時間。

        6 結束語

        本文針對媒體網站用戶訪問量受多類運營行為影響而難以預測的問題,提出了基于LSTM的預測方法,該方法能夠對蘊含在不同時間跨度中的知識進行融合,與傳統(tǒng)預測方法ARIMA相比,具有更高的預測精度。根據用戶流量預測,設計了基于服務器資源預留的負載均衡方法。該方法可縮短請求的平均響應時間,改善用戶訪問體驗。

        基金項目:

        北京市科學技術研究院萌芽項目“深度學習技術在情報檢索用戶群體行為分析中的應用研究”的階段性研究成果(項目編號:GS201804)。

        參考文獻

        [1] Joshi M, Hadi T H. A review of network traffic analysis and prediction techniques[J]. Computer Science,2015.

        [2] Bonald T.The Erlang model with non-poisson call arrivals[C]//Joint International Conference on Measurement and Modeling of Computer Systems. ACM,2006:276-286.

        [3] 洪飛,吳志美.基于小波的多尺度網絡流量預測模型[J].計算機學報, 2006, 29(1):166-170.

        [4] Contreras J,Espinola R, Nogales F J, et al.ARIMA models to predict next-day electricity prices[J].IEEE Transactions on Power Systems,2003,18(3):1014-1020.

        [5] 溫祥西,孟相如,馬志強,等.小時間尺度網絡流量混沌性分析及趨勢預測[J].電子學報,2012, 40(8):1609-1616.

        [6] 韓敏,許美玲,穆大蕓.無核相關向量機在時間序列預測中的應用[J].計算機學報,2014, 37(12):2427-2432.

        [7] 彭喜元,王軍,彭宇.一種新型時間序列多分辨預測模型研究[J].電子學報,2007, 35(11):2146-2149.

        [8] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997, 9(8):1735-1780.

        猜你喜歡
        長短期記憶網絡負載均衡
        基于多注意力多尺度特征融合的圖像描述生成算法
        計算機應用(2019年2期)2019-08-01 01:57:38
        從餐館評論中提取方面術語
        多種算法對不同中文文本分類效果比較研究
        軟件導刊(2019年5期)2019-05-24 14:17:58
        LSTM—RBM—NMS模型下的視頻人臉檢測方法研究
        餐飲業(yè)客流預測的深度聯(lián)合模型
        商情(2018年47期)2018-11-26 09:12:38
        基于LSTM自動編碼機的短文本聚類方法
        Linux負載均衡集群技術在網絡服務器中的應用
        軟件導刊(2016年12期)2017-01-21 16:10:11
        Oracle MAA在汽車行業(yè)電子政務平臺中的應用
        軟件導刊(2016年12期)2017-01-21 15:43:08
        異構環(huán)境下改進的LATE調度算法
        基于負載均衡的云資源調度策略研究
        麻豆视频在线播放观看| 亚洲精品亚洲人成在线下载| 美女爽好多水快进来视频| 蜜臀av人妻一区二区三区| 精品成人av人一区二区三区 | 强d乱码中文字幕熟女免费| 娇妻在交换中哭喊着高潮| 性xxxx视频播放免费| 2022国内精品免费福利视频| 91青青草免费在线视频| 青青草好吊色在线观看| 熟女无套高潮内谢吼叫免费| 精品人妻无码一区二区三区蜜桃一 | 亚洲国产a∨无码中文777| 无码任你躁久久久久久老妇| 波多野结衣免费一区视频| 亚洲熟伦在线视频| 亚洲乱码av一区二区蜜桃av| 欧美性生交大片免费看app麻豆 | 国内精品女同一区二区三区| 日本午夜理论片在线观看| 国产二级一片内射视频播放| 色爱区综合五月激情| 日韩无码尤物视频| 久久精品人妻一区二三区| 欧美白人战黑吊| 亚洲男人的天堂在线aⅴ视频| 国产精品99久久国产小草| 午夜婷婷国产麻豆精品| 变态另类人妖一区二区三区| 亚洲人成色7777在线观看| 精品久久久久久无码国产| 91自国产精品中文字幕| 国产三区二区一区久久| 久久精品国产亚洲av香蕉| 国产欧美亚洲精品a| 超碰性爱| 国产亚洲精品一区在线| 国产精品扒开腿做爽爽爽视频| 午夜福利视频合集1000| 精品久久久亚洲中文字幕|