亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于流計算的電力調(diào)度網(wǎng)絡(luò)流量監(jiān)測平臺①

        2018-07-18 06:06:32李喜旺周心圓
        關(guān)鍵詞:網(wǎng)絡(luò)流量數(shù)據(jù)流鄰域

        吳 奔, 李喜旺, 周心圓

        1(中國科學(xué)院 沈陽計算技術(shù)研究所, 沈陽 110168)

        2(中國科學(xué)院大學(xué), 北京 100049)

        3(吉林大學(xué), 長春 130012)

        1 引言

        電力調(diào)度網(wǎng)是電網(wǎng)調(diào)度自動化、信息化的基礎(chǔ),是確保電網(wǎng)安全、穩(wěn)定、經(jīng)濟(jì)運(yùn)行的重要手段, 是電力系統(tǒng)的重要基礎(chǔ)設(shè)施, 傳統(tǒng)的電力調(diào)度網(wǎng)安全監(jiān)測,主要是依靠工程師對網(wǎng)絡(luò)設(shè)備進(jìn)行排查或依靠網(wǎng)管對管理信息庫及參數(shù)的分析進(jìn)行定位.

        隨著電力系統(tǒng)信息化進(jìn)程的加快, 持續(xù)推動了實(shí)時監(jiān)測系統(tǒng)、現(xiàn)場移動檢修系統(tǒng)、測控一體化系統(tǒng)、智能變電站和電力信息管理系統(tǒng)的擴(kuò)建和應(yīng)用, 使電力行業(yè)正逐漸步入到由復(fù)雜及異構(gòu)數(shù)據(jù)源廣泛存在和驅(qū)動的電力大數(shù)據(jù)時代. 電力學(xué)術(shù)領(lǐng)域開始利用云計算技術(shù)解決智能電網(wǎng)海量數(shù)據(jù), 但還是無法達(dá)到很好的實(shí)時處理能力. 想要真正實(shí)現(xiàn)海量實(shí)時監(jiān)測, 需要研究其他大數(shù)據(jù)處理技術(shù), 例如利用內(nèi)存計算, 大數(shù)據(jù)流計算等技術(shù), 如目前主流的大數(shù)據(jù)流計算框架Hadoop、Storm、Spark等[1–3], 采用流計算對產(chǎn)生的數(shù)據(jù)流進(jìn)行實(shí)時處理, 并將數(shù)據(jù)在內(nèi)存數(shù)據(jù)庫中緩存, 通過內(nèi)存計算的方式加速數(shù)據(jù)的處理速度[4], 提高分析處理的性能.

        2 流計算處理技術(shù)及系統(tǒng)設(shè)計

        2.1 流計算技術(shù)介紹及計算框架的選擇

        相較于傳統(tǒng)的數(shù)據(jù)處理方式, 流計算的技術(shù)特點(diǎn)主要體現(xiàn)在流入系統(tǒng)的數(shù)據(jù)流是實(shí)時的, 流計算能夠?qū)α魅氲臄?shù)據(jù)進(jìn)行實(shí)時處理, 并將數(shù)據(jù)在內(nèi)存數(shù)據(jù)庫中緩存, 通過內(nèi)存計算的方式加速數(shù)據(jù)的處理速度, 提高分析處理的性能. 流數(shù)據(jù)處理的一般過程如圖1所示.

        圖1 流計算處理一般過程

        目前著名的開源數(shù)據(jù)流計算框架有Hadoop平臺的 MapReduce 計算框架, Apache Storm 計算框架和Apache Spark計算框架, 他們是目前最常見的處理海量數(shù)據(jù)的開源框架.

        Hadoop是磁盤級計算, 而Storm和Spark是內(nèi)存級計算, 磁盤訪問延遲約為內(nèi)存訪問的75 000倍, 因此Storm和Spark更快. 對于Storm和Spark這兩個高性能并行計算引擎的最大區(qū)別在于實(shí)時性: Spark是準(zhǔn)實(shí)時, 先收集一段時間再處理, 實(shí)時計算延遲是秒級;而Storm是純實(shí)時, 實(shí)時計算延遲是毫秒級. 但Spark擁有更高的吞吐量, Spark還有一個特別的地方是,Spark 的軟件棧允許將一些 library (Spark SQL, MLlib,GrapnX)與數(shù)據(jù)流相結(jié)合[5], 提供便捷的一體化編程模型. Spark的各個組件如圖2所示.

        圖2 Spark 軟件棧

        Spark計算框架解決了大數(shù)據(jù)處理遇到的批處理,實(shí)時流處理和交互式查詢等難題, 結(jié)合Spark高度抽象的 RDD (Resilient Distribute Dataset, 彈性分布式數(shù)據(jù)集)概念[6], 針對多種不同的數(shù)據(jù)處理場合, 基于Spark的編程模式將被同一成相同的處理方式, Spark統(tǒng)一了技術(shù)棧, 降低了研發(fā)成本. 另外 Spark 擁有更清晰, 等級更高的API.

        2.2 流計算網(wǎng)絡(luò)監(jiān)測模型介紹

        為滿足對電力調(diào)度數(shù)據(jù)網(wǎng)實(shí)時監(jiān)測分析的實(shí)時性和高吞吐量的要求, 基于流計算的大數(shù)據(jù)實(shí)時處理分析基礎(chǔ)平臺以電力調(diào)度網(wǎng)絡(luò)的大量實(shí)時監(jiān)測數(shù)據(jù)為處理對象, 主要包括: 數(shù)據(jù)接入模塊, 訓(xùn)練模塊, 實(shí)時計算模塊, 分布式存儲及可視化模塊. 分布式存儲使用內(nèi)存數(shù)據(jù)庫和分布式文件數(shù)據(jù)庫, 完成對實(shí)時推送數(shù)據(jù)進(jìn)行存儲, 實(shí)現(xiàn)實(shí)時分析結(jié)果存儲, 以及離線處理功能.流計算網(wǎng)絡(luò)監(jiān)測模型圖, 如圖3所示.

        圖3 網(wǎng)絡(luò)監(jiān)測模型圖

        2.3 系統(tǒng)的整體架構(gòu)及工作流程

        基于流數(shù)據(jù)的實(shí)時處理分析基礎(chǔ)平臺以電力調(diào)度網(wǎng)的大量實(shí)時監(jiān)測數(shù)據(jù)為處理對象, 主要包括數(shù)據(jù)源接入, 實(shí)時流計算, 以及分布式存儲展示三個基本過程.其中考慮到調(diào)度數(shù)據(jù)網(wǎng)中產(chǎn)生的實(shí)時監(jiān)測數(shù)據(jù)的源頭很多, 而且數(shù)據(jù)源只有接入實(shí)時處理系統(tǒng)后, 才可以進(jìn)行流計算處理, 這里數(shù)據(jù)源是通過自適應(yīng)采集獲取的特定類型的數(shù)據(jù). 結(jié)合數(shù)據(jù)流處理流向, 實(shí)時流計算系統(tǒng)框架圖如圖4所示.

        圖4 流計算實(shí)時處理系統(tǒng)整體架構(gòu)圖

        2.3.1 數(shù)據(jù)接入模塊

        使用分布式消息隊(duì)列系統(tǒng)Kafka作為系統(tǒng)的數(shù)據(jù)接入模塊[7], 發(fā)揮其發(fā)布訂閱消息傳遞機(jī)制及海量消息緩存特性, 為實(shí)時監(jiān)測數(shù)據(jù)的連續(xù)流計算提供數(shù)據(jù)保障. 由于數(shù)據(jù)流的生成方式采用的是Kafka分布式消息隊(duì)列, 因此數(shù)據(jù)在進(jìn)行整合發(fā)送時, 還需要根據(jù)發(fā)送數(shù)據(jù)的類型, 將數(shù)據(jù)添加話題字段, 同一Topic內(nèi)部的消息按照一定的key和算法被分區(qū)到不同的服務(wù)器上.本系統(tǒng)可以包含多種數(shù)據(jù)源, 如調(diào)度網(wǎng)設(shè)備運(yùn)行狀態(tài)信息, 調(diào)度網(wǎng)網(wǎng)絡(luò)流量特征等, 發(fā)布信息時流數(shù)據(jù)產(chǎn)生系統(tǒng)作為Kafka消息數(shù)據(jù)的生產(chǎn)者將數(shù)據(jù)流分發(fā)給Kafka消息主題, 流計算系統(tǒng) Spark Streaming實(shí)時消費(fèi)并計算數(shù)據(jù). Kafka分布式集群架構(gòu)如圖5所示.

        2.3.2 實(shí)時流計算模塊

        系統(tǒng)平臺的實(shí)時流計算模塊主要是基于Spark Streaming的分布式流計算框架構(gòu)成, 它將流式計算分解成一系列短小的批處理作業(yè)[8], 將Kafka中每一個話題的連續(xù)數(shù)據(jù)源定義為一個數(shù)據(jù)流DStream, 而DStream為每個時間段所對應(yīng)的RDD的集合, 每一段數(shù)據(jù)都轉(zhuǎn)化成Spark中的RDD彈性分布式數(shù)據(jù)集.Dstream數(shù)據(jù)流的定義如圖6所示.

        然后將 Spark Streaming中對 DStream的Transformation操作變?yōu)獒槍park中對RDD的Transformation操作[9], 將RDD經(jīng)過操作變成中間結(jié)果保存在內(nèi)存中. 整個流式計算根據(jù)業(yè)務(wù)的需求可以對中間的結(jié)果進(jìn)行疊加, 或者存儲到外部設(shè)備. Spark Streaming的運(yùn)行流程如圖7所示.

        2.3.3 分布式存儲模塊

        為提高數(shù)據(jù)分析處理和數(shù)據(jù)監(jiān)測預(yù)警的實(shí)時性,對于數(shù)據(jù)的存儲模塊則選用內(nèi)存數(shù)據(jù)庫實(shí)現(xiàn), 這里使用分布式內(nèi)存數(shù)據(jù)庫Redis將實(shí)時處理分析的結(jié)果進(jìn)行數(shù)據(jù)key/value存儲. 由于內(nèi)存數(shù)據(jù)庫存儲容量限制,對于訪問頻率較低, 數(shù)據(jù)量較大, 用以進(jìn)行定期離線分析的數(shù)據(jù),則需要借助分布式文件數(shù)據(jù)庫HBase對其進(jìn)行存儲, 確保數(shù)據(jù)存儲的可靠性, 高并發(fā), 及擴(kuò)展能力.

        3 電力調(diào)度網(wǎng)絡(luò)實(shí)時監(jiān)測應(yīng)用實(shí)現(xiàn)

        3.1 網(wǎng)絡(luò)流量異常監(jiān)測

        網(wǎng)絡(luò)流量異常監(jiān)測是網(wǎng)絡(luò)安全防護(hù)至關(guān)重要的方法, 由于網(wǎng)絡(luò)攻擊具有突發(fā)性, 要求我們能夠及時發(fā)現(xiàn)可疑網(wǎng)絡(luò)流量, 從而采取網(wǎng)絡(luò)防護(hù)措施. 網(wǎng)絡(luò)流量異常監(jiān)測主要實(shí)現(xiàn)方法[10], 首先獲取正常通訊下的網(wǎng)絡(luò)數(shù)據(jù)和攻擊下的異常網(wǎng)絡(luò)數(shù)據(jù), 將采集到的網(wǎng)絡(luò)數(shù)據(jù)作為帶標(biāo)簽的訓(xùn)練樣本[11], 可以結(jié)合Spark軟件棧中的MLib機(jī)器學(xué)習(xí)函數(shù)庫應(yīng)用于流數(shù)據(jù)分析中[12], 通過聚類算法對訓(xùn)練樣本進(jìn)行聚類, 建立網(wǎng)絡(luò)流量分類模型.結(jié)合流處理框架Spark Streaming, 程序加載分類模型對新增的流量數(shù)據(jù)數(shù)據(jù)進(jìn)行分類, 對大規(guī)模網(wǎng)絡(luò)流量準(zhǔn)實(shí)時監(jiān)測[13,14].

        圖5 Kafka 分布式集群架構(gòu)圖

        圖6 Dstream 的定義

        圖7 Spark Streaming 運(yùn)行流程圖

        3.2 異常監(jiān)測的實(shí)現(xiàn)

        對于網(wǎng)絡(luò)流量的特征向量, 采用基于機(jī)器學(xué)習(xí)的流量異常監(jiān)測方法最常用的是聚類算法對數(shù)據(jù)集樣本進(jìn)行訓(xùn)練[15]. 對于如K-means等傳統(tǒng)的劃分聚類方法僅能發(fā)現(xiàn)球狀簇, 它們很難發(fā)現(xiàn)任意形狀的簇, 無法避免地將噪聲或離群點(diǎn)包含進(jìn)簇中. 為了發(fā)現(xiàn)任意形狀的簇, 可以把簇看做數(shù)據(jù)空間中被稀疏區(qū)域分開的稠密區(qū)域, 即基于密度實(shí)現(xiàn)聚類. 對于對象o的密度則可以用靠近o的對象數(shù)度量. DBSCAN (Density Based Spatial Clustering of Application with Noise, 具有噪聲應(yīng)用的基于密度的空間聚類)則是基于密度聚類算法的典型代表[7]. 該算法指定參數(shù)ε來表示每個對象的鄰域半徑, 對象o的ε鄰域則是以o為中心、以ε為半徑的空間. 鄰域的大小由參數(shù)ε確定, 因此鄰域的密度可以簡單地用鄰域內(nèi)的對象數(shù)度量. DBSCAN通過另一參數(shù)MinPts, 即指定稠密區(qū)域的密度閾值, 來衡量鄰域是否稠密. DBSCAN算法在發(fā)現(xiàn)簇的過程如下文.

        (1) 首先將給定數(shù)據(jù)集D中的所有對象都標(biāo)記為“unvisited”.

        (2) DBSCAN隨機(jī)地選擇一個未訪問的對象p, 標(biāo)記 p 為“visited”, 并檢查 p 的ε-鄰域是否至少包含MinPts個對象. 如果不是, 則p被標(biāo)記為噪聲點(diǎn).

        (3) 否則為 p創(chuàng)建一個新的簇 C, 并且把 p的ε-鄰域中的所有對象都放到候選集合N中. DBSCAN迭代地把N中不屬于其他簇的對象添加到C中.

        在此過程中, 對于N中標(biāo)記為“unvisited”的對象,DBSCAN 把它標(biāo)記為“visited”, 并且檢查它的ε-鄰域.如果的ε-鄰域至少有MinPts個對象, 則的ε-鄰域中的對象都被添加到N中. DBSCAN繼續(xù)添加對象到C,直到C不能再擴(kuò)展, 即直到N為空. 此時, 簇C完全生成, 于是被輸出. 為了尋找下一個簇, DBSCAN 從剩下的對象中隨機(jī)地選擇一個未訪問的對象. 聚類過程繼續(xù), 直到所有對象都被訪問.

        4 實(shí)驗(yàn)與結(jié)果分析

        4.1 實(shí)驗(yàn)環(huán)境

        系統(tǒng)實(shí)驗(yàn)環(huán)境所使用的Spark集群搭建在基于Hadoop的基于分布式的安裝, 集群有3個節(jié)點(diǎn), 其中將一個節(jié)點(diǎn)配置為Master, 其他2個配置為Slave, 每個節(jié)點(diǎn)的配置都是內(nèi)存8 GB, 并搭載Centos操作系統(tǒng), 相關(guān)軟件版本如表1所示.

        表1 集群的軟件配置

        4.2 實(shí)驗(yàn)結(jié)果與分析

        本論文使用的數(shù)據(jù)為從電力調(diào)度數(shù)據(jù)網(wǎng)通過自適應(yīng)采集及預(yù)處理過的網(wǎng)絡(luò)流量數(shù)據(jù), 每個網(wǎng)絡(luò)連接的統(tǒng)計信息, 數(shù)據(jù)集的大小約為708 M, 包含490萬個連接. 數(shù)據(jù)集中每個連接信息包括發(fā)送的字節(jié)數(shù), 登錄次數(shù), TCP 錯誤數(shù)等. 數(shù)據(jù)集包含 38 個特征, 下面是其中的一個連接的樣例:

        2, tcp, http, SF, 1684, 363, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00,0.00, 104, 66, 0.63, 0.03, 0.01, 0.00, 0.00, 0.00, 0.00,0.00, normal.

        數(shù)據(jù)集中每個連接的信息包括發(fā)送的字節(jié)數(shù), 登陸次數(shù), TCP 錯誤數(shù)等. 以上代表一個 TCP 連接, 他訪問http服務(wù), 發(fā)送了1684字節(jié)的數(shù)據(jù), 收到數(shù)據(jù)363字節(jié), 用戶登錄成功等. 許多特征值取值為0或1, 比如第15列的su_attemted,它們代表某種行為出現(xiàn)與否.最后的字段表示類別標(biāo)號, 大多數(shù)為normal.

        在建立監(jiān)測模型時, 由于每個特征的屬性值, 和閾值不同, 我們需要將數(shù)據(jù)集進(jìn)行數(shù)據(jù)歸一化(數(shù)據(jù)標(biāo)準(zhǔn)化)處理, 數(shù)據(jù)歸一化的標(biāo)準(zhǔn)采用的是z-score歸一化方法, z-score方法是基于數(shù)據(jù)集的均值和標(biāo)準(zhǔn)差σ計算歸一化后的結(jié)果, 計算方式如公式(1)所示:

        實(shí)驗(yàn)首先經(jīng)過Kafka客戶端讀取數(shù)據(jù)集特征數(shù)據(jù)通過創(chuàng)建話題的方式生產(chǎn)主題, 發(fā)送給Spark Streaming消費(fèi), 這里使用Direct方式讀取并計算分析, 將特征數(shù)據(jù)以DBSCAN聚類學(xué)習(xí)算法進(jìn)行聚類, 使用Spark-Mlib中的DbscanModel的變體StreamingDbsan[16].StreamingDbscan模型可以根據(jù)增量對簇進(jìn)行更新. 我們分別就網(wǎng)絡(luò)流量異常監(jiān)測的準(zhǔn)確性和平臺計算的實(shí)時性進(jìn)行測試. 準(zhǔn)確率通過合并各個SparkStreaming輸出數(shù)據(jù)來計算. 計算每個類簇所含的主要攻擊種類個數(shù)與數(shù)據(jù)總數(shù)的比值.

        某個類簇的準(zhǔn)確率p的計算公式如公式(2)所示:

        其中,m為類簇中數(shù)量占第一位的數(shù)據(jù)總數(shù), 即主要攻擊的類型個數(shù),w為類簇的數(shù)據(jù)總數(shù).

        數(shù)據(jù)的總準(zhǔn)確率P的計算公式如公式(3)所示:

        其中,M為所有類簇中數(shù)量占第一位的數(shù)量總數(shù),W為所有類簇的所有數(shù)據(jù)的總和.

        表2是經(jīng)過SparkStreaming結(jié)合Dbscan數(shù)據(jù)聚類分析的得出的結(jié)果.

        表2 流量數(shù)據(jù)聚類檢測結(jié)果

        從表2可以看出, 經(jīng)過聚類分析將數(shù)據(jù)分為19類,通過公式(3)可以得出總的準(zhǔn)確率P為97.48%. 準(zhǔn)確率較高.

        實(shí)驗(yàn)分別在云計算和流計算處理平臺, 分別以每100萬條數(shù)據(jù), 5個測試等級對應(yīng)時間出來開銷, 分別測試并對最終獲得結(jié)果, 從圖8所示的實(shí)驗(yàn)結(jié)果可知,與云計算方式的系統(tǒng)架構(gòu)對比, 使用流計算的系統(tǒng)框架具備了分布式流處理的高吞吐的性能, 能夠滿足海量數(shù)據(jù)實(shí)時處理分析的性能需求.

        圖8 云計算方式與流計算方式吞吐量對比

        5 結(jié)語

        本文提出了基于流計算的處理方式, 針對電網(wǎng)調(diào)度數(shù)據(jù)網(wǎng)海量數(shù)據(jù)監(jiān)測分析, 構(gòu)建實(shí)時監(jiān)測分析平臺,兼具高吞吐量高實(shí)時性及容錯性和可擴(kuò)展性的優(yōu)勢,該系統(tǒng)基于電網(wǎng)調(diào)度數(shù)據(jù)網(wǎng)流量數(shù)據(jù)實(shí)現(xiàn)了流量異常的監(jiān)測, 結(jié)合流計算技術(shù)實(shí)現(xiàn)了海量實(shí)時數(shù)據(jù)的計算分析處理及存儲的需求, 同時為電力調(diào)度網(wǎng)的自動化運(yùn)維等其他需求提供有效可靠的借鑒思路. 但本文只是對已知的網(wǎng)絡(luò)攻擊進(jìn)行分析, 還需加強(qiáng)未知類型攻擊的算法模型創(chuàng)建, 系統(tǒng)仍然需要更加深入的改進(jìn).

        猜你喜歡
        網(wǎng)絡(luò)流量數(shù)據(jù)流鄰域
        基于多元高斯分布的網(wǎng)絡(luò)流量異常識別方法
        基于神經(jīng)網(wǎng)絡(luò)的P2P流量識別方法
        汽車維修數(shù)據(jù)流基礎(chǔ)(下)
        稀疏圖平方圖的染色數(shù)上界
        基于鄰域競賽的多目標(biāo)優(yōu)化算法
        一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
        AVB網(wǎng)絡(luò)流量整形幀模型端到端延遲計算
        關(guān)于-型鄰域空間
        基于數(shù)據(jù)流聚類的多目標(biāo)跟蹤算法
        北醫(yī)三院 數(shù)據(jù)流疏通就診量
        无码人妻AⅤ一区 二区 三区| 亚洲国产精品一区二区久久恐怖片| 蜜臀一区二区三区精品| 国产av无码专区亚洲av毛网站| 久久国产36精品色熟妇| 538亚洲欧美国产日韩在线精品| 国产黑色丝袜一区在线| 人妻丰满少妇一二三区| 在线免费观看蜜桃视频| 偷拍激情视频一区二区三区 | 亚洲av无码资源在线观看| 国产成人亚洲综合小说区| 蜜桃久久综合一区二区| 国产精品久久久久久久久绿色| 搡老熟女老女人一区二区| 亚洲色图视频在线观看网站| 中文字幕有码手机视频| 精品无码一区二区三区爱欲| 99精产国品一二三产品香蕉| 欧美精品久久久久久三级| 久久精品国产在热亚洲不卡| 四虎影视久久久免费观看| 无码h黄动漫在线播放网站| 国产亚洲AV片a区二区| 日本精品久久不卡一区二区| 国产狂喷潮在线观看| 国产爽爽视频在线| 91精品啪在线看国产网站| 亚洲区1区3区4区中文字幕码| 亚洲中文字幕久久在线| 蜜桃视频一区二区在线观看| 综合无码一区二区三区| 99久久亚洲国产高清观看| 久久国产精品美女厕所尿尿av| 国产精品综合色区在线观看| 亚洲男同志gay 片可播放| 熟女少妇丰满一区二区| av剧情演绎福利对白| 老师翘臀高潮流白浆| 国产成人无精品久久久| 亚洲乱码一区二区av高潮偷拍的|