亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Spark的網(wǎng)絡(luò)日志分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2021-09-13 08:50:41汪小霞

無(wú)線互聯(lián)科技 2021年10期

汪小霞

摘要：當(dāng)下，互聯(lián)網(wǎng)技術(shù)已經(jīng)廣泛地應(yīng)用于企業(yè)辦公系統(tǒng)。企業(yè)在需要對(duì)業(yè)務(wù)進(jìn)行處理時(shí)，對(duì)互聯(lián)網(wǎng)有著較高的需求。在利用網(wǎng)絡(luò)技術(shù)的基礎(chǔ)上，工作人員可以有效地借助飛快的信息傳播速度，降低工作的成本，同時(shí)也可以進(jìn)一步提升辦公的整體效能。因此，文章針對(duì)Spark的網(wǎng)絡(luò)日志，進(jìn)行系統(tǒng)設(shè)計(jì)、分析以及闡述，以此為相關(guān)領(lǐng)域的研究人員提供參考。

關(guān)鍵詞：Spark;網(wǎng)絡(luò)日志;系統(tǒng)構(gòu)建;邏輯處理;網(wǎng)頁(yè)展示

0? ? 引言

現(xiàn)階段，大多數(shù)用戶以及行業(yè)都在使用互聯(lián)網(wǎng)技術(shù)，但卻沒(méi)有良好的信息安全意識(shí)。而當(dāng)下的網(wǎng)絡(luò)環(huán)境也越發(fā)復(fù)雜和危險(xiǎn)，使得信息安全風(fēng)險(xiǎn)管理工作日漸成為企業(yè)日常風(fēng)險(xiǎn)管理的重要內(nèi)容。企業(yè)需要有效地分析以及處理網(wǎng)絡(luò)日志，以此充分保障企業(yè)不會(huì)受到網(wǎng)絡(luò)威脅。本研究為整個(gè)系統(tǒng)的優(yōu)化以及維護(hù)提供一定的數(shù)據(jù)參考。

1? ? 網(wǎng)絡(luò)環(huán)境

在互聯(lián)網(wǎng)發(fā)展的背景下，網(wǎng)絡(luò)應(yīng)用于政務(wù)辦公系統(tǒng)中。各行各業(yè)不斷地利用網(wǎng)絡(luò)，確保能夠獲得更多的信息以及數(shù)據(jù)。這使得辦公事務(wù)也可以順利地利用互聯(lián)網(wǎng)實(shí)現(xiàn)高效率的工作。一項(xiàng)調(diào)查顯示，我國(guó)四成以上企業(yè)員工在辦公的過(guò)程中，使用網(wǎng)絡(luò)的時(shí)間與工作未產(chǎn)生必然的聯(lián)系，甚至是訪問(wèn)一些惡意的網(wǎng)站，因此影響了工作效率。企業(yè)在未來(lái)的發(fā)展過(guò)程中，須改進(jìn)網(wǎng)絡(luò)日志方面的分析系統(tǒng)，保障在運(yùn)用互聯(lián)網(wǎng)的過(guò)程中，有著較高的安全性。

2? ? 基于Spark的網(wǎng)絡(luò)日志分析系統(tǒng)的設(shè)計(jì)

2.1? Spark

Spark是UC Berkeley AMP lab研發(fā)的一種開(kāi)源集群計(jì)算框架，并使用Scala，是基于Hadoop所實(shí)現(xiàn)的一種分布式的文件系統(tǒng)類型。最開(kāi)始研發(fā)的目的是為了有效地在一個(gè)開(kāi)源軟件平臺(tái)上進(jìn)行工具的執(zhí)行，但是最后經(jīng)過(guò)長(zhǎng)期的研發(fā)，形成了一個(gè)較為完整的系統(tǒng)類型。Spark可以有效地提供內(nèi)存集群計(jì)算的效果。在數(shù)據(jù)信息的處理過(guò)程中，其可以將一些中間輸出以及結(jié)果完整地保留在內(nèi)存中，不需要再次進(jìn)行讀寫(xiě)處理。這種信息處理方式可以有效地順應(yīng)機(jī)器的學(xué)習(xí)，同時(shí)也可以有效地進(jìn)行數(shù)據(jù)方面的深度挖掘。而在進(jìn)行迭代計(jì)算的過(guò)程中，相較于Hadoop，Spark有著更高的效率性[1]。

2.2? 總體結(jié)構(gòu)

2.2.1? 節(jié)點(diǎn)層

節(jié)點(diǎn)層的設(shè)計(jì)處于最底層。它是由多種機(jī)器節(jié)點(diǎn)構(gòu)成的互聯(lián)集群環(huán)境，同時(shí)也是現(xiàn)階段網(wǎng)絡(luò)日志在分析系統(tǒng)中的一種物理層。

2.2.2? 任務(wù)管理模塊

任務(wù)管理模塊主要是針對(duì)不同的Spark集群任務(wù)，所開(kāi)展的管理調(diào)度。而在系統(tǒng)進(jìn)行配置方面的管理過(guò)程中，設(shè)計(jì)人員還可以有效地實(shí)現(xiàn)人物配置、任務(wù)狀態(tài)監(jiān)控以及任務(wù)調(diào)度。系統(tǒng)在使用的過(guò)程中，能夠有效地定時(shí)執(zhí)行每日任務(wù)。而該模塊還包含兩個(gè)不同的部門(mén)，由Spark框架以及分布式管理系統(tǒng)構(gòu)成。

2.2.3? Spark

Spark是一種基于MapReduce的并行計(jì)算框架，但是與MapReduce不同的是，在使用的過(guò)程中，其產(chǎn)生的計(jì)算結(jié)果可以保存在內(nèi)存中，以此就可以在計(jì)算的過(guò)程中有效降低延遲性，進(jìn)一步提升交互效果。另一方面，設(shè)計(jì)人員還需要在Spark的使用過(guò)程中，實(shí)現(xiàn)更加廣泛的數(shù)據(jù)集操作，保障數(shù)據(jù)庫(kù)、流處理以及圖計(jì)算滿足各種方面的需求。雖然Spark是一種較為獨(dú)立的項(xiàng)目，但是依然可以在設(shè)計(jì)的過(guò)程中，實(shí)現(xiàn)與分布式文件系統(tǒng)共同運(yùn)作。同時(shí)，也可以直接在HDFS上利用YARN，在MapReduce上一同進(jìn)行作業(yè)[2]。

2.2.4? HDFS

HDFS是一種分布式文件系統(tǒng)，主要為計(jì)算機(jī)存儲(chǔ)功能提供一定的底層支持。在設(shè)計(jì)的過(guò)程中，HDFS可以有效地作用于一些廉價(jià)的硬件上，并且可以有著較高的容錯(cuò)性，另一方面，還可以成為一個(gè)較為流行的海量數(shù)據(jù)存儲(chǔ)。

2.2.5? 日志采集模塊

該模塊主要是為了能夠?qū)ι嫌蔚囊恍Ы馕龅娜罩緮?shù)據(jù)位置進(jìn)行詳細(xì)的解析，以此在自動(dòng)收集的過(guò)程中，對(duì)于企業(yè)的內(nèi)部網(wǎng)絡(luò)進(jìn)行Squid服務(wù)器的日志數(shù)據(jù)分析。在全部收集之后，使用者便可以對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，之后依據(jù)數(shù)據(jù)的實(shí)際要求，進(jìn)行加工。在處理的過(guò)程中，日志采集模塊可以實(shí)現(xiàn)對(duì)于數(shù)據(jù)的一致性、完整性、丟失性等方面的操作。而子模塊還可以針對(duì)性地篩選日志數(shù)據(jù)，將數(shù)據(jù)轉(zhuǎn)換成可以分析的數(shù)據(jù)形式，之后將其采集到日志數(shù)據(jù)中。Spark進(jìn)行集群節(jié)點(diǎn)方面的儲(chǔ)存。

2.2.6? 邏輯處理模塊

該模塊主要與Spark進(jìn)行集群方面的交互。而對(duì)于用戶而言，該模塊可以有效地在網(wǎng)頁(yè)端進(jìn)行相應(yīng)的操作，之后對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行查詢，對(duì)HQL進(jìn)行語(yǔ)句方面的定制。

2.2.7? 網(wǎng)頁(yè)展示模塊

該系統(tǒng)主要基于Web。在查詢之后，該模塊就可以返回到結(jié)果數(shù)據(jù)，之后對(duì)不同的搜索進(jìn)行分析，保障在分析的過(guò)程中，能夠形成信息數(shù)量較多的網(wǎng)頁(yè)。

3? ? 基于Spark的網(wǎng)絡(luò)日志分析系統(tǒng)的實(shí)現(xiàn)

在上述的結(jié)構(gòu)設(shè)計(jì)下，為了檢驗(yàn)系統(tǒng)的合理性，設(shè)計(jì)人員可以進(jìn)行研究和分析。

3.1? 系統(tǒng)部署

如圖1所示，本系統(tǒng)的實(shí)現(xiàn)，需要依靠CICS交易服務(wù)器、Hive數(shù)據(jù)倉(cāng)庫(kù)、客戶端、Liberty服務(wù)器、Spark集群，對(duì)腳本進(jìn)行上傳，對(duì)日志進(jìn)行存儲(chǔ)、提取與分析、生成報(bào)告等。

3.2? 任務(wù)調(diào)度

Spark分析模塊是Scheduler最重要的核心組成部分，需要在應(yīng)用的過(guò)程中，運(yùn)用Hadoop MapReduce。而在資源管理以及調(diào)度的過(guò)程中，Spark使用的方式基本上基于YARN。這種資源調(diào)度器可以有效地在使用的過(guò)程中，起到資源調(diào)度分配的作用。在不同的應(yīng)用當(dāng)中，它都能夠?qū)崿F(xiàn)任務(wù)調(diào)度器的作用，以此對(duì)于任務(wù)進(jìn)行調(diào)度以及協(xié)調(diào)。對(duì)于這種上層資源調(diào)度而言，應(yīng)用內(nèi)部的任務(wù)調(diào)度較為獨(dú)立[3]。

3.3? 用戶需求數(shù)據(jù)分析

在實(shí)現(xiàn)的過(guò)程中，首先基于用戶的實(shí)際需求，將請(qǐng)求的數(shù)據(jù)進(jìn)行分析以及計(jì)算，之后再將分析的結(jié)果進(jìn)行返回。返回基本上可以分為圖片以及純數(shù)據(jù)這兩種不同的類型。在使用的過(guò)程中，工作人員有效地利用getData進(jìn)行數(shù)據(jù)信息的調(diào)用以及分析。在前臺(tái)的信息處理過(guò)程中，技術(shù)人員可以有效地利用前臺(tái)調(diào)用JFreeChart工具，進(jìn)行相應(yīng)的分析。

在現(xiàn)階段的發(fā)展過(guò)程中，Spark已經(jīng)成為十分熱門(mén)的一種開(kāi)源項(xiàng)目，并廣泛地應(yīng)用到各種企業(yè)中。在研究中，該技術(shù)也能夠起到十分有效的作用，足以幫助企業(yè)在日常的網(wǎng)絡(luò)日志的管理過(guò)程中，實(shí)現(xiàn)安全性以及質(zhì)量性的管理目標(biāo)。另外，這項(xiàng)技術(shù)還可以定期優(yōu)化以及改進(jìn)。

3.4? 日志處理

為確?；赟park的網(wǎng)絡(luò)日志分析系統(tǒng)能夠有效實(shí)現(xiàn)，工作人員對(duì)日志進(jìn)行處理非常重要，具體方法如下：（1）日志上傳：系統(tǒng)中日志的上傳方式包括兩種：手動(dòng)與自動(dòng)。手動(dòng)上傳需要依靠CICS交易服務(wù)器的部署功能，自動(dòng)上傳則需要依靠Web來(lái)實(shí)現(xiàn)。（2）日志處理：工作人員可通過(guò)日志分析系統(tǒng)對(duì)日志進(jìn)行處理，利用系統(tǒng)部署中的Spark集群功能進(jìn)行計(jì)算，并實(shí)現(xiàn)對(duì)不同節(jié)點(diǎn)日志的分析，經(jīng)分析后的數(shù)據(jù)可被返回并自動(dòng)匯總，以備使用。

4? ? 結(jié)語(yǔ)

綜上所述，文章主要基于Spark的構(gòu)建，分析了企業(yè)網(wǎng)絡(luò)日志分析技術(shù)。為了進(jìn)一步提升企業(yè)的網(wǎng)絡(luò)安全性，技術(shù)人員還需要在日后的發(fā)展過(guò)程中，對(duì)網(wǎng)絡(luò)系統(tǒng)的進(jìn)行優(yōu)化。

[參考文獻(xiàn)]

[1]李言飛，張鵬，戚曉鵬，等.中國(guó)疾病預(yù)防控制信息系統(tǒng)網(wǎng)絡(luò)日志大數(shù)據(jù)分析[J].中國(guó)衛(wèi)生信息管理，2018（6）：625-628.

[2]李亞紅，胡前忠.分布式網(wǎng)絡(luò)日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息與電腦（理論版），2018（21）：163-165.

[3]張揚(yáng).基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)日志分析系統(tǒng)[J].電子技術(shù)與軟件工程，2018（17）：175.

（編輯王永超）