汪小霞
摘 要:當(dāng)下,互聯(lián)網(wǎng)技術(shù)已經(jīng)廣泛地應(yīng)用于企業(yè)辦公系統(tǒng)。企業(yè)在需要對(duì)業(yè)務(wù)進(jìn)行處理時(shí),對(duì)互聯(lián)網(wǎng)有著較高的需求。在利用網(wǎng)絡(luò)技術(shù)的基礎(chǔ)上,工作人員可以有效地借助飛快的信息傳播速度,降低工作的成本,同時(shí)也可以進(jìn)一步提升辦公的整體效能。因此,文章針對(duì)Spark的網(wǎng)絡(luò)日志,進(jìn)行系統(tǒng)設(shè)計(jì)、分析以及闡述,以此為相關(guān)領(lǐng)域的研究人員提供參考。
關(guān)鍵詞:Spark;網(wǎng)絡(luò)日志;系統(tǒng)構(gòu)建;邏輯處理;網(wǎng)頁(yè)展示
0? ? 引言
現(xiàn)階段,大多數(shù)用戶以及行業(yè)都在使用互聯(lián)網(wǎng)技術(shù),但卻沒(méi)有良好的信息安全意識(shí)。而當(dāng)下的網(wǎng)絡(luò)環(huán)境也越發(fā)復(fù)雜和危險(xiǎn),使得信息安全風(fēng)險(xiǎn)管理工作日漸成為企業(yè)日常風(fēng)險(xiǎn)管理的重要內(nèi)容。企業(yè)需要有效地分析以及處理網(wǎng)絡(luò)日志,以此充分保障企業(yè)不會(huì)受到網(wǎng)絡(luò)威脅。本研究為整個(gè)系統(tǒng)的優(yōu)化以及維護(hù)提供一定的數(shù)據(jù)參考。
1? ? 網(wǎng)絡(luò)環(huán)境
在互聯(lián)網(wǎng)發(fā)展的背景下,網(wǎng)絡(luò)應(yīng)用于政務(wù)辦公系統(tǒng)中。各行各業(yè)不斷地利用網(wǎng)絡(luò),確保能夠獲得更多的信息以及數(shù)據(jù)。這使得辦公事務(wù)也可以順利地利用互聯(lián)網(wǎng)實(shí)現(xiàn)高效率的工作。一項(xiàng)調(diào)查顯示,我國(guó)四成以上企業(yè)員工在辦公的過(guò)程中,使用網(wǎng)絡(luò)的時(shí)間與工作未產(chǎn)生必然的聯(lián)系,甚至是訪問(wèn)一些惡意的網(wǎng)站,因此影響了工作效率。企業(yè)在未來(lái)的發(fā)展過(guò)程中,須改進(jìn)網(wǎng)絡(luò)日志方面的分析系統(tǒng),保障在運(yùn)用互聯(lián)網(wǎng)的過(guò)程中,有著較高的安全性。
2? ? 基于Spark的網(wǎng)絡(luò)日志分析系統(tǒng)的設(shè)計(jì)
2.1? Spark
Spark是UC Berkeley AMP lab研發(fā)的一種開(kāi)源集群計(jì)算框架,并使用Scala,是基于Hadoop所實(shí)現(xiàn)的一種分布式的文件系統(tǒng)類型。最開(kāi)始研發(fā)的目的是為了有效地在一個(gè)開(kāi)源軟件平臺(tái)上進(jìn)行工具的執(zhí)行,但是最后經(jīng)過(guò)長(zhǎng)期的研發(fā),形成了一個(gè)較為完整的系統(tǒng)類型。Spark可以有效地提供內(nèi)存集群計(jì)算的效果。在數(shù)據(jù)信息的處理過(guò)程中,其可以將一些中間輸出以及結(jié)果完整地保留在內(nèi)存中,不需要再次進(jìn)行讀寫(xiě)處理。這種信息處理方式可以有效地順應(yīng)機(jī)器的學(xué)習(xí),同時(shí)也可以有效地進(jìn)行數(shù)據(jù)方面的深度挖掘。而在進(jìn)行迭代計(jì)算的過(guò)程中,相較于Hadoop,Spark有著更高的效率性[1]。
2.2? 總體結(jié)構(gòu)
2.2.1? 節(jié)點(diǎn)層
節(jié)點(diǎn)層的設(shè)計(jì)處于最底層。它是由多種機(jī)器節(jié)點(diǎn)構(gòu)成的互聯(lián)集群環(huán)境,同時(shí)也是現(xiàn)階段網(wǎng)絡(luò)日志在分析系統(tǒng)中的一種物理層。
2.2.2? 任務(wù)管理模塊
任務(wù)管理模塊主要是針對(duì)不同的Spark集群任務(wù),所開(kāi)展的管理調(diào)度。而在系統(tǒng)進(jìn)行配置方面的管理過(guò)程中,設(shè)計(jì)人員還可以有效地實(shí)現(xiàn)人物配置、任務(wù)狀態(tài)監(jiān)控以及任務(wù)調(diào)度。系統(tǒng)在使用的過(guò)程中,能夠有效地定時(shí)執(zhí)行每日任務(wù)。而該模塊還包含兩個(gè)不同的部門(mén),由Spark框架以及分布式管理系統(tǒng)構(gòu)成。
2.2.3? Spark
Spark是一種基于MapReduce的并行計(jì)算框架,但是與MapReduce不同的是,在使用的過(guò)程中,其產(chǎn)生的計(jì)算結(jié)果可以保存在內(nèi)存中,以此就可以在計(jì)算的過(guò)程中有效降低延遲性,進(jìn)一步提升交互效果。另一方面,設(shè)計(jì)人員還需要在Spark的使用過(guò)程中,實(shí)現(xiàn)更加廣泛的數(shù)據(jù)集操作,保障數(shù)據(jù)庫(kù)、流處理以及圖計(jì)算滿足各種方面的需求。雖然Spark是一種較為獨(dú)立的項(xiàng)目,但是依然可以在設(shè)計(jì)的過(guò)程中,實(shí)現(xiàn)與分布式文件系統(tǒng)共同運(yùn)作。同時(shí),也可以直接在HDFS上利用YARN,在MapReduce上一同進(jìn)行作業(yè)[2]。
2.2.4? HDFS
HDFS是一種分布式文件系統(tǒng),主要為計(jì)算機(jī)存儲(chǔ)功能提供一定的底層支持。在設(shè)計(jì)的過(guò)程中,HDFS可以有效地作用于一些廉價(jià)的硬件上,并且可以有著較高的容錯(cuò)性,另一方面,還可以成為一個(gè)較為流行的海量數(shù)據(jù)存儲(chǔ)。
2.2.5? 日志采集模塊
該模塊主要是為了能夠?qū)ι嫌蔚囊恍Ы馕龅娜罩緮?shù)據(jù)位置進(jìn)行詳細(xì)的解析,以此在自動(dòng)收集的過(guò)程中,對(duì)于企業(yè)的內(nèi)部網(wǎng)絡(luò)進(jìn)行Squid服務(wù)器的日志數(shù)據(jù)分析。在全部收集之后,使用者便可以對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,之后依據(jù)數(shù)據(jù)的實(shí)際要求,進(jìn)行加工。在處理的過(guò)程中,日志采集模塊可以實(shí)現(xiàn)對(duì)于數(shù)據(jù)的一致性、完整性、丟失性等方面的操作。而子模塊還可以針對(duì)性地篩選日志數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)換成可以分析的數(shù)據(jù)形式,之后將其采集到日志數(shù)據(jù)中。Spark進(jìn)行集群節(jié)點(diǎn)方面的儲(chǔ)存。
2.2.6? 邏輯處理模塊
該模塊主要與Spark進(jìn)行集群方面的交互。而對(duì)于用戶而言,該模塊可以有效地在網(wǎng)頁(yè)端進(jìn)行相應(yīng)的操作,之后對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行查詢,對(duì)HQL進(jìn)行語(yǔ)句方面的定制。
2.2.7? 網(wǎng)頁(yè)展示模塊
該系統(tǒng)主要基于Web。在查詢之后,該模塊就可以返回到結(jié)果數(shù)據(jù),之后對(duì)不同的搜索進(jìn)行分析,保障在分析的過(guò)程中,能夠形成信息數(shù)量較多的網(wǎng)頁(yè)。
3? ? 基于Spark的網(wǎng)絡(luò)日志分析系統(tǒng)的實(shí)現(xiàn)
在上述的結(jié)構(gòu)設(shè)計(jì)下,為了檢驗(yàn)系統(tǒng)的合理性,設(shè)計(jì)人員可以進(jìn)行研究和分析。
3.1? 系統(tǒng)部署
如圖1所示,本系統(tǒng)的實(shí)現(xiàn),需要依靠CICS交易服務(wù)器、Hive數(shù)據(jù)倉(cāng)庫(kù)、客戶端、Liberty服務(wù)器、Spark集群,對(duì)腳本進(jìn)行上傳,對(duì)日志進(jìn)行存儲(chǔ)、提取與分析、生成報(bào)告等。
3.2? 任務(wù)調(diào)度
Spark分析模塊是Scheduler最重要的核心組成部分,需要在應(yīng)用的過(guò)程中,運(yùn)用Hadoop MapReduce。而在資源管理以及調(diào)度的過(guò)程中,Spark使用的方式基本上基于YARN。這種資源調(diào)度器可以有效地在使用的過(guò)程中,起到資源調(diào)度分配的作用。在不同的應(yīng)用當(dāng)中,它都能夠?qū)崿F(xiàn)任務(wù)調(diào)度器的作用,以此對(duì)于任務(wù)進(jìn)行調(diào)度以及協(xié)調(diào)。對(duì)于這種上層資源調(diào)度而言,應(yīng)用內(nèi)部的任務(wù)調(diào)度較為獨(dú)立[3]。
3.3? 用戶需求數(shù)據(jù)分析
在實(shí)現(xiàn)的過(guò)程中,首先基于用戶的實(shí)際需求,將請(qǐng)求的數(shù)據(jù)進(jìn)行分析以及計(jì)算,之后再將分析的結(jié)果進(jìn)行返回。返回基本上可以分為圖片以及純數(shù)據(jù)這兩種不同的類型。在使用的過(guò)程中,工作人員有效地利用getData進(jìn)行數(shù)據(jù)信息的調(diào)用以及分析。在前臺(tái)的信息處理過(guò)程中,技術(shù)人員可以有效地利用前臺(tái)調(diào)用JFreeChart工具,進(jìn)行相應(yīng)的分析。
在現(xiàn)階段的發(fā)展過(guò)程中,Spark已經(jīng)成為十分熱門(mén)的一種開(kāi)源項(xiàng)目,并廣泛地應(yīng)用到各種企業(yè)中。在研究中,該技術(shù)也能夠起到十分有效的作用,足以幫助企業(yè)在日常的網(wǎng)絡(luò)日志的管理過(guò)程中,實(shí)現(xiàn)安全性以及質(zhì)量性的管理目標(biāo)。另外,這項(xiàng)技術(shù)還可以定期優(yōu)化以及改進(jìn)。
3.4? 日志處理
為確?;赟park的網(wǎng)絡(luò)日志分析系統(tǒng)能夠有效實(shí)現(xiàn),工作人員對(duì)日志進(jìn)行處理非常重要,具體方法如下:(1)日志上傳:系統(tǒng)中日志的上傳方式包括兩種:手動(dòng)與自動(dòng)。手動(dòng)上傳需要依靠CICS交易服務(wù)器的部署功能,自動(dòng)上傳則需要依靠Web來(lái)實(shí)現(xiàn)。(2)日志處理:工作人員可通過(guò)日志分析系統(tǒng)對(duì)日志進(jìn)行處理,利用系統(tǒng)部署中的Spark集群功能進(jìn)行計(jì)算,并實(shí)現(xiàn)對(duì)不同節(jié)點(diǎn)日志的分析,經(jīng)分析后的數(shù)據(jù)可被返回并自動(dòng)匯總,以備使用。
4? ? 結(jié)語(yǔ)
綜上所述,文章主要基于Spark的構(gòu)建,分析了企業(yè)網(wǎng)絡(luò)日志分析技術(shù)。為了進(jìn)一步提升企業(yè)的網(wǎng)絡(luò)安全性,技術(shù)人員還需要在日后的發(fā)展過(guò)程中,對(duì)網(wǎng)絡(luò)系統(tǒng)的進(jìn)行優(yōu)化。
[參考文獻(xiàn)]
[1]李言飛,張鵬,戚曉鵬,等.中國(guó)疾病預(yù)防控制信息系統(tǒng)網(wǎng)絡(luò)日志大數(shù)據(jù)分析[J].中國(guó)衛(wèi)生信息管理,2018(6):625-628.
[2]李亞紅,胡前忠.分布式網(wǎng)絡(luò)日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息與電腦(理論版),2018(21):163-165.
[3]張揚(yáng).基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)日志分析系統(tǒng)[J].電子技術(shù)與軟件工程,2018(17):175.
(編輯 王永超)