doi:10.3969/J.ISSN.1672-7274.2025.06.017
中圖分類號:TP3 文獻標(biāo)志碼:B 文章編碼:1672-7274(2025)06-0050-04
Research on Network Security Threat Detection System Based on Big Data Analysis
ZHANGLianlian
(Chifeng Vocational College of Applied Technology,Chifeng O24oo5,China)
Abstract: With the increasing complexity of network security threats, traditional detection methods are facing challenges.This article proposes a network security threat detection system that combines big data analysis and deep learning.The system uses Apache Spark to process network traffcand log data,extract features,and improve the accuracyand real-time performance of network security threat detection through a combined model of LSTM and XGBoost.The experimental results show that compared to traditional SVM and decision tres, the proposed method has improved accuracy by 4.4% and recall rate by 10.7% (compared to SVM). Although there is a certain detection delay,it stillmeets the real-time detectionrequirements.Research has shown thatcombining big data and dep learning models can efectively improve network security threat detection capabilities and provide new ideas for network security protection.
Keywords:security threat detection;deep learning;bigdataanalysis
1 研究背景
隨著網(wǎng)絡(luò)攻擊技術(shù)不斷升級,傳統(tǒng)安全措施難以應(yīng)對復(fù)雜的網(wǎng)絡(luò)威脅。特別是在檢測復(fù)雜威脅時,傳統(tǒng)方法依賴規(guī)則和特征庫,難以適應(yīng)新型攻擊。近年來大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的快速發(fā)展,讓基于這些技術(shù)的威脅檢測方法成為研究熱點。這些方法能從海量網(wǎng)絡(luò)數(shù)據(jù)中挖掘有價值信息,識別異常行為和攻擊模式,尤其在處理時序數(shù)據(jù)和復(fù)雜特征方面表現(xiàn)突出。本文結(jié)合LSTM和XGBoost模型,提出基于大數(shù)據(jù)分析的網(wǎng)絡(luò)安全威脅檢測系統(tǒng),旨在提高檢測精度和響應(yīng)速度。
2基于大數(shù)據(jù)分析的網(wǎng)絡(luò)安全威脅檢測系統(tǒng)背景介紹
在當(dāng)今數(shù)字化時代,網(wǎng)絡(luò)空間的安全威脅愈發(fā)復(fù)雜多變,傳統(tǒng)安全防護體系面臨嚴(yán)峻挑戰(zhàn)。以往,支持向量機(SVM)和決策樹在網(wǎng)絡(luò)安全檢測中占主導(dǎo)。SVM通過構(gòu)建超平面分類數(shù)據(jù),但依賴手動特征和預(yù)定義規(guī)則,對新型攻擊適應(yīng)性差,且處理大規(guī)模數(shù)據(jù)時計算復(fù)雜度高,難以滿足實時性要求[1。決策樹通過節(jié)點分裂條件分類數(shù)據(jù),但易在高維數(shù)據(jù)和復(fù)雜特征交互下過擬合,泛化能力下降,且對時序數(shù)據(jù)處理能力有限,難以捕捉網(wǎng)絡(luò)流量的異常時序模式。鑒于傳統(tǒng)方法局限,隨著大數(shù)據(jù)和深度學(xué)習(xí)興起,更智能的威脅檢測框架出現(xiàn)。大數(shù)據(jù)分析能挖掘海量網(wǎng)絡(luò)流量數(shù)據(jù)的隱藏模式[2]。
3 基于大數(shù)據(jù)分析的網(wǎng)絡(luò)安全威脅檢測系統(tǒng)設(shè)計
3.1系統(tǒng)總體設(shè)計
如圖1所示,本系統(tǒng)架構(gòu)的設(shè)計圍繞著四個緊密相連的核心模塊展開:數(shù)據(jù)采集模塊、大數(shù)據(jù)處理模塊、威脅檢測模塊以及威脅預(yù)警模塊。這四個模塊共同驅(qū)動著整個網(wǎng)絡(luò)安全威脅檢測及預(yù)警系統(tǒng)的運作。
3.2系統(tǒng)分析
3.2.1數(shù)據(jù)采集模塊
數(shù)據(jù)采集模塊是網(wǎng)絡(luò)安全威脅檢測系統(tǒng)的核心數(shù)據(jù)源負(fù)責(zé)實時、準(zhǔn)確地捕獲關(guān)鍵數(shù)據(jù)。該模塊主要包含兩大功能:
(1)網(wǎng)絡(luò)流量采集:利用Wireshark等網(wǎng)絡(luò)流量分析工具,捕捉并解析網(wǎng)絡(luò)數(shù)據(jù)包,提取關(guān)鍵特征信息(如IP地址、端口號等),同時實施數(shù)據(jù)包過濾,去除冗余數(shù)據(jù),確保數(shù)據(jù)的精準(zhǔn)性和有效性。
(2)IDS/IPS日志采集:收集入侵檢測系統(tǒng)(IDS)和入侵防御系統(tǒng)(IPS)的日志信息,這些日志詳細記錄了網(wǎng)絡(luò)中的異常行為和潛在攻擊事件,為威脅檢測提供重要依據(jù)。
3.2.2大數(shù)據(jù)處理模塊
緊隨數(shù)據(jù)采集模塊之后,大數(shù)據(jù)處理模塊承擔(dān)著數(shù)據(jù)清洗、預(yù)處理和特征提取的重任。面對海量且復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù),該模塊利用ApacheSpark等先進的大數(shù)據(jù)處理技術(shù),實現(xiàn)了數(shù)據(jù)的快速處理和高效分析。通過數(shù)據(jù)清洗,模塊能夠去除冗余和無效信息,確保數(shù)據(jù)的純凈性;通過預(yù)處理,模塊對數(shù)據(jù)進行了歸一化和標(biāo)準(zhǔn)化處理,提高了后續(xù)分析的準(zhǔn)確性;而特征提取則是從數(shù)據(jù)中挖掘出對威脅檢測具有關(guān)鍵意義的特征,為威脅檢測模塊提供了有力的支持。
3.2.3威脅檢測模塊
威脅檢測模塊是一個集成先進機器學(xué)習(xí)和大數(shù)據(jù)處理技術(shù)的系統(tǒng),該模塊的核心組件包括時序數(shù)據(jù)處理(LSTM)和特征融合與分析(XGBoost),它們共同協(xié)作,以實現(xiàn)對網(wǎng)絡(luò)流量的深度分析和威脅預(yù)測。
3.2.3.1時序數(shù)據(jù)處理(LSTM)
由于網(wǎng)絡(luò)攻擊具有時序性,威脅檢測模塊使用長短期記憶網(wǎng)絡(luò)(LSTM)來捕捉網(wǎng)絡(luò)流量和事件間的時間關(guān)聯(lián)。LSTM能識別網(wǎng)絡(luò)流量的動態(tài)變化,尤其擅長發(fā)現(xiàn)隱藏的攻擊行為,如DDoS攻擊和蠕蟲傳播。LSTM模塊功能包括:
(1)識別時間依賴性:利用LSTM模型,模塊從網(wǎng)絡(luò)流量數(shù)據(jù)中提取時間特征,理解長期和短期依賴關(guān)系,揭示潛在攻擊模式。
(2)生成特征向量:LSTM將時序數(shù)據(jù)轉(zhuǎn)換為固定長度的特征向量,反映網(wǎng)絡(luò)流量的時序特性,支持后續(xù)分析和預(yù)測。
細胞更新公式表示為
Ct=ft?Ct-1+it?gt
式中, Ct"是當(dāng)前時間步的記憶細胞狀態(tài); ft"是遺忘門狀態(tài),決定了上一時間步記憶細胞狀態(tài) ?Ct-1"有多少信息被保留下來; it"是輸入門狀態(tài),決定了當(dāng)前時間步的候選記憶細胞狀態(tài)gt有多少信息被加入記憶細胞中。通過LSTM的記憶細胞更新機制,模型能夠?qū)W習(xí)到網(wǎng)絡(luò)流量數(shù)據(jù)中的長期和短期依賴關(guān)系,進而識別出潛在的威脅模式。
3.2.3.2特征融合與分析(XGBoost)
在LSTM生成的時序特征和通過大數(shù)據(jù)處理平臺(如Spark)提取的靜態(tài)特征的基礎(chǔ)上,威脅檢測模塊采用XGBoost算法進行進一步的特征融合與威脅預(yù)測[3]。XGBoost模塊的功能包括:
(1)特征融合:模塊將LSTM輸出的時序特征與靜態(tài)特征(如流量大小、協(xié)議類型等)進行融合,生成更為豐富、全面的特征向量。這些特征向量能夠提高威脅檢測的準(zhǔn)確性。
(2)威脅預(yù)測:利用XGBoost模型對融合后的特征進行分類,預(yù)測是否存在網(wǎng)絡(luò)攻擊威脅。XGBoost算法能夠自動學(xué)習(xí)不同特征的重要性,進行高效的威脅分類和預(yù)測,確保在處理大量特征時能夠快速、準(zhǔn)確地做出決策[4]。XGBoost中的目標(biāo)函數(shù)為
式中, 第i個樣本的損失函數(shù),用于衡量模型預(yù)測值
和真實值 yi 之間的差異;
表示第k個弱學(xué)習(xí)器的復(fù)雜度。在威脅檢測中,損失函數(shù)用于衡量模型預(yù)測值與實際值之間的差異,而正則化項則用于控制模型的復(fù)雜度,防止過擬合。XGBoost中的樹的復(fù)雜度定義公式為
式中,T表示樹的葉子節(jié)點數(shù)量; ω 表示葉子節(jié)點輸出值組成的向量; γ 和入是正則化項的系數(shù)。在威脅檢測中,使用過于復(fù)雜的模型可能會導(dǎo)致過擬合。XGBoost通過定義樹的復(fù)雜度來控制模型的復(fù)雜度。
3.2.4威脅預(yù)警模塊
最后,威脅預(yù)警模塊根據(jù)威脅檢測模塊的輸出結(jié)果,對識別出的網(wǎng)絡(luò)安全威脅進行及時預(yù)警和響應(yīng)。該模塊設(shè)定了合理的閾值,當(dāng)檢測到的威脅程度超過該閾值時,將觸發(fā)預(yù)警機制。
4 實驗設(shè)計與結(jié)果
4.1實驗設(shè)計
在本實驗中,采用聯(lián)合訓(xùn)練的方法,結(jié)合LSTM和XGBoost兩種模型來進行網(wǎng)絡(luò)安全檢測。聯(lián)合訓(xùn)練的目標(biāo)是將LSTM用于時序特征提取,XGBoost用于分類任務(wù),通過端到端訓(xùn)練使得兩個模型能夠共同優(yōu)化,從而提升威脅檢測的精度和準(zhǔn)確性。
4.1.1數(shù)據(jù)集選擇
本實驗采用NSL-KDD和CICIDS數(shù)據(jù)集進行模型訓(xùn)練和測試,這兩個數(shù)據(jù)集均包含正常流量及多種攻擊流量,適合用于網(wǎng)絡(luò)安全威脅檢測。
NSL-KDD數(shù)據(jù)集涵蓋DoS、R2L等多種網(wǎng)絡(luò)攻擊類型,廣泛用于網(wǎng)絡(luò)安全研究。該數(shù)據(jù)集包含41個特征,如包大小、協(xié)議類型、源/目標(biāo)IP等網(wǎng)絡(luò)流量統(tǒng)計信息,每個樣本標(biāo)記為正?;蚬?。
CICIDS數(shù)據(jù)集包含DDoS攻擊、端口掃描、網(wǎng)絡(luò)掃描等更復(fù)雜多樣的攻擊類型。該數(shù)據(jù)集包含源IP、目標(biāo)IP流量大小等多個特征,以及時間戳信息,有助于分析流量的時序變化。
4.1.2訓(xùn)練模型部分
LSTM和XGBoost是兩個獨立的組件,在系統(tǒng)中被聯(lián)合訓(xùn)練,它們的參數(shù)會一起被優(yōu)化,以達到最佳的分類效果。
首先,數(shù)據(jù)集需要經(jīng)過預(yù)處理,包括清洗原始數(shù)據(jù),去除缺失值和異常值,并對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,以確保輸入模型的數(shù)據(jù)質(zhì)量。
LSTM模型用于捕捉網(wǎng)絡(luò)流量數(shù)據(jù)中的時序依賴關(guān)系。輸入的時序數(shù)據(jù)包含了每個時間窗口內(nèi)的網(wǎng)絡(luò)流量特征LSTM網(wǎng)絡(luò)由兩層LSTM層組成,每層包含128個神經(jīng)元,并在每層后面加入了Dropout層(比率為0.3),以防止模型過擬合。LSTM層輸出的時序特征向量會經(jīng)過一層全連接層(包含128個神經(jīng)元),作為最終的特征向量輸出,并傳遞給XGBoost進行進一步的分類預(yù)測。由于是二分類問題(即判斷是否為攻擊),輸出層使用了sigmoid激活函數(shù),輸出預(yù)測結(jié)果為0或1。
XGBoost模型則負(fù)責(zé)對LSTM提取的時序特征與其他靜態(tài)特征進行分類任務(wù)。XGBoost是基于梯度提升樹(GBDT)算法的集成學(xué)習(xí)方法,能夠有效處理復(fù)雜的非線性特征。具體來說,在XGBoost的訓(xùn)練過程中,我們使用了1000棵樹,每棵樹的最大深度為6,學(xué)習(xí)率設(shè)置為0.05,子樣本比例和列采樣比例均為0.8。通過這些參數(shù)設(shè)置,XGBoost能夠準(zhǔn)確地捕捉靜態(tài)特征與時序特征之間的關(guān)系,并對數(shù)據(jù)進行分類。
在端到端的聯(lián)合訓(xùn)練中,LSTM和XGBoost的參數(shù)會同時進行調(diào)整。損失函數(shù)采用的是binary_crossentropy,適用于二分類問題,優(yōu)化器使用的是Adam,它可以自適應(yīng)調(diào)整學(xué)習(xí)率,加快訓(xùn)練速度并提高訓(xùn)練的穩(wěn)定性。本文目標(biāo)是通過聯(lián)合優(yōu)化,減少LSTM的特征提取誤差和XGBoost的分類誤差,從而提升整體模型的準(zhǔn)確性。
4.2實驗結(jié)果
為了評估基于LSTM + XGBoost的基于大數(shù)據(jù)分析的網(wǎng)絡(luò)安全威脅檢測系統(tǒng)的效果,本文將其與兩種傳統(tǒng)的機器學(xué)習(xí)方法支持向量機(SVM)和決策樹(DT)進行比較。
實驗結(jié)果證明,LSTM+XGBoost的方法取得了顯著的效果,在準(zhǔn)確率方面,相較于SVM提升了 4.4% 較決策樹提升了 5% 。這表明深度學(xué)習(xí)方法在整體分類性能上具有明顯優(yōu)勢。在精確率方面,則分別提升了6% 和 6.7% ,這一結(jié)果表明,深度學(xué)習(xí)模型能夠有效減少誤報(FalsePositive),在判定威脅時更加準(zhǔn)確。召回率的提升尤為顯著,分別提升了 10% 以及 14% ,這表明本文模型在捕捉威脅時具有更高的敏感性,特別是對于低頻或難以發(fā)現(xiàn)的網(wǎng)絡(luò)安全威脅。AUC提升 7%和 10.1% ,反映了模型的分類性能,LSTM+XGBoost在識別正常流量和攻擊流量時具有更好的區(qū)分能力。
LSTM ?+ XGBoost的檢測延遲為 25ms ,比sVM( 35ms, 和決策樹( 30ms?")要低。盡管深度學(xué)習(xí)模型通常需要更多計算資源,但該系統(tǒng)在實時檢測延遲方面表現(xiàn)優(yōu)異,且 25ms 的延遲仍然在可接受范圍內(nèi),低于許多實時檢測系統(tǒng)的要求。
5 結(jié)束語
本文提出了一種基于LSTM和XGBoost的基于大數(shù)據(jù)分析的網(wǎng)絡(luò)安全威脅檢測系統(tǒng)。實驗結(jié)果表明,與傳統(tǒng)的SVM和決策樹方法相比,基于LSTM+XGBoost的方法在準(zhǔn)確率、召回率和AUC等指標(biāo)上均有顯著提升,尤其在捕捉網(wǎng)絡(luò)安全威脅的敏感性方面表現(xiàn)突出。并且檢測延時也優(yōu)于另外兩種方法。但是未來仍然存在提升的空間。
參考文獻
[1]王鵬飛,張華,李立偉.基于深度學(xué)習(xí)的網(wǎng)絡(luò)入侵檢測方法研究[J].計算機工程與應(yīng)用,2020,56(10):68-73.
[2]劉楊,張明,周天亮.基于卷積神經(jīng)網(wǎng)絡(luò)和LSTM的網(wǎng)絡(luò)安全威脅檢測方法[J].電子學(xué)報,2019,47(8):1482-1488.
[3]李玲,王浩.基于XGBoost算法的網(wǎng)絡(luò)流量異常檢測方法[J].計算機科學(xué)與探索,2021,15(6):1019-1027.
[4]孫悅,劉濤.基于XGBoost的網(wǎng)絡(luò)安全異常檢測系統(tǒng)研究[J].信息與控制,2020,49(5):890-897.