摘要:針對一個從模擬局域網(wǎng)中獲取的數(shù)據(jù)集,設(shè)計并實現(xiàn)了一種基于決策樹的連接類型預(yù)測工具;在一般決策樹歸納算法的基礎(chǔ)上,根據(jù)訓(xùn)練數(shù)據(jù)集的統(tǒng)計特征進(jìn)行了預(yù)處理、改進(jìn)和優(yōu)化;對訓(xùn)練所得分類模型的準(zhǔn)確率進(jìn)行了評估,并通過實驗考察了訓(xùn)練數(shù)據(jù)集大小和屬性選擇度量對結(jié)果的影響;也考慮了輸入的測試數(shù)據(jù)存在的一些異常情況及解決辦法。
關(guān)鍵詞:決策樹;分類;增益;入侵檢測
引言
分類(data classmcaIion)是數(shù)據(jù)挖掘中對大量數(shù)據(jù)進(jìn)行分析的一種常用手段。數(shù)據(jù)分類分兩步:第一步,建立模型,描述預(yù)定的數(shù)據(jù)類集或概念集;第二步,使用模型進(jìn)行分類。
數(shù)據(jù)分類中的基本技術(shù)包括決策樹歸納、貝葉斯分類和貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等,其他分類方法還有k一最臨近分類、基于案例的推理、遺傳算法、粗糙集和模糊邏輯技術(shù)等。對分類方法進(jìn)行比較和評估的標(biāo)準(zhǔn)有預(yù)測的準(zhǔn)確率、速度、強壯性、可伸縮性和可解釋性等。