陳寶國,宋旸
基于支持向量機(jī)的Web日志頻繁序列模式挖掘研究
陳寶國,宋旸
(淮南師范學(xué)院 計算機(jī)學(xué)院,安徽 淮南 232000)
:為了降低Web日志頻繁序列模式挖掘誤差,提出基于支持向量機(jī)的Web日志頻繁序列模式挖掘方法。構(gòu)建Web日志頻繁序列模式檢測序列,采用自相關(guān)特征分布式融合方法進(jìn)行序列重組,提取序列模式的統(tǒng)計特征量,對其特征分布值進(jìn)行信息融合。建立Web日志頻繁序列模式融合式調(diào)度模型,采用支持向量機(jī)分析方法進(jìn)行Web日志頻繁序列模式挖掘的自適應(yīng)學(xué)習(xí)與尋優(yōu)控制,實(shí)現(xiàn)Web日志頻繁序列模式挖掘。仿真結(jié)果表明,采用該方法進(jìn)行Web日志頻繁序列模式挖掘的誤差較低,收斂性較好。
支持向量機(jī);Web日志;頻繁序列;模式挖掘
Internet累積了大量Web日志文件,通過發(fā)掘用戶的頻繁序列訪問模式,相關(guān)人員可以根據(jù)用戶的興趣變更網(wǎng)頁內(nèi)容,從而提升網(wǎng)站的吸引力,為用戶提供更為個性化的服務(wù),以此達(dá)到吸引更多用戶的目的。因此,研究Web日志挖掘已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域的重要研究內(nèi)容,根據(jù)挖掘?qū)ο蟮牟煌?,將頻繁模式挖掘劃分為頻繁序列挖掘、頻繁項集挖掘等。其中,Web日志頻繁序列模式挖掘是因果關(guān)系、相關(guān)性分析、關(guān)聯(lián)規(guī)則等關(guān)系研究的基礎(chǔ),所以,相關(guān)的Web日志頻繁序列模式挖掘方法研究受到人們的極大重視[1]。當(dāng)前,對Web日志頻繁序列模式挖掘主要采用知識庫構(gòu)造方法,但采用這種方法進(jìn)行Web日志頻繁序列模式挖掘的自適性不好,時間開銷較大。因此,本文提出基于支持向量機(jī)的Web日志頻繁序列模式挖掘方法。
為了實(shí)現(xiàn)基于支持向量機(jī)的Web日志頻繁序列模式挖掘,需要首先構(gòu)建Web日志頻繁序列模式檢測序列,采用自相關(guān)的特征分布式融合方法進(jìn)行序列重組,結(jié)合Web安全等級保護(hù)評價方法,進(jìn)行Web日志頻繁序列模式的模糊信息分析[2],對Web日志頻繁序列模式挖掘是通過對序列的資產(chǎn)分布、管理要求和技術(shù)要求進(jìn)行用戶運(yùn)維管理的過程,采用等級方法控制方法進(jìn)行序列模式挖掘的滲透性測試,滲透性測試實(shí)現(xiàn)過程如圖1所示。
圖1 滲透性測試實(shí)現(xiàn)過程
結(jié)合數(shù)據(jù)冗余和數(shù)據(jù)延時判斷結(jié)合方法,建立Web日志頻繁序列的時空特征分布集[4],得到時空特征分布模型滿足:
式中,
圖2 Web安全性檢測模型
綜上分析,構(gòu)建Web安全性檢測模型[7],如圖2所示。
對Web日志頻繁序列模式的特征分布值進(jìn)行信息融合,建立Web日志頻繁序列模式融合式調(diào)度模型,采用支持向量機(jī)分析方法進(jìn)行Web日志頻繁序列模式挖掘的自適應(yīng)學(xué)習(xí),得到不同空間位置的Web日志序列[8],則Web日志頻繁序列模式的關(guān)聯(lián)規(guī)則項表示為
圖3 Web日志頻繁序列模式的收斂曲線
為了獲取Web日志頻繁序列模式挖掘最優(yōu)結(jié)果,在支持向量機(jī)學(xué)習(xí)模式下進(jìn)行Web日志頻繁序列模式挖掘的尋優(yōu)控制,采用多級判斷方法得到挖掘過程的二級綜合評判矩陣為
對來自不同空間位置的Web日志頻繁項集進(jìn)行特征分解,特征分解模型為
式中,
結(jié)合模糊度特征分析方法,得到Web日志頻繁序列挖掘的輸出對象集為
綜上分析,在支持向量機(jī)學(xué)習(xí)模式下實(shí)現(xiàn)Web日志頻繁序列模式挖掘過程中的尋優(yōu)控制。
為了測試本文方法在實(shí)現(xiàn)Web日志頻繁序列模式挖掘的應(yīng)用性能,進(jìn)行仿真測試。其中,設(shè)Web日志頻繁序列模式分布長度為1024,Web日志頻繁序列的評分相似度系數(shù)為0.23,資源本體測試集為200,根據(jù)上述參數(shù)設(shè)定進(jìn)行Web日志頻繁序列挖掘,得到Web日志頻繁序列挖掘的時間序列如圖4所示。
分析圖4可知,在60s的測試時間內(nèi),Web日志頻繁序列挖掘時間序列幅值始終圍繞0上下波動,說明采用該方法進(jìn)行Web日志頻繁序列挖掘的穩(wěn)定性好。
測試Web日志頻繁序列挖掘時間序列的誤差,比較結(jié)果如圖5所示。
圖4 Web日志頻繁序列挖掘的時間序列
圖5 挖掘的誤差分析
分析圖5得知,文獻(xiàn)[1]方法的挖掘誤差在0.96%~1.04%之間,文獻(xiàn)[2]方法的挖掘誤差在0.95%~1.02%之間,文獻(xiàn)[3]方法的挖掘誤差在0.94%~0.99%之間,文獻(xiàn)[4]方法的挖掘誤差在0.93%~0.98%之間,本文方法的挖掘誤差在0.92%~0.97%之間,采用本文方法進(jìn)行Web日志頻繁序列模式挖掘的誤差較低,收斂性較好。
為降低Web日志頻繁序列模式挖掘的誤差,提出一種基于支持向量機(jī)的Web日志頻繁序列模式挖掘方法。構(gòu)建Web日志頻繁序列模式檢測序列,采用自相關(guān)的特征分布式融合方法進(jìn)行Web日志頻繁序列重組,提取序列模式的統(tǒng)計特征量并對其進(jìn)行信息融合處理,建立Web日志頻繁序列模式融合式調(diào)度模型,采用支持向量機(jī)分析方法進(jìn)行Web日志頻繁序列模式挖掘的自適應(yīng)學(xué)習(xí)與尋優(yōu)控制,實(shí)現(xiàn)Web日志頻繁序列模式挖掘。研究得知,采用該方法進(jìn)行Web日志頻繁序列模式挖掘的準(zhǔn)確性較高,收斂性較好,誤差較低,提高了Web日志挖掘的綜合性能。
[1] 李艷輝,劉浩,袁野,等. 基于差分隱私的頻繁序列模式挖掘算法[J]. 計算機(jī)應(yīng)用,2017, 37(02): 316-321
[2] 戴瑀君,徐周波. 基于SAT和BDD的頻繁序列挖掘技術(shù)[J]. 廣西科學(xué)院學(xué)報,2018, 34(02): 59-64, 72
[3] 李洪敏,張建平,黃曉芳,等. 基于序列模式的多步攻擊挖掘算法的研究[J]. 兵工自動化,2017, 36(09): 35-38
[4] 陳倩,劉云,高鈺瑩. 并行動態(tài)位向量頻繁閉合序列模式挖掘算法[J]. 計算機(jī)工程與科學(xué),2018, 40(10): 1717-1725
[5] 武優(yōu)西,周坤,劉靖宇,等. 周期性一般間隙約束的序列模式挖掘[J]. 計算機(jī)學(xué)報,2017, 40(06): 1338-1352
[6] 徐啟寒,徐開勇,郭松,等. 多支持度下用戶行為序列模式挖掘方法研究[J]. 計算機(jī)應(yīng)用與軟件,2018, 35(1): 269-275
[7] 孫文平,常亮,賓辰忠,等. 基于知識圖譜和頻繁序列挖掘的旅游路線推薦[J]. 計算機(jī)科學(xué),2019, 46(02): 56-61
[8] 張光蘭,楊秋輝,程雪梅,等. 序列模式挖掘在通信網(wǎng)絡(luò)告警預(yù)測中的應(yīng)用[J]. 計算機(jī)科學(xué),2018, 45(S2): 535-538, 563
[9] 葉明全,蘇洋,童九翠. 基于多層關(guān)聯(lián)規(guī)則挖掘的ADR風(fēng)險檢測與預(yù)警研究[J]. 池州學(xué)院學(xué)報,2020, 34(03): 23-26
[10] 李同軒,董祥軍. 高效用頻繁模式挖掘技術(shù)研究[J]. 齊魯工業(yè)大學(xué)學(xué)報,2017, 31(01): 45-50
Research on Web log frequent sequence pattern mining based on SVM
CHEN Bao-guo,SONG Yang
(School of Computer Science, Huainan Normal University, Anhui Huainan 232000, China)
In order to reduce the error of mining frequent sequential patterns of Web logs, a method of mining frequent sequential patterns of Web logs based on SVM is proposed. This paper constructs the frequent sequence pattern detection sequence of Web logs, recombines the sequence by using the distributed fusion method of autocorrelation features, extracts the statistical features of sequence patterns, and fuses the feature distribution values. A scheduling model of Web log frequent sequence pattern fusion is established. The adaptive learning and optimization control of Web log frequent sequence pattern mining are carried out by using SVM analysis method. Simulation results show that this method is used to mine frequent sequence patterns of Web logs with low error and good convergence.
SVM;Web logs;frequent sequence;pattern mining
2020-08-19
2018年安徽高校自然科學(xué)重點(diǎn)研究項目:關(guān)聯(lián)規(guī)則和模糊聚類在Web日志挖掘中的應(yīng)用(KJ2018A0469);淮南師范學(xué)院2019年度校級科學(xué)研究項目(2019XJYB14)
陳寶國(1978-),男,安徽安慶人,講師,碩士,主要從事數(shù)據(jù)挖掘、圖形圖像處理、算法設(shè)計研究,chenbaoguo1562@163.com。
TP311.13
A
1007-984X(2021)01-0021-05