李珊 劉繼超 邵芬紅
摘 要: 針對(duì)用戶瀏覽興趣模式數(shù)據(jù)的收斂性和準(zhǔn)確度不高的問題,提出一種基于Web日志與用戶瀏覽行為結(jié)合的用戶瀏覽興趣模式數(shù)據(jù)挖掘模型。首先設(shè)計(jì)Web日志與用戶瀏覽行為結(jié)合的用戶瀏覽興趣模式數(shù)據(jù)信息流模型,進(jìn)行用戶瀏覽興趣模式的頻繁項(xiàng)特征提取和QoS預(yù)測(cè);然后采用Web日志與用戶瀏覽行為結(jié)合的行為調(diào)度模式自適應(yīng)檢索用戶瀏覽網(wǎng)頁的興趣特征點(diǎn),實(shí)現(xiàn)語義特征匹配,達(dá)到用戶瀏覽興趣模式數(shù)據(jù)挖掘的目的;最后通過仿真實(shí)驗(yàn)實(shí)現(xiàn)性能驗(yàn)證。結(jié)果表明,該方法的用戶瀏覽興趣特征點(diǎn)的匹配度高,數(shù)據(jù)挖掘精度得到提升,展示了優(yōu)越性能。
關(guān)鍵詞: Web日志; 用戶瀏覽行為; 興趣模式; 數(shù)據(jù)挖掘
中圖分類號(hào): TN911?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)05?0022?04
Abstract: Since the data of the user′s browsing interest patterns has poor convergence performance and low accuracy, a user′s browsing interest patterns′ data mining model based on the combination of the Web log and user′s browsing behavior is proposed. The data information flow model of the user′s browsing interest pattern based on the combination of the Web log with user′s brow?sing behavior was designed to extract the frequent item feature of the user′s browsing interest pattern and predict the QoS. The behavior scheduling mode combining the Web log with user′s browsing behavior is used to retrieve the interest feature points of the webpage browsed by the user adaptively to match the semantic feature, and mine the data of the user′s browsing interest pattern. The performance of the model was verified with simulation experiment. The results show that the method can highly match the interest feature points of the webpage browsed by the user, improve the data mining accuracy, and show its superior performance.
Keywords: Web log; user′s browsing behavior; interest pattern; data mining
0 引 言
在瀏覽Web日志和互聯(lián)網(wǎng)網(wǎng)頁的過程中,每個(gè)用戶都具有自身的偏好特征,服務(wù)器需要對(duì)用戶進(jìn)行針對(duì)性的Web推薦,提高Web日志的面向?qū)ο蠓?wù)能力。通過用戶瀏覽興趣模式數(shù)據(jù)挖掘,為Web用戶提供多維業(yè)務(wù)服務(wù)和多功能控制,提高Web日志多媒體通信業(yè)務(wù)的服務(wù)質(zhì)量。因此,研究用戶瀏覽興趣模式數(shù)據(jù)挖掘方法具有重要意義[1?2]。
當(dāng)前,對(duì)用戶瀏覽興趣模式數(shù)據(jù)挖掘主要采用多源數(shù)據(jù)的信息服務(wù)數(shù)據(jù)庫構(gòu)建方法,結(jié)合QoS預(yù)測(cè)實(shí)現(xiàn)Web服務(wù)的評(píng)估和數(shù)據(jù)挖掘,提高Web入職的數(shù)字化信息云服務(wù)水平。文獻(xiàn)[3]采用數(shù)據(jù)結(jié)構(gòu)類間干擾抑制的Web日志與用戶瀏覽行為特征分析和數(shù)據(jù)挖掘模式,提高了準(zhǔn)確挖掘多層時(shí)態(tài)屬性Web日志的性能,但是該模型計(jì)算開銷較大,對(duì)用戶瀏覽興趣特征的數(shù)據(jù)挖掘匹配實(shí)時(shí)性不好[4?5]。
針對(duì)用戶瀏覽興趣模式數(shù)據(jù)的收斂性和準(zhǔn)確度不高的問題,提出基于Web日志與用戶瀏覽行為的興趣模式數(shù)據(jù)挖掘模型,并通過仿真實(shí)驗(yàn)測(cè)試其性能。
1 提取關(guān)聯(lián)模型的特征
1.1 計(jì)算用戶瀏覽興趣點(diǎn)特征權(quán)重
對(duì)于任意一個(gè)Web日志節(jié)點(diǎn)[n]中,用戶行為特征信息的分布狀態(tài)為[l(n),]用戶A,B之間QoS需求和興趣特征點(diǎn)的集合定義為[L(n);]用戶對(duì)資源的信任度評(píng)價(jià)節(jié)點(diǎn)[n]采用多模特征狀態(tài)重組方式構(gòu)建行為學(xué)模型;在特征空間的子節(jié)點(diǎn)集合中,定義Web日志的狀態(tài)特征集合為[Dn;][l(n)]層的子節(jié)點(diǎn)集合為[Dl(n),]在[l(n)]層的語義本體模型中,得到用戶瀏覽興趣模式特征集合的平均子節(jié)點(diǎn)為[Dl(n);]從源節(jié)點(diǎn)至目標(biāo)節(jié)點(diǎn)拓?fù)錁涞目偲骄庸?jié)點(diǎn)數(shù)為[M,]資源層子節(jié)點(diǎn)中用戶瀏覽的興趣特征點(diǎn)總數(shù)滿足:
Web日志與用戶瀏覽行為結(jié)合下的用戶瀏覽興趣模式節(jié)點(diǎn)分布模型如圖1所示。
由此構(gòu)建用戶瀏覽興趣模式數(shù)據(jù)信息流模型,通過特征分解挖掘?yàn)g覽興趣模式。
1.2 提取用戶瀏覽興趣模式的頻繁項(xiàng)特征
在構(gòu)建用戶瀏覽興趣模式數(shù)據(jù)信息流模型的基礎(chǔ)上,提取用戶瀏覽興趣模式的頻繁項(xiàng)特征,在QoS控制下對(duì)Web信息網(wǎng)絡(luò)拓?fù)錁鋄T]中的用戶瀏覽興趣模式進(jìn)行頻繁項(xiàng)特征挖掘。在Web日志瀏覽用戶[ix,ij]之間的語義相似度一定的情況下,構(gòu)建Web日志瀏覽的行為模式客觀閉頻繁項(xiàng)集合為:
采用多層時(shí)態(tài)屬性分箱處理,建立QoS映射關(guān)系的動(dòng)態(tài)平衡模型,構(gòu)造Web日志與用戶瀏覽行為結(jié)合下的MAC層多模推薦關(guān)系圖,設(shè)置一個(gè)全局度量,以用戶信任度評(píng)價(jià)為約束指標(biāo),則QoS質(zhì)量監(jiān)控下用戶瀏覽行為的模糊綜合評(píng)價(jià)函數(shù)為:
式中:[Mi]表示語義相關(guān)性評(píng)價(jià);[Lm]為用戶聲譽(yù)評(píng)價(jià)系數(shù);[fm]為用戶之間的相似性頻數(shù);[fless]表示W(wǎng)eb日志估計(jì)頻數(shù)之和;[width]表示關(guān)聯(lián)規(guī)則帶寬。
2 數(shù)據(jù)挖掘模型的優(yōu)化與設(shè)計(jì)
2.1 計(jì)算用戶瀏覽行為QoS語義特征
在用戶瀏覽興趣模式的頻繁項(xiàng)特征提取的基礎(chǔ)上,進(jìn)行Web日志與用戶瀏覽行為結(jié)合的用戶瀏覽興趣模式數(shù)據(jù)挖掘模型優(yōu)化設(shè)計(jì),提取用戶瀏覽興趣模式的頻繁項(xiàng)特征,預(yù)測(cè)QoS,用戶瀏覽興趣模式的系統(tǒng)測(cè)量方程為:
式中:[M]為用戶瀏覽興趣模式在后綴項(xiàng)表下的經(jīng)驗(yàn)?zāi)B(tài)值;[vk]指Reducer分發(fā)數(shù)據(jù)。
根據(jù)支持度單調(diào)遞增原理,得到用戶瀏覽興趣數(shù)據(jù)的定位信息爬蟲為:
根據(jù)貝葉斯定理,得到用戶瀏覽興趣數(shù)據(jù)的子空間分解主題網(wǎng)絡(luò)爬蟲表達(dá)式為:
對(duì)于含有多源數(shù)據(jù)的Web日志與用戶瀏覽行為進(jìn)行子空間分解挖掘,預(yù)測(cè)用戶瀏覽行為QoS,結(jié)合自適應(yīng)調(diào)整權(quán)重提取數(shù)據(jù)深層結(jié)構(gòu)特征,為后面的Web日志與用戶瀏覽行為的特征挖掘提供信息素索引因子,采用用戶瀏覽行為QoS信息爬蟲算法[8],得出網(wǎng)頁節(jié)點(diǎn)檢索的語義特征輸出為:
式中:[ti=ti1,ti2,…,tiM]為網(wǎng)絡(luò)中所有QoS信息爬蟲的高斯函數(shù)的中心;[σi]為特征相關(guān)系數(shù)。
2.2 數(shù)據(jù)挖掘?qū)崿F(xiàn)
令[y(n)]為Web日志信息服務(wù)云平臺(tái)的語義本體模型集,通過抓取每一個(gè)獨(dú)立用戶瀏覽行為的瀏覽興趣模式進(jìn)行數(shù)據(jù)分類,得到數(shù)據(jù)分類屬性[A={A1,A2,…,Am}],采用模糊C均值算法進(jìn)行特征相關(guān)分解,用戶瀏覽行為的信任值取最大值1,瀏覽模式特征定位的時(shí)間減弱函數(shù)為[Tsim∈(0,1]]。采用統(tǒng)計(jì)時(shí)間序列分析方法構(gòu)建Web日志與用戶瀏覽行為的統(tǒng)計(jì)值:
式中:[N]為自適應(yīng)閾值尋優(yōu)長(zhǎng)度;[x(n)]表示時(shí)間序列;[τ]表示時(shí)間延遲量。
以用戶瀏覽行為的邊緣逆向量作為用戶瀏覽興趣模式特征序列[x(n)]的秩,通過多層時(shí)態(tài)屬性矢量分解方法重組狀態(tài),得到用戶瀏覽行為QoS特征的二維信息熵序列:
采用基于振幅調(diào)節(jié)Fourier變換方法進(jìn)行用戶瀏覽興趣模式的邊緣逆分解,采用自回歸移動(dòng)模型得到用戶瀏覽興趣模式數(shù)據(jù)的特征分量為:
式中:[ηi]為均值為0,方差為[σ2]的獨(dú)立同分布隨機(jī)干擾向量。
采用濾波算法消除干擾,假設(shè)用戶瀏覽興趣數(shù)據(jù)[zt]與其過去的測(cè)量值[zt-1]相互獨(dú)立,采用平均互信息方法得到用戶瀏覽興趣模式的輸出特征信息為:
通過用戶瀏覽興趣模式數(shù)據(jù)挖掘?qū)崿F(xiàn)語義特征匹配,提高用戶瀏覽Web日志的匹配度和配準(zhǔn)能力。
3 仿真實(shí)驗(yàn)分析
對(duì)Web日志與用戶瀏覽行為結(jié)合下的用戶瀏覽興趣模式數(shù)據(jù)挖掘的實(shí)驗(yàn)環(huán)境為:Microsoft Visual C++7.0,Vega Prime2.2.1,Creator3.2,用戶瀏覽行為的安全度設(shè)置為0.134 4,可重載性系數(shù)設(shè)置為0.003 3,Web資源節(jié)點(diǎn)采用均勻分布模式,Web日志訪問中用戶瀏覽節(jié)點(diǎn)的容量和訪問特征值參數(shù)的設(shè)定見表1。
以數(shù)據(jù)挖掘的用戶QoS滿意度和數(shù)據(jù)挖掘的特征配準(zhǔn)率為測(cè)試參量,得到性能對(duì)比結(jié)果如圖2所示。從圖2可知,采用本文方法進(jìn)行用戶瀏覽興趣模式數(shù)據(jù)挖掘,提高了用戶進(jìn)行Web日志瀏覽的用戶滿意度。
在不同數(shù)據(jù)規(guī)模下用戶流量興趣模式數(shù)據(jù)挖掘的準(zhǔn)確配準(zhǔn)概率如圖3所示,分析得知,隨著數(shù)據(jù)規(guī)模的增大,數(shù)據(jù)挖掘的配準(zhǔn)概率提高,這是因?yàn)橥ㄟ^大量的先驗(yàn)數(shù)據(jù)作為信息指導(dǎo),提高了數(shù)據(jù)挖掘性能,在同等的數(shù)據(jù)規(guī)模下,本文方法的數(shù)據(jù)準(zhǔn)確配準(zhǔn)概率高于傳統(tǒng)方法,這是由于本文方法結(jié)合了Web日志與用戶瀏覽行為,提高了數(shù)據(jù)挖掘的準(zhǔn)確度。
4 結(jié) 語
本文提出了基于Web日志與用戶瀏覽行為結(jié)合的用戶瀏覽興趣模式數(shù)據(jù)挖掘模型。通過仿真實(shí)驗(yàn)表明,采用本文方法進(jìn)行用戶流量的興趣模式數(shù)據(jù)挖掘,用戶瀏覽興趣特征點(diǎn)的匹配度高,提高了數(shù)據(jù)挖掘精度。
參考文獻(xiàn)
[1] 沈?qū)W利,申杰.基于自治系統(tǒng)與動(dòng)態(tài)概率包標(biāo)記的DDoS攻擊溯源優(yōu)化方法[J].計(jì)算機(jī)應(yīng)用,2015,35(6):1705?1709.
[2] 張博,郝杰,馬剛,等.混合概率典型相關(guān)性分析[J].計(jì)算機(jī)研究與發(fā)展,2015,52(7):1463?1476.
[3] RATHEESH M, MORALES?JIMENEZ D, LOZANO A. System?level performance of interference alignment [J]. IEEE transactions on wireless communications, 2015, 14(2): 1060?1070.
[4] RAJAPAKSHA N, MADANAYAKE A, BRUTON L T. 2D space: time wave?digital multi?fan filter banks for signals consisting of multiple plane waves [J]. Multidimensional systems and signal processing, 2014, 25(1): 17?39.
[5] 王軍,陳翠琴.基于RFID信息與視頻圖像的人員識(shí)別的研究[J].物聯(lián)網(wǎng)技術(shù),2015,5(3):30?31.
[6] 包曉安,謝曉鳴,張娜,等.基于缺陷關(guān)聯(lián)度的Markov模型軟件優(yōu)化測(cè)試策略[J].軟件學(xué)報(bào),2015,26(1):14?25.
[7] 陳旖,許力,張美平.適用于大規(guī)模無線傳感器網(wǎng)的流量?jī)?yōu)化系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用,2015,35(4):905?909.
[8] 梁海華,王根強(qiáng).一類帶非負(fù)系數(shù)矩陣的非線性代數(shù)系統(tǒng)的正解的存在性[J].應(yīng)用數(shù)學(xué)學(xué)報(bào),2015,38(1):137?149.
[9] 楊柳,張杭.時(shí)變混合共軛梯度盲提取算法[J].信號(hào)處理,2015,31(1):51?58.