亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

網(wǎng)絡(luò)數(shù)據(jù)分析技術(shù)研究

2011-02-17 03:16:49陳淼西南科技大學(xué)信息學(xué)院621000

中國科技信息 2011年10期

陳淼西南科技大學(xué)信息學(xué)院 621000

陳淼西南科技大學(xué)信息學(xué)院 621000

在網(wǎng)絡(luò)用戶行為分析領(lǐng)域研究的方法很多，主要都是利用針對用戶原始行為流量的頻度分析和關(guān)聯(lián)分析來實(shí)現(xiàn)的。從數(shù)據(jù)挖掘方式上分為服務(wù)器事件跟蹤、網(wǎng)絡(luò)數(shù)據(jù)包嗅探、客戶端主動探測。

行為分析；數(shù)據(jù)挖掘；數(shù)據(jù)源

前言

目前的用戶行為模式是利用針對用戶原始行為流量的頻度分析和關(guān)聯(lián)分析來實(shí)現(xiàn)的。我們可以建立一個用戶行為模式庫，然后通過網(wǎng)絡(luò)監(jiān)聽及流量分析的技術(shù)，嘗試?yán)脭?shù)據(jù)挖掘的方法，將這種屬于用戶自身所特有的行為模式從網(wǎng)絡(luò)流量中提取出來，并存入用戶行為模式庫中。利用w eb挖掘技術(shù)可以在海量的w eb訪問數(shù)據(jù)中研究人們從w eb上獲取信息的模式、獲取信息的類型，從而可以得到用戶興趣的偏好等方面的信息[1]。

1 網(wǎng)絡(luò)用戶行為分析基本內(nèi)容

網(wǎng)站訪問用戶行為統(tǒng)計(jì)分析的基礎(chǔ)是獲取網(wǎng)站的基本數(shù)據(jù)，基于這些數(shù)據(jù)可以開展三個類別的深度挖掘，每類包含若干數(shù)量的統(tǒng)計(jì)指標(biāo)。

1.1 網(wǎng)站流量指標(biāo)

網(wǎng)站流量指標(biāo)常用來對網(wǎng)站效果進(jìn)行評價(jià)，主要指標(biāo)包括：

獨(dú)立訪問者數(shù)量；

重復(fù)訪問者數(shù)量；

頁面瀏覽數(shù)；

每個訪問者的頁面瀏覽數(shù)；

某些具體文件/頁面的統(tǒng)計(jì)指標(biāo)，如頁面顯示次數(shù)、文件下載次數(shù)等。

1.2 用戶行為指標(biāo)

用戶行為指標(biāo)主要反映用戶是如何來到網(wǎng)站的、在網(wǎng)站上停留了多長時(shí)間、訪問了那些頁面等，主要的統(tǒng)計(jì)指標(biāo)包括：

用戶在網(wǎng)站的停留時(shí)間、跳出率、回訪者、新訪問者、回訪次數(shù)、回訪相隔天數(shù)；

注冊用戶和非注冊用戶，分析兩者之間的瀏覽習(xí)慣；

用戶所使用的搜索引擎、關(guān)鍵詞、關(guān)聯(lián)關(guān)鍵詞和站內(nèi)關(guān)鍵字；

用戶選擇什么樣的入口形式（廣告或者網(wǎng)站入口鏈接）更為有效；

用戶訪問網(wǎng)站流程，用來分析頁面結(jié)構(gòu)設(shè)計(jì)是否合理；

用戶在頁面上的網(wǎng)頁熱點(diǎn)圖分布數(shù)據(jù)和網(wǎng)頁覆蓋圖數(shù)據(jù)；

用戶在不同時(shí)段的訪問量情況等；

用戶在網(wǎng)站的信息關(guān)注類型和熱度；

為用戶提供個性化服務(wù)。

1.3 用戶瀏覽網(wǎng)站的方式

用戶瀏覽網(wǎng)站的方式相關(guān)統(tǒng)計(jì)指標(biāo)主要包括：

用戶上網(wǎng)設(shè)備類型；

用戶瀏覽器的名稱和版本；

訪問者電腦分辨率顯示模式；

用戶所使用的操作系統(tǒng)名稱和版本；

用戶所在地理區(qū)域分布狀況等。

2 數(shù)據(jù)挖掘方法

2.1 服務(wù)器端事件跟蹤[3]

服務(wù)器端數(shù)據(jù)是從W eb服務(wù)器日志和網(wǎng)絡(luò)監(jiān)視器中收集到的數(shù)據(jù)以及服務(wù)器端保存的網(wǎng)站描述性信息，它記錄了用戶訪問站點(diǎn)的數(shù)據(jù),每當(dāng)站點(diǎn)的網(wǎng)頁被用戶訪問一次，W eb服務(wù)器就在日志文件中添加一條相應(yīng)的記錄，這些記錄數(shù)據(jù)反映了用戶對W eb站點(diǎn)的訪問行為。服務(wù)器端存儲的其他類型的使用信息，如Cook ie以及用戶的查詢數(shù)據(jù),也是服務(wù)器端數(shù)據(jù)的一個重要組成部分。

2.1.1 基于服務(wù)器日志方法的優(yōu)點(diǎn)通過日志文件可以獲得很有價(jià)值的網(wǎng)站使用情況的數(shù)據(jù)。

① 日志文件是由w eb 服務(wù)器自動生成,所以花費(fèi)比較小。

② 與人為建造的可用性實(shí)驗(yàn)室環(huán)境相比,通過日志文件獲得的數(shù)據(jù)更能夠反映真實(shí)環(huán)境下用戶的真實(shí)情況。

③ 與只對幾個用戶在幾小時(shí)內(nèi)進(jìn)行的測試所獲得的數(shù)據(jù)相比, 通過日志文件獲得的是大量的用戶在相當(dāng)長一段時(shí)間內(nèi)的行為數(shù)據(jù),這對分析用戶的行為是十分有利的, 可以利用數(shù)據(jù)挖掘等技術(shù)對用戶進(jìn)行分析。

④ 開發(fā)基于日志文件的數(shù)據(jù)分析工具相對比較容易, 花費(fèi)也不是太大。

2.1.2 基于服務(wù)器日志方法的缺點(diǎn)基于日志的方法對于網(wǎng)站的可用性研究來說還存在著很多不足之處，由于日志文件就是被設(shè)計(jì)用來產(chǎn)生站點(diǎn)級的性能統(tǒng)計(jì)數(shù)據(jù)，因此不可避免的是，日志文件所提供的數(shù)據(jù)與用來分析網(wǎng)站可用性所需的大量數(shù)據(jù)相比會有所不足，對于研究潛在的可用性問題只能提供少量的數(shù)據(jù)甚至還可能提供一些誤導(dǎo)性的數(shù)據(jù)。這是因?yàn)橐坏﹚ eb服務(wù)器把用戶請求的頁面發(fā)送出去之后，如果用戶不發(fā)出請求，則頁面和用戶之間發(fā)生了什么w eb 服務(wù)器并不記錄。

2.2 數(shù)據(jù)包嗅探

從原始數(shù)據(jù)包中提取各個字段詳細(xì)信息。在應(yīng)用層字段信息理解中，根據(jù)p2p業(yè)務(wù)的差異，可以對業(yè)務(wù)類別進(jìn)行快速識別。這種基于原始數(shù)據(jù)包的業(yè)務(wù)理解識別技可為媒體應(yīng)用研究領(lǐng)域提供高可信度的參考信息。在數(shù)據(jù)還原研究中，結(jié)合會話識別技術(shù)從已捕獲的數(shù)據(jù)包中分離、重組出網(wǎng)頁數(shù)據(jù)傳輸過程中的獨(dú)立完整會話，然后結(jié)合編碼規(guī)則還原出可見文本。從已還原的可見文本中，結(jié)合語料庫經(jīng)過分詞處理，再對其進(jìn)行應(yīng)用語義抽取。在語義抽取和行為分析中，基于統(tǒng)計(jì)模型，在群體用戶行為習(xí)慣挖掘中發(fā)現(xiàn)特定群體用戶行為具有一定群聚性，針對群體用戶行為群聚性可以對網(wǎng)絡(luò)服務(wù)進(jìn)行適當(dāng)調(diào)整，對于優(yōu)化網(wǎng)絡(luò)服務(wù)體系結(jié)構(gòu)有著積極作用。通過對用戶行為挖掘模型的研究和完善，采用增量補(bǔ)充的方式逐步建立一個具有高度行為識別能力的行為庫。在此基礎(chǔ)上，可以對用戶的查詢和檢索提供更為方便、快捷、高效的應(yīng)用服務(wù)。同時(shí)，結(jié)合我們對搜索相關(guān)領(lǐng)域的研究基礎(chǔ)，可以快速定位、識別用戶檢索主題[4]。

2.3 客戶端收集和分析數(shù)據(jù)

由于通過日志文件獲得的信息會出現(xiàn)失真的情況, 而且有很多重要的數(shù)據(jù)只通過日志文件很難獲得, 這些信息對研究網(wǎng)站的可用性問題卻很重要, 因此為了進(jìn)一步獲得更多的有價(jià)值的可用性數(shù)據(jù), 發(fā)現(xiàn)更多的網(wǎng)站可用性問題, 逐漸產(chǎn)生了很多技術(shù)用于從客戶端(pageside) 直接獲得用戶與網(wǎng)站的交互情況。由于是直接從客戶端獲得數(shù)據(jù), 所以, 能夠獲得大量的難以從服務(wù)器端獲得的用戶行為數(shù)據(jù), 這對進(jìn)一步分析用戶瀏覽網(wǎng)站行為, 改善潛在的網(wǎng)站可用性問題提供了更大的幫助[1]。

客戶端收集用戶行為數(shù)據(jù)的優(yōu)點(diǎn)：由于用戶是在真實(shí)的環(huán)境下所進(jìn)行的操作(如在家里或辦公室) , 減少了人為地干擾因素, 因此獲得的數(shù)據(jù)更加真實(shí)。與基于日志文件的方法相比, 從客戶端收集到的數(shù)據(jù)更加精確, 能夠克服如上描述的很多問題。

該方法的弊端就是需要在客戶端安裝軟件，而很多用戶是不愿意接收的，因此這種方法不能對廣大用戶群體做分析。

綜上所述，網(wǎng)絡(luò)數(shù)據(jù)分析方法中，數(shù)據(jù)包嗅探最能反映實(shí)際情況，但復(fù)雜度最高，服務(wù)器端數(shù)據(jù)在表現(xiàn)網(wǎng)站的信息特點(diǎn)很合適，但客戶信息情況不能準(zhǔn)確全面。在我們做行為分析時(shí)，針對主要分析的目標(biāo)對象，采用多種方式相結(jié)合，發(fā)揮各方法的優(yōu)勢，將網(wǎng)絡(luò)用戶行為分析做得更全面、準(zhǔn)確。

[1]王利強(qiáng)，劉正捷，張麗萍，張海昕，陳軍亮.網(wǎng)站用戶行為數(shù)據(jù)收集和分析方法[J].電腦開發(fā)與應(yīng)用.1003-5850.0.2004-02-001

[2]http://www.cnii.com.cn/20070520/ca416298.htm

[3]郭媛香.面向用戶行為的Web使用挖掘技術(shù)[J]. 晉中學(xué)院學(xué)報(bào). JGZK.0.2009-03-023

[4]Tan Shunhua，User Behavior Mining on Large Scale Web Log Data [C].3rd International Conference on Computer Design and Applications

10.3969/j.issn.1001-8972.2011.10.068