陳淼 西南科技大學(xué)信息學(xué)院 621000
網(wǎng)絡(luò)數(shù)據(jù)分析技術(shù)研究
陳淼 西南科技大學(xué)信息學(xué)院 621000
在網(wǎng)絡(luò)用戶行為分析領(lǐng)域研究的方法很多,主要都是利用針對用戶原始行為流量的頻度分析和關(guān)聯(lián)分析來實(shí)現(xiàn)的。從數(shù)據(jù)挖掘方式上分為服務(wù)器事件跟蹤、網(wǎng)絡(luò)數(shù)據(jù)包嗅探、客戶端主動探測。
行為分析;數(shù)據(jù)挖掘;數(shù)據(jù)源
目前的用戶行為模式是利用針對用戶原始行為流量的頻度分析和關(guān)聯(lián)分析來實(shí)現(xiàn)的。我們可以建立一個用戶行為模式庫,然后通過網(wǎng)絡(luò)監(jiān)聽及流量分析的技術(shù),嘗試?yán)脭?shù)據(jù)挖掘的方法,將這種屬于用戶自身所特有的行為模式從網(wǎng)絡(luò)流量中提取出來,并存入用戶行為模式庫中。利用w eb挖掘技術(shù)可以在海量的w eb訪問數(shù)據(jù)中研究人們從w eb上獲取信息的模式、獲取信息的類型,從而可以得到用戶興趣的偏好等方面的信息[1]。
網(wǎng)站訪問用戶行為統(tǒng)計(jì)分析的基礎(chǔ)是獲取網(wǎng)站的基本數(shù)據(jù),基于這些數(shù)據(jù)可以開展三個類別的深度挖掘,每類包含若干數(shù)量的統(tǒng)計(jì)指標(biāo)。
1.1 網(wǎng)站流量指標(biāo)
網(wǎng)站流量指標(biāo)常用來對網(wǎng)站效果進(jìn)行評價(jià),主要指標(biāo)包括:
獨(dú)立訪問者數(shù)量;
重復(fù)訪問者數(shù)量;
頁面瀏覽數(shù);
每個訪問者的頁面瀏覽數(shù);
某些具體文件/頁面的統(tǒng)計(jì)指標(biāo),如頁面顯示次數(shù)、文件下載次數(shù)等。
1.2 用戶行為指標(biāo)
用戶行為指標(biāo)主要反映用戶是如何來到網(wǎng)站的、在網(wǎng)站上停留了多長時(shí)間、訪問了那些頁面等,主要的統(tǒng)計(jì)指標(biāo)包括:
用戶在網(wǎng)站的停留時(shí)間、跳出率、回訪者、新訪問者、回訪次數(shù)、回訪相隔天數(shù);
注冊用戶和非注冊用戶,分析兩者之間的瀏覽習(xí)慣;
用戶所使用的搜索引擎、關(guān)鍵詞、關(guān)聯(lián)關(guān)鍵詞和站內(nèi)關(guān)鍵字;
用戶選擇什么樣的入口形式(廣告或者網(wǎng)站入口鏈接)更為有效;
用戶訪問網(wǎng)站流程,用來分析頁面結(jié)構(gòu)設(shè)計(jì)是否合理;
用戶在頁面上的網(wǎng)頁熱點(diǎn)圖分布數(shù)據(jù)和網(wǎng)頁覆蓋圖數(shù)據(jù);
用戶在不同時(shí)段的訪問量情況等;
用戶在網(wǎng)站的信息關(guān)注類型和熱度;
為用戶提供個性化服務(wù)。
1.3 用戶瀏覽網(wǎng)站的方式
用戶瀏覽網(wǎng)站的方式相關(guān)統(tǒng)計(jì)指標(biāo)主要包括:
用戶上網(wǎng)設(shè)備類型;
用戶瀏覽器的名稱和版本;
訪問者電腦分辨率顯示模式;
用戶所使用的操作系統(tǒng)名稱和版本;
用戶所在地理區(qū)域分布狀況等。
2.1 服務(wù)器端事件跟蹤[3]
服務(wù)器端數(shù)據(jù)是從W eb服務(wù)器日志和網(wǎng)絡(luò)監(jiān)視器中收集到的數(shù)據(jù)以及服務(wù)器端保存的網(wǎng)站描述性信息,它記錄了用戶訪問站點(diǎn)的數(shù)據(jù),每當(dāng)站點(diǎn)的網(wǎng)頁被用戶訪問一次,W eb服務(wù)器就在日志文件中添加一條相應(yīng)的記錄,這些記錄數(shù)據(jù)反映了用戶對W eb站點(diǎn)的訪問行為。服務(wù)器端存儲的其他類型的使用信息,如Cook ie以及用戶的查詢數(shù)據(jù),也是服務(wù)器端數(shù)據(jù)的一個重要組成部分。
2.1.1 基于服務(wù)器日志方法的優(yōu)點(diǎn)通過日志文件可以獲得很有價(jià)值的網(wǎng)站使用情況的數(shù)據(jù)。
① 日志文件是由w eb 服務(wù)器自動生成,所以花費(fèi)比較小。
② 與人為建造的可用性實(shí)驗(yàn)室環(huán)境相比,通過日志文件獲得的數(shù)據(jù)更能夠反映真實(shí)環(huán)境下用戶的真實(shí)情況。
③ 與只對幾個用戶在幾小時(shí)內(nèi)進(jìn)行的測試所獲得的數(shù)據(jù)相比, 通過日志文件獲得的是大量的用戶在相當(dāng)長一段時(shí)間內(nèi)的行為數(shù)據(jù),這對分析用戶的行為是十分有利的, 可以利用數(shù)據(jù)挖掘等技術(shù)對用戶進(jìn)行分析。
④ 開發(fā)基于日志文件的數(shù)據(jù)分析工具相對比較容易, 花費(fèi)也不是太大。
2.1.2 基于服務(wù)器日志方法的缺點(diǎn)基于日志的方法對于網(wǎng)站的可用性研究來說還存在著很多不足之處,由于日志文件就是被設(shè)計(jì)用來產(chǎn)生站點(diǎn)級的性能統(tǒng)計(jì)數(shù)據(jù),因此不可避免的是,日志文件所提供的數(shù)據(jù)與用來分析網(wǎng)站可用性所需的大量數(shù)據(jù)相比會有所不足,對于研究潛在的可用性問題只能提供少量的數(shù)據(jù)甚至還可能提供一些誤導(dǎo)性的數(shù)據(jù)。這是因?yàn)橐坏﹚ eb服務(wù)器把用戶請求的頁面發(fā)送出去之后,如果用戶不發(fā)出請求,則頁面和用戶之間發(fā)生了什么w eb 服務(wù)器并不記錄。
2.2 數(shù)據(jù)包嗅探
從原始數(shù)據(jù)包中提取各個字段詳細(xì)信息。在應(yīng)用層字段信息理解中,根據(jù)p2p業(yè)務(wù)的差異,可以對業(yè)務(wù)類別進(jìn)行快速識別。這種基于原始數(shù)據(jù)包的業(yè)務(wù)理解識別技可為媒體應(yīng)用研究領(lǐng)域提供高可信度的參考信息。在數(shù)據(jù)還原研究中,結(jié)合會話識別技術(shù)從已捕獲的數(shù)據(jù)包中分離、重組出網(wǎng)頁數(shù)據(jù)傳輸過程中的獨(dú)立完整會話,然后結(jié)合編碼規(guī)則還原出可見文本。從已還原的可見文本中,結(jié)合語料庫經(jīng)過分詞處理,再對其進(jìn)行應(yīng)用語義抽取。在語義抽取和行為分析中,基于統(tǒng)計(jì)模型,在群體用戶行為習(xí)慣挖掘中發(fā)現(xiàn)特定群體用戶行為具有一定群聚性,針對群體用戶行為群聚性可以對網(wǎng)絡(luò)服務(wù)進(jìn)行適當(dāng)調(diào)整,對于優(yōu)化網(wǎng)絡(luò)服務(wù)體系結(jié)構(gòu)有著積極作用。通過對用戶行為挖掘模型的研究和完善,采用增量補(bǔ)充的方式逐步建立一個具有高度行為識別能力的行為庫。在此基礎(chǔ)上,可以對用戶的查詢和檢索提供更為方便、快捷、高效的應(yīng)用服務(wù)。同時(shí),結(jié)合我們對搜索相關(guān)領(lǐng)域的研究基礎(chǔ),可以快速定位、識別用戶檢索主題[4]。
2.3 客戶端收集和分析數(shù)據(jù)
由于通過日志文件獲得的信息會出現(xiàn)失真的情況, 而且有很多重要的數(shù)據(jù)只通過日志文件很難獲得, 這些信息對研究網(wǎng)站的可用性問題卻很重要, 因此為了進(jìn)一步獲得更多的有價(jià)值的可用性數(shù)據(jù), 發(fā)現(xiàn)更多的網(wǎng)站可用性問題, 逐漸產(chǎn)生了很多技術(shù)用于從客戶端(pageside) 直接獲得用戶與網(wǎng)站的交互情況。由于是直接從客戶端獲得數(shù)據(jù), 所以, 能夠獲得大量的難以從服務(wù)器端獲得的用戶行為數(shù)據(jù), 這對進(jìn)一步分析用戶瀏覽網(wǎng)站行為, 改善潛在的網(wǎng)站可用性問題提供了更大的幫助[1]。
客戶端收集用戶行為數(shù)據(jù)的優(yōu)點(diǎn):由于用戶是在真實(shí)的環(huán)境下所進(jìn)行的操作(如在家里或辦公室) , 減少了人為地干擾因素, 因此獲得的數(shù)據(jù)更加真實(shí)。與基于日志文件的方法相比, 從客戶端收集到的數(shù)據(jù)更加精確, 能夠克服如上描述的很多問題。
該方法的弊端就是需要在客戶端安裝軟件,而很多用戶是不愿意接收的,因此這種方法不能對廣大用戶群體做分析。
綜上所述,網(wǎng)絡(luò)數(shù)據(jù)分析方法中,數(shù)據(jù)包嗅探最能反映實(shí)際情況,但復(fù)雜度最高,服務(wù)器端數(shù)據(jù)在表現(xiàn)網(wǎng)站的信息特點(diǎn)很合適,但客戶信息情況不能準(zhǔn)確全面。在我們做行為分析時(shí),針對主要分析的目標(biāo)對象,采用多種方式相結(jié)合,發(fā)揮各方法的優(yōu)勢,將網(wǎng)絡(luò)用戶行為分析做得更全面、準(zhǔn)確。
[1]王利強(qiáng),劉正捷,張麗萍,張海昕, 陳軍亮.網(wǎng)站用戶行為數(shù)據(jù)收集和分析方法[J].電腦開發(fā)與應(yīng)用.1003-5850.0.2004-02-001
[2]http://www.cnii.com.cn/20070520/ca416298.htm
[3]郭媛香.面向用戶行為的Web使用挖掘技術(shù)[J]. 晉中學(xué)院學(xué)報(bào). JGZK.0.2009-03-023
[4]Tan Shunhua,User Behavior Mining on Large Scale Web Log Data [C].3rd International Conference on Computer Design and Applications
10.3969/j.issn.1001-8972.2011.10.068