摘要:文章介紹了Web挖掘技術(shù)的概念、意義、研究現(xiàn)狀以及分類,Web日志挖掘是Web數(shù)據(jù)挖掘的重要分支,已成為研究人員關(guān)注的焦點(diǎn)。本文對(duì)日志挖掘過程中的數(shù)據(jù)預(yù)處理和模式發(fā)現(xiàn)進(jìn)行了深入的討論,并總結(jié)了Web日志挖掘的關(guān)鍵技術(shù)。
關(guān)鍵詞:Web挖掘;日志挖掘;數(shù)據(jù)預(yù)處理
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007—9599 (2012) 14—0000—02
一、引言
隨著信息技術(shù)的飛速發(fā)展,Web已經(jīng)成為是信息獲取、發(fā)布及共享的重要途徑,Web上的各類信息越來越齊全、越快速的增長。面對(duì)日益膨脹的各類資訊,將數(shù)據(jù)挖掘技術(shù)應(yīng)用對(duì)Web頁面的各類內(nèi)容、結(jié)構(gòu)以及用戶訪問信息進(jìn)行有效信息提取,更好的服務(wù)于Web事業(yè)發(fā)展,已經(jīng)成為眾多研究者的熱門研究方向。
Web挖掘(Web Mining)是指通過對(duì)Web資源進(jìn)行分析和研究,從中發(fā)現(xiàn)隱含未知的、有價(jià)值的規(guī)律和知識(shí)的過程。根據(jù)Web挖掘的對(duì)象和內(nèi)容的不同,Web挖掘可以分為Web日志挖掘(Web log mining)、Web內(nèi)容挖掘(Web content mining)和Web結(jié)構(gòu)挖掘(Web structure mining)。其中,Web日志挖掘是指通過挖掘Web日志來發(fā)現(xiàn)用戶的訪問行為及模式,可以實(shí)現(xiàn)用戶聚類、頁面聚類和發(fā)現(xiàn)頻繁訪問路徑,進(jìn)而改善網(wǎng)站結(jié)構(gòu)設(shè)計(jì)和為用戶提供個(gè)性化服務(wù),已成為眾多研究人員關(guān)注的焦點(diǎn)。
二、Web日志挖掘技術(shù)概述
(一)Web日志挖掘基本概念
Web日志挖掘是We挖掘技術(shù)中的一種,是指通過對(duì)Web日志記錄進(jìn)行挖掘分析,對(duì)用戶訪問Web頁面的模式進(jìn)行分析和總結(jié),得到用戶進(jìn)行Web訪問中隱含的規(guī)律或信息,并借助于這類信息來改進(jìn)Web站點(diǎn)的性能和組織結(jié)構(gòu),提高用戶查找信息的效率和質(zhì)量,并通過統(tǒng)計(jì)和關(guān)聯(lián)的分析找出特定用戶與特定地域、特定頁面、特定時(shí)間等要素之間的內(nèi)在聯(lián)系。這在電子商務(wù)等領(lǐng)域有著非常重要的作用。用戶使用Web獲取信息的過程中需要不停地從一個(gè)Web站點(diǎn)通過超文本鏈接跳轉(zhuǎn)到另一個(gè)站點(diǎn),這種過程存在一定的普遍性,發(fā)現(xiàn)此規(guī)律即是Web用戶訪問信息發(fā)現(xiàn)。Web日志挖掘是關(guān)于用戶行為及潛在顧客信息的發(fā)現(xiàn),一般可以分為以下三個(gè)階段,數(shù)據(jù)預(yù)處理(Pre processing)、模式發(fā)現(xiàn)(Pattern Discovering)、模式分析(Pattern Analyzing),其體系結(jié)構(gòu)如圖:
(二)數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是指對(duì)為了將數(shù)據(jù)變成適合挖掘的數(shù)據(jù)格式,將原始日志文件進(jìn)行篩選、過濾和重組后,并保存到數(shù)據(jù)庫中,以便不同類型的數(shù)據(jù)挖掘的進(jìn)行操作。在Web日志挖掘中,數(shù)據(jù)挖掘預(yù)處理主要包含數(shù)據(jù)凈化、會(huì)話識(shí)別、路徑補(bǔ)充、用戶識(shí)別以及事物識(shí)別等。對(duì)Web的數(shù)據(jù)預(yù)處理會(huì)直接影響到挖掘算法的模式和結(jié)果,是保證Web日志挖掘有一個(gè)高質(zhì)量結(jié)果的關(guān)鍵。
1.數(shù)據(jù)凈化
數(shù)據(jù)凈化是指將Web服務(wù)器中的日志中的無效數(shù)據(jù)進(jìn)行刪除,消除日志數(shù)據(jù)中的冗余量,減少所需處理數(shù)據(jù)的總量。一般情況下,與用戶會(huì)話的日志信息中只有HTML文件,因此,可以建立一個(gè)后綴名表列,可以幫助刪除經(jīng)過檢查后無關(guān)的URI資源。經(jīng)過數(shù)據(jù)凈化后,可以減輕數(shù)據(jù)的大小,縮小數(shù)據(jù)預(yù)處理的容量,使得數(shù)據(jù)十分集中。
2.會(huì)話識(shí)別
會(huì)話識(shí)別是指將訪問記錄進(jìn)行分解,分解為單個(gè)的會(huì)話。用戶的一次會(huì)話是某用戶對(duì)某個(gè)Web站點(diǎn)的一次訪問過程中所引用到的全部頁面。由于用戶的訪問是隨機(jī)的,因此用戶何時(shí)會(huì)離開一個(gè)站點(diǎn)是無法預(yù)知的。最簡單且最有效的判斷用戶是否已經(jīng)離開該網(wǎng)站的方法是利用最大的超時(shí)來進(jìn)行判斷。如若兩個(gè)頁面的請(qǐng)求時(shí)間超過了預(yù)設(shè)的門限,就認(rèn)為一個(gè)會(huì)話已經(jīng)結(jié)束,并且已經(jīng)開始了一個(gè)新的會(huì)話。
3.路徑補(bǔ)充
路徑補(bǔ)充是指在用戶的會(huì)話文件中將遺漏的請(qǐng)求信息補(bǔ)充進(jìn)來,也可以根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和引用日志提供的信息把路徑補(bǔ)充完整。檢查Web日志中是否由于Cache而導(dǎo)致重要的頁面訪問記錄丟失。
4.用戶識(shí)別
用戶的有效識(shí)別是一件非常復(fù)雜的事情,這主要是代理服務(wù)器、防火墻或本地緩存所造成的。常用的方法為基于日志的方法,并結(jié)合一些啟發(fā)性的識(shí)別規(guī)則。例如:如果IP地址相同,但是代理信息變了(代理信息,在IIS5.0環(huán)境下的W3C擴(kuò)展日志文件格式的cs(User—Agent)字段),表明用戶可能是在某個(gè)防火墻后面的內(nèi)網(wǎng)的不同用戶,則可以標(biāo)記為不同的用戶;還可以將訪問信息,引用信息(cs(Referer)字段)和站點(diǎn)拓?fù)錂C(jī)構(gòu)結(jié)合,構(gòu)造出用戶的瀏覽路徑,如果當(dāng)前請(qǐng)求的頁面同用戶已瀏覽的頁面沒有鏈接關(guān)系,則認(rèn)為存在IP地址相同的多個(gè)用戶。然而,使用這些規(guī)則并不可以保證一定可以準(zhǔn)確識(shí)別用戶,用戶識(shí)別是個(gè)難題。
5.事務(wù)識(shí)別
事物識(shí)別是對(duì)用戶會(huì)話進(jìn)行語義分組,即針對(duì)用戶會(huì)話的數(shù)據(jù)挖掘活動(dòng)進(jìn)行特定的事件定義。在Web日志挖掘領(lǐng)域中,對(duì)關(guān)聯(lián)挖掘任務(wù)的粒度太粗,因此要采用特定的算法,將會(huì)話分割成更小的事物。經(jīng)過分割后變成頁面序列,再進(jìn)行事物識(shí)別,可以得到諸多有意義的信息,及用戶會(huì)話中的網(wǎng)頁瀏覽路徑。
(三)模式發(fā)現(xiàn)階段
模式發(fā)現(xiàn)階段是指為了得到數(shù)據(jù)背后隱含的規(guī)律和模式,使用各種挖掘算法的過程,如機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析、模式識(shí)別等其他學(xué)科領(lǐng)域中已開發(fā)出來的方法和算法。當(dāng)然,要將這些算法和Web日志挖掘的特性結(jié)合起來,目前已經(jīng)得到廣泛應(yīng)用的算法有序列模式、統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則和聚類分析等技術(shù)。
1.序列模式
序列模式指通過對(duì)時(shí)序數(shù)據(jù)進(jìn)行檢索,發(fā)現(xiàn)其在時(shí)間先后上具有特定順序的有效數(shù)據(jù)項(xiàng)。在對(duì)Web日志挖掘過程中,以序列模式為特征的識(shí)別技術(shù)會(huì)自動(dòng)尋找用戶在時(shí)間上有先后關(guān)系的會(huì)話中的頁面訪問請(qǐng)求。利用發(fā)現(xiàn)的序列模式中的潛在規(guī)律可以預(yù)測用戶即將可能訪問的頁面。這樣就可以針對(duì)不同的用戶組的個(gè)性需求,在頁面中放置為其特意設(shè)置的廣告條目來增加點(diǎn)擊率。除了時(shí)間序列模式外,其他方面的序列模式有:趨勢(shì)分析、轉(zhuǎn)折點(diǎn)檢測、相似性分析等。
2.統(tǒng)計(jì)分析
統(tǒng)計(jì)分析是對(duì)Web用戶各類信息獲取的最常用的方法。通過對(duì)用戶會(huì)話文件進(jìn)行分析,對(duì)用戶會(huì)話文件中隱含的頻率、中位數(shù)和平均值等多種信息進(jìn)行提取,來完成對(duì)用戶會(huì)話的基本描述性分析。統(tǒng)計(jì)分析對(duì)用戶瀏覽路徑中的訪問頁面、訪問長度和訪問停留時(shí)間等信息進(jìn)行收集,到了預(yù)訂的時(shí)間會(huì)將所統(tǒng)計(jì)的信息進(jìn)行反饋,并以分析報(bào)告的形式來表現(xiàn)。這些統(tǒng)計(jì)信息包括頁面的平均訪問時(shí)間、被訪問最頻繁的頁面以及頁面的平均訪問路徑長度等信息。
3.關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是對(duì)用戶會(huì)話進(jìn)行分析后,將用戶經(jīng)常一起訪問的頁面進(jìn)行集合整理。當(dāng)然,這些頁面之間并不存在任何順序關(guān)系。如果所選擇出來的關(guān)聯(lián)頁面之間不存在相關(guān)的超鏈接,則這是一個(gè)對(duì)研究人員非常感興趣的關(guān)聯(lián)規(guī)則。目前,挖掘關(guān)聯(lián)規(guī)則中所常用的算法是Apriori算法及其變形算法。
4.聚類分析
聚類分析又名歸類分析,是指通過數(shù)據(jù)挖掘技術(shù),將具有相似特征的部分?jǐn)?shù)據(jù)項(xiàng)或用戶信息歸類,并將這些歸類后的信息進(jìn)行整合,以供決策使用。在Web日志挖掘中,聚類分析主要對(duì)頁面數(shù)據(jù)項(xiàng)聚類和用戶信息聚類。頁面數(shù)據(jù)項(xiàng)聚類是指將相似內(nèi)容的頁面數(shù)據(jù)項(xiàng)進(jìn)行歸類,這些信息可以為用戶對(duì)該相似信息進(jìn)行檢索時(shí)提供服務(wù)。用戶信息聚類是指將具有相似瀏覽行為的用戶進(jìn)行歸類,這些信息可以讓商家為特定的用戶群體提供個(gè)性化的Web服務(wù)。
(四)模式分析階段
模式分析階段為Web日志挖掘提供可視化的輸出結(jié)果,這一結(jié)果將為Web日志挖掘所得的結(jié)果進(jìn)行分析。如果這一結(jié)果沒有通過適當(dāng)?shù)谋憩F(xiàn)技術(shù)和相關(guān)的技術(shù)人員來進(jìn)行講解,所挖掘出來的信息將難以得到高效的利用。所以,通過模式分析,開發(fā)出多種分析工具,這對(duì)于數(shù)據(jù)挖掘結(jié)果的高效利用、實(shí)現(xiàn)效用最大化也是非常有幫助的。
三、總結(jié)
Web日志挖掘能夠發(fā)現(xiàn)單個(gè)用戶瀏覽網(wǎng)站的行為規(guī)律,進(jìn)而改善頁面的超鏈接結(jié)構(gòu)。在Web挖掘領(lǐng)域中,Web日志挖掘是一個(gè)非常重要的研究方向,對(duì)于提高整個(gè)Web系統(tǒng)的性能都有十分重要的意義。因此,Web日志挖掘不管是從學(xué)術(shù)角度還是商業(yè)運(yùn)作的角度而言,都是非常具有研究價(jià)值的。
參考文獻(xiàn):
[1]Jia wei Han,Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)(原書第二版)[M].北京:機(jī)械工業(yè)出版社,2007
[2]張士瑞.基于Web技術(shù)的教育網(wǎng)站系統(tǒng)設(shè)計(jì)和數(shù)據(jù)挖掘[D].山東大學(xué)碩士學(xué)位論文,2005
[3]王兆慶.WEB挖掘技術(shù)及其應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用,2007,6:94—95
[4]張超林,劉麗珍,陳俊杰.Web使用挖掘中網(wǎng)站結(jié)構(gòu)和內(nèi)容的作用