[摘要] 近年來,隨著Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息可以以非常低的成本在網(wǎng)絡(luò)上獲得,由于www在全球互連互通,可以從中取得的數(shù)據(jù)量難以計算,而且www的發(fā)展趨勢繼續(xù)看好,特別是電子商務(wù)的蓬勃發(fā)展為網(wǎng)絡(luò)應(yīng)用提供了強(qiáng)大支持,如何在www這個全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)有用信息正在成為數(shù)據(jù)挖掘研究的熱點(diǎn)。
[關(guān)鍵詞] web 數(shù)據(jù)挖掘 電子商務(wù)
一、引言
隨著以數(shù)據(jù)庫、數(shù)據(jù)倉庫等數(shù)據(jù)倉儲技術(shù)為基礎(chǔ)的信息系統(tǒng)在各行各業(yè)的應(yīng)用,使海量數(shù)據(jù)不斷產(chǎn)生。隨之而來的問題是如此多的數(shù)據(jù)讓人難以消化,無法從表面上看出他們所蘊(yùn)涵的有用信息。如何從大量的數(shù)據(jù)中找到真正有用的信息成為人們關(guān)注的焦點(diǎn),數(shù)據(jù)挖掘技術(shù)也正是伴隨著這種需求從研究走向應(yīng)用。
近年來,隨著Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息可以以非常低的成本在網(wǎng)絡(luò)上獲得,由于Internet/WWW在全球互連互通,可以從中取得的數(shù)據(jù)量難以計算,而且Internet/WWW的發(fā)展趨勢繼續(xù)看好,特別是電子商務(wù)的蓬勃發(fā)展為網(wǎng)絡(luò)應(yīng)用提供了強(qiáng)大支持,如何在WWW這個全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)有用信息無疑將成為數(shù)據(jù)挖掘研究的熱點(diǎn)。
二、Web挖掘概述
數(shù)據(jù)挖掘就是從數(shù)據(jù)庫中抽取隱含的、以前未知的、具有潛在應(yīng)用價值的信息的過程。Web挖掘是將數(shù)據(jù)挖掘的思想和方法應(yīng)用到Web頁面內(nèi)容、頁面之間的結(jié)構(gòu)、用戶訪問信息等各種Web數(shù)據(jù)中,從中抽取隱含的、以前未知的、具有潛在應(yīng)用價值的信息。Web挖掘?qū)υ诤棋木W(wǎng)絡(luò)中發(fā)現(xiàn)有價值的知識、改進(jìn)網(wǎng)站設(shè)計、提供更好的網(wǎng)上服務(wù)有重要的作用。
Web挖掘是針對包括Web頁面內(nèi)容,頁面之間的結(jié)構(gòu),用戶訪問信息等在內(nèi)的各種Web數(shù)據(jù)源。在一定基礎(chǔ)上應(yīng)用數(shù)據(jù)挖掘的方法以發(fā)現(xiàn)有用的隱含的知識的過程。Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有其自身的特點(diǎn)。Web本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的數(shù)據(jù),缺乏機(jī)器可理解的語義,Web挖掘的對象是大量,異質(zhì),分布的Web文檔,對Web服務(wù)器上的日志、用戶信息等數(shù)據(jù)所開展的挖掘工作也屬于Web數(shù)據(jù)挖掘的范疇。Web信息的多樣性決定了挖掘任務(wù)的多樣性。按照Web處理對象的不同,一般將Web挖掘分為三類: Web內(nèi)容挖掘,Web結(jié)構(gòu)挖掘和Web使用記錄挖掘。
1.Web內(nèi)容挖掘
Web內(nèi)容挖掘是指對Web頁面及后臺交易數(shù)據(jù)庫進(jìn)行挖掘,從Web文檔內(nèi)容及其描述中的內(nèi)容信息中獲取有價值的知識的過程。它是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理上的應(yīng)用,主要方法有IR(information retrieve)和數(shù)據(jù)庫方法。它又可分為Web文本挖掘和Web多媒體挖掘兩種數(shù)據(jù)挖掘方式。Web內(nèi)容挖掘多為這種方式的挖掘,它和平常的平面文本挖掘的功能及方法比較類似。Web文檔多為HTML、XML等自然語言,因此可利用Web文檔中的標(biāo)記,利用這些信息可以提高Web文本挖掘的性能。在對Web文檔進(jìn)行分類分析中,可以基于一組預(yù)先分好的文檔為每一類文檔賦予一個類標(biāo)簽。由于超鏈接里包括了有關(guān)頁面內(nèi)容的高質(zhì)量信息,因此可以利用這些信息對文檔進(jìn)行分類,并且這種分類比基于關(guān)鍵字的分類更加準(zhǔn)確。隨著網(wǎng)絡(luò)帶寬的擴(kuò)大,多媒體信息在網(wǎng)上迅速增加,這對Web內(nèi)容挖掘提出了新的要求。Web多媒體挖掘的挖掘主要是指基于音頻的挖掘、基于圖片的靜態(tài)圖像的挖掘和基于視頻的動態(tài)圖像的挖掘。
2.Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘是對Web的組織結(jié)構(gòu)和鏈接關(guān)系進(jìn)行挖掘,從人為的鏈接關(guān)系中獲得有價值的知識。由于文檔之間互連,WWW能提供除文檔內(nèi)容以外的有用信息。Web結(jié)構(gòu)挖掘通過分析一個網(wǎng)頁鏈接和被鏈接的網(wǎng)頁數(shù)量和對象,建立Web自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁分類,并由此獲得有關(guān)不同頁面間的相似度和關(guān)聯(lián)度的信息。Web頁面除了包含頁面以外還包括一個頁面指向另一個頁面的超鏈接。超鏈接里包含大量人類潛在的語義,它可用于分析出權(quán)威性語義。當(dāng)一個Web頁面的作者建立指向另一個頁面的指針時,可以看作是作者對另一個頁面的注解,即對另一個頁面的認(rèn)可。把一個頁面的來自不同作者的注解收集起來,可以用來反應(yīng)頁面的重要性。這樣,Web結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(diǎn)。
3.Web使用記錄挖掘
Web使用記錄挖掘是對用戶訪問Web時在服務(wù)器上留下的訪問記錄進(jìn)行挖掘。它通過挖掘Web日志文件及其相關(guān)數(shù)據(jù)來發(fā)現(xiàn)用戶訪問Web頁面的模式,主要技術(shù)有Cookies和遠(yuǎn)程Agent技術(shù)。Web使用記錄挖掘的對象不是網(wǎng)上的原始數(shù)據(jù)而是從用戶和網(wǎng)絡(luò)交互過程中抽取出來的二手?jǐn)?shù)據(jù)。服務(wù)器上的日志文件包括所請求的URL、發(fā)送請求的IP和時間,這些日志提供了有關(guān)Web動態(tài)的豐富信息。因此提取用戶留下的這些日志文件進(jìn)行Web挖掘,提取有關(guān)用戶的知識,對用戶的訪問行為、頻度、內(nèi)容進(jìn)行分析,得到關(guān)于用戶的行為和方式的模式,從而改進(jìn)站點(diǎn)的結(jié)構(gòu),或?yàn)橛脩籼峁﹤€性化服務(wù)。對用戶使用記錄進(jìn)行挖掘的方法主要有兩種。一種方法是通過對日志文件進(jìn)行分析,包含兩種方式,一是訪問前先進(jìn)行預(yù)處理,即將日志數(shù)據(jù)映射為關(guān)系表采用相應(yīng)的數(shù)據(jù)挖掘技術(shù),如關(guān)聯(lián)規(guī)則或聚類規(guī)則來訪問日志文件。二是對日志文件直接進(jìn)行訪問以獲取用戶的導(dǎo)航信息。二是通過對用戶的點(diǎn)擊事件的收集和分析來發(fā)現(xiàn)用戶的導(dǎo)航行為。
三、Web挖掘的主要技術(shù)
Web數(shù)據(jù)挖掘中常用的技術(shù)有路徑分析技術(shù)、關(guān)聯(lián)規(guī)則、序列模式、分類聚類技術(shù)等。
1.關(guān)聯(lián)規(guī)則挖掘技術(shù)
該技術(shù)主要用于從學(xué)習(xí)者訪問序列數(shù)據(jù)庫的序列項(xiàng)中挖掘出相關(guān)的規(guī)則。在Web數(shù)據(jù)挖掘中,關(guān)聯(lián)規(guī)則挖掘就是要挖掘出學(xué)習(xí)者在一個訪問期間(Session)從服務(wù)器問的頁面/文件之間的聯(lián)系,這些頁面之間可能并不存在直接的參引(Reference) 關(guān)系。在網(wǎng)絡(luò)日志數(shù)據(jù)的預(yù)處理過程中,將學(xué)習(xí)者訪問的頁面路徑構(gòu)成了學(xué)習(xí)者會話事務(wù)集,可以通過關(guān)聯(lián)規(guī)則挖掘得到大量的學(xué)習(xí)者訪問請求的URL之間的聯(lián)系,并將挖掘出的規(guī)則按照不同的支持度和置信度進(jìn)行取舍,從而保留一些有用的規(guī)則進(jìn)行應(yīng)用。
2.序列模式挖掘技術(shù)
序列模式數(shù)據(jù)挖掘就是要挖掘出交易集之間的有時間序列的模式。在網(wǎng)站服務(wù)器日志里,學(xué)習(xí)者的訪問是以一段時間為單位記載的。經(jīng)過數(shù)據(jù)凈化和事件交易確認(rèn)以后是一個間斷的時間序列,這些序列反映了學(xué)習(xí)者一定的行為。在網(wǎng)絡(luò)日志文件的預(yù)處理過程中,抽取了學(xué)習(xí)者對于每個URL瀏覽所耗用的時間,這種元數(shù)據(jù)從側(cè)面描繪出每個學(xué)習(xí)者對于頁面上承載的知識點(diǎn)的理解程度和思考難度,引用時間長的證明此頁面承載的知識點(diǎn)比較難于理解。通過分析可以得出學(xué)習(xí)者對特定知識點(diǎn)的掌握程度。但由于網(wǎng)路線路的原因,致使學(xué)習(xí)者在提出URL請求后,很長時間才將相應(yīng)的網(wǎng)頁打開,所以這種由日志中記錄的瀏覽時間所分析出的各種模式規(guī)則并不一定真實(shí)反映學(xué)習(xí)者的學(xué)習(xí)過程,所以我們利用序列模式挖掘方式預(yù)測出學(xué)習(xí)者后續(xù)要訪問的頁面集,然后將此頁面集中的URL預(yù)先下載到本地計算機(jī)的緩存中去,從而降低了頁面的打開時間,也就使得瀏覽時間的準(zhǔn)確性和有效性得到了很大的提高。這種Web頁面的預(yù)取技術(shù)是利用序列模式挖掘方法來實(shí)現(xiàn)的。
3.聚類分類技術(shù)
聚類技術(shù)可以將具有相同特征的數(shù)據(jù)項(xiàng)聚成一類。聚類分析模式就是將數(shù)據(jù)劃分到不同的組或者簇中,組之間的差別盡可能的大,組內(nèi)的差別盡可能的小,與一般認(rèn)為通過學(xué)習(xí)者的固定信息進(jìn)行的分類分析不同,聚類前并不知道將要劃分成幾個組和什么樣的組,完全依靠服務(wù)器智能化的計算得出,因此聚類分析也可以稱為無監(jiān)督分類。通過聚類得出不同的類后,一旦某學(xué)習(xí)者的特征模式符合某個類后,推薦引擎自動將此學(xué)習(xí)者尚未訪問的頁面或者尚未進(jìn)行的測試與練習(xí)推薦給學(xué)習(xí)者。這樣就可以智能化地將處在不同學(xué)習(xí)階段的學(xué)習(xí)者得到此類應(yīng)該獲得的學(xué)習(xí)和測試進(jìn)程。
4.路徑分析技術(shù)
用路徑分析技術(shù)進(jìn)行Web使用模式的數(shù)據(jù)挖掘時,最常用的是圖。因?yàn)橐粋€圖代表了定義在網(wǎng)站上的頁面之間的聯(lián)系。圖最直接的來源是網(wǎng)站結(jié)構(gòu)圖,網(wǎng)站上的頁面定義成節(jié)點(diǎn),頁面之間的超鏈接定義成圖中的邊。其他的各式各樣的圖也都是建立在頁面和頁面之間聯(lián)系或者是一定數(shù)量的學(xué)習(xí)者瀏覽頁面順序基礎(chǔ)之上的。那么,基于Web使用模式的數(shù)據(jù)挖掘,就是從圖中確定最頻繁的路徑訪問模式或大的參引訪問序列。
四、Web挖掘在電子商務(wù)中的應(yīng)用
1.Web挖掘數(shù)據(jù)的來源
在Web挖掘中,一個關(guān)鍵性步驟是為Web挖掘提供合適的數(shù)據(jù)即挖掘?qū)ο?。同樣,把Web挖掘技術(shù)應(yīng)用到電子商務(wù)中,也需要選擇合適的目標(biāo)數(shù)據(jù)集合。電子商務(wù)網(wǎng)站每天都可能有上百萬次的在線交易,生成大量的記錄文件和登記表。這些數(shù)據(jù)具體分為以下幾種:
(1)服務(wù)器日志數(shù)據(jù)
Web服務(wù)器日志記錄了用戶訪問電子商務(wù)站點(diǎn)的瀏覽行為,是使用Web挖掘的主要數(shù)據(jù)來源。日志文件格式中最常用的公用日志格式(Common Log Format)提供了關(guān)于訪問者物理訪問站點(diǎn)的信息。
(2)Cookie日志數(shù)據(jù)
Cookie日志是服務(wù)器為了自動跟蹤電子商務(wù)網(wǎng)站訪問者而為單個瀏覽器生成的標(biāo)志。用于自動標(biāo)記和跟蹤站點(diǎn)的訪問者,并由客戶端持有。Cookie通常存儲的是類似于購物手推車狀態(tài)信息或者客戶最近連接電子商務(wù)網(wǎng)站所訪問的網(wǎng)頁等信息。在電子商務(wù)網(wǎng)站,存儲在Cookie日志的數(shù)據(jù)主要是交易信息。
(3)客戶信息
在電子商務(wù)的交易過程中,須經(jīng)過銀行的信用授權(quán)才能進(jìn)行交易。在這一過程中,大量有關(guān)客戶的個人資料等信息會傳到電子商務(wù)網(wǎng)站。把這些數(shù)據(jù)經(jīng)過清洗,然后存入網(wǎng)站的數(shù)據(jù)倉庫中作為長期趨勢的分析數(shù)據(jù),供數(shù)據(jù)挖掘之用。所需的數(shù)據(jù)類型取決于在線購物時的商業(yè)類型和所使用的數(shù)據(jù)本身。
(4)其他數(shù)據(jù)源
電子商務(wù)是基于Internet進(jìn)行各種交易的,在其上面有大量的異質(zhì)數(shù)據(jù)源,里面隱含了大量的有價值的信息有待挖掘??梢岳弥悄蹵gent來進(jìn)行抽取而獲得有用的信息,有助于電子商務(wù)活動的開展。
2.電子商務(wù)中Web挖掘的過程
在電子商務(wù)環(huán)境下,主要的挖掘?qū)ο笫欠?wù)器日志。其主要步驟如下。
(1)數(shù)據(jù)預(yù)處理
由于本地緩存、代理服務(wù)器、防火墻的存在,使得Web日志中的數(shù)據(jù)并不精確,直接進(jìn)行挖掘有可能出現(xiàn)錯誤結(jié)果。因此首先對日志數(shù)據(jù)進(jìn)行預(yù)處理,它包括數(shù)據(jù)凈化、用戶會話和事務(wù)識別等。數(shù)據(jù)清洗主要是刪除與挖掘算法無關(guān)的記錄、判斷是否有重要的訪問沒有被記錄;用戶會話是一個用戶在一定時間內(nèi)請求的所有Web頁面;事務(wù)識別主要是將頁面訪問序列劃分為代表Web事務(wù)或用戶會話的邏輯單元。
(2)模式發(fā)現(xiàn)
模式發(fā)現(xiàn)階段是采用統(tǒng)計法、機(jī)器學(xué)習(xí)法等成熟技術(shù),從Web使用記錄中挖掘知識。與電子商務(wù)有關(guān)的模式發(fā)現(xiàn)的方法有統(tǒng)計分析、聚類規(guī)則和依賴性建模。統(tǒng)計分析是抽取有關(guān)電子商務(wù)網(wǎng)站訪問者的最常用的方法。可以利用特征選擇方法來分析網(wǎng)頁,就能分析出網(wǎng)頁的某個特征的點(diǎn)擊流次數(shù),根據(jù)獲得的結(jié)果調(diào)整網(wǎng)頁的內(nèi)容和鏈接結(jié)構(gòu)。聚類規(guī)則是從一組數(shù)據(jù)項(xiàng)中聚集出相似特征的一個聚類。在電子商務(wù)中,大致可分為兩類聚類:用戶聚類和網(wǎng)頁聚類。利用聚類的規(guī)則可以分析顧客的信息便以開展電子商務(wù)活動。依賴性建模的目標(biāo)是開發(fā)出一種能表達(dá)Web域中各變量顯著依賴性的模型。這種模型是根據(jù)已存在的Web數(shù)據(jù),然后抽象出這些數(shù)據(jù)內(nèi)在關(guān)系的模型。模型的建立對增加網(wǎng)上產(chǎn)品的銷量和改進(jìn)用戶導(dǎo)航的便利性都有很大的作用。除此以外,還有關(guān)聯(lián)規(guī)則、分類、序列模式等其他的模式發(fā)現(xiàn)方法在電子商務(wù)的Web挖掘中有較大應(yīng)用。
(3)模式分析
模式分析主要是采用合適的技術(shù)和工具,進(jìn)行模式的分析來輔助分析人員的理解。最常見的模式分析方法是采用SQL查詢語句進(jìn)行分析。另一種分析方法是先將數(shù)據(jù)導(dǎo)入到多維數(shù)據(jù)立方體中,再利用OLAP工具進(jìn)行分析并提供可視化的結(jié)果輸出。設(shè)計出滿足于不同客戶群體需要的個性化網(wǎng)站,進(jìn)而增加其競爭力是電子商務(wù)網(wǎng)站生存和發(fā)展的關(guān)鍵因素。
把Web挖掘的思想和方法應(yīng)用到電子商務(wù)中去,通過對用戶訪問行為、內(nèi)容和頻度的分析,就可以得到關(guān)于群體用戶訪問行為的信息。利用這些挖掘到的有價值的信息,電子商務(wù)網(wǎng)站可以有針對性的開展商務(wù)活動。因此,Web挖掘在電子商務(wù)領(lǐng)域有很大的應(yīng)用前景。
本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。